CN113673246A - 语义融合和知识蒸馏的农业实体识别方法和装置 - Google Patents

语义融合和知识蒸馏的农业实体识别方法和装置 Download PDF

Info

Publication number
CN113673246A
CN113673246A CN202110864627.1A CN202110864627A CN113673246A CN 113673246 A CN113673246 A CN 113673246A CN 202110864627 A CN202110864627 A CN 202110864627A CN 113673246 A CN113673246 A CN 113673246A
Authority
CN
China
Prior art keywords
semantic
agricultural
entity
entity recognition
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110864627.1A
Other languages
English (en)
Inventor
李亮德
康孟珍
王秀娟
华净
王飞跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110864627.1A priority Critical patent/CN113673246A/zh
Publication of CN113673246A publication Critical patent/CN113673246A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种语义融合和知识蒸馏的农业实体识别方法和装置,其中方法包括:确定待识别文本;将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。本发明提高了农业实体识别的准确性。

Description

语义融合和知识蒸馏的农业实体识别方法和装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种语义融合和知识蒸馏的农业实体识别方法和装置。
背景技术
随着农业互联网的发展与农业从业人员的新老更替,需要进行农业知识的快速传播和应用,以解决农业技术人员不足的问题。目前,农业知识服务主要由互联网搜索和人工专家来完成,人工专家问答存在效率低,受技术专家资源稀缺的限制。同时,互联网上大量的农业知识以非结构化文本的形式存在,大大影响了农业知识获取的效率。因此,自动化农业知识服务亟需自动化地组织互联网上的非结构化农业知识,使之成为结构化的农业知识图谱,通过农业知识图谱实现自动化农业问答。
农业信息抽取是实现农业知识服务的基础。命名实体识别是农业信息抽取的基础任务,命名实体识别是指识别出文本中的实体指称项及类别。基于农业实体识别可抽取文本中的关键信息,构建农业知识图谱,实现农业知识结构化。
现有的农业实体识别方法往往使用模板匹配或者基于传统机器学习的方法,这些方法存在误差累积和传递等问题,以及需要手工构造特征的问题。当前在通用领域,基于深度学习的实体识别方法成为了主流,但是需要大量的标注样本。而农业领域,实体识别标注数据稀缺,需要人工标注实体识别数据,因此农业实体识别往往很难应用基于深度学习的方法。
发明内容
本发明提供一种语义融合和知识蒸馏的农业实体识别方法和装置,用以解决现有技术中准确性不足的缺陷。
本发明提供一种基于语义融合和知识蒸馏的农业实体识别方法,包括:
确定待识别文本;
将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;
其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
根据本发明提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述对所述样本文本进行多层次语义提取,得到语义融合信息编码,具体包括:
基于所述教师模型的多个语义提取层,对所述样本文本进行语义提取,得到各个语义提取层输出的语义信息向量;
基于所述教师模型的注意力层,对各个语义提取层输出的语义信息向量进行注意力变换,得到各个语义提取层输出的语义信息向量的注意力权重;
基于各个语义提取层输出的语义信息向量及其注意力权重,确定所述语义融合信息编码。
根据本发明提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述基于语义融合信息编码,识别所述样本文本中的样本农业实体,具体包括:
基于所述教师模型的教师上下文语义提取层,对所述语义融合信息编码进行上下文语义信息提取,得到教师上下文语义特征;
基于所述教师模型的教师实体识别层,对所述教师上下文语义特征进行实体识别,得到教师实体识别结果。
根据本发明提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述对教师模型进行知识蒸馏,具体包括:
基于所述实体识别学生模型的学生上下文语义提取层,对所述样本文本中每一样本分词的词向量进行上下文语义信息提取,得到学生上下文语义特征;
基于所述实体识别学生模型的学生实体识别层,对所述学生上下文语义特征进行实体识别,得到学生实体识别结果;
基于所述学生上下文语义特征、所述教师上下文语义特征、所述学生实体识别结果、所述教师实体识别结果以及所述样本文本的样本农业实体识别结果,更新所述实体识别学生模型的参数。
根据本发明提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述实体识别学生模型的损失函数包括语义提取差异损失、实体识别差异损失和实体识别损失;
其中,所述语义提取差异损失表征所述学生上下文语义特征与所述教师上下文语义特征之间的差异;
所述实体识别差异损失表征所述学生实体识别结果与所述教师实体识别结果之间的差异;
所述实体识别损失表征所述学生实体识别结果与所述样本文本的样本农业实体识别结果之间的差异。
根据本发明提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述样本文本的样本农业实体识别结果是基于如下步骤确定的:
遍历农业知识图谱中的所有实体,基于各个实体的实体名称和实体别名,构建各个实体对应的前缀树;
对所述样本文本进行句子切分后,将所述样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到所述样本文本的样本农业实体识别结果。
根据本发明提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述农业知识图谱是基于如下步骤构建的:
获取农业相关网页数据;
基于预设规则,对所述农业相关网页数据进行正则匹配,得到所述农业相关网页数据中的三元组结构信息;
基于所述三元组结构信息,构建所述农业知识图谱。
本发明还提供一种基于语义融合和知识蒸馏的农业实体识别装置,包括:
文本确定单元,用于确定待识别文本;
实体识别单元,用于将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;
其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述基于语义融合和知识蒸馏的农业实体识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于语义融合和知识蒸馏的农业实体识别方法的步骤。
本发明提供的语义融合和知识蒸馏的农业实体识别方法和装置,教师模型通过对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体,在此基础上,利用知识蒸馏的方式生成实体识别学生模型,提高了农业实体识别的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于语义融合和知识蒸馏的农业实体识别方法的流程示意图;
图2为本发明提供的教师模型的结构示意图;
图3为本发明提供的知识蒸馏方法的示意图;
图4为本发明提供的农业知识图谱构建方法的示意图;
图5为本发明提供的基于语义融合和知识蒸馏的农业实体识别装置的结构示意图;
图6为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的基于语义融合和知识蒸馏的农业实体识别方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待识别文本;
步骤120,将待识别文本输入至实体识别学生模型,得到实体识别学生模型输出的农业实体识别结果;
其中,实体识别学生模型是对教师模型进行知识蒸馏得到的;教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
教师模型用于对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体。
具体地,获取需要进行农业实体识别的待识别文本。随后,将该待识别文本输入到实体识别学生模型中进行命名体识别,得到对应的农业实体识别结果。其中,农业实体识别结果中包括待识别文本中是否包含农业实体,还可以包括待识别文本中具体包含的农业实体及其实体类型。其中,农业实体为待识别文本中农业相关的关键信息,例如作物、病害、农药等。
其中,实体识别学生模型是对教师模型进行知识蒸馏得到的,而教师模型是基于样本文本及其样本农业实体识别结果训练得到的。此处,实体识别学生模型相较于教师模型的结构更精简、计算复杂度更低。基于训练好的结构更复杂的教师模型,教导较精简的实体识别学生模型如何进行农业实体识别,可以使得实体识别学生模型以较小的时间复杂度和空间复杂度实现接近于教师模型的农业实体识别精度。
其中,教师模型用于对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体。此处,通过多层次语义提取,可以从不同角度提取出样本文本中的语义,得到融合有多维度语义信息的语义融合信息编码,提高了语义融合信息编码的语义表达能力。根据该语义融合信息编码,识别样本文本中的样本农业实体,有助于提高后续的实体识别的准确性。在此基础上,对教师模型进行知识蒸馏得到的实体识别学生模型,也同样可以具备较佳的语义提取能力以及较高的实体识别准确性。
本发明实施例提供的方法,教师模型通过对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体,在此基础上,利用知识蒸馏的方式生成实体识别学生模型,提高了农业实体识别的准确性。
基于上述实施例,对样本文本进行多层次语义提取,得到语义融合信息编码,具体包括:
基于教师模型的多个语义提取层,对样本文本进行语义提取,得到各个语义提取层输出的语义信息向量;
基于教师模型的注意力层,对各个语义提取层输出的语义信息向量进行注意力变换,得到各个语义提取层输出的语义信息向量的注意力权重;
基于各个语义提取层输出的语义信息向量及其注意力权重,确定语义融合信息编码。
具体地,教师模型中可以包含多个语义提取层以及注意力层。其中,语义提取层可以为Transformer层。例如,可以利用基于注意力机制的BERT多层次语义融合模型BERT-ALA构建上述语义提取层和注意力层。其中,BERT(Bidirectional Encoder Representationsfrom Transformers,BERT)可以在大量文本语料上使用自监督的方式训练一个通用的语言理解模型,然后在这个模型上设置轻量级的下游任务接口去执行特定的自然语言处理任务。
图2为本发明实施例提供的教师模型的结构示意图,如图2所示,基于教师模型的多个语义提取层,对输入的样本文本进行语义提取,得到各个语义提取层输出的语义信息向量。其中,任一语义提取层输出的语义信息向量中包含有样本文本中每个分词的语义信息,还可以包含每个分词的上下文语义信息。
随后,基于教师模型的注意力层,对各个语义提取层输出的语义信息向量进行注意力变换,得到各个语义提取层输出的语义信息向量的注意力权重。例如,可以采用如下公式计算各个语义提取层输出的语义信息向量的注意力权重:
Figure BDA0003187107710000081
其中,wi为第i个语义提取层输出的语义信息向量的注意力权重,αi(1≤i≤L)为可学习得到的参数,L是语义提取层的层数。
基于各个语义提取层输出的语义信息向量及其注意力权重,将各个语义提取层输出的语义信息向量融合,得到语义融合信息编码。例如,可以采用如下公式进行语义融合:
Figure BDA0003187107710000082
其中,h为语义融合信息编码,γ为可学习得到的参数,hi为第i个语义提取层输出的语义信息向量。
基于上述任一实施例,基于语义融合信息编码,识别样本文本中的样本农业实体,具体包括:
基于教师模型的教师上下文语义提取层,对语义融合信息编码进行上下文语义信息提取,得到教师上下文语义特征;
基于教师模型的教师实体识别层,对教师上下文语义特征进行实体识别,得到教师实体识别结果。
具体地,教师模型还包括上下文语义提取层和教师实体识别层。其中,上下文语义提取层用于对融合信息编码进行上下文语义信息提取,以建模样本文本中各分词之间的位置关系,得到教师上下文语义特征。教师实体识别层用于对教师上下文语义特征进行实体识别,建模各实体标签间的依赖关系,并输出样本文本中每个分词的实体识别标签概率,得到教师实体识别结果。教师模型在训练过程中,可以通过优化极大似然概率进行训练,训练完成后对评测集进行评测时,可以通过维特比算法进行预测,得到评测结果。
其中,上下文语义提取层可以基于BiLSTM(Bi-directional Long Short-TermMemory,双向长短记忆网络)构建,教师实体识别层可以基于CRF(Conditional RandomField,条件随机场)构建。此处,BiLSTM由两个单向的LSTM(Long Short-Term Memory,长短记忆网络)构成,两个网络中一个随时间正向传播,另一个随时间逆向传播,从而能有效的捕获上下文信息。CRF模型是一种概率无向图模型,可以解决序列标注任务,在进行实体识别时,可以使用CRF线性链。
基于上述任一实施例,对教师模型进行知识蒸馏,具体包括:
基于实体识别学生模型的学生上下文语义提取层,对样本文本中每一样本分词的词向量进行上下文语义信息提取,得到学生上下文语义特征;
基于实体识别学生模型的学生实体识别层,对学生上下文语义特征进行实体识别,得到学生实体识别结果;
基于学生上下文语义特征、教师上下文语义特征、学生实体识别结果、教师实体识别结果以及样本文本的样本农业实体识别结果,更新实体识别学生模型的参数。
具体地,图3为本发明实施例提供的知识蒸馏方法的示意图,如图3所示,实体识别学生模型的结构相较于教师模型更简单,其包含学生上下文语义提取层和学生实体识别层。若教师模型采用BERT-ALA+BiLSTM+CRF的结构,则实体识别学生模型可以采用BiLSTM+CRF的结构。
其中,学生上下文语义提取层用于对样本文本中每一样本分词的词向量进行上下文语义信息提取,得到学生上下文语义特征;学生实体识别层用于对学生上下文语义特征进行实体识别,得到学生实体识别结果。
随后,基于学生上下文语义特征、教师上下文语义特征、学生实体识别结果、教师实体识别结果以及样本文本的样本农业实体识别结果,更新实体识别学生模型的参数。此处,实体识别学生模型可以学习教师模型的语义提取能力和实体识别能力。需要说明的是,知识蒸馏过程中,对教师模型的教师上下文语义提取层的输出hBiLSTM(T)和教师实体识别层的输出hCRF(T)进行梯度截断,也就是教师模型不更新。
基于上述任一实施例,实体识别学生模型的损失函数包括语义提取差异损失、实体识别差异损失和实体识别损失;
其中,语义提取差异损失表征学生上下文语义特征与教师上下文语义特征之间的差异;
实体识别差异损失表征学生实体识别结果与教师实体识别结果之间的差异;
实体识别损失表征学生实体识别结果与样本文本的样本农业实体识别结果之间的差异。
具体地,实体识别学生模型的损失函数包括语义提取差异损失、实体识别差异损失和实体识别损失。其中,语义提取差异损失表征学生上下文语义特征与教师上下文语义特征之间的差异;实体识别差异损失表征学生实体识别结果与教师实体识别结果之间的差异;实体识别损失表征学生实体识别结果与样本文本的样本农业实体识别结果之间的差异。
具体而言,可以计算学生上下文语义特征与教师上下文语义特征之间的均方误差,得到语义提取差异损失。例如,可采用如下公式计算语义提取差异损失:
MSEloss(hBiLSTM(T),hBiLSTM(S))=(hBiLSTM(T)-hBiLSTM(S))2
其中,T代表教师模型,S代表实体识别学生模型;hBiLSTM(T)为教师上下文语义特征,hBiLSTM(S)为学生上下文语义特征。
可以计算学生实体识别结果的概率分布与教师实体识别结果的概率分布之间的交叉熵,得到实体识别差异损失。例如,可采用如下公式计算实体识别差异损失:
CEloss(hCRF(T),hcRF(S))=-hCRF(T)log(hCRF(S))
其中,hCRF(T)为教师实体识别结果的概率分布,hCRF(S)为学生实体识别结果的概率分布。
还可以计算学生实体识别结果的极大似然概率,得到实体识别损失CRFloss(ytrue,hCRF(S)),其中ytrue代表样本文本的样本农业实体识别结果。
综上所述,实体识别学生模型的损失函数可以表示为:
loss=α1MSEloss(hBiLSTM(T),hBiLSTM(S))+α2CEloss(hCRF(T),hcRF(S))+α3CRFloss(ytrue,hCRF(S))
其中,α1、α2和α3为对应权重。
基于上述任一实施例,样本文本的样本农业实体识别结果是基于如下步骤确定的:
遍历农业知识图谱中的所有实体,基于各个实体的实体名称和实体别名,构建各个实体对应的前缀树;
对样本文本进行句子切分后,将样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到样本文本的样本农业实体识别结果。
具体地,可以通过远程监督的方式构建训练集。其中,训练样本的标注过程可以如下:
遍历农业知识图谱中的所有实体,用各个实体的实体名称以及实体别名构建前缀树,其中,前缀树的根节点可以保存实体的类型信息(如作物、病害、农药等等)。
按照标点符号对样本文本进行句子切分,遍历各个分句,通过前缀树实现最大前缀匹配,从而将句子中的实体划分出来,得到样本文本的样本农业实体识别结果。
例如分句:“怎样进行番茄分苗”,通过前向最大匹配,可以得到番茄两字对应农业知识图谱里面“番茄”这个实体,番茄实体的类别是作物(crop)。进而,可以生成标签O(“怎”)O(“样”)O(“进”)O(“行”)B_crop(“番”)I_crop(“茄”)O(“分”)O(“苗”)。其中,O(other)表示非实体,B(begin)表示实体开始位置,I(interior)表示实体内部以及结束位置,crop表示实体类型为作物类型。B_crop I_crop表示类型为作物的实体,分别对应于实体的开始和结束的位置,在句子中为第4和第5个分词(“番茄”)。
本发明实施例提供的方法,通过遍历农业知识图谱中的所有实体,构建各个实体对应的前缀树,并将样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到样本文本的样本农业实体识别结果,实现了农业文本的自动标注。
基于上述任一实施例,农业知识图谱是基于如下步骤构建的:
获取农业相关网页数据;
基于预设规则,对农业相关网页数据进行正则匹配,得到农业相关网页数据中的三元组结构信息;
基于三元组结构信息,构建农业知识图谱。
具体地,图4为本发明实施例提供的农业知识图谱构建方法的示意图,如图4所示,农业知识图谱可以基于如下步骤构建:
从互动百科上获取网页数据,将网页的内容数据保存在数据库中;
对获取的网页进行清洗过滤,过滤掉无关的网页数据,得到农业相关网页数据,并通过规则进行正则匹配,自动解释出网页数据里面的实体以及实体的属性,实体与实体之间的关系,得到三元组结构信息;
还可以对获取到的农业相关网站进行数据清洗过滤得到半结构化的数据,再通过正则匹配以及简单的无监督信息抽取的方式将半结构化数据转化为三元组结构信息;
融合上述三元组结构信息,构建农业知识图谱。
基于上述任一实施例,为了验证上述基于语义融合和知识蒸馏的农业实体识别方法的有效性,本发明实施例选取了农业和医学两个领域,共三个数据集来进行实验验证。选取医学领域的原因在于医学领域与农业领域一样,都属于特定领域,另外,医学领域实体识别相对农业领域数据,更容易获取开源的实验识别标注数据。以下数据集中,第一个数据集是本发明实施例构建的数据集,后两个数据集是公开的数据集。
数据一:采用上述基于远程监督的方式构建训练集,验证集由人工标注。其中包含作物实体有4662个,疾病实体695个。训练集和测试集的比例是8:2,训练集有10,277条数据,测试集有2532条数据。
数据二:来源于讯飞开放平台的农业问答数据处理挑战赛中的实体识别任务,标注出农作物、病虫害和农药的命名实体标签。数据集包含病虫害实100,660个,农药实体250,740,作物实5796个。训练集包含15624个样本,测试集包含3906个样本。
数据三:医学领域数据,来源于ccks 2017的task 2,面向电子病历的命名实体识别。即,对于给定的一组电子病历文档(纯文本文件),任务的目标是识别并抽取出与医学临床相关的实体。数据集包含症状和体征实体12,821个、检查和检验实体17,655个、疾病和诊断实体4560个、治疗实体4940个、身体部位实体17,556个。训练集包含10,787个样本,测试集包含2697个样本。
基于上述实施例提供的基于语义融合和知识蒸馏的农业实体识别方法,计算Macro F1指标,验证效果如表1:
表1语义融合机制有效性验证结果
Figure BDA0003187107710000141
验证结果表明,基于注意力的层融合机制在三个数据集上都能提高实体识别的效果,相对各自的基线模型,都有1%的提高。
为了验证知识蒸馏的有效性,延用了上述数据集,对比监督数据训练的BiLSTM+CRF和知识蒸馏训练得到的BiLSTM+CRF,效果如表2:
表2知识蒸馏有效性验证
Figure BDA0003187107710000142
采用知识蒸馏的训练方法,相对于训练数据训练的同等模型,学生模型学到了更多的暗知识。蒸馏得到的学生模型在数据一上,macro-F1提高了3.1%。在数据二上,提高了4.09%,在数据三上,提高了2.82%。
以番茄为例,选取若干个番茄的百问百答问句以及回答,验证最终知识蒸馏得到的实体识别学生模型的效果,句子及其识别的结果如下:
提问1:番茄病毒病症状及防治方法是什么?
识别结果:{'mention':'番茄病毒病','type':'disease','offset':0}
提问2:番茄筋腐病是怎样产生的,如何防止?
识别结果:{'mention':'番茄筋腐病','type':'disease','offset':0}
提问3:症状:番茄细菌性斑疹病主要危害叶、茎、花、叶柄和果实。
识别结果:{'mention':'番茄细菌性斑疹病','type':'disease','offset':3}
上述提问1、2和3中的实体都能被完整识别出来。其中,提问2和3中的实体“番茄筋腐病”和“番茄细菌性斑疹病”都没有出现在词典中,即不存在于标注数据中,但是模型能识别成功,验证了模型具有良好的泛化性能。
基于上述任一实施例,图5为本发明实施例提供的基于语义融合和知识蒸馏的农业实体识别装置的结构示意图,如图5所示,该装置包括:文本确定单元510和实体识别单元520。
其中,文本确定单元510用于确定待识别文本;
实体识别单元520用于将待识别文本输入至实体识别学生模型,得到实体识别学生模型输出的农业实体识别结果;
其中,实体识别学生模型是对教师模型进行知识蒸馏得到的;教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
教师模型用于对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体。
本发明实施例提供的装置,教师模型通过对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体,在此基础上,利用知识蒸馏的方式生成实体识别学生模型,提高了农业实体识别的准确性。
基于上述任一实施例,对样本文本进行多层次语义提取,得到语义融合信息编码,具体包括:
基于教师模型的多个语义提取层,对样本文本进行语义提取,得到各个语义提取层输出的语义信息向量;
基于教师模型的注意力层,对各个语义提取层输出的语义信息向量进行注意力变换,得到各个语义提取层输出的语义信息向量的注意力权重;
基于各个语义提取层输出的语义信息向量及其注意力权重,确定语义融合信息编码。
基于上述任一实施例,基于语义融合信息编码,识别样本文本中的样本农业实体,具体包括:
基于教师模型的教师上下文语义提取层,对语义融合信息编码进行上下文语义信息提取,得到教师上下文语义特征;
基于教师模型的教师实体识别层,对教师上下文语义特征进行实体识别,得到教师实体识别结果。
基于上述任一实施例,对教师模型进行知识蒸馏,具体包括:
基于实体识别学生模型的学生上下文语义提取层,对样本文本中每一样本分词的词向量进行上下文语义信息提取,得到学生上下文语义特征;
基于实体识别学生模型的学生实体识别层,对学生上下文语义特征进行实体识别,得到学生实体识别结果;
基于学生上下文语义特征、教师上下文语义特征、学生实体识别结果、教师实体识别结果以及样本文本的样本农业实体识别结果,更新实体识别学生模型的参数。
基于上述任一实施例,实体识别学生模型的损失函数包括语义提取差异损失、实体识别差异损失和实体识别损失;
其中,语义提取差异损失表征学生上下文语义特征与教师上下文语义特征之间的差异;
实体识别差异损失表征学生实体识别结果与教师实体识别结果之间的差异;
实体识别损失表征学生实体识别结果与样本文本的样本农业实体识别结果之间的差异。
基于上述任一实施例,样本文本的样本农业实体识别结果是基于如下步骤确定的:
遍历农业知识图谱中的所有实体,基于各个实体的实体名称和实体别名,构建各个实体对应的前缀树;
对样本文本进行句子切分后,将样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到样本文本的样本农业实体识别结果。
本发明实施例提供的装置,通过遍历农业知识图谱中的所有实体,构建各个实体对应的前缀树,并将样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到样本文本的样本农业实体识别结果,实现了农业文本的自动标注。
基于上述任一实施例,农业知识图谱是基于如下步骤构建的:
获取农业相关网页数据;
基于预设规则,对农业相关网页数据进行正则匹配,得到农业相关网页数据中的三元组结构信息;
基于三元组结构信息,构建农业知识图谱。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行基于语义融合和知识蒸馏的农业实体识别方法,该方法包括:确定待识别文本;将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于语义融合和知识蒸馏的农业实体识别方法,该方法包括:确定待识别文本;将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于语义融合和知识蒸馏的农业实体识别方法,该方法包括:确定待识别文本;将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,包括:
确定待识别文本;
将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;
其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
2.根据权利要求1所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述对所述样本文本进行多层次语义提取,得到语义融合信息编码,具体包括:
基于所述教师模型的多个语义提取层,对所述样本文本进行语义提取,得到各个语义提取层输出的语义信息向量;
基于所述教师模型的注意力层,对各个语义提取层输出的语义信息向量进行注意力变换,得到各个语义提取层输出的语义信息向量的注意力权重;
基于各个语义提取层输出的语义信息向量及其注意力权重,确定所述语义融合信息编码。
3.根据权利要求1所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述基于语义融合信息编码,识别所述样本文本中的样本农业实体,具体包括:
基于所述教师模型的教师上下文语义提取层,对所述语义融合信息编码进行上下文语义信息提取,得到教师上下文语义特征;
基于所述教师模型的教师实体识别层,对所述教师上下文语义特征进行实体识别,得到教师实体识别结果。
4.根据权利要求3所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述对教师模型进行知识蒸馏,具体包括:
基于所述实体识别学生模型的学生上下文语义提取层,对所述样本文本中每一样本分词的词向量进行上下文语义信息提取,得到学生上下文语义特征;
基于所述实体识别学生模型的学生实体识别层,对所述学生上下文语义特征进行实体识别,得到学生实体识别结果;
基于所述学生上下文语义特征、所述教师上下文语义特征、所述学生实体识别结果、所述教师实体识别结果以及所述样本文本的样本农业实体识别结果,更新所述实体识别学生模型的参数。
5.根据权利要求4所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述实体识别学生模型的损失函数包括语义提取差异损失、实体识别差异损失和实体识别损失;
其中,所述语义提取差异损失表征所述学生上下文语义特征与所述教师上下文语义特征之间的差异;
所述实体识别差异损失表征所述学生实体识别结果与所述教师实体识别结果之间的差异;
所述实体识别损失表征所述学生实体识别结果与所述样本文本的样本农业实体识别结果之间的差异。
6.根据权利要求1至5任一项所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述样本文本的样本农业实体识别结果是基于如下步骤确定的:
遍历农业知识图谱中的所有实体,基于各个实体的实体名称和实体别名,构建各个实体对应的前缀树;
对所述样本文本进行句子切分后,将所述样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到所述样本文本的样本农业实体识别结果。
7.根据权利要求6所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述农业知识图谱是基于如下步骤构建的:
获取农业相关网页数据;
基于预设规则,对所述农业相关网页数据进行正则匹配,得到所述农业相关网页数据中的三元组结构信息;
基于所述三元组结构信息,构建所述农业知识图谱。
8.一种基于语义融合和知识蒸馏的农业实体识别装置,其特征在于,包括:
文本确定单元,用于确定待识别文本;
实体识别单元,用于将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;
其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于语义融合和知识蒸馏的农业实体识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于语义融合和知识蒸馏的农业实体识别方法的步骤。
CN202110864627.1A 2021-07-29 2021-07-29 语义融合和知识蒸馏的农业实体识别方法和装置 Pending CN113673246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110864627.1A CN113673246A (zh) 2021-07-29 2021-07-29 语义融合和知识蒸馏的农业实体识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110864627.1A CN113673246A (zh) 2021-07-29 2021-07-29 语义融合和知识蒸馏的农业实体识别方法和装置

Publications (1)

Publication Number Publication Date
CN113673246A true CN113673246A (zh) 2021-11-19

Family

ID=78540729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110864627.1A Pending CN113673246A (zh) 2021-07-29 2021-07-29 语义融合和知识蒸馏的农业实体识别方法和装置

Country Status (1)

Country Link
CN (1) CN113673246A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330346A (zh) * 2021-12-28 2022-04-12 广州华多网络科技有限公司 文本实体识别方法及其装置、设备、介质、产品
CN114881047A (zh) * 2022-07-12 2022-08-09 杭州远传新业科技股份有限公司 一种蔬菜病虫害图片问答方法及装置
CN117116408A (zh) * 2023-10-25 2023-11-24 湖南科技大学 一种面向电子病历解析的关系抽取方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528034A (zh) * 2020-11-16 2021-03-19 中国科学院深圳先进技术研究院 一种基于知识蒸馏的实体关系抽取方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528034A (zh) * 2020-11-16 2021-03-19 中国科学院深圳先进技术研究院 一种基于知识蒸馏的实体关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李亮德等: "基于语义融合与模型蒸馏的农业实体识别", 《智慧农业》, vol. 3, no. 1, pages 2 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330346A (zh) * 2021-12-28 2022-04-12 广州华多网络科技有限公司 文本实体识别方法及其装置、设备、介质、产品
CN114881047A (zh) * 2022-07-12 2022-08-09 杭州远传新业科技股份有限公司 一种蔬菜病虫害图片问答方法及装置
CN114881047B (zh) * 2022-07-12 2022-10-25 杭州远传新业科技股份有限公司 一种蔬菜病虫害图片问答方法及装置
CN117116408A (zh) * 2023-10-25 2023-11-24 湖南科技大学 一种面向电子病历解析的关系抽取方法
CN117116408B (zh) * 2023-10-25 2024-01-26 湖南科技大学 一种面向电子病历解析的关系抽取方法

Similar Documents

Publication Publication Date Title
CN112242187B (zh) 基于知识图谱表征学习的医疗方案推荐系统及方法
CN111613339B (zh) 一种基于深度学习的相似病历查找方法与系统
CN113673246A (zh) 语义融合和知识蒸馏的农业实体识别方法和装置
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN112380325B (zh) 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统
CN110175227A (zh) 一种基于组队学习和层级推理的对话辅助系统
CN110188272A (zh) 一种基于用户背景的社区问答网站标签推荐方法
CN111177383B (zh) 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN115269857A (zh) 一种基于文档关系抽取的知识图谱构建方法和装置
CN113764112A (zh) 一种在线医疗问答方法
CN113822026A (zh) 一种多标签实体标注方法
CN112784532A (zh) 用于短文本情感分类的多头注意力记忆网络
CN115599899A (zh) 基于飞行器知识图谱的智能问答方法、系统、设备及介质
CN111506709A (zh) 实体链接方法、装置、电子设备和存储介质
CN111339777A (zh) 基于神经网络的医学相关意图识别方法及系统
CN111563097A (zh) 一种无监督式的题目聚合方法、装置、电子设备及存储介质
CN110162651A (zh) 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法
CN112925918A (zh) 一种基于疾病领域知识图谱的问答匹配系统
CN114021546A (zh) 迁移语境网络的大桃生产知识开放问答方法及装置
CN117634615A (zh) 一种基于模态无关对比学习的多任务代码检索方法
CN117708294A (zh) 一种农业知识问答方法、装置、存储介质及设备
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
Kumar et al. An algorithm for automatic text annotation for named entity recognition using Spacy framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination