CN113673246A - 语义融合和知识蒸馏的农业实体识别方法和装置 - Google Patents
语义融合和知识蒸馏的农业实体识别方法和装置 Download PDFInfo
- Publication number
- CN113673246A CN113673246A CN202110864627.1A CN202110864627A CN113673246A CN 113673246 A CN113673246 A CN 113673246A CN 202110864627 A CN202110864627 A CN 202110864627A CN 113673246 A CN113673246 A CN 113673246A
- Authority
- CN
- China
- Prior art keywords
- semantic
- agricultural
- entity
- entity recognition
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 89
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000000605 extraction Methods 0.000 claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 15
- 240000003768 Solanum lycopersicum Species 0.000 description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 12
- 201000010099 disease Diseases 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 239000000575 pesticide Substances 0.000 description 4
- 230000001580 bacterial effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 210000002435 tendon Anatomy 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 241000607479 Yersinia pestis Species 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 206010025421 Macule Diseases 0.000 description 1
- 244000061458 Solanum melongena Species 0.000 description 1
- 235000002597 Solanum melongena Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种语义融合和知识蒸馏的农业实体识别方法和装置,其中方法包括:确定待识别文本;将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。本发明提高了农业实体识别的准确性。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种语义融合和知识蒸馏的农业实体识别方法和装置。
背景技术
随着农业互联网的发展与农业从业人员的新老更替,需要进行农业知识的快速传播和应用,以解决农业技术人员不足的问题。目前,农业知识服务主要由互联网搜索和人工专家来完成,人工专家问答存在效率低,受技术专家资源稀缺的限制。同时,互联网上大量的农业知识以非结构化文本的形式存在,大大影响了农业知识获取的效率。因此,自动化农业知识服务亟需自动化地组织互联网上的非结构化农业知识,使之成为结构化的农业知识图谱,通过农业知识图谱实现自动化农业问答。
农业信息抽取是实现农业知识服务的基础。命名实体识别是农业信息抽取的基础任务,命名实体识别是指识别出文本中的实体指称项及类别。基于农业实体识别可抽取文本中的关键信息,构建农业知识图谱,实现农业知识结构化。
现有的农业实体识别方法往往使用模板匹配或者基于传统机器学习的方法,这些方法存在误差累积和传递等问题,以及需要手工构造特征的问题。当前在通用领域,基于深度学习的实体识别方法成为了主流,但是需要大量的标注样本。而农业领域,实体识别标注数据稀缺,需要人工标注实体识别数据,因此农业实体识别往往很难应用基于深度学习的方法。
发明内容
本发明提供一种语义融合和知识蒸馏的农业实体识别方法和装置,用以解决现有技术中准确性不足的缺陷。
本发明提供一种基于语义融合和知识蒸馏的农业实体识别方法,包括:
确定待识别文本;
将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;
其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
根据本发明提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述对所述样本文本进行多层次语义提取,得到语义融合信息编码,具体包括:
基于所述教师模型的多个语义提取层,对所述样本文本进行语义提取,得到各个语义提取层输出的语义信息向量;
基于所述教师模型的注意力层,对各个语义提取层输出的语义信息向量进行注意力变换,得到各个语义提取层输出的语义信息向量的注意力权重;
基于各个语义提取层输出的语义信息向量及其注意力权重,确定所述语义融合信息编码。
根据本发明提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述基于语义融合信息编码,识别所述样本文本中的样本农业实体,具体包括:
基于所述教师模型的教师上下文语义提取层,对所述语义融合信息编码进行上下文语义信息提取,得到教师上下文语义特征;
基于所述教师模型的教师实体识别层,对所述教师上下文语义特征进行实体识别,得到教师实体识别结果。
根据本发明提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述对教师模型进行知识蒸馏,具体包括:
基于所述实体识别学生模型的学生上下文语义提取层,对所述样本文本中每一样本分词的词向量进行上下文语义信息提取,得到学生上下文语义特征;
基于所述实体识别学生模型的学生实体识别层,对所述学生上下文语义特征进行实体识别,得到学生实体识别结果;
基于所述学生上下文语义特征、所述教师上下文语义特征、所述学生实体识别结果、所述教师实体识别结果以及所述样本文本的样本农业实体识别结果,更新所述实体识别学生模型的参数。
根据本发明提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述实体识别学生模型的损失函数包括语义提取差异损失、实体识别差异损失和实体识别损失;
其中,所述语义提取差异损失表征所述学生上下文语义特征与所述教师上下文语义特征之间的差异;
所述实体识别差异损失表征所述学生实体识别结果与所述教师实体识别结果之间的差异;
所述实体识别损失表征所述学生实体识别结果与所述样本文本的样本农业实体识别结果之间的差异。
根据本发明提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述样本文本的样本农业实体识别结果是基于如下步骤确定的:
遍历农业知识图谱中的所有实体,基于各个实体的实体名称和实体别名,构建各个实体对应的前缀树;
对所述样本文本进行句子切分后,将所述样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到所述样本文本的样本农业实体识别结果。
根据本发明提供的一种基于语义融合和知识蒸馏的农业实体识别方法,所述农业知识图谱是基于如下步骤构建的:
获取农业相关网页数据;
基于预设规则,对所述农业相关网页数据进行正则匹配,得到所述农业相关网页数据中的三元组结构信息;
基于所述三元组结构信息,构建所述农业知识图谱。
本发明还提供一种基于语义融合和知识蒸馏的农业实体识别装置,包括:
文本确定单元,用于确定待识别文本;
实体识别单元,用于将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;
其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述基于语义融合和知识蒸馏的农业实体识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于语义融合和知识蒸馏的农业实体识别方法的步骤。
本发明提供的语义融合和知识蒸馏的农业实体识别方法和装置,教师模型通过对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体,在此基础上,利用知识蒸馏的方式生成实体识别学生模型,提高了农业实体识别的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于语义融合和知识蒸馏的农业实体识别方法的流程示意图;
图2为本发明提供的教师模型的结构示意图;
图3为本发明提供的知识蒸馏方法的示意图;
图4为本发明提供的农业知识图谱构建方法的示意图;
图5为本发明提供的基于语义融合和知识蒸馏的农业实体识别装置的结构示意图;
图6为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的基于语义融合和知识蒸馏的农业实体识别方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待识别文本;
步骤120,将待识别文本输入至实体识别学生模型,得到实体识别学生模型输出的农业实体识别结果;
其中,实体识别学生模型是对教师模型进行知识蒸馏得到的;教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
教师模型用于对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体。
具体地,获取需要进行农业实体识别的待识别文本。随后,将该待识别文本输入到实体识别学生模型中进行命名体识别,得到对应的农业实体识别结果。其中,农业实体识别结果中包括待识别文本中是否包含农业实体,还可以包括待识别文本中具体包含的农业实体及其实体类型。其中,农业实体为待识别文本中农业相关的关键信息,例如作物、病害、农药等。
其中,实体识别学生模型是对教师模型进行知识蒸馏得到的,而教师模型是基于样本文本及其样本农业实体识别结果训练得到的。此处,实体识别学生模型相较于教师模型的结构更精简、计算复杂度更低。基于训练好的结构更复杂的教师模型,教导较精简的实体识别学生模型如何进行农业实体识别,可以使得实体识别学生模型以较小的时间复杂度和空间复杂度实现接近于教师模型的农业实体识别精度。
其中,教师模型用于对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体。此处,通过多层次语义提取,可以从不同角度提取出样本文本中的语义,得到融合有多维度语义信息的语义融合信息编码,提高了语义融合信息编码的语义表达能力。根据该语义融合信息编码,识别样本文本中的样本农业实体,有助于提高后续的实体识别的准确性。在此基础上,对教师模型进行知识蒸馏得到的实体识别学生模型,也同样可以具备较佳的语义提取能力以及较高的实体识别准确性。
本发明实施例提供的方法,教师模型通过对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体,在此基础上,利用知识蒸馏的方式生成实体识别学生模型,提高了农业实体识别的准确性。
基于上述实施例,对样本文本进行多层次语义提取,得到语义融合信息编码,具体包括:
基于教师模型的多个语义提取层,对样本文本进行语义提取,得到各个语义提取层输出的语义信息向量;
基于教师模型的注意力层,对各个语义提取层输出的语义信息向量进行注意力变换,得到各个语义提取层输出的语义信息向量的注意力权重;
基于各个语义提取层输出的语义信息向量及其注意力权重,确定语义融合信息编码。
具体地,教师模型中可以包含多个语义提取层以及注意力层。其中,语义提取层可以为Transformer层。例如,可以利用基于注意力机制的BERT多层次语义融合模型BERT-ALA构建上述语义提取层和注意力层。其中,BERT(Bidirectional Encoder Representationsfrom Transformers,BERT)可以在大量文本语料上使用自监督的方式训练一个通用的语言理解模型,然后在这个模型上设置轻量级的下游任务接口去执行特定的自然语言处理任务。
图2为本发明实施例提供的教师模型的结构示意图,如图2所示,基于教师模型的多个语义提取层,对输入的样本文本进行语义提取,得到各个语义提取层输出的语义信息向量。其中,任一语义提取层输出的语义信息向量中包含有样本文本中每个分词的语义信息,还可以包含每个分词的上下文语义信息。
随后,基于教师模型的注意力层,对各个语义提取层输出的语义信息向量进行注意力变换,得到各个语义提取层输出的语义信息向量的注意力权重。例如,可以采用如下公式计算各个语义提取层输出的语义信息向量的注意力权重:
其中,wi为第i个语义提取层输出的语义信息向量的注意力权重,αi(1≤i≤L)为可学习得到的参数,L是语义提取层的层数。
基于各个语义提取层输出的语义信息向量及其注意力权重,将各个语义提取层输出的语义信息向量融合,得到语义融合信息编码。例如,可以采用如下公式进行语义融合:
其中,h为语义融合信息编码,γ为可学习得到的参数,hi为第i个语义提取层输出的语义信息向量。
基于上述任一实施例,基于语义融合信息编码,识别样本文本中的样本农业实体,具体包括:
基于教师模型的教师上下文语义提取层,对语义融合信息编码进行上下文语义信息提取,得到教师上下文语义特征;
基于教师模型的教师实体识别层,对教师上下文语义特征进行实体识别,得到教师实体识别结果。
具体地,教师模型还包括上下文语义提取层和教师实体识别层。其中,上下文语义提取层用于对融合信息编码进行上下文语义信息提取,以建模样本文本中各分词之间的位置关系,得到教师上下文语义特征。教师实体识别层用于对教师上下文语义特征进行实体识别,建模各实体标签间的依赖关系,并输出样本文本中每个分词的实体识别标签概率,得到教师实体识别结果。教师模型在训练过程中,可以通过优化极大似然概率进行训练,训练完成后对评测集进行评测时,可以通过维特比算法进行预测,得到评测结果。
其中,上下文语义提取层可以基于BiLSTM(Bi-directional Long Short-TermMemory,双向长短记忆网络)构建,教师实体识别层可以基于CRF(Conditional RandomField,条件随机场)构建。此处,BiLSTM由两个单向的LSTM(Long Short-Term Memory,长短记忆网络)构成,两个网络中一个随时间正向传播,另一个随时间逆向传播,从而能有效的捕获上下文信息。CRF模型是一种概率无向图模型,可以解决序列标注任务,在进行实体识别时,可以使用CRF线性链。
基于上述任一实施例,对教师模型进行知识蒸馏,具体包括:
基于实体识别学生模型的学生上下文语义提取层,对样本文本中每一样本分词的词向量进行上下文语义信息提取,得到学生上下文语义特征;
基于实体识别学生模型的学生实体识别层,对学生上下文语义特征进行实体识别,得到学生实体识别结果;
基于学生上下文语义特征、教师上下文语义特征、学生实体识别结果、教师实体识别结果以及样本文本的样本农业实体识别结果,更新实体识别学生模型的参数。
具体地,图3为本发明实施例提供的知识蒸馏方法的示意图,如图3所示,实体识别学生模型的结构相较于教师模型更简单,其包含学生上下文语义提取层和学生实体识别层。若教师模型采用BERT-ALA+BiLSTM+CRF的结构,则实体识别学生模型可以采用BiLSTM+CRF的结构。
其中,学生上下文语义提取层用于对样本文本中每一样本分词的词向量进行上下文语义信息提取,得到学生上下文语义特征;学生实体识别层用于对学生上下文语义特征进行实体识别,得到学生实体识别结果。
随后,基于学生上下文语义特征、教师上下文语义特征、学生实体识别结果、教师实体识别结果以及样本文本的样本农业实体识别结果,更新实体识别学生模型的参数。此处,实体识别学生模型可以学习教师模型的语义提取能力和实体识别能力。需要说明的是,知识蒸馏过程中,对教师模型的教师上下文语义提取层的输出hBiLSTM(T)和教师实体识别层的输出hCRF(T)进行梯度截断,也就是教师模型不更新。
基于上述任一实施例,实体识别学生模型的损失函数包括语义提取差异损失、实体识别差异损失和实体识别损失;
其中,语义提取差异损失表征学生上下文语义特征与教师上下文语义特征之间的差异;
实体识别差异损失表征学生实体识别结果与教师实体识别结果之间的差异;
实体识别损失表征学生实体识别结果与样本文本的样本农业实体识别结果之间的差异。
具体地,实体识别学生模型的损失函数包括语义提取差异损失、实体识别差异损失和实体识别损失。其中,语义提取差异损失表征学生上下文语义特征与教师上下文语义特征之间的差异;实体识别差异损失表征学生实体识别结果与教师实体识别结果之间的差异;实体识别损失表征学生实体识别结果与样本文本的样本农业实体识别结果之间的差异。
具体而言,可以计算学生上下文语义特征与教师上下文语义特征之间的均方误差,得到语义提取差异损失。例如,可采用如下公式计算语义提取差异损失:
MSEloss(hBiLSTM(T),hBiLSTM(S))=(hBiLSTM(T)-hBiLSTM(S))2
其中,T代表教师模型,S代表实体识别学生模型;hBiLSTM(T)为教师上下文语义特征,hBiLSTM(S)为学生上下文语义特征。
可以计算学生实体识别结果的概率分布与教师实体识别结果的概率分布之间的交叉熵,得到实体识别差异损失。例如,可采用如下公式计算实体识别差异损失:
CEloss(hCRF(T),hcRF(S))=-hCRF(T)log(hCRF(S))
其中,hCRF(T)为教师实体识别结果的概率分布,hCRF(S)为学生实体识别结果的概率分布。
还可以计算学生实体识别结果的极大似然概率,得到实体识别损失CRFloss(ytrue,hCRF(S)),其中ytrue代表样本文本的样本农业实体识别结果。
综上所述,实体识别学生模型的损失函数可以表示为:
loss=α1MSEloss(hBiLSTM(T),hBiLSTM(S))+α2CEloss(hCRF(T),hcRF(S))+α3CRFloss(ytrue,hCRF(S))
其中,α1、α2和α3为对应权重。
基于上述任一实施例,样本文本的样本农业实体识别结果是基于如下步骤确定的:
遍历农业知识图谱中的所有实体,基于各个实体的实体名称和实体别名,构建各个实体对应的前缀树;
对样本文本进行句子切分后,将样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到样本文本的样本农业实体识别结果。
具体地,可以通过远程监督的方式构建训练集。其中,训练样本的标注过程可以如下:
遍历农业知识图谱中的所有实体,用各个实体的实体名称以及实体别名构建前缀树,其中,前缀树的根节点可以保存实体的类型信息(如作物、病害、农药等等)。
按照标点符号对样本文本进行句子切分,遍历各个分句,通过前缀树实现最大前缀匹配,从而将句子中的实体划分出来,得到样本文本的样本农业实体识别结果。
例如分句:“怎样进行番茄分苗”,通过前向最大匹配,可以得到番茄两字对应农业知识图谱里面“番茄”这个实体,番茄实体的类别是作物(crop)。进而,可以生成标签O(“怎”)O(“样”)O(“进”)O(“行”)B_crop(“番”)I_crop(“茄”)O(“分”)O(“苗”)。其中,O(other)表示非实体,B(begin)表示实体开始位置,I(interior)表示实体内部以及结束位置,crop表示实体类型为作物类型。B_crop I_crop表示类型为作物的实体,分别对应于实体的开始和结束的位置,在句子中为第4和第5个分词(“番茄”)。
本发明实施例提供的方法,通过遍历农业知识图谱中的所有实体,构建各个实体对应的前缀树,并将样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到样本文本的样本农业实体识别结果,实现了农业文本的自动标注。
基于上述任一实施例,农业知识图谱是基于如下步骤构建的:
获取农业相关网页数据;
基于预设规则,对农业相关网页数据进行正则匹配,得到农业相关网页数据中的三元组结构信息;
基于三元组结构信息,构建农业知识图谱。
具体地,图4为本发明实施例提供的农业知识图谱构建方法的示意图,如图4所示,农业知识图谱可以基于如下步骤构建:
从互动百科上获取网页数据,将网页的内容数据保存在数据库中;
对获取的网页进行清洗过滤,过滤掉无关的网页数据,得到农业相关网页数据,并通过规则进行正则匹配,自动解释出网页数据里面的实体以及实体的属性,实体与实体之间的关系,得到三元组结构信息;
还可以对获取到的农业相关网站进行数据清洗过滤得到半结构化的数据,再通过正则匹配以及简单的无监督信息抽取的方式将半结构化数据转化为三元组结构信息;
融合上述三元组结构信息,构建农业知识图谱。
基于上述任一实施例,为了验证上述基于语义融合和知识蒸馏的农业实体识别方法的有效性,本发明实施例选取了农业和医学两个领域,共三个数据集来进行实验验证。选取医学领域的原因在于医学领域与农业领域一样,都属于特定领域,另外,医学领域实体识别相对农业领域数据,更容易获取开源的实验识别标注数据。以下数据集中,第一个数据集是本发明实施例构建的数据集,后两个数据集是公开的数据集。
数据一:采用上述基于远程监督的方式构建训练集,验证集由人工标注。其中包含作物实体有4662个,疾病实体695个。训练集和测试集的比例是8:2,训练集有10,277条数据,测试集有2532条数据。
数据二:来源于讯飞开放平台的农业问答数据处理挑战赛中的实体识别任务,标注出农作物、病虫害和农药的命名实体标签。数据集包含病虫害实100,660个,农药实体250,740,作物实5796个。训练集包含15624个样本,测试集包含3906个样本。
数据三:医学领域数据,来源于ccks 2017的task 2,面向电子病历的命名实体识别。即,对于给定的一组电子病历文档(纯文本文件),任务的目标是识别并抽取出与医学临床相关的实体。数据集包含症状和体征实体12,821个、检查和检验实体17,655个、疾病和诊断实体4560个、治疗实体4940个、身体部位实体17,556个。训练集包含10,787个样本,测试集包含2697个样本。
基于上述实施例提供的基于语义融合和知识蒸馏的农业实体识别方法,计算Macro F1指标,验证效果如表1:
表1语义融合机制有效性验证结果
验证结果表明,基于注意力的层融合机制在三个数据集上都能提高实体识别的效果,相对各自的基线模型,都有1%的提高。
为了验证知识蒸馏的有效性,延用了上述数据集,对比监督数据训练的BiLSTM+CRF和知识蒸馏训练得到的BiLSTM+CRF,效果如表2:
表2知识蒸馏有效性验证
采用知识蒸馏的训练方法,相对于训练数据训练的同等模型,学生模型学到了更多的暗知识。蒸馏得到的学生模型在数据一上,macro-F1提高了3.1%。在数据二上,提高了4.09%,在数据三上,提高了2.82%。
以番茄为例,选取若干个番茄的百问百答问句以及回答,验证最终知识蒸馏得到的实体识别学生模型的效果,句子及其识别的结果如下:
提问1:番茄病毒病症状及防治方法是什么?
识别结果:{'mention':'番茄病毒病','type':'disease','offset':0}
提问2:番茄筋腐病是怎样产生的,如何防止?
识别结果:{'mention':'番茄筋腐病','type':'disease','offset':0}
提问3:症状:番茄细菌性斑疹病主要危害叶、茎、花、叶柄和果实。
识别结果:{'mention':'番茄细菌性斑疹病','type':'disease','offset':3}
上述提问1、2和3中的实体都能被完整识别出来。其中,提问2和3中的实体“番茄筋腐病”和“番茄细菌性斑疹病”都没有出现在词典中,即不存在于标注数据中,但是模型能识别成功,验证了模型具有良好的泛化性能。
基于上述任一实施例,图5为本发明实施例提供的基于语义融合和知识蒸馏的农业实体识别装置的结构示意图,如图5所示,该装置包括:文本确定单元510和实体识别单元520。
其中,文本确定单元510用于确定待识别文本;
实体识别单元520用于将待识别文本输入至实体识别学生模型,得到实体识别学生模型输出的农业实体识别结果;
其中,实体识别学生模型是对教师模型进行知识蒸馏得到的;教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
教师模型用于对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体。
本发明实施例提供的装置,教师模型通过对样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别样本文本中的样本农业实体,在此基础上,利用知识蒸馏的方式生成实体识别学生模型,提高了农业实体识别的准确性。
基于上述任一实施例,对样本文本进行多层次语义提取,得到语义融合信息编码,具体包括:
基于教师模型的多个语义提取层,对样本文本进行语义提取,得到各个语义提取层输出的语义信息向量;
基于教师模型的注意力层,对各个语义提取层输出的语义信息向量进行注意力变换,得到各个语义提取层输出的语义信息向量的注意力权重;
基于各个语义提取层输出的语义信息向量及其注意力权重,确定语义融合信息编码。
基于上述任一实施例,基于语义融合信息编码,识别样本文本中的样本农业实体,具体包括:
基于教师模型的教师上下文语义提取层,对语义融合信息编码进行上下文语义信息提取,得到教师上下文语义特征;
基于教师模型的教师实体识别层,对教师上下文语义特征进行实体识别,得到教师实体识别结果。
基于上述任一实施例,对教师模型进行知识蒸馏,具体包括:
基于实体识别学生模型的学生上下文语义提取层,对样本文本中每一样本分词的词向量进行上下文语义信息提取,得到学生上下文语义特征;
基于实体识别学生模型的学生实体识别层,对学生上下文语义特征进行实体识别,得到学生实体识别结果;
基于学生上下文语义特征、教师上下文语义特征、学生实体识别结果、教师实体识别结果以及样本文本的样本农业实体识别结果,更新实体识别学生模型的参数。
基于上述任一实施例,实体识别学生模型的损失函数包括语义提取差异损失、实体识别差异损失和实体识别损失;
其中,语义提取差异损失表征学生上下文语义特征与教师上下文语义特征之间的差异;
实体识别差异损失表征学生实体识别结果与教师实体识别结果之间的差异;
实体识别损失表征学生实体识别结果与样本文本的样本农业实体识别结果之间的差异。
基于上述任一实施例,样本文本的样本农业实体识别结果是基于如下步骤确定的:
遍历农业知识图谱中的所有实体,基于各个实体的实体名称和实体别名,构建各个实体对应的前缀树;
对样本文本进行句子切分后,将样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到样本文本的样本农业实体识别结果。
本发明实施例提供的装置,通过遍历农业知识图谱中的所有实体,构建各个实体对应的前缀树,并将样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到样本文本的样本农业实体识别结果,实现了农业文本的自动标注。
基于上述任一实施例,农业知识图谱是基于如下步骤构建的:
获取农业相关网页数据;
基于预设规则,对农业相关网页数据进行正则匹配,得到农业相关网页数据中的三元组结构信息;
基于三元组结构信息,构建农业知识图谱。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行基于语义融合和知识蒸馏的农业实体识别方法,该方法包括:确定待识别文本;将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于语义融合和知识蒸馏的农业实体识别方法,该方法包括:确定待识别文本;将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于语义融合和知识蒸馏的农业实体识别方法,该方法包括:确定待识别文本;将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,包括:
确定待识别文本;
将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;
其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
2.根据权利要求1所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述对所述样本文本进行多层次语义提取,得到语义融合信息编码,具体包括:
基于所述教师模型的多个语义提取层,对所述样本文本进行语义提取,得到各个语义提取层输出的语义信息向量;
基于所述教师模型的注意力层,对各个语义提取层输出的语义信息向量进行注意力变换,得到各个语义提取层输出的语义信息向量的注意力权重;
基于各个语义提取层输出的语义信息向量及其注意力权重,确定所述语义融合信息编码。
3.根据权利要求1所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述基于语义融合信息编码,识别所述样本文本中的样本农业实体,具体包括:
基于所述教师模型的教师上下文语义提取层,对所述语义融合信息编码进行上下文语义信息提取,得到教师上下文语义特征;
基于所述教师模型的教师实体识别层,对所述教师上下文语义特征进行实体识别,得到教师实体识别结果。
4.根据权利要求3所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述对教师模型进行知识蒸馏,具体包括:
基于所述实体识别学生模型的学生上下文语义提取层,对所述样本文本中每一样本分词的词向量进行上下文语义信息提取,得到学生上下文语义特征;
基于所述实体识别学生模型的学生实体识别层,对所述学生上下文语义特征进行实体识别,得到学生实体识别结果;
基于所述学生上下文语义特征、所述教师上下文语义特征、所述学生实体识别结果、所述教师实体识别结果以及所述样本文本的样本农业实体识别结果,更新所述实体识别学生模型的参数。
5.根据权利要求4所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述实体识别学生模型的损失函数包括语义提取差异损失、实体识别差异损失和实体识别损失;
其中,所述语义提取差异损失表征所述学生上下文语义特征与所述教师上下文语义特征之间的差异;
所述实体识别差异损失表征所述学生实体识别结果与所述教师实体识别结果之间的差异;
所述实体识别损失表征所述学生实体识别结果与所述样本文本的样本农业实体识别结果之间的差异。
6.根据权利要求1至5任一项所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述样本文本的样本农业实体识别结果是基于如下步骤确定的:
遍历农业知识图谱中的所有实体,基于各个实体的实体名称和实体别名,构建各个实体对应的前缀树;
对所述样本文本进行句子切分后,将所述样本文本的每一分句与各个实体对应的前缀树进行最大前缀匹配,得到所述样本文本的样本农业实体识别结果。
7.根据权利要求6所述的基于语义融合和知识蒸馏的农业实体识别方法,其特征在于,所述农业知识图谱是基于如下步骤构建的:
获取农业相关网页数据;
基于预设规则,对所述农业相关网页数据进行正则匹配,得到所述农业相关网页数据中的三元组结构信息;
基于所述三元组结构信息,构建所述农业知识图谱。
8.一种基于语义融合和知识蒸馏的农业实体识别装置,其特征在于,包括:
文本确定单元,用于确定待识别文本;
实体识别单元,用于将所述待识别文本输入至实体识别学生模型,得到所述实体识别学生模型输出的农业实体识别结果;
其中,所述实体识别学生模型是对教师模型进行知识蒸馏得到的;所述教师模型是基于样本文本及其样本农业实体识别结果训练得到的;
所述教师模型用于对所述样本文本进行多层次语义提取,得到语义融合信息编码,并基于语义融合信息编码,识别所述样本文本中的样本农业实体。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于语义融合和知识蒸馏的农业实体识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于语义融合和知识蒸馏的农业实体识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110864627.1A CN113673246A (zh) | 2021-07-29 | 2021-07-29 | 语义融合和知识蒸馏的农业实体识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110864627.1A CN113673246A (zh) | 2021-07-29 | 2021-07-29 | 语义融合和知识蒸馏的农业实体识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113673246A true CN113673246A (zh) | 2021-11-19 |
Family
ID=78540729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110864627.1A Pending CN113673246A (zh) | 2021-07-29 | 2021-07-29 | 语义融合和知识蒸馏的农业实体识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673246A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330346A (zh) * | 2021-12-28 | 2022-04-12 | 广州华多网络科技有限公司 | 文本实体识别方法及其装置、设备、介质、产品 |
CN114881047A (zh) * | 2022-07-12 | 2022-08-09 | 杭州远传新业科技股份有限公司 | 一种蔬菜病虫害图片问答方法及装置 |
CN117116408A (zh) * | 2023-10-25 | 2023-11-24 | 湖南科技大学 | 一种面向电子病历解析的关系抽取方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528034A (zh) * | 2020-11-16 | 2021-03-19 | 中国科学院深圳先进技术研究院 | 一种基于知识蒸馏的实体关系抽取方法 |
-
2021
- 2021-07-29 CN CN202110864627.1A patent/CN113673246A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528034A (zh) * | 2020-11-16 | 2021-03-19 | 中国科学院深圳先进技术研究院 | 一种基于知识蒸馏的实体关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
李亮德等: "基于语义融合与模型蒸馏的农业实体识别", 《智慧农业》, vol. 3, no. 1, pages 2 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330346A (zh) * | 2021-12-28 | 2022-04-12 | 广州华多网络科技有限公司 | 文本实体识别方法及其装置、设备、介质、产品 |
CN114881047A (zh) * | 2022-07-12 | 2022-08-09 | 杭州远传新业科技股份有限公司 | 一种蔬菜病虫害图片问答方法及装置 |
CN114881047B (zh) * | 2022-07-12 | 2022-10-25 | 杭州远传新业科技股份有限公司 | 一种蔬菜病虫害图片问答方法及装置 |
CN117116408A (zh) * | 2023-10-25 | 2023-11-24 | 湖南科技大学 | 一种面向电子病历解析的关系抽取方法 |
CN117116408B (zh) * | 2023-10-25 | 2024-01-26 | 湖南科技大学 | 一种面向电子病历解析的关系抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112242187B (zh) | 基于知识图谱表征学习的医疗方案推荐系统及方法 | |
CN111613339B (zh) | 一种基于深度学习的相似病历查找方法与系统 | |
CN113673246A (zh) | 语义融合和知识蒸馏的农业实体识别方法和装置 | |
CN112256828B (zh) | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 | |
CN112380325B (zh) | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统 | |
CN110175227A (zh) | 一种基于组队学习和层级推理的对话辅助系统 | |
CN110188272A (zh) | 一种基于用户背景的社区问答网站标签推荐方法 | |
CN111177383B (zh) | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN115269857A (zh) | 一种基于文档关系抽取的知识图谱构建方法和装置 | |
CN113764112A (zh) | 一种在线医疗问答方法 | |
CN113822026A (zh) | 一种多标签实体标注方法 | |
CN112784532A (zh) | 用于短文本情感分类的多头注意力记忆网络 | |
CN115599899A (zh) | 基于飞行器知识图谱的智能问答方法、系统、设备及介质 | |
CN111506709A (zh) | 实体链接方法、装置、电子设备和存储介质 | |
CN111339777A (zh) | 基于神经网络的医学相关意图识别方法及系统 | |
CN111563097A (zh) | 一种无监督式的题目聚合方法、装置、电子设备及存储介质 | |
CN110162651A (zh) | 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法 | |
CN115510864A (zh) | 一种融合领域词典的中文农作物病虫害命名实体识别方法 | |
CN112925918A (zh) | 一种基于疾病领域知识图谱的问答匹配系统 | |
CN114021546A (zh) | 迁移语境网络的大桃生产知识开放问答方法及装置 | |
CN117634615A (zh) | 一种基于模态无关对比学习的多任务代码检索方法 | |
CN117708294A (zh) | 一种农业知识问答方法、装置、存储介质及设备 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
Kumar et al. | An algorithm for automatic text annotation for named entity recognition using Spacy framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |