CN115759095A - 一种烟草病虫害的命名实体识别方法及其装置 - Google Patents

一种烟草病虫害的命名实体识别方法及其装置 Download PDF

Info

Publication number
CN115759095A
CN115759095A CN202211325268.3A CN202211325268A CN115759095A CN 115759095 A CN115759095 A CN 115759095A CN 202211325268 A CN202211325268 A CN 202211325268A CN 115759095 A CN115759095 A CN 115759095A
Authority
CN
China
Prior art keywords
data set
named entity
tobacco
layer
entity recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211325268.3A
Other languages
English (en)
Inventor
冯柔
陈婷
宋君乐
王通
罗建喆
朱金柯
赵晓琳
薛盼
廖本奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202211325268.3A priority Critical patent/CN115759095A/zh
Publication of CN115759095A publication Critical patent/CN115759095A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种烟草病虫害的命名实体识别方法及其装置,该方法中包括:划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,训练数据集用于训练命名实体识别模型,验证数据集用于验证命名实体识别模型,测试数据集用于对训练好的命名实体识别模型测试;基于烟草病虫害的训练数据集,确定命名实体识别模型,命名实体识别模型为BERT‑BI‑MHSA‑CRF模型;将待分类的烟草病虫害数据输入到命名实体识别模型中,输出烟草病虫害的命名实体识别结果。本发明实施例能够有效改善烟草病虫害的样本数据的处理效率。

Description

一种烟草病虫害的命名实体识别方法及其装置
技术领域
本发明涉及烟草病虫害防治技术领域,尤其涉及一种烟草病虫害的命名实体识别方法及其装置。
背景技术
我国是烟草大国,烟草种植面积大,是我国的重要农产品,烟草行业是国民经济支柱产业。烟草的病害、虫害的种类较多,且不同种类的病虫害对应的解决方法也各不相同,为提高烟草的质量,促进国民经济的发展,就要做好烟草病虫害的防治工作。
目前大量的烟草病虫害的样本数据散落在互联网中,工作人员只能通过有限时间或者精力的检索,得到关于烟草病虫害的部分相关数据,并将这些相关数据通过人工的方式加以整理,以使得整理后的数据划分到各自对应的分类中。目前对烟草病虫害的样本数据处理的过程浪费了大量人工,且划分烟草病虫害的样本数据效率较低。因此,亟需提供一种烟草病虫害的命名实体识别方法,以改善烟草病虫害的样本数据的处理效率。
发明内容
本发明的目的在于提供一种烟草病虫害的命名实体识别方法及其装置,能够改善烟草病虫害的样本数据的处理效率。
为实现上述目的,第一方面,本发明提供了一种烟草病虫害的命名实体识别方法,包括:
划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,所述训练数据集用于训练命名实体识别模型,所述验证数据集用于验证命名实体识别模型,所述测试数据集用于对训练好的命名实体识别模型测试;
基于烟草病虫害的训练数据集,确定命名实体识别模型,所述命名实体识别模型为BERT-BI-MHSA-CRF模型;
将待分类的烟草病虫害数据输入到所述命名实体识别模型中,输出烟草病虫害的命名实体识别结果。
可选的,所述烟草病虫害的样本数据集包括烟草、病害、虫害和解决方法中的至少一种实体类型。
可选的,所述划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,包括:
对所述烟草病虫害的样本数据集进行去重处理,以得到精简数据集;
将所述精简数据集按照烟草、病害、虫害和解决方法的实体类型标注,得到标注数据集;
将所述标注数据集按照预设比例划分出训练数据集、验证数据集和测试数据集。
可选的,所述预设比例为8:1:1。
可选的,所述将所述精简数据集按照烟草、病害、虫害和解决方法的实体类型标注,包括:
采用BIOES标注法将所述精简数据集按照烟草、病害、虫害和解决方法的实体类型标注,其中,B表示实体的首字符,I表示实体的中间字符,O表示非实体,E表示实体的结尾字符,S表示单个字符表示的实体。
可选的,所述基于烟草病虫害的训练数据集,确定命名实体识别模型,包括:
利用BERT预训练层将训练数据集中文本向量化,得到训练后的BERT层,并输出对应的字向量,所述BERT预训练层为BERT-BI-MHSA-CRF模型的初始层;
将所述字向量分别输入到BiGRU预训练层和IDCNN预训练层中,以得到BiGRU层和IDCNN层,其中,BiGRU层用于识别上下文特征信息,IDCNN层用于扩大感受野;
将集成输出结果输入到MHSA预训练层中,得到MHSA层,其中,所述集成输出结果通过BiGRU层的第一输出结果和IDCNN层的第二输出结果平均集成得到,所述MHSA层用于获取集成输出结果中的关键字符信息;
将关键字符信息输入到CRF预训练层中,得到CRF层,所述CRF层中设置有特征转移矩阵,所述CRF层用于输出实体标签。
可选的,还包括:
利用评估指标对所述命名实体识别模型进行评估,得到评估结果,其中,所述评估指标包括精确率、召回率和F1值中的至少一种。
第二方面,本发明提供了一种烟草病虫害的命名实体识别装置,包括:
划分模块,用于划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,所述训练数据集用于训练命名实体识别模型,所述验证数据集用于验证命名实体识别模型,所述测试数据集用于对训练好的命名实体识别模型测试;
命名实体识别模块,用于基于烟草病虫害的训练数据集,确定命名实体识别模型,所述命名实体识别模型为BERT-BI-MHSA-CRF模型;
识别结果输出模块,用于将待分类的烟草病虫害数据输入到所述命名实体识别模型中,输出烟草病虫害的命名实体识别结果。
基于以上,本发明提供了一种烟草病虫害的命名实体识别方法,包括:划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,所述训练数据集用于训练命名实体识别模型,所述验证数据集用于验证命名实体识别模型,所述测试数据集用于对训练好的命名实体识别模型测试;基于烟草病虫害的训练数据集,确定命名实体识别模型,所述命名实体识别模型为BERT-BI-MHSA-CRF模型;将待分类的烟草病虫害数据输入到所述命名实体识别模型中,输出烟草病虫害的命名实体识别结果。本发明实施例通过训练出的命名实体识别模型就能自动对待分类的烟草病虫害数据进行识别,避免了人工分类的情况,能够有效改善烟草病虫害的样本数据的处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中提供的一种烟草病虫害的命名实体识别方法的步骤流程图;
图2为本发明实施例中划分烟草病虫害的样本数据集的流程示意图;
图3为本发明实施例中确定命名实体识别模型的步骤示意图;
图4为本发明实施例中BiGRU层的计算过程示意图;
图5为本发明实施例中IDCNN层处于不同状态下的示意图;
图6为本发明实施例提供的烟草病虫害的命名实体识别装置的框图;
图7为本发明实施例中命名实体识别模型的架构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
如背景技术中所述,当烟草病虫害的样本数据需要处理时,采用人工处理的方式,处理效率比较低。
发明人研究发现,采用模型代替人工完成分类准确率更高。为此,发明人提出了一种特殊的命名实体识别模型,通过与命名实体识别方法相结合,从而利用命名实体识别模型识别烟草病虫害的样本数据,利用命名实体识别方法实现对烟草病虫害的样本数据的自动分类,避免了人工直接分类的情况,改善烟草病虫害的样本数据的处理效率。
基于此,本发明实施例提供一种烟草病虫害的命名实体识别方法,包括:划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,所述训练数据集用于训练命名实体识别模型,所述验证数据集用于验证命名实体识别模型,所述测试数据集用于对训练好的命名实体识别模型测试;基于烟草病虫害的训练数据集,确定命名实体识别模型,所述命名实体识别模型为BERT-BI-MHSA-CRF模型;将待分类的烟草病虫害数据输入到所述命名实体识别模型中,输出烟草病虫害的命名实体识别结果。本发明实施例通过训练出的命名实体识别模型就能自动对待分类的烟草病虫害数据进行识别,避免了人工分类的情况,能够有效改善烟草病虫害的样本数据的处理效率。
下面对本发明实施例中的具体内容进行说明。
图1为本发明实施例中提供的一种烟草病虫害的命名实体识别方法的步骤流程图。参考图1所述,该命名实体识别方法的步骤具体包括:
步骤S11、划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,所述训练数据集用于训练命名实体识别模型,所述验证数据集用于验证命名实体识别模型,所述测试数据集用于对训练好的命名实体识别模型测试。
可选的,所述烟草病虫害的样本数据集可以从公开的网站获取,分析网站中的页面的步骤和整体样式结构,获取网页中标签的URL地址,采用正则表达式与Xpath相结合的方式批量获取网页中所需的数据,例如病害、虫害等,将获取得到的烟草病虫害的样本数据集保存在本地存储。
图2为本发明实施例中划分烟草病虫害的样本数据集的流程示意图。在一种实施例中,参考图2所示,步骤S11、所述划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,可以具体包括:
步骤S21、对所述烟草病虫害的样本数据集进行去重处理,以得到精简数据集;
去重处理用于去除掉烟草病虫害的样本数据集中的重复信息,从而得到精简数据集。
步骤S22、将所述精简数据集按照烟草、病害、虫害和解决方法的实体类型标注,得到标注数据集。
在一种实施例中,所述将所述精简数据集按照烟草、病害、虫害和解决方法的实体类型标注,包括:
采用BIOES标注法将所述精简数据集按照烟草、病害、虫害和解决方法的实体类型标注,其中,B表示实体的首字符,I表示实体的中间字符,O表示非实体,E表示实体的结尾字符,S表示单个字符表示的实体。
本发明实施例中的BIOES标注法是在BIO标注法的基础上提出来的,其在命名实体的标注中更加标准完善,B表示实体的首字符,I表示实体的中间字符,O表示非实体,E表示实体的结尾字符,S表示单个字符表示的实体。在本发明实施例中,使用BIOES标注法对烟草病虫害领域数据集中的实体进行标注,可以考虑到实体的类型。示例的,“黑胫病”是烟草病虫害领域数据集中的一种病害,采用本申请中的BIOES标注法对“黑胫病”进行标注时,其标注表示为黑B-DISEASE胫I-DISEASE病E-DISEASE,其中,DISEASE表示病害实体的类型,BIE分别表示病害实体“黑胫病”这一实体的开始、中间和结尾。
在本申请其他可选实施例中,还可以采用BIO标注法。其中,BIO标注法是最开始使用的标注法,其含义是:B表示实体的首字符,I表示实体的内部字符,O表示非实体,例如,“黑胫病”是烟草病虫害领域数据集中的一种病害,“黑胫病”的标注为黑B-DISEASE胫I-DISEASE病I-DISEASE,其中,DISEASE表示病害实体的类型,采用该标注法准确率相较于BIOES标注法来说偏低,但是同样能够实现对精简数据集的实体类型标注。
步骤S23、将所述标注数据集按照预设比例划分出训练数据集、验证数据集和测试数据集。
在一种实施例中,将所述标注数据集按照8:1:1划分出训练数据集、验证数据集和测试数据集。
步骤S12、基于烟草病虫害的训练数据集,确定命名实体识别模型,所述命名实体识别模型为BERT-BI-MHSA-CRF模型;
确定命名实体识别模型,实际上为BERT-BI-MHSA-CRF模型的训练过程。在训练过程中为解决过拟合问题,引入dropout机制,Drop率设为0.15,所有模型均通过Adam优化算法进行参数优化,采用分层学习率:BERT层设为0.00001,BiGRU、IDCNN、MHSA、CRF层设为0.001。
其中,dropout机制在每个训练批次中,通过忽略一半的特征检测器(让一半的隐层节点值为0),可以明显地减少过拟合现象。这种方式可以减少特征检测器(隐层节点)间的相互作用,检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。
具体的,参考图3所示,基于烟草病虫害的训练数据集,确定命名实体识别模型的过程为:
步骤S31、利用BERT预训练层将训练数据集中文本向量化,得到BERT层,并输出对应的字向量,所述BERT预训练层为BERT-BI-MHSA-CRF模型的初始层;
具体的,BERT预训练层中使用双向Transformer神经网络作为编码器,使得模型能够充分获取输入文本中的语义信息。并且采用“MASK语言模型”来进行模型预训练,掩盖句子中15%的词语,通过上下文的内容来预测被掩盖的词。BERT预训练层能够生成表征上下文语义信息的字向量,提取文本中的重要特征。进而训练后的BERT层具有很强的语义获取能力和实体关系识别能力,同时能够有效解决一词多义的问题,
步骤S32、将所述字向量分别输入到BiGRU预训练层和IDCNN预训练层中,以得到BiGRU层和IDCNN层,其中,BiGRU层用于识别上下文特征信息,IDCNN层用于扩大感受野;
需要说明的是,BiGRU层用于识别上下文特征信息,能够更好地捕捉时序数据中间隔较大的依赖关系。
BiGRU层是一种特殊的循环神经网络,可以执行但不限于控制重置的门控,更新,以及确定隐藏状态,其计算过程示意图可以如图4所示,计算过程示意图对应的计算公式如下:
rt=σ(wrxxt+wrhht-1+br) 公式1
在命名实体识别处理文本的过程中,通常需要进行一个重置的操作,即以新词替换旧词,这就需要通过遗忘门来实现。具体的,在公式1中,rt即为控制重置的门控,xt为t时刻的细胞状态,ht-1为t-1时刻的隐藏状态,wrx、wrh分别为更新门、重置门的权重矩阵,br为偏置量,σ为sigmoid函数,该函数将数据控制在[0,1]之间,σ充当门控信号,门控信号越接近0,表示遗忘的数据越多,反之,记住得越多。
zt=σ(wzxxt+wzhht-1+bz) 公式2
在命名实体识别处理文本的过程中,通常需要进行一个更新的操作,即将新的内容添加到已有的语句中,具体的,如公式2中所示zt即为控制更新的门控,xt为t时刻的细胞状态,ht-1为t-1时刻的隐藏状态,wzx、wzh分别为更新门、重置门的权重矩阵,bz为偏置量,σ为sigmoid函数,该函数将数据控制在[0,1]之间,充当门控信号,门控信号越接近0,表示遗忘的数据越多,反之,记住得越多。
h'=tanh(whxxt+whhht-1*rt) 公式3
具体的,如公式3中所示h'指候选隐藏状态,tanh函数是对候选隐藏函数进行激活,使其值在[-1,1]范围内,xt为t时刻的细胞状态,ht-1为t-1时刻的隐藏状态,whx、whh分别为更新门、重置门的权重矩阵,rt为控制重置的门控。
ht=(1-zt)*ht-1+h'*zt 公式4
具体的,得到隐藏状态ht的过程,如公式4中所示将隐藏状态从ht-1更新到ht,需要丢掉旧数据并加入新数据,将(1-zt)与ht-1进行加权,将h'与zt进行加权操作,控制上一时刻细胞通过遗忘门的比例,最后将两者结合得到。
在一种可选实现中,病害实体“根黑腐病”,BiGRU层可以获得“黑”的后一个字“腐”的特征信息,使用BiGRU层获得上下文信息,可以更充分捕获语句序列的文本特征。对于每一个句子,分别从前向和反向输出,将前向和反向输出进行拼接
Figure BDA0003911824840000081
Figure BDA0003911824840000082
是前向GRU在t时刻的输出,
Figure BDA0003911824840000083
为反向GRU在t时刻的输出,前向和反向输出进行拼接
Figure BDA0003911824840000084
就是BiGRU的输出。
所述IDCNN层为迭代膨胀卷积神经网络。IDCNN中包含多个膨胀卷积块,一个膨胀卷积块为一个多层的膨胀卷积神经网络(DCNN),每个卷积块的输出又传递给下一卷积块,使得模型能够获得更宽的感受范围,且具有较好的泛化能力,能够扩大感受野。
示例的,本申请中的IDCNN层可以参考图5所示,标准卷积下,卷积核大小为3×3,当卷积的膨胀宽度为2时,感受视野增大为7×7,可见,本申请中的IDCNN层能够扩大感受野。
步骤S33、将集成输出结果输入到MHSA预训练层中,得到MHSA层,其中,所述集成输出结果通过BiGRU层的第一输出结果和IDCNN层的第二输出结果平均集成得到,所述MHSA层用于获取集成输出结果中的关键字符信息;
将BiGRU层的第一输出结果(输出特征向量)和IDCNN层的第二输出结果(输出特征向量)进行平均集成,再将集成输出结果(集成后的特征向量)输入到MHSA层中。
在MHSA层中对集成输出结果中的Q、K、V(Q为查询矩阵、K为键矩阵,V为值矩阵)进行自注意力变换,这个过程独立重复h次(h为MHSA模块中的头数),最后将h次比例点积注意力的结果进行拼接,再进行一次线性变换得到MHSA层的最终输出。所述MHSA层本质就是多个独立的注意力计算然后再集成,每一个注意力机制函数只负责最终输出序列中一个子空间,也就是说,所述MHSA层用于获取集成输出结果中的关键字符信息。
步骤S34、将关键字符信息输入到CRF预训练层中,得到CRF层,所述CRF层中设置有特征转移矩阵,所述CRF层用于输出实体标签。
其中,CRF层中有特征转移矩阵,能够考虑输出标签之间的关联性,从而获取全局最优序列,提高预测的准确率。
示例的,利用CRF层预测全局最优序列的一种可选实现方式为:
对于输入序列X=(X1,X2,···,Xn)为观测序列,输出序列Y=(Y1,Y2,···,Yn)为与之对应的标记序列,n是序列长度,其条件概率的计算公式为:
Figure BDA0003911824840000091
Figure BDA0003911824840000092
Figure BDA0003911824840000093
在公式5到公式7中,J是定义在该节点的局部特征函数的总个数,i是当前节点在序列的位置。wj为特征函数的权重系数,用以表达我们对这个特征函数的信任度。i表示句子x中第i个词,yi表示要评分的标注序列给第i个单词标注的词性,yi-1表示要评分的标注序列给第i-1个单词标注的词性。
Figure BDA0003911824840000094
表示在x的条件下取得状态yi-1,yi时所有特征的得分,Z(x)表示对所有序列的非规范化得分的总和。特征函数fj的取值为0或者1,0表示要评分的标注序列不符合这个特征,1表示要评分的标注序列符合这个特征,fj(yi-1,yi,x,i)为特征函数,该特征函数只与当前节点和上一个节点有关。
在得到条件概率后,利用Viterbi算法计算出所有可能标签的概率,输出一个得分最高的标记序列,将得分最高的标记序列作为全局最优序列。
步骤S13、将待分类的烟草病虫害数据输入到所述命名实体识别模型中,输出烟草病虫害的命名实体识别结果。
在本发明实施例中,烟草病虫害的命名实体识别方法中还包括:
利用评估指标对所述命名实体识别模型进行评估,得到评估结果,其中,所述评估指标包括精确率、召回率和F1值中的至少一种。
由于命名实体识别模型能够将训练数据集进行文本向量化,且利用命名实体识别模型中的BiGRU层能够识别上下文特征信息,进而命名实体识别模型中的IDCNN层能够扩大感受野,利用MHSA层获取集成输出结果中的关键字符信息,最后通过CRF层输出实体标签。可见,本发明实施例中提供了一种全自动对烟草病虫害的命名实体识别的模型,优化了现有的对烟草病虫害的样本数据集的处理方法,提升了识别效率。
进一步的,本申请中采用的BERT-BI-MHSA-CRF模型能够实现对待分类的烟草病虫害数据有效识别,利用模型代替人工,避免了人工划分时的错误,提高了识别烟草病虫害数据的准确度。
可见,本发明实施例中构建了烟草病虫害领域中的命名实体识别模型,以便后续从相关的数据集中识别出命名实体,为构建知识图谱、知识问答等高层次应用打好基础,并提升其准确度。
在本发明实施例中还可以利用烟草病虫害的命名实体识别装置实现本公开实施例提供的烟草病虫害的命名实体识别方法。下文描述的烟草病虫害的命名实体识别装置的内容可与上文描述的烟草病虫害的命名实体识别方法的内容相互对应参照。
作为可选实现,图6为本发明实施例提供的烟草病虫害的命名实体识别装置的框图。参照图6所示,该烟草病虫害的命名实体识别装置可以包括:
划分模块601,用于划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,所述训练数据集用于训练命名实体识别模型,所述验证数据集用于验证命名实体识别模型,所述测试数据集用于对训练好的命名实体识别模型测试;
命名实体识别模块602,用于基于烟草病虫害的训练数据集,确定命名实体识别模型,所述命名实体识别模型为BERT-BI-MHSA-CRF模型;
识别结果输出模块603,用于将待分类的烟草病虫害数据输入到所述命名实体识别模型中,输出烟草病虫害的命名实体识别结果。
其中,所述命名实体识别模型可以参考图7所示,所述命名实体识别模型为BERT-BI-MHSA-CRF模型。具体可以是:在输入序列输入,在输出序列输出。其中,将BERT层、BI层、集成层、MHSA层以及CRF层依次连接,通过BERT层将文本向量化、BI的同步处理,以及在集成层将BI的同步处理的输出结果集成,MHSA层获取关键字符信息、并且通过CRF层输出实体标签,将实体标签作为输出序列依次输出。
进一步的,所述烟草病虫害的样本数据集包括烟草、病害、虫害和解决方法中的至少一种实体类型。
可选的,所述划分模块601,用于划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,包括:
对所述烟草病虫害的样本数据集进行去重处理,以得到精简数据集;
将所述精简数据集按照烟草、病害、虫害和解决方法的实体类型标注,得到标注数据集;
将所述标注数据集按照预设比例划分出训练数据集、验证数据集和测试数据集。
可选的,所述预设比例为8:1:1。
可选的,所述划分模块601,还可以用于所述将所述精简数据集按照烟草、病害、虫害和解决方法的实体类型标注,包括:
采用BIOES标注法将所述精简数据集按照烟草、病害、虫害和解决方法的实体类型标注,其中,B表示实体的首字符,I表示实体的中间字符,O表示非实体,E表示实体的结尾字符,S表示单个字符表示的实体。
可选的,命名实体识别模块602,用于所述基于烟草病虫害的训练数据集,确定命名实体识别模型,包括:
利用BERT预训练层将训练数据集中文本向量化,得到训练后的BERT层,并输出对应的字向量,所述BERT预训练层为BERT-BI-MHSA-CRF模型的初始层;
将所述字向量分别输入到BiGRU预训练层和IDCNN预训练层中,以得到BiGRU层和IDCNN层,其中,BiGRU层用于识别上下文特征信息,IDCNN层用于扩大感受野;
将集成输出结果输入到MHSA预训练层中,得到MHSA层,其中,所述集成输出结果通过BiGRU层的第一输出结果和IDCNN层的第二输出结果平均集成得到,所述MHSA层用于获取集成输出结果中的关键字符信息;
将关键字符信息输入到CRF预训练层中,得到CRF层,所述CRF层中设置有特征转移矩阵,所述CRF层用于输出实体标签。
可选的,还包括:
评估模块604,用于利用评估指标对所述命名实体识别模型进行评估,得到评估结果,其中,所述评估指标包括精确率、召回率和F1值中的至少一种。
上文描述了本发明实施例提供的多个实施例方案,各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用,从而延伸出多种可能的实施例方案,这些均可认为是本发明实施例披露、公开的实施例方案。
虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (8)

1.一种烟草病虫害的命名实体识别方法,其特征在于,包括:
划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,所述训练数据集用于训练命名实体识别模型,所述验证数据集用于验证命名实体识别模型,所述测试数据集用于对训练好的命名实体识别模型测试;
基于烟草病虫害的训练数据集,确定命名实体识别模型,所述命名实体识别模型为BERT-BI-MHSA-CRF模型;
将待分类的烟草病虫害数据输入到所述命名实体识别模型中,输出烟草病虫害的命名实体识别结果。
2.根据权利要求1所述的烟草病虫害的命名实体识别方法,其特征在于,所述烟草病虫害的样本数据集包括烟草、病害、虫害和解决方法中的至少一种实体类型。
3.根据权利要求2所述的烟草病虫害的命名实体识别方法,其特征在于,所述划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,包括:
对所述烟草病虫害的样本数据集进行去重处理,以得到精简数据集;
将所述精简数据集按照烟草、病害、虫害和解决方法的实体类型标注,得到标注数据集;
将所述标注数据集按照预设比例划分出训练数据集、验证数据集和测试数据集。
4.根据权利要求3所述的烟草病虫害的命名实体识别方法,其特征在于,所述预设比例为8:1:1。
5.根据权利要求3所述的烟草病虫害的命名实体识别方法,其特征在于,所述将所述精简数据集按照烟草、病害、虫害和解决方法的实体类型标注,包括:
采用BIOES标注法将所述精简数据集按照烟草、病害、虫害和解决方法的实体类型标注,其中,B表示实体的首字符,I表示实体的中间字符,O表示非实体,E表示实体的结尾字符,S表示单个字符表示的实体。
6.根据权利要求3所述的烟草病虫害的命名实体识别方法,其特征在于,所述基于烟草病虫害的训练数据集,确定命名实体识别模型,包括:
利用BERT预训练层将训练数据集中文本向量化,得到训练后的BERT层,并输出对应的字向量,所述BERT预训练层为BERT-BI-MHSA-CRF模型的初始层;
将所述字向量分别输入到BiGRU预训练层和IDCNN预训练层中,以得到BiGRU层和IDCNN层,其中,BiGRU层用于识别上下文特征信息,IDCNN层用于扩大感受野;
将集成输出结果输入到MHSA预训练层中,得到MHSA层,其中,所述集成输出结果通过BiGRU层的第一输出结果和IDCNN层的第二输出结果平均集成得到,所述MHSA层用于获取集成输出结果中的关键字符信息;
将关键字符信息输入到CRF预训练层中,得到CRF层,所述CRF层中设置有特征转移矩阵,所述CRF层用于输出实体标签。
7.根据权利要求1所述的烟草病虫害的命名实体识别方法,其特征在于,还包括:
利用评估指标对所述命名实体识别模型进行评估,得到评估结果,其中,所述评估指标包括精确率、召回率和F1值中的至少一种。
8.一种烟草病虫害的命名实体识别装置,其特征在于,包括:
划分模块,用于划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,所述训练数据集用于训练命名实体识别模型,所述验证数据集用于验证命名实体识别模型,所述测试数据集用于对训练好的命名实体识别模型测试;
命名实体识别模块,用于基于烟草病虫害的训练数据集,确定命名实体识别模型,所述命名实体识别模型为BERT-BI-MHSA-CRF模型;
识别结果输出模块,用于将待分类的烟草病虫害数据输入到所述命名实体识别模型中,输出烟草病虫害的命名实体识别结果。
CN202211325268.3A 2022-10-27 2022-10-27 一种烟草病虫害的命名实体识别方法及其装置 Pending CN115759095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211325268.3A CN115759095A (zh) 2022-10-27 2022-10-27 一种烟草病虫害的命名实体识别方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211325268.3A CN115759095A (zh) 2022-10-27 2022-10-27 一种烟草病虫害的命名实体识别方法及其装置

Publications (1)

Publication Number Publication Date
CN115759095A true CN115759095A (zh) 2023-03-07

Family

ID=85353642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211325268.3A Pending CN115759095A (zh) 2022-10-27 2022-10-27 一种烟草病虫害的命名实体识别方法及其装置

Country Status (1)

Country Link
CN (1) CN115759095A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094325A (zh) * 2023-09-25 2023-11-21 安徽农业大学 水稻病虫害领域命名实体识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094325A (zh) * 2023-09-25 2023-11-21 安徽农业大学 水稻病虫害领域命名实体识别方法
CN117094325B (zh) * 2023-09-25 2024-03-29 安徽农业大学 水稻病虫害领域命名实体识别方法

Similar Documents

Publication Publication Date Title
CN111444726B (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN109543084B (zh) 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN109597891B (zh) 基于双向长短时记忆神经网络的文本情感分析方法
CN108170736B (zh) 一种基于循环注意力机制的文档快速扫描定性方法
CN111639171A (zh) 一种知识图谱问答方法及装置
CN112115721B (zh) 一种命名实体识别方法及装置
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN109492230B (zh) 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法
CN111209738A (zh) 一种联合文本分类的多任务命名实体识别方法
CN110196906A (zh) 面向金融行业的基于深度学习文本相似性检测方法
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111966825A (zh) 一种基于机器学习的电网设备缺陷文本分类方法
CN111985612B (zh) 一种提高视频文本描述准确性的编码器网络模型设计方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN114648029A (zh) 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法
CN114911945A (zh) 基于知识图谱的多价值链数据管理辅助决策模型构建方法
CN115017907A (zh) 一种基于领域词典的中文农业命名实体识别方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN115858785A (zh) 一种基于大数据的敏感数据识别方法及系统
CN118152547B (zh) 一种根据提问者理解能力的机器人回答方法、介质及系统
CN113836891A (zh) 基于多元标注策略的结构化信息抽取方法和装置
CN115759095A (zh) 一种烟草病虫害的命名实体识别方法及其装置
CN118013038A (zh) 一种基于原型聚类的文本增量关系抽取方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN117094325B (zh) 水稻病虫害领域命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB03 Change of inventor or designer information

Inventor after: Chen Ting

Inventor after: Feng Rou

Inventor after: Song Junle

Inventor after: Wang Tong

Inventor after: Luo Jianzhe

Inventor after: Zhu Jinke

Inventor after: Zhao Xiaolin

Inventor after: Xue Pan

Inventor after: Liao Benqi

Inventor before: Feng Rou

Inventor before: Chen Ting

Inventor before: Song Junle

Inventor before: Wang Tong

Inventor before: Luo Jianzhe

Inventor before: Zhu Jinke

Inventor before: Zhao Xiaolin

Inventor before: Xue Pan

Inventor before: Liao Benqi

CB03 Change of inventor or designer information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination