CN117094325A - 水稻病虫害领域命名实体识别方法 - Google Patents
水稻病虫害领域命名实体识别方法 Download PDFInfo
- Publication number
- CN117094325A CN117094325A CN202311240372.7A CN202311240372A CN117094325A CN 117094325 A CN117094325 A CN 117094325A CN 202311240372 A CN202311240372 A CN 202311240372A CN 117094325 A CN117094325 A CN 117094325A
- Authority
- CN
- China
- Prior art keywords
- model
- text data
- entity
- rice
- insect pests
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 241000607479 Yersinia pestis Species 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 47
- 235000007164 Oryza sativa Nutrition 0.000 title claims abstract description 43
- 235000009566 rice Nutrition 0.000 title claims abstract description 43
- 240000007594 Oryza sativa Species 0.000 title 1
- 241000209094 Oryza Species 0.000 claims abstract description 55
- 201000010099 disease Diseases 0.000 claims abstract description 54
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 54
- 241000238631 Hexapoda Species 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000002372 labelling Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 74
- 239000011159 matrix material Substances 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 108090000623 proteins and genes Proteins 0.000 claims description 4
- 208000024891 symptom Diseases 0.000 claims description 4
- 241000196324 Embryophyta Species 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000009826 distribution Methods 0.000 abstract description 2
- 238000005096 rolling process Methods 0.000 description 13
- 230000007246 mechanism Effects 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 241000220225 Malus Species 0.000 description 5
- 244000061176 Nicotiana tabacum Species 0.000 description 5
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000007787 long-term memory Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种水稻病虫害领域命名实体识别方法,包括以下步骤:步骤S1、获取水稻病虫害领域实体的文本数据;步骤S2、对部分文本数据按实体进行数据标注构建训练集,其余为未标注文本数据;步骤S3、构建识别模型,利用训练集对识别模型进行训练得到基准模型;步骤S4、利用基准模型预测未标注文本数据得到带有伪标签的文本数据;将带有伪标签的文本数据扩充训练集对基准模型进行训练,得到最终识别模型;步骤S5、利用最终识别模型识别水稻病虫害实体。本发明解决了缺乏训练数据、实体结构复杂、实体类型多样、实体分布不均问题、解决缺乏训练数据问题,减少当前大多数命名实体识别模型对高质量标注数据集的依赖。
Description
技术领域
本发明涉及命名实体识别方法领域,具体是一种水稻病虫害领域命名实体识别方法。
背景技术
现有技术常见的命名实体识别方法有基于规则的方法、基于词典的方法、基于机器学习的方法、基于深度学习的方法,它们各有优劣。其中基于规则的方法使用预定义的规则和模式来匹配和标记文本中的实体。例如,可以定义特定的词性和词语模式,如“水稻病害名称+‘病’”或“‘水稻’+‘病虫害名称’”,然后通过正则表达式等方法从文本中匹配并识别水稻病虫害实体。基于词典的方法利用预先构建的水稻病虫害词典或知识库,通过匹配文本中的词语与词典中的实体进行识别。这种方法可以通过增量更新词典来不断扩充和更新病虫害实体的识别范围。
基于规则的方法和基于词典的方法在用于水稻病虫害命名实体识别过程中依赖于事先定义的规则或词典,可能无法完全涵盖所有的病虫害实体,尤其是新近出现的或不常见的病虫害实体,需要不断更新和维护词典或规则库,增加了人力成本和时间消耗,因此已经逐步被机器学习和深度学习的方法取代。
而基于机器学习的方法使用机器学习算法(如支持向量机、随机森林、神经网络等)通过从标注好的训练数据中学习特征和模式,来实现水稻病虫害实体的识别。特征可以包括词性、上下文信息、词向量等。近年来,深度学习在NER任务中取得了显著的进展。基于深度学习的方法使用深度学习模型(如循环神经网络、转换器等),可以学习到更丰富的语义特征和上下文信息,进一步提高水稻病虫害实体的识别性能。但机器学习和深度学习在用于水稻病虫害命名实体识别时存在以下不足之处:
1.特征工程的依赖:传统的机器学习方法需要手动设计和选择特征,这会消耗大量的时间和人力,且特征工程的质量直接关系到模型的性能。同时,由于水稻病虫害领域的复杂性,设计和选择合适的特征可能面临挑战。
2.数据标注成本高:机器学习方法和深度学习方法通常需要大量标注好的训练数据来训练模型。在水稻病虫害领域,获取大规模的标注数据成本较高,因为需要专业人士对文本进行详细的标注和校对。
3.模型泛化能力:一些方法在应对不同领域和不同类型病虫害时的泛化能力有限。由于水稻病虫害的多样性和变异性,可能存在一些特定领域或新的病虫害类型无法准确识别的情况。
4.数据稀缺问题:水稻病虫害领域的数据可能相对稀缺,特别是针对一些罕见的病虫害实体。这可能导致模型在对这些实体进行准确识别时的困难。
为了解决机器学习和深度学习方法在水稻病虫害命名实体识别存在的问题,现有技术专利:CN115526175A基于注意力机制的苹果病虫害命名实体识别方法中,公开了得到苹果病虫害数据集之后,首先通过BERT预训练模型获取数据集中的字符向量;接下来以字符向量为输入,通过BI-LSTM模型提取上下文特征得到特征序列;然后通过注意力层处理BI-LSTM层输出的特征序列,得到当前词与序列中其他词的权重,获取全局特征表示;最后将加入注意力机制的特征序列送入CRF中进行标签预测,得到最合理的标签序列,完成苹果病虫害命名实体识别,可以实现基于注意力机制的苹果病虫害命名实体识别模型,使模型在苹果病虫害命名实体识别数据集中取得更好的评估指标。该专利存在的的缺点及不足之处为:A、缺乏语料库数据集的构造来源方法。B、BERT模型在进行掩码语言建模时,只能根据前面的上下文信息来预测掩码位置的词语,无法考虑后面的上下文关系。C、注意力机制需要更复杂的计算和额外的参数,要大量的模型参数,特别是当图数据规模较大时,计算效率和数据效率都相对较低。
此外,现有技术专利:CN115759095A一种烟草病虫害的命名实体识别方法及其装置中,公开了一种烟草病虫害的命名实体识别方法及其装置,该方法中包括:划分烟草病虫害的样本数据集,得到训练数据集、验证数据集和测试数据集,训练数据集用于训练命名实体识别模型,验证数据集用于验证命名实体识别模型,测试数据集用于对训练好的命名实体识别模型测试;基于烟草病虫害的训练数据集,确定命名实体识别模型,命名实体识别模型为BERT-BI-MHSA-CRF模型;将待分类的烟草病虫害数据输入到命名实体识别模型中,输出烟草病虫害的命名实体识别结果。该专利存在的缺点及不足之处为:A、缺乏对真实语料库的研究。特定领域的NER任务中,数据标注过程需要相关专家参与,耗时耗力。B、同时,该领域存在一些问题,如训练数据缺乏、实体嵌套、实体边界模糊、实体类别多样、实体分布不均匀等。模型的泛化能力教差、数据稀少。C、BERT-BI-MHSA-CRF模型中的自注意力机制通常需要更多的参数和计算资源。D、虽然BiLSTM-CRF方法可以在一定程度上获取到句子的上下文语义特征,但不能获取远距离依赖关系。
发明内容
本发明提供了一种水稻病虫害领域命名实体识别方法,以解决现有技术基于机器学习和深度学习在用于水稻病虫害命名实体识别方法存在的无法准确定位实体、缺少数据集的问题。
为了达到上述目的,本发明所采用的技术方案为:
水稻病虫害领域命名实体识别方法,包括以下步骤:
步骤S1、获取水稻病虫害领域多种实体的文本数据,并对获取的文本数据进行预处理;
步骤S2、对步骤1得到的部分文本数据按实体进行数据标注,得到标注有标签的标注文本数据,其余文本数据为未标注文本数据,并利用标注文本数据构建训练集;
步骤S3、构建识别模型,所述识别模型包括XLNet模型、BiLSTM模型、GCN模型、CRF模型;并利用训练集中的文本数据对所述识别模型进行训练,识别模型中:
XLNet模型以文本数据作为输入,通过学习文本数据不同排序的序列特征信息实现双向预测的目标,对输入的水稻病虫害文本数据序列重排列,并最终生成并输出含有上下文信息的嵌入字符向量;
BiLSTM模型以XLNet模型输出的嵌入字符向量作为输入,由BiLSTM模型对XLNet模型输出的嵌入字符向量进行序列建模,以捕获序列中的上下文依赖关系,并生成每个位置的特征表示,由此得到并输出隐藏层状态即特征向量;
GCN模型以BiLSTM模型输出的特征向量,以及预先构建的水稻病虫害实体依存关系的邻接矩阵向量作为输入,借助依存句法分析,将依存关系的邻接矩阵向量与BI-LSTM模型输出的特征向量进行拼接,以获取文本的全局特征并捕捉字符之间语义关系,并由GCN模型输出每个字节点的特征向量;
CRF模型以GCN模型输出的每个字节点的特征向量作为输入,由CRF模型进行标签解码,得到概率最大的预测实体标签;
由此,通过训练集对所述识别模型进行训练,得到基准模型;
步骤S4、利用步骤S3得到的基准模型预测步骤S2中的未标注文本数据,得到带有伪标签的文本数据;接着将带有伪标签的文本数据加入至所述训练集中完成训练集扩充,并用扩充后的训练集对所述基准模型进行训练,由此得到最终识别模型;
步骤S5、将待识别的水稻病虫害实体的文本数据输入至步骤S4得到的最终识别模型,由最终识别模型输出实体识别结果。
进一步的,步骤S1中的实体包括水稻病虫害、病虫害基因、症状表型、受害部位。
进一步的,步骤S1中的预处理包括数据清理、去噪和去冗余。
进一步的,步骤S2中采用BIOES标注法进行标注。
进一步的步骤S3中,水稻病虫害实体依存关系的邻接矩阵向量构建过程如下:首先构建水稻病虫害实体的依存关系图;然后将依存关系图转化为词级别邻接矩阵向量,词级别邻接矩阵向量中词语直接存在依赖关系则设为1,反之为0;最后将词级别邻接矩阵向量修改为字级别邻接矩阵向量,由此得到依存关系的邻接矩阵向量。
与现有技术相比,本发明优点为:
1.本发明通过伪标签方法,充分利用这些未标注数据,使得模型可以从更多数据中进行学习和泛化。相对于手动标注数据,生成伪标签的过程通常是自动完成的,标注成本较低。这使得伪标签方法在大规模数据集上具有优势,能够更好地应对标注成本高、数据量大的场景。
2.本发明构建的识别模型,为XLNet-BiLSTM-GCN-CRF模型。XLNet-BiLSTM-GCN-CRF模型的优点在于能够充分利用预训练语言模型XLNet模型的上下文表示能力、BiLSTM模型的序列建模能力、GCN模型的上下文聚合能力以及CRF模型的标签解码能力。这种模型结合了不同层次的特征提取和上下文建模方法,能够更好地捕捉序列的语义和上下文信息,从而提升序列标注任务的性能。
XLNet模型可以更好地考虑序列中各个字之间的全局依赖关系。因此,当生成嵌入字符向量时,XLNet模型会受益于对全局语境的建模,可以捕捉到更丰富和准确的语义信息。这种全面建模的优势使得XLNet模型在产生字级别的词嵌入时表现很好,并为下游任务提供更具信息量的字向量。
GCN模型中引入GCN层充分获取句子的全局特征,通过邻居节点的特征聚合操作能够捕捉到更广泛的上下文信息,从而更全面地理解节点之间的关系,提高模型的特征表示能力。有参数共享机制,能够减少模型的参数量,并且具有较好的计算效率。模型可以共享相同的参数进行训练和预测,充分利用有限的数据并提高模型的泛化能力。
XLNet-BiLSTM-GCN-CRF模型在处理噪声数据和图结构变化时表现出鲁棒性和适应性。GCN模型通过邻居节点的信息传播来填补或纠正错误数据,能够处理节点特征的缺失和噪声。此外,GCN模型的拓扑结构建模能力使得模型在处理不同类型的图数据时具有较好的泛化能力。
附图说明
图1是本发明实施例方法流程框图。
图2是本发明实施例识别模型的数据处理流程图。
图3是本发明实施例XLNet模型掩码机制图。
图4是本发明实施例依存关系图。
图5是本发明实施例训练集未扩充前识别模型训练流程图。
图6是本发明实施例训练集扩充后识别模型训练流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本实施例公开了一种水稻病虫害领域命名实体识别方法,包括以下步骤:
步骤S1、获取水稻病虫害领域多种实体的文本数据,并对获取的文本数据进行预处理。
本实施例中,利用爬虫从中国作物种质信息系统、中国农业信息网、技E网、国家农业科学数据中心和百度维基百科等权威网站抓取与水稻病虫害相关的数据。获取的文本数据的实体种类包括水稻病虫害、病虫害基因、症状表型、受害部位等相关的内容。
由于爬虫抓取的网页信息中带有大量冗余无关的类如网页标签、特殊字符等非文本结构数据,增加数据标注的难度,故本实施例中通过Python正则表达式、人工删除噪声文本等初步清洗的处理方式,对获取的文本数据进行预处理,以进行数据清理、去噪和去冗余,保证文本数据的可靠性。
预处理完成后,将预处理后的文本数据处理成符合水稻病虫害领域语料库规范化的文本数据。
步骤S2、对步骤1得到的部分文本数据按实体进行数据标注,得到标注有标签的标注文本数据,其余文本数据为未标注文本数据。
本实施例中,采用BIOES标注法,利用Brat标注工具对步骤1得到的部分文本数据按实体进行数据标注,实体种类包括水稻病虫害、病虫害基因、症状表型、受害部位。
BIOES标注法标注规则如下:如表1所示,B表示开始,即实体的首字符;I表示内部,即实体的中间字符;O表示非实体;E表示实体尾部;S表示该词本身就是一个实体。通过BIOES标注法标注后,得到部分文本数据的实体标签,这部分标注有实体标签的文本数据即作为标注文本数据,其余尚没有标注实体标签的文本数据为未标注文本数据。
表1BIOES标注法规则表
以文本数据“类受体激酶基因可能导水稻出现细菌条斑病”为例,通过BIOES标注后,其标注文本数据如表2所示:
表2文本数据标注实例表
得到标注文本数据后,将标注文本数据按照7:2:1比例随机划分为训练集、测试集、验证集,其中训练集中数据用于后续步骤训练XLNet-BiLSTM-GCN-CRF识别模型,验证集中数据用于验证XLNet-BiLSTM-GCN-CRF识别模型,测试集中数据用于对训练好的XLNet-BiLSTM-GCN-CRF识别模型进行测试。
步骤S3、构建XLNet-BiLSTM-GCN-CRF识别模型,识别模型包括XLNet模型、双向长短期记忆网络BiLSTM模型、图卷积网络GCN模型、条件随机场CRF模型。识别模型中,XLNet模型输入文本数据,XLNet模型的输出连接双向长短期记忆网络BiLSTM模型的输入,双向长短期记忆网络BiLSTM模型的输出连接图卷积网络GCN模型的输入,图卷积网络GCN模型的输出连接条件随机场CRF模型的输入。
如图2所示,识别模型的数据处理过程如下:
(1)、文本数据首先输入至XLNet模型,XLNet模型可以更好地考虑序列中各个字之间的全局依赖关系,并最终生成并输出含有上下文信息的嵌入字符向量。因此,当生成嵌入字符向量时,XLNet会受益于对全局语境的建模,可以捕捉到更丰富和准确的语义信息。这种全面建模的优势使得XLNet模型在产生字级别的词嵌入时表现很好,并为下游任务提供更具信息量的字向量,同时解决一词多义问题。
XLNet模型使用3种机制以达到获得双向上下文信息的效果:排列语言模型、双流自注意力和循环机制。
在核心方法排列语言模型中中,XLNet模型通过学习不同排序的序列特征信息实现双向预测的目标,对输入的文本数据序列重排列,优化BERT模型掩码机制的信息缺失问题。
如图3所示,XLNet模型的输入向量x=(x1,x2,x3,x4),其中x1、x2、x3、x4分别表示(文本输入序列的第1个词,第2个词,第3个词,第4个词),并设表示x的一个重排列组合,对于向量/>由于x3位于序列的第一个位置,则不能利用到其他词信息,只能利用之前的隐状态信息。
XLNet模型使用部分预测的方式,如下式所示:
其中:
上式中:H表示文本的序列长度,ZH表示长度为H的序列的所有排列组成的集合,z是一种排列方法;xzh表示排列的第h个元素;Xz<h表示排列的第1到第h-1个元素;kχ表示数据由模型产生的上下文向量;max Ez~ZH表示排列语言模型损失函数公式;px表示预测结果概率;xh表示表示h词元;e(xh)表示对xh的词嵌入;x’表示任意一个词元;px()表示预测结果是当前词的概率。
(2)、长短期记忆网络BiLSTM模型模型以XLNet模型输出的嵌入字符向量作为输入,由双向长短期记忆网络BiLSTM模型模型提取上下文特征输入序列进行上下文建模和特征提取的输出。通过双向长短期记忆网络BiLSTM模型模型进一步对XLNet模型输出的嵌入字符向量进行序列建模,以捕获序列中的上下文依赖关系,并生成每个位置的特征表示,由此得到并输出BiLSTM模型模型中隐藏层状态即为特征向量。
双向长短期记忆网络BiLSTM模型在前后两方向分别提出LSTM,输出前后两个结果。向前的LSTM输出过去上下文的隐藏状态,向后的LSTM反向读取相同的句子,输出给定未来上下文的隐藏状态。最终两向量连接成最终输出特征向量,如下式所示:
上式中:ki表示i时刻输出隐藏层层状态即特征向量;表示前向隐藏层向量;/>表示反向隐藏层向量;/>表示连接,即把/>与/>相连。
设句子中当前所在字符为il,则BiLSTM模型的LSTM层计算得到其中:xl为XLNet模型得到的句子中当前所在字符il的Embedding(嵌入字符)向量,xl不在两个隐藏层中,两个隐藏层向量只包含xl前后,l=1、2、3……n。
(3)、图卷积网络GCN模型以双向长短期记忆网络BiLSTM模型输出的特征向量,以及预先构建的水稻病虫害实体依存关系的邻接矩阵向量作为输入。
本实施例中,以水稻病虫害实体“此水稻感染纹枯病”为例,说明水稻病虫害实体依存关系的邻接矩阵向量构建过程:
首先采用LTP工具,构建“此水稻感染纹枯病”的依存关系图如图4所示。然后将依存关系图转化为词级别邻接矩阵向量,词级别邻接矩阵向量中词语直接存在依赖关系则设为1,反之为0,词级别邻接矩阵向量如表3所示:
表3词级别邻接矩阵向量
最后,将词级别邻接矩阵向量修改为字级别邻接矩阵向量如表4所示,由此得到依存关系的邻接矩阵向量,表4如下:
表4字级别邻接矩阵向量
得到水稻病虫害实体依存关系的邻接矩阵向量后,将其与BiLSTM模型输出的特征向量输入至图卷积网络GCN模型。图卷积网络GCN模型分为前向图卷积网络层与后向图卷积网络两层。前向图积网络负责获取字符出度信息,后向图卷积网络负责获取字符入度信息。
图卷积网络GCN模型最终输出每个字节点的特征向量由前向图卷积网络层与后向图卷积网络层输出连接而成,即如下公式所示:
上式中:Loutput表示图卷积网络GCN模型最终输出;Lf表示前向图卷积网络层输出;Lb表示后向图卷积网络层输出。
其中,前向图卷积网络层输出如下式所示:
同样的,后向图卷积网络层输出如下式所示:
KLSTM是BiLSTM层输出特征向量序列ki,即KLSTM=(k1,k2,k3,...,kn),ki表示第i个字节点的特征向;σ表示激活函数,本实施例采用ReLu函数作为激活函数;Wf表示图神经网络GCN前向权重矩阵,Wb表示图神经网络GCN后向权重矩阵;表示经归一化处理后的前向邻接矩阵;/>表示对角度矩阵。
由此,本实施例引入图卷积网络GCN模型,借助依存句法分析,挖掘字符及字符间关系的结构信息,将依存关系邻接矩阵与BILSTM模型提取到的特征向量进行拼接,充分获取文本的全局特征。
图卷积网络GCN模型通过建模节点(字符)之间的依赖关系,对水稻病虫害文本的依赖结构进行建模,从而学习到更全局的特征表示,能够捕捉字符之间的语义关系。图卷积网络GCN模型在序列标注任务中的作用是进一步提取特征和上下文信息,以改进标注的准确性。由此,通过图卷积网络GCN模型最终输出每个字节点的特征向量。
(4)、条件随机场CRF模型以图卷积网络GCN模型输出的每个字节点的特征向量作为输入,通过条件随机场CRF对每个字节点的特征向量进行标签解码预测,最终得到概率最大预测实体标签序列。
虽然经过BiLSTM模型与GCN模型的输出结果包含每个标签的分数值,可直接输出概率最大标签。但考虑到标签之间的强依赖性,需利用约束条件来确保最终输出的预测实体标签序列的合法性,故引入条件随机场CRF模型进行标签解码。
GCN模型输出的每个字节点特征向量进入GCN模型,GCN模型将对每个字的所有标签得分进行筛选。
对于给定的从XLNet模型输出的文本嵌入字序列向量H=[h1,h2,h3,...,hn],矩阵P为输入序列H经BiLSTM层和GCN层联合学习后输出的分数矩阵。在分数矩阵P中,m为不同标签总数量,n为输入句子中字的总数量,定义分数矩阵P的大小为m×n,Pk,j为句子中第k个单词的第j个标签分数。定义输出标签序列y=[y1,y2,y3,...,yn]。相应的yn表示句子结束标记。Q为转移分数矩阵,Qk,j为从标签k到标签j的转移分数。则输出标签序列y得分s(H,y)定义如下式所示:
其中,Qyk,yk+1表示从标签yk到yk+1的转移分数,即k对应yk,j对应yk+1。
标签序列y的条件概率定义如式:
上式中:YH代表句子H所有可能标记序列;表示标签序列中任一标签,这里求和公式就意味着每一个y都要计算进去,因此采用/>表示。
最终CRF模型确定最优标签序列y●,最优标签序列y●即为概率最大预测实体标签序列,并由CRF模型输出最优标签序列y●,输出如下式所示:
如图5所示,构建XLNet-BiLSTM-GCN-CRF识别模型后,利用步骤S2得到的训练集中的文本数据对识别模型进行训练,并利用步骤S2得到的验证集中数据验证XLNet-BiLSTM-GCN-CRF识别模型,得到基准模型。
步骤S4、如图6所示,利用步骤S3得到的基准模型预测步骤S2中的未标注文本数据,得到带有伪标签的文本数据;接着将带有伪标签的文本数据加入至所述训练集中完成训练集扩充,并用扩充后的训练集对所述基准模型进行训练,由此得到训练好的最终的XLNet-BiLSTM-GCN-CRF识别模型,并利用步骤S2得到的测试集对训练好的XLNet-BiLSTM-GCN-CRF识别模型进行测试,以得到识别模型的准确率。
步骤S5、将待识别的水稻病虫害实体的文本数据输入至步骤S4得到的训练好的最终的XLNet-BiLSTM-GCN-CRF识别模型,由最终识别模型输出实体识别结果。
以上结合附图详细描述了本发明的优选实施方式,本发明所述的实施例仅仅是对本发明的优选实施方式进行的描述,并非对本发明构思和范围进行限定。在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,这种组合只要其不违背本发明的思想,其同样应当视为本公开所公开的内容。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内以及不脱离本发明设计思想的前提下,本领域技术人员对本发明的技术方案作出的各种变型和改进,均应落入本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。
Claims (5)
1.水稻病虫害领域命名实体识别方法,其特征在于,包括以下步骤:
步骤S1、获取水稻病虫害领域多种实体的文本数据,并对获取的文本数据进行预处理;
步骤S2、对步骤1得到的部分文本数据按实体进行数据标注,得到标注有标签的标注文本数据,其余文本数据为未标注文本数据,并利用标注文本数据构建训练集;
步骤S3、构建识别模型,所述识别模型包括XLNet模型、BiLSTM模型、GCN模型、CRF模型;并利用训练集中的文本数据对所述识别模型进行训练,识别模型中:
XLNet模型以文本数据作为输入,通过学习文本数据不同排序的序列特征信息实现双向预测的目标,对输入的水稻病虫害文本数据序列重排列,并最终生成并输出含有上下文信息的嵌入字符向量;
BiLSTM模型以XLNet模型输出的嵌入字符向量作为输入,由BiLSTM模型对XLNet模型输出的嵌入字符向量进行序列建模,以捕获序列中的上下文依赖关系,并生成每个位置的特征表示,由此得到并输出隐藏层状态即特征向量;
GCN模型以BiLSTM模型输出的特征向量,以及预先构建的水稻病虫害实体依存关系的邻接矩阵向量作为输入,借助依存句法分析,将依存关系的邻接矩阵向量与BI-LSTM模型输出的特征向量进行拼接,以获取文本的全局特征并捕捉字符之间语义关系,并由GCN模型输出每个字节点的特征向量;
CRF模型以GCN模型输出的每个字节点的特征向量作为输入,由CRF模型进行标签解码,得到概率最大的预测实体标签;
由此,通过训练集对所述识别模型进行训练,得到基准模型;
步骤S4、利用步骤S3得到的基准模型预测步骤S2中的未标注文本数据,得到带有伪标签的文本数据;接着将带有伪标签的文本数据加入至所述训练集中完成训练集扩充,并用扩充后的训练集对所述基准模型进行训练,由此得到最终识别模型;
步骤S5、将待识别的水稻病虫害实体的文本数据输入至步骤S4得到的最终识别模型,由最终识别模型输出实体识别结果。
2.根据权利要求1所述的水稻病虫害领域命名实体识别方法,其特征在于,步骤S1中的实体包括水稻病虫害、病虫害基因、症状表型、受害部位。
3.根据权利要求1所述的水稻病虫害领域命名实体识别方法,其特征在于,步骤S1中的预处理包括数据清理、去噪和去冗余。
4.根据权利要求1所述的水稻病虫害领域命名实体识别方法,其特征在于,步骤S2中采用BIOES标注法进行标注。
5.根据权利要求1所述的水稻病虫害领域命名实体识别方法,其特征在于,步骤S3中,水稻病虫害实体依存关系的邻接矩阵向量构建过程如下:首先构建水稻病虫害实体的依存关系图;然后将依存关系图转化为词级别邻接矩阵向量,词级别邻接矩阵向量中词语直接存在依赖关系则设为1,反之为0;最后将词级别邻接矩阵向量修改为字级别邻接矩阵向量,由此得到依存关系的邻接矩阵向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311240372.7A CN117094325B (zh) | 2023-09-25 | 2023-09-25 | 水稻病虫害领域命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311240372.7A CN117094325B (zh) | 2023-09-25 | 2023-09-25 | 水稻病虫害领域命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117094325A true CN117094325A (zh) | 2023-11-21 |
CN117094325B CN117094325B (zh) | 2024-03-29 |
Family
ID=88777121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311240372.7A Active CN117094325B (zh) | 2023-09-25 | 2023-09-25 | 水稻病虫害领域命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117094325B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117291189A (zh) * | 2023-11-24 | 2023-12-26 | 安徽大学 | 基于ma-rbc模型的水稻病虫害命名实体识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN113515942A (zh) * | 2020-12-24 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN113704415A (zh) * | 2021-09-09 | 2021-11-26 | 北京邮电大学 | 医学文本的向量表示生成方法和装置 |
CN114781382A (zh) * | 2022-04-25 | 2022-07-22 | 苏州科技大学 | 基于rwlstm模型融合的医疗命名实体识别系统及方法 |
CN115510864A (zh) * | 2022-10-14 | 2022-12-23 | 昆明理工大学 | 一种融合领域词典的中文农作物病虫害命名实体识别方法 |
CN115759095A (zh) * | 2022-10-27 | 2023-03-07 | 昆明理工大学 | 一种烟草病虫害的命名实体识别方法及其装置 |
-
2023
- 2023-09-25 CN CN202311240372.7A patent/CN117094325B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN113515942A (zh) * | 2020-12-24 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN113704415A (zh) * | 2021-09-09 | 2021-11-26 | 北京邮电大学 | 医学文本的向量表示生成方法和装置 |
CN114781382A (zh) * | 2022-04-25 | 2022-07-22 | 苏州科技大学 | 基于rwlstm模型融合的医疗命名实体识别系统及方法 |
CN115510864A (zh) * | 2022-10-14 | 2022-12-23 | 昆明理工大学 | 一种融合领域词典的中文农作物病虫害命名实体识别方法 |
CN115759095A (zh) * | 2022-10-27 | 2023-03-07 | 昆明理工大学 | 一种烟草病虫害的命名实体识别方法及其装置 |
Non-Patent Citations (3)
Title |
---|
CHAO WANG 等: "Named entity recognition (NER) for Chinese agricultural diseases and pests based on discourse topic and attention mechanism", SPRINGERLINK, 28 May 2022 (2022-05-28) * |
乐毅 等: "基于多层注意力机制的农业病虫害远程监督关系抽取研究", 安徽农业大学学报, 9 September 2020 (2020-09-09) * |
刘奕洋;余正涛;高盛祥;郭军军;张亚飞;聂冰鸽;: "基于机器阅读理解的中文命名实体识别方法", 模式识别与人工智能, no. 07, 15 July 2020 (2020-07-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117291189A (zh) * | 2023-11-24 | 2023-12-26 | 安徽大学 | 基于ma-rbc模型的水稻病虫害命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117094325B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN113239186B (zh) | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN110162749A (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
CN110866401A (zh) | 基于注意力机制的中文电子病历命名实体识别方法及系统 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN111651983B (zh) | 一种基于自训练与噪声模型的因果事件抽取方法 | |
CN112749562A (zh) | 命名实体识别方法、装置、存储介质及电子设备 | |
CN110362797B (zh) | 一种研究报告生成方法及相关设备 | |
CN117094325B (zh) | 水稻病虫害领域命名实体识别方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN114091450B (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115114926A (zh) | 一种中文农业命名实体识别方法 | |
CN115510864A (zh) | 一种融合领域词典的中文农作物病虫害命名实体识别方法 | |
CN114692605A (zh) | 一种融合句法结构信息的关键词生成方法及装置 | |
CN112989803B (zh) | 一种基于主题向量学习的实体链接预测方法 | |
CN114648015A (zh) | 一种基于依存关系注意力模型的方面级情感词识别方法 | |
CN112347783B (zh) | 无触发词的警情笔录数据事件类型识别方法 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |