CN117094325A

CN117094325A - 水稻病虫害领域命名实体识别方法

Info

Publication number: CN117094325A
Application number: CN202311240372.7A
Authority: CN
Inventors: 李明; 陈祎琼; 方子睿; 高羽佳; 岳振宇; 吴康杰; 刘浩楠; 曾欣
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2023-11-21
Anticipated expiration: 2043-09-25
Also published as: CN117094325B

Abstract

本发明公开了一种水稻病虫害领域命名实体识别方法，包括以下步骤：步骤S1、获取水稻病虫害领域实体的文本数据；步骤S2、对部分文本数据按实体进行数据标注构建训练集，其余为未标注文本数据；步骤S3、构建识别模型，利用训练集对识别模型进行训练得到基准模型；步骤S4、利用基准模型预测未标注文本数据得到带有伪标签的文本数据；将带有伪标签的文本数据扩充训练集对基准模型进行训练，得到最终识别模型；步骤S5、利用最终识别模型识别水稻病虫害实体。本发明解决了缺乏训练数据、实体结构复杂、实体类型多样、实体分布不均问题、解决缺乏训练数据问题，减少当前大多数命名实体识别模型对高质量标注数据集的依赖。

Description

水稻病虫害领域命名实体识别方法

技术领域

本发明涉及命名实体识别方法领域，具体是一种水稻病虫害领域命名实体识别方法。

背景技术

现有技术常见的命名实体识别方法有基于规则的方法、基于词典的方法、基于机器学习的方法、基于深度学习的方法，它们各有优劣。其中基于规则的方法使用预定义的规则和模式来匹配和标记文本中的实体。例如，可以定义特定的词性和词语模式，如“水稻病害名称+‘病’”或“‘水稻’+‘病虫害名称’”，然后通过正则表达式等方法从文本中匹配并识别水稻病虫害实体。基于词典的方法利用预先构建的水稻病虫害词典或知识库，通过匹配文本中的词语与词典中的实体进行识别。这种方法可以通过增量更新词典来不断扩充和更新病虫害实体的识别范围。

基于规则的方法和基于词典的方法在用于水稻病虫害命名实体识别过程中依赖于事先定义的规则或词典，可能无法完全涵盖所有的病虫害实体，尤其是新近出现的或不常见的病虫害实体，需要不断更新和维护词典或规则库，增加了人力成本和时间消耗，因此已经逐步被机器学习和深度学习的方法取代。

而基于机器学习的方法使用机器学习算法(如支持向量机、随机森林、神经网络等)通过从标注好的训练数据中学习特征和模式，来实现水稻病虫害实体的识别。特征可以包括词性、上下文信息、词向量等。近年来，深度学习在NER任务中取得了显著的进展。基于深度学习的方法使用深度学习模型(如循环神经网络、转换器等)，可以学习到更丰富的语义特征和上下文信息，进一步提高水稻病虫害实体的识别性能。但机器学习和深度学习在用于水稻病虫害命名实体识别时存在以下不足之处：

1.特征工程的依赖：传统的机器学习方法需要手动设计和选择特征，这会消耗大量的时间和人力，且特征工程的质量直接关系到模型的性能。同时，由于水稻病虫害领域的复杂性，设计和选择合适的特征可能面临挑战。

2.数据标注成本高：机器学习方法和深度学习方法通常需要大量标注好的训练数据来训练模型。在水稻病虫害领域，获取大规模的标注数据成本较高，因为需要专业人士对文本进行详细的标注和校对。

3.模型泛化能力：一些方法在应对不同领域和不同类型病虫害时的泛化能力有限。由于水稻病虫害的多样性和变异性，可能存在一些特定领域或新的病虫害类型无法准确识别的情况。

4.数据稀缺问题：水稻病虫害领域的数据可能相对稀缺，特别是针对一些罕见的病虫害实体。这可能导致模型在对这些实体进行准确识别时的困难。

为了解决机器学习和深度学习方法在水稻病虫害命名实体识别存在的问题，现有技术专利：CN115526175A基于注意力机制的苹果病虫害命名实体识别方法中，公开了得到苹果病虫害数据集之后，首先通过BERT预训练模型获取数据集中的字符向量；接下来以字符向量为输入，通过BI-LSTM模型提取上下文特征得到特征序列；然后通过注意力层处理BI-LSTM层输出的特征序列，得到当前词与序列中其他词的权重，获取全局特征表示；最后将加入注意力机制的特征序列送入CRF中进行标签预测，得到最合理的标签序列，完成苹果病虫害命名实体识别，可以实现基于注意力机制的苹果病虫害命名实体识别模型，使模型在苹果病虫害命名实体识别数据集中取得更好的评估指标。该专利存在的的缺点及不足之处为：A、缺乏语料库数据集的构造来源方法。B、BERT模型在进行掩码语言建模时，只能根据前面的上下文信息来预测掩码位置的词语，无法考虑后面的上下文关系。C、注意力机制需要更复杂的计算和额外的参数，要大量的模型参数，特别是当图数据规模较大时，计算效率和数据效率都相对较低。

此外，现有技术专利：CN115759095A一种烟草病虫害的命名实体识别方法及其装置中，公开了一种烟草病虫害的命名实体识别方法及其装置，该方法中包括：划分烟草病虫害的样本数据集，得到训练数据集、验证数据集和测试数据集，训练数据集用于训练命名实体识别模型，验证数据集用于验证命名实体识别模型，测试数据集用于对训练好的命名实体识别模型测试；基于烟草病虫害的训练数据集，确定命名实体识别模型，命名实体识别模型为BERT-BI-MHSA-CRF模型；将待分类的烟草病虫害数据输入到命名实体识别模型中，输出烟草病虫害的命名实体识别结果。该专利存在的缺点及不足之处为：A、缺乏对真实语料库的研究。特定领域的NER任务中，数据标注过程需要相关专家参与，耗时耗力。B、同时，该领域存在一些问题，如训练数据缺乏、实体嵌套、实体边界模糊、实体类别多样、实体分布不均匀等。模型的泛化能力教差、数据稀少。C、BERT-BI-MHSA-CRF模型中的自注意力机制通常需要更多的参数和计算资源。D、虽然BiLSTM-CRF方法可以在一定程度上获取到句子的上下文语义特征，但不能获取远距离依赖关系。

发明内容

本发明提供了一种水稻病虫害领域命名实体识别方法，以解决现有技术基于机器学习和深度学习在用于水稻病虫害命名实体识别方法存在的无法准确定位实体、缺少数据集的问题。

为了达到上述目的，本发明所采用的技术方案为：

水稻病虫害领域命名实体识别方法，包括以下步骤：

步骤S1、获取水稻病虫害领域多种实体的文本数据，并对获取的文本数据进行预处理；

步骤S2、对步骤1得到的部分文本数据按实体进行数据标注，得到标注有标签的标注文本数据，其余文本数据为未标注文本数据，并利用标注文本数据构建训练集；

步骤S3、构建识别模型，所述识别模型包括XLNet模型、BiLSTM模型、GCN模型、CRF模型；并利用训练集中的文本数据对所述识别模型进行训练，识别模型中：

XLNet模型以文本数据作为输入，通过学习文本数据不同排序的序列特征信息实现双向预测的目标，对输入的水稻病虫害文本数据序列重排列，并最终生成并输出含有上下文信息的嵌入字符向量；

BiLSTM模型以XLNet模型输出的嵌入字符向量作为输入，由BiLSTM模型对XLNet模型输出的嵌入字符向量进行序列建模，以捕获序列中的上下文依赖关系，并生成每个位置的特征表示，由此得到并输出隐藏层状态即特征向量；

GCN模型以BiLSTM模型输出的特征向量，以及预先构建的水稻病虫害实体依存关系的邻接矩阵向量作为输入，借助依存句法分析，将依存关系的邻接矩阵向量与BI-LSTM模型输出的特征向量进行拼接，以获取文本的全局特征并捕捉字符之间语义关系，并由GCN模型输出每个字节点的特征向量；

CRF模型以GCN模型输出的每个字节点的特征向量作为输入，由CRF模型进行标签解码，得到概率最大的预测实体标签；

由此，通过训练集对所述识别模型进行训练，得到基准模型；

步骤S4、利用步骤S3得到的基准模型预测步骤S2中的未标注文本数据，得到带有伪标签的文本数据；接着将带有伪标签的文本数据加入至所述训练集中完成训练集扩充，并用扩充后的训练集对所述基准模型进行训练，由此得到最终识别模型；

步骤S5、将待识别的水稻病虫害实体的文本数据输入至步骤S4得到的最终识别模型，由最终识别模型输出实体识别结果。

进一步的，步骤S1中的实体包括水稻病虫害、病虫害基因、症状表型、受害部位。

进一步的，步骤S1中的预处理包括数据清理、去噪和去冗余。

进一步的，步骤S2中采用BIOES标注法进行标注。

进一步的步骤S3中，水稻病虫害实体依存关系的邻接矩阵向量构建过程如下：首先构建水稻病虫害实体的依存关系图；然后将依存关系图转化为词级别邻接矩阵向量，词级别邻接矩阵向量中词语直接存在依赖关系则设为1，反之为0；最后将词级别邻接矩阵向量修改为字级别邻接矩阵向量，由此得到依存关系的邻接矩阵向量。

与现有技术相比，本发明优点为：

1.本发明通过伪标签方法，充分利用这些未标注数据，使得模型可以从更多数据中进行学习和泛化。相对于手动标注数据，生成伪标签的过程通常是自动完成的，标注成本较低。这使得伪标签方法在大规模数据集上具有优势，能够更好地应对标注成本高、数据量大的场景。

2.本发明构建的识别模型，为XLNet-BiLSTM-GCN-CRF模型。XLNet-BiLSTM-GCN-CRF模型的优点在于能够充分利用预训练语言模型XLNet模型的上下文表示能力、BiLSTM模型的序列建模能力、GCN模型的上下文聚合能力以及CRF模型的标签解码能力。这种模型结合了不同层次的特征提取和上下文建模方法，能够更好地捕捉序列的语义和上下文信息，从而提升序列标注任务的性能。

XLNet模型可以更好地考虑序列中各个字之间的全局依赖关系。因此，当生成嵌入字符向量时，XLNet模型会受益于对全局语境的建模，可以捕捉到更丰富和准确的语义信息。这种全面建模的优势使得XLNet模型在产生字级别的词嵌入时表现很好，并为下游任务提供更具信息量的字向量。

GCN模型中引入GCN层充分获取句子的全局特征，通过邻居节点的特征聚合操作能够捕捉到更广泛的上下文信息，从而更全面地理解节点之间的关系，提高模型的特征表示能力。有参数共享机制，能够减少模型的参数量，并且具有较好的计算效率。模型可以共享相同的参数进行训练和预测，充分利用有限的数据并提高模型的泛化能力。

XLNet-BiLSTM-GCN-CRF模型在处理噪声数据和图结构变化时表现出鲁棒性和适应性。GCN模型通过邻居节点的信息传播来填补或纠正错误数据，能够处理节点特征的缺失和噪声。此外，GCN模型的拓扑结构建模能力使得模型在处理不同类型的图数据时具有较好的泛化能力。

附图说明

图1是本发明实施例方法流程框图。

图2是本发明实施例识别模型的数据处理流程图。

图3是本发明实施例XLNet模型掩码机制图。

图4是本发明实施例依存关系图。

图5是本发明实施例训练集未扩充前识别模型训练流程图。

图6是本发明实施例训练集扩充后识别模型训练流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，本实施例公开了一种水稻病虫害领域命名实体识别方法，包括以下步骤：

步骤S1、获取水稻病虫害领域多种实体的文本数据，并对获取的文本数据进行预处理。

本实施例中，利用爬虫从中国作物种质信息系统、中国农业信息网、技E网、国家农业科学数据中心和百度维基百科等权威网站抓取与水稻病虫害相关的数据。获取的文本数据的实体种类包括水稻病虫害、病虫害基因、症状表型、受害部位等相关的内容。

由于爬虫抓取的网页信息中带有大量冗余无关的类如网页标签、特殊字符等非文本结构数据，增加数据标注的难度，故本实施例中通过Python正则表达式、人工删除噪声文本等初步清洗的处理方式，对获取的文本数据进行预处理，以进行数据清理、去噪和去冗余，保证文本数据的可靠性。

预处理完成后，将预处理后的文本数据处理成符合水稻病虫害领域语料库规范化的文本数据。

步骤S2、对步骤1得到的部分文本数据按实体进行数据标注，得到标注有标签的标注文本数据，其余文本数据为未标注文本数据。

本实施例中，采用BIOES标注法，利用Brat标注工具对步骤1得到的部分文本数据按实体进行数据标注，实体种类包括水稻病虫害、病虫害基因、症状表型、受害部位。

BIOES标注法标注规则如下：如表1所示，B表示开始,即实体的首字符；I表示内部，即实体的中间字符；O表示非实体；E表示实体尾部；S表示该词本身就是一个实体。通过BIOES标注法标注后，得到部分文本数据的实体标签，这部分标注有实体标签的文本数据即作为标注文本数据，其余尚没有标注实体标签的文本数据为未标注文本数据。

表1BIOES标注法规则表

以文本数据“类受体激酶基因可能导水稻出现细菌条斑病”为例，通过BIOES标注后，其标注文本数据如表2所示：

表2文本数据标注实例表

得到标注文本数据后，将标注文本数据按照7：2：1比例随机划分为训练集、测试集、验证集，其中训练集中数据用于后续步骤训练XLNet-BiLSTM-GCN-CRF识别模型，验证集中数据用于验证XLNet-BiLSTM-GCN-CRF识别模型，测试集中数据用于对训练好的XLNet-BiLSTM-GCN-CRF识别模型进行测试。

步骤S3、构建XLNet-BiLSTM-GCN-CRF识别模型，识别模型包括XLNet模型、双向长短期记忆网络BiLSTM模型、图卷积网络GCN模型、条件随机场CRF模型。识别模型中，XLNet模型输入文本数据，XLNet模型的输出连接双向长短期记忆网络BiLSTM模型的输入，双向长短期记忆网络BiLSTM模型的输出连接图卷积网络GCN模型的输入，图卷积网络GCN模型的输出连接条件随机场CRF模型的输入。

如图2所示，识别模型的数据处理过程如下：

(1)、文本数据首先输入至XLNet模型，XLNet模型可以更好地考虑序列中各个字之间的全局依赖关系，并最终生成并输出含有上下文信息的嵌入字符向量。因此，当生成嵌入字符向量时，XLNet会受益于对全局语境的建模，可以捕捉到更丰富和准确的语义信息。这种全面建模的优势使得XLNet模型在产生字级别的词嵌入时表现很好，并为下游任务提供更具信息量的字向量，同时解决一词多义问题。

XLNet模型使用3种机制以达到获得双向上下文信息的效果：排列语言模型、双流自注意力和循环机制。

在核心方法排列语言模型中中，XLNet模型通过学习不同排序的序列特征信息实现双向预测的目标，对输入的文本数据序列重排列，优化BERT模型掩码机制的信息缺失问题。

如图3所示，XLNet模型的输入向量x＝(x₁,x₂,x₃,x₄)，其中x₁、x₂、x₃、x₄分别表示(文本输入序列的第1个词，第2个词，第3个词，第4个词)，并设表示x的一个重排列组合，对于向量/>由于x₃位于序列的第一个位置，则不能利用到其他词信息，只能利用之前的隐状态信息。

XLNet模型使用部分预测的方式，如下式所示：

其中：

上式中：H表示文本的序列长度，Z_H表示长度为H的序列的所有排列组成的集合，z是一种排列方法；x_zh表示排列的第h个元素；X_z＜h表示排列的第1到第h-1个元素；k_χ表示数据由模型产生的上下文向量；max E_z～Z_H表示排列语言模型损失函数公式；p_x表示预测结果概率；x_h表示表示h词元；e(x_h)表示对x_h的词嵌入；x’表示任意一个词元；p_x()表示预测结果是当前词的概率。

(2)、长短期记忆网络BiLSTM模型模型以XLNet模型输出的嵌入字符向量作为输入，由双向长短期记忆网络BiLSTM模型模型提取上下文特征输入序列进行上下文建模和特征提取的输出。通过双向长短期记忆网络BiLSTM模型模型进一步对XLNet模型输出的嵌入字符向量进行序列建模，以捕获序列中的上下文依赖关系，并生成每个位置的特征表示，由此得到并输出BiLSTM模型模型中隐藏层状态即为特征向量。

双向长短期记忆网络BiLSTM模型在前后两方向分别提出LSTM，输出前后两个结果。向前的LSTM输出过去上下文的隐藏状态，向后的LSTM反向读取相同的句子，输出给定未来上下文的隐藏状态。最终两向量连接成最终输出特征向量，如下式所示：

上式中：k_i表示i时刻输出隐藏层层状态即特征向量；表示前向隐藏层向量；/>表示反向隐藏层向量；/>表示连接，即把/>与/>相连。

设句子中当前所在字符为i_l，则BiLSTM模型的LSTM层计算得到其中：x_l为XLNet模型得到的句子中当前所在字符i_l的Embedding(嵌入字符)向量，x_l不在两个隐藏层中，两个隐藏层向量只包含x_l前后，l＝1、2、3……n。

(3)、图卷积网络GCN模型以双向长短期记忆网络BiLSTM模型输出的特征向量，以及预先构建的水稻病虫害实体依存关系的邻接矩阵向量作为输入。

本实施例中，以水稻病虫害实体“此水稻感染纹枯病”为例，说明水稻病虫害实体依存关系的邻接矩阵向量构建过程：

首先采用LTP工具，构建“此水稻感染纹枯病”的依存关系图如图4所示。然后将依存关系图转化为词级别邻接矩阵向量，词级别邻接矩阵向量中词语直接存在依赖关系则设为1，反之为0，词级别邻接矩阵向量如表3所示：

表3词级别邻接矩阵向量

最后，将词级别邻接矩阵向量修改为字级别邻接矩阵向量如表4所示，由此得到依存关系的邻接矩阵向量，表4如下：

表4字级别邻接矩阵向量

得到水稻病虫害实体依存关系的邻接矩阵向量后，将其与BiLSTM模型输出的特征向量输入至图卷积网络GCN模型。图卷积网络GCN模型分为前向图卷积网络层与后向图卷积网络两层。前向图积网络负责获取字符出度信息，后向图卷积网络负责获取字符入度信息。

图卷积网络GCN模型最终输出每个字节点的特征向量由前向图卷积网络层与后向图卷积网络层输出连接而成，即如下公式所示：

上式中：L_output表示图卷积网络GCN模型最终输出；L_f表示前向图卷积网络层输出；L_b表示后向图卷积网络层输出。

其中，前向图卷积网络层输出如下式所示：

同样的，后向图卷积网络层输出如下式所示：

K_LSTM是BiLSTM层输出特征向量序列k_i,即K_LSTM＝(k₁,k₂,k₃,...,k_n)，k_i表示第i个字节点的特征向；σ表示激活函数，本实施例采用ReLu函数作为激活函数；W_f表示图神经网络GCN前向权重矩阵，W_b表示图神经网络GCN后向权重矩阵；表示经归一化处理后的前向邻接矩阵；/>表示对角度矩阵。

由此，本实施例引入图卷积网络GCN模型，借助依存句法分析，挖掘字符及字符间关系的结构信息，将依存关系邻接矩阵与BILSTM模型提取到的特征向量进行拼接，充分获取文本的全局特征。

图卷积网络GCN模型通过建模节点(字符)之间的依赖关系，对水稻病虫害文本的依赖结构进行建模，从而学习到更全局的特征表示，能够捕捉字符之间的语义关系。图卷积网络GCN模型在序列标注任务中的作用是进一步提取特征和上下文信息，以改进标注的准确性。由此，通过图卷积网络GCN模型最终输出每个字节点的特征向量。

(4)、条件随机场CRF模型以图卷积网络GCN模型输出的每个字节点的特征向量作为输入，通过条件随机场CRF对每个字节点的特征向量进行标签解码预测，最终得到概率最大预测实体标签序列。

虽然经过BiLSTM模型与GCN模型的输出结果包含每个标签的分数值，可直接输出概率最大标签。但考虑到标签之间的强依赖性，需利用约束条件来确保最终输出的预测实体标签序列的合法性，故引入条件随机场CRF模型进行标签解码。

GCN模型输出的每个字节点特征向量进入GCN模型，GCN模型将对每个字的所有标签得分进行筛选。

对于给定的从XLNet模型输出的文本嵌入字序列向量H＝[h₁,h₂,h₃,...,h_n]，矩阵P为输入序列H经BiLSTM层和GCN层联合学习后输出的分数矩阵。在分数矩阵P中，m为不同标签总数量，n为输入句子中字的总数量，定义分数矩阵P的大小为m×n,P_k,j为句子中第k个单词的第j个标签分数。定义输出标签序列y＝[y₁,y₂,y₃,...,y_n]。相应的y_n表示句子结束标记。Q为转移分数矩阵,Q_k,j为从标签k到标签j的转移分数。则输出标签序列y得分s(H,y)定义如下式所示：

其中，Q_yk,yk+1表示从标签y_k到y_k+1的转移分数，即k对应y_k，j对应y_k+1。

标签序列y的条件概率定义如式：

上式中：Y_H代表句子H所有可能标记序列；表示标签序列中任一标签，这里求和公式就意味着每一个y都要计算进去，因此采用/>表示。

最终CRF模型确定最优标签序列y^●，最优标签序列y^●即为概率最大预测实体标签序列，并由CRF模型输出最优标签序列y^●，输出如下式所示：

如图5所示，构建XLNet-BiLSTM-GCN-CRF识别模型后，利用步骤S2得到的训练集中的文本数据对识别模型进行训练，并利用步骤S2得到的验证集中数据验证XLNet-BiLSTM-GCN-CRF识别模型，得到基准模型。

步骤S4、如图6所示，利用步骤S3得到的基准模型预测步骤S2中的未标注文本数据，得到带有伪标签的文本数据；接着将带有伪标签的文本数据加入至所述训练集中完成训练集扩充，并用扩充后的训练集对所述基准模型进行训练，由此得到训练好的最终的XLNet-BiLSTM-GCN-CRF识别模型，并利用步骤S2得到的测试集对训练好的XLNet-BiLSTM-GCN-CRF识别模型进行测试，以得到识别模型的准确率。

步骤S5、将待识别的水稻病虫害实体的文本数据输入至步骤S4得到的训练好的最终的XLNet-BiLSTM-GCN-CRF识别模型，由最终识别模型输出实体识别结果。

以上结合附图详细描述了本发明的优选实施方式，本发明所述的实施例仅仅是对本发明的优选实施方式进行的描述，并非对本发明构思和范围进行限定。在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，这种组合只要其不违背本发明的思想，其同样应当视为本公开所公开的内容。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内以及不脱离本发明设计思想的前提下，本领域技术人员对本发明的技术方案作出的各种变型和改进，均应落入本发明的保护范围，本发明请求保护的技术内容，已经全部记载在权利要求书中。

Claims

1.水稻病虫害领域命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的水稻病虫害领域命名实体识别方法，其特征在于，步骤S1中的实体包括水稻病虫害、病虫害基因、症状表型、受害部位。

3.根据权利要求1所述的水稻病虫害领域命名实体识别方法，其特征在于，步骤S1中的预处理包括数据清理、去噪和去冗余。

4.根据权利要求1所述的水稻病虫害领域命名实体识别方法，其特征在于，步骤S2中采用BIOES标注法进行标注。

5.根据权利要求1所述的水稻病虫害领域命名实体识别方法，其特征在于，步骤S3中，水稻病虫害实体依存关系的邻接矩阵向量构建过程如下：首先构建水稻病虫害实体的依存关系图；然后将依存关系图转化为词级别邻接矩阵向量，词级别邻接矩阵向量中词语直接存在依赖关系则设为1，反之为0；最后将词级别邻接矩阵向量修改为字级别邻接矩阵向量，由此得到依存关系的邻接矩阵向量。