CN115526175A

CN115526175A - 基于注意力机制的苹果病虫害命名实体识别方法

Info

Publication number: CN115526175A
Application number: CN202211274119.9A
Authority: CN
Inventors: 龚靖为; 耿楠; 耿耀君; 李梅; 肖智文; 段宇飞
Original assignee: Northwest A&F University
Current assignee: Northwest A&F University
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2022-12-27

Abstract

本发明公开了基于注意力机制的苹果病虫害命名实体识别方法，属于基因检测技术领域，基于注意力机制的苹果病虫害命名实体识别方法，本发明在得到苹果病虫害数据集之后，首先通过BERT预训练模型获取数据集中的字符向量；接下来以字符向量为输入，通过BI‑LSTM模型提取上下文特征得到特征序列；然后通过注意力层处理BI‑LSTM层输出的特征序列，得到当前词与序列中其他词的权重，获取全局特征表示；最后将加入注意力机制的特征序列送入CRF中进行标签预测，得到最合理的标签序列，完成苹果病虫害命名实体识别，可以实现基于注意力机制的苹果病虫害命名实体识别模型，使模型在苹果病虫害命名实体识别数据集中取得更好的评估指标。

Description

基于注意力机制的苹果病虫害命名实体识别方法

技术领域

本发明涉及基因检测技术领域，更具体地说，涉及基于注意力机制的苹果病虫害命名实体识别方法。

背景技术

在我国苹果种植业的悠久历史中，病虫害问题一直以来都被视作限制苹果产业发展的最常见因素，因此，从专业文本资料之中抽取有效信息帮助果农对病虫害进行防治具有极大的现实意义，通过知识图谱，不仅可以将互联网的信息表达成更接近人类认知世界的形式，而且提供了一种更好的组织、管理和利用海量信息的方式，命名实体识别是构建知识图谱信息抽取中最为基础和关键的部分，为后续构建知识图谱、智能问答、智能推荐等提供了支撑，深度神经网络的发展推动了实体识别的研究，人们已经在多个领域进行了实体识别的探索，大量优秀成果涌现出来，为本课题提供了广阔的理论基础，但是，中文的命名实体识别与英文的命名实体识别相比，挑战更大，目前未解决的难题更多，针对苹果病虫害领域的实体识别研究相对较少，且苹果病虫害实体种类和数量巨多，文本特点不一样，因此关于苹果领域的病虫害实体识别问题亟待解决。

本发明拟通过收集苹果病虫害相关文献与资料，调整苹果病虫害防治命名实体识别数据集，针对苹果病虫害防治实体特点，在此数据集上使用深度学习方法对数据集中的命名实体进行识别，并计划通过注意力机制模型进行改进。

发明内容

1.要解决的技术问题

针对现有技术中存在的问题，本发明的目的在于提供基于注意力机制的苹果病虫害命名实体识别方法，可以实现基于注意力机制的苹果病虫害命名实体识别模型，使模型在苹果病虫害命名实体识别数据集中取得更好的评估指标，改进调整苹果病虫害领域实体集，采用基于注意力机制的双向长短期记忆模型实现对苹果病虫害实体的识别。

2.技术方案

为解决上述问题，本发明采用如下的技术方案。

基于注意力机制的苹果病虫害命名实体识别方法，包括如下步骤：

S1、采用一种联合使用BERT生成嵌入字符向量、BI-LSTM序列建模、自注意力机制和条件随机场的中文命名实体识别模型；

S2、首先利用BERT生成嵌入字符向量作为模型的词嵌入工具为模型下游提供高质量的字向量；

S3、接着通过BI-LSTM序列建模作为模型的特征提取部分，在字向量的基础上进行特征提取；

S4、自注意力机制通过为字向量赋予不同的权重，使模型有重点地进行学习，获取全局上下文特征，忽略对目标词影响较小的信息，从而提高模型的训练效果；

S5、条件随机场为模型中的序列标注做出句法限制，从而得到一个最优的序列标注。

在得到苹果病虫害数据集之后，首先通过BERT预训练模型获取数据集中的字符向量；接下来以字符向量为输入，通过BI-LSTM模型提取上下文特征得到特征序列；然后通过注意力层处理BI-LSTM层输出的特征序列，得到当前词与序列中其他词的权重，获取全局特征表示；最后将加入注意力机制的特征序列送入CRF中进行标签预测，得到最合理的标签序列，完成苹果病虫害命名实体识别，其中，非实体字符统一标注为‘O’，实体的开头字符标注为‘B-实体类型’，中间字符标注为‘M-实体类型’，结尾字符标注为‘E-实体类型’，使用模型进行实验之后，再根据实验结果对模型进行更进一步分析和调整，可以实现基于注意力机制的苹果病虫害命名实体识别模型，使模型在苹果病虫害命名实体识别数据集中取得更好的评估指标，改进调整苹果病虫害领域实体集，采用基于注意力机制的双向长短期记忆模型实现对苹果病虫害实体的识别。

进一步的，所述S2步骤作为词嵌入工具生成字向量作用于后续模型，所述S2步骤还包括以下步骤：

S21、BERT模型的输入，其具体应用如下：文本序列设置为([CLS],患,病,枝,干,呈,红,褐,色,[SEP]),其中[CLS]表示文本句子序列开头，[SEP]表示分割不同句子，文本序列由字向量和位置向量相加表示后输入BERT模型，其中字向量由BERT提供的词汇表确定；

S22、BERT模型的输出，其具体应用如下：文本序列输入后，直接获取预训练好的模型，利用苹果病虫害领域数据进行微调训练，对BERT中的参数进行学习调整，最终得到字符表示

此步骤可取得句子中每个字的向量表示作为后续BI-LSTM模型的输入，BERT模型为下游提供高质量的字向量，进一步丰富了语义信息。

进一步的，所述S3步骤采用BI-LSTM神经网络进行苹果病虫害实体特征提取，BERT作为嵌入工具将产生的字向量

作为BI-LSTM的输入，正向LSTM输出的隐状态序列与反方向LSTM输出的隐状态在相应位置进行拼接，可以得到一个完整的输出序列，最后将得到的输出序列接入一个线性层，可以将隐状态向量从原来的维度映射到K维，K为标签维度，从而达到提取文本特征目的，其中x表示通过BERT模型得到的字符向量，输入到正向与反向LSTM中。正、反两个方向LSTM得到的特征进行拼接得到输出[h₀,h₁,h₂,h₃,h₄,h₅,h₆,h₇,]：

其中LSTM的具体计算过程如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

f_t为遗忘门，W_f和b_f为训练的参数，x_t为当前时刻输入，即BERT生成的文本字向量，h_t-1表示上一个LSTM的输出。

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

i_t为输入门，W_i和b_i为训练的参数。

C_t为LSTM网络中的神经元状态，W_c和b_c为训练的参数。

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

o_t为输出门，最终得到每一部分LSTM的输出结果h_t。

进一步的，所述S4步骤使用自注意力机制模型加强序列全局特征，改善BI-LSTM序列建模的效果，具体方法如下：

BI-LSTM层得到的特征序列[h₀,h₁,h₂,h₃,h₄,h₅,h₆,h₇,]作为输入对于每一个输入向量h，与三个学习得到的系数w_q,w_k,w_v相乘，得到q,k,v:

qⁱ＝w^q·h_i

kⁱ＝w^k·h_i

vⁱ＝w^v·h_i

利用得到的q和k计算每两个输入向量之间的相关性，也就是计算attention的值权重α:

α(i,j)＝qⁱ·k^j

为防止权重相差过大导致后续softmax函数计算梯度消失，引入维度d_k进行缩放：

输出向量

其中

为经过自注意力机制加强全局特征的序列，作为条件随机场解码层的输入，通过自注意力机制为不同的字符特征输入h分配不同的权重，输出是所有字符的加权和，增加了全局特征，解决远距离依赖问题，苹果病虫害防治文本具有句子长，实体长的特点，BI-LSTM捕捉字符间距离依赖关系的能力会降低且无法体现关键信息的作用，自注意力机制重点考虑的是文本中不同位置的信息对当前位置信息影响的重要程度，为每个特征向量分配不同的权重来改变上下文信息对于当前位置实体标签的影响效果，同时，增强了全局上下文特征，改善了BI-LSTM语义稀释的问题，更准确地理解序列语义。

进一步的，所述S5步骤的中文命名实体识别模型可同步解码输入序列的信息以及标签之间的关系，由于使用BERT生成嵌入字符向量、BI-LSTM序列建模、自注意力机制等上述模型时只考虑了输入序列的信息，但是没有考虑标签信息，即标签之间的关系，例如：单个实体字符标注‘O’后不能跟随中间字符标注‘M’等，这样的标签序列是无效的，因此，拟采用条件随机场作为解码层，得到最终标签，CRF层可以向最终的预测标签添加一些约束，以确保标签之间是有效的，这些约束可以由CRF层在训练过程中从训练数据集自动学习，例如：文本序列‘患病树干呈红褐色’经过CRF解码的标签序列为：O,O,B,E,O,B,M,E。

3.有益效果

相比于现有技术，本发明的优点在于：

(1)本方案在得到苹果病虫害数据集之后，首先通过BERT预训练模型获取数据集中的字符向量；接下来以字符向量为输入，通过BI-LSTM模型提取上下文特征得到特征序列；然后通过注意力层处理BI-LSTM层输出的特征序列，得到当前词与序列中其他词的权重，获取全局特征表示；最后将加入注意力机制的特征序列送入CRF中进行标签预测，得到最合理的标签序列，完成苹果病虫害命名实体识别，其中，非实体字符统一标注为‘O’，实体的开头字符标注为‘B-实体类型’，中间字符标注为‘M-实体类型’，结尾字符标注为‘E-实体类型’，使用模型进行实验之后，再根据实验结果对模型进行更进一步分析和调整，可以实现基于注意力机制的苹果病虫害命名实体识别模型，使模型在苹果病虫害命名实体识别数据集中取得更好的评估指标，改进调整苹果病虫害领域实体集，采用基于注意力机制的双向长短期记忆模型实现对苹果病虫害实体的识别。

附图说明

图1为本发明BERT预训练模型的结构示意图；

图2为本发明BERT模型输入的结构示意图；

图3为本发明BI-LSTM序列建模的结构示意图；

图4为本发明自注意力机制的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“套设/接”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1：

3.请参阅图1-4，基于注意力机制的苹果病虫害命名实体识别方法，包括如下步骤：

在得到苹果病虫害数据集之后，首先通过BERT预训练模型获取数据集中的字符向量；接下来以字符向量为输入，通过BI-LSTM模型提取上下文特征得到特征序列；然后通过注意力层处理BI-LSTM层输出的特征序列，得到当前词与序列中其他词的权重，获取全局特征表示；最后将加入注意力机制的特征序列送入CRF中进行标签预测，得到最合理的标签序列，完成苹果病虫害命名实体识别，其中，非实体字符统一标注为‘O’，实体的开头字符标注为‘B-实体类型’，中间字符标注为‘M-实体类型’，结尾字符标注为‘E-实体类型’，使用模型进行实验之后，再根据实验结果对模型进行更进一步分析和调整。

如图1-2所示，所述S2步骤作为词嵌入工具生成字向量作用于后续模型，所述S2步骤还包括以下步骤：

S21、BERT模型的输入，其具体应用如下：文本序列设置为([CLS],患,病,枝,干,呈,红,褐,色,[SEP]),其中[CLS]表示文本句子序列开头，[SEP]表示分割不同句子。文本序列由字向量和位置向量相加表示后输入BERT模型，其中字向量由BERT提供的词汇表确定；

S22、BERT模型的输出，其具体应用如下：文本序列输入后，直接获取

预训练好的模型，利用苹果病虫害领域数据进行微调训练，对BERT中的参数进行学习调整，最终得到字符表示

如图3所示，所述S3步骤采用BI-LSTM神经网络进行苹果病虫害实体特征提取，BERT作为嵌入工具将产生的字向量

作为BI-LSTM的输入，正向LSTM输出的隐状态序列与反方向LSTM输出的隐状态在相应位置进行拼接，可以得到一个完整的输出序列，最后将得到的输出序列接入一个线性层，可以将隐状态向量从原来的维度映射到K维，K为标签维度，从而达到提取文本特征目的，其中x表示通过BERT模型得到的字符向量，输入到正向与反向LSTM中。正、反两个方向LSTM得到的特征进行拼接得到输出[h₀,h₁,h₂,h₃,h₄,h₅,h₆,h₇,]

：

其中LSTM的具体计算过程如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

i_t为输入门，W_i和b_i为训练的参数。

C_t为LSTM网络中的神经元状态，W_c和b_c为训练的参数。

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

o_t为输出门，最终得到每一部分LSTM的输出结果h_t。

如图4所示，所述S4步骤使用自注意力机制模型加强序列全局特征，改善BI-LSTM序列建模的效果，具体方法如下：

qⁱ＝w^q·h_i

kⁱ＝w^k·h_i

vⁱ＝w^v·h_i

α(i,j)＝qⁱ·k^j

输出向量

其中

所述S5步骤的中文命名实体识别模型可同步解码输入序列的信息以及标签之间的关系，由于使用BERT生成嵌入字符向量、BI-LSTM序列建模、自注意力机制等上述模型时只考虑了输入序列的信息，但是没有考虑标签信息，即标签之间的关系，例如：单个实体字符标注‘O’后不能跟随中间字符标注‘M’等，这样的标签序列是无效的，因此，拟采用条件随机场作为解码层，得到最终标签，CRF层可以向最终的预测标签添加一些约束，以确保标签之间是有效的，这些约束可以由CRF层在训练过程中从训练数据集自动学习，例如：文本序列‘患病树干呈红褐色’经过CRF解码的标签序列为：O,O,B,E,O,B,M,E。

在具体实施时，还通过精确率(Precision)对模型在苹果病虫害命名实体识别数据中进行评估指标，精确率最好的值是1，最差的值是0，召回率(Recall)直观地说是分类器找到所有正样本的能力,召回率最好的值是1，最差的值是0，F1是精确率和召回率的调和平均值，Precision体现了模型对负样本的区分能力，精确率越高，模型对负样本的区分能力越强；召回率体现了模型对正样本的识别能力，召回率越高，模型对正样本的识别能力越强，F1是两者的综合，F1越高，说明模型越稳健，其计算公式如下：

其中，S代表数据集中被标记的所有正确实体，A表示由该算法抽取所得到的全部实体，T表示通过该算法得到的具有正确标记的实体。

采用本方案可以实现基于注意力机制的苹果病虫害命名实体识别模型，使模型在苹果病虫害命名实体识别数据集中取得更好的评估指标，改进调整苹果病虫害领域实体集，采用基于注意力机制的双向长短期记忆模型实现对苹果病虫害实体的识别。

以上所述，仅为本发明较佳的具体实施方式；但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其改进构思加以等同替换或改变，都应涵盖在本发明的保护范围内。

Claims

1.基于注意力机制的苹果病虫害命名实体识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于注意力机制的苹果病虫害命名实体识别方法，其特征在于：所述S2步骤作为词嵌入工具生成字向量作用于后续模型，所述S2步骤还包括以下步骤：

S21、BERT模型的输入；

S22、BERT模型的输出。

3.根据权利要求1所述的基于注意力机制的苹果病虫害命名实体识别方法，其特征在于：所述S3步骤采用BI-LSTM神经网络进行苹果病虫害实体特征提取。

4.根据权利要求1所述的基于注意力机制的苹果病虫害命名实体识别方法，其特征在于：所述S4步骤使用自注意力机制模型加强序列全局特征，改善BI-LSTM序列建模的效果。

5.根据权利要求1所述的基于注意力机制的苹果病虫害命名实体识别方法，其特征在于：所述S5步骤的中文命名实体识别模型可同步解码输入序列的信息以及标签之间的关系。