CN117540742A

CN117540742A - 融合位置标签并基于ernie3.0和多网络的命名实体识别方法

Info

Publication number: CN117540742A
Application number: CN202311495632.5A
Authority: CN
Inventors: 陈婷; 施斌; 朱昌群; 罗琛; 王逸晨; 斯小瑞; 白帆; 胡途; 夏俊峰; 杨航
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-02-09

Abstract

本发明提出了一种融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，该方法主要包括：按照8:1:1的比例划分番茄病虫害领域文本数据，以用于对模型进行训练、验证、测试；该方法提出具体模型为：融合位置标签的ERNIE3.0‑BIGRU‑GCN‑MHATT‑CRF模型，对输入的文本中的实体进行位置标签处理进而标记实体的开始位置和结束位置，帮助模型更好地理解文本中的实体信息，然后再以滑动窗口形式将每三句话的文本、标签、位置信息组合为一组输入到ERNIE3.0‑BIGRU‑GCN‑MHATT‑CRF多网络模型中进行训练、验证、测试，最后输出番茄病虫害领域在验证集、测试集上的命名实体识评估结果。本发明的提出能够显著改善和提升番茄病虫害领域对文本数据的处理效率，为后续番茄病虫害领域知识图谱构建、问答系统生成奠定坚实基础。

Description

融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法

技术领域

本发明涉及融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，属于番茄病虫害防治技术领域。

背景技术

番茄作为世界上最重要的蔬菜之一，具有广泛的食用和经济价值。然而，番茄在其生长过程中常常受到各种病虫害的侵害，对番茄产业的稳定和可持续发展构成了严重威胁，不同类型的病虫害对应不同的解决方案，为维护经济的可持续发展，必须做好番茄病虫害领域的防治工作。

命名实体识别是自然语言处理中的重要任务，是番茄病虫害领域知识图谱构建、问答系统生成的关键上游组件。命名实体识别任务的结果好坏直接影响着后续任务的开展，为了缓解命名实体识别之后下游任务的进展压力，亟需提供一种准确高效的命名实体识别方法，以改善和提升番茄病虫害领域文本数据的处理效率。

发明内容

本发明提供了融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，能高效准确的对标注实体进行检测，为领域知识图谱构建提供有力依据。

本发明的技术方案是：融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，包括：

对收集的番茄病虫害领域的文本数据集进行划分，得到训练集、验证集、测试集用以评估模型的整体性能，所述训练集用以训练命名实体识别模型，所述验证集用以验证命名实体识别模型，所述测试集用以测试命名实体识别模型；

根据番茄病虫害领域的数据集，确定命名实体识别模型，所述模型为融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法；

模型训练完毕后，验证集、测试集可用于对模型进行评估；

所述番茄病虫害领域的文本数据集包括番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法中的至少一种实体类型。

所述对番茄病虫害领域文本数据集的划分，划分后可得到：训练集、验证集、测试集，包括：

对所述番茄病虫害领域的文本进行去除空格、无用符号处理，整体上简化数据集结构；

将所述的简化数据集按照定义的六种实体类型：番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法进行标注，标注方式为：BMESO标注法，得到标注数据集；

对所述标注数据集进行划分，划分出：训练集，验证集，测试集。

训练集、验证集、测试集的划分比例为：8:1:1。

将所述的简化数据集按照定义的六种实体类型：番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法进行标注，包括：

使用BMESO标注法对所述简化数据进行标注，其中，B表示实体的开始字符，M表示实体的中间字符，E表示实体的急速字符，S表示单实体，O表示非实体。

所述基于番茄病虫害领域的训练数据集，确定命名实体识别模型，包括

将标注的文本数据集进行位置标签处理，位置标签旨在标记文本中一个实体的开始位置、结束位置，所述位置标签处理有利于模型更好的学习上下文语义信息；

将所述进行位置标签处理后的文本输入到ERNIE3.0预训练模型中，通过ERNIE3.0预训练模型生成表示上下文语义信息的字向量，提取文本中的重要特征，并输出对应的字向量；

将所述字向量输入到BIGRU和GCN网络中，BIGRU用来学习上下文特征，GCN用来解决长序列依赖的问题；

将BIGRU和GCN网络的输出进行拼接，将集成输出结果输入到多头注意力机制MHATT中，所述MHATT用于获取输入文本序列的全局特征表示以及各种关键字符信息；

将全局特征以及关键字符信息输入到CRF中，利用CRF推理层输出概率最大的标签序列作为模型最终的预测标签。

可选的，还包括：

根据对应评估指标对所述命名实体识别模型进行评估，得到评估结果，其中，所述评估指标包括F1值(F1_score)、精确率(Precision_score)、召回率(Recall_score)中的至少一种。

附图说明

图1为本发明数据预处理流程图；

图2为本发明识别方法的整体流程图；

图3为本发明识别方法的详细模型流程图；

图4为本发明提出的命名实体识别方法主干模型图；

图5为标注后的数据集中各类实体的实体数量统计图；

图6为本发明提出的命名实体识别模型在验证集上的评估结果图；

图7为本发明提出的命名实体识别模型在测试集上的评估结果图。

具体实施方式

下面对本发明的实施例进行详细描述，以下通过参考附图描述的实施例均表示示范性，目的主要是为了详细解释本发明的流程，对发明做进一步的说明，但本发明的内容并不限于所述范围。

如背景中所述，命名实体识别是自然语言处理中的重要任务，是番茄病虫害领域知识图谱构建、问答系统生成的关键上游组件。命名实体识别任务的结果好坏直接影响着后续任务的开展。为了缓解命名实体识别之后下游任务的进展压力，亟需提供一种准确高效的命名实体识别方法，以改善和提升番茄病虫害领域文本数据的处理效率。

基于此，本发明实施例提供一种番茄病虫害的命名实体识别方法，包括：对收集的番茄病虫害领域的文本数据集进行划分，得到训练集、验证集、测试集用以评估模型的整体性能，所述训练集用以训练命名实体识别模型，所述验证集用以验证命名实体识别模型，所述测试集用以测试命名实体识别模型；根据番茄病虫害领域的数据集，确定命名实体识别模型，所述模型为融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，模型详细名称为：融合位置标签的ERNIE3.0-BIGRU-GCN-MHATT-CRF模型。；最后输出番茄病虫害领域命名实体识别在验证集、测试集上的评估结果。本发明的提出能够显著改善和提升番茄病虫害领域对文本数据的处理效率，为后续番茄病虫害领域知识图谱构建、问答系统生成奠定坚实基础。

下面对本发明实施例中的具体内容进行说明。

图1为本发明实施例中提供的一种番茄病虫害领域命名实体识别方法的数据预处理流程图。参考图1所述，该命名实体识别方法的数据预处理步骤具体包括：

步骤S1、对所述番茄病虫害领域的文本进行去除空格、无用符号处理，整体上简化数据集结构；

步骤S2、将所述简化数据集按照定义的六种实体类型：番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法进行标注，得到标注数据集；

在一种实施例中，将所述简化数据集按照定义的六种实体类型：番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法进行标注，包括：

示例的，“早疫病”是番茄病虫害领域数据集中的一种病害，采用本申请中的BMESO标注法对“早疫病”进行标注时，其标注表示为早B-Disease疫M-Disease病E-Disease，其中，Disease表示病害实体的类型，BME分别表示病害实体“早疫病”这一实体的开始、中间和结尾。

步骤S3、将所述标注数据集按照预设比例划分出训练数据集、验证数据集和测试数据集。

在一种实施例中，将所述标注数据集按照8:1:1划分出训练数据集、验证数据集和测试数据集。

图2为本发明实施例中提供的一种番茄病虫害领域命名实体识别方法的整体流程图。

参考图2所述，该命名实体识别方法的整体流程步骤具体包括：

步骤S4、对收集的番茄病虫害领域的文本数据集进行划分，得到训练集、验证集、测试集用以评估模型的整体性能，所述训练集用以训练命名实体识别模型，所述验证集用以验证命名实体识别模型，所述测试集用以测试命名实体识别模型；

步骤S5，步骤S6、确定了命名实体识别模型：融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，模型详细名称为：融合位置标签的ERNIE3.0-BIGRU-GCN-MHATT-CRF模型。在训练过程中为解决过拟合问题，引入dropout机制，Drop率设为0.15，所有模型均通过Adam优化算法进行参数优化，采用分层学习率：ERNIE3.0层设为0.00001，BIGRU、GCN、MHATT、CRF层设为0.0025。

其中，dropout机制在每个训练批次中，通过忽略一半的特征检测器(让一半的隐层节点值为0)，可以明显地减少过拟合现象。这种方式可以减少特征检测器(隐层节点)间的相互作用，检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。

详细过程，参考图3，基于番茄病虫害领域的文本数据集，确定命名实体识别的详细流程包括：

步骤S8、按照8:1:1比例划分数据集得到：训练集、验证集、测试集，数据集分别用于对模型进行训练、验证、预测；

步骤S9、对划分数据集进行位置标签处理标记数据集中实体的开始、结束位置，具体包括：

所述步骤S2的标注情况下，示例的，“早疫病”，标注表示为早B-Disease疫M-Disease病E-Disease，进行位置标签处理时，记录实体的开始和结束位置，在文本中加入“<”和“>”符号，用以标记实体的开始以及结束位置，“早疫病”在进行位置标签处理之后文本可显示为“<早疫病>”，并且加入“<”和“>”符号，对模型在进行训练时没有任何负面影响。

步骤S10、通过ERNIE3.0预训练模型生成表示上下文语义信息的字向量，提取文本中的重要特征，并输出对应的字向量，所示ERNIE3.0预训练模型为ERNIE3.0-BIGRU-GCN-MHATT-CRF的初始层；

具体的，ERNIE3.0可以视为Transformer模型的一个扩展和改进版本。它保留了Transformer中的自注意力机制，同时通过多任务学习和知识融合等技术，使得模型更加适用于不同领域的自然语言理解任务。ERNIE的核心思想是将外部知识和预训练任务引入到模型中，以提高模型在各种文本理解任务上的性能；

步骤S11、所述字向量输入到BIGRU和GCN网络中，BIGRU用来学习上下文特征，GCN用来解决长序列依赖的问题；

步骤S12、将BIGRU和GCN网络的输出进行拼接，将集成输出结果输入到多头注意力机制MHATT中，所述MHATT用于获取输入文本序列的全局特征表示以及各种关键字符信息；

将BIGRU层的第一输出结果(输出特征向量)和GCN层的第二输出结果(输出特征向量)进行平均集成，再将集成输出结果(集成后的特征向量)输入到MHATT层中。MHATT模块独立重复地对Q(查询矩阵)、K(键矩阵)、V(值矩阵)进行h次(MHATT的头数)自注意力变换，然后将h次变换的结果进行拼接(向量首尾相连)，最后的输出还需进行一次线性变换得到，每一个注意力函数负责最终输出序列中一个子空间，MHATT就是把多个独立计算的注意力进行集成。

单个字符注意力计算公式为：

首先初始化3个矩阵，建立当前字和其他字的关系，为键向量维度的平方根，起调节作用，使得内积不至于过大，因此需要除以/>

多头自注意力的计算公式为：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) 公式2

Multihead(Q,K,V)＝concat(head₁,head₂,…,head_n)W⁰ 公式3

其中，表示线性映射所用的参数矩阵，concat是将各个头进行拼接，head_i表示多头自注意力中的第i个头。

步骤S12、将全局特征以及关键字符信息输入到CRF中，利用CRF推理层输出概率最大的标签序列作为模型最终的预测标签。

其中，条件随机场(CRF)在序列标注、结构化预测和信息抽取等任务中有着广泛的应用，它的主要作用是通过建模输入数据之间的关系，提高了模型在处理序列和结构化数据上的性能。它的能力在捕获序列或结构的依赖关系上使其成为自然语言处理和计算机视觉等领域的重要工具。

步骤S13、最后输出番茄病虫害领域命名实体识别在验证集、测试集上的评估结果，其中包括：根据对应评估指标对所述命名实体识别模型进行评估，得到评估结果，其中，所述评估指标包括F1值(F1_score)、精确率(Precision_score)、召回率(Recall_score)中的至少一种；

其中：F1值(F1_score)、精确率(Precision_score)、召回率(Recall_score)的计算公式如下所示：

其中：TP：真正例、FP：假正例、FN：假反例、TN：真反例。

进而，本申请中提出的方法是：融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，算法模型详细表示为：融合位置标签的ERNIE3.0-BIGRU-GCN-MHATT-CRF模型，提高了番茄病虫害领域命名实体识别的识别精度。

可以得出，本发明针对番茄病虫害领域突出的一种融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，为后续番茄病虫害领域知识图谱的构建、问答系统的生成提供了坚实的基础。

Claims

1.一种融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，其特征在于：包括：

S4、对番茄病虫害领域文本进行实体标注，标注方式为BMESO标注法，按照8:1:1比例划分数据集得到训练集、验证集、测试集；

S5、对划分数据集进行位置标签处理，标记数据集中实体的开始、结束位置；

S6、以滑动窗口形式，将数据集的文本、标签、位置信息每三个句子组合在一起输送到：ERNIE3.0-BIGRU-GCN-MHATT-CRF多网络模型中；

S7、最后输出番茄病虫害领域命名实体识别在验证集、测试集上的评估结果。

2.根据权利要求1所述的融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，其特征在于：所述番茄病虫害领域的文本数据集包括番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法中的至少一种实体类型。

3.根据权利要求2所述的融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，其特征在于：所述按照8:1:1划分番茄病虫害领域的文本数据集，得到训练集、验证集、测试集，包括：

将所述标注数据集按照8:1:1比例划分为训练集、验证集、测试集。

4.根据权利要求3所述的融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，其特征在于：按照8:1:1划分数据集得到训练集、验证集、测试集。

5.根据权利要求3所述的融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，其特征在于，包括：

使用BMESO标注法对简化数据集按照定义的六种实体类型：番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法进行标注，其中，B表示实体的开始字符，M表示实体的中间字符，E表示实体的急速字符，S表示单实体，O表示非实体。

6.根据权利要求3所述的融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，其特征在于：所述基于番茄病虫害领域的训练数据集，确定命名实体识别模型，包括：

7.根据权利要求1所述的融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法，其特征在于，包括：