CN117540742A - 融合位置标签并基于ernie3.0和多网络的命名实体识别方法 - Google Patents

融合位置标签并基于ernie3.0和多网络的命名实体识别方法 Download PDF

Info

Publication number
CN117540742A
CN117540742A CN202311495632.5A CN202311495632A CN117540742A CN 117540742 A CN117540742 A CN 117540742A CN 202311495632 A CN202311495632 A CN 202311495632A CN 117540742 A CN117540742 A CN 117540742A
Authority
CN
China
Prior art keywords
tomato
named entity
data set
text
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311495632.5A
Other languages
English (en)
Inventor
陈婷
施斌
朱昌群
罗琛
王逸晨
斯小瑞
白帆
胡途
夏俊峰
杨航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202311495632.5A priority Critical patent/CN117540742A/zh
Publication of CN117540742A publication Critical patent/CN117540742A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,该方法主要包括:按照8:1:1的比例划分番茄病虫害领域文本数据,以用于对模型进行训练、验证、测试;该方法提出具体模型为:融合位置标签的ERNIE3.0‑BIGRU‑GCN‑MHATT‑CRF模型,对输入的文本中的实体进行位置标签处理进而标记实体的开始位置和结束位置,帮助模型更好地理解文本中的实体信息,然后再以滑动窗口形式将每三句话的文本、标签、位置信息组合为一组输入到ERNIE3.0‑BIGRU‑GCN‑MHATT‑CRF多网络模型中进行训练、验证、测试,最后输出番茄病虫害领域在验证集、测试集上的命名实体识评估结果。本发明的提出能够显著改善和提升番茄病虫害领域对文本数据的处理效率,为后续番茄病虫害领域知识图谱构建、问答系统生成奠定坚实基础。

Description

融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法
技术领域
本发明涉及融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,属于番茄病虫害防治技术领域。
背景技术
番茄作为世界上最重要的蔬菜之一,具有广泛的食用和经济价值。然而,番茄在其生长过程中常常受到各种病虫害的侵害,对番茄产业的稳定和可持续发展构成了严重威胁,不同类型的病虫害对应不同的解决方案,为维护经济的可持续发展,必须做好番茄病虫害领域的防治工作。
命名实体识别是自然语言处理中的重要任务,是番茄病虫害领域知识图谱构建、问答系统生成的关键上游组件。命名实体识别任务的结果好坏直接影响着后续任务的开展,为了缓解命名实体识别之后下游任务的进展压力,亟需提供一种准确高效的命名实体识别方法,以改善和提升番茄病虫害领域文本数据的处理效率。
发明内容
本发明提供了融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,能高效准确的对标注实体进行检测,为领域知识图谱构建提供有力依据。
本发明的技术方案是:融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,包括:
对收集的番茄病虫害领域的文本数据集进行划分,得到训练集、验证集、测试集用以评估模型的整体性能,所述训练集用以训练命名实体识别模型,所述验证集用以验证命名实体识别模型,所述测试集用以测试命名实体识别模型;
根据番茄病虫害领域的数据集,确定命名实体识别模型,所述模型为融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法;
模型训练完毕后,验证集、测试集可用于对模型进行评估;
所述番茄病虫害领域的文本数据集包括番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法中的至少一种实体类型。
所述对番茄病虫害领域文本数据集的划分,划分后可得到:训练集、验证集、测试集,包括:
对所述番茄病虫害领域的文本进行去除空格、无用符号处理,整体上简化数据集结构;
将所述的简化数据集按照定义的六种实体类型:番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法进行标注,标注方式为:BMESO标注法,得到标注数据集;
对所述标注数据集进行划分,划分出:训练集,验证集,测试集。
训练集、验证集、测试集的划分比例为:8:1:1。
将所述的简化数据集按照定义的六种实体类型:番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法进行标注,包括:
使用BMESO标注法对所述简化数据进行标注,其中,B表示实体的开始字符,M表示实体的中间字符,E表示实体的急速字符,S表示单实体,O表示非实体。
所述基于番茄病虫害领域的训练数据集,确定命名实体识别模型,包括
将标注的文本数据集进行位置标签处理,位置标签旨在标记文本中一个实体的开始位置、结束位置,所述位置标签处理有利于模型更好的学习上下文语义信息;
将所述进行位置标签处理后的文本输入到ERNIE3.0预训练模型中,通过ERNIE3.0预训练模型生成表示上下文语义信息的字向量,提取文本中的重要特征,并输出对应的字向量;
将所述字向量输入到BIGRU和GCN网络中,BIGRU用来学习上下文特征,GCN用来解决长序列依赖的问题;
将BIGRU和GCN网络的输出进行拼接,将集成输出结果输入到多头注意力机制MHATT中,所述MHATT用于获取输入文本序列的全局特征表示以及各种关键字符信息;
将全局特征以及关键字符信息输入到CRF中,利用CRF推理层输出概率最大的标签序列作为模型最终的预测标签。
可选的,还包括:
根据对应评估指标对所述命名实体识别模型进行评估,得到评估结果,其中,所述评估指标包括F1值(F1_score)、精确率(Precision_score)、召回率(Recall_score)中的至少一种。
附图说明
图1为本发明数据预处理流程图;
图2为本发明识别方法的整体流程图;
图3为本发明识别方法的详细模型流程图;
图4为本发明提出的命名实体识别方法主干模型图;
图5为标注后的数据集中各类实体的实体数量统计图;
图6为本发明提出的命名实体识别模型在验证集上的评估结果图;
图7为本发明提出的命名实体识别模型在测试集上的评估结果图。
具体实施方式
下面对本发明的实施例进行详细描述,以下通过参考附图描述的实施例均表示示范性,目的主要是为了详细解释本发明的流程,对发明做进一步的说明,但本发明的内容并不限于所述范围。
如背景中所述,命名实体识别是自然语言处理中的重要任务,是番茄病虫害领域知识图谱构建、问答系统生成的关键上游组件。命名实体识别任务的结果好坏直接影响着后续任务的开展。为了缓解命名实体识别之后下游任务的进展压力,亟需提供一种准确高效的命名实体识别方法,以改善和提升番茄病虫害领域文本数据的处理效率。
基于此,本发明实施例提供一种番茄病虫害的命名实体识别方法,包括:对收集的番茄病虫害领域的文本数据集进行划分,得到训练集、验证集、测试集用以评估模型的整体性能,所述训练集用以训练命名实体识别模型,所述验证集用以验证命名实体识别模型,所述测试集用以测试命名实体识别模型;根据番茄病虫害领域的数据集,确定命名实体识别模型,所述模型为融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,模型详细名称为:融合位置标签的ERNIE3.0-BIGRU-GCN-MHATT-CRF模型。;最后输出番茄病虫害领域命名实体识别在验证集、测试集上的评估结果。本发明的提出能够显著改善和提升番茄病虫害领域对文本数据的处理效率,为后续番茄病虫害领域知识图谱构建、问答系统生成奠定坚实基础。
下面对本发明实施例中的具体内容进行说明。
图1为本发明实施例中提供的一种番茄病虫害领域命名实体识别方法的数据预处理流程图。参考图1所述,该命名实体识别方法的数据预处理步骤具体包括:
步骤S1、对所述番茄病虫害领域的文本进行去除空格、无用符号处理,整体上简化数据集结构;
步骤S2、将所述简化数据集按照定义的六种实体类型:番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法进行标注,得到标注数据集;
在一种实施例中,将所述简化数据集按照定义的六种实体类型:番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法进行标注,包括:
使用BMESO标注法对所述简化数据进行标注,其中,B表示实体的开始字符,M表示实体的中间字符,E表示实体的急速字符,S表示单实体,O表示非实体。
示例的,“早疫病”是番茄病虫害领域数据集中的一种病害,采用本申请中的BMESO标注法对“早疫病”进行标注时,其标注表示为早B-Disease疫M-Disease病E-Disease,其中,Disease表示病害实体的类型,BME分别表示病害实体“早疫病”这一实体的开始、中间和结尾。
步骤S3、将所述标注数据集按照预设比例划分出训练数据集、验证数据集和测试数据集。
在一种实施例中,将所述标注数据集按照8:1:1划分出训练数据集、验证数据集和测试数据集。
图2为本发明实施例中提供的一种番茄病虫害领域命名实体识别方法的整体流程图。
参考图2所述,该命名实体识别方法的整体流程步骤具体包括:
步骤S4、对收集的番茄病虫害领域的文本数据集进行划分,得到训练集、验证集、测试集用以评估模型的整体性能,所述训练集用以训练命名实体识别模型,所述验证集用以验证命名实体识别模型,所述测试集用以测试命名实体识别模型;
步骤S5,步骤S6、确定了命名实体识别模型:融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,模型详细名称为:融合位置标签的ERNIE3.0-BIGRU-GCN-MHATT-CRF模型。在训练过程中为解决过拟合问题,引入dropout机制,Drop率设为0.15,所有模型均通过Adam优化算法进行参数优化,采用分层学习率:ERNIE3.0层设为0.00001,BIGRU、GCN、MHATT、CRF层设为0.0025。
其中,dropout机制在每个训练批次中,通过忽略一半的特征检测器(让一半的隐层节点值为0),可以明显地减少过拟合现象。这种方式可以减少特征检测器(隐层节点)间的相互作用,检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。
详细过程,参考图3,基于番茄病虫害领域的文本数据集,确定命名实体识别的详细流程包括:
步骤S8、按照8:1:1比例划分数据集得到:训练集、验证集、测试集,数据集分别用于对模型进行训练、验证、预测;
步骤S9、对划分数据集进行位置标签处理标记数据集中实体的开始、结束位置,具体包括:
所述步骤S2的标注情况下,示例的,“早疫病”,标注表示为早B-Disease疫M-Disease病E-Disease,进行位置标签处理时,记录实体的开始和结束位置,在文本中加入“<”和“>”符号,用以标记实体的开始以及结束位置,“早疫病”在进行位置标签处理之后文本可显示为“<早疫病>”,并且加入“<”和“>”符号,对模型在进行训练时没有任何负面影响。
步骤S10、通过ERNIE3.0预训练模型生成表示上下文语义信息的字向量,提取文本中的重要特征,并输出对应的字向量,所示ERNIE3.0预训练模型为ERNIE3.0-BIGRU-GCN-MHATT-CRF的初始层;
具体的,ERNIE3.0可以视为Transformer模型的一个扩展和改进版本。它保留了Transformer中的自注意力机制,同时通过多任务学习和知识融合等技术,使得模型更加适用于不同领域的自然语言理解任务。ERNIE的核心思想是将外部知识和预训练任务引入到模型中,以提高模型在各种文本理解任务上的性能;
步骤S11、所述字向量输入到BIGRU和GCN网络中,BIGRU用来学习上下文特征,GCN用来解决长序列依赖的问题;
步骤S12、将BIGRU和GCN网络的输出进行拼接,将集成输出结果输入到多头注意力机制MHATT中,所述MHATT用于获取输入文本序列的全局特征表示以及各种关键字符信息;
将BIGRU层的第一输出结果(输出特征向量)和GCN层的第二输出结果(输出特征向量)进行平均集成,再将集成输出结果(集成后的特征向量)输入到MHATT层中。MHATT模块独立重复地对Q(查询矩阵)、K(键矩阵)、V(值矩阵)进行h次(MHATT的头数)自注意力变换,然后将h次变换的结果进行拼接(向量首尾相连),最后的输出还需进行一次线性变换得到,每一个注意力函数负责最终输出序列中一个子空间,MHATT就是把多个独立计算的注意力进行集成。
单个字符注意力计算公式为:
首先初始化3个矩阵,建立当前字和其他字的关系,为键向量维度的平方根,起调节作用,使得内积不至于过大,因此需要除以/>
多头自注意力的计算公式为:
headi=Attention(QWi Q,KWi K,VWi V) 公式2
Multihead(Q,K,V)=concat(head1,head2,…,headn)W0 公式3
其中,表示线性映射所用的参数矩阵,concat是将各个头进行拼接,headi表示多头自注意力中的第i个头。
步骤S12、将全局特征以及关键字符信息输入到CRF中,利用CRF推理层输出概率最大的标签序列作为模型最终的预测标签。
其中,条件随机场(CRF)在序列标注、结构化预测和信息抽取等任务中有着广泛的应用,它的主要作用是通过建模输入数据之间的关系,提高了模型在处理序列和结构化数据上的性能。它的能力在捕获序列或结构的依赖关系上使其成为自然语言处理和计算机视觉等领域的重要工具。
步骤S13、最后输出番茄病虫害领域命名实体识别在验证集、测试集上的评估结果,其中包括:根据对应评估指标对所述命名实体识别模型进行评估,得到评估结果,其中,所述评估指标包括F1值(F1_score)、精确率(Precision_score)、召回率(Recall_score)中的至少一种;
其中:F1值(F1_score)、精确率(Precision_score)、召回率(Recall_score)的计算公式如下所示:
其中:TP:真正例、FP:假正例、FN:假反例、TN:真反例。
进而,本申请中提出的方法是:融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,算法模型详细表示为:融合位置标签的ERNIE3.0-BIGRU-GCN-MHATT-CRF模型,提高了番茄病虫害领域命名实体识别的识别精度。
可以得出,本发明针对番茄病虫害领域突出的一种融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,为后续番茄病虫害领域知识图谱的构建、问答系统的生成提供了坚实的基础。

Claims (7)

1.一种融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,其特征在于:包括:
S4、对番茄病虫害领域文本进行实体标注,标注方式为BMESO标注法,按照8:1:1比例划分数据集得到训练集、验证集、测试集;
S5、对划分数据集进行位置标签处理,标记数据集中实体的开始、结束位置;
S6、以滑动窗口形式,将数据集的文本、标签、位置信息每三个句子组合在一起输送到:ERNIE3.0-BIGRU-GCN-MHATT-CRF多网络模型中;
S7、最后输出番茄病虫害领域命名实体识别在验证集、测试集上的评估结果。
2.根据权利要求1所述的融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,其特征在于:所述番茄病虫害领域的文本数据集包括番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法中的至少一种实体类型。
3.根据权利要求2所述的融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,其特征在于:所述按照8:1:1划分番茄病虫害领域的文本数据集,得到训练集、验证集、测试集,包括:
对所述番茄病虫害领域的文本进行去除空格、无用符号处理,整体上简化数据集结构;
将所述的简化数据集按照定义的六种实体类型:番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法进行标注,标注方式为:BMESO标注法,得到标注数据集;
将所述标注数据集按照8:1:1比例划分为训练集、验证集、测试集。
4.根据权利要求3所述的融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,其特征在于:按照8:1:1划分数据集得到训练集、验证集、测试集。
5.根据权利要求3所述的融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,其特征在于,包括:
使用BMESO标注法对简化数据集按照定义的六种实体类型:番茄类别、病虫害、致病情形、发病部位、发病症状和防治方法进行标注,其中,B表示实体的开始字符,M表示实体的中间字符,E表示实体的急速字符,S表示单实体,O表示非实体。
6.根据权利要求3所述的融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,其特征在于:所述基于番茄病虫害领域的训练数据集,确定命名实体识别模型,包括:
将标注的文本数据集进行位置标签处理,位置标签旨在标记文本中一个实体的开始位置、结束位置,所述位置标签处理有利于模型更好的学习上下文语义信息;
将所述进行位置标签处理后的文本输入到ERNIE3.0预训练模型中,通过ERNIE3.0预训练模型生成表示上下文语义信息的字向量,提取文本中的重要特征,并输出对应的字向量;
将所述字向量输入到BIGRU和GCN网络中,BIGRU用来学习上下文特征,GCN用来解决长序列依赖的问题;
将BIGRU和GCN网络的输出进行拼接,将集成输出结果输入到多头注意力机制MHATT中,所述MHATT用于获取输入文本序列的全局特征表示以及各种关键字符信息;
将全局特征以及关键字符信息输入到CRF中,利用CRF推理层输出概率最大的标签序列作为模型最终的预测标签。
7.根据权利要求1所述的融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,其特征在于,包括:
根据对应评估指标对所述命名实体识别模型进行评估,得到评估结果,其中,所述评估指标包括F1值(F1_score)、精确率(Precision_score)、召回率(Recall_score)中的至少一种。
CN202311495632.5A 2023-11-10 2023-11-10 融合位置标签并基于ernie3.0和多网络的命名实体识别方法 Pending CN117540742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311495632.5A CN117540742A (zh) 2023-11-10 2023-11-10 融合位置标签并基于ernie3.0和多网络的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311495632.5A CN117540742A (zh) 2023-11-10 2023-11-10 融合位置标签并基于ernie3.0和多网络的命名实体识别方法

Publications (1)

Publication Number Publication Date
CN117540742A true CN117540742A (zh) 2024-02-09

Family

ID=89783463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311495632.5A Pending CN117540742A (zh) 2023-11-10 2023-11-10 融合位置标签并基于ernie3.0和多网络的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN117540742A (zh)

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111694924B (zh) 一种事件抽取方法和系统
CN111563149B (zh) 一种用于中文知识图谱问答系统的实体链接方法
CN111737484A (zh) 一种基于联合学习的警情知识图谱构建方法
CN113312501A (zh) 基于知识图谱的安全知识自助查询系统的构建方法及装置
CN105095444A (zh) 信息获取方法和装置
CN109063164A (zh) 一种基于深度学习的智能问答方法
CN110851584B (zh) 一种法律条文精准推荐系统和方法
CN111985612B (zh) 一种提高视频文本描述准确性的编码器网络模型设计方法
CN115599899B (zh) 基于飞行器知识图谱的智能问答方法、系统、设备及介质
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN116340530A (zh) 基于机械知识图谱的智能设计方法
CN117036778A (zh) 一种基于图文转换模型的安全隐患识别标注方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN112347252B (zh) 一种基于cnn文本分类模型的可解释性分析方法
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN117786052A (zh) 一种基于领域知识图谱的电网智能问答系统
CN116342167A (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN117540742A (zh) 融合位置标签并基于ernie3.0和多网络的命名实体识别方法
CN112052685B (zh) 一种基于二维时序网络的端到端文本实体关系识别方法
CN114372148A (zh) 一种基于知识图谱技术的数据处理方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination