CN115640806A

CN115640806A - 一种基于改进CasRel的农作物病虫害实体关系联合抽取方法

Info

Publication number: CN115640806A
Application number: CN202211368141.XA
Authority: CN
Inventors: 彭煜栋; 刘孝保; 刘浩宇
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-01-24

Abstract

本发明公开了一种基于改进CasRel的农作物病虫害实体关系联合抽取方法，涉及文本实体关系联合抽取领域；包括步骤1：获取农作物病虫害文本，在模型训练前使用标注工具对文本数据进行实体关系标注；步骤2：将标注好的数据输入到RoBERTa预训练模型中，对句子进行特征提取，获得含有语义信息的编码词向量；步骤3：得到的词向量通过头实体解码器，查找句子中所有可能存在的头实体；步骤4：再引入Self‑Attention自注意力模型，对不同实体赋予不同的权重，抽取得到能更好地表示实体的向量；本发明可有效解决农作物病虫害文本同一句子中存在多个关系共用同一实体的问题，模型抽取效果好。

Description

一种基于改进CasRel的农作物病虫害实体关系联合抽取方法

技术领域

本发明涉及一种基于改进CasRel的农作物病虫害实体关系联合抽取方法，属于文本实体关系抽取技术领域。

背景技术

农作物病虫害所造成的灾害每年都会造成巨大的直接或间接的经济损失，是造成农业损失的主要灾害之一。随着互联网与计算机技术的快速发展，与农业病虫害相关的文本数据呈现出爆炸式增长，但是农户很难直接的去使用存储在非结构化文本中的大量农作物病虫害防治信息，无法有效利用防治信息应用到实际生产中。因此，提高对农业领域防治知识的利用，采用科学的指导措施可最大程度降低病虫害造成的损失，对农业粮食安全、经济等具有重要的意义。如何让计算机高效、智能地识别不规则、非结构化的文本数据，并将农业文本数据与科技相结合，从而形成科学有效的防治信息系统至关重要。

信息抽取是知识图谱构建的第一步且是关键的技术基础。信息抽取包括两个任务：命名实体识别(named entity recognition,NER)和关系抽取(relation extraction，RE)。命名实体识别的主要任务是识别非结构化数据中的特定词汇和技术术语，而关系抽取则是提取实体之间的语义关系，最后获取实体关系组成的三元组，即(头实体，关系，尾实体)。传统的信息抽取方法是流水线学习方法，将其分为两个独立的任务，这种方法的缺点是容易造成信息传输错误、信息丢失等。随着研究的深入，实体识别和关系提取任务的联合建模可以取得更好的效果。然而一些联合提取模型并不适用于农作物病虫害领域的文本提取，且农作物病虫害文本中实体密度高，存在较多的同一句子中多个关系共用同一实体的情况，为解决这些问题。以上所述都会给农作物病虫害文本的实体关系抽取造成困难，导致模型抽取效果差。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于改进CasRel的农作物病虫害实体关系联合抽取方法，能有效的对农作物病虫害数据进行实体关系联合抽取。

为了解决上述技术问题，本发明公开了一种基于改进CasRel的农作物病虫害实体关系联合抽取方法，该方法按照以下步骤进行：

步骤1：获取农作物病虫害文本，在模型训练前使用标注工具对文本数据进行实体关系标注；

步骤2：将标注好的数据输入到RoBERTa预训练模型中，对句子进行特征提取，获得含有语义信息的编码词向量；

步骤3：得到的词向量通过头实体解码器，查找句子中所有可能存在的头实体；

步骤4：再引入Self-Attention自注意力模型，对不同实体赋予不同的权重，抽取得到能更好地表示实体的向量；

步骤5：最后通过特定关系尾实体解码器，识别所有可能存在的预设的关系和尾实体，获得输入数据中所含三元组信息，完成农作物病虫害实体关系联合抽取。

作为优选方案，所述获取农作物病虫害文本，通过轻量级爬虫框架Scrapy对相关的文本数据进行爬取。文本数据收集完成后，对收集的文本进行数据清洗、去重等处理，获得了涵盖水稻、麦类、豆类、薯类、糖烟、茶桑、棉麻、玉米共八类农作物病虫害数据。将数据集按照7:3的比例划分为训练集和测试集，对所述训练集采用精灵标注助手对数据进行实体以及关系标注，将实体类别定义为：作物，作物部位，病害，虫害，病原，防治药剂，地理位置；根据实体信息将实体关系类型设置为：为害作物，为害部位，别名，分布区域，病因，防治药物。

作为优选方案，所述RoBERTa预训练模型采用多层的双向Transformer表示模型，拥有数据量更大，训练更充分的优点，且采用动态mask方法使模型能学习到更多的语句特征，对句子进行特征提取，捕获词在上下文的语境信息，获得含有语义信息的编码词向量h_n。

作为优选方案，所述头实体解码器将RoBERTa编码层输出的包含上下文特征的句子向量作为输入，去识别句子当中所有可能的实体。该模块中采用两个相同的二进制分类器分别去识别实体的位置范围，即实体的开始和结束的位置；为每一个标记设置一个二进制标记(0或1)，按照输入序列依次去判定该标记是否与实体位置的初始和结束位置相对应，头实体标注器具体的计算公式如下所示：

P^start_s＝σ(ω_startx_i+b_start)

P^end_s＝σ(ω_endx_i+b_end)

其中，P^start_s和P^end_s分别表示在输入序列h_n中第i个实体的开始位置和结束位置的概率，若概率超过所设置阈值则对于的标记值则记为1，否则为0。σ为sigmoid激活函数，ω_start与ω_end为可训练权重，b_start与b_end表示偏置值；而x_i＝h_n[i]，代表输入序列中第i个标记的编码。对于句子中存在多个头实体识别的情况时，采取起始和结束位置标记最近的匹配原则来决定实体的范围，且该匹配方法保证了实体的完整性。

作为优选方案，所述self-Attention自注意力函数应用于头实体解码器，对头实体的编码位置向量进行特征提取。每个实体词向量的重要性有所不同，对不同实体赋予不同的权重，可以抽取得到能更好地表示实体的向量。具体为将头实体解码器中所得到的每一个实体对应的编码向量

根据自注意力函数计算后加权求和后得到第k个头实体的编码向量表示

自注意力函数的计算公式如下所示：

其中，Q,K,V分别代表了查询矩阵、键矩阵和值矩阵，三者通过参数矩阵W_Q,W_K,W_V与每一个实体的向量相乘而得到，再使用自注意力函数计算得到不同位置的注意力大小，最后通过线性变换得到。本发明使用的注意力函数为点积乘法注意力，在运算过程中更快，节省运行空间，比例因子为

作用为抵消点积过大带来的影响。

作为优选方案，所述特定关系尾实体解码器由一组客体指针标记器组成，其对于每种关系及其尾实体的标记的处理方式与头实体解码器的相同，但作用是去识别所有可能存在的预设的关系。尾实体解码器与前者的不同之处在于尾实体解码器在输入时加入了编码层上下文信息，且同时考虑了头实体所提取出来的特征信息，将关系建模作为头实体映射到尾实体的函数。计算公式如下式所示：

其中，P^start_o与P^end_o分别表示输入序列中的第i个标记识别为尾实体的开始和结束位置的概率，r代表某一特定关系，需要x_i和

两个向量的维数保持相同，则将第k个实体的开始和结束位置之间的平均向量表示为

所述改进的CasRel模型的损失函数计算公式如下所示：

L＝L^(S)+L^(O)

其中，因均采用二进制的分类器，本模型的损失函数为头实体解码损失L^(S)与特定关系尾实体解码损失L^(O)两部分的和，采用二分类交叉熵损失函数。

本发明的有益效果是：

1.本发明采用RoBERTa预训练模型采用多层的双向Transformer表示模型，拥有更大的数据量，训练更充分的优点，且采用动态mask方法使模型能学习到更多的语句特征，对句子进行特征提取，捕获词在上下文的语境信息，获得含有语义信息的编码向量，对模型抽取效果有较好的提升；

2.本发明引入了自注意力机制，因每个实体词向量的重要性有所不同，对不同实体赋予不同的权重，可以抽取得到能更好地表示实体的向量，提高实体关系抽取的准确性；

3.本发明改进了CasRel级联标记框架模型，有效解决农作物病虫害文本同一句子中存在多个关系共用同一实体的问题，与现有的实体关系抽取模型相比，在准确率(Precision)、召回率(Recall)、F1值(F1-score)都达到了不错的效果，完成了对农作物病虫害文本中三元组的提取。

附图说明

图1为本发明实施例中改进CasRel的农作物病虫害实体关系抽取方法的模型框架图；

图2为本发明农作物病虫害数据标注示例图。

具体实施方式

为了使本领域技术人员更好地理解本发明的技术方案能予以实施，下面结合具体实施方例和附图来进一步说明本发明的技术方案。

本发明是一种基于改进CasRel的农作物病虫害实体关系联合抽取方法，所述方法模型框架如图1所示，该方法按照以下步骤进行：

上述的基于改进CasRel的农作物病虫害实体关系联合抽取方法，获取农作物病虫害文本，在模型训练前使用标注工具对文本数据进行实体关系标注，将标注好的数据集输入到深度学习模型中进行实体关系的联合抽取，首先将标注好的数据输入到RoBERTa预训练模型中，对句子进行特征提取，获得含有语义信息的编码词向量，得到的词向量通过头实体解码器，查找句子中所有可能存在的头实体，再引入Self-Attention自注意力模型，对不同实体赋予不同的权重，抽取得到能更好地表示实体的向量，最后通过特定关系尾实体解码器，识别所有可能存在的预设的关系和尾实体，完成农作物病虫害实体关系联合抽取，获得输入数据中所含三元组信息，该方法提高了实体关系抽取的准确率、召回率、F1值。

步骤1中通过轻量级爬虫框架Scrapy的方法对农作物病虫害相关网站的数据进行爬取。爬取数据完成后，对收集的文本进行数据清洗、去重等处理，获得了涵盖水稻、麦类、豆类、薯类、糖烟、茶桑、棉麻、玉米共八类农作物病虫害语料库，共获得36万字符的数据。将数据集按照7:3的比例划分为训练集和测试集，对所述训练集采用精灵标注助手对数据进行实体以及关系标注，采用“BIESO”的标注方式对各类实体进行标注，其中B表示实体的起始位置，I表示实体内部，E表示实体的结束位置，S表示该实体为单个字符，O表示非实体，标注示例如图2所示。将实体类别定义为：作物，作物部位，病害，虫害，病原，防治药剂，地理位置；根据实体信息将实体关系类型设置为：为害作物，为害部位，别名，分布区域，病因，防治药物。

步骤2中将标注好的数据输入到RoBERTa预训练模型中，对句子进行特征提取，获得含有语义信息的编码词向量，该预训练语言模型采用多层的双向Transformer表示模型，拥有更大的数据量，训练更充分的优点，且采用动态mask方法使模型能学习到更多的语句特征，对句子进行特征提取，捕获词在上下文的语境信息，获得含有语义信息的编码词向量h_n。

步骤3中头实体解码器将RoBERTa编码层输出的包含上下文特征的词向量h_n作为输入，去识别句子当中所有可能的实体。该模块中采用两个相同的二进制分类器分别去识别实体的位置范围，即实体的开始和结束的位置；为每一个标记设置一个二进制标记(0或1)，按照输入序列依次去判定该标记是否与实体位置的初始和结束位置相对应，头实体标注器具体的计算公式如下所示：

P^start_s＝σ(ω_startx_i+b_start)

P^end_s＝σ(ω_endx_i+b_end)

步骤4中，所述self-Attention自注意力函数应用于头实体解码器，对头实体的编码位置向量进行特征提取。每个实体词向量的重要性有所不同，对不同实体赋予不同的权重，可以抽取得到能更好地表示实体的向量。具体为将头实体解码器中所得到的每一个实体对应的编码向量

自注意力函数的计算公式如下所示：

作用为抵消点积过大带来的影响。

步骤5中，所述特定关系尾实体解码器由一组客体指针标记器组成，其对于每种关系及其尾实体的标记的处理方式与头实体解码器的相同，但作用是去识别所有可能存在的预设的关系。尾实体标注器与前者的不同之处在于尾实体解码器在输入时加入了编码层上下文信息，且同时考虑了头实体所提取出来的特征信息，将关系建模作为头实体映射到尾实体的函数。计算公式如下式所示：

所述改进的CasRel模型的损失函数计算公式如下所示：

L＝L^(S)+L^(O)

本发明实施例与不同实体关系抽取模型的实验结果对比如表1所示。

表1不同实体关系抽取模型的实验结果对比

由表1可知本发明实施例所采用的模型RoBERTa-Att-CasRel在三个评价指标上都有不同程度的提高，准确率，召回率，F1值分别达到了89.66％，87.32％，88.47％，说明本发明采用RoBERTa预训练模型的同时引入自注意力机制的实体关系级联标注方法，能够使模型的抽取效果达到最优，对农作物病虫害文本中的实体关系进行有效提取。证明了本实施例中的改进CasRel的农作物病虫害实体关系联合抽取方法的有效性。

上面结合附图对本发明的具体实施例方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于改进CasRel的农作物病虫害实体关系联合抽取方法，其特征在于，包括：

2.根据权利要求1所述的一种基于改进CasRel的农作物病虫害实体关系联合抽取方法，其特征在于，步骤1中，所述获取农作物病虫害文本，通过轻量级爬虫框架Scrapy对相关的文本数据进行爬取，文本数据收集完成后，对收集的文本进行数据清洗、去重等处理，获得了涵盖水稻、麦类、豆类、薯类、糖烟、茶桑、棉麻、玉米共八类农作物病虫害数据，将数据集按照7:3的比例划分为训练集和测试集，对所述训练集采用精灵标注助手对数据进行实体以及关系标注，将实体类别定义为：作物，作物部位，病害，虫害，病原，防治药剂，地理位置；根据实体信息将实体关系类型设置为：为害作物，为害部位，别名，分布区域，病因，防治药物。

3.根据权利要求1所述的一种基于改进CasRel的农作物病虫害实体关系联合抽取方法，其特征在于，步骤2中，所述RoBERTa预训练模型采用多层的双向Transformer表示模型，拥有更大的数据量，训练更充分的优点，且采用动态mask方法使模型能学习到更多的语句特征，对句子进行特征提取，捕获词在上下文的语境信息，获得含有语义信息的编码词向量h_n。

4.根据权利要求1所述的一种基于改进CasRel的农作物病虫害实体关系联合抽取方法，其特征在于，步骤3中，所述头实体解码器将RoBERTa编码层输出的包含上下文特征的句子向量作为输入，去识别句子当中所有可能的实体，该模块中采用两个相同的二进制分类器分别去识别实体的位置范围，即实体的开始和结束的位置；为每一个标记设置一个二进制标记(0或1)，按照输入序列依次去判定该标记是否与实体位置的初始和结束位置相对应，头实体标注器具体的计算公式如下所示：

P^start_s＝σ(ω_startx_i+b_start)

P^end_s＝σ(ω_endx_i+b_end)

其中，P^start_s和P^end_s分别表示在输入序列h_n中第i个实体的开始位置和结束位置的概率，若概率超过所设置阈值则对于的标记值则记为1，否则为0，σ为sigmoid激活函数，ω_start与ω_end为可训练权重，b_start与b_end表示偏置值；而x_i＝h_n[i]，代表输入序列中第i个标记的编码，对于句子中存在多个头实体识别的情况时，采取起始和结束位置标记最近的匹配原则来决定实体的范围，且该匹配方法保证了实体的完整性。

5.根据权利要求1所述的一种基于改进CasRel的农作物病虫害实体关系联合抽取方法，其特征在于，步骤4中，所述self-Attention自注意力函数应用于头实体解码器，对头实体的编码位置向量进行特征提取，每个实体词向量的重要性有所不同，对不同实体赋予不同的权重，可以抽取得到能更好地表示实体的向量，具体为将头实体解码器中所得到的每一个实体对应的编码向量

自注意力函数的计算公式如下所示：

其中，Q,K,V分别代表了查询矩阵、键矩阵和值矩阵，三者通过参数矩阵W_Q,W_K,W_V与每一个实体的向量相乘而得到，再使用自注意力函数计算得到不同位置的注意力大小，最后通过线性变换得到，本文使用的注意力函数为点积乘法注意力，在运算过程中更快，节省运行空间，比例因子为

作用为抵消点积过大带来的影响。

6.根据权利要求1所述的一种基于改进CasRel的农作物病虫害实体关系联合抽取方法，其特征在于，步骤5中，所述特定关系尾实体解码器由一组客体指针标记器组成，其对于每种关系及其尾实体的标记的处理方式与头实体解码器的相同，但作用是去识别所有可能存在的预设的关系，尾实体标注器与前者的不同之处在于尾实体解码器在输入时加入了编码层上下文信息，且同时考虑了头实体所提取出来的特征信息，将关系建模作为头实体映射到尾实体的函数，计算公式如下式所示：

7.根据权利要求1所述的一种基于改进CasRel的农作物病虫害实体关系联合抽取方法，其特征在于，所述改进的CasRel模型的损失函数计算公式如下所示：

L＝L^(S)+L^(O)