CN112149423B

CN112149423B - 一种面向领域实体关系联合抽取的语料标注方法及系统

Info

Publication number: CN112149423B
Application number: CN202011108388.9A
Authority: CN
Inventors: 吴赛赛; 谢能付; 周爱莲; 梁晓贺; 姜丽华; 张帆; 李小雨; 汪汇涓
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2024-01-26
Anticipated expiration: 2040-10-16
Also published as: CN112149423A

Abstract

本发明共公开一种面向领域实体关系联合抽取的语料标注方法及系统，方法包括：利用scrapy爬虫框架从网页爬取符合条件的初始数据；利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据；根据领域语料特征定义实体间的关系集合；利用YEDDA文本标注工具，根据所述关系集合对所述无噪声文本数据进行标注，获得标注数据。采用本发明公开的方法能够简化实体和关系的标注流程，提升标注效率，实现实体关系的联合抽取以及重叠关系的抽取，同时还能有效避免采用流水线方法提取实体和关系过程中存在的错误传播、信息丢失和实体冗余等问题。

Description

一种面向领域实体关系联合抽取的语料标注方法及系统

技术领域

本发明涉及自然语言处理领域，特别是涉及一种面向领域实体关系联合抽取的语料标注方法及系统。

背景技术

命名实体识别和关系抽取是自然语言处理的两项核心工作，也是知识图谱构建的重要下游任务。语料标注是命名实体识别和关系抽取的底层任务，传统的实体和关系标注方式是在对实体标注的基础上，再对两个实体间的关系进行标注，降低了标注的效率、准确率、召回率以及F1值，且容易造成实体和关系抽取中的错误传播、信息丢失和实体冗余等问题。

发明内容

基于此，本发明的目的是提供一种面向领域实体关系联合抽取的语料标注方法及系统，以克服现有实体关系提取方法存在错误传播、信息丢失和实体冗余的问题。

为实现上述目的，本发明提供了一种面向领域实体关系联合抽取的语料标注方法，所述方法包括：

步骤S1：利用scrapy爬虫框架从网页爬取符合条件的初始数据；

步骤S2：利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据；

步骤S3：根据领域语料特征定义实体间的关系集合；

步骤S4：利用YEDDA文本标注工具，根据所述关系集合对所述无噪声文本数据进行标注，获得标注数据。

可选地，所述方法还包括：

步骤S5：根据所述标注数据抽取三元组；

步骤S6：根据所述三元组构建知识图谱。

可选地，所述利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据，具体包括：

步骤S21：利用正则表达式将所述初始数据内的待滤除信息进行滤除，获得滤除数据；

步骤S22：对所述滤除数据进行缺失数据补充，获得无噪声文本数据。

可选地，所述待滤除信息包括网页导航、广告和重复值。

可选地，所述方法还包括：

步骤S7：将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试，获得预测的标签数据；

本发明还提供一种面向领域实体关系联合抽取的语料标注系统，所述系统包括：

爬取模块，用于利用scrapy爬虫框架从网页爬取符合条件的初始数据；

预处理模块，用于利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据；

关系集合定义模块，用于根据领域语料特征定义实体间的关系集合；

标注模块，用于利用YEDDA文本标注工具，根据所述关系集合对所述无噪声文本数据进行标注，获得标注数据。

可选地，所述系统还包括：

三元组抽取模块，用于根据所述标注数据抽取三元组；

知识图谱构建模块，用于根据所述三元组构建知识图谱。

可选地，所述预处理模块具体包括：

滤除单元，用于利用正则表达式将所述初始数据内的待滤除信息进行滤除，获得滤除数据；

缺失数据补充单元，用于对所述滤除数据进行缺失数据补充，获得无噪声文本数据。

可选地，所述待滤除信息包括网页导航、广告和重复值。

可选地，所述系统还包括：

训练、测试和预测模块，用于将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试，获得预测的标签数据。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例面向领域实体关系联合抽取的语料标注方法流程图；

图2为本发明实施例作物病虫害领域语料标注示意图；

图3为本发明实施例作物病虫害领域三元组形成示意图；

图4为本发明实施例面向领域实体关系联合抽取的语料标注系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种面向领域实体关系联合抽取的语料标注方法及系统，以克服现有提取方法存在错误传播、信息丢失和实体冗余的问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明公开一种面向领域实体关系联合抽取的语料标注方法，所述方法包括：

步骤S1：利用scrapy爬虫框架从网页爬取符合条件的初始数据。

步骤S2：利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据。

步骤S3：根据领域语料特征定义实体间的关系集合。

下面对各个步骤进行详细论述：

步骤S1：利用scrapy爬虫框架从网页爬取符合条件的初始数据；所述条件为一条数据主要围绕一个特定实体E展开，实体E与文本中的多个实体{E₁,E₂,…,E_i,…E_n}之间存在多关系对。

步骤S2：所述利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据，具体包括：

步骤S21：利用正则表达式将所述初始数据内的待滤除信息进行滤除，获得滤除数据；所述待滤除信息包括网页导航、广告和重复值。

步骤S22：对所述滤除数据进行缺失数据补充，获得无噪声文本数据。本发明既可以采用人工的方式对所述滤除数据进行缺失数据补充，还可以采用正则表达式对所述滤除数据进行缺失数据补充，但并不限于以上两种。

步骤S3：根据领域语料特征定义实体间的关系集合R；如果标注的是作物病虫害领域，那么对应的关系集合包括{别名，发生期，病原，为害部位，防治药剂……}；如果标注的是医疗领域，那么对应的关系集合包括{发病部位，临床症状，检查，手术治疗，治疗药物……}；如果标注的是公安领域，那么对应的关系集合包括{性别，出生日期，失踪原因，失踪地点，可能去向……}。

步骤S4：利用YEDDA文本标注工具，根据所述关系集合对所述无噪声文本数据进行标注，获得标注数据。本发明将此标注方案命名为“E+R+BIES”，标注方法如下：若某一实体E与多实体{E₁,E₂,…,E_i,…E_n}之间存在一一对应的关系{R₁,R₂,…,R_i,…R_n}，首先将实体E设置为一固定标签E，当文本中实体E_i与实体E之间存在关系R_i，则直接将E_i的标签设置为R_i，并用“BIES”标志来表示实体E_i中字符的位置信息，其中“B-R_i”表示实体E_i的首字符，“I-R_i”表示实体E_i的内部字符，“E-R_i”表示实体E_i的尾字符，“S-R_i”表示实体E_i为单字符，“O”则代表无关字符。采用“E+R+BIES”标注的方法对作物病虫害进行标注，具体详见图2，首先将“水稻云形病”标注为固定标签“E”，其中“叶枯病”与“水稻云形病”之间存在关系“别名”，则将“叶枯病”标注为“别名”的代表标签“ON”(Other_Name)；“叶片”与“水稻云形病”存在关系“为害部位”，则将“叶片”标注为代表“为害部位”的标签“DP”(Damage_Position)。

所述方法还包括：

步骤S5：根据所述标注数据抽取三元组，具体的：每匹配到一条数据中的标签E和同一关系R_i的完整“BIE”或“S”集合，便取出标签集合所对应的实体E和E_i，通过python的map函数进行标签映射，通过codecs等模块进行数据解析，形成一个(E,R_i,E_i)三元组。

如图3所示，如(水稻云形病，别名，叶枯病)、(水稻云形病，为害部位，叶片)，实现实体关系的联合抽取；直至遇到下一个标签E，则说明上一个实体E对应的三元组全部抽取完成。在这样的标注方式下，只关注两个实体之间的关系类型R_i而无需关注E_i所属的实体类型。

步骤S6：根据所述三元组构建知识图谱。

所述方法还包括：

步骤S7：将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试，获得预测的标签数据。预训练语言模型(Bidirectional Encoder Representations fromTransformers，简称BERT)，长短期记忆网络模型(Bi-directional Long Short-TermMemory，简称BiLSTM)，条件随机场(Conditional RandomField，简称CRF)。BERT用于生成字向量，BiLSTM用于输出标签的预测得分，CRF用于输出字符的标签类别。

步骤S7：将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试，获得预测的标签数据，具体包括：

步骤S71：通过BERT预训练语言模型进行字编码，提取文本特征，生成字向量。

步骤S72：将生成的字向量输入BiLSTM模型，进行双向编码，并输出标签的预测分值。

步骤S73：将标签的预测分值输入CRF模型进行解码，通过训练学习得到标签转移概率和约束条件，获得每个字符所属的标签类别。

如图4所示，本发明还提供一种面向领域实体关系联合抽取的语料标注系统，所述系统包括：

爬取模块1，用于利用scrapy爬虫框架从网页爬取符合条件的初始数据。

预处理模块2，用于利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据。

关系集合定义模块3，用于根据领域语料特征定义实体间的关系集合。

标注模块4，用于利用YEDDA文本标注工具，根据所述关系集合对所述无噪声文本数据进行标注，获得标注数据。

三元组抽取模块，用于根据所述标注数据抽取三元组。

知识图谱构建模块，用于根据所述三元组构建知识图谱。

作为一种实施方式，本发明所述预处理模块具体包括：

滤除单元，用于利用正则表达式将所述初始数据内的待滤除信息进行滤除，获得滤除数据；所述待滤除信息包括网页导航、广告和重复值。

作为一种实施方式，本发明所述系统还包括：

所述训练、测试和预测模块，具体包括：

字编码单元，用于通过BERT预训练语言模型进行字编码，提取文本特征，生成字向量。

双向编码单元，用于将生成的字向量输入BiLSTM模型，进行双向编码，并输出标签的预测分值。

解码单元，用于将标签的预测分值输入CRF模型进行解码，通过训练学习得到标签转移概率和约束条件，获得每个字符所属的标签类别。

本发明公开了一种面向领域实体关系联合抽取的语料标注方法及系统，将实体关系的联合抽取转化为一个序列标注问题，直接对三元组建模，而不是分别对实体和关系分别建模，实现实体和关系的联合抽取和重叠关系的抽取。根据医疗、作物病虫害、公安等领域一些文本具有的一个共同特征：一条数据主要围绕一个特定实体E而展开，实体E与文本中多个实体{E₁,E₂,…,E_i,…E_n}之间存在一一对应关系{R₁,R₂,…,R_i,…R_n}。基于这样的领域语料特征，在标注过程中首先将实体E标注为一个固定标签E，若文本中某个实体E_i与实体E之间存在关系R_i，则直接将E_i的标签设置为R_i，通过标签映射和数据解析后得到三元组(E，R_i，E_i)。这样的标注方式在一次标注过程中即同时包含实体和关系信息，实现实体关系的联合抽取，在提高标注效率的基础上还能有效避免流水线方法存在的错误传播、信息丢失以及实体冗余等问题。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向领域实体关系联合抽取的语料标注方法，其特征在于，所述方法包括：

步骤S3：根据领域语料特征定义实体间的关系集合；

步骤S4：利用YEDDA文本标注工具，根据所述关系集合对所述无噪声文本数据进行标注，获得标注数据；标注方法如下：若某一实体E与多实体{E₁，E₂，…，E_i，…E_n}之间存在一一对应的关系{R₁，R₂，…，R_i，…R_n}，首先将实体E设置为一固定标签E，当文本中实体E_i与实体E之间存在关系R_i，则直接将E_i的标签设置为R_i，并用“BIES”标志来表示实体E_i中字符的位置信息，其中“B-R_i”表示实体E_i的首字符，“I-R_i”表示实体E_i的内部字符，“E-R_i”表示实体E_i的尾字符，“S-R_i”表示实体E_i为单字符，“O”则代表无关字符；通过标签映射和数据解析后得到三元组(E，R_i，E_i)；

所述利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据，具体包括：

步骤S22：利用人工的方式或正则表达式对所述滤除数据进行缺失数据补充，获得无噪声文本数据。

2.根据权利要求1所述的面向领域实体关系联合抽取的语料标注方法，其特征在于，所述方法还包括：

步骤S5：根据所述标注数据抽取三元组；

步骤S6：根据所述三元组构建知识图谱。

3.根据权利要求1所述的面向领域实体关系联合抽取的语料标注方法，其特征在于，所述待滤除信息包括网页导航、广告和重复值。

4.根据权利要求2所述的面向领域实体关系联合抽取的语料标注方法，其特征在于，所述方法还包括：

步骤S7：将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试，获得预测的标签数据。

5.一种面向领域实体关系联合抽取的语料标注系统，其特征在于，所述系统包括：

标注模块，用于利用YEDDA文本标注工具，根据所述关系集合对所述无噪声文本数据进行标注，获得标注数据；标注方法如下：若某一实体E与多实体{E₁，E₂，…，E_i，…E_n}之间存在一一对应的关系{R₁，R₂，…，R_i，…R_n}，首先将实体E设置为一固定标签E，当文本中实体E_i与实体E之间存在关系R_i，则直接将E_i的标签设置为R_i，并用“BIES”标志来表示实体E_i中字符的位置信息，其中“B-R_i”表示实体E_i的首字符，“I-R_i”表示实体E_i的内部字符，“E-R_i”表示实体E_i的尾字符，“S-R_i”表示实体E_i为单字符，“O”则代表无关字符；通过标签映射和数据解析后得到三元组(E，R_i，E_i)；

所述预处理模块具体包括：

缺失数据补充单元，用于利用人工的方式或正则表达式对所述滤除数据进行缺失数据补充，获得无噪声文本数据。

6.根据权利要求5所述的面向领域实体关系联合抽取的语料标注系统，其特征在于，所述系统还包括：

三元组抽取模块，用于根据所述标注数据抽取三元组；

知识图谱构建模块，用于根据所述三元组构建知识图谱。

7.根据权利要求6所述的面向领域实体关系联合抽取的语料标注系统，其特征在于，所述待滤除信息包括网页导航、广告和重复值。

8.根据权利要求5所述的面向领域实体关系联合抽取的语料标注系统，其特征在于，所述系统还包括：