CN112015871B

CN112015871B - 基于事件集远程监督的人物关系自动标注方法

Info

Publication number: CN112015871B
Application number: CN202011189911.5A
Authority: CN
Inventors: 李芳芳; 陈桂凯; 毛星亮; 林中尧
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-01-01
Anticipated expiration: 2040-10-30
Also published as: CN112015871A

Abstract

本发明涉及文本特征提取和关系标注，公开了一种基于事件集远程监督的人物关系自动标注方法，具体包括以下步骤：S1：构建事件集；S2：基于事件集进行语料文本人物关系的标注，人物关系标注完毕之后的数据格式为：[实体1，实体2，句子，决定事件，人物关系]。本发明能解决关系缺失的问题。

Description

基于事件集远程监督的人物关系自动标注方法

技术领域

本发明涉及文本特征提取和关系标注，尤其涉及基于事件集远程监督的人物关系自动标注方法。

背景技术

人物关系抽取是自然语言处理的重要子任务之一，被广泛应用在社会生活的方方面面。例如：可以帮助电商分析用户评论背后的社交网络，可以帮助有关人员收集和分析情报，可以用于社会舆情分析、维护社会稳定，也可将人物关系抽取的结果用于构建人物关系知识库，为上层的机器学习任务提供数据支持。

常用的人物关系抽取方法主要有基于传统的统计学习方法和深度学习方法。前者需要人工提取文本中的特征，因此关系抽取的难度很高。深度学习方法可以自动提取文本中的特征而且关系提取的效果明显好于传统的统计学习方法。因此深度学习方法逐渐成为人物关系抽取的主流。然而深度学习方法需要依赖更多的标注数据。传统的人工标注数据方法需要消耗大量的人力和物力，而且数据量和数据规模很难达到深度学习的需求，所以迫切需要一种人物关系自动标注的方法。

目前最常用的自动标注训练数据集的方法是远程监督。远程监督方法首先需要拥有一个包含丰富实体关系的知识库，接着将句子中包含的实体对放入知识库中进行查找，如果句子中的实体对在知识库中存在有对应的关系，则将该关系作为句子的关系标签。虽然远程监督方法可以帮助人物关系抽取任务快速标注训练数据集，但是面临着3个问题：

1、远程监督方法需要依赖于先验知识库，虽然在自动标注数据方面节省了人力物力，但是构建先验知识库的过程需要消耗极大资源。即使少量的先验知识库可以采用现有的开源知识库，但是对于特定领域的关系覆盖不够全面，导致漏标数据，影响人物关系分类模型的精度。

2、远程监督方法标记数据中有大量的错误标签，严重制约了关系分类模型的精度。这是由于传统远程监督方法假设只要句子中的实体对同时存在于知识库中，则认为句子拥有知识库中的关系，但实际上并不完全如此。

3、远程监督方法是将句子中的实体和知识库做匹配，没有考虑到相同实体对在不同阶段的关系是动态变化的，导致关系抽取模型精度下降。

一方面，现有的知识图谱在中文人物关系的积累上还很匮乏，所以现有知识图谱并不能较好支持对人物传记小说语料中人物关系的自动标注。另一方面，人物关系知识库的构建是一个耗时费力的过程，而且不能实时补充新的人物关系。

中国发明专利申请公开说明书CN108287911A，公开日为20180717，公开了一种基于约束化远程监督的关系抽取方法，包括如下步骤：(1)构建外部知识库；(2)获取文本数据；(3)使用远程监督方法获取包含属性的句子；(4)使用预训练的模型获取句子的置信度信息；(5)用置信度信息规则化网络，计算规范化后验概率，得到关系标签。其严重依赖现有的知识库，容易导致关系缺失。

发明内容

本发明的目的是提供一种基于事件集远程监督的人物关系自动标注方法，能够解决关系缺失的问题。

为达到上述目的而采用了一种基于事件集远程监督的人物关系自动标注方法，具体包括以下步骤：

S1：构建事件集；

S2：基于事件集进行语料文本人物关系的标注，人物关系标注完毕之后的数据格式为：[实体1，实体2，句子，决定事件，人物关系]；

采用事件集来自动标注语料中的人物关系，能较好支持对语料中人物关系的自动标注，而且能实时补充新的人物关系，防止人物关系的缺失。

作为本发明基于事件集远程监督的人物关系自动标注方法进一步的改进，其中，步骤S1：构建人物事件集包括：

步骤一：根据人物关系的类别寻找决定人物关系的关键事件；

步骤二：构建决定人物关系的关键事件识别模板，并存入事件集中。

相比于构建成千上万的三元组知识库，构建事件集可以避免穷举所有人物及其关系来构建知识库，进而节省大量的人力物力。而且人物关系类别的数量和事件集的数量相当，可以通过构建高质量的通用模板来提高语料自动标注的准确度。

作为本发明基于事件集远程监督的人物关系自动标注方法进一步的改进，其中，构建决定人物关系的关键事件识别模板的步骤如下：

（1）首先根据数据集中人物关系的类别确定要收集所需类别的事件；

（2）接着收集每个事件的触发词；

（3）得到多个类别的人物关系的关键事件识别模板。

作为本发明基于事件集远程监督的人物关系自动标注方法进一步的改进，其中，步骤S2包括：

1）数据预处理；

2）事件的标注；

3）句子与事件的匹配；

4）人物关系的标注。

作为本发明基于事件集远程监督的人物关系自动标注方法进一步的改进，其中，步骤1）包括：

a.针对多个原始文本语料使用语言技术工具对文本进行预处理，预处理步骤包括，分句、分词、词性标注、人物实体提取；

b.将不存在实体或只有一个实体的句子过滤掉。

由于人物关系需要在两个及以上的人物实体之间发生，所以将不存在实体或只有一个实体的句子过滤掉。

作为本发明基于事件集远程监督的人物关系自动标注方法进一步的改进，其中，步骤2）包括：

c.对预处理后剩下的句子按照其包含的实体对进行归类，即[实体1, 实体2, 句子] 的形式，得到相同实体的句子集合，集合中的句子按照其所在原文的先后顺序进行排列；

d.每个事件按照[触发词、事件、人物]的形式进行标注，得到标注后的事件集合。

作为本发明基于事件集远程监督的人物关系自动标注方法进一步的改进，其中，步骤3）包括：

e.每个句子与事件集中的触发词进行余弦相似度匹配，相似度得分大于预定阈值则表示匹配成功，将该句子匹配到该事件中。

作为本发明基于事件集远程监督的人物关系自动标注方法进一步的改进，其中，步骤4）包括：

f.单个事件的句子集中的第一个句子开始到最后一个句子结束，其间的所有句子都标记为该事件决定的关系；

g.按照句子在语料中出现的先后顺序进行句子和事件的排序；

h.在人物关系的动态发展的过程中，标注人物关系。

便于标注语料库中相同实体对在不同阶段的不同关系。

作为本发明基于事件集远程监督的人物关系自动标注方法进一步的改进，其中还包括步骤S3：计算标注句子的得分，步骤S3包括：

I.首先通过人物关系的标注得到初始标注，包括得到初始标注的句子和对应的决定事件；

II.使用语言技术工具对初始标注的句子进行分词，得到分词结果；

III.将标注的句子分词结果和事件对应的触发词结合，使用BERT词向量模型对其进行词嵌入计算和词向量表示；

IV.计算句子的词向量

与句子关系对应的事件触发词集向量

的最大相似度得分Score，以此作为标注句子的得分。

句子得分有利于降低远程监督方法带来的噪声问题。

作为本发明基于事件集远程监督的人物关系自动标注方法进一步的改进，其中，步骤IV包括：

（1）

其中

为向量

，

的余弦相似度；

（2）

其中

为 1<j<m范围内

的最大值；

（3）

其中，

；

Score为W中前N个最大值的和。

（1）在人物关系标注任务中，我们提出了一个基于事件的远程监督框架（EventSet based Distant Supervision，ESDS）。

（2）该框架将事件引入句子标注过程，解决传统远程监督方法对先验知识库严重依赖而现有公开知识库关系缺失的问题，以及避免耗时费力构建关系知识库的问题。

（3）该框架根据人物事件和得分机制共同决定句子标签，克服传统远程监督方法假设条件太强导致的错误标注问题，提高模型的精度。

（4）该框架标注的数据集与以往人物关系数据集相比，可以标注出相同实体不同阶段的关系，从而提高模型对不同阶段人物关系标注的精度。

（5）经实验表明，基于事件的远程监督方法能显著提高人物关系标注的精度，而且在先验数据集较少的情况下，仍然可以取得较高的精度。

附图说明

图1为基于ESDS的远程监督关系标注方法流程示意图。

图2为基于事件集进行语料文本人物关系的标注流程示意图。

图3为计算标注句子的得分的步骤流程示意图。

图4为传统远程监督方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图4示出了现有技术中传统远程监督方法流程。其存在的问题如下：

Problem1：现有的知识库在特定领域的三元组不够全，重构知识库是个耗时费力的过程。

Problem2：知识库中缺乏句子中的实体时会有漏标问题。

Problem3：知识库中缺乏句子中实体对应的正确关系时会有错误标注问题。

Problem4：通过匹配知识库的方法标注人物关系，并不能区分相同人物实体在不同上下状态下的人物关系。

1、传统的远程监督方法需要依赖于先验知识库，虽然在自动标注数据方面节省了人力物力，但是构建先验知识库的过程需要消耗极大资源。即使少量的先验知识库可以采用现有的开源知识库，但是对于特定领域的关系覆盖不够全面，导致漏标数据，影响人物关系分类模型的精度。

2、传统远程监督方法标记数据中有大量的错误标签，严重制约了关系分类模型的精度。这是由于传统远程监督方法假设只要句子中的实体对同时存在于知识库中，则认为句子拥有知识库中的关系，但实际上并不完全如此。例如图4中，第二句所示“Jack andRose meet on the dance floor”，句子中的实体（Jack 和 Rose）与知识库匹配得到<Jack, Rose Lovers>，<Jack, Rose Friends>两个三元组，在传统远程监督方法中认为句子中的Jack和Rose就应该是 Lovers或者Friends关系。但是在实际句子中Jack和Rose只是出现在一起，句子中两个人物之间的关系应该为“No”，这就导致了错误标签。

3、传统远程监督方法是将句子中的实体和知识库做匹配，没有考虑到相同实体对在不同阶段的关系是动态变化的，导致关系标注模型精度下降。

实施例2

图1-3示出了一种基于事件集远程监督的人物关系自动标注方法，包括以下步骤：

S1：构建事件集；

S2：基于事件集进行语料文本人物关系的标注，人物关系标注完毕之后的数据格式为：[实体1，实体2，句子，决定事件，人物关系]。

在本实施例中，步骤S1：构建人物事件集包括：

在本实施例中，构建决定人物关系的关键事件识别模板的步骤如下：

（1）首先根据数据集中人物关系的类别确定要收集哪些类别的事件；

（2）接着收集每个事件的触发词；

（3）得到多个类别的人物关系的关键事件识别模板。

在本实施例中，步骤S2包括：

1）数据预处理；

2）事件的标注；

3）句子与事件的匹配；

4）人物关系的标注。

在本实施例中，步骤1）包括：

a.针对多个语料文本原始文本使用语言技术工具对文本进行预处理，预处理步骤包括，分句、分词、词性标注、人物实体提取；

b.将不存在实体或只有一个实体的句子过滤掉。

在本实施例中，步骤2）包括：

在本实施例中，步骤4）包括：

h.在人物关系的动态发展的过程中，标注人物关系。

在本实施例中，还包括步骤S3：计算标注句子的得分，步骤S3包括：

IV.计算句子的词向量

与句子关系对应的事件触发词集向量

的最大相似度得分Score，以此作为标注句子的得分。

句子得分有利于降低远程监督方法带来的噪声问题。

在本实施例中，步骤IV包括：

（1）

其中

为向量

，

的余弦相似度；

（2）

其中

为 1<j<m范围内

的最大值；

（3）

其中，

；

其中Score为W中前N个最大值的和。

实施例3

图1示出了基于ESDS的远程监督关系标注方法流程示意图，改进远程监督方法的人物关系自动标注及其步骤如下：

远程监督关系标注方法的思想：两个实体如果在知识库中存在某种关系，则包含这两个实体的非结构化句子均能表示出这种关系。

1.1 事件集的构建

本发明提出一种全新方法：采用关键事件来自动标注语料中的人物关系。

事件集构建的具体步骤：

步骤一：根据人物关系的类别寻找决定人物关系的关键事件，例如构建夫妻关系事件集需要寻找决定关系从“恋人”变化到“夫妻”的决定事件：“结婚事件”。

步骤二：构建结婚事件识别模板 [实体1, 实体2, 事件触发词, 决定:夫妻关系]，并存入事件集中。

优点：相比于构建成千上万的三元组知识库，构建事件集可以避免穷举所有人物及其关系来构建知识库，进而节省大量的人力物力。而且人物关系类别的数量和事件集的数量相当，可以通过构建高质量的通用模板来提高语料自动标注的准确度。

1.2 人物关系的标注

图2示出了基于事件集进行语料文本人物关系的标注流程。

步骤一：数据预处理。

1、针对150本名人传记原始文本，使用哈工大LTP工具对文本进行预处理（语言技术平台（Language Technology Platform，LTP）是哈工大社会计算与信息检索研究中心研制的一套开放中文自然语言处理系统），具体包括：分句、分词、词性标注、人物实体提取。

2、对预处理后的句子进行过滤。过滤规则：由于人物关系需要在两个及以上的人物实体之间发生，所以将不存在实体或只有一个实体的句子过滤掉。

步骤二：事件的标注。

1、对预处理后剩下的句子按照其包含的实体对进行归类，即[实体1, 实体2, 句子] 的形式，得到相同实体的句子集合。集合中的句子按照其所在原文的先后顺序进行排列，如图2中（b）相同实体的句子集合所示，图2中（a）为原始文本语料。

2、事件的标注：如图2中（c）事件集合所示，以事件名为恋爱事件（Love event）为例，其触发过程包括开始恋爱、坠入爱河，其人物主体为情侣。每个事件按照[触发词、事件、人物]的形式进行标注，得到标注后的事件集合如图2中（c）事件集合所示。

其中，事件模板的构建方式如下：首先根据数据集中人物关系的类别确定要收集哪些类别的事件。接着收集每个事件的触发词。由于事件模板的数量是由数据集中人物关系的类别数量决定的，构建11分类的数据集，指的是有11个人物关系类别的数据集。

11类关系为：朋友，仇敌，恋人，前恋人，夫妻，前夫妻，同事，前同事，上下级，亲人，共现关系（表示句子中的两个实体没有明显的关系只是共同出现在一个句子中），只需要收集11类模板即可。比起传统远程监督方法需要收集成千上万的三元组要节省更多人力物力。

步骤三：句子与事件的匹配。

每个句子与事件集中的触发词进行余弦相似度匹配，相似度得分大于一定的阈值则表示匹配成功，将该句子匹配到该事件中。

步骤四：人物关系的标注。

1、单个事件的句子集中的第一个句子开始到最后一个句子结束，期间的所有句子都标记为该事件决定的关系，如结婚事件中的所有句子被标记为“夫妻关系”。

2、以相同实体对为基准，其可能包含多个事件，每个事件包含多个句子。按照句子在语料中出现的先后顺序进行句子和事件的排序。

3、以相同实体对为基准，例如<Lin, Liang>，其人物关系有个动态发展的过程，包括恋人关系，…，夫妻关系。

本步骤优点：基于事件远程监督方法可以标注语料库中相同实体对在不同阶段的不同关系，这点是传统远程监督方法做不到的，如Lin和Liang可能存在恋人、夫妻等多种关系，这些关系将会通过“恋爱事件”、“结婚事件”来确定。

图3使出了计算标注句子的得分的步骤流程。

本方法引入句子得分来降低远程监督方法带来的噪声问题。上述人物关系标注完毕之后的数据格式为：[实体1，实体2，句子，决定事件，人物关系]。为了计算标注的“人物关系”是否准确，需要计算事件对句子的影响，称之为标注句子的得分，如图3所示，具体步骤如下：

步骤一：首先通过上述人物关系的标注得到初始标注，包括得到初始标注的句子和对应的决定事件。

步骤二：使用哈工大LTP工具对初始标注的句子进行分词，得到分词结果。

步骤三：将标注的句子分词结果和事件对应的触发词结合，使用BERT词向量模型对其进行词嵌入计算和词向量表示（词向量技术将自然语言中的词转化为稠密的向量，相似的词会有相似的向量表示，这样的转化方便挖掘文字中词语和句子之间的特征。生成词向量的方法从一开始基于统计学的方法（共现矩阵、SVD分解）到基于不同结构的神经网络的语言模型方法，其中BERT是Google发表的模型，Bidirectional EncoderRepresentations from Transformers，代表Transformer的双向编码器表示，Transformer是一个完全依靠自注意力来计算其输入和输出表示，而不使用序列对齐的循环神经网络或卷积的转换模型）。

步骤四：计算句子的词向量

与句子关系对应的事件触发词集向量

的最大相似度得分Score，以此作为标注句子的得分。具体计算公式如下：

（1）

其中

为向量

，

的余弦相似度；

（2）

其中

为 1<j<m范围内

的最大值；

（3）

其中，

；

Score为W的中前N个最大值的和。

本发明改进的远程监督方法中，将事件引入句子标注过程，解决传统远程监督方法对先验知识库严重依赖的问题，从而避免耗时费力构建关系知识库和使用现有公开知识库关系缺失问题。

本发明改进的远程监督方法中，根据人物事件和得分机制共同决定句子标签，克服传统远程监督方法假设条件太强导致的错误标注问题，提高模型的分类精度。

本发明改进的远程监督方法中，通过在人物传记语料中基于事件的远程监督方法标注的数据集与以前的人物关系数据集相比，可以标注出相同实体不同阶段的关系，从而提高关系标注模型对不同阶段人物关系分类不准确的问题。

经实验表明，基于事件的远程监督方法能显著提高人物关系标注的精度，而且在先验数据集较少的情况下，仍然可以取得较高的精度。

本发明在人物关系标注任务中提出了一个新的基于事件的远程监督框架ESDS。将事件引入人物关系的标记过程，可以减少对知识库的依赖并增加数据集中动态关系样例。另外，ESDS为每个标签数据计算标签分数，利用标签得分可以对标注数据进行排名使得得分极低的数据被过滤，高分的句子将被优先训练，使得贡献更有用特征给关系分类模型。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围之内。