CN114282537A

CN114282537A - 一种面向社交文本的级联直线型实体关系抽取方法

Info

Publication number: CN114282537A
Application number: CN202111609226.8A
Authority: CN
Inventors: 马连博; 任慧敏; 王兴伟; 黄敏
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-05
Anticipated expiration: 2041-12-27
Also published as: CN114282537B

Abstract

本发明公开一种面向社交文本的级联直线型实体关系抽取方法，采取级联直线型的提取方式，即方法首先检测给定文本中所包含的关系，然后将每个关系视为额外的知识来指导后续的头实体及尾实体的提取过程。本发明的方法还设计了两个解码器，分别是关系解码器和实体解码器，联合使用这两个解码器来提取实体关系三元组。通过本发明的方法不仅可以提高实体对(头实体，尾实体)提取的准确性以及联合提取的性能，还能通过关系优先的级联提取方法自然地解决重叠问题，进而能够为构建知识图谱提供更精准的前提。

Description

一种面向社交文本的级联直线型实体关系抽取方法

技术领域

本发明涉及自然语言处理信息抽取技术领域，尤其涉及一种面向社交文本的级联直线型实体关系抽取方法。

背景技术

知识图谱是结构化的语义知识库，意在以结构化形式描述客观世界中概念、实体(entity)及其之间的关系(relation),将互联网信息表达成人类容易认知的形式。知识图谱的基本组成单位是实体关系三元组，形如(头实体，关系，尾实体)，因此实体关系抽取是构建知识图谱的关键技术。

实体关系抽取是从非结构化文本中提取实体及其语义关系，即给定一个自然语言文本，其任务是提取该文本中的实体关系三元组。现有的实体关系抽取方法主要包括管道方法和联合抽取方法，传统的管道方法将抽取分成两个独立的实体识别和关系分类子任务，这种方法忽略了两个子任务之间的潜在交互信息，可能遭受错误传播的影响。而联合抽取方法是近几年来广为流行的方式，也是研究的热点，这种方式是在单个模型中联合提取实体和关系。实体关系抽取任务通常会遇到重叠三元组的问题，即一个文本中所包含的不同关系三元组中共享了相同的实体。举例来说，“Maria was born in Leipzig,Germany,and has been living here.”这个文本中具有的三元组有：(Maria,Born_in,Leipzig),(Maria,Live_in,Leipzig),(Leipzig,Located_in,Germany),其中关系“Born_in”和“Live_in”共享了相同的实体对“(Maria,Leipzig)”，而关系“Live_in”和“Located_in”共享了相同的实体“Leipzig”。重叠三元组的提取是影响关系抽取任务评价指标的重要因素，也是实体关系抽取任务需要解决的一个问题。

社交文本领域中存在复杂的实体关系，重叠三元组的情况比较常见，依靠人工标注费时费力，成本很高，然而提取结构化的社交信息不仅是构建社交知识图谱的关键前提，而且能够给社交APP中的好友推荐提供有力帮助。

发明内容

针对上述现有技术的不足，本发明提供一种面向社交文本的级联直线型实体关系抽取方法。

为解决上述技术问题，本发明所采取的技术方案是：一种面向社交文本的级联直线型实体关系抽取方法，具体包括如下步骤：

步骤1：获取具有重叠实体关系的公开实体关系抽取数据集，用以模拟具有重叠实体关系的社交文本，并对所获取的公开数据集进行预处理；

所述对公开数据集进行预处理的方法如下：

步骤1.1：使用预训练模型BERT中的BertTokenizer分词器对数据集中的每个句子进行分词处理，并将分词后句子中的单词转换成ID序号；

步骤1.2：将分词后的数据集进行随机分批处理，每批数据集中的句子以该批数据集中最长句子的长度进行填充对齐处理。

步骤2：使用预训练模型BERT作为基础编码器，并对分批数据集中的句子进行编码，从而获取句子的上下文语义向量及句子中的单词向量表示，过程如下：

步骤2.1：使用预训练模型BERT作为基础编码器；

步骤2.2：将分批数据集中句子对应的单词ID作为词嵌入层的输入，词嵌入层将单词ID映射到词向量；

步骤2.3：句子经过词嵌入层映射成词向量之后输入到预训练模型BERT中，BERT的输出即为句子编码后的最终词向量表示；

步骤2.4：从预训练模型BERT的输出中取句首特殊词“[CLS]”对应的词向量，将该词向量经过池化层，池化层的输出向量作为句子的上下文语义向量。

步骤3：构建关系解码器，其结构包括线性层和Sigmoid层，使用关系解码器探测句子中含有的潜在关系，并获取潜在关系的向量表示，过程如下：

步骤3.1：将步骤2得到的句子的上下文语义向量经过线性层和Sigmoid层之后，分类得到当前句子中含有的潜在关系；

步骤3.2：定义一个关系嵌入层，将步骤3.1分类得到的潜在关系的ID输入到关系嵌入层，关系嵌入层的输出即为潜在关系的向量表示。

步骤4：构建实体解码器，所述实体解码器由头实体提取器和尾实体提取器组成；

所述头实体提取器和尾实体提取器的结构均包括：双向LSTM层、线性层和Softmax层；依据先提取关系，再提取头实体，最后提取尾实体，这一级联直线型抽取方法，使用头实体提取器提取与步骤3中探测到的潜在关系相对应的头实体，具体过程如下：

步骤4.1：检测头实体的开始位置，将步骤2中预训练模型BERT输出的句子编码后的词向量与步骤3得到的潜在关系向量进行拼接，拼接之后的向量经过双向LSTM层得到头实体开始位置的隐藏层向量；

步骤4.2：将头实体开始位置的隐藏层向量经过线性层和Softmax层，预测出当前句子中潜在头实体的开始位置；

步骤4.3：检测头实体的结束位置，将步骤4.1中潜在头实体的开始位置的隐藏层向量和步骤3得到的潜在关系向量进行拼接，拼接后的向量经过双向LSTM层得到头实体结束位置的隐藏层向量；

步骤4.4：将头实体结束位置的隐藏层向量经过线性层和Softmax层，预测出当前句子中潜在头实体的结束位置；

步骤4.5：将步骤4.2和步骤4.4得到的潜在头实体的开始位置和结束位置，按照结束位置不能在开始位置之前的原则进行解码，得到与关系相对应的潜在头实体集合。

步骤5：使用实体解码器中的尾实体提取器探测与每个潜在关系和头实体对应的尾实体，具体过程如下：

步骤5.1：检测尾实体的开始位置，将步骤2中预训练模型BERT输出的句子编码后的词向量、步骤3中的潜在关系向量、步骤4.1中的头实体开始位置的隐藏层向量以及步骤4.3中的头实体结束位置的隐藏层向量进行拼接，拼接之后的向量经过双向LSTM层得到尾实体开始位置的隐藏层向量；

步骤5.2：将尾实体开始位置的隐藏层向量经过线性层和Softmax层，预测出当前句子中潜在尾实体的开始位置；

步骤5.3：检测尾实体的结束位置，将步骤5.1中潜在尾实体的开始位置的隐藏层向量和步骤3得到的潜在关系向量进行拼接，拼接后的向量经过双向LSTM层得到尾实体结束位置的隐藏层向量；

步骤5.4：将尾实体结束位置的隐藏层向量经过线性层和Softmax层，预测出当前句子中潜在尾实体的结束位置；

步骤5.5：将步骤5.2和步骤5.4得到的潜在尾实体的开始位置和结束位置，按照结束位置不能在开始位置之前的原则进行解码，得到与潜在关系和头实体相对应的潜在尾实体。

步骤6：获取实体关系三元组，将三元组添加到集合中，具体方法如下：

通过关系解码器和实体解码器得到的每个句子中存在的潜在关系和关系对应的头实体及尾实体，将(头实体，关系，尾实体)添加到三元组集合中，实体关系抽取任务解码完成。

采用上述技术方案所产生的有益效果在于：

1、本发明提供的方法首先根据文本的语义信息检测文本中包含的关系，然后将提取出的关系视为额外的特征来指导实体对(头实体，尾实体)的提取过程，即通过级联直线型的提取方式可以解决重叠三元组的问题，而且实现了一个较为精准的实体关系抽取方法，为社交领域提供有力支持。

2、本发明提供的方法设计了两个级联解码器，关系解码器和实体解码器，通过这两个解码器得到实体关系三元组，提升了实体关系抽取任务的评价指标。

附图说明

图1为本发明实施例中面向社交文本的级联直线型实体关系抽取方法的流程图；

图2为本发明实施例中级联直线型模型的示意图；

图3为本发明实施例中实体解码器的示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例中面向社交文本的级联直线型实体关系抽取方法如下所述。

本实施例中所使用的公开实体关系抽取数据集为NYT和WebNLG数据集。

所述对公开数据集进行预处理的方法如下：

本实施例中，定义句子X＝“x₁x₂x₃…x_n”，分词之后的句子X＝{[CLS],x₁,x₂,…,x_m,[SEP]},其中“[CLS]”和“[SEP]”为预训练模型BERT增加在句首和句尾的特殊词，“[CLS]”是用于分类的特殊词，“[SEP]”是用于分隔不同句子的特殊词。数据集中的句子完成分词操作后，根据预训练模型BERT中的词库表，将句子中的每个词转换成对应的ID序号。

本实施例中，整个数据集中的句子按8个一组随机分批处理，在每批数据集中以该批数据集中最长句子长度进行填充，填充的方式是用ID序号0填充。

步骤2.1：使用预训练模型BERT作为基础编码器；

步骤2.3：句子经过词嵌入层映射成词向量之后输入到预训练模型BERT中，BERT的输出即为句子编码后的最终词向量表示，记为h_i；

步骤2.4：从预训练模型BERT的输出中取句首特殊词“[CLS]”对应的词向量，将该词向量经过池化层，池化层的输出向量作为句子的上下文语义向量，记为h_p。

本实施例中，在公开的数据集中有预定义的关系集合，定义关系集合R＝{r₁,r₂,...r_j,...,r_k},其中r_j表示关系集合中的第j个关系，k是关系的总数。对于给定的句子X，关系解码器的目标是预测在关系集合R中属于句子X的潜在关系子集。

步骤3.1：将步骤2得到的句子的上下文语义向量h_p经过线性层和Sigmoid层之后，分类得到当前句子中含有的潜在关系；

相关公式如下：

其中，Linear(·)表示线性层，Sigmoid(·)表示激活函数，

表示关系集合R中第i个关系的得分。句子的上下文语义向量h_p经过线性层和激活函数之后，关系集合中的每个关系对应的得分值都在0和1之间。如果

的得分高于给定的阈值，关系解码器会将第i个关系视为当前句子X的潜在关系之一。本发明在具体实施中设置的阈值为0.5。

本实施例中，对于有k个关系的集合R＝{r₁,r₂,...r_j,...,r_k}，定义与R对应的关系向量查找表为

为查找关系对应于关系向量查找表V^r中的向量，其维度为300。

步骤4：构建实体解码器，所述实体解码器由头实体提取器和尾实体提取器组成，如图3所示；

所述头实体提取器和尾实体提取器的结构均包括：双向LSTM层、线性层和Softmax层；依据先提取关系，再提取头实体，最后提取尾实体，这一级联直线型抽取方法，如图2所示，使用头实体提取器提取与步骤3中探测到的潜在关系相对应的头实体，具体过程如下：

步骤4.1：检测头实体的开始位置，将步骤2中预训练模型BERT输出的句子编码后的词向量与步骤3得到的潜在关系向量进行拼接，拼接之后的向量经过双向LSTM层得到头实体开始位置的隐藏层向量，记为

相关公式如下：

其中，Concat(·)表示向量拼接操作，BiLSTM(·)表示双向LSTM模型。

相关公式如下：

其中，Linear(·)表示线性层，Softmax(·)表示激活函数，

表示每个词是否被预测为开始位置的得分，对于句子中每个词，与之对应的

的维度是2，索引0和索引1分别表示“不属于潜在头实体的开始位置”和“属于潜在头实体的开始位置”，选取这两个索引中的值最大的索引位置，即选择索引0表示句子中的当前词不是潜在头实体的开始位置，选择索引1表示句子中的当前词是潜在头实体的开始位置。

检测结束位置和开始位置的方法是相类似的，不同点在于输入的时候要把潜在头实体的开始位置隐藏向量信息

与潜在关系向量

和位置向量信息

拼接后再输入到双向LSTM中，相关公式如下：

其中，

是位置向量信息，表示的是句子中的第i个位置的单词与距离第i个位置最近的潜在头实体开始位置之间的相对距离向量。具体实施方式是，若当前第i个位置之前没有距离10以内的潜在头实体开始位置，把当前第i位置的相对距离值设为499，否则设为当前第i个位置距离最近的潜在头实体开始位置的实际相对距离值。在得到句子中的每个位置的相对距离值之后，通过位置嵌入层，将相对距离值映射成相对距离向量。位置嵌入层是一个随机初始化好的位置向量查找表，会随训练的过程不断更新。

相关公式如下：

其中，

表示每个词是否被预测为潜在头实体结束位置的得分。与预测潜在头实体的开始位置相同，对于句子中每个词，选取索引0和索引1中的值最大的索引位置，即选择索引0表示句子中的当前词不是潜在头实体的结束位置，选择索引1表示句子中的当前词是潜在头实体的结束位置。

步骤4.5：将步骤4.2和步骤4.4得到的潜在头实体的开始位置和结束位置，按照结束位置不能在开始位置之前的原则进行解码，得到与关系相对应的潜在头实体集合，记为EntityH＝{e₁,e₂,...,e_h}。

具体解码算法如下：

1)定义句子序列长度为N，每个位置序号为1到N；句子中的词作为潜在头实体开始位置的潜在序列为{HS}，句子中的词作为潜在头实体结束位置的潜在序列为{HE}；

2)定义i初始值为1，i从1到N在开始位置序列{HS}中循环，如果位置索引i在{HS}中的值为1，表示当前位置的词是潜在头实体开始位置，转到3)执行，否则i加1继续循环。{HS}循环结束后，转到4)；

3)定义j初始值为i，表示j从i到N在结束位置序列{HE}中循环，以寻找潜在头实体的结束位置。同样地，如果位置索引j在{HE}中的值为1，表示当前位置的词是潜在头实体结束位置，在找到结束位置之后，把i和j之间的词作为头实体添加到潜在头实体集合EntityH中；如果位置索引j在{HE}中的值为0，则j加1继续循环。{HE}循环结束后，转到2)；

4){HS}循环结束，表示所有潜在的头实体已经解码完成，都已添加到潜在头实体集合EntityH中，潜在头实体解码算法结束。

步骤5.1：检测尾实体的开始位置，将步骤2中预训练模型BERT输出的句子编码后的词向量、步骤3中的潜在关系向量、步骤4.1中的头实体开始位置的隐藏层向量以及步骤4.3中的头实体结束位置的隐藏层向量进行拼接，拼接之后的向量经过双向LSTM层得到尾实体开始位置的隐藏层向量，记为

相关公式如下：

其中，Sum(·)表示向量求和操作，

为头实体的向量信息，

和

是头实体集合EntityH中第i个头实体的开始位置和结束位置隐藏层向量，两者求和作为第i个头实体的向量信息。

相关公式如下：

其中，Linear(·)表示线性层，Softmax(·)表示激活函数。与预测头实体的开始位置类似，

表示每个词是否被预测为潜在尾实体开始位置的得分，对于句子中每个词，与之对应的

的维度是2，索引0和索引1分别表示“不属于尾实体的开始位置”和“属于尾实体的开始位置”，选取这两个索引中值最大的索引位置，即选择索引0表示句子中的当前词不是潜在尾实体的开始位置，选择索引1表示句子中的当前词是潜在尾实体的开始位置。

检测结束位置的时候，要把潜在尾实体的开始位置隐藏向量信息

与潜在关系向量

和位置向量信息

拼接后再输入到双向LSTM中，相关公式如下：

同样地，

是位置向量信息，表示的是句子中的第i个位置的单词与距离第i个位置最近的潜在尾实体开始位置之间的相对距离向量。具体实施方式是，若当前第i个位置之前没有距离10以内的潜在尾实体开始位置，把当前第i位置的相对距离值设为499，否则设为当前第i个位置距离最近的潜在尾实体开始位置的实际相对距离值。在得到句子中的每个位置的相对距离值之后，通过位置嵌入层，将相对距离值映射成相对距离向量。

相关公式如下：

其中，

表示每个词是否被预测为潜在尾实体结束位置的得分向量。

同样地，选择

中索引值最大的索引位置，选择索引0，表示句子中的当前词不是潜在尾实体的结束位置；选择索引1表示句子中的当前词是潜在尾实体的结束位置。

具体解码算法如下：

1)定义句子序列长度为N，每个位置序号为1到N；句子的词作为潜在尾实体开始位置的潜在序列为{TS}，句子中的词作为潜在尾实体结束位置的潜在序列为{TE}；定义一个空实体关系三元组集合Triple＝{}；

2)定义i初始值为1，i从1到N在开始位置序列{TS}中循环，如果位置索引i在{TS}中的值为1，表示当前位置的词是潜在尾实体开始位置，转到3)执行，否则i加1继续循环。{TS}循环结束后，转到4)；

3)定义j初始值为i，表示j从i到N在结束位置序列{TE}中循环，以寻找潜在尾实体的结束位置。同样地，如果位置索引j在{TE}中的值为1，表示当前位置的词是潜在尾实体结束位置，在找到结束位置之后，把i和j之间的词作为尾实体记为t_l，此时的实体关系三元组记为(e_i,r_j,t_l)，将(e_i,r_j,t_l)添加到三元组集合Triple中；如果位置索引j在{TE}中的值为0，则j加1继续循环。{TE}循环结束后，转到2)；

4){TS}循环结束，表示所有潜在的尾实体及实体关系三元组已经解码完成，已添加到潜在集合Triple中，潜在尾实体解码算法结束。

表1为本实施方式的实体关系联合抽取模型的测试结果对比情况，考虑到社交文本中的实体都是完整的，本实施方式中使用的是完整注释实体的NYT数据集和WebNLG数据集。根据测试结果可以看出，在完整注释实体的NYT数据集和WebNLG数据集中，与现有的CaseRel模型相比，采用本发明的方法进行实体关系联合抽取的F1分值更高，提取三元组的效果是更好的。

表1测试结果对比

模型	NYT	WebNLG
			CaseRel	F1分值＝89.2％	F1分值＝86.3％
Our	F1分值＝90.6％	F1分值＝88.4％

Claims

1.一种面向社交文本的级联直线型实体关系抽取方法，其特征在于，包括如下步骤：

步骤2：使用预训练模型BERT作为基础编码器，并对分批数据集中的句子进行编码，从而获取句子的上下文语义向量及句子中的单词向量表示；

步骤3：构建关系解码器，其结构包括线性层和Sigmoid层，使用关系解码器探测句子中含有的潜在关系，并获取潜在关系的向量表示；

所述头实体提取器和尾实体提取器的结构均包括：双向LSTM层、线性层和Softmax层；依据先提取关系，再提取头实体，最后提取尾实体，这一级联直线型抽取方法，使用头实体提取器提取与步骤3中探测到的潜在关系相对应的头实体；

步骤5：使用实体解码器中的尾实体提取器探测与每个潜在关系和头实体对应的尾实体；

步骤6：获取实体关系三元组，将三元组添加到集合中。

2.根据权利要求1所述的面向社交文本的级联直线型实体关系抽取方法，其特征在于，所述对公开数据集进行预处理的方法如下：

3.根据权利要求1所述的面向社交文本的级联直线型实体关系抽取方法，其特征在于，所述步骤2的过程如下：

步骤2.1：使用预训练模型BERT作为基础编码器；

4.根据权利要求1所述的面向社交文本的级联直线型实体关系抽取方法，其特征在于，所述步骤3的过程如下：

5.根据权利要求1所述的面向社交文本的级联直线型实体关系抽取方法，其特征在于，所述步骤4的过程如下：

6.根据权利要求5所述的面向社交文本的级联直线型实体关系抽取方法，其特征在于，所述步骤5的过程如下：

7.根据权利要求1所述的面向社交文本的级联直线型实体关系抽取方法，其特征在于，所述步骤6的具体方法如下：