CN112836062B

CN112836062B - 一种文本语料库的关系抽取方法

Info

Publication number: CN112836062B
Application number: CN202110039879.0A
Authority: CN
Inventors: 黄少滨; 姜梦奇; 李熔盛; 申林山; 刘汪洋; 杨辉
Original assignee: Harbin Engineering University; CETC Big Data Research Institute Co Ltd
Current assignee: Harbin Engineering University; CETC Big Data Research Institute Co Ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2022-05-13
Anticipated expiration: 2041-01-13
Also published as: CN112836062A

Abstract

本发明属于关系抽取技术领域，具体涉及一种文本语料库的关系抽取方法。本发明解决了传统关系分类模型不能很好的利用句子中重要的信息对关系进行建模，并且一些神经网络模型往往需要使用NLP工具来提取额外的特征的问题，提出了基于注意力机制的分段循环神经网络。本发明所提出模型可以突出考虑句子中的关键部分，而且能够利用句子的其他部分对关键部分进行补充，然后利用潜在关系向量和注意力机制得到句子的关系表示向量，在这个过程中不需要任何手工设计的特征或者NLP工具。本发明通过依存句法分析发现关系类型，并提出了一种用来构建训练语料的弱监督方法。实验结果显示提出的关系抽取模型在弱监督获取的训练数据集上达到了较高的性能。

Description

一种文本语料库的关系抽取方法

技术领域

本发明属于关系抽取技术领域，具体涉及一种文本语料库的关系抽取方法。

背景技术

近年来，神经网络模型由于能在不需要人工干预的情况下有效地学习有意义的隐藏特征而成为关系分类研究的主流。大部分神经网络的方法使用卷积神经网络和循环神经网络两种模型。相比较于卷积神经网络能够学习局部特征，循环神经网络在学习长距离特征方面更有效果。

关系抽取是信息抽取的一个重要部分，解决了原始文本中目标实体之间的关系分类问题。实体关系抽取对自然语言处理任务的许多应用如本体构建、自动问答、自动文摘等具有重要的意义。传统的关系抽取方法包括基于规则的方法和基于核的方法，这些都非常耗时且难以适应新的领域。近年来，神经网络能够在没有人工干预的情况下有效地学习有意义的特征，称为关系抽取研究的主流。基于机器学习的关系抽取常用的神经网络模型是卷积神经网络(CNN)和循环神经网络(RNN)。

Zeng等人首先将卷积神经网络引入到关系抽取研究中，提出一种有监督的卷积神经网络模型，将关系抽取视为多分类任务，每一个关系为一个类别。Santos等人对Zeng等人的卷积神经网络进行了改进，提出一种新的卷积神经网络(CR-CNN)，为每个关系类学习一个分布式向量表示，并通过排名进行分类。CR-CNN不使用softmax分类器，而设计了一个新的成对排序损失函数，以此减轻人为定义类的影响。Wang等人在Zeng等人的方法上，增加了多级注意力机制，使得模型能够检测到更细微的部分，并且提出了一种新的基于双边值得目标函数，取代标准的损失函数。Ren等人提出了一种新的方法，将百科中查到的名词解释也输入到CNN中得到实体描述向量，整合到最终的句子特征向量中，并添加了句内和跨句子两种注意力机制，来提升分类器的性能。

卷积神经网络在特征工程方面表现出非常好的性能，但是基于CNN的方法缺乏学习时间特征的能力，特别是实体对之间的长距离依赖。Zhang等人提出了一种有监督的循环神经网络模型，更擅长对序列数据进行建模，并提出了一种新的方法代替Zeng等人提出的位置特征，标记句子中的两个实体。Zhou等人为了解决重要信息可以出现句子任意位置的问题，提出了基于注意力机制的双向长短期记忆网络模型来捕捉句子中最重要的语义信息。Du等人对Zhou等人的方法进行了改进，提出了一种使用双向循环网络的基于多实例学习框架的多级结构自注意机制，包括单词级自注意机制和句子级自注意机制。

随着中文在全球的使用越来越广泛，中文实体关系抽取的研究也越来越紧迫，但中文上的研究难度远远大于英文，因此基于中文的关系抽取工作仍然是个不小的挑战。徐芬等人使用支持向量机的方法进行中文关系抽取，针对中文实体关系的特点，设计了词、词性标注、实体、包含关系、实体概念等特征，组成了实体间关系的上下文特征向量。李卫疆等人提出了一种基于多特征自注意力双向长短期记忆网络的方法。为了解决中文句式和语法结构复杂的问题，在单词嵌入层引入了额外特征嵌入，包括词性标注、依存句法分、语义角色标注和位置特征；同时使用双向长短期记忆网络解决梯度消失问题。马月坤等人提出了基于BERT的中文关系抽取方法,基于双向Transformer结构，不使用额外特征的条件下有效捕捉语言的深层信息。车金立等人提出了一种基于双重注意力机制的中文关系抽取方法，通过双向门限循环单元网络获取训练数据的双向上下文语义信息。第一重注意力机制获取实例中重要的语义特征，第二重注意力机制降低噪声数据的权重。

发明内容

本发明的目的在于提供一种文本语料库的关系抽取方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：输入文本语料库和需要抽取的关系实体对集合M；所述的关系实体对集合M中的关系类型由关系实体对<e₁，r，e₂>表示，关系实体对<e₁，r，e₂>由描述两个实体间关系的关系特征词r、与关系特征词有主谓关系的实体e₁以及与关系特征词有动宾关系的实体e₂组成；

步骤2：将文本语料库进行分句处理，得到句子集合D；将文本语料库的句子集合D与关系实体对集合M进行匹配，提取文本语料库中包含关系实体对集合M中任意关系实体对<e₁，r，e₂>的句子，并标记实体e₁和e₂；整合所有提取出的句子，组成句子集合E；

步骤3：对句子集合E中的句子进行分词处理；

步骤3.1：句子S由单词

组成，

为句子S的左实体，

为句子S的右实体，e_l和e_r分别为左实体和右实体的索引；将句子S划分成三部分，第一部分为

第二部分为

第三部分为

步骤3.2：查找GloVe预训练词向量，把每个索引转换成与之对应单词的词向量，对于不在GloVe预训练词向量中的单词，对其词向量采用随机均匀分布进行初始化，将句子S的第一部分映射为

第二部分被映射为

第三部分为

x_i为单词w_i对应的词向量；

步骤4：将句子集合E中的句子输入训练好的分段循环神经网络中，得到句子集合E中每个句子S的特征向量U；

步骤4.1：将句子S的第一部分

输入到第一LSTM中，得到句子S的左上下文表示lc，

步骤4.2：将句子S的第三部分

输入到第二LSTM中，得到句子S的右上下文表示rc，

步骤4.3：将句子S的第二部分

左上下文表示lc和右上下文表示rc输入到第三LSTM中，得到句子S的特征向量U；

步骤5：将句子集合E中每个句子S的特征向量U和左右实体的关系特征lr连接在一起后进行计算，得到句子集合E中每个句子S的最终特征向量H：

H＝αU

其中，lr＝lc-rc+b，

为偏置向量；α＝[α₁,α₂,…,α_k]是句子特征的权重矩阵；

其中，[u_i；lr]表示u_i和lr的直接连接；

为中间矩阵；b_a是偏置值；

步骤6：将句子集合E中每个句子S的最终特征向量H输入到softmax分类器中，计算得到每个句子S对应关系实体对集合M中每种关系类型的概率p，取最大概率作为句子S所属的关系类型；

p＝softmax(W_sH+b_s)

其中，W_s是softmax分类器的权重，b_s是偏置。

本发明的有益效果在于：

本发明解决了传统关系分类模型不能很好的利用句子中重要的信息对关系进行建模，并且一些神经网络模型往往需要使用NLP工具来提取额外的特征的问题，本发明提出了基于注意力机制的分段循环神经网络。本发明所提出模型可以突出考虑句子中的关键部分，而且能够利用句子的其他部分对关键部分进行补充，然后利用潜在关系向量和注意力机制得到句子的关系表示向量，在这个过程中不需要任何手工设计的特征或者NLP工具。本发明通过依存句法分析发现关系类型，并提出了一种用来构建训练语料的弱监督方法。实验结果显示提出的关系抽取模型在弱监督获取的训练数据集上达到了较高的性能。

附图说明

图1为本发明的关系抽取模型图。

图2为本发明的关系抽取流程图。

图3为本发明的实施例中三种基线模型与本发明的对比实验结果表。

图4为本发明的实施例中不同的注意力机制对F1值的影响实验结果表。

具体实施方式

下面结合附图对本发明做进一步描述。

为了解决传统关系分类模型不能很好的利用句子中重要的信息对关系进行建模，并且一些神经网络模型往往需要使用NLP工具来提取额外的特征，本发明提出了基于注意力机制的分段循环神经网络。本发明所提出模型可以突出考虑句子中的关键部分，而且能够利用句子的其他部分对关键部分进行补充，然后利用潜在关系向量和注意力机制得到句子的关系表示向量，在这个过程中不需要任何手工设计的特征或者NLP工具。实验表明本发明中的模型比大多传统的关系抽取模型有着更好的性能。

近年来，神经网络模型由于能在不需要人工干预的情况下有效地学习有意义的隐藏特征而成为关系分类研究的主流。大部分神经网络的方法使用卷积神经网络和循环神经网络两种模型。相比较于卷积神经网络能够学习局部特征，循环神经网络在学习长距离特征方面更有效果。本发明使用基于循环神经网络的方法处理关系抽取任务，来自动学习原始句子中的特征，并尽量减少外部资源的使用，在保证句子信息完整的前提下，更好地利用句子中两个实体之间的上下文进行关系抽取；同时通过注意力模块对有效的词汇赋予更高地权重并对无效词汇赋予更低的权重，来有选择地关注相关词汇。

一种文本语料库的关系抽取方法，包括以下步骤：

步骤3：对句子集合E中的句子进行分词处理；

步骤3.1：句子S由单词

组成，

为句子S的左实体，

第二部分为

第三部分为

第二部分被映射为

第三部分为

x_i为单词w_i对应的词向量；

步骤4.1：将句子S的第一部分

输入到第一LSTM中，得到句子S的左上下文表示lc，

步骤4.2：将句子S的第三部分

输入到第二LSTM中，得到句子S的右上下文表示rc，

步骤4.3：将句子S的第二部分

H＝αU

其中，lr＝lc-rc+b，

为偏置向量；α＝[α₁,α₂,…,α_k]是句子特征的权重矩阵；

其中，[u_i；lr]表示u_i和lr的直接连接；

为中间矩阵；b_a是偏置值；

p＝softmax(W_sH+b_s)

其中，W_s是softmax分类器的权重，b_s是偏置。

本发明提出了一种基于分段循环神经网络的关系分类模型，该模型的输入不需要任何手工设计的特征，并且能够突出考虑句子中的关键信息来进行关系分类，提出了潜在关系向量，它可以在一定程度上表达出句子中实体间的关系。同时，本发明通过依存句法分析发现关系类型，并提出了一种用来构建训练语料的弱监督方法。实验结果显示提出的关系抽取模型在弱监督获取的训练数据集上达到了较高的性能。

实施例1：

本发明针对于当前四险一金领域的关系抽取方法存在以下两个问题：一是目前没有可以用于关系抽取模型研究的四险一金政策法规数据集，二是四险一金政策法规文本中的句子大多较长，而传统基于神经网络的关系抽取模型不能很好的利用句子中重要的信息对关系进行建模。本发明提出了基于注意力机制的分段循环神经网络和基于回标思想构建数据的方法来解决上述问题。本发明先通过依存句法分析获取关系类型和关系实体对，然后基于回标的思想，将关系实体对和四险一金文本集合进行匹配，自动获取包含关系实体对的实例，得到有标注的训练数据。然后将句子输入到分段循环神经网络中，它不仅可以突出考虑句子中的关键部分，而且能够利用句子的其他部分对关键部分进行补充。本发明还提出潜在关系向量，利用潜在关系向量和注意力机制得到句子最终关系表示向量，在这个过程中不需要任何手工设计的特征或者NLP工具。最后把最终关系表示向量输入到softmax函数中进行关系分类。

本发明的弱监督构建训练数据的方法描述如下：

(1)原始的数据是四险一金政策法规文本，通过已有的命名实体词表将四险一金政策法规文本进行分词、词性标注和依存句法分析，根据各个词汇之间的依存关系，找到与中心谓词是主谓关系和动宾关系的两个名词，组成实体关系三元组。提取出实体关系三元组中包含的全部关系特征词，选出其中数量排名前三十的为关系类型。针对每一种关系类型，分别从实体关系三元组中筛选出具有语义信息的三元组组成三元组集合。

(2)将四险一金政策法规文本进行分句得到四险一金文本集合，以得到的三元组集合为字典，将集合中的句子与字典中的实体对进行匹配，提取出包含一个实体和关系特征词的句子，整合到一起并进行标记，构成训练数据。

本发明的关系抽取模型描述如下：

(1)模型的输入是一段包含两个实体的文本，它由一系列单词组成，首先把它拆分成三部分，左部分为句子开始到左边实体(包括左实体)，中间部分为左边实体到右边实体(包括左实体和右实体)，右部分为右实体到句子末尾(包括右实体)，通过查找300维GloVe预训练词向量，得到输入文本中每个单词对应的词向量作为神经网络的输入。

(2)使用双向LSTM作用于左部分句子对应的词向量，把前向LSTM的最终状态与反向LSTM的最终状态进行相加得到左上下文信息。

(3)使用双向LSTM作用于右部分句子对应的词向量，把前向LSTM的最终状态与反向LSTM的最终状态进行相加得到右上下文信息。。

(4)把左上下文信息、句子的中间部分、右上下文信息拼接起来，输入到双向LSTM中得到句子的关键部分信息表示。

(5)把左上下文信息与右上下文信息相减，然后加上偏移向量，得到潜在关系向量，然后把潜在关系向量与句子的关键部分信息表示拼接起来，通过注意力机制得到句子的最终关系表示向量。

实体关系抽取是构建知识图谱的关键，传统的方法通常依赖于手工制作的特性和词汇资源，这些都需要耗费大量的人力和时间并难以适应新领域。有监督关系抽取由于其性能较好，目前占据主导地位。但是有监督关系抽取需要人工定义关系类型并且需要人工标注训练语料。面对四险一金领域大量的政策法规文本，人工定义关系类型无法全面地考虑所有文本，且费时费力。为了解决该问题，本发明提出一种弱监督学习方法来实现关系类型半自动化发现及训练语料半自动化生成，解决了训练语料不足的问题。

1.构建训练数据

1)关系实体对获取

首先通过已有的命名实体词表将四险一金政策法规文本进行分词、词性标注和依存句法分析，根据各个词汇之间的依存关系，以谓词为中心词，找到与中心词有主谓关系的实体e₁，以及与中心词有动宾关系的实体e₂。两个实体和中心词构成关系实体对<e₁，r，e₂>，其中r就是可以描述两个实体间关系的关系特征词。将提取出的关系特征词整合到一起并进行泛化、人工筛选，得到可以覆盖所有关系实体对的关系类型，并选取数量排名前三十的为最终确定的关系类型。同时，针对每一种关系，将提取出来的关系实体对进行人工筛选，具有语义信息的关系实体对保留下来，组成关系实体对集合M。

2)训练数据构建

以得到的关系实体对集合M为字典，利用字符串匹配技术回标文本。将四险一金政策法规文本进行分句得到四险一金文本集合D。将四险一金文本集合D与集合M中的关系实体对<e₁，r，e₂>进行匹配，自动提取文本集合D中包含实体对<e₁，e₂>的句子作为关系类型r的实例，同时用<e1></e1><e2></e2>标记出实体e₁和e₂。将所有提取出的句子整合到一起，构成训练数据。

2.分段循环神经网络模型

1)语料的预处理

首先对文本进行分词处理，分词工具采用的是NLTK分词器。令输入的句子为S，它是由单词

组成，其中

和

为分别是句子中的左实体和右实体，e_l和e_r分别为它们的索引。本发明将句子划分成三部分，第一部分为

第二部分为

第三部分为

通过查找300维GloVe预训练词向量，把每个索引转换成与之对应单词的词向量，对于不在GloVe中的单词，对其词向量采用随机均匀分布进行初始化。这样句子S的第一部分就被映射

第二部分被映射为

第三部分为

其中x_i为单词w_i对应的词向量。

2)分段循环神经网络

我们把得到三部分单词表示分别输入到三个不同的RNN中，这相当于断开了RNN的数据流动，因此叫它Piecewise RNN.

首先把左边部分

输入到LSTM中得到左上下文表示:

其中

为左边LSTM的最终表示，h为LSTM隐藏单元的个数。lc中包含了许多的左实体的信息。

其次我们把右边部分

输入到另一个LSTM中得到右上下文表示:

其中

为右边部分的最终表示，h为LSTM隐藏单元的个数。rc中包含了许多右实体的信息。

由于我们把整个句子的信息流动断开了，而在关系分类中左边部分和右边部分也对关系的表示起到了补充作用，为了使中间部分能够利用左上下文信息和右上下文信息，我们把左上下文表示和中间部分的输入以及右上下文表示连接起来得到

把它输入到LSTM中:

此时我们保留LSTM每个时间步的输出信息，因此

e_l表示左实体在句子中的索引，e_r表示右实体在句子中的索引，h是LSTM隐藏单元的个数。

3)注意力机制

引入TransE模型的假设，将关系视为左实体e_l到右实体e_r的转换，利用差分向量来表示连接左实体和右实体的关系的特征。基于这个思想，我们使用差分向量，并引入一个偏移向量，来表示两个实体的关系特征lr＝lc-rc+b，其中，

为偏置向量，

为左实体和右实体的关系特征。如果特征向量中某些部分可以更好地表达实体间关系，那么它们应该与lr有更高的相似度。

令句子特征U＝{u₁,u₂,…,u_k}，其中k＝e_r-e_l+3。将分段循环神经网络的结果和左右实体的关系特征连接在一起后进行计算，得到句子特征向量与实体关系特征的注意力分布：

其中[x₁；x₂]表示x₁和x₂的直接连接，

是一个中间矩阵，b_a是偏置值。α＝[α₁,α₂,…,α_k]是句子特征的权重矩阵。

与句子特征向量进行计算，得到最终特征向量：

H＝αU

其中，

为最终的特征向量。

4)关系分类

将最终特征向量H输入到softmax分类器中，计算得到每个关系类型对应的概率。

p＝softmax(W_sH+b_s)

其中，W_s是softmax分类器的权重，b_s是偏置。

3.实验

为了证明本发明所提出的模型效果优于其它模型，本模型与其它三个基线模型进行了比较，数据集使用的是四险一金政策法规数据集，并使用F1值来作为评价标准。

其中，F1是F1值，P是准确率，R是召回率。T_p是预测为正确并且事实也是正确的信息数量；F_p是预测为正确但是事实却是错误的信息数量；F_n是预测为错误但是事实却是正确的信息数量。

三个基线模型介绍：

CNN：Zeng等人在2014年提出的卷积神经网络模型。

att-BiLSTM：Zhou等人在2016年提出的结合注意力机制的双向长短期记忆网络模型。

SelfATT-BLSTM：李卫疆在2019年提出的基于多特征自注意力的BLSTM模型，嵌入了词性标注、依存句法分析、语义角色标注和位置特征四个额外特征。

实验的设置如下：

所有的实验都是Windows系统上使用深度学习框架Keras实现的。对于词向量的初始化，使用300维GloVe词向量来初始化神经网络的输入，对于不在GloVe中的单词，使用均匀分布对其词向量进行初始化。双向LSTM的隐藏状态维度都是300。对于正则化，使用dropout分别应用在Embedding层之后。对于模型的优化，使用Adam优化器来最小化损失，学习率设置为3e-4。对于模型的训练，设置每个batch的大小为32，epoch(总轮次)为20。实验结果如图3所示。

从图3的实验结果中可以看出，CNN模型表现较差，F1值只有0.6488，可能因为CNN模型仅使用单层的卷积层与最大池化的组合，对于长距离依赖问题处理较差。att-BiLSTM模型的效果相比CNN模型强一些，F1值为0.7295，但是数据过长的情况下，即便使用了LSTM模型也只能在一定程度上解决梯度消失问题，本模型将句子划分为三部分，从而避免句子过长的问题，与att-BiLSTM模型相比，本模型的F1值提高了0.09。SelfATT-BLSTM增加额外特征可以为模型提供更丰富的信息用于关系抽取，效果较好，F1值达到0.8065，但是依然没有解决句子过长问题，额外特征也增加了模型运行的负担。本模型将句子分段解决了句子过长问题，同时注意力机制也提高了多分类的效果。与其他模型相比，本模型获得了更好的效果，F1值达到0.8221。

为了验证本模型选择的注意力机制的有效性，将本发明提出的分段循环神经网络与不同注意力机制结合进行了实验，比较了不同的注意力机制对F1值的影响。其中，BLSTM-Original是本发明的方法不结合注意力机制的情况，BLSTM-Att是本发明的方法结合传统的注意力机制的情况，BLSTM-OurAtt是本文的方法结合本发明使用的注意力机制的情况。实验结果如图4所示。

从图4中的实验结果可以看出，注意力机制对模型还是有很大的影响的，注意力机制可以过滤大量无关信息，快速提取信息中的重要特征。而本发明使用的注意力机制可以更多地关注信息中与实体间关系有关的特征。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。