CN114996407B

CN114996407B - 基于包重构的远程监督关系抽取方法及系统

Info

Publication number: CN114996407B
Application number: CN202210743789.4A
Authority: CN
Inventors: 包铁; 李书佳; 彭涛; 王上
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2024-04-30
Anticipated expiration: 2042-06-27
Also published as: CN114996407A

Abstract

本发明适用于关系抽取技术领域，提供了基于包重构的远程监督关系抽取方法及系统，在生成句子表示阶段，充分利用了实体信息，得到了质量更高的句子表示；在基于全标签的预训练阶段，考虑句子和所有关系的相似度，计算句子包的句子基于所有关系类型的注意力权重；在基于句子包重分组的训练阶段，使用预训练方法得到的句子包分类到某个关系类型的概率，预测句子包最可能表达的关系类型，将含有相同预测结果的句子包进行重新分组，得到实例质量更高的分组；同时在句子包分组内使用了多头自注意力，为句子包生成融合分组内跨包信息的新表示，充分学习了句子包分组内其他所有句子包的信息，有效地降低了噪声句子包对方法的消极影响。

Description

基于包重构的远程监督关系抽取方法及系统

技术领域

本发明属于关系抽取技术领域，尤其涉及基于包重构的远程监督关系抽取方法及系统。

背景技术

关系抽取（Relation Extraction，RE）的目的是从非结构化数据（例如整理互联网中的数据得到的语料库）中，抽取句子中的实体对（头实体和尾实体）所对应的关系，得到结构为 <头实体，关系类型，尾实体> 的关系三元组，进而可以提供给知识图谱补全、机器阅读等下游的NLP任务。实体的选择可以是人、概念、组织机构、地方等。关系可以是人与概念之间的关系、人与组织机构的关系、地方和组织机构的关系或者某个实体的内部属性（比如人的性别）等。用于关系抽取方法的数据集，其中包含大量以句子为单位的文本信息，并且需要标注句子中的实体对和句子对应的关系标签。命名实体识别（Named EntityRecognition，NER）可以实现句子当中的实体的标注，并且可以利用已存在较为成熟的NER工具对句子文本进行高质量地自动标注。然而，相对于标注实体来说，关系的标注通常比较困难。在关系抽取任务中，传统的监督学习方法利用人工标注关系标签的方式构建精确的数据集，导致投入了大量的人力及时间成本。所以，针对此问题，众多学者致力于研究如何实现关系抽取数据集的自动化构建。

为了降低噪声句子的影响，传统远监督关系抽取方法依据关系标签对句子进行分包操作之后，使用句子级别的注意力机制。远监督方法假设：如果一个句子中包含的实体对存在于知识库中（如FreeBase），则利用知识库对应的结构化信息（实体对和某个关系对应），为句子标注关系标签，由此可以实现数据集的自动化构建。远监督关系抽取的提出在一定程度上解决了传统方法需要耗费大量资源来构建数据集的问题，但是远监督方法基于一个很强的假设，将外部语料库中所有的句子都按照知识库中的三元组信息标注关系标签。然而，存在很多句子，即使其中包含知识库中的实体对，却并不表达实体对所对应的关系。所以，使用远监督方法构造的数据集中存在大量的噪声数据（关系标注错误的句子）。

为了更高效地提取高质量的文本特征，陆续有学者提出将神经网络应用于远监督关系抽取任务中。使用神经网络对句子进行编码，不再依赖于人工构造特征或者NLP特征提取工具，可以实现特征的自动提取，获得了高质量的文本特征。为了进一步消除噪声句子的影响，采用句子级别的注意力机制，充分学习所有句子的信息，得到一个基于句子包的特征表示。但是，APCNN无法处理当一个句子包中不存在正确标注的句子的情况。对于NYT（NewYork Times）数据集来说，大约有31%的句子包中不存在正确的标注（随机选择20种关系类型和100个实体对，构建100个句子包）。因此单纯地使用句子级别的注意力机制无法更好地达到降噪作用。使用句子包内和句子包间的注意力方法，在一定程度上降低了噪声句子包对方法的消极影响，在数据处理阶段，将标注有相同关系类型的句子包进行分组，在一定程度上降低了噪声句子包对方法的消极影响。但是该方法对句子包进行分组时，忽略了句子包和关系类型的相关性，仅依据标注的关系标签进行分组，而句子包表达的可能是除关系标签外的某种关系类型，同时在计算句子包分组内各个句子包的注意力权重时，仅关注了句子包之间的相似度，没有充分利用句子包分组内各个句子包的信息，并且在生成句子表示阶段，该方法的方法中没有充分利用外部有效信息。

发明内容

本发明实施例的目的在于提供基于包重构的远程监督关系抽取方法及系统，旨在解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

基于包重构的远程监督关系抽取方法，包括以下步骤：

步骤S1：将输入句子中每个单词的预训练词向量与其自身的位置嵌入进行拼接，得到每个单词的初始表示向量，获得句子包内每个句子的单词表示矩阵，作为句子编码器的输入；

步骤S2：通过句子编码器提取句子特征，同时引入实体嵌入信息；

步骤S3：引入关系嵌入矩阵计算每个句子的权重，加权求和得到最终的句子包表示，将句子包表示输入Softmax分类器，预测句子包所属的关系类型；

步骤S4：按照预测的关系类型，对句子包进行重分组的操作，将预测结果相同的句子包放入一个分组中，使用多头自注意力机制，强化句子包分组内句子包的表示，得到分组内每个句子包融合包间信息的新表示，最终得到基于分组的特征表示矩阵，输入到Softmax分类器并预测其关系类型。

进一步的，所述步骤S1中，输入是以句子包为单位的句子文本信息。

进一步的，所述步骤S1中，在计算句子表示时，以句子中每个单词的词嵌入和位置嵌入相结合；

其中，为组成第i句子包的第j个句子，l为单词的个数，/>为组成第i句子包中第j个句子的所有单词；

其中，k为第k个单词。

进一步的，所述步骤S2中，使用PCNN和Bi-LSTM分别作为句子编码器，用于提取句子特征。

基于包重构的远程监督关系抽取系统，包括词嵌入模块、融合实体信息模块、基于全标签计算句子包表示模块和基于句子包重分组的包级降噪模块。

进一步的，所述基于全标签计算句子包表示模块通过引入关系嵌入矩阵和使用注意力机制的方式对每个关系类型生成一个句子包表示，并预测每个句子包表达的关系类型。

进一步的，所述基于句子包重分组的包级降噪模块通过将句子包按照是否含有相同预测结果的句子包进行重分组的方式得到高质量实例的分组并实现降噪的效果。

与现有技术相比，本发明的有益效果是：

本发明在基于PCNN的编码层处理输入的句子信息时，使用了实体嵌入加强句子表示，得到了更高质量的句子表示；并且本发明提出的基于包重构的方法，在句子级别注意力层考虑了每个句子和所有关系的相似度，增加了本发明预测的准确率；依据预测结果对句子包进行重分组，同时在句子包级别注意力层使用多头自注意力机制，充分学习句子包分组内所有句子包的知识生成了句子包的新表示，从而得到了高质量的分组表示。

附图说明

图1为基于包重构的远程监督关系抽取方法及系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

本发明一个实施例提供的基于包重构的远程监督关系抽取方法，包括以下步骤：

作为本发明的一种优选实施例，所述步骤S1中，输入是以句子包为单位的句子文本信息。

作为本发明的一种优选实施例，所述步骤S1中，在计算句子表示时，以句子中每个单词的词嵌入和位置嵌入相结合；

其中，k为第k个单词。

在本发明实施例中，计算句子包表示时，引入关系嵌入矩阵计算每个句子的权重：

加权求和得到最终的句子包表示：

将句子包表示输入Softmax分类器，预测句子包所属的关系类型，并且对句子包进行分组：

对于一个句子包分组，引入多头自注意力机制，为每个句子包计算融合跨包信息的新表示：

根据句子包表示和关系嵌入矩阵，计算对于每一个关系来说，每个句子包表示的权重，加权求和得到最终的分组表示：

输入到Softmax分类器预测其关系类型。

作为本发明的一种优选实施例，所述步骤S2中，使用PCNN和Bi-LSTM分别作为句子编码器，用于提取句子特征。

在本发明实施例中，使用PCNN和Bi-LSTM分别作为句子编码器提取句子特征，充分考虑到句子中不同位置的特征信息；同时，引入实体嵌入信息，得到了质量更高的句子表示。通过PCNN得到句子的初始表示，并且融合实体嵌入，得到包含位置嵌入信息和实体嵌入信息的句子表示：

其次，基于Bi-LSTM的方式计算句子表示，在拼接Bi-LSTM中前向网络和后向网络的输出。

之后，经过一个注意力层，计算每个单词的权重，加权求和得到最终的句子表示。

本发明一个实施例提供的基于包重构的远程监督关系抽取系统，包括词嵌入模块、融合实体信息模块、基于全标签计算句子包表示模块和基于句子包重分组的包级降噪模块。

作为本发明的一种优选实施例，所述基于全标签计算句子包表示模块通过引入关系嵌入矩阵和使用注意力机制的方式对每个关系类型生成一个句子包表示，并预测每个句子包表达的关系类型。

在本发明实施例中，考虑到句子包内的噪声句子，不同于传统方法仅使用句子级别的注意力机制的方法进行降噪，本发明提出的方法充分考虑了句子和所有关系的相关性：同属于一个句子包内的句子均被贴上相同的关系标签，但是一个句子包内的噪声句子极有可能是另一个关系标签的有效实例。所以本发明提出了基于全标签的预训练方法，在计算某个句子包表示时，考虑了所有的关系标签，充分利用了句子和关系类型的内在联系，对每个关系标签都生成其所对应的句子包表示。通过预测，确定句子包最可能表达的关系类型。

作为本发明的一种优选实施例，所述基于句子包重分组的包级降噪模块通过将句子包按照是否含有相同预测结果的句子包进行重分组的方式得到高质量实例的分组并实现降噪的效果。

在本发明实施例中，按照预测的关系类型，对句子包进行重分组的操作，将预测结果相同的句子包放入一个分组中，在一定程度上解决了噪声句子包的问题。本发明基于重分组的包级降噪方法可以根据句子包的关系类型预测结果，得到质量更高的句子包分组，一定程度上降低了噪声对于方法的影响。同时，针对分组内依然存在的噪声数据（预测关系类型错误，无法表达对应关系标签），考虑到表达相同关系类型的句子包在文本特征表示上更为接近，本发明使用多头自注意力机制，强化句子包分组内句子包的表示，得到分组内每个句子包融合包间信息的新表示，使方法更加关注正确的句子包实例，进一步降低了噪声句子包的权重，最终得到基于分组的特征表示矩阵，用于训练关系分类器。

在本发明实施例中，实体：客观存在并可相互区别的事物或者概念，比如人名、机构名、地名、时间等；关系：表示两个实体间存在的某种联系，比如“founders”表示创建者关系；关系抽取：对于一个包含两个实体的句子，关系抽取旨在识别出这两个实体在这个句子中表达的关系；关系三元组：形如<e₁,r,e₂>，表示实体e₁和e₂之间存在关系r；远监督：一种利用知识库中关系三元组与大量未标注语料进行实体对齐，从而生成训练数据集的方法；错误标签问题：远程监督生成训练数据集时存在错误标注数据的现象；注意力机制：神经网络里的注意力机制是指对不同的输入信息，分配不同的权重，权重大的表示给予其更多注意力，多用于融合不同信息来源；单词嵌入：用一个实数向量表示单词的技术，方便于计算机进行数值计算，属于表示学习的范畴；相对位置嵌入：在一个存在两个实体的句子中，各个单词到具体实体的相对距离（索引值的差）进行向量编码得到的实数向量；实体嵌入：在一个存在两个实体的句子中，两个实体的向量化表示；关系嵌入矩阵：关系抽取任务一般都具有一个预定义好的关系集合，这些关系类别进行向量编码得到的矩阵；句子包：在训练数据中，由具有相同实体对的所有句子构成；句子包分组：由句子包组成的分组，每个分组具有相同的预测关系类型；Softmax激活函数：深度学习中的一种非线性激活函数。

以上仅是本发明的优选实施方式，应当指出，对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些均不会影响本发明实施的效果和专利的实用性。

Claims

1.基于包重构的远程监督关系抽取系统，其特征在于，包括词嵌入模块、融合实体信息模块、基于全标签计算句子包表示模块和基于句子包重分组的包级降噪模块；

所述基于全标签计算句子包表示模块通过引入关系嵌入矩阵和使用注意力机制的方式对每个关系类型生成一个句子包表示，并预测每个句子包表达的关系类型；

所述基于句子包重分组的包级降噪模块通过将句子包按照是否含有相同预测结果的句子包进行重分组的方式得到高质量实例的分组并实现降噪的效果；

计算句子包表示时，引入关系嵌入矩阵计算每个句子的权重：

加权求和得到最终的句子包表示：

score_k＝r_kg_k+d_k

输入到Softmax分类器预测其关系类型；

基于包重构的远程监督关系抽取系统的方法，包括以下步骤：

步骤S4：按照预测的关系类型，对句子包进行重分组的操作，将预测结果相同的句子包放入一个分组中，使用多头自注意力机制，强化句子包分组内句子包的表示，得到分组内每个句子包融合包间信息的新表示，最终得到基于分组的特征表示矩阵，输入到Softmax分类器并预测其关系类型；

所述步骤S1中，在计算句子表示时，以句子中每个单词的词嵌入和位置嵌入相结合；

其中，k为第k个单词。

2.根据权利要求1所述的基于包重构的远程监督关系抽取系统，其特征在于，所述步骤S1中，输入是以句子包为单位的句子文本信息。

3.根据权利要求1所述的基于包重构的远程监督关系抽取系统，其特征在于，所述步骤S2中，使用PCNN和Bi-LSTM分别作为句子编码器，用于提取句子特征。