CN110377903B

CN110377903B - 一种句子级实体和关系联合抽取方法

Info

Publication number: CN110377903B
Application number: CN201910549585.5A
Authority: CN
Inventors: 张寅�; 王岩
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2020-08-14
Anticipated expiration: 2039-06-24
Also published as: CN110377903A

Abstract

本发明公开了一种基于神经网络的实体和关系的联合抽取技术。该技术包含如下步骤：1)将句子作为输入，获取每个单词的表示向量，该表示向量由词嵌入表示和字符级别词嵌入表示拼接而成；2)使用膨胀卷积神经网络对每个单词的上下文信息进行编码，为每个单词提取包含上下文信息的特征；3)把实体识别作为序列标注问题，并使用线性链CRF来对实体标记序列联合建模；预测时，使用维特比算法计算概率最大的实体标记序列，实现实体识别；4)从组成实体的单词的特征表示中来获得实体的特征表示，通过对实体两两排列来构造关系候选，使用双仿射变换判断每个关系候选的关系，实现关系抽取。

Description

一种句子级实体和关系联合抽取方法

技术领域

本发明涉及神经网络方法在实体识别和关系抽取技术上的应用，特别是涉及一种句子级实体和关系联合抽取方法。

背景技术

实体及关系抽取是信息抽取中一项重要的子任务，其中实体抽取或者说命名实体识别(Named Entity Recognition，简称NER)是指从文本中识别出命名性的实体提及并对其提及的实体加以分类，关系抽取(Relation Extraction，简称RE)是指从文本中识别出实体之间具有的某种语义关系。实体及关系抽取为许多自然语言处理高层应用提供重要的技术支持，比如知识图谱、问答系统、搜索引擎等。

传统的方法以流水线的方式来解决实体及关系的抽取问题，这类方法把实体及关系抽取看成是先后执行的两个单独子任务：命名实体识别和关系抽取。具体而言，首先抽取句子中的命名实体，然后对抽取出的命名实体进行两两组合配对，最后识别命名实体对之间存在的语义关系。但是，这类方法存在两个主要的弊端：第一是错误传播，命名实体识别模块的错误会传递给下游的关系抽取模块，进而影响关系抽取的性能；第二是忽视了两个子任务之间存在的依赖关系，具体而言，特定类型的关系会要求两个实体分别具有特定的类型，而两个实体的类型也会限制它们之间可能存在的关系。

为了克服传统的流水线方法的弊端，人们提出以联合的方式来解决实体及关系的抽取问题。联合方法使用单个模型同时抽取实体及关系，可以有效地整合实体和关系信息。以前的联合方法都是基于特征的统计学习方法，它们严重依赖于复杂的特征工程和外部的NLP工具。随着深度学习的崛起，越来越多的神经网络方法被提出用以解决实体和关系的联合抽取问题。与传统的统计学习方法相比，这些方法不仅缓解了对特征工程的依赖，而且在许多数据集上表现优异。尽管如此，基于神经网络的联合抽取方法仍然存在一些不足：

1)表现最好的那些联合方法仍然依赖于一些词法和句法特征，比如词性和句法依赖树，这些特征需要利用外部的NLP工具来抽取。但是，这些NLP工具支持的语言种类通常是有限的，而且可能不够可靠从而导致错误传播。

2)这些方法大多选用循环神经网络(RNN)尤其是双向长短期记忆网络(Bi-LSTM)来对输入序列进行建模，但是RNN由于序列计算的限制不能在序列元素级别进行并行计算，从而不能充分利用GPU的并行计算能力。因此，这些神经网络方法在计算上不够高效。

3)这些方法没有充分考虑关系的方向性，其中大多数方法仅仅把关系看成是无向关系，只有个别方法考虑到了关系的方向性，但却没有充分加以利用。

发明内容

本发明的目的在于解决现有技术中存在的问题，并提供一种句子级实体和关系联合抽取方法。

本发明不依赖任何手动设计的特征，仅使用神经网络自动抽取的特征来识别实体及其关系，因而可以轻易推广到其他领域和语言中。本发明选用膨胀卷积网络作为编码器，由于允许序列元素级别的并行，膨胀卷积网络的计算更加高效。此外，本发明考虑到关系的方向性，使用双仿射变换来做关系分类，从而改善了关系分类的表现。

本发明具体采用的技术方案如下：

一种句子级实体和关系联合抽取方法，其步骤如下：

1)将句子作为输入，获取每个单词的表示向量，该表示向量由词嵌入表示和字符级别词嵌入表示拼接而成；

2)使用膨胀卷积神经网络对每个单词的上下文信息进行编码，为每个单词提取包含上下文信息的特征；

3)把实体识别作为序列标注问题，并使用线性链CRF来对实体标记序列联合建模；预测时，使用维特比算法计算概率最大的实体标记序列，实现实体识别；

4)从组成实体的单词的特征表示中来获得实体的特征表示，通过对实体两两排列来构造关系候选，使用双仿射变换判断每个关系候选的关系，实现关系抽取。

基于上述技术方案，各步骤可采用如下具体方式实现。

优选的，所述的步骤1)具体实现方法为：

1.1)使用预先训练好的词嵌入来获取每个单词的词嵌入表示；

1.2)使用单层CNN来获取每个单词的字符级别词嵌入表示；

1.3)将步骤1.1)得到的词嵌入表示和步骤1.2)得到的字符级别词嵌入表示拼接起来，作为每个单词最终的表示向量。

优选的，所述的步骤2)具体实现方法为：

将步骤1)中得到的所有单词的表示向量V＝(v₁,v₂,…,v_n)作为输入，使用多层膨胀卷积神经网络对每个单词的上下文信息进行编码，多层膨胀卷积神经网络中每层卷积的卷积核宽度都为w，第l层膨胀卷积的膨胀系数为d_l，膨胀策略如下式所示：

d_l＝(w-1)^l-1

第l层膨胀卷积输出为

其中n为句子的长度，m^l表示第l层卷积核个数；第i个单词在第l层的上下文表示向量

的计算公式如下：

其中，relu(·)表示线性整流函数，

表示向量拼接操作，

表示第l层卷积核，b^l表示第l层卷积的偏置；且H⁰＝V，m⁰等于词向量维数；最后一层膨胀卷积输出

作为最终的编码结果Z＝(z₁,z₂,…,z_n)，z_i为提取到的第i个单词包含上下文信息的特征向量。

优选的，所述的步骤3)具体实现方法为：

3.1)将步骤2)中得到的结果Z＝(z₁,z₂,…,z_n)作为输入，先使用一个全连接的隐藏层去除无关的信息，该隐藏层输出为H＝(h₁,h₂,…,h_n)，则h_i的计算公式如下：

h_i＝f(Wz_i+b)

其中f表示非线性激活函数，W和b分别表示该隐藏层的权重和偏置。

3.2)通过线性变换为每个单词计算一个实体标记的得分向量s_i＝W^sh_i+b′，其中

|tag|表示实体标记总数，W^s和b′分别为线性变换的权重和偏置；

3.3)使用线性链CRF对实体标记序列进行联合建模，记输入句子为X，A表示标记转移得分矩阵，A中的元素a_i,j表示从标记i转移到标记j的得分，按下式计算一个实体标记序列y＝(y₁,y₂,…,y_n)的得分：

其中

表示s_i中第y_i个元素；

y₀和y_n+1是两个分别表示句子X起始和结束的辅助标记；

3.4)使用维特比算法选取实体标记序列的得分最大的实体标记序列y^*作为实体识别的结果：

其中Y(X)表示句子X所有可能的实体标记序列。

优选的，所述的步骤4)具体实现方法为：

4.1)对于给定实体标记序列y＝(y₁,y₂,…,y_n)，通过去除标记中表示实体边界的部分，得到仅表示实体类型的标记序列y′＝(y′₁,y′₂,…,y′_n)；然后，通过嵌入层得到一个标记嵌入序列

其中嵌入层权重

q表示实体类型的种数,p表示标记嵌入的维数；最后，将该标记嵌入序列E^t与步骤2)的编码结果Z拼接起来作为新的输入Z′＝(z′₁,z′₂,…,z′_n)，其中：

4.2)用最大池化的方法从组成实体的单词的特征表示中获得实体的特征表示O＝(o₁,o₂,…,o_m)，m为实体的数量，o_i表示第i个实体的特征表示；

4.3)先使用全连接的隐藏层对实体的特征表示进行降维以去除与关系分类任务无关的信息；考虑到关系的方向性，使用两个分别针对主实体和客实体的隐藏层进行降维，针对主实体的隐藏层的输出结果为

针对客实体的隐藏层的输出结果为

计算公式如下：

其中f表示非线性激活函数，W^sub、b^sub分别表示主实体隐藏层的权重和偏置，W^obj和b^obj分别表示客实体隐藏层的权重和偏置；

4.4)通过对实体两两排列来构造关系候选；

4.5)使用双仿射变换为每个关系候选(e_i,e_j)计算一个关系标签的得分向量：

其中

和

表示双仿射变换的权重，b^r表示双仿射变换的偏置，c是关系标签种数，d是隐藏层的输出维度；

4.6)对关系标签得分向量使用softmax函数计算属于关系标签r_k的概率：

式中：s_i,j,k表示s^r _i,j中第k个关系标签的得分；

取概率最大的关系标签作为该关系候选的预测结果

4.7)对于给定实体对e_i,e_j按不同顺序构成的两个关系候选(e_i,e_j)和(e_j,e_i)，若预测结果之间存在冲突，则选择概率更高的关系标签作为最终结果。

不考虑正则化项，本发明最小化以下目标函数：

L＝L_NER+λL_RE

其中L_NER表示步骤3)中实体识别的损失，L_RE表示步骤4)中关系抽取的损失，λ≥0是系数，用以权衡实体识别和关系抽取在模型训练中的分量。针对实体识别和关系抽取的损失，本发明均使用交叉熵损失函数。

与传统的流水线抽取技术相比，本发明不存在错误传播问题，而且可以学习实体识别和关系抽取两个子任务之间的依赖关系。与以往的联合抽取技术相比，本发明既不需要手动设计特征，也不依赖于外部的NLP工具。本发明使用膨胀卷积神经网络作为编码器，与常见的循环神经网络相比，由于允许序列元素级别的并行，膨胀卷积神经网络的计算更加高效。此外，本发明还考虑到了关系的方向性，并使用双仿射变换来做关系分类。

附图说明

图1是本发明的整体框架。

图2是基于CNN的字符级别词嵌入的抽取过程示意图。

图3是膨胀卷积网络的示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述和说明。

本发明提供了一种基于神经网络的实体和关系的联合抽取方法，该方法的整体框架如图1所示。图2是基于CNN的字符级别词嵌入的抽取过程示意图，图3是膨胀卷积网络的示意图。下面详细说明其具体的实现方式。

本发明的句子级实体和关系联合抽取方法，步骤如下：

1)将句子作为输入，获取每个单词的表示向量，该表示向量由词嵌入表示和字符级别词嵌入表示拼接而成。本步骤的具体实现方法为：

1.1)使用预先训练好的词嵌入来获取每个单词的词嵌入表示，词嵌入可以选择word2vec、GloVe等。

1.2)使用单层CNN来获取每个单词的字符级别词嵌入表示，首先把单词看成字符序列，并将其作为输入送给字符嵌入层得到一个字符嵌入序列，然后对该字符嵌入序列进行足够的零填充以使卷积层输出和输入具有相同的长度，接着卷积层对其做一维卷积，最后通过一维全局最大池化得到每个单词的字符级别词嵌入。

2)使用膨胀卷积神经网络对每个单词的上下文信息进行编码，为每个单词提取包含上下文信息的特征。本步骤的具体实现方法为：

d_l＝(w-1)^l-1

第l层膨胀卷积输出为

的计算公式如下：

其中，relu(·)表示线性整流函数，

表示向量拼接操作，

3)把实体识别作为序列标注问题，并使用线性链CRF来对实体标记序列联合建模；预测时，使用维特比算法计算概率最大的实体标记序列，实现实体识别。本步骤的具体实现方法为：

h_i＝f(Wz_i+b)

其中

表示s_i中第y_i个元素；

y₀和y_n+1是两个分别表示句子X起始和结束的辅助标记；

其中Y(X)表示句子X所有可能的实体标记序列。

4)从组成实体的单词的特征表示中来获得实体的特征表示，通过对实体两两排列来构造关系候选，使用双仿射变换判断每个关系候选的关系，实现关系抽取。本步骤的具体实现方法为：

4.1)对于给定实体标记序列y＝(y₁,y₂,…,y_n)，通过去除标记中表示实体边界的部分(对于BILOU标记方案来说，就是标记前面的“B-”、“I-”“L-”和“U-”)，得到仅表示实体类型的标记序列y′＝(y′₁y′₂,…,y′_n)；然后，通过嵌入层得到一个标记嵌入序列

其中嵌入层权重

q表示实体类型的种数,p表示标记嵌入的维数；多出的1是因为有些单词并不组成实体，需要另外用一个实体类型标记进行表示。最后，将该标记嵌入序列E^t与步骤2)的编码结果Z拼接起来作为新的输入Z′＝(z′₁,z′₂,…,z′_n)，其中：

4.2)考虑到一个实体可能由多个单词组成，本发明使用最大池化的方法从组成实体的单词的特征表示中获得实体的特征表示O＝(o₁,o₂,…,o_m)，m为实体的数量，o_i表示第i个实体的特征表示；特别地，本发明在模型训练时使用真实的实体，而在模型预测时使用模型预测的实体。

针对客实体的隐藏层的输出结果为

计算公式如下：

4.4)通过对实体两两排列来构造关系候选，和步骤4.2)一样，本发明在训练时使用真实的实体，而在预测时使用模型预测的实体。此外，本发明在关系标签中加入关系的方向，因此假设有K种预定义的关系，则关系标签有2K+1个，多出的1个是因为负类关系没有方向，其中负类关系表示两个实体没有关系或者实体识别有误。

其中

和

式中：s_i,j,k表示s^r _i,j中第k个关系标签的得分；

取概率最大的关系标签作为该关系候选的预测结果

不考虑正则化项，本发明在训练过程中最小化以下目标函数：

L＝L_NER+λL_RE

其中L_NER表示步骤3)中实体识别(NER)的损失，L_RE表示步骤4)中关系抽取(RE)的损失，λ≥0是系数，用以权衡实体识别和关系抽取在模型训练中的分量。针对实体识别和关系抽取的损失，本发明均使用交叉熵损失函数。本发明的神经网络训练完毕后，即可输入句子，然后从句子中抽取出实体和关系。

下面将上述方法应用至具体实施例中，具体的实施步骤如前所述，实施例中主要展示其效果。

实施例：

为了测试上述句子级实体和关系联合抽取方法(具体步骤如前1)～4)所述)的实际效果，使用CoNLL04、ACE04和ACE05三个数据集。CoNLL04数据集来自于Roth和Yih开发的用于实体和关系识别的语料库，它定义了四种实体类型和五种关系类型。ACE04数据集来自于2004年的自动内容抽取(Automatic Content Extraction，简称ACE)评测，它定义了7种粗粒度的实体类型和7种粗粒度的关系类型。ACE05数据集来自于2005年的ACE评测，它定义了和ACE04数据集相同的7种粗粒度的实体类型，以及6种粗粒度的关系类型。

实验过程中超参数设置如下：使用200维预训练的GloVe词嵌入，字符嵌入维数为50，字符级别CNN卷积核大小为3，字符级别CNN卷积核个数为50，膨胀CNN层数为2，膨胀CNN卷积核大小为5，膨胀CNN卷积核个数为300，隐藏层非线性激活函数为双曲正切函数，使用Adam优化算法训练模型，学习速率为0.001，L2正则化因子为0.0001，每批次训练样本数量为16，训练轮数上限为150，早停法容忍度为25。

针对编码器设计的超参数实验的结果如下表所示，其中模型1使用两层Bi-LSTM作为编码器，模型2使用了两层膨胀CNN，模型3使用了Transformer编码器。“速度”一列显示了各个模型相对于模型1的训练速度，它是根据单轮训练时间计算得到的。实验结果表明使用膨胀卷积神经网络作为编码器能够取得更快的训练速度，这是因为它允许序列元素级别的并行，能充分发挥GPU的并行计算能力。

表1编码器实验结果

针对关系分类层设计的超参数实验的结果如下表所示，其中模型1使用线性变换来做关系分类，而模型2使用双线性变换，模型3则使用双仿射变换。实验结果表明三个模型在实体识别任务上的表现差别不大，但在关系抽取任务上的表现彼此之间存在一定的差距，其中使用双仿射变换的模型3在关系抽取任务上表现最好。

表2关系分类层实验结果

与现有联合抽取方法的对比实验结果如下表所示，其中Miwa&Bansal(2016)和Zhang et al.(2017)均使用了额外的特征包括单词的词性和句子的依存句法信息，而本发明的方法DCNN+biaffine以及Katiyar&Cardie(2017)和Bekoulis et al.(2018)都没有使用任何额外的特征。实验结果表明本发明提出的联合抽取方法在实体识别任务上的表现明显好于其他方法，而在关系抽取任务上的表现略好于其他不使用额外特征的联合方法，并且与使用额外特征的联合方法在一个合理的差距范围内。

表3对比实验结果

用于对比的方法实现参见以下参考文献：

[1]Bekoulis G,Deleu J,Demeester T,et al.Joint entity recognition andrelation extraction as a multi-head selection problem[J].Expert Systems withApplications,2018,114:34-45.

[2]Zhang M,Zhang Y,Fu G.End-to-end neural relation extraction withglobal optimization[C]//Proceedings of the 2017Conference on EmpiricalMethods in Natural Language Processing.2017:1730-1740.

[3]Katiyar A,Cardie C.Going out on a limb:Joint extraction of entitymentions and relations without dependency trees[C]//Proceedings of the 55thAnnual Meeting of the Association for Computational Linguistics(Volume 1:LongPapers).2017,1:917-928.

[4]Miwa M,Bansal M.End-to-End Relation Extraction using LSTMs onSequences and Tree Structures[C]//Proceedings of the 54th Annual Meeting ofthe Association for Computational Linguistics(Volume 1:Long Papers).2016,1:1105-1116.

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。