CN112069328A

CN112069328A - 一种基于多标签分类的实体关系联合抽取模型的建立方法

Info

Publication number: CN112069328A
Application number: CN202010937094.0A
Authority: CN
Inventors: 李爱平; 刘运璇; 贾焰; 江荣; 周斌; 涂宏魁; 王晔
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-11
Anticipated expiration: 2040-09-08
Also published as: CN112069328B

Abstract

本发明公开了一种基于多标签分类的实体关系联合抽取模型的建立方法，包括：S1.搭建基于Encoder‑Decoder的模型框架；S2.设计基于多标签分类的实体关系联合抽取模型的标注方式；S3.设计基于DCNN和Bi‑LSTM的编码器；S4.设计基于CNN链和Attention的解码器；S5.设计基于Encoder‑Decoder模型框架的三元组正确性评估模块；通过利用Encoder‑Decoder模型框架将实体抽取和关系抽取放在同一个模型中进行，解决了串联抽取存在的问题，实验证明本模型能够在包含很多错误标注的数据集上进行训练并得到好的测试结果，具有强的鲁棒性。

Description

一种基于多标签分类的实体关系联合抽取模型的建立方法

技术领域

本发明涉及数字处理技术领域，具体涉一种基于多标签分类的实体关系联合抽取模型的建立方法。

背景技术

知识图谱技术分为知识图谱建立技术和应用技术，属于语义Web、自然语言处理和机器学习的交叉学科，虽然知识图谱对于大数据人工智能的实现有非凡的意义，但是知识图谱的构建过程十分困难；现有的知识图谱包括WordNet、CYC和HowNet等，大多依靠专家人工撰写，在该种方法中，知识图谱所包含的实体、实体属性及实体关系需要完全依靠专家人工构造，其中存在的问题有以下几个方面：

(1)虽然依靠专家进行知识图谱构建可以获得精度较高的知识，然而人工构建知识图谱耗费的人力资源巨大；

(2)随着互联网的发展，知识呈爆炸式增长，人工构建知识图谱，尤其是在构建领域知识图谱方面遇到了很大困难，该方式不仅费时费力，而且存在知识覆盖率低、数据稀疏和更新缓慢等问题，其规模和构建速度已经无法适应大数据时代发掘大量涌现知识的需求；自动构建知识库能很好的解决人工构建知识库的弊端；知识库的构建包括实体关系学习、实体识别与链接、事件知识学习等多个任务，其多个任务可以独立进行；目前实体识别、关系抽取等任务多数采用机器学习的方法自动进行知识抽取，极大的减轻了人力资源的消耗，具有较好的可扩展性，具备快速构建大规模知识库的能力；

关系抽取作为知识图谱构建和信息抽取中的一个关键环节，为多种应用提供支持，具有重要的理论意义和广阔的应用前景，主要包括实体关系串联抽取和实体关系联合抽取，在传统的串联抽取模型中，由于实体抽取和关系抽取的分离导致了抽取过程中误差积累的问题，在实体关系的抽取过程中，如何实现三元组的重叠问题，成为了本领域研究急需解决的一个问题。

发明内容

针对上述存在的问题，本发明旨在提供一种基于多标签分类的实体关系联合抽取模型的建立方法，通过利用Encoder-Decoder模型框架将实体抽取和关系抽取放在同一个模型中进行，解决了串联抽取存在的问题，且通过实验证明本模型能够在包含很多错误标注的数据集上进行训练并得到较好的测试结果，具有较强的鲁棒性，对于关系抽取的研究具有重要意义。

为了实现上述目的，本发明所采用的技术方案如下：

一种基于多标签分类的实体关系联合抽取模型的建立方法，包括：

S1.搭建基于Encoder-Decoder的模型框架；

S2.设计基于多标签分类的实体关系联合抽取模型的标注方式：根据句子S中的实体关系的数量，为句子S标注相同数量的标签序列，且在每个序列中只标注一对实体及实体间的关系；

S3.设计基于DCNN和Bi-LSTM的编码器，利用DCNN和 Bi-LSTM的编码器将3层空洞卷积输出的语义单元表示，与步骤S2 Bi-LSTM输出的单词语义信息相连接，共同作为编码器的输出，实现将不同长度的句子编码为固定长度的向量；

S4.设计基于CNN链和Attention的解码器，实现利用CNN链和Attention将得到的语义信息生成多个实体关系三元组，进行实体关系的抽取；

S5.设计基于Encoder-Decoder模型框架的三元组正确性评估模块。

优选的，在步骤S1所述的搭建基于Encoder-Decoder的模型框架的过程中，包括搭建词向量预训练模块，在词向量预训练模块中采用 word2vec训练得到的词向量对句子中的词汇进行表示。

优选的，步骤S3所述的设计基于Bi-LSTM的循环神经网络模型的过程包括：

S301.设计基于LSTM的循环神经网络模型

(1)设计遗忘门：遗忘门接受的信息是上一个记忆单元的信息 h^(t-1]和当前的输入信息x^(t),输出信息为0到1之间的数值，该数值决定了细胞状态C^(t-1)保留下来的信息，其中数值0表示“完全舍弃”，数值1表示“完全保留”，遗忘门的公式表示为：

f^(t)＝sigmoid(W^f·[h^(t-1],x^(t)]+b^f) (1)

其中：f^(t)代表遗忘门当前时刻t的输出，sigmoid为激活函数，W^f代表遗忘门的权重矩阵，b^f代表遗忘门的偏置项；

(2)设计输入门：输入门是对当前时刻t输入的信息x^(t)进行选择性的记忆，其主要通过两个步骤实现，首先利用一个sigmoid层确定更新哪些内容，一个tanh层确定更新内容的备选项，之后将两个部分相结合实现对细胞状态的更新，计算公式表示为：

i^(t)＝sigmoid(Wⁱ·[h^(t-1],x^(t)]+bⁱ) (2)

其中：公式(2)中i^(t)代表输入门当前时刻t的输出，sigmoid 为激活函数，Wⁱ代表权重矩阵，h^(t-1]代表上一个记忆单元的信息，b^f代表偏置项；公式(3)中的

代表当前时刻t输入的单元状态，tanh 为激活函数，W^C代表权重矩阵，h^(t-1]代表上一个记忆单元的信息，b^C代表偏置项；公式(4)中的C^(t)代表当前时刻t输出的单元状态，f^(t)是公式(1)中遗忘门输出，C^(t-1)代表上一时刻t-1单元的状态，i^(t)和

来自公式(2)和公式(3)；

(3)设计输出门：首先通过一个sigmoid层来确定输入信息中哪些部分将会加入到输出中，之后用一个tanh层对细胞状态信息进行处理，最后将两个部分的内容相乘，得到最后的输出部分，计算公式表示为：

o^(t)＝sigmoid(W^o·[h^(t-1],x^(t)]+b^o) (5)

h^(t)＝o^(t)·tanh(C^(t)) (6)

其中：o^(t)代表输出门当前时刻t的输出，sigmoid为激活函数，W^o代表权重矩阵，h^(t-1)代表上一个记忆单元的信息，x^(t)代表当前的输入信息，b^o代表偏置项；h^(t)代表输出门当前时刻t的输出，代表当前时刻t输出的单元状态；

S302.在步骤S301的基础上设计基于Bi-LSTM的循环神经网络模型：

(1)对于一个句子中的单词w^(t)，前向LSTM根据上文单词 w⁽¹⁾到w^(t)，将w^(t)编码成

后向LSTM根据下文单词w⁽ⁿ⁾到 w^(t)，将w^(t)编码成

与

的计算过程及单词w^(t)的最终表示h^(t)表示为：

其中：

代表上一个记忆单元的信息，C^(t-1)代表上一时刻t-1 单元的状态。

优选的，步骤S3所述的基于Dilated Convolution的循环神经网络模型的设计过程包括：

S303.设计基于空洞卷积的循环神经网络模型：

在每个时间t处，将步骤S302的输出首先作为空洞卷积的输入，之后将3层空洞卷积输出的语义单元表示，与Bi-LSTM输出的单词语义信息相连接，共同作为编码器的输出，即在每个时间步生成的编码表示为：

o^(t)＝[h^(t),g^(t)] (9)

其中：h(t)为在时间步t时Bi-LSTM生成的单词的语义编码， g(t)为多层空洞卷积在第t个单词的位置提取到的语义单元信息。

优选的，步骤S4所述的基于CNN链和Attention的解码器的设计包括关系预测部分、实体预测部分和实体关系联合抽取部分的设计；所述基于CNN的分类器链的关系预测部分的设计过程包括：

S401.利用分类器链将1维卷积神经网络文本x中存在m个关系的数据文本转化为m个标签分类问题，其中第一个分类器的输入向量为编码器的输出向量，即p(c1)＝[o(1)，o(n)]；

S402.第二个分类器的输入为编码器的输出向量o与第一个分类器的输出向量oc1的连接，即向量p(c2)＝[o；o(c1)]；

S403.第三个分类器的输入为编码器的输出向量o、第一个分类器的输出向量o(c1)以及第二个分类器的输出向量o(c2)，即向量p(c3)＝ [o；o(c1)；o(c2)]；

S404.以此类推第m个分类器的输入向量为p(cm)＝[o；o(c1；…； o(cm-1)]。

优选的，步骤S4所述的实体预测部分的设计过程包括：

选择LSTM循环神经网络作为实体预测部分的模型，LSTM的以编码器的输出向量o＝[o(1)，…，o(n)]为输入量，生成向量为l＝ [l(1)，…，l(n)],生成的向量l可对文本中存在关系的所有实体进行预测。

优选的，步骤S4所述的基于Attention机制的设计过程包括：

S405.对于预测到的第i个关系，将步骤S3得到的语义编码向量 o、第i个关系分类器向量o^(c1)以及实体预测生成的向量l进行连接，作为Attention的输入向量，即：

q⁽ⁱ⁾＝[o；o(ci)；l] (10)

S406.计算之后为序列的输出生成一组权重并得到一个语义表示 C(i)，将其输入到网络中，最终生成i个序列来表示i个实体关系三元组，第i个关系的标注序列c⁽ⁱ⁾每个时间步计算为：

ci＝∑αi×qi (11)

α＝softmax(β) (12)

βi＝tanh([hi；qi]w) (13)

其中：q_t为时间步t时模型的输入，cⁱ为时间步t时模型的输出，第i个关系所生成的序列向量为cⁱ＝[cⁱ1，cⁱ2，…，cⁱ]；其中c_i中的每一个向量都作为之后网络输入的一个语义表示，最终得到第i个关系对应的最终标注序列s_i＝[sⁱ1，sⁱ2，…，sⁱ]。

本发明的有益效果是：本发明公开了一种基于多标签分类的实体关系联合抽取模型的建立方法，与现有技术相比，本发明的改进之处在于：

本发明设计了一种基于多标签分类的实体关系联合抽取模型的建立方法，通过利用Encoder-Decoder模型框架将实体抽取和关系抽取放在同一个模型中进行，并对模型中的词向量预训练模块、基于多标签分类的实体关系联合抽取模型、三元组正确性评估模块进行设计，解决了串联抽取存在的问题，且通过实验证明本模型能够在包含很多错误标注的数据集上进行训练并得到较好的测试结果，具有较强的鲁棒性，对于关系抽取的研究具有重要意义。

附图说明

图1为本发明基于多标签分类的实体关系联合抽取模型的建立方法的建立流程图。

图2为本发明基于多标签分类的实体关系抽取框架图。

图3为本发明基于多标签分类的实体关系联合抽取模型的标注方法示例图。

图4为本发明LSTM的结构图。

图5为本发明Bi-LSTM的结构图。

图6为本发明Dilated Convolution结构示例图。

图7为本发明基于注意力机制的Encoder-Decoder框架图。

其中：在图6中：(a)表示使用扩张率为1的空洞卷积来生成特征f1，则生成的特征f1上的一点相对原始特征f0感受野为2*2；(b) 表示使用扩张率为2的空洞卷积通过处理特征f1来生成特征f2，其空洞卷机核的大小为(a)中空洞卷积中一个像素点的感受野的大小，即 f2上的一个点包含了f0上3*3大小的区域的信息，扩张率为2的空洞卷积生成的特征f2感受野为5*5；(c)表示使用扩张率为4的空洞卷积通过处理特征f2来生成特征f3，同样的，(c)中的空洞卷积核的大小等于(b)中一个像素点感受野的大小，扩张率为4的空洞卷积生成的特征f3的感受野为11*11；(d)表示多层空洞卷积在文本中的感受野，自底向上，各层的空洞卷积的扩张率分别为1、2、4。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

在传统的串联抽取模型中，由于实体抽取和关系抽取的分离导致了抽取过程中误差积累的问题，而联合抽取可以将实体抽取和关系抽取放在同一个模型中进行，解决了串联抽取存在的问题，但是由于当前存在的标注模型不能够很好的解决关系三元组的重叠问题，因此利用Encoder-Decoder模型框架对实体关系进行联合抽取，并解决三元组的重叠问题对于关系抽取的研究具有重要意义。

参照附图1-7所示的一种基于多标签分类的实体关系联合抽取模型的建立方法，包括：

S1.搭建基于Encoder-Decoder模型框架的多标签分类的实体关系联合抽取模型，即搭建基于多标签分类的实体关系抽取框架；

如图2所示：基于多标签分类的实体关系抽取框架主要由三部分组成：词向量预训练模块、基于多标签分类的实体关系联合抽取模型、三元组正确性评估模块；

词嵌入又称word embedding，考虑到机器不能直接识别自然语言的词汇，词嵌入将自然语言词汇转化为机器能够进行计算的向量或者矩阵，并不是每次进行关系抽取时都要进行词向量的预训练，采用 word2vec训练得到的词向量对句子中的词汇进行表示，具体为：将大小写特征向量利用独热编码来表示，比如设定大小写特征按照单词中大写字母的数量来设定，可以设定三个值[0，1，大于1]，独热编码利用[1，0，0]、[0，1，0]和[0，0，1]三个向量来表示大小写特征；字向量可以不进行预训练，与网络一起进行训练；由字符向量表示词向量的方式有多种，字向量可以直接拼接整个单词所有字母的初始化向量得到整个单词的向量输入到网络中，也可以使用Bi-LSTM模型，在该模型中，将字母作为原子单位，用动态embedding方式取代静态embedding 方式，字符级模型的输入是单词中每个字母初始化的一个向量，输出由一个单词的最后一个字母在前向LSTM中隐藏层的值和该单词的第一个字母在反向LSTM中隐藏层的值拼接组成，该输出向量表示为整个单词的另一个词向量，用这种方式得到的词向量综合了整个上下文信息，可以与具体任务中单词所在的整个句子序列很好的关联，同时能够解决静态embedding在一词多义方面的不足；

基于多标签分类的实体关系联合抽取模型是实体关系抽取框架中重要的组成部分，主要是为了完成实体关系联合抽取的任务，采用 Encoder-Decoder模型框架，将输入的句子进行词嵌入之后进行实体关系的联合抽取，输出为多个实体关系三元组，该模型由编码器和解码器组成，编码器主要是对词向量进行编码，解码器是为了得到三元组，其具体的设计过程见本文步骤S2、S3和S4；

三元组正确性评估模块，主要是将模型抽取的三元组与数据集中的给出的标签通过比较的方式来进行正确性评估，只有当抽取得到的三元组中关系类型和实体与标签中给出的三元组完全相同时，抽取的三元组才认为是正确的，评估指标有precision(准确率)、recall(召回率) 和F1，具体过程见本文步骤S5所示；

步骤S2-S4，设计基于多标签分类的实体关系联合抽取模型，主要包括基于双向长短期记忆网络与空洞卷积的编码器部分和基于卷积神经网络链与注意力机制的解码器部分，其中，步骤S2-S3为基于双向长短期记忆网络与空洞卷积的编码器部分的设计过程，S4为基于卷积神经网络链与注意力机制的解码器部分的设计过程，以下具体的对上述设计过程进行阐述：

S2.设计基于多标签分类的实体关系联合抽取模型的标注方式：

根据句子S中的实体关系的数量，为句子S标注相同数量的标签序列，且在每个序列中只标注一对实体及实体间的关系，其具体步骤包括：

为了解决三元组的重叠问题，本文提出一种新的标注方式，即将这种标注方法与多标签分类相结合，如图3中的示例所示，句子S中存在三个实体，三个实体间存在三个关系，根据关系的数量为句子S 标注相同数量的标签序列，所以为句子标注三个序列，每个序列中只标注一对实体及实体间的关系，示例中的句子包含三个实体关系三元组，该标注方法为句子标注三个标签，每个标签序列只包含一对实体以及它们间的关系，这样即使是在三元组中重叠的实体也能够在不同的标签序列中得到正确的标注，且不存在提取到错误实体对的情况；

S3.设计基于DCNN和Bi-LSTM的编码器，利用DCNN和 Bi-LSTM的编码器将3层空洞卷积输出的语义单元表示，与步骤S2 Bi-LSTM输出的单词语义信息相连接，共同作为编码器的输出，实现将不同长度的句子编码为固定长度的向量，具体包括以下步骤：

1.设计基于Bi-LSTM的循环神经网络模型，对单词语义进行捕捉：

S301.设计基于LSTM的循环神经网络模型：LSTM又叫做长短期记忆网络，属于循环神经网络的一种特殊形式，与普通的RNN相比，LSTM能够在更长的序列中有更好的表现，LSTM的重复模块具有更复杂的结构，LSTM每个重复模块的结构如图4所示，通过三个门实现信息的保护和控制，这三个门分别是：遗忘门、输入门和输出门；

(1)设计遗忘门：遗忘门决定了从细胞状态中丢弃什么信息，遗忘门接受的信息是上一个记忆单元的信息h^(t-1)和当前的输入信息x^(t),输出信息为0到1之间的数值，该数值决定了细胞状态C^(t-1)保留下来的信息，其中数值0表示“完全舍弃”，数值1表示“完全保留”，遗忘门的公式表示为：

f^(t)＝sigmoid(W^f·[h^(t-1],x^(t)]+b^f) (1)

(2)设计输入门：相对于遗忘门的作用是选择性遗忘细胞状态中的信息，输入门的作用是对当前时刻t输入的信息x^(t)进行选择性的记忆，即决定将多少新的输入信息加入到细胞状态中来，其主要通过两个步骤实现：首先利用一个sigmoid层确定更新哪些内容，一个 tanh层确定更新内容的备选项，之后将两个部分相结合实现对细胞状态的更新，计算公式表示为：

i^(t)＝sigmoid(Wⁱ·[h^(t-1],x^(t)]+bⁱ) (2)

其中：公式(2)中i^(t)代表输入门当前时刻t的输出，sigmoid为激活函数，Wⁱ代表权重矩阵，h^(t-1]代表上一个记忆单元的信息，b^f代表偏置项；公式(3)中的

代表当前时刻t输入的单元状态，tanh为激活函数，W^C代表权重矩阵，h^(t-1]代表上一个记忆单元的信息，b^C代表偏置项；公式(4)中的C^(t)代表当前时刻t输出的单元状态，f^(t)是公式(1)中遗忘门输出，C^(t-1)代表上一时刻t-1单元的状态，i^(t)和

来自公式(2)和公式(3)；

(3)设计输出门：遗忘门和输入门共同确定了细胞状态，输出门基于当前的细胞状态决定最终记忆单元的输出，首先通过一个 sigmoid层来确定输入信息中哪些部分将会加入到输出中，之后用一个tanh层对细胞状态信息进行处理，最后将两个部分的内容相乘，得到最后的输出部分，计算公式表示为：

o^(t)＝sigmoid(W^o·[h^(t-1],x^(t)]+b^o) (5)

h^(t)＝o^(t)·tanh(C^(t)) (6)

S302.在步骤S301的基础上设计基于Bi-LSTM的循环神经网络模型：Bi-LSTM，又叫做双向长短期记忆网络，属于长短期记忆网络的一种扩展，在单词的语义信息进行捕获方面十分有效，双向长短期记忆网络结合一个从时间序列起点开始移动的长短期记忆网络和另一个从时间序列末尾开始移动的长短期记忆网络，每个时间节点的输出是前向网络和后向网络在该时间节点输入的连接，结构如图5所示：

后向LSTM根据下文单词w⁽ⁿ⁾到w^(t)，将w^(t)编码成

与

的计算过程及单词w^(t)的最终表示h^(t)表示为：

其中：

代表上一个记忆单元的信息，C^(t-1)代表上一时刻t-1 单元的状态；

Bi-LSTM能够很好的捕获每个单词在上下文中的语义，因此本章中的实体关系抽取模型采用Bi-LSTM作为编码器的一部分，对句子中的每个单词进行语义表示；但对于一个多标签分类问题来说，一个句子中可能会存在多个关系，并且同一句话中的不同关系都对应了句子中不同位置的单词语义的组合，即句子中的每个关系都存在构成该关系含义的语义单元，该语义单元包含了构成某种关系的所有语义信息，因此在进行多标签关系分类时，除了对单词级的语义信息进行捕获之外，语义单元信息的提取也十分重要；为了对语义单元信息进行捕获，除使用Bi-LSTM之外，模型的编码器还将Dilated Convolution作为信息编码的一个重要部分，即在原始编码器(Bi-LSTM)生成的单词表示的基础上，应用多层卷积神经网络通过捕获单词之间的局部相关性和长期依赖性生成语义单元的表示。

2.设计基于Dilated Convolution的循环神经网络模型，用于捕捉语义单元：如图6所示，Dilated Convolution又叫做空洞卷积或者膨胀卷积，其主要思想是在标准的卷机图中注入空洞，以此来增加图片或文本的感受野，该网络向卷积层引入了一个新的概念叫做扩张率，又称为dilationrate，扩张率决定了在卷积核进行数据处理时的各个值之间的距离，由于空洞卷积能够在不损失信息(进行池化)的情况下增大感受野，使得每个卷积的输出含有更大范围的语义信息，在使用空洞卷积时，便不再使用池化层，因此空洞卷积保留了内部信息的结构并且不再出现使用下采样导致的信息丢失的情况，此外它还能在不增加参数数量的前提下以指数级扩展接受域，这使得空洞卷积在信息处理时有明显的优势；本文选择扩张率为[1，2，3]的三层空洞卷积网络，这样做可以保证顶层卷积网络将不会处理超长距离之间的信息，从而减少了无关信息的影响；

S303.设计基于空洞卷积的循环神经网络模型：

在解码器中的每个时间t处，将步骤S302Bi-LSTM的输出首先作为空洞卷积的输入，之后将3层空洞卷积输出的语义单元表示，与 Bi-LSTM输出的单词语义信息相连接，共同作为编码器的输出，即在每个时间步生成的编码表示为：

o^(t)＝[h^(t),g^(t)] (9)

S4.设计基于CNN链和Attention的解码器

解码器能够利用得到的语义信息生成多个实体关系三元组，在本文模型中，解码器可拆解成三个主要部分：关系预测、实体预测和实体关系联合抽取；在关系预测中，关系预测可以看作是一个多标签分类问题，旨在为一个句子分配多个关系标签，考虑到同一个句子中的多个关系可能会存在一定的联系，且为了避免多个分类器预测到同一个关系，本文模型采用一种分类器链来进行关系预测；在实体预测中，可以将其看作是一个序列标注问题，从文本中识别出所有可能存在关系的实体，并把它们标识出来，在此过程中，只进行实体的识别而并不识别实体在三元组中的角色，LSTM是循环神经网络的一个优秀变种模型，继承了循环神经网络大部分的优势，同时有效解决了梯度反传过程中可能出现的梯度消失问题，十分适用于处理与时间序列高度相关的解码问题，因此我们采用LSTM来进行实体的检测；实体关系联合抽取作为解码器的最后一个部分，用于对文本中的实体关系进行联合提取，主要是利用Attention机制进行实体和关系的联合抽取；

1.基于CNN的分类器链的关系预测部分的设计过程包括：

卷积神经网络能够感受局部区域，结构具有层次，能够很好的提取特征用于分类任务，在图像处理时，卷积神经网络具有很好的图像局部识别能力，相对于其他图像处理算法，卷积神经网络能够缩短处理时间，学习更少的参数，从而降低了内存需求，这意味着在相同的条件下，卷积神经网络能够构建出更加强大的学习网络，除此之外，卷积神经网络在自然语言处理领域也有着不俗的表现，尤其是在短文本分析任务中，由于在短文本中，句子的长度较短，文本的结构比较紧凑，且能够独立表达意思，这使得卷积神经网络在处理文本类问题成为可能；本章的关系预测部分使用基于CNN的分类器链实现，分类器链上的每个分类器都会在输入值和之前所有分类器分类的基础上进行训练，分类器使用1维卷积神经网络；

S404.以此类推第m个分类器的输入向量为p(cm)＝[o； o(c1；…；o(cm-1)]；

2.基于LSTM循环神经网络放入实体预测部分的设计过程包括：

LSTM是循环神经网络的一个优秀变种模型，继承了循环神经网络大部分的优势，同时有效解决了梯度反传过程中可能出现的梯度消失问题，十分适用于处理与时间序列高度相关的解码问题，因此我们采用LSTM来进行实体的检测；LSTM的以编码器的输出向量o＝[o(1),,o(n)]为输入量，生成向量为l＝[l(1)，，l(n)],生成的向量l可对文本中存在关系的所有实体进行预测；

3.基于Attention机制的设计过程包括

如图7所示：Attention机制又称注意力机制，它对生物观察行为内部的过程进行模仿，主要通过将内部经验与外部感知对齐，以此来更加精细的观察某些区域，图7为一个基于注意力机制的 Encoder-Decoder框架，由于普通的Encoder-Decoder框架是将输入信息X的编码转化成一个固定的语义表示C，导致输入信息中所有词对于输出信息中每个字的贡献值都是相同的，换句话说，翻译得到的序列中每个字都同权的考虑了输入中的每个词，这显然没有凸显一些主要词汇在预测过程中的重要性，该类模型一般称为分心模型；而基于注意力机制的Encoder-Decoder框架会在序列中学习到每一个词汇对于输出的某个词汇的重要性，即学习一组权重，然后根据重要程度对词汇进行合并，即在编码器将输入信息进行编码时，其得到的不再是一个固定的语义表示C，而是得到了多个不同的语义表示，这些不同的语义表示是由不同的序列中的词汇以不同的权重组合而成；对于每个输出来说，它得到的语义表示C都是彼此不同的，因此，在该种模型框架下，Attention机制可以看作是编码器和解码器之间的接口，它可以为每个解码器提供与其输入最相关的编码器隐藏状态信息；注意力机制对于序列学习任务具有很大的提升作用，通过在编码器内的编码段加入注意力模型，对源数据的序列进行加权变换，或者通过在解码器端引入注意力机制，对目标数据进行加变换，都能够有效提高seq2seq在自然方式下的表现；

在本纹模型的最后一个阶段使用注意力机制进行序列的预测，在此过程之前，关系预测和实体预测两个过程分别检测了文本x中存在的所有关系和与关系相关的所有实体；在此过程中，该模型根据抽取到的各个关系信息和实体信息预测实体关系三元组信息；

q⁽ⁱ⁾＝[o；o(ci)；l] (10)

ci＝∑αi×qi (11)

α＝softmax(β) (12)

βi＝tanh([hi；qi]w) (13)

S5.设计三元组正确性评估模块

设计基于Encoder-Decoder模型框架的三元组正确性评估模块，将步骤S4抽取得到的三元组与Encoder-Decoder模型框架的三元组正确性评估模块数据集中的给出的标签通过比较的方式来进行正确性评估，只有当抽取得到的三元组中关系类型和实体与标签中给出的三元组完全相同时，抽取的三元组才认为是正确的。

实施例1：设计实验对上述基于多标签分类的实体关系联合抽取模型的准确率和可行性进行判断；

(1)实验说明：实验部分使用NYT数据集的Freebase版本对抽取模型进行评估，NYT数据集是利用远程监督进行标注得到的一个英文数据集，远程监督是为了解决人工标注代价昂贵、数据集具有过拟合和领域依赖问题而提出的一种数据标注的方式，它基于假设：假设两个实体在知识库中存在着某种关系，那么如果一个句子包含这两个实体，则认为该句子能够表示出这种关系。但是由于实体间存在的关系种类可能有多种，甚至有些实体对虽然出现在同一个句子中，但是两者之间可能不存在任何一种关系，因此基于这种假设得到的数据集会存在大量的错误标签；为了解决这个问题，Zeng提出利用多示例学习的方式解决数据标注错误的问题。最近强化学习也被运用到了信息抽取领域，Qin提出了一种强化学习框架，并重建更加纯净的数据集。尽管如此，利用远程监督生成的数据集仍包含许多的噪声数据；本实施例将本实验中所使用的纽约时报数据集称为NYT10，由于数据集中有近80％的句子所表示的关系为NA，因此该数据集在使用前首先需要进行过滤，本文通过删除NYT10训练集中关系类型在测试集中不存在的关系和根本不包含任何关系的句子过滤数据集，过滤后的NYT10数据集的统计数据如表1所示；NYT10-sub是为了测试提取重叠关系方面的有效性而筛选的测试集，是NYT10测试集的子集，包含715个句子，其中有2172个关系三元组存在重叠实体，为了更好的测试模型对具有重叠实体三元组句子的处理效果，本文还使用了NYT10-sub数据集进行实验。

表1：NYT10数据集

本实施例模型使用Keras深度学习框架进行实现，在CentOS7.3 环境下运行，服务器配置为4核CPU，30G内存，四块Tesla v100；实验参数的设置如表2所示，其中实验将单词嵌入的维度设置为300 维，将空洞卷积中的卷积核大小设置为3，三层空洞卷积的扩张率设置为[1,2,3]，除此之外，实验将网络中的丢失率设置为0.35，学习率设置为0.0001，每次输入的批次大小为64；在优化器的选择上，本实施例选用Adam优化器进行参数的优化。损失函数选用交叉熵损失函数，损失函数用于描述模型的预测值和标签之间不一致的程度，损失函数的值越小，就代表模型的健壮性越好。交叉熵损失函数的公式如下所示：

其中，yi是第i个类别的标签值，pi是由softmax计算得到的第 i个类别的概率值；k为类别数目，N为样本总数目。

表2：实验参数设置

参数设置	数值
		词嵌入维度	512
空洞卷积卷核大小	3
		扩张率	[1，2，3]
批次大小	64
		丢失率	0.35
学习率	0.0001

本实验使用标准的micro-F1对其性能进行评估，采用准确率 (Prec),召回率(Rec)和F1评分来作为三元组抽取结果的评估指标，只有当三元组中的关系类型和实体对完全正确时，抽取的三元组才认为是正确的。

(2)实验结果对比

本实施例将基于多标签分类的联合抽取模型与SPTree模型、 Tagging模型、CopyR模型三个已有的端到端联合抽取模型在相同的数据集下进行对比，以证明本文模型的有效性；

SPTree模型：一种端到端的关系提取模型，它主要是通过共享编码器部分参数的方式进行联合学习。在该模型中，命名实体识别部分使用一个神经网络作为解码器，在关系抽取部分加入了依存信息，即通过在依赖树最短路径中使用一个双向长短期记忆网络进行关系分类；

Tagging模型：该模型的思想是将实体关系抽取问题看作一种数据标注问题，它使用一种端到端的标记架构将联合提取转化成顺序标记问题，其中在输出序列中的每个标记同时编码实体和关系类型；

CopyR模型：该模型参考了问答模型中的复制机制，提出了一种用于联合提取的复制机制的Seq2Seq学习框架，该模型使用多个解码器生成三元组以解决重叠关系问题；

关系抽取的实验结果如表3所示，其中NYT10为主要测试集， NYT10-sub为测试提取重叠关系方面的有效性而筛选的测试集。

表3实验结果

(3)结果分析

从表3的实验结果可以看出，基于多标签分类的实体关系联合抽取模型(MLR)在数据集NYT10上是优于基线的；由于该模型的编码器部分除了对单词级的语义信息进行捕获之外，还对语义单元信息进行了提取，因此该模型在语义提取方面要比其他模型更加充分，准确率也明显高于其他模型；从实验结果中可以看到，SPTree模型在召回率方面取得了最优结果；但是SPTree模型需要使用更多的资源，如SPTree模型需要依赖于POS-Tag的结果和句法分析树等；Tagging 模型在该数据集上表现较差，这是因为Tagging模型不能够很好的处理三元组具有重叠实体的情况，而NYT10数据集中含有较多重叠实体三元组，这导致Tagging模型在很多句子中都无法抽取到完全正确的实体关系三元组；由于本文所提出的实体关系联合抽取模型采用了新的标注方式，因此可以对包含重叠实体的三元组进行处理；此外，由于NYT10数据集由远程监督的标注方法得到，因此数据集中含有很多噪声数据。本章模型能够在包含很多错误标注的数据集上进行训练并得到较好的测试结果，说明其具有较强的鲁棒性；

NYT10-sub主要用于测试模型在包含重叠实体三元组情况下的表现，从上述实验结果可以看出，在包含大量重叠实体三元组的情况下，各个联合抽取模型在关系抽取方面均表现出了很低的召回率，这充分说明，本文中出现的几个模型还不能在重叠关系方面进行有效的抽取，而本文所提出的抽取模型取得了较高的准确率和相对较高的召回率，表明该模型在重叠实体关系抽取方面比其他三种模型更有效。以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于多标签分类的实体关系联合抽取模型的建立方法，其特征在于：包括：

S1.搭建基于Encoder-Decoder的模型框架；

S3.设计基于DCNN和Bi-LSTM的编码器，利用DCNN和Bi-LSTM的编码器将3层空洞卷积输出的语义单元表示，与步骤S2 Bi-LSTM输出的单词语义信息相连接，共同作为编码器的输出，实现将不同长度的句子编码为固定长度的向量；

S5.设计基于Encoder-Decoder模型框架的三元组正确性评估模块。

2.根据权利要求1所述的一种基于多标签分类的实体关系联合抽取模型的建立方法，其特征在于：在步骤S1所述的搭建基于Encoder-Decoder的模型框架的过程中，包括搭建词向量预训练模块，在词向量预训练模块中采用word2vec训练得到的词向量对句子中的词汇进行表示。

3.根据权利要求1所述的一种基于多标签分类的实体关系联合抽取模型的建立方法，其特征在于：步骤S3所述的设计基于Bi-LSTM的循环神经网络模型的过程包括：

S301.设计基于LSTM的循环神经网络模型

(1)设计遗忘门：遗忘门接受的信息是上一个记忆单元的信息h^(t-1]和当前的输入信息x^(t),输出信息为0到1之间的数值，该数值决定了细胞状态C^(t-1)保留下来的信息，其中数值0表示“完全舍弃”，数值1表示“完全保留”，遗忘门的公式表示为：

f^(t)＝sigmoid(W^f·[h^(t-1],x^(t)]+b^f) (1)

i^(t)＝sigmoid(Wⁱ·[h^(t-1],x^(t)]+bⁱ) (2)

代表当前时刻t输入的单元状态，tanh为激活函数，W^C代表权重矩阵，h^(t-1]代表上一个记忆单元的信息，b^C代表偏置项；公式(4)中的C^(t)代表当前时刻t输出的单元状态，f^(t)是公式(1)中遗忘门输出，C^(t ^-1)代表上一时刻t-1单元的状态，i^(t)和

来自公式(2)和公式(3)；

o^(t)＝sigmoid(W^o·[h^(t-1],x^(t)]+b^o) (5)

h^(t)＝o^(t)·tanh(C^(t)) (6)

S302.在步骤S301的基础上设计基于Bi-LSTM的循环神经网络模型：

(1)对于一个句子中的单词w^(t)，前向LSTM根据上文单词w⁽¹⁾到w^(t)，将w^(t)编码成

后向LSTM根据下文单词w⁽ⁿ⁾到w^(t)，将w^(t)编码成

与

的计算过程及单词w^(t)的最终表示h^(t)表示为：

其中：

代表上一个记忆单元的信息，C^(t-1)代表上一时刻t-1单元的状态。

4.根据权利要求3所述的一种基于多标签分类的实体关系联合抽取模型的建立方法，其特征在于：步骤S3所述的基于Dilated Convolution的循环神经网络模型的设计过程包括：

S303.设计基于空洞卷积的循环神经网络模型：

o^(t)＝[h^(t),g^(t)] (9)

其中：h(t)为在时间步t时Bi-LSTM生成的单词的语义编码，g(t)为多层空洞卷积在第t个单词的位置提取到的语义单元信息。

5.根据权利要求1所述的一种基于多标签分类的实体关系联合抽取模型的建立方法，其特征在于：步骤S4所述的基于CNN链和Attention的解码器的设计包括关系预测部分、实体预测部分和实体关系联合抽取部分的设计；所述基于CNN的分类器链的关系预测部分的设计过程包括：

S403.第三个分类器的输入为编码器的输出向量o、第一个分类器的输出向量o(c1)以及第二个分类器的输出向量o(c2)，即向量p(c3)＝[o；o(c1)；o(c2)]；

S404.以此类推第m个分类器的输入向量为p(cm)＝[o；o(c1；…；o(cm-1)]。

6.根据权利要求5所述的一种基于多标签分类的实体关系联合抽取模型的建立方法，其特征在于：步骤S4所述的实体预测部分的设计过程包括：

选择LSTM循环神经网络作为实体预测部分的模型，LSTM的以编码器的输出向量o＝[o(1)，…，o(n)]为输入量，生成向量为l＝[l(1)，…，l(n)]，生成的向量l可对文本中存在关系的所有实体进行预测。

7.根据权利要求5所述的一种基于多标签分类的实体关系联合抽取模型的建立方法，其特征在于：步骤S4所述的基于Attention机制的设计过程包括：

S405.对于预测到的第i个关系，将步骤S3得到的语义编码向量o、第i个关系分类器向量o^(c1)以及实体预测生成的向量l进行连接，作为Attention的输入向量，即：

q⁽ⁱ⁾＝[o；o(ci)；l] (10)

S406.计算之后为序列的输出生成一组权重并得到一个语义表示C(i)，将其输入到网络中，最终生成i个序列来表示i个实体关系三元组，第i个关系的标注序列c⁽ⁱ⁾每个时间步计算为：

ci＝∑αi×qi (11)

α＝sof tmax(β) (12)

βi＝tanh([hi；qi]w) (13)

其中：q_t为时间步t时模型的输入，cⁱ为时间步t时模型的输出，第i个关系所生成的序列向量为cⁱ＝[cⁱ ₁，cⁱ ₂，…，cⁱ]；其中c_i中的每一个向量都作为之后网络输入的一个语义表示，最终得到第i个关系对应的最终标注序列s_i＝[sⁱ ₁，sⁱ ₂，…，sⁱ]。