CN109543183A

CN109543183A - 基于深度神经网络和标注策略的多标签实体-关系联合提取方法

Info

Publication number: CN109543183A
Application number: CN201811367895.7A
Authority: CN
Inventors: 李辰; 龙雨; 王轩
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-03-29
Anticipated expiration: 2038-11-16
Also published as: CN109543183B

Abstract

本发明提供基于深度神经网络和标注策略的多标签实体‑关系联合提取方法，基于标注策略的联合提取方法，可以有效的避免在命名实体识别子任务中产生的错误会传播至关系分类子任务中和忽视了两个子任务间相互作用的弊端。同时，本发明使用Tree‑GRU作为编码层，可以使模型更加充分的学习到整个句子的依存句法信息，为准确识别两个实体间是否存在关系及存在关系的类型带来帮助。此外，由于海量文本本身具有的复杂性，一个实体可能包含在多种关系中，多标签分类器的使用，很好地解决了上述问题。本发明的方法在不同的数据领域上都取得了较好的结果，能高效准确智能地从海量文本数据中提取有实用价值以及研究意义的信息。

Description

基于深度神经网络和标注策略的多标签实体-关系联合提取方法

技术领域

本发明涉及自然语言处理领域，具体为基于深度神经网络和标注策略的多标签实体-关系联合提取方法。

背景技术

在大数据与人工智能的时代背景下，信息抽取和语义理解已成为研究者们近年来聚焦的热点。抽取非结构化文本中的实体和实体对间的语义关系是信息抽取的重要任务之一，也是达到语义理解关键。但是，用自然语言表述的非结构化文本数据有数据量庞大、结构复杂、产生速度快等特征，相关研究人员要从大量文本中快速而准确地获取有价值的知识和信息是非常困难的。所以如何智能且高效准确地从海量数据中提取有价值的信息，以及如何实现其语义理解显得尤为重要。

现有的实体及其关系抽取方法主要分为流水线式抽取和联合抽取两种。流水线式提取方法即串联式的，先抽取实体然后识别实体间的关系。这种分开来处理的方式比较简单，各个模块都比较灵活。但是这种方法忽视了两个任务之间的联系，实体识别的结果可能会影响关系的抽取。对于非结构化文本的信息提取，传统的流水线方法存在以下弊端：1.在命名实体识别子任务中产生的错误会传播至关系分类子任务中，从而造成了错误率的提升；2.忽视了两个子任务间相互作用对整体结果的带来的提升，例如，知道了两个实体间的关系类型，可以更加准确地推测出两个实体所属的实体类型。

联合抽取方法是从非结构化的文本中同时识别命名实体和实体之间的语义关系，即用一个模型来抽取实体和关系。联合抽取不仅能有效的整合实体和关系信息，而且能达到一个很好的效果。然而，现有的联合抽取方法大多都是基于特征或共享参数，没有达到真正意义上的联合提取，而且没有很好地解决关系重叠的问题，即一个实体可能会有多个关系标签。

发明内容

针对现有技术中存在的问题，本发明提供基于深度神经网络和标注策略的多标签实体-关系联合提取方法，实现从非结构化文本数据中联合提取实体-关系对，为达到海量自然语言文本的语义理解提供了基础技术支撑。

本发明是通过以下技术方案来实现：

基于深度神经网络和标注策略的多标签实体-关系联合提取方法，包括以下步骤：

步骤1，首先对训练文本和测试文本进行分词处理，将分词后得到的训练文本用标记策略进行标记；

标记策略具体为：根据训练文本的标注为每个词设置一个O标签用于表示不属于任何关系或者非O标签用于表示有所属关系，非O标签由单词位置、关系类别和关系角色三部分构成；其中，关系角色标记为1或2，分别表示实体属于(实体1，关系，实体2)三元组的实体1或实体2，用于表示识别出的实体之间的关系方向；

步骤2，使用自然语言处理工具对步骤1分词后的训练文本和测试文本进行依存句法树分析，得到每个单词的依存关系类型，并计算句法依存树上每个单词结点到根的距离作为此词的位置信息；

步骤3，训练词向量表、依存关系向量表以及位置向量表，生成句子中每个单词w_i对应的词向量Word_i、依存关系向Dependency_i以及位置向量Position_i，由此得到句子中每个单词的最终向量表示为x_i＝[Word_i,Dependency_i,Position_i]；

步骤4，以句子为单位，构建基于Tree-GRU的编码层，其输入为句子中单词对应向量x_i构成的矩阵[x₁,x₂,…,x_n]，n为句子长度，输出为句子中全部单词对应隐层输出h_i构成的矩阵[h₁,h₂,…,h_n]；

步骤5，构建基于LSTM网络的解码层，把步骤4中生成的隐层输出h_i构成的矩阵[h₁,h₂,…,h_n]作为输入，输入至LSTM网络进行解码，输出为

步骤6，将LSTM解码层的输出向量通过最终的多标签关系分类层，得到对每个单词最终的标记结果，实现基于深度神经网络和标注策略的多标签实体-关系联合提取模型；

步骤7，使用标记后的训练数据训练上述联合提取模型，通过对比训练数据中的实际标签与联合提取模型分类得到标签的差异，调整联合提取模型参数以优化分类性能，得到训练好的联合提取模型；

步骤8，使用测试数据对步骤7训练好的联合提取模型进行测试，根据多标签分类层所得标签序列，提取出(实体1，关系，实体2)三元组，得到测试文本的实体和实体间语义关系。

优选的，所述单词位置标记包括B(begin)、I(inside)、E(end)和S(single)，用于表示此单词在一个待识别的实体中的位置信息，所述的实体由单词序列构成。

优选的，所述关系类别从预定义的关系集中得到，用于表示识别出的实体所属的关系类型。

优选的，所述步骤3，具体包括以下步骤：

步骤3.1：使用基于skip-gram模型的word2vec方法，选取与任务相关的语料库，生成预训练的词向量表；

步骤3.2：使用基于skip-gram模型的word2vec方法，以数据集中所有的依存关系类型作为语料库，生成预训练的依存关系向量表；

步骤3.3：基于步骤2获得每个词的位置信息，利用随机数生成位置向量表；具体的针对在句法依存树中到根节点不同的距离，使用随机数生成一个与之相对应的30维向量，将所生成的所有随机向量集合在一起生成位置向量表；

步骤3.4：对于每一个单词w_i，通过查找步骤3.1生成的词向量表、步骤3.2生成的依存关系向量表和步骤3.3生成的位置向量表，获得单词w_i对应的词向量Word_i，其到根节点距离对应的位置向量Position_i，以及其在句中的依存关系类型所对应的依存关系向量Dependency_i；

步骤3.5：将步骤3.4生成的词向量Word_i，依存关系向量Dependency_i，位置向量Position_i横向拼接起来，生成单词w_i的最终向量表示x_i＝[Word_i,Dependency_i,Position_i]。

优选的，所述步骤4，具体包括以下步骤：

步骤4.1，基于步骤2中生成的每个句子对应的依存句法树，构建与其结构相对应的Tree-GRU编码层，单词w_i对应Tree-GRU编码层中的GRU节点i；

步骤4.2，基于步骤4.1中构建的Tree-GRU，其GRU节点i对应的隐层输出h_i的计算方式如下：

z_i＝σ(W^Zx_i+U^Zh_ch(i)+b^z)

r_i＝σ(W^rx_i+U^rh_ch(i)+b^r)

其中，z_i代表GRU节点i的更新门，r_i代表GRU节点i的重置门，代表GRU节点i的候选隐含状态，σ代表sigmoid函数，“·”代表向量点乘运算；W^Z，U^Z代表z_i的权重矩阵；b^z代表z_i的偏置项；W^r，U^r代表r_i的权重矩阵；b^r代表r_i的偏置项；代表的权重矩阵；代表的偏置项；x_i为GRU节点i对应单词w_i在步骤3中生成的向量表示，h_ch(i)代表GRU节点i所有孩子节点的隐层输出之和，即h_ch(i)＝∑_p∈ch(i)h_p，整个编码层按自底向上的顺序计算每个单词的隐层输出。

优选的，所述步骤6，具体包括以下步骤：

步骤6.1，利用步骤5解码层中每个词的输出向量作为输入，经过一个全连接层将其映射到标记空间，输出向量为O＝(o₁,o₂…o_l)，向量O的每一维代表一个类别，l为类别总数；

步骤6.2，利用sigmoid函数对输出向量O＝(o₁,o₂…o_l)的每一个元素o_j计算类别概率，若概率超过既定阈值，则判定该类别成立，否则该类别不成立。

与现有技术相比，本发明具有以下有益的技术效果：

本发明采用的基于标注策略的联合提取方法，可以有效的避免在命名实体识别子任务中产生的错误会传播至关系分类子任务中和忽视了两个子任务间相互作用的弊端。同时，本发明使用Tree-GRU作为编码层，可以使模型更加充分的学习到整个句子的依存句法信息，为准确识别两个实体间是否存在关系及存在关系的类型带来帮助。此外，由于海量文本本身具有的复杂性，一个实体可能包含在多种关系中，多标签分类器的使用，很好地解决了上述问题。本发明的方法在不同的数据领域上都取得了较好的结果，能高效准确智能地从海量文本数据中提取有实用价值以及研究意义的信息。

附图说明

图1是本发明基于深度神经网络和标注策略的多标签实体-关系联合提取方法流程图。

图2是本发明基于深度神经网络和标注策略的多标签实体-关系联合提取方法模型图。

图3是本发明实施例中所述句子进行句法分析后的可视化结果图。

图4是本发明实施例中所述句子对应的编码层结构图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

实施例采用的训练数据和测试数据均为公开的NYT数据集。

实施例：主要用来提取数据集每个句子中的实体以及实体的语义关系。训练数据和测试数据均选自NYT数据集。

如图1所示的流程和图2所示的模型，本发明所述的方法包括以下步骤，

步骤1：首先对训练文本和测试文本进行分词处理，将分词后得到的训练文本用标记策略进行标记。标记策略具体为：根据训练文本的标注为每个词设置一个“O”标签(不属于任何关系)或者“非O”标签(有所属关系)。非O标签由单词位置、关系类别和关系角色三部分构成。其中，单词位置标记包括B(begin)、I(inside)、E(end)和S(single)，用来表示此单词在一个待识别的实体中的位置信息(实体由单词序列构成)；关系类别从预定义的关系集中得到，表示识别出的实体所属的关系类型；关系角色标记为“1”或“2”，分别表示实体属于(实体1，关系，实体2)三元组的实体1或实体2，用以说明本发明识别出的实体之间的关系方向。

例如，提取句子“The United States President Trump will visit China.”中的实体以及实体的语义关系。首先对其进行分词，结果为“The/United/States/President/Trump/will/visit/China.”然后用标记策略进行，标记结果为The(“O”)United(“B-person/country-president/country-1,B-location/administrative_division/country-1”)States(“E-person/country-president/country-1,E-location/administrative_division/country-1”)President(“O”)Trump(“S-person/country-president/country-2”)will(“O”)visit(“O”)China(“S--location/administrative_division/country-2”)，其中，“person/country-president/country”关系指两个实体是国家-总统的关系，“location/administrative_division”是指两个实体属于不同的行政区划，此处指两个国家。

步骤2：使用自然语言处理工具对步骤1分词后的训练文本和测试文本进行依存句法树分析，得到每个单词的依存关系类型。计算句法依存树上每个单词结点到根的距离作为此词的位置信息。

利用斯坦福自然语言处理工具包对句子“The United States President Trumpwill visit China.”进行句法分析，其可视化结果图3所示。得到每个单词的依存关系类型为The(“det”)United(“amod”)States(“nsubj”)President(“compound”)Trump(“nsubj”)will(“aux”)visit(“root”)China(“dobj”)，每个词到根节点的距离为The(“2”)United(“2”)States(“1”)President(“2”)Trump(“1”)will(“1”)visit(“0”)China(“1”)。

步骤3：训练词向量表、依存关系向量表以及位置向量表，生成句子中每个单词w_i对应的词向量(Word_i)、依存关系向(Dependency_i)以及位置向量(Position_i)。由此得到句子中每个单词的最终向量表示为x_i＝[Word_i,Dependency_i,Position_i]。

其详细步骤如下：

步骤3.1：使用基于skip-gram模型的word2vec方法，选取与任务相关的语料库，生成预训练的词向量表。由于本实施例中NYT数据集是新闻数据，因此本优选实例中选取“Google News”语料库来生成预训练的词向量表。

步骤3.2：使用基于skip-gram模型的word2vec方法，以数据集中所有的依存关系类型作为语料库，生成预训练的依存关系向量表。

步骤3.3：基于步骤2获得每个词的位置信息，利用随机数生成位置向量表。具体做法是，针对在句法依存树中到根节点不同的距离，使用随机数生成一个与之相对应的30维向量，将所生成的所有随机向量集合在一起生成位置向量表。

步骤3.4：对于每一个单词w_i，通过查找步骤3.1生成的词向量表、步骤3.2生成的依存关系向量表和步骤3.3生成的位置向量表，获得单词w_i对应的词向量Word_i，其到根节点距离对应的位置向量Position_i，以及其在句中的依存关系类型所对应的依存关系向量Dependency_i。

步骤3.5：将步骤3.4生成的词向量(Word_i)，依存关系向量(Dependency_i)，位置向量(Position_i)横向拼接起来，生成单词w_i的最终向量表示x_i＝[Word_i,Dependency_i,Position_i]。

步骤4：以句子为单位，构建基于Tree-GRU的编码层，其输入为句子中单词对应向量x_i构成的矩阵[x₁,x₂,…,x_n](n为句子长度)。输出为句子中全部单词对应隐层输出h_i构成的矩阵[h₁,h₂,…,h_n]。

其详细步骤如下：

句子“The United States President Trump will visit China.”对应的编码层结构如图4所示，其中x₁至x₈分别代表The/United/States/President/Trump/will/visit/China这8个单词对应的向量，将其输入至对应的GRU节点进行计算。

z_i＝σ(W^Zx_i+U^Zh_ch(i)+b^z)

r_i＝σ(W^rx_i+U^rh_ch(i)+b^r)

其中，z_i代表GRU节点i的更新门，r_i代表GRU节点i的重置门，代表GRU节点i的候选隐含状态，σ代表sigmoid函数，“·”代表向量点乘运算；W^Z，U^Z代表z_i的权重矩阵；b^z代表z_i的偏置项；W^r，U^r代表r_i的权重矩阵；b^r代表r_i的偏置项；代表的权重矩阵；代表的偏置项，x_i为GRU节点i对应单词w_i在步骤3中生成的向量表示，h_ch(i)代表GRU节点i所有孩子节点的隐层输出之和，即h_ch(i)＝∑_p∈ch(i)h_p，整个编码层按自底向上的顺序计算每个单词的隐层输出。

其详细步骤如下：

则句子“The United States President Trump will visit China.”的实体和实体间语义关系提取结果为(United States,person/country-president/country,Trump),(United States,location/administrative_division/country,China)。

Claims

1.基于深度神经网络和标注策略的多标签实体-关系联合提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度神经网络和标注策略的多标签实体-关系联合提取方法，其特征在于，所述单词位置标记包括B(begin)、I(inside)、E(end)和S(single)，用于表示此单词在一个待识别的实体中的位置信息，所述的实体由单词序列构成。

3.根据权利要求1所述的一种基于深度神经网络和标注策略的多标签实体-关系联合提取方法，其特征在于，所述关系类别从预定义的关系集中得到，用于表示识别出的实体所属的关系类型。

4.根据权利要求1所述的一种基于深度神经网络和标注策略的多标签实体-关系联合提取方法，其特征在于，所述步骤3，具体包括以下步骤：

5.根据权利要求1所述的一种基于深度神经网络和标注策略的多标签实体-关系联合提取方法，其特征在于，所述步骤4，具体包括以下步骤：

z_i＝σ(W^Zx_i+U^Zh_ch(i)+b^z)

r_i＝σ(W^rx_i+U^rh_ch(i)+b^r)

6.根据权利要求1所述的一种基于深度神经网络和标注策略的多标签实体-关系联合提取方法，其特征在于，所述步骤6，具体包括以下步骤：