CN108416058B

CN108416058B - 一种基于Bi-LSTM输入信息增强的关系抽取方法

Info

Publication number: CN108416058B
Application number: CN201810237590.8A
Authority: CN
Inventors: 黄河燕; 雷鸣; 冯冲
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2020-10-09
Anticipated expiration: 2038-03-22
Also published as: CN108416058A

Abstract

本发明提出了一种基于Bi‑LSTM输入信息增强的关系抽取方法，属于计算机人工智能自然语言处理领域。通过应用不确定标签的策略标注数据集，应用冗余编码技术对每个单词进行字符级编码产生词形编码向量。词形编码向量与词嵌入向量拼接生成词向量用于捕捉词形与词义信息。通过应用输入信息增强的Bi‑LSTM作为模型编码层，将词向量输入编码层，输出编码向量。将编码向量输入解码层，得到解码向量。应用三个分层次的NN，从解码向量分别提取出实体标签、关系类型、实体编号信息。最后，计算梯度、更新权重，通过最大化目标函数训练模型。本发明方法提高了系统的鲁棒性，减少了非实体单词带来的干扰信息，有效提高了关系抽取的准确率和召回率。

Description

一种基于Bi-LSTM输入信息增强的关系抽取方法

技术领域

本发明涉及一种文本关系抽取方法，尤其涉及一种改进的基于双向长短时记忆神经网络(Bi-LSTM)的文本关系抽取方法，属于计算机人工智能自然语言处理领域。

背景技术

在人工智能自然语言处理领域中，关系抽取是信息抽取中一个重要的研究课题，也是自动构建知识图谱的关键步骤，对信息检索、文本分类、自动问答、机器翻译等其它自然语言处理任务有很大帮助。关系抽取旨在把文件中的非结构和半结构化信息转化为结构化信息，抽取文本中的实体对和它们之间的语义关系，即为文本中的实体对设置预先定义好的关系类型。通常，一个三元组(实体1，关系类型，实体2)用来作为结构化表示的格式。

现有的关系抽取系统可以分为基于人工构造匹配规则的弱监督模型和基于人工标注数据的监督模型。

在弱监督模型中，有的使用匹配规则抽取关系，有的使用“拔靴法”迭代模式来匹配候选关系，还有的在一个图模型构建一系列传播规则来标注未知关系。这些弱监督模型不需要大量的标注数据，但是设计一个既具有高精度又有高覆盖能力的规则或模式是相当困难的任务。

监督模型可以分为基于核函数的方法和基于神经网络的方法。其中，基于核函数的方法一般选择多个特征集进行关系分类，可用的特征集包括：词汇特征、语义特征、句法特征三类。例如，词嵌入、词性、依存类型、实体标签、位置信息、上下位关系等。基于神经网络的方法可以自动学习所需的潜在特征。但是，这类系统的性能主要取决于标注数据的数量与质量。为了减少人工干预，催生了一种远程监督方法，这种方法利用知识库而不是人工产生标注数据，但该方法会产生大量的噪声数据，去噪工作成为这种方法的难点。

近年来，在英语等词形丰富的语言中，基于字符级的词形特征引起了一些研究的重视。关系抽取任务可以分为实体识别和关系分类两个子任务，结合一套标注方法，关系抽取又可以转化为一个标注任务。长短时记忆神经网络(LSTM)作为一个有效的序列标注工具，已经成功应用到关系抽取领域，它通过一个记忆单元可以学习长距离依赖关系。这个记忆单元包括：输入门、遗忘门和输出门。在标准的LSTM模型中，输入信息首先需要和上一个时间步的隐含状态拼接，然后依次经过三个门。拼接操作会引起输入信息的稀释，门操作会导致输入信息的损失。在现有的标注方法中，都用一个标签来标记非实体单词，这样将关系关键词和非关键词用一个标签标注，会给系统带来干扰信息。

发明内容

本发明的目的是为了解决文本关系抽取的问题，提出一种基于Bi-LSTM输入信息增强的关系抽取方法。本方法基于双向长短时记忆神经网络，结合词嵌入和词形编码向量，共同捕捉输入单词的语义和词形特征信息，并且引入了冗余编码技术对英文单词进行编码来提高系统的鲁棒性，通过不确定标签来减少非实体单词的干扰。

为达到以上目的，本发明所采用的技术方案如下：

一种基于Bi-LSTM输入信息增强的关系抽取方法。首先，应用不确定标签标注策略标注数据集，应用冗余编码技术对句子的每个单词进行字符级词形编码，产生单词编码向量，用于捕捉词形信息。之后，通过在训练集上运行word2vec3CBOW模型，产生单词嵌入向量，用于捕捉单词语义信息，并将单词编码向量与单词嵌入向量拼接为单词输入向量，为编码层提供词形特征信息和词义特征信息。然后，应用改进的LSTM模型作为输入信息加强模型编码层，将t时间步的向量输入到编码层，输出编码向量。将编码层输出的编码向量输入解码层，得到解码向量。应用三个分层次的NN细胞，从解码向量分别提取出实体标签、关系类型、实体编号信息，并转换为相应标签。最后，使用Adam算法计算梯度，使用BPTT算法更新权重，通过最大化目标函数训练模型。

有益效果

本发明方法与现有技术相比，具有以下优点：

(1)引入了冗余编码技术对单词进行词形编码，提高了系统的鲁棒性。

(2)改进了标准LSTM模型，解决了输入信息稀释和损失的问题。

(3)首次提出不确定标签，并成功应用到神经网络，解决了非实体单词带来干扰信息的问题。

通过上述三种策略，有效提高了关系抽取的准确率和召回率。本发明方法既可以完成单关系抽取任务，也可以完成多关系抽取任务(一个句子中包含有多个关系三元组)。该模型是一个实体对和关系联合抽取的系统，当将实体标签的实际值代替预测值时，模型可以完成关系分类的任务。

附图说明

图1为本发明方法的模型结构图；

图2为本发明方法所述关系抽取与标注示例图。

图3为本发明方法所述词编码流程图；

图4为本发明方法所述冗余编码对字符编码流程图；

具体实施方式

下面结合附图和实施例对本发明方法的具体实施方式做进一步详细说明。

一种基于Bi-LSTM输入信息增强的关系抽取方法，如图1所示，包括以下步骤：

步骤一，应用不确定标签标注策略标注数据集，如图2所示。具体方法如下：

将句子中的每个单词都使用一个标签标注，每一个标签由三部分组成：实体部分、编号部分、关系部分。

其中，实体部分用“E”表示实体，“N”表示非实体；编号部分用“1”表示第一个实体，“2”表示第二个实体；关系部分用关系类型的缩写“ED”(Entity-Destination)、“CE”(Cause-Effect)等表示关系类型。例如，标签“E1-ED”表示单词是“ED”关系类型的第一个实体，“E0-R0”表示单词是实体并属于“None”关系类型。非实体单词用“N-X”表示，其中“X”是标签的编号部分和关系部分，它的值不确定，可以是任意值。

引入不确定标签“X”的作用，举例说明，在语句“On November 15th,2017,USpresident Donald Trump arrived in Australia for a state visit.”中，有关系三元组(实体1：Donald Trump,关系类型：Entity-Destination，实体2：Australia)。可见，关系类型ED主要由“arrived in”决定，决定关系类型的词或短语称作关系关键词，通常为非实体词。现有方法是将非实体用一个标签标注，如把“arrived”、“in”等关键词与“for”、“a”、“state”、“visit”等非关键词用一个确定的非实体标签“N”标注。这样会给关系类型带来干扰信息，显然不合理。为了解决这个问题，通过引入不确定标签“X”，非实体单词用“N-X”标注，“N”是实体部分，“X”是编号和关系类型部分。它的含义是：如果一个单词是非实体，则不需要关心其编号是多少以及属于哪种关系类型。

步骤二，应用冗余编码技术对句子的每个单词进行字符级词形编码，产生单词编码向量v_b，用于捕捉词形信息。

在英语等词形丰富的语言中，一个词根可以派生出名词、动词、形容词、副词等许多词性。在步骤一的示例中，关系关键词“arrived in”还可以有“arrivein”、“arrivesin”、“Trump’s arrival in Australia happened in November…”等多种表达。由此得出结论：词形相同的单词，具有相同的实体类型；词形相似的关系关键词表达相同的关系类型。可见，词形信息对关系抽取是一个重要的特征。

在信息论中，码距定义为编码系统中两个编码的最小海明距离。若p＝(p₁,p₂,…p_n)和q＝(q₁,q₂,…q_n)是编码系统C中的两个编码，则p和q之间的海明距离d_pq为：

其中，n、i为正整数。

编码系统C的码距D为：

信道的检错纠错能力由编码系统的码距决定，码距越大，检错纠错能力越强。码距为D的系统具有最多D-1位的检错能力和

位的纠错能力。对于神经网络来说，检错纠错能力可以提高系统的鲁棒性。基于这个理论，为了增大编码系统的码距，可以利用冗余编码技术对字符进行编码。

基于上述原理，如图3所示，所述步骤二的具体实现方法如下：

首先，用冗余编码技术对每个字符进行编码为唯一的向量，如图4所示，方法如下：

步骤a、用字符向量长度为CS维的全“0”向量表示空格字符。

步骤b、以空格字符向量为基点，使用坐标为(-1，0，1)的三进制编码，用穷举法搜索到29个其它编码向量，使这些编码向量两两之间的海明距离不小于码距D。

步骤c、将搜索到的向量分别分配给字符‘a-z’、缩写‘`’号、连字符‘-’、其余的所有字符作为一个特殊字符‘sc’。

步骤d、继续使用穷举法搜索26个大写字母‘A-Z’的编码向量，使得大小写字符之间的海明距离为d_lu，并且满足除大小写字符之间外其余字符之间的海明距离不小于码距D。

步骤e、检查编码向量是否满足分配。如果编码向量不够分配，增大CS，返回步骤a。

经过上述步骤，即可得到‘a-z’、‘A-Z’、空格字符、缩写符、连字符、其它所有字符‘sc’共56个字符编码向量。

之后，用空格字符将长度不够的单词填充到预设长度WL，或者截断超长单词到预设长度WL。

最后，依据组成单词的字符序列，拼接所有的字符向量，形成单词编码向量v_b。

步骤三、通过在训练集上运行word2vec3CBOW模型，产生单词嵌入向量v_q，用于捕捉单词语义信息。语义信息是语义关系抽取的重要特征。

步骤四、将单词编码向量v_b与单词嵌入向量v_q拼接为单词输入向量v，为编码层提供词形特征信息和词义特征信息。

步骤五、应用改进的LSTM模型作为输入信息加强模型编码层，将t时间步的向量v_t输入到编码层，输出编码向量

其中，所述改进的LSTM模型是一种单层双向LSTM模型。具体如下：

在标准的LSTM模型中，输入信息首先需要和上一个时间步的隐含状态h_t-1拼接，然后依次经过输入门、遗忘门、输出门。拼接操作会引起输入信息的稀释，门操作会导致输入信息的损失。本步骤中，将输入向量v_t经过一个普通的NN层的变换得到输入加强向量

然后与前向编码向量

后向编码向量

拼接得到编码向量

其中，前向编码向量

用来携带历史单词信息，输入加强向量

用来携带当前单词信息，后向编码向量

用来携带未来单词信息。

因此，编码向量

既是编码层的输出，同时也是解码层的输入，用来携带整个句子的信息。一个方向(前向或者后向)的编码向量的具体操作如下：

i_t＝σ(W_i[v_t,h_t-1]+b_i) (1)

f_t＝σ(W_f[v_t,h_t-1]+b_f) (2)

o_t＝σ(W_o[v_t,h_t-1]+b_o) (3)

c_t＝f_tc_t-1+i_ttanh(W_c[v_t,h_t-1]+b_c) (4)

h_t＝o_ttanh(ct) (5)

其中，i,f,o分别表示输入门、遗忘门、输出门的输出，σ是sigmoid激活函数，W是权重矩阵，b是偏置，v_t是t时间步的输入向量，h_t是一个方向的编码向量。

其中，

是输入加强向量，

是前向编码向量，

是后向编码向量，计算过程如h_t。

步骤六、将编码层输出的编码向量

输入解码层，得到解码向量

其中，

分别表示解码层t时间步的输入门、遗忘门、输出门的输出。

是解码层t时间步的细胞状态，

是一个方向的解码向量，

是解码向量，包含着实体标签、关系类型、实体编号等信息。

步骤七、应用三个分层次的NN细胞，从解码向量

中分别提取出实体标签、关系类型、实体编号信息，并转换为相应标签。

其中，

分别是实体标签、关系类型、实体编号的预测值。W是权重矩阵，b是偏置。

步骤八、使用Adam算法计算梯度，使用BPTT算法更新权重，通过最大化目标函数训练模型。目标函数如下：

其中，S是训练集句子总数，T_s是第s句的长度，

分别是实体标签、关系类型、实体编号的真实值，

分别是实体标签、关系类型、实体编号的预测值；l、u、v分别是关系类型数、实体编号数、实体类型数。u^e是实体标签向量，sum函数的第二个参数axis＝entity_axis意味着在实体维求和。θ是实体标志，当前单词是实体时，它的值为1，否则为0。例如，定义实体标签向量u^e＝(0,1)，当单词不是实体时

则θ＝0×1+1×0＝0。此时，非实体单词的关系类型和实体编号部分的损失不计入损失函数，从而实现了不确定标签“X”的功能。

实施例

第一步，应用不确定标签标注策略标注数据集。句子的每个单词都用一个标签标注，每一个标签由三部分组成：实体部分、编号部分、关系部分。实体部分用“E”表示实体，“N”表示非实体，编号部分用“1”表示第一个实体，“2”表示第二个实体。关系部分用关系类型的缩写“ED”、“CE”等表示关系类型。“E0-R0”表示单词是实体，属于“None”关系类型。非实体单词用“N-X”标注。

第二步，应用冗余编码技术对句子的每个单词进行字符级的词形编码，生成108维的词编码向量v_b。步骤如下：

首先，用冗余编码技术将每个字符编码为9维的字符向量，具体实现如下：

a.用CS＝9(字符向量大小)维全“0”向量表示空格字符。

b.以此为基点，使用坐标为(-1，0，1)的三进制编码，用穷举法搜索到29个其它的编码向量，使得这些编码向量两两之间的海明距离不小于码距D＝6。

c.将搜索到的向量分别分配给字符‘a-z’、缩写‘`’号、连字符‘-’、其余的所有字符作为一个特殊字符‘sc’。

d.继续使用穷举法搜索26个大写字母‘A-Z’的编码向量，使得大小写字符之间的海明距离为d_lu＝2，且满足除大小写字符之间外，其余字符之间的海明距离不小于码距D＝6。

经过以上步骤，就得到了‘a-z’、‘A-Z’、空格字符、缩写符、连字符、其它所有字符‘sc’共56个字符编码向量。

然后，用空格字符将长度不够的单词填充到预设长度WL＝12，或截断超长单词到预设长度WL。

最后，依据组成单词的字符序列，拼接所有的字符向量，形成108维单词的编码向量v_b。

第三步，在训练集上运行word2vec3CBOW模型，产生192维的单词嵌入向量v_q。

第四步，将单词编码向量v_b与单词嵌入向量v_q拼接为300维的输入向量v，其中单词编码向量v_b用于捕捉词形特征信息，单词嵌入向量v_q用于捕捉词义特征信息。

第五步，应用改进的单层双向LSTM作为输入信息加强模型编码层，将t时间步向量v_t输入到编码层，输出编码向量

第六步，将编码层的输出

输入解码层，得到解码向量

第七步，应用三个分层次的NN，从解码向量

分别提取出实体标签、关系类型、实体编号信息，并转换为相应的标签。

第八步，使用Adam算法计算梯度，BPTT算法更新权重，通过最大化目标函数训练模型。

Claims

1.一种基于Bi-LSTM输入信息增强的关系抽取方法，其特征在于包括以下步骤：

步骤一，应用不确定标签标注策略标注数据集，具体如下：

将句子中的每个单词都使用一个标签标注，每一个标签由三部分组成：实体部分、编号部分、关系部分；其中，实体部分用“E”表示实体，“N”表示非实体；编号部分用“1”表示第一个实体，“2”表示第二个实体；关系部分用关系类型的缩写“ED”、“CE”等表示关系类型；非实体单词用“N-X”表示，其中“X”是标签的编号部分和关系部分，它的值不确定，为任意值；

步骤二，应用冗余编码技术对句子的每个单词进行字符级词形编码，产生单词编码向量v_b，用于捕捉词形信息；

步骤三、通过在训练集上运行word2vec3 CBOW模型，产生单词嵌入向量v_q，用于捕捉单词语义信息；

步骤四、将单词编码向量v_b与单词嵌入向量v_q拼接为单词输入向量v，为编码层提供词形特征信息和词义特征信息；

步骤五、应用改进的LSTM模型作为输入信息增强模型编码层，将t时间步的向量v_t输入到编码层，输出编码向量

所述改进的LSTM模型是一种单层双向LSTM模型，具体如下：

将输入向量v_t经过一个普通NN层的变换得到输入加强向量

然后与前向编码向量

后向编码向量

拼接得到编码向量

其中，前向编码向量

用来携带历史单词信息，输入加强向量

用来携带当前单词信息，后向编码向量

用来携带未来单词信息；编码向量

既是编码层的输出，同时也是解码层的输入，用来携带整个句子的信息；

步骤六、将编码层输出的编码向量

输入解码层，得到解码向量

其中，

f_t ⁽²⁾,

分别表示解码层t时间步的输入门、遗忘门、输出门的输出；

是解码层t时间步的细胞状态，

是一个方向的解码向量；

是解码向量，包含实体标签、关系类型、实体编号信息；σ是sigmoid激活函数，W是权重矩阵，b是偏置；

步骤七、应用三个分层次的NN细胞，从解码向量

中分别提取出实体标签、关系类型、实体编号信息，并转换为相应标签：

其中，

分别是实体标签、关系类型、实体编号的预测值，W是权重矩阵，b是偏置；

步骤八、使用Adam算法计算梯度，使用BPTT算法更新权重，通过最大化目标函数训练模型，目标函数如下：

其中，S是训练集句子总数，T_s是第s句的长度，

分别是实体标签、关系类型、实体编号的真实值，

分别是实体标签、关系类型、实体编号的预测值；l、u、v分别是关系类型数、实体编号数、实体类型数；u^e是实体标签向量，sum函数的第二个参数axis＝entity_axis意味着在实体维求和；θ是实体标志，当前单词是实体时，它的值为1，否则为0；此时，非实体单词的关系类型和实体编号部分的损失不计入损失函数。

2.如权利要求1所述的一种基于Bi-LSTM输入信息增强的关系抽取方法，其特征在于，所述步骤二包括以下步骤：

首先，用冗余编码技术对每个字符进行编码为唯一的向量；

之后，用空格字符将长度不够的单词填充到预设长度WL，或者截断超长单词到预设长度WL；

3.如权利要求2所述的一种基于Bi-LSTM输入信息增强的关系抽取方法，其特征在于，所述使用冗余编码技术对每个字符进行编码为唯一向量的方法如下：

步骤a、用字符向量长度为CS维的全“0”向量表示空格字符；

步骤b、以空格字符向量为基点，使用坐标为(-1，0，1)的三进制编码，用穷举法搜索到29个其它编码向量，使这些编码向量两两之间的海明距离不小于码距D；

步骤c、将搜索到的向量分别分配给字符‘a-z’、缩写‘`’号、连字符‘-’、其余的所有字符作为一个特殊字符‘sc’；

步骤d、继续使用穷举法搜索26个大写字母‘A-Z’的编码向量，使得大小写字符之间的海明距离为d_lu，并且满足除大小写字符之间外其余字符之间的海明距离不小于码距D；

步骤e、检查编码向量是否满足分配，如果编码向量不够分配，增大CS，返回步骤a。

4.如权利要求1所述的一种基于Bi-LSTM输入信息增强的关系抽取方法，其特征在于，所述一个方向的编码向量的具体操作如下：

i_t＝σ(W_i[v_t,h_t-1]+b_i) (12)

f_t＝σ(W_f[v_t,h_t-1]+b_f) (13)