CN110826303A

CN110826303A - 一种基于弱监督学习的联合信息抽取方法

Info

Publication number: CN110826303A
Application number: CN201911100130.1A
Authority: CN
Inventors: 宫法明; 司朋举; 李昕; 马玉辉; 唐昱润
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-02-21

Abstract

本发明涉及一种基于弱监督学习的联合信息抽取方法，属于自然语言处理领域。本发明为了解决基于有监督学习的信息抽取所造成的数据集标注耗时费力，以及双子任务(信息抽取通常分为两个子任务，实体识别和关系抽取)造成的误差传播问题。我们的信息抽取方法通过将信息抽取转化为序列化数据标注的任务，结合知识表示学习方法，采用联合信息抽取的形式，利用公开知识库结合少量数据集，实现弱监督学习联合信息抽取。我们希望训练一个可以对文本进行更准确的信息抽取模型。通过弱监督学习结合联合信息抽取的策略，经过端到端网络的训练，提高信息抽取的准确率和召回率，与当前的信息抽取方法相比在性能方面有了实质性的改进。

Description

一种基于弱监督学习的联合信息抽取方法

技术领域

本发明属于自然语言处理领域，具体涉及到一种基于弱监督学习的联合信息抽取方法。

背景技术

随着互联网的快速发展，使用人群数量的快速增长，互联网已经给成为了当前规模最大的、内容最丰富且可用的信息源。但是由于互联网数据缺乏语义相关的信息，计算机或程序无法理解这些丰富的数据资源，特别是非结构化的信息。而信息抽取一直是自然语言处理领域的一个重要研究课题，能够将文本中包含的信息进行结构化处理，变成类似表格样式的组织形式，输入信息抽取系统的是原始文本，包含了网页数据和单独的纯文字等内容，输出了固定格式的有效信息点，信息点是从各种各样的文本中抽取出来，随后以统一的格式集成在一起。显然，信息抽取技术可以抽取出有效知识用于构建基于知识的服务。

传统的信息抽取方法需要对实体关系的类型进行预先定义，随后需要人工标注训练集，最后采用机器学习的方法训练分类器进行实体识别和关系抽取。这样就产生了以下问题，对实体关系的预先定义不可能是全面的，且人工构建大规模的训练集是非常耗时费力的。虽然目前国内外研究者在信息抽取的子任务，即命名实体识别和关系抽取，上取得了突破性进展，但是对非结构化文本提取有效信息始终需要分两步进行，即先命名实体识别，再进行关系抽取，或者先进行关系抽取再进行命名实体识别。但是不管这两个子任务以如何顺序进行，都逃脱不了第一个子任务对第二个子任务的误差传播，最后直接影响到了信息抽取的准确率。

发明内容

针对上述问题，本发明提出一种基于弱监督学习的联合信息抽取方法，结合知识表示学习方法，采用联合信息抽取的形式，利用公开知识库结合少量数据集，使得信息提取器的对非结构化文本的提取准确性提高。本发明的具体步骤如下：

S1，预处理通过网络爬虫获取到的文本信息，剔除掉无用信息，并和外部知识库文本对齐，进行自动标注；

S2，对自动标注的文本集进行筛选，对得到的部分文本采用基于序列化标注的Mutiple-BIO标注法进行标注；

S3，将S1和S2生成的数据集分为训练集和测试集，将训练集转换为嵌入向量形式，此步骤中预训练模型采用了表示学习中静定的TransE模型；

S4，使用双向长短期记忆神经网络对向量进行编码，有效地捕获每个词语的语义信息；

S5，使用LSTM解码层生成预测标签序列；

S6，将上步骤产生的标签预测向量，输入Softmax层，结合TransE链接预测概率，进行标签分类，输出该实体标签的概率；

S7，通过最大化以在某一句子条件下预测标签和真实标签相等的概率为底的对数，进行迭代优化目标函数，得到准确率更高的信息提取器。

本发明的技术方案特征和改进为：

对于步骤S2，本发明采用基于序列化标注的Mutiple-BIO标注法对步骤S1中的部分数据进行手工标注，每个单词都被分配了一个有助于提取信息的标签，与提取结果无关的单词标记为“O”，其他标记由实体中的单词位置、关系类型和关系角色三部分组成，若某个实体属于多个三元组，则该实体包含了多个上述的三部分，以并列方式存在。

对于步骤S3，本发明采用知识表示学习中的TransE模型，将训练集随机初始化为向量，以向量的形式作为输入，并产生训练集中实体集和预定义的关系集所对应的词向量作为输出，由于操作主要是调整正确三元组和错误三元组之间的误差，输出的实体关系词向量将根据调整过程正样本向量的变化而改变，给定实体集、关系集和训练集，通过训练集随机的替换头实体或者尾实体构建负样本，计算正确三元组实体和关系之间的距离、负样本中实体关系的距离，并调整两者之间的误差，将实体关系表示成符合现实关系的向量，TransE损失函数如下：

式(1)中，TransE的损失函数分为超参数、正样本距离和负样本距离之差两部分的和，γ表示超参数，f(h,r,t)表示正样本的距离，f(h',r',t')表示负样本的距离，Δ表示正样本集合，Δ'表示负样本集合，[x]₊表示max(0,x),其中距离公式为：

f(h,r,t)＝(h+r-t)² (2)

式(2)中，h表示头实体，r表示关系，t表示尾实体。

对于步骤S4，首先将训练集随机向量初始化，随后本发明采用Bi-LSTM双向长短期记忆神经网络将随机初始化产生的向量作为输入，并产生对目标词的预测向量作为输出，迭代模块操作主要包含了向量层、前向长短期记忆网络层、后向长短期记忆网络层以及连接层，输出的向量将根据前向长短期记忆网络层的输出和后向长短期记忆网络层的输出而改变。给定训练集，前向LSTM考虑目标词前面的上下文信息，即从ω₁到ω_t的上下文信息，得到了目标词的一个预测向量c_t，具体计算如下：

式(3)中W＝{ω₁,...ω_t,ω_t+1...ω_n}表示了词语序列，ω_t∈R^d表示某句话中的第t词的向量表示，该词向量是d维词向量，n表示了该句话中词的个数，h_t-1表示Bi-LSTM中的记忆模块中之前隐藏向量，c_t-1表示记忆模块中之前原向量；

同时将目标词经过后向LSTM计算，考虑到了目标词后面的上下文信息，即从ω_t+1到ω_n的上下文信息，得到了另一个预测向量o_t，具体计算如下：

o_t＝δ(W_ωoω_t+W_hoh_t-1+W_coc_t+b_o) (4)

随后将上述同时产生的两个向量c_t和o_t输入连接层，使用双曲正切函数，得到该目标词的预测向量h_t，具体计算如下：

h_t＝o_t tanh(c_t) (5)

式(5)中c_t和o_t表示式(3)和式(4)产生的与此目标词向量，h_t表示目标词的预测向量。

对于步骤S5，本发明采用长短期记忆网络将S4步骤得到的向量作为输入，产生序列标签作为输出，关键操作是将S4步骤产生的最终预测向量h_t以及前向LSTM预测向量和词语所在的位置序号相乘，将其进行更新并连接，最终将双曲正切运算得到预测向量与其所在的位置向量相乘并加上其偏差值，得到预测标签向量作为输出，具体计算如下：

式(6)中T_t-1表示了之前预测标签向量，将其与位置信息和偏差值进行运算得到预测标签向量T_t。

对于步骤S6，将S5步骤产生的预测标签向量，输入Softmax层，进行标签分类，将其产生的实体标签概率加上TransE链接预测标签概率值进行归一化，输出该实体标签的概率，具体计算如下：

式(7)中W_y是Softmax层的矩阵，N_t表示了标签的数量，T_t表示预测标签向量，y_t表示实体关系标签概率，最终得到

表示了归一化后的标签概率。

对于步骤S7，本发明的网络建立在弱监督学习结合联合信息抽取的基础上，通过迭代优化下述目标函数，我们希望可以训练一个更好的对文本进行信息抽取的模型，得到一个多样化、一体化的信息提取器。总的损失函数如下：

式(8)中|D|表示训练集，L_j表示x_j这句话的长度，

表示x_j中第j个词语的标签I(O)表示如果标签为“O”则为0，相反为1。

本发明的基于弱监督学习和联合信息抽取方法，解决了现有技术对文本信息抽取时存在的部分问题，具有以下优点：

(1)本发明为利用互联网信息源的提取工作提供了信息提取的方法，能够提高信息提取的效率及准确率，解放了人力；

(2)在训练模型时引入知识表示学习中的模型，对模型训练进行了更好的监督矫正；

(3)本发明针对信息抽取时存在的有监督耗时费力，将信息抽取拆分为两个子任务存在误差传播的问题，提出利用远程监督结合少量人工标注数据，实现基于弱监督学习的联合信息抽取，从而解决了需要庞大训练集、语料库，以及误差传播的问题，得到多样化、一体化的信息提取器。

附图说明

图1为本发明中基于一种基于弱监督学习的联合信息抽取方法的流程图。

图2为本发明中Mutiple-BIO标注数据示意图。

图3为本发明中Bi-LSTM关键模块网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于弱监督学习的联合信息抽取方法的实现流程图，该方法包含：

S1，预处理通过网络爬虫获取到的文本信息，剔除掉无用信息，针对百度百科词语描述获取确定该词语网页的候选元素以及保存候选元素的文本信息，借用公开的Onlink知识库和纯文本对齐，进行自动标注。

S2，对自动标注的文本集进行筛选，对得到的部分文本采用基于序列化标注的Mutiple-BIO标注法进行人工标注。如图2所示，一个有效地标签由实体中的单词位置、实体关系类型和实体关系角色三部分组成，每个单词都被分配了一个有助于提取信息的标签，与提取结果无关的单词标记为“O”；考虑到了一个实体可能属于多个三元组中的情况，其中实体在传统的BIO标注法上加上了多种关系的标签，以并列的方式区别实体属于哪个三元组，关系类型从预定义的集合中获取，作为训练时所用到的少量数据集。

S3，将S1和S2生成的数据集分为训练集和测试集，且将其涉及到的实体和关系进行预训练，转换为嵌入向量形式，此步骤中预训练模型采用了表示学习中的TransE模型，将训练集随机初始化为向量的形式作为输入，并产生训练集中实体集和预定义的关系集所对应的词向量作为输出，由于操作主要是调整正确三元组和错误三元组之间的误差，输出的实体关系词向量将根据调整过程正样本向量的变化而改变，给定实体集、关系集和训练集，将通过训练集随机的替换头实体或者尾实体构建负样本，计算正确三元组实体和关系之间的距离，负样本中实体关系的距离，并调整两者之间的误差，将实体关系表示成符合现实关系的向量TransE损失函数如下：

式(9)中，TransE的损失函数分为超参数和正样本距离和负样本距离之差两部分的和，其中γ表示超参数，f(h,r,t)表示正样本的距离，f(h',r',t')表示负样本的距离，Δ表示正样本集合，Δ'表示负样本集合，[x]₊表示max(0,x),其中距离公式为：

f(h,r,t)＝(h+r-t)² (10)

式(10)中，h表示头实体，r表示关系，t表示尾实体。

S4，使用双向长短期记忆网络层对向量进行编码，有效地捕获每个词语的语义信息，其中关键模块包含了前向长短期记忆网络层、后向长短期记忆网络层和连接层，关键思想是通过前向LSTM考虑目标词前面的上下文信息，将目标词语表示为向量，通过后向LSTM考虑目标词后面的上下文信息，将目标词表示为向量，最终将两个向量进行连接，如图3所示，将训练集随机向量初始化，作为Bi-LSTM双向长短期记忆网络的输入，并产生对目标词的预测向量作为输出，迭代模块操作主要包含了向量层、前向长短期记忆网络层、后向长短期记忆网络层以及连接层，输出的向量将根据前向长短期记忆网络层的输出和后向长短期记忆网络层的输出而改变。给定训练集，前向LSTM考虑目标词前面的上下文信息，即从ω₁到ω_t的上下文信息，得到了目标词的一个预测向量c_t，具体计算如下：

式(11)中W＝{ω₁,...ω_t,ω_t+1...ω_n}表示了词语序列，ω_t∈R^d表示某句话中的第t词的向量表示，该词向量是d维词向量，n表示了该句话中词的个数，h_t-1表示Bi-LSTM中的记忆模块中之前隐藏向量，c_t-1表示记忆模块中之前原向量；

o_t＝δ(W_ωoω_t+W_hoh_t-1+W_coc_t+b_o) (12)

h_t＝o_t tan h(c_t) (13)

式(13)中c_t和o_t表示式(3)和式(4)产生的与此目标词向量，h_t表示目标词的预测向量。

S5，使用LSTM解码层生成预测标签序列，关键思想是将上步骤产生的最终预测向量以及前向LSTM预测向量同词语的位置相乘，最后加上偏差函数，经过一系列运算，输出目标词的预测标签向量，如图三所示，采用长短期记忆网络将S4步骤得到的向量作为输入，产生序列标签作为输出，关键操作是将S4步骤产生的最终预测向量h_t以及前向LSTM预测向量和词语所在的位置序号相乘进行更新并连接，最终经过双曲正切运算得到预测向量与其所在的位置向量相乘加上其偏差值，得到预测标签向量作为输出T_t；

式(14)中T_t-1表示了之前预测标签向量，表示前向原向量，经过与位置信息和偏差值的运算得到预测标签向量T_t。

S6，将S5步骤产生的标签预测向量，输入Softmax层，进行标签分类，将其产生的实体标签概率加上被赋予权重的TransE链接预测标签概率值进行归一化，输出该实体标签的概率，具体计算如下：

式(15)中W_y是Softmax层的矩阵，N_t表示了标签的数量，T_t表示预测标签向量，y_t表示实体关系标签概率，最终得到

表示了归一化后的标签概率。

S7，本发明的网络建立在弱监督学习结合联合信息抽取的基础上，通过迭代优化目标函数，即最大化以在某一句子条件下预测标签和真实标签相等的概率为底的对数，我们希望可以训练一个更好的对文本进行信息抽取的模型，得到一个多样化、一体化的信息提取器。总的损失函数如下：

式(16)中|D|表示训练集，L_j表示x_j这句话的长度，表示x_j中第j个词语的标签I(O)表示如果标签为“O”则为0，相反为1。

本发明的一种基于弱监督学习的联合信息抽取方法，主要思想是将弱监督学习与联合信息抽取相结合，并引入了知识表示学习中TransE模型。从而得到一个多样化的、一体化的、高准确率的信息抽取器，解决了有监督学习需要巨大语料库的问题、以及传统信息抽取中子任务之间的误差传播问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于弱监督学习的联合信息抽取，其特征即具体步骤如下：

S3，将S1和S2生成的数据集分为训练集和测试集，将训练集转换为嵌入向量形式，此步骤中预训练模型采用了表示学习中经典的TransE模型；

S5，使用LSTM解码层生成预测标签序列；

2.根据权利1所述的一种基于弱监督学习的联合信息抽取方法，其特征在于，对于步骤S2，本发明采用基于序列化标注的Mutiple-BIO标注法对步骤S1中的部分数据进行手工标注，每个单词都被分配了一个有助于提取信息的标签，与提取结果无关的单词标记为“O”，其他标记由实体中的单词位置、关系类型和关系角色三部分组成，若某个实体属于多个三元组，则该实体包含了多个上述的三部分，以并列方式存在。

3.根据权利1所述的一种基于弱监督学习的联合信息抽取方法，其特征在于，对于步骤S3，本发明采用知识表示学习中的TransE模型，将训练集随机初始化为向量，以向量的形式作为输入，并产生训练集中实体集和预定义的关系集所对应的词向量作为输出，由于操作主要是调整正确三元组和错误三元组之间的误差，输出的实体关系词向量将根据调整过程中正样本向量的变化而改变，给定实体集、关系集和训练集后，通过训练集随机的替换头实体或者尾实体构建负样本，计算正确三元组实体和关系之间的距离、负样本中实体关系的距离，并调整两者之间的误差，将实体关系表示成符合现实关系的向量，TransE损失函数如下：

f(h,r,t)＝(h+r-t)² (2)

式(2)中，h表示头实体，r表示关系，t表示尾实体。

4.根据权利1所述的一种基于弱监督学习的联合信息抽取方法，其特征在于，对于步骤S4，首先将训练集随机向量初始化，随后本发明采用Bi-LSTM双向长短期记忆神经网络将随机初始化产生的向量作为输入，并产生对目标词的预测向量作为输出，迭代模块操作主要包含了向量层、前向长短期记忆网络层、后向长短期记忆网络层以及连接层，输出的向量将根据前向长短期记忆网络层的输出和后向长短期记忆网络层的输出而改变。给定训练集后，前向LSTM考虑目标词前面的上下文信息，即从ω₁到ω_t的上下文信息，得到了目标词的一个预测向量c_t，具体计算如下：

同时将目标词进行后向LSTM计算，考虑到了目标词后面的上下文信息，即从ω_t+1到ω_n的上下文信息，得到了另一个预测向量o_t，具体计算如下：

o_t＝δ(W_ωoω_t+W_hoh_t-1+W_coc_t+b_o) (4)

h_t＝o_ttanh(c_t) (5)

式(5)中c_t和o_t表示了式(3)和式(4)产生的预测目标词向量，h_t表示目标词的预测向量。

5.根据权利1所述的一种基于弱监督学习的联合信息抽取方法，其特征在于，对于步骤S5，本发明采用长短期记忆网络将S4步骤得到的向量作为输入，产生序列标签作为输出，关键操作是将S4步骤产生的最终预测向量h_t以及前向LSTM预测向量和词语所在的位置序号相乘，将其进行更新并连接，最终将双曲正切运算得到的预测向量与其所在的位置向量进行相乘并加上对应的偏差值，得到预测标签向量作为输出，具体计算如下：

6.根据权利1所述的一种基于弱监督学习的联合信息抽取方法，其特征在于，对于步骤S6，将S5步骤产生的预测标签向量，输入Softmax层，进行标签分类，将其产生的实体标签概率加上TransE链接预测标签概率值，随后将概率值进行归一化，输出该实体标签的概率，具体计算如下：

表示了归一化后的标签概率。

7.根据权利1所述的一种基于弱监督学习的联合信息抽取方法，其特征在于，对于步骤S7，本发明的网络建立在弱监督学习结合联合信息抽取的基础上，通过迭代优化下述目标函数，我们希望可以训练一个更好的对文本进行信息抽取的模型，得到一个多样化、一体化的信息提取器。总的损失函数如下：

式(8)中|D|表示训练集，L_j表示x_j这句话的长度，