CN106933804B

CN106933804B - 一种基于深度学习的结构化信息抽取方法

Info

Publication number: CN106933804B
Application number: CN201710139457.4A
Authority: CN
Inventors: 谢晨昊; 梁家卿; 肖仰华
Original assignee: Shanghai Several Eyes Technology Development Co Ltd
Current assignee: Shanghai Several Eyes Technology Development Co Ltd
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2020-03-31
Anticipated expiration: 2037-03-10
Also published as: CN106933804A

Abstract

本发明公开了一种基于深度学习的结构化信息抽取方法，包括：步骤1)采用远程监控来构建大规模标记数据，包括：使用现有的维基百科提供远程监督来构建提取器；其中，签字，维基百科信息框包含关于实体的结构化事实，这些事实也在实体网页的自由文本部分中提及，使用在信息框中表达事实的句子作为训练数据；步骤2)利用先验知识，其具有类型和短语信息，整合到结构化信息抽取模型中；其中，自然语言句子中的单词的标签与其先前的单词及其连续的单词相关；步骤3)使用双向隐藏的LSTM层来利用过去和未来的输入特征；将每个句子以序列的形式输入一个双向的LSTM模型中；步骤4)最终输出标记序列，其具有真或假标记，且具有与输入单词序列相等的长度。

Description

一种基于深度学习的结构化信息抽取方法

技术领域

本发明属于信息处理领域，具体涉及一种基于深度学习的结构化信息抽取方法和系统。

背景技术

结构化信息的抽取上，很多研究在收集来自语料库的实体的结构化知识方面已经做了大量工作，例如Kylin，DBpedia。这些知识库，也称为知识图谱，包含有关实体的丰富的事实，例如贝拉克·奥巴马的出生地是檀香山。我们通常将实体称为主体(s)，属性或方面作为谓词(p)和值作为对象(o)。由于知识图谱的广泛应用，从语料库提取结构化事实(以SPO三元组的形式)越来越吸引了很多研究兴趣。在此项技术里中，我们关注的是同时提取数千万实体的大量谓词的结构化事实的问题。

具体的问题定义如下。给定一组谓词P和大语料库，我们要以<s，p，o>的形式提取事实，其中p∈P是谓词，s是主语，o是对象。例如，假设“出生地”∈P，则从句子“...迪卡普里奥出生于加利福尼亚州好莱坞...”，我们想提取事实<莱昂纳多·迪卡普里奥，出生地，加利福尼亚州好莱坞>。

一个明显的挑战是谓词集合P可能非常大，并且很可能存在大量不同的方式来以自然语言表达每个谓词。

大多数传统方法使用句法模式来触发提取。例如，“出生于”是谓词“出生地”的模式。这些现有的方法可以基于是否自动学习模式而被分为两类，基于规则的方法和机器学习方法。这些方法最明显的弱点是其引起的人工成本。手动成本有两个部分。首先，它们中的许多依赖于手工制作的规则(例如句法模式)或特征。要素工程或规则定义需要大量的领域专业知识。真实情况甚至更糟，因为不同谓词的特征或规则通常是不同的。第二，基于监督学习的解决方案需要手动标记的数据。对于提取大量谓词的信息的任务，人工成本通常是令人望而却步的。传统方法不仅需要巨大的人力成本，这些解决方案通常具有相对不可接受的性能，因为它们在处理复杂的自然语言中的弱点：

1.两种方法都不支持文本中的长距离依赖性。大多数提取方法仅使用文本中的局部特征，也就是说，它们通过关注连接x和y的短文本来确定x和y之间的关系。然而，在许多长尾的情况下，关系通过长文本体现，即，在x和y之间存在长距离依赖性。考虑以下示例，其中s＝汤姆·拇指(电影)，p＝主演。“汤姆·拇指是一个1958幻想音乐电影导演乔治·帕尔和米高梅释放。这部电影基于同名的童话故事，是一个小男人，他设法欺骗两个决定从他那里获得财富的盗贼。它主演了拉斯·坦布林的标题角色，主要是英国的支持者(它在好莱坞和伦敦拍摄)...”。

2.关于主语的句子可以包含用于谓词的多个对象，这进一步使模式复杂化并使学习者混淆。例如，下面的句子包含3个对象(诗人，剧作家，演员)的is-A关系。“威廉·莎士比亚是英国诗人，剧作家和演员，广泛...”。

3.我们想要提取的对象可能不一定出现在单个句子中。例如，让s＝德怀特·霍华德，p＝效力于球队，有效对象包括休斯顿火箭，洛杉矶湖人，奥兰多魔术，出现在多个句子：“...在1995年，奥兰多魔术队选择他...2012年8月10日，霍华德从奥兰多交易到洛杉矶湖人在一个交易...2013年7月5日，通过Twitter宣布，他打算签署与火箭...”。

上述示例清楚地表明，表达主体和对象之间的关系的自然语言的复杂性和丰富性远远超出了固定的手工制作的图案或特征的集合。

发明内容

本发明所要解决的技术问题是提供一种基于深度学习的结构化信息抽取方法。

本发明解决上述技术问题所采取的技术方案如下：

一种基于深度学习的结构化信息抽取方法，包括：

步骤1)采用远程监控来构建大规模标记数据，包括：

使用现有的维基百科提供远程监督来构建提取器；其中，签字，维基百科信息框包含关于实体的结构化事实，这些事实也在实体网页的自由文本部分中提及，使用在信息框中表达事实的句子作为训练数据；

步骤2)利用先验知识，其具有类型和短语信息，整合到结构化信息抽取模型中；其中，自然语言句子中的单词的标签与其先前的单词及其连续的单词相关；

步骤3)使用双向隐藏的LSTM层来利用过去和未来的输入特征；将每个句子以序列的形式输入一个双向的LSTM模型中；

步骤4)最终输出标记序列，其具有真或假标记，且具有与输入单词序列相等的长度。

优选的是，步骤1)，具体包括：

对于谓词“A”，将维基百科的信息框中存在该谓词的实体筛选出来；

然后取出这些实体的描述文本，将其各自对应的回答语句或者词语“B”在文本中标记出来；

最终制成对于谓词“A”的结构化信息抽取器的训练数据，其中，A可为任何谓词。

优选的是，步骤2)，具体包括：

例如，对于文本中出现的回答语句或者词语“B”，除了传统的词向量表示之外，再会加上一个标记，来表示这是一个短语，“B1/1·B2/2”；

除此之外，对于文本中出现的实体，也会标注其类型信息，并形成有多个标签。

优选的是，步骤4)，具体包括：

针对某一语句，获取其语句中包括的词语，并对词语进行标注，其中，其中标记0为假，即不是我们要抽取的信息，标记1为真，即是我们要抽取的信息。

优选的是，步骤1)，具体包括：

假设我们构造谓词p的训练数据集。我们首先寻找在其信息框中出现p的实体；从信息框中，我们首先找到实体s的p的对象o，然后，在提到o的维基百科文章页面中的大多数句子表示关系<s,p,o>在某种程度上，这些句子中任何出现的o都标记为1，任何其他的标记都标记为0。

优选的是，步骤1)，只在自由文本中标记第一段以限制搜索空间。如果第一段超过200字，只需截断它们；

如果第一段不包含o的出现，我们就跳过它。因此，每个实体以及标记的第一段是标记的样本，由此得到的样品仅含有表达p的实例。

优选的是，步骤1)，随机选择表达另一个谓词的积极实例的段落作为负实例；

令<s，t>，其中s是实体，t是其标记的第一段，是除了p之外的谓词的肯定实例；

将段落t中每个标记的标签改为0，并将s以及重新标记的t作为p的负样本，重复上面的抽样过程，直到负实例的数量等于正实例。

优选的是，步骤3)中，LSTM模型中，前向层和后向层都包含128个LSTM单元，每个向前单元的内容由以下一组公式详细阐述：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c) (4)

其中σ是对数sigmoid函数，i，f，o和c分别是输入门(input gate)，忘门(forgetgate)，输出门(output gate)和单元激活向量(cell activation vector)；

后向层的输出

由类似的方程计算，唯一的区别是序列顺序被颠倒，即，等式4中的下标t-1被替换为t+1。此外，Bi-LSTM层被堆叠2次以构建更深的网络。对于每个输入单词，LSTM层的输出是前向和后向LSTM层输出的连接：

优选的是，步骤4)中，具体包括：

令堆叠Bi-LSTM的最终输出为L_t ^*,使用S形函数σ来导出第t个标记的分数：

将y_t大于阈值α的任何标记标记为真,在一个句子中，多个标记可能被标记为真，将对应于连续的真标记的令牌的序列的任何短语用作对象。

优选的是，还设计一个目标函数来训练我们的模型，具体包括：

本发明基于深度学习的方法，构造大量标记的自由文本，训练深度神经网络模型，进而实现在更多未知自由文本上的结构化信息的抽取。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

下面结合附图对本发明进行详细的描述，以使得本发明的上述优点更加明确。其中，

图1是本发明基于深度学习的结构化信息抽取方法的示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

具体来说，近年来，深度学习被证实在自然语言处理(NLP)问题里有着很强的适用性。早在21世纪初，基于神经网络的语言模型被提出，开创了深度学习应用于自然语言处理任务的先河。接着，研究表明基于卷积神经网络(convolutional neural network)的深度学习在词性标注(part-of-speech tagging)，分块(chunking)以及命名实体识别(namedentity recognizing)等众多自然语言处理任务里有着卓越的表现。再后来，随着循环神经网络(recurrent neural network)的普及，深度学习在NLP问题里有了更好的表现，并且在诸如机器翻译(machine translation)等更多的领域有了更广泛的应用。

近年的很多研究已经证明LSTM-RNN在建模和处理复杂信息方面是有效的，并且在诸如机器翻译，情绪分析和其他一些自然语言处理任务中实现了最好的结果。然而，使用LSTM-RNN进行信息提取还没有得到很好的研究。

由此，本发明构建了一个端到端系统，以提取大量实体及其基于深中性网络的谓词的SPO三元组。一些开创性的努力致力于在相关任务中建立深度学习模型，如关系分类，从文本中提取关系。虽然这些解决方案可以用于生成SPO三元组，但是大多数这些解决方案集中在对于给定对实体的关系的提取。相反，我们专注于对实体和其谓词之一的对象的提取。另一个区别是，这些解决方案中的大多数仅关注于从文本中提取关系，而不知道关于当前知识库中广泛存在的关系实例的先前知识。因此，当它们用作构建大型知识图谱的构建块时，它们的性能仍然有限。相比之下，我们采用远程监管框架，完全使用现有关系实例来构建标记数据，这确保我们的模型具有比其他模型更好的性能。

其中，一种基于深度学习的结构化信息抽取方法，包括：

步骤1)采用远程监控来构建大规模标记数据，包括：

优选的是，步骤1)，具体包括：

优选的是，步骤2)，具体包括：

优选的是，步骤4)，具体包括：

优选的是，步骤1)，具体包括：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c) (4)

后向层的输出

优选的是，步骤4)中，具体包括：

更具体地说，本发明涉及以下的工作原理和过程：

训练数据生成：

构建有效提取器的先决条件是大量高质量的训练数据。不幸的是，这种标记数据总是生产昂贵，因此数量有限。在本节中，我们采用远程监控来构建大规模标记数据。基本思想是使用现有的知识库(具体来说，我们使用维基百科)提供远程监督来构建提取器。维基百科信息框包含关于实体的许多结构化事实，并且许多这些事实也在实体网页的自由文本部分中提及。因此，我们可以使用在信息框中表达事实的句子作为训练数据。

假设我们构造谓词p的训练数据集。我们首先寻找在其信息框中出现p的实体。让我们成为这样的实体之一。从信息框，我们首先找到实体s的p的对象o。然后，在提到o的维基百科文章页面中的大多数句子表示关系<s,p,o>在某种程度上。这些句子中任何出现的o都标记为1，任何其他的标记都标记为0.我们只在自由文本中标记第一段以限制搜索空间。如果第一段超过200字，我们只需截断它们。如果第一段不包含o的出现，我们就跳过它。因此，每个实体以及标记的第一段是标记的样本。

很容易看出，通过上述方法得到的样品仅含有表达p的“阳性”实例。然而，即使在文本中出现o，情况也不总是这样。例如，<加利福尼亚州好莱坞>可以是“出生地”和“死亡地”的对象。因此，我们仍然需要非平凡的负面实例来指导提取者学习该语言是否讨论除了p之外的事实。为此，我们随机选择表达另一个谓词的积极实例的段落作为负实例。令<s，t>(其中s是实体，t是其标记的第一段)是除了p之外的谓词的肯定实例。我们将段落t中每个标记的标签改为0，并将s以及重新标记的t作为p的负样本。我们重复上面的抽样过程，直到负实例的数量等于正实例。

注意，上述标记过程可能遇到由自然语言的复杂性导致的一些困难的情况。首先，一些提到o的句子可能表示p以外的关系。第二，o可能在infobox和自由文本中有不同的表达式，这使得确切的字符串匹配能够识别o在某些情况下失败。然而，维基百科包含数千万个实体，这允许我们构建一个足够大的标签数据，即使复杂的情况发生或多或少。

基于长短期记忆复发神经网络(LSTM-RNN)的信息抽取模型：

我们的模型的一个显着特点是，我们的模型可以充分利用先验知识，如类型和短语信息，这对提取有很大的影响，但常常被传统的IE模型忽略。接下来，我们将介绍如何将先验知识整合到我们的模型中。我们在下面描述我们的模型。

1.单词表示

输入文本被视为单词序列。为了将单词序列馈送到RNN模型，我们需要每个单词的向量表示。我们对输入单词中的每个单词使用混合表示序列，以覆盖尽可能多的有用的知识库建设信息。该表示由三个部分组成：字嵌入向量(V)，短语信息(P)，类型信息(T)。具体来说，第t个单词的表示是三个组件的连接：

x_t＝concat(V_t,P_t,T_t) (1)

显然，我们可以轻松扩展模型以集成更多其他信息。接下来，我们详细说明上述表示中的每个组件。

2.词嵌入向量(Vt)

V_t表示文字词信息。它是从随机初始化的嵌入矩阵E∈R^N×50产生的，其中N是单词字典的大小。假设v_t是具有大小的一热矢量，N的第t个单词，则用下一个等式计算字嵌入向量。

3.短语信息(Pt)

我们注意到，三元组中的许多对象实际上是多字词短语。如果模型不知道短语，我们的模型将很容易预测正确答案的片段。使模型意识到短语的理想解决方案是为深层学习结构中的短语识别特别注入若干层。然而，更深的层通常需要更多的训练数据，这不幸地在我们的情况下不成立。因此，我们改为重新组合句子，并将短语信息反馈到我们的模型中。

具体来说，我们首先通过从字典查找来检测短语。对于每个谓词p，我们通过收集p的所有对象来构建相应的字典。如果可以从字典中找到短语，则我们标记短语中具有BIO标记的单词以指示短语的乞讨(B)和结束(最后一个I)。然后我们使用第t个单词的BIO标记作为输入Pt，它是指示BIO标记的3-维一热向量。

注意，最原始的编码单元是单词，并且我们将每个字而不是短语作为单词。原因是，短语空格明显大于词的空格，并且单词的数量与参数空间成比例(N≥50)。因此，直接编码短语需要显着更多的训练样本以确保所得模型的有效性。

4.类型信息

类型信息主体(或实体)的类型显然是构建有效提取器的重要信息。例如，为某人找到“导演”是无意义的。这促使我们添加实体类型作为输入，以便模型知道实体的域。我们将每个类型c表示为30维向量(即，T_c∈R³⁰)。实体可能有多个有效类型。例如，LeonardoDicaprio是一个艺术家，人。因此，我们首先找到在DBpedia中具有最大频率的实体的前五种类型。然后，我们通过max-pooling在所有e的前五种类型之上的类型嵌入导出实体e的类型表示：

T_e＝MaxPool(T_c1,T_c2…) (3)

其中每个c_i是前五个类型之一。每种类型的嵌入将由我们的模型训练。我们使用T_e作为e的描述文本中的每个标记的类型表示。也就是说，我们在公式1中设置T_t＝t_e。

5.Bi-LSTM层

上一步中导出的每个标记的表示现在被馈送到LSTM复现神经网络中。显然，自然语言句子中的单词的标签与其先前的单词及其连续的单词相关。这促使我们使用双向隐藏的LSTM层来利用过去和未来的输入特征。我们的实验还证明它比单向前或单向后向LSTM更好。

前向层和后向层都包含128个LSTM单元。在图的右上方详细展示了单个单元。每个向前单元的内容由以下一组公式详细阐述：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c) (4)

其中σ是对数sigmoid函数，i，f，o和c分别是输入门(input gate)，忘门(forgetgate)，输出门(output gate)和单元激活向量(cell activation vector)。后向层的输出

由类似的方程计算。唯一的区别是序列顺序被颠倒，即，等式4中的下标t-1被替换为t+1。此外，Bi-LSTM层被堆叠2次以构建更深的网络。对于每个输入单词，LSTM层的输出是前向和后向LSTM层输出的连接：

6.输出

我们的最终输出是标记序列(具有真或假标记)，其具有与输入令牌序列相等的长度。接下来，我们详细说明导出此序列的过程。令堆叠Bi-LSTM的最终输出为L_t ^*(由等式5导出)。我们使用S形函数σ来导出第t个标记的分数：

我们将y_t大于阈值α的任何标记标记为真。在一个句子中，多个标记可能被标记为真。将对应于连续的真标记的令牌的序列的任何短语用作对象。在某些情况下，我们的模型可能生成多个这样的短语。在这些情况下，我们的模型认为实体和谓词的对应该有多个对象。

7.损失函数

我们仍然需要一个目标函数来训练我们的模型。我们使用在二分类问题里

我们的最终目标是同时提取不同谓词和不同实体与语料库的事实。为了实现这个目标，我们为每个谓词构建一个提取器。令p∈P，谓词p的提取器Ep接受实体s以及描述实体作为输入的一段文本，并产生标记的文本串作为输出。标签(0或1)用于指示字符串中的标记是否是谓词对象的一部分。

构建有效抽取器的挑战在于自然语言的特性和特征提取所需的昂贵的人力工作。在这项技术里，我们将构建基于长短期记忆复发神经网络(LSTM-RNN)的抽取器。抽取器的结构如图1所示。此外，由于深度学习的基础是大量已标注的数据，我们首先将阐述如何自动构建足够的标记数据来训练模型。

我们认为想LSTM-RNN可以是用于信息提取的强大工具，并且有潜力克服传统的信息抽取方法所遇到的障碍，原因如下。首先，给定标记数据，深度学习框架可以导出特征和表示，这节省了特征工程在大规模，多谓词信息提取中的成本。第二，LSTM-RNN可以更好地处理长距离依赖，并且能够泛化自然语言的语法模式。

需要说明的是，对于上述方法实施例而言，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。