CN106933804B - 一种基于深度学习的结构化信息抽取方法 - Google Patents

一种基于深度学习的结构化信息抽取方法 Download PDF

Info

Publication number
CN106933804B
CN106933804B CN201710139457.4A CN201710139457A CN106933804B CN 106933804 B CN106933804 B CN 106933804B CN 201710139457 A CN201710139457 A CN 201710139457A CN 106933804 B CN106933804 B CN 106933804B
Authority
CN
China
Prior art keywords
information
deep learning
lstm
words
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710139457.4A
Other languages
English (en)
Other versions
CN106933804A (zh
Inventor
谢晨昊
梁家卿
肖仰华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Several Eyes Technology Development Co Ltd
Original Assignee
Shanghai Several Eyes Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Several Eyes Technology Development Co Ltd filed Critical Shanghai Several Eyes Technology Development Co Ltd
Priority to CN201710139457.4A priority Critical patent/CN106933804B/zh
Publication of CN106933804A publication Critical patent/CN106933804A/zh
Application granted granted Critical
Publication of CN106933804B publication Critical patent/CN106933804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的结构化信息抽取方法,包括:步骤1)采用远程监控来构建大规模标记数据,包括:使用现有的维基百科提供远程监督来构建提取器;其中,签字,维基百科信息框包含关于实体的结构化事实,这些事实也在实体网页的自由文本部分中提及,使用在信息框中表达事实的句子作为训练数据;步骤2)利用先验知识,其具有类型和短语信息,整合到结构化信息抽取模型中;其中,自然语言句子中的单词的标签与其先前的单词及其连续的单词相关;步骤3)使用双向隐藏的LSTM层来利用过去和未来的输入特征;将每个句子以序列的形式输入一个双向的LSTM模型中;步骤4)最终输出标记序列,其具有真或假标记,且具有与输入单词序列相等的长度。

Description

一种基于深度学习的结构化信息抽取方法
技术领域
本发明属于信息处理领域,具体涉及一种基于深度学习的结构化信息抽取方法和系统。
背景技术
结构化信息的抽取上,很多研究在收集来自语料库的实体的结构化知识方面已经做了大量工作,例如Kylin,DBpedia。这些知识库,也称为知识图谱,包含有关实体的丰富的事实,例如贝拉克·奥巴马的出生地是檀香山。我们通常将实体称为主体(s),属性或方面作为谓词(p)和值作为对象(o)。由于知识图谱的广泛应用,从语料库提取结构化事实(以SPO三元组的形式)越来越吸引了很多研究兴趣。在此项技术里中,我们关注的是同时提取数千万实体的大量谓词的结构化事实的问题。
具体的问题定义如下。给定一组谓词P和大语料库,我们要以<s,p,o>的形式提取事实,其中p∈P是谓词,s是主语,o是对象。例如,假设“出生地”∈P,则从句子“...迪卡普里奥出生于加利福尼亚州好莱坞...”,我们想提取事实<莱昂纳多·迪卡普里奥,出生地,加利福尼亚州好莱坞>。
一个明显的挑战是谓词集合P可能非常大,并且很可能存在大量不同的方式来以自然语言表达每个谓词。
大多数传统方法使用句法模式来触发提取。例如,“出生于”是谓词“出生地”的模式。这些现有的方法可以基于是否自动学习模式而被分为两类,基于规则的方法和机器学习方法。这些方法最明显的弱点是其引起的人工成本。手动成本有两个部分。首先,它们中的许多依赖于手工制作的规则(例如句法模式)或特征。要素工程或规则定义需要大量的领域专业知识。真实情况甚至更糟,因为不同谓词的特征或规则通常是不同的。第二,基于监督学习的解决方案需要手动标记的数据。对于提取大量谓词的信息的任务,人工成本通常是令人望而却步的。传统方法不仅需要巨大的人力成本,这些解决方案通常具有相对不可接受的性能,因为它们在处理复杂的自然语言中的弱点:
1.两种方法都不支持文本中的长距离依赖性。大多数提取方法仅使用文本中的局部特征,也就是说,它们通过关注连接x和y的短文本来确定x和y之间的关系。然而,在许多长尾的情况下,关系通过长文本体现,即,在x和y之间存在长距离依赖性。考虑以下示例,其中s=汤姆·拇指(电影),p=主演。“汤姆·拇指是一个1958幻想音乐电影导演乔治·帕尔和米高梅释放。这部电影基于同名的童话故事,是一个小男人,他设法欺骗两个决定从他那里获得财富的盗贼。它主演了拉斯·坦布林的标题角色,主要是英国的支持者(它在好莱坞和伦敦拍摄)...”。
2.关于主语的句子可以包含用于谓词的多个对象,这进一步使模式复杂化并使学习者混淆。例如,下面的句子包含3个对象(诗人,剧作家,演员)的is-A关系。“威廉·莎士比亚是英国诗人,剧作家和演员,广泛...”。
3.我们想要提取的对象可能不一定出现在单个句子中。例如,让s=德怀特·霍华德,p=效力于球队,有效对象包括休斯顿火箭,洛杉矶湖人,奥兰多魔术,出现在多个句子:“...在1995年,奥兰多魔术队选择他...2012年8月10日,霍华德从奥兰多交易到洛杉矶湖人在一个交易...2013年7月5日,通过Twitter宣布,他打算签署与火箭...”。
上述示例清楚地表明,表达主体和对象之间的关系的自然语言的复杂性和丰富性远远超出了固定的手工制作的图案或特征的集合。
发明内容
本发明所要解决的技术问题是提供一种基于深度学习的结构化信息抽取方法。
本发明解决上述技术问题所采取的技术方案如下:
一种基于深度学习的结构化信息抽取方法,包括:
步骤1)采用远程监控来构建大规模标记数据,包括:
使用现有的维基百科提供远程监督来构建提取器;其中,签字,维基百科信息框包含关于实体的结构化事实,这些事实也在实体网页的自由文本部分中提及,使用在信息框中表达事实的句子作为训练数据;
步骤2)利用先验知识,其具有类型和短语信息,整合到结构化信息抽取模型中;其中,自然语言句子中的单词的标签与其先前的单词及其连续的单词相关;
步骤3)使用双向隐藏的LSTM层来利用过去和未来的输入特征;将每个句子以序列的形式输入一个双向的LSTM模型中;
步骤4)最终输出标记序列,其具有真或假标记,且具有与输入单词序列相等的长度。
优选的是,步骤1),具体包括:
对于谓词“A”,将维基百科的信息框中存在该谓词的实体筛选出来;
然后取出这些实体的描述文本,将其各自对应的回答语句或者词语“B”在文本中标记出来;
最终制成对于谓词“A”的结构化信息抽取器的训练数据,其中,A可为任何谓词。
优选的是,步骤2),具体包括:
例如,对于文本中出现的回答语句或者词语“B”,除了传统的词向量表示之外,再会加上一个标记,来表示这是一个短语,“B1/1·B2/2”;
除此之外,对于文本中出现的实体,也会标注其类型信息,并形成有多个标签。
优选的是,步骤4),具体包括:
针对某一语句,获取其语句中包括的词语,并对词语进行标注,其中,其中标记0为假,即不是我们要抽取的信息,标记1为真,即是我们要抽取的信息。
优选的是,步骤1),具体包括:
假设我们构造谓词p的训练数据集。我们首先寻找在其信息框中出现p的实体;从信息框中,我们首先找到实体s的p的对象o,然后,在提到o的维基百科文章页面中的大多数句子表示关系<s,p,o>在某种程度上,这些句子中任何出现的o都标记为1,任何其他的标记都标记为0。
优选的是,步骤1),只在自由文本中标记第一段以限制搜索空间。如果第一段超过200字,只需截断它们;
如果第一段不包含o的出现,我们就跳过它。因此,每个实体以及标记的第一段是标记的样本,由此得到的样品仅含有表达p的实例。
优选的是,步骤1),随机选择表达另一个谓词的积极实例的段落作为负实例;
令<s,t>,其中s是实体,t是其标记的第一段,是除了p之外的谓词的肯定实例;
将段落t中每个标记的标签改为0,并将s以及重新标记的t作为p的负样本,重复上面的抽样过程,直到负实例的数量等于正实例。
优选的是,步骤3)中,LSTM模型中,前向层和后向层都包含128个LSTM单元,每个向前单元的内容由以下一组公式详细阐述:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) (4)
Figure BDA0001242385900000041
Figure BDA0001242385900000042
其中σ是对数sigmoid函数,i,f,o和c分别是输入门(input gate),忘门(forgetgate),输出门(output gate)和单元激活向量(cell activation vector);
后向层的输出
Figure BDA0001242385900000043
由类似的方程计算,唯一的区别是序列顺序被颠倒,即,等式4中的下标t-1被替换为t+1。此外,Bi-LSTM层被堆叠2次以构建更深的网络。对于每个输入单词,LSTM层的输出是前向和后向LSTM层输出的连接:
Figure BDA0001242385900000044
优选的是,步骤4)中,具体包括:
令堆叠Bi-LSTM的最终输出为Lt *,使用S形函数σ来导出第t个标记的分数:
Figure BDA0001242385900000045
将yt大于阈值α的任何标记标记为真,在一个句子中,多个标记可能被标记为真,将对应于连续的真标记的令牌的序列的任何短语用作对象。
优选的是,还设计一个目标函数来训练我们的模型,具体包括:
Figure BDA0001242385900000051
本发明基于深度学习的方法,构造大量标记的自由文本,训练深度神经网络模型,进而实现在更多未知自由文本上的结构化信息的抽取。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明基于深度学习的结构化信息抽取方法的示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
具体来说,近年来,深度学习被证实在自然语言处理(NLP)问题里有着很强的适用性。早在21世纪初,基于神经网络的语言模型被提出,开创了深度学习应用于自然语言处理任务的先河。接着,研究表明基于卷积神经网络(convolutional neural network)的深度学习在词性标注(part-of-speech tagging),分块(chunking)以及命名实体识别(namedentity recognizing)等众多自然语言处理任务里有着卓越的表现。再后来,随着循环神经网络(recurrent neural network)的普及,深度学习在NLP问题里有了更好的表现,并且在诸如机器翻译(machine translation)等更多的领域有了更广泛的应用。
近年的很多研究已经证明LSTM-RNN在建模和处理复杂信息方面是有效的,并且在诸如机器翻译,情绪分析和其他一些自然语言处理任务中实现了最好的结果。然而,使用LSTM-RNN进行信息提取还没有得到很好的研究。
由此,本发明构建了一个端到端系统,以提取大量实体及其基于深中性网络的谓词的SPO三元组。一些开创性的努力致力于在相关任务中建立深度学习模型,如关系分类,从文本中提取关系。虽然这些解决方案可以用于生成SPO三元组,但是大多数这些解决方案集中在对于给定对实体的关系的提取。相反,我们专注于对实体和其谓词之一的对象的提取。另一个区别是,这些解决方案中的大多数仅关注于从文本中提取关系,而不知道关于当前知识库中广泛存在的关系实例的先前知识。因此,当它们用作构建大型知识图谱的构建块时,它们的性能仍然有限。相比之下,我们采用远程监管框架,完全使用现有关系实例来构建标记数据,这确保我们的模型具有比其他模型更好的性能。
其中,一种基于深度学习的结构化信息抽取方法,包括:
步骤1)采用远程监控来构建大规模标记数据,包括:
使用现有的维基百科提供远程监督来构建提取器;其中,签字,维基百科信息框包含关于实体的结构化事实,这些事实也在实体网页的自由文本部分中提及,使用在信息框中表达事实的句子作为训练数据;
步骤2)利用先验知识,其具有类型和短语信息,整合到结构化信息抽取模型中;其中,自然语言句子中的单词的标签与其先前的单词及其连续的单词相关;
步骤3)使用双向隐藏的LSTM层来利用过去和未来的输入特征;将每个句子以序列的形式输入一个双向的LSTM模型中;
步骤4)最终输出标记序列,其具有真或假标记,且具有与输入单词序列相等的长度。
优选的是,步骤1),具体包括:
对于谓词“A”,将维基百科的信息框中存在该谓词的实体筛选出来;
然后取出这些实体的描述文本,将其各自对应的回答语句或者词语“B”在文本中标记出来;
最终制成对于谓词“A”的结构化信息抽取器的训练数据,其中,A可为任何谓词。
优选的是,步骤2),具体包括:
例如,对于文本中出现的回答语句或者词语“B”,除了传统的词向量表示之外,再会加上一个标记,来表示这是一个短语,“B1/1·B2/2”;
除此之外,对于文本中出现的实体,也会标注其类型信息,并形成有多个标签。
优选的是,步骤4),具体包括:
针对某一语句,获取其语句中包括的词语,并对词语进行标注,其中,其中标记0为假,即不是我们要抽取的信息,标记1为真,即是我们要抽取的信息。
优选的是,步骤1),具体包括:
假设我们构造谓词p的训练数据集。我们首先寻找在其信息框中出现p的实体;从信息框中,我们首先找到实体s的p的对象o,然后,在提到o的维基百科文章页面中的大多数句子表示关系<s,p,o>在某种程度上,这些句子中任何出现的o都标记为1,任何其他的标记都标记为0。
优选的是,步骤1),只在自由文本中标记第一段以限制搜索空间。如果第一段超过200字,只需截断它们;
如果第一段不包含o的出现,我们就跳过它。因此,每个实体以及标记的第一段是标记的样本,由此得到的样品仅含有表达p的实例。
优选的是,步骤1),随机选择表达另一个谓词的积极实例的段落作为负实例;
令<s,t>,其中s是实体,t是其标记的第一段,是除了p之外的谓词的肯定实例;
将段落t中每个标记的标签改为0,并将s以及重新标记的t作为p的负样本,重复上面的抽样过程,直到负实例的数量等于正实例。
优选的是,步骤3)中,LSTM模型中,前向层和后向层都包含128个LSTM单元,每个向前单元的内容由以下一组公式详细阐述:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) (4)
Figure BDA0001242385900000081
Figure BDA0001242385900000082
其中σ是对数sigmoid函数,i,f,o和c分别是输入门(input gate),忘门(forgetgate),输出门(output gate)和单元激活向量(cell activation vector);
后向层的输出
Figure BDA0001242385900000083
由类似的方程计算,唯一的区别是序列顺序被颠倒,即,等式4中的下标t-1被替换为t+1。此外,Bi-LSTM层被堆叠2次以构建更深的网络。对于每个输入单词,LSTM层的输出是前向和后向LSTM层输出的连接:
Figure BDA0001242385900000084
优选的是,步骤4)中,具体包括:
令堆叠Bi-LSTM的最终输出为Lt *,使用S形函数σ来导出第t个标记的分数:
Figure BDA0001242385900000085
将yt大于阈值α的任何标记标记为真,在一个句子中,多个标记可能被标记为真,将对应于连续的真标记的令牌的序列的任何短语用作对象。
优选的是,还设计一个目标函数来训练我们的模型,具体包括:
Figure BDA0001242385900000086
本发明基于深度学习的方法,构造大量标记的自由文本,训练深度神经网络模型,进而实现在更多未知自由文本上的结构化信息的抽取。
更具体地说,本发明涉及以下的工作原理和过程:
训练数据生成:
构建有效提取器的先决条件是大量高质量的训练数据。不幸的是,这种标记数据总是生产昂贵,因此数量有限。在本节中,我们采用远程监控来构建大规模标记数据。基本思想是使用现有的知识库(具体来说,我们使用维基百科)提供远程监督来构建提取器。维基百科信息框包含关于实体的许多结构化事实,并且许多这些事实也在实体网页的自由文本部分中提及。因此,我们可以使用在信息框中表达事实的句子作为训练数据。
假设我们构造谓词p的训练数据集。我们首先寻找在其信息框中出现p的实体。让我们成为这样的实体之一。从信息框,我们首先找到实体s的p的对象o。然后,在提到o的维基百科文章页面中的大多数句子表示关系<s,p,o>在某种程度上。这些句子中任何出现的o都标记为1,任何其他的标记都标记为0.我们只在自由文本中标记第一段以限制搜索空间。如果第一段超过200字,我们只需截断它们。如果第一段不包含o的出现,我们就跳过它。因此,每个实体以及标记的第一段是标记的样本。
很容易看出,通过上述方法得到的样品仅含有表达p的“阳性”实例。然而,即使在文本中出现o,情况也不总是这样。例如,<加利福尼亚州好莱坞>可以是“出生地”和“死亡地”的对象。因此,我们仍然需要非平凡的负面实例来指导提取者学习该语言是否讨论除了p之外的事实。为此,我们随机选择表达另一个谓词的积极实例的段落作为负实例。令<s,t>(其中s是实体,t是其标记的第一段)是除了p之外的谓词的肯定实例。我们将段落t中每个标记的标签改为0,并将s以及重新标记的t作为p的负样本。我们重复上面的抽样过程,直到负实例的数量等于正实例。
注意,上述标记过程可能遇到由自然语言的复杂性导致的一些困难的情况。首先,一些提到o的句子可能表示p以外的关系。第二,o可能在infobox和自由文本中有不同的表达式,这使得确切的字符串匹配能够识别o在某些情况下失败。然而,维基百科包含数千万个实体,这允许我们构建一个足够大的标签数据,即使复杂的情况发生或多或少。
基于长短期记忆复发神经网络(LSTM-RNN)的信息抽取模型:
我们的模型的一个显着特点是,我们的模型可以充分利用先验知识,如类型和短语信息,这对提取有很大的影响,但常常被传统的IE模型忽略。接下来,我们将介绍如何将先验知识整合到我们的模型中。我们在下面描述我们的模型。
1.单词表示
输入文本被视为单词序列。为了将单词序列馈送到RNN模型,我们需要每个单词的向量表示。我们对输入单词中的每个单词使用混合表示序列,以覆盖尽可能多的有用的知识库建设信息。该表示由三个部分组成:字嵌入向量(V),短语信息(P),类型信息(T)。具体来说,第t个单词的表示是三个组件的连接:
xt=concat(Vt,Pt,Tt) (1)
显然,我们可以轻松扩展模型以集成更多其他信息。接下来,我们详细说明上述表示中的每个组件。
2.词嵌入向量(Vt)
Vt表示文字词信息。它是从随机初始化的嵌入矩阵E∈RN×50产生的,其中N是单词字典的大小。假设vt是具有大小的一热矢量,N的第t个单词,则用下一个等式计算字嵌入向量。
Figure BDA0001242385900000101
3.短语信息(Pt)
我们注意到,三元组中的许多对象实际上是多字词短语。如果模型不知道短语,我们的模型将很容易预测正确答案的片段。使模型意识到短语的理想解决方案是为深层学习结构中的短语识别特别注入若干层。然而,更深的层通常需要更多的训练数据,这不幸地在我们的情况下不成立。因此,我们改为重新组合句子,并将短语信息反馈到我们的模型中。
具体来说,我们首先通过从字典查找来检测短语。对于每个谓词p,我们通过收集p的所有对象来构建相应的字典。如果可以从字典中找到短语,则我们标记短语中具有BIO标记的单词以指示短语的乞讨(B)和结束(最后一个I)。然后我们使用第t个单词的BIO标记作为输入Pt,它是指示BIO标记的3-维一热向量。
注意,最原始的编码单元是单词,并且我们将每个字而不是短语作为单词。原因是,短语空格明显大于词的空格,并且单词的数量与参数空间成比例(N≥50)。因此,直接编码短语需要显着更多的训练样本以确保所得模型的有效性。
4.类型信息
类型信息主体(或实体)的类型显然是构建有效提取器的重要信息。例如,为某人找到“导演”是无意义的。这促使我们添加实体类型作为输入,以便模型知道实体的域。我们将每个类型c表示为30维向量(即,Tc∈R30)。实体可能有多个有效类型。例如,LeonardoDicaprio是一个艺术家,人。因此,我们首先找到在DBpedia中具有最大频率的实体的前五种类型。然后,我们通过max-pooling在所有e的前五种类型之上的类型嵌入导出实体e的类型表示:
Te=MaxPool(Tc1,Tc2…) (3)
其中每个ci是前五个类型之一。每种类型的嵌入将由我们的模型训练。我们使用Te作为e的描述文本中的每个标记的类型表示。也就是说,我们在公式1中设置Tt=te
5.Bi-LSTM层
上一步中导出的每个标记的表示现在被馈送到LSTM复现神经网络中。显然,自然语言句子中的单词的标签与其先前的单词及其连续的单词相关。这促使我们使用双向隐藏的LSTM层来利用过去和未来的输入特征。我们的实验还证明它比单向前或单向后向LSTM更好。
前向层和后向层都包含128个LSTM单元。在图的右上方详细展示了单个单元。每个向前单元的内容由以下一组公式详细阐述:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) (4)
Figure BDA0001242385900000111
Figure BDA0001242385900000112
其中σ是对数sigmoid函数,i,f,o和c分别是输入门(input gate),忘门(forgetgate),输出门(output gate)和单元激活向量(cell activation vector)。后向层的输出
Figure BDA0001242385900000113
由类似的方程计算。唯一的区别是序列顺序被颠倒,即,等式4中的下标t-1被替换为t+1。此外,Bi-LSTM层被堆叠2次以构建更深的网络。对于每个输入单词,LSTM层的输出是前向和后向LSTM层输出的连接:
Figure BDA0001242385900000121
6.输出
我们的最终输出是标记序列(具有真或假标记),其具有与输入令牌序列相等的长度。接下来,我们详细说明导出此序列的过程。令堆叠Bi-LSTM的最终输出为Lt *(由等式5导出)。我们使用S形函数σ来导出第t个标记的分数:
Figure BDA0001242385900000122
我们将yt大于阈值α的任何标记标记为真。在一个句子中,多个标记可能被标记为真。将对应于连续的真标记的令牌的序列的任何短语用作对象。在某些情况下,我们的模型可能生成多个这样的短语。在这些情况下,我们的模型认为实体和谓词的对应该有多个对象。
7.损失函数
我们仍然需要一个目标函数来训练我们的模型。我们使用在二分类问题里
Figure BDA0001242385900000123
我们的最终目标是同时提取不同谓词和不同实体与语料库的事实。为了实现这个目标,我们为每个谓词构建一个提取器。令p∈P,谓词p的提取器Ep接受实体s以及描述实体作为输入的一段文本,并产生标记的文本串作为输出。标签(0或1)用于指示字符串中的标记是否是谓词对象的一部分。
构建有效抽取器的挑战在于自然语言的特性和特征提取所需的昂贵的人力工作。在这项技术里,我们将构建基于长短期记忆复发神经网络(LSTM-RNN)的抽取器。抽取器的结构如图1所示。此外,由于深度学习的基础是大量已标注的数据,我们首先将阐述如何自动构建足够的标记数据来训练模型。
我们认为想LSTM-RNN可以是用于信息提取的强大工具,并且有潜力克服传统的信息抽取方法所遇到的障碍,原因如下。首先,给定标记数据,深度学习框架可以导出特征和表示,这节省了特征工程在大规模,多谓词信息提取中的成本。第二,LSTM-RNN可以更好地处理长距离依赖,并且能够泛化自然语言的语法模式。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度学习的结构化信息抽取方法,包括:
步骤1)采用远程监控来构建大规模标记数据,包括:
使用现有的维基百科提供远程监督来构建提取器;其中,维基百科信息框包含关于实体的结构化事实,这些事实也在实体网页的自由文本部分中提及,使用在信息框中表达事实的句子作为训练数据;
步骤2)利用先验知识,其具有类型和短语信息,整合到结构化信息抽取模型中;其中,自然语言句子中的单词的标签与其先前的单词及其连续的单词相关;
步骤3)使用双向隐藏的LSTM层来利用过去和未来的输入特征;将每个句子以序列的形式输入一个双向的LSTM模型中;
步骤4)最终输出标记序列,其具有真或假标记,且具有与输入单词序列相等的长度。
2.根据权利要求1所述的基于深度学习的结构化信息抽取方法,其特征在于,步骤1),具体包括:
对于谓词“A”,将维基百科的信息框中存在该谓词的实体筛选出来;
然后取出这些实体的描述文本,将其各自对应的回答语句或者词语在文本中标记出来;
最终制成对于谓词“A”的结构化信息抽取器的训练数据,其中,A可为任何谓词。
3.根据权利要求1所述的基于深度学习的结构化信息抽取方法,其特征在于,步骤2),具体包括:
对于文本中出现的回答语句或者词语“B”,除了传统的词向量表示之外,再会加上一个标记,来表示这是一个短语;
除此之外,对于文本中出现的实体,也会标注其类型信息,并形成有多个标签。
4.根据权利要求1所述的基于深度学习的结构化信息抽取方法,其特征在于,步骤4),具体包括:
针对某一语句,获取其语句中包括的词语,并对词语进行标注,其中,标记0为假,即不是要抽取的信息,标记1为真,即是要抽取的信息。
5.根据权利要求1所述的基于深度学习的结构化信息抽取方法,其特征在于,步骤1),具体包括:
假设构造谓词p的训练数据集,首先寻找在其信息框中出现p的实体;从信息框中,首先找到对象o,然后,在提到o的维基百科文章页面中的大多数句子表示关系<s,p,o>,这些句子中任何出现的o都标记为1。
6.根据权利要求1所述的基于深度学习的结构化信息抽取方法,其特征在于,步骤3)中,LSTM模型中,前向层和后向层都包含128个LSTM单元,每个向前单元的内容由以下一组公式详细阐述:
Figure FDA0002295729260000021
其中σ是对数sigmoid函数,i,f,o和c分别是输入门(input gate),忘门(forgetgate),输出门(output gate)和单元激活向量(cell activation vector);
后向层的输出
Figure FDA0002295729260000022
由类似的方程计算,唯一的区别是序列顺序被颠倒,即,等式4中的下标t-1被替换为t+1,此外,Bi-LSTM层被堆叠2次以构建更深的网络,对于每个输入单词,LSTM层的输出是前向和后向LSTM层输出的连接:
Figure FDA0002295729260000023
7.根据权利要求6所述的基于深度学习的结构化信息抽取方法,其特征在于,步骤4)中,具体包括:
令堆叠Bi-LSTM的最终输出为Lt *,使用S形函数σ来导出第t个标记的分数:
Figure FDA0002295729260000024
将yt大于阈值α的任何标记标记为真,在一个句子中,多个标记可能被标记为真,将对应于连续的真标记的令牌的序列的任何短语用作对象。
8.根据权利要求7所述的基于深度学习的结构化信息抽取方法,其特征在于,还设计一个目标函数来训练我们的模型,具体包括:
使用在二分类问题里被广泛使用的二元交叉熵(binary cross entropy):
Figure FDA0002295729260000031
其中
Figure FDA0002295729260000032
是第t个标记的真实值,
Figure FDA0002295729260000033
是在训练数据生成阶段生成的。
CN201710139457.4A 2017-03-10 2017-03-10 一种基于深度学习的结构化信息抽取方法 Active CN106933804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710139457.4A CN106933804B (zh) 2017-03-10 2017-03-10 一种基于深度学习的结构化信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710139457.4A CN106933804B (zh) 2017-03-10 2017-03-10 一种基于深度学习的结构化信息抽取方法

Publications (2)

Publication Number Publication Date
CN106933804A CN106933804A (zh) 2017-07-07
CN106933804B true CN106933804B (zh) 2020-03-31

Family

ID=59432543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710139457.4A Active CN106933804B (zh) 2017-03-10 2017-03-10 一种基于深度学习的结构化信息抽取方法

Country Status (1)

Country Link
CN (1) CN106933804B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11481625B2 (en) * 2017-08-04 2022-10-25 Nokia Technologies Oy Artificial neural network
CN107526799B (zh) * 2017-08-18 2021-01-08 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法
CN107783960B (zh) * 2017-10-23 2021-07-23 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN107895037B (zh) * 2017-11-28 2022-05-03 北京百度网讯科技有限公司 一种问答数据处理方法、装置、设备和计算机可读介质
US10423828B2 (en) * 2017-12-15 2019-09-24 Adobe Inc. Using deep learning techniques to determine the contextual reading order in a form document
CN108763353B (zh) * 2018-05-14 2022-03-15 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
CN108959252B (zh) * 2018-06-28 2022-02-08 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN109119155B (zh) * 2018-07-03 2022-01-28 厦门大学 基于深度学习的icu死亡危险性评估系统
CN108984706A (zh) * 2018-07-06 2018-12-11 浙江大学 一种基于深度学习融合文本和结构特征的网页分类方法
CN111180076B (zh) * 2018-11-13 2023-09-05 零氪科技(北京)有限公司 一种基于多层语义分析的医疗信息提取方法
CN110297895B (zh) * 2019-05-24 2021-09-17 山东大学 一种基于自由文本知识的对话方法及系统
CN110263159B (zh) * 2019-05-28 2022-07-26 电子科技大学 一种基于单分类器多任务网络的隐式句间关系分析方法
CN110569353B (zh) * 2019-07-03 2023-04-07 重庆大学 一种基于注意力机制的Bi-LSTM的标签推荐方法
CN111460826B (zh) * 2020-03-31 2024-02-20 科大讯飞(苏州)科技有限公司 实体分类方法以及相关装置
CN111680163A (zh) * 2020-04-21 2020-09-18 国网内蒙古东部电力有限公司 一种面向电力科技成果的知识图谱可视化方法
CN113283243B (zh) * 2021-06-09 2022-07-26 广东工业大学 一种实体与关系联合抽取的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置
CN106294593A (zh) * 2016-07-28 2017-01-04 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN106294593A (zh) * 2016-07-28 2017-01-04 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置

Also Published As

Publication number Publication date
CN106933804A (zh) 2017-07-07

Similar Documents

Publication Publication Date Title
CN106933804B (zh) 一种基于深度学习的结构化信息抽取方法
Murdoch et al. Beyond word importance: Contextual decomposition to extract interactions from lstms
Prusa et al. Designing a better data representation for deep neural networks and text classification
CN110188147B (zh) 基于知识图谱的文献实体关系发现方法及系统
Maharjan et al. A multi-task approach to predict likability of books
CN105893485A (zh) 一种基于图书目录的专题自动生成方法
CN108038106B (zh) 一种基于上下文语义的细粒度领域术语自学习方法
CN113168499A (zh) 检索专利文档的方法
CN113196277A (zh) 用于检索自然语言文档的系统
Mozafari et al. BAS: an answer selection method using BERT language model
Abujar et al. An approach for bengali text summarization using word2vector
Kathuria et al. Real time sentiment analysis on twitter data using deep learning (Keras)
CN114881042A (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
Kalaivani et al. A review on feature extraction techniques for sentiment classification
Peng et al. Image to LaTeX with graph neural network for mathematical formula recognition
CN114254645A (zh) 一种人工智能辅助写作系统
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
US11741318B2 (en) Open information extraction from low resource languages
Gelman et al. A language-agnostic model for semantic source code labeling
Bhalekar et al. Generation of image captions using VGG and ResNet CNN models cascaded with RNN approach
CN113128199B (zh) 基于预训练语言模型与多重词信息嵌入的字向量生成方法
Rady et al. High dimensional autonomous computing on arabic language classification
Farhat et al. Ontology based semantic metadata extraction system for learning objects
CN114612826A (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质
CN105808522A (zh) 一种语义联想的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant