CN110196913A - 基于文本生成式的多实体关系联合抽取方法和装置 - Google Patents

基于文本生成式的多实体关系联合抽取方法和装置 Download PDF

Info

Publication number
CN110196913A
CN110196913A CN201910436234.3A CN201910436234A CN110196913A CN 110196913 A CN110196913 A CN 110196913A CN 201910436234 A CN201910436234 A CN 201910436234A CN 110196913 A CN110196913 A CN 110196913A
Authority
CN
China
Prior art keywords
word
vector
long term
shot
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910436234.3A
Other languages
English (en)
Inventor
鄂海红
宋美娜
肖思琪
牛佩晴
陈忠富
张文静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910436234.3A priority Critical patent/CN110196913A/zh
Publication of CN110196913A publication Critical patent/CN110196913A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种基于文本生成式的多实体关系联合抽取方法和装置,其中,方法包括:将待处理句子中的每个词用编码向量表示,得到每个词的词嵌入向量;对每个词的词嵌入向量进行特征抽取,获取每个词的高级特征表示向量;对高级特征表示向量进行解码,在每个时刻生成目标实体或关系词,以获取生成序列,生成序列中每个连续3个时刻生成的词构成一组实体关系三元组。该方法通过将实体关系抽取任务转化为文本生成任务,将实体及关系词作为目标文本生成,并生成一组或多组关系三元组,以此实现实体和关系的联合抽取,实体可以重复出现在多个三元组中,解决了实体重叠及多关系下实体关系抽取问题。

Description

基于文本生成式的多实体关系联合抽取方法和装置
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种基于文本生成式的多实体关系联合抽取方法和装置。
背景技术
随着互联网技术的快速发展,信息呈爆炸式增长,如何准确高效地从这些文本中抽取出有效信息成为一个亟需解决的需求。实体关系抽取作为自然语言处理领域和信息抽取领域的核心任务之一,是从非结构化或者半结构化的文本中,通过关系抽取技术,提取事实类信息,如指定的实体、关系等,并以结构化的形式保存下来,同时作为优化搜索引擎、建立知识图谱、开发智能问答系统等应用的基础工作,受到了学术界和工业界的广泛关注,并在新闻、生物医药、金融、电子商务等许多领域中都进行了相关研究和应用。
相关技术中,主要针对一句话内简单情况进行讨论,并没有充分考虑实际文本(如新闻报道、电子文稿等)中存在的复杂情况。但是,目前大多数数据源以新闻报道、互联网文本等非结构化形式存在,句子内通常包含多关系(句子内包含多个关系三元组)及实体重叠(一个实体存在于多个关系三元组中)的场景。因此如何准确得抽取出句子内包含的多个有效实体及关系信息是当下面临的一个重要挑战。
发明内容
本申请提出一种基于文本生成式的多实体关系联合抽取方法和装置,用于解决相关技术中现实场景下语料包含的多关系及实体重叠的实体关系抽取问题。
本申请一方面实施例提出了一种基于文本生成式的多实体关系联合抽取方法,包括:
将待处理句子中的每个词用编码向量表示,得到每个词的词嵌入向量;
对每个词的词嵌入向量进行特征抽取,获取每个词的高级特征表示向量;
对所述高级特征表示向量进行解码,在每个时刻生成目标实体或关系词,以获取生成序列,所述生成序列中每个连续3个时刻生成的词构成一组实体关系三元组。
本申请实施例的基于文本生成式的多实体关系联合抽取方法,通过将实体关系抽取任务转化为文本生成任务,将实体及关系词作为目标文本生成,并生成一组或多组关系三元组,以此实现实体和关系的联合抽取,实体可以重复出现在多个三元组中,解决了实体重叠及多关系下实体关系抽取问题。
作为本申请一方面实施例一种可能的实现方式,所述将待处理句子中的每个词用编码向量表示之前,还包括:
对所述待处理句子进行预处理,所述预处理包括分词和去除停用词。
作为本申请一方面实施例一种可能的实现方式,所述将待处理句子中的每个词用编码向量表示,得到每个词的词嵌入向量,包括:
将待处理句子中的每个词通过其对应的标识,映射为固定维度的词向量表示,得到每个词的词嵌入向量。
作为本申请一方面实施例一种可能的实现方式,所述编码器为双向长短期记忆网络,所述双向长短期记忆网络包括:前向长短期记忆网络和后向长短期记忆网络,所述将每个词的词嵌入向量通过编码器编码进行特征抽取,获取每个词的高级特征表示向量,包括:
分别用前向长短期记忆网络和后向长短期记忆网络,对每个词的词嵌入向量进行编码;
将每个词对应的所述前向长短期记忆网络输出的向量,与所述后向长短期记忆网络输出的向量进行拼接,获取每个词的隐藏编码向量,所述隐藏编码向量包含上下文语义信息。
作为本申请一方面实施例一种可能的实现方式,所述解码器为单向长短期记忆网络。
本申请另一方面实施例提出了一种基于文本生成式的多实体关系联合抽取装置,包括:
词嵌入模块,用于将待处理句子中的每个词用编码向量表示,得到每个词的词嵌入向量;
特征抽取模块,用于对每个词的词嵌入向量进行特征抽取,获取每个词的高级特征表示向量;
生成模块,用于对所述高级特征表示向量进行解码,在每个时刻生成目标实体或关系词,以获取生成序列,所述生成序列中每个连续3个时刻生成的词构成一组实体关系三元组。
本申请实施例的基于文本生成式的多实体关系联合抽取装置,通过将实体关系抽取任务转化为文本生成任务,将实体及关系词作为目标文本生成,并生成一组或多组关系三元组,以此实现实体和关系的联合抽取,实体可以重复出现在多个三元组中,解决了实体重叠及多关系下实体关系抽取问题。
作为本申请另一方面实施例一种可能的实现方式,该装置还包括:
预处理模块,用于对所述待处理句子进行预处理,所述预处理包括分词和去除停用词。
作为本申请另一方面实施例一种可能的实现方式,所述词嵌入模块,具体用于:
将待处理句子中的每个词通过其对应的标识,映射为固定维度的词向量表示,得到每个词的词嵌入向量。
作为本申请另一方面实施例一种可能的实现方式,利用双向长短期记忆网络进行特征抽取,所述双向长短期记忆网络包括:前向长短期记忆网络和后向长短期记忆网络,所述特征抽取模块,具体用于:
分别用所述前向长短期记忆网络和所述后向长短期记忆网络,对每个词的词嵌入向量进行编码;
将每个词对应的所述前向长短期记忆网络输出的向量,与所述后向长短期记忆网络输出的向量进行拼接,获取每个词的隐藏编码向量,所述隐藏编码向量包含上下文语义信息。
作为本申请另一方面实施例一种可能的实现方式,所述生成模块利用单向长短期记忆网络进行解码。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种基于文本生成式的多实体关系联合抽取方法的流程示意图;
图2为本申请实施例提供的实体关系抽取模型框架示意图;
图3为本申请实施例提供的另一种基于文本生成式的多实体关系联合抽取的流程示意图;
图4为本申请实施例提供的一种基于文本生成式的多实体关系联合抽取装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于文本生成式的多实体关系联合抽取方法和装置。
图1为本申请实施例提供的一种基于文本生成式的多实体关系联合抽取方法的流程示意图。
本申请实施例的基于文本生成式的多实体关系联合抽取方法,是通过实体关系抽取模型实现的。其中,实体关系抽取模型包括词嵌入层、编码器和解码器,其中,编码器为特征抽取层。后续会对该模型进行详细阐述。
如图1所示,该基于文本生成式的多实体关系联合抽取方法包括:
步骤101,将待处理句子中的每个词用编码向量表示,得到每个词的词嵌入向量。
本实施例中,可以根据标点符号对原始语料进行分句,经过分句处理后的句子,可以作为待处理句子。这里的是原始语料可以从非结构化或者半结构化的文本。
本实施例中,可通过实体关系抽取模型中的词嵌入层得到每个词的词嵌入向量,具体地,对每个待处理句子,可以将待处理句子中的每个词通过其对应的标识,映射为固定维度的词向量表示,得到每个词的词嵌入向量。其中,待处理句子中每个词具有唯一的标识,每个词对应的标识可以是该词在词表中的位置编号。
具体而言,将待处理句子中的词转换为其所对应的标识(每个词具有一个唯一的标识),然后根据每个词的标识在词向量矩阵中映射为固定维度的词向量表示。其中,词向量矩阵可以通过Skip-gram或C-bow等方法预训练得到,或者在实体关系抽取模型初始化时随机生成,并随着实体关系抽取模型的训练过程进行参数的更新。通过预训练的方法得到的词向量矩阵,可以在一定程度上表达词与词之间的相似度关系,因此可采用预训练的方式获取词向量矩阵。
为了提高实体关系抽取的准确率,在对待处理句子的每个词用编码向量表示之前,可先进行预处理,如进行分词、去除停用词等数据预处理工作。
步骤102,对每个词的词嵌入向量进行特征抽取,获取每个词的高级特征表示向量。
本实施例中,将每个词的词嵌入向量进一步通过实体关系抽取模型中的特征抽取层进行编码来获取更高级的特征表示向量,即获取每个词的隐藏编码向量。在具体实现时,可以采用双向长短期记忆网络(Bidirectional Long Short-Term Memory,简称Bi-LSTM)作为特征抽取层,由此得到的每个词的隐藏编码向量可以包含该词的上下文中的语义信息。
长短期记忆网络(Long Short-Term Memory,简称LSTM)能够解决传统循环神经网络(Recurrent Neural Network,简称RNN)无法处理长期依赖的问题,同时避免了梯度消失和梯度爆炸。
本实施例中,Bi-LSTM包括:前向LSTM和后向LSTM。在进行特征抽取时,分别用前向LSTM和后向LSTM,对每个词的词嵌入向量进行编码,然后将每个词对应的前向LSTM输出的向量与后向LSTM输出的向量进行拼接,由此获取每个词的隐藏编码向量。其中,隐藏编码向量包含上下文语义信息。
也就是说,Bi-LSTM由两个分开的LSTM层构成,这两层分别从不同的方向进行编码:前向(从左至右)和后向(从右至左),并将两层的输出拼接起来作为最终的隐藏编码向量。因此,通过Bi-LSTM得到的每个词的特征向量隐藏编码向量,能够包含其上下文的语义信息,使每个词都能获得更高级的编码向量表示。
步骤103,对所述高级特征表示向量进行解码,在每个时刻生成目标实体或关系词,以获取生成序列,生成序列中每个连续3个时刻生成的词构成一组实体关系三元组。
本实施例中,通过实体关系抽取模型中的解码器对高级特征表示向量进行解码,解码器在每个时刻生成目标实体或关系词,在本申请中可约束解码器每3个时刻为一组来生成关系三元组。具体的,在第3n+1时刻生成关系,在3n+2时刻生成第一个实体,在3n+3时刻生成第二个实体。
在实际应用中,可设定0≤n≤19,由此设定解码器最多包含60步,即最多可生成20个关系三元组。
由于每个解码步之间存在一定的影响,为了使从前向后的顺序影响关系能够随时刻传播,本申请可采用单向LSTM作为解码器实现实体和关系的联合生成。
在解码阶段可以生成多个关系三元组,实体可以重复出现在多个三元组中,具有解决实体重叠及多关系等复杂场景下的实体关系抽取能力。
下面结合图2对上述提到的实体关系抽取模型进行详细阐述。图2为本申请实施例提供的实体关系抽取模型框架示意图。
本申请实施例的实体关系抽取模型融合了词嵌入部分、特征抽取部分以及生成部分等三部分。
本申请中的实体关系抽取模型采用带有指针的Sequence-to-Sequence框架。Sequence-to-Sequence是一种从序列到序列的转换模型框架,一般是通过Encoder-Decoder(编码-解码)框架实现。指针可以理解为是实体关系抽取模型在每一个解码时刻在源文本上计算的概率分布,以选择在当前时刻最有可能从源文本中‘复制’的词。
实体关系抽取模型的目标是根据源文本中的具体情况来生成一组或多组关系三元组,同时允许实体重复出现,模型通过指针可以从源文本中复制词,例如实体信息,也可以从预定义的词表中生成词,例如关系表示词。实体关系抽取模型采用Bi-LSTM作为编码器,解码器采用单向LSTM结合Attention机制来生成每个时刻的词。
同时,本申请还利用一个生成概率Pgen来选择当前解码时刻具有更大的概率从源输入中复制词,还是更有可能从词表中生成词。根据待处理句子输入中的具体情况,来生成一组或多组关系三元组,进而实现实体及关系的联合抽取,实体可以重复出现在多个三元组中,通过这个方式解决实体重叠、多关系的抽取问题。
在图2中,实体关系抽取模型直接以句子分词的结果作为输入,无需任何附加的人工特征工程。如图2所示,下方的矩形框为实体关系抽取模型的编码器,右侧矩形框为解码器,编码器上方高度不同的矩形为某一具体解码时刻在隐藏编码向量上计算的注意力权重,隐藏编码向量的加权和称为上下文向量(context vector),由上下文向量、生成概率Pgen、词表概率分布(vocabulary distribution)共同计算得到最终概率分布(finaldistribution),最终概率分布是待处理句子中每个词和词表中每个词对应的概率构成的概率分布,从最终概率分布中选取概率最大的词作为当前时刻的输出。比如,某解码时刻得到的最终概率分布中最大概率为0.92,对应的词为“Oakland”,则词“Oakland”为当前时刻的输出。
例如,针对源输入‘John,23,who lives in Oakland,California.’,实体关系抽取模型的同时生成这句话内包含的两个关系三元组,即关系‘lived_in’所对应的实体对‘John,Okaland’以及关系‘contains’所对应的实体对‘California,Okaland’。
下面分别描述词嵌入层、Bi-LSTM编码器和解码器。
对于词嵌入层,给定一个句子s=[w1,w2,...,wn],wi代表长度为n的句子中的第i个词,首先通过词嵌入层将具有onehot编码的词转换为词向量矩阵,得到e=[x1,x2,...,xn],xi∈Rd代表第i个词的词嵌入向量。词嵌入矩阵最开始是随机初始化得到的,然后随着实体关系抽取模型的训练更新矩阵内的参数。
这里,onehot可以理解为一个向量,长度等于所有词的个数(词表的长度),每个onehot编码只有唯一的一位为1(这个位置是词在词表中的位置,因此是唯一的),其余为0。因此,每个词的onehot编码可以唯一标识每个词。
本实施例中,将Bi-LSTM作为特征抽取层,Bi-LSTM包括前向LSTM和后向LSTM。由于LSTM相比传统的RNN能够处理序列中的长期依赖问题,实体关系抽取模型采用Bi-LSTM使用两个分开的LSTM结构分别从两个方向将词向量进一步编码。
具体地,前向LSTM层按照从x1到xn的顺序进行编码得到e=[x1,x2,...,xn]中每个词对应的向量,相对的,后向LSTM层按照从xn到x1的顺序进行编码得到e=[x1,x2,...,xn]中每个词对应的向量。然后,将每个词对应的从前向和后向编码对应的向量拼接,可以得到每个词的隐藏编码向量。
比如,表示按照从x1到xn的顺序编码时得到的第t个词的向量,表示按照从xn到x1的顺序进行编码时得到的第t个词的向量,那么连接作为序列中第t个词的最终编码向量表示即隐藏编码向量,表示为通过这种方式,每一个词最后的编码向量表示都可以包含其上下文的语义信息。
LSTM的结构包括三个门:遗忘门,输入门和输出门。其中,遗忘门控制从之前的细胞状态中丢弃多少信息,输入门控制有多少新的信息会更新到细胞状态中,输出门控制新的细胞状态有多少会被输出给下一个时刻。
本实施例中的解码器用来生成序列,可由单向LSTM网络构成,如公式(1)所示:
其中,cell为LSTM单元,为加权编码向量,在训练过程中,xt-1为目标输出序列中的前一个词的词向量;在测试阶段,它代表前一解码时刻中生成的词的词向量。st-1代表t-1解码时刻的隐藏状态。
在每个解码时刻,实体关系抽取模型采用Attention(注意力)机制来计算编码器中的每个隐藏向量对当前解码状态的影响权重,得到当前时刻的加权编码向量表示称为上下文向量,注意力权重也可以视为目标生成词在待处理句子上的一个概率分布。计算方法如公式(2)-(4)所示:
at=softmax(et) (3)
其中v、Wh、Ws及battn均为模型中的可学习参数,tanh和softmax是非线性激活函数,hi是编码器在时刻i获得的隐藏编码向量,也可称为隐藏编码状态,为了区分编码器和解码器的隐藏状态,解码器的隐藏状态也可以称为解码状态,st是解码器当前时刻的解码状态,是由当前解码状态st和隐藏编码状态hi计算得到的分数,经softmax激活函数归一化得到的权重。
上下文向量与隐藏解码状态相连输入到线性层中,计算在词表上的概率分布Pvocab,如公式(5)所示:
其中Wv、bv是模型中的可学习参数,st是当前时刻的解码状态,是加权编码向量,softmax是非线性激活函数。
同时,为了使实体关系抽取模型具有从源文本中复制词的能力,又能够保留实体关系抽取模型通过预定义的词表选择词的能力,我们在每个解码时刻由上下文向量解码状态st以及当前解码时刻的输入xt共同计算一个生成概率pgen,计算方式如公式(6)所示:
其中,当前解码时刻的输入xt是实体关系抽取模型前一刻的输出,是模型学习到的参数Wh、Ws、Wx的转置,pgen用来选择当前解码时刻生成的词,具有更大的概率从源文本中复制还是更有可能从预定义的词表中生成。最终根据pgen实体关系抽取模型获得一个基于预定义词表的混合概率分布P(w),计算公式如公式(7)所示:
实体关系抽取模型选择具有最大概率的词作为当前解码时刻生成的词。在测试阶段,这个词的词向量将会作为下一解码时刻的输出。
对于实体来说,实体关系抽取模型会倾向于从源输入中复制词,因此对于那些并没有出现在预定义的词表中的实体,实体关系抽取模型可具有正确识别的能力;对于关系表示词,实体关系抽取模型更倾向于从词表中进行选择。但是以上这些信息是由实体关系抽取模型在训练的过程中自主学习到的,实体关系抽取模型不会受到外界任何的约束条件影响。
下面来介绍实体关系抽取模型的训练和解码。
在训练阶段,给定一个具有B个句子的batch数据S={s1,s2,...,sb},它们对应的目标序列Y={y1,y2,...,yb},其损失函数采用负对数似然函数,定义如公式(8)所示。
解码阶段,模型采用集束搜索(BeamSearch)的思想来增加输出序列的准确性。BeamSearch的优点是在每一解码步模型都保留多个选择,以防局部最优解是不正确的,并且将所有的候选序列按照全局分数进行排序,通过这个方法避免错误的累积传播。
本申请实施例提出的基于编码器-解码器的多实体关系三元组的实体关系抽取模型,可以解决一句话内的实体重叠及多关系抽取问题,且编码器-解码器结构具有一定的扩展性,可以使用bert、强化学习等方法进行替代。
下面结合图3对本申请实施例的基于文本生成式的多实体关系联合抽取方法进行详细说明。图3为本申请实施例提供的另一种基于文本生成式的多实体关系联合抽取的流程示意图。
如图3所示,整个实体关系抽取流程分为4个部分:(1)预处理部分;(2)词嵌入部分;(3)特征抽取部分;(4)生成部分。
其中,预处理部分是对原始语料进行分割得到多个句子,再通过分词以对句子进行分割。
词嵌入部分是将句子中的每个词通过其对应的标识(每个词具有唯一的标识)映射到固定维度的词向量上形成初步的编码向量表示,即形成词嵌入向量。
特征抽取部分是将词嵌入向量进一步进行编码来获取更高级的特征表示向量,具体可以通过Bi-LSTM实现,通过这个部分之后得到的每个词的隐藏编码向量可以包含其上下文中的语义信息。
生成部分包括序列生成和关系抽取两个过程。序列生成过程可以通过指针生成网络实现,具体是由解码器在每一解码步中生成当前时刻的词,每一时刻生成的词可能是实体或关系表示词,由此得到生成序列,同时将生成序列中的每连续3个时刻生成的词构成一组实体关系三元组实现关系抽取,从而完成实体和关系的联合抽取工作。
为了实现上述实施例,本申请实施例还提出一种基于文本生成式的多实体关系联合抽取装置。图4为本申请实施例提供的一种基于文本生成式的多实体关系联合抽取装置的结构示意图。
如图4所示,该基于文本生成式的多实体关系联合抽取装置包括:
词嵌入模块410,用于将待处理句子中的每个词用编码向量表示,得到每个词的词嵌入向量;
特征抽取模块420,用于对每个词的词嵌入向量进行特征抽取,获取每个词的高级特征表示向量;
生成模块430,用于对所述高级特征表示向量进行解码,在每个时刻生成目标实体或关系词,以获取生成序列,生成序列中每个连续3个时刻生成的词构成一组实体关系三元组。
在本申请实施例一种可能的实现方式中,该装置还包括:
预处理模块,用于对所述待处理句子进行预处理,所述预处理包括分词和去除停用词。
在本申请实施例一种可能的实现方式中,上述词嵌入模块410,具体用于:
将待处理句子中的每个词通过其对应的标识,映射为固定维度的词向量表示,得到每个词的词嵌入向量。
在本申请实施例一种可能的实现方式中,利用双向长短期记忆网络进行特征抽取,双向长短期记忆网络包括:前向长短期记忆网络和后向长短期记忆网络,上述特征抽取模块420,具体用于:
分别用前向长短期记忆网络和后向长短期记忆网络,对每个词的词嵌入向量进行编码;
将每个词对应的前向长短期记忆网络输出的向量,与后向长短期记忆网络输出的向量进行拼接,获取每个词的隐藏编码向量,隐藏编码向量包含上下文语义信息。
在本申请实施例一种可能的实现方式中,上述生成模块430利用单向长短期记忆网络进行解码。
需要说明的是,上述对基于文本生成式的多实体关系联合抽取方法实施例的解释说明,也适用于该实施例的基于文本生成式的多实体关系联合抽取装置,故在此不再赘述。
本申请实施例的基于文本生成式的多实体关系联合抽取装置,通过将实体关系抽取任务转化为文本生成任务,将实体及关系词作为目标文本生成,并生成一组或多组关系三元组,以此实现实体和关系的联合抽取,实体可以重复出现在多个三元组中,解决了实体重叠及多关系下实体关系抽取问题。

Claims (10)

1.一种基于文本生成式的多实体关系联合抽取方法,其特征在于,包括:
将待处理句子中的每个词用编码向量表示,得到每个词的词嵌入向量;
对每个词的词嵌入向量进行特征抽取,获取每个词的高级特征表示向量;
对所述高级特征表示向量进行解码,在每个时刻生成目标实体或关系词,以获取生成序列,所述生成序列中每个连续3个时刻生成的词构成一组实体关系三元组。
2.如权利要求1所述的方法,其特征在于,所述将待处理句子中的每个词用编码向量表示之前,还包括:
对所述待处理句子进行预处理,所述预处理包括分词和去除停用词。
3.如权利要求1所述的方法,其特征在于,所述将待处理句子中的每个词用编码向量表示,得到每个词的词嵌入向量,包括:
将待处理句子中的每个词通过其对应的标识,映射为固定维度的词向量表示,得到每个词的词嵌入向量。
4.如权利要求1所述的方法,其特征在于,利用双向长短期记忆网络进行特征抽取,所述双向长短期记忆网络包括:前向长短期记忆网络和后向长短期记忆网络,所述对每个词的词嵌入向量进行特征抽取,获取每个词的高级特征表示向量,包括:
分别用所述前向长短期记忆网络和所述后向长短期记忆网络,对每个词的词嵌入向量进行编码;
将每个词对应的所述前向长短期记忆网络输出的向量,与所述后向长短期记忆网络输出的向量进行拼接,获取每个词的隐藏编码向量,所述隐藏编码向量包含上下文语义信息。
5.如权利要求1所述的方法,其特征在于,将单向长短期记忆网络作为解码器,对所述高级特征表示向量进行解码。
6.一种基于文本生成式的多实体关系联合抽取装置,其特征在于,包括:
词嵌入模块,用于将待处理句子中的每个词用编码向量表示,得到每个词的词嵌入向量;
特征抽取模块,用于对每个词的词嵌入向量进行特征抽取,获取每个词的高级特征表示向量;
生成模块,用于对所述高级特征表示向量进行解码,在每个时刻生成目标实体或关系词,以获取生成序列,所述生成序列中每个连续3个时刻生成的词构成一组实体关系三元组。
7.如权利要求6所述的装置,其特征在于,还包括:
预处理模块,用于对所述待处理句子进行预处理,所述预处理包括分词和去除停用词。
8.如权利要求6所述的装置,其特征在于,所述词嵌入模块,具体用于:
将待处理句子中的每个词通过其对应的标识,映射为固定维度的词向量表示,得到每个词的词嵌入向量。
9.如权利要求6所述的装置,其特征在于,利用双向长短期记忆网络进行特征抽取,所述双向长短期记忆网络包括:前向长短期记忆网络和后向长短期记忆网络,所述特征抽取模块,具体用于:
分别用所述前向长短期记忆网络和所述后向长短期记忆网络,对每个词的词嵌入向量进行编码;
将每个词对应的所述前向长短期记忆网络输出的向量,与所述后向长短期记忆网络输出的向量进行拼接,获取每个词的隐藏编码向量,所述隐藏编码向量包含上下文语义信息。
10.如权利要求6所述的装置,其特征在于,所述生成模块利用单向长短期记忆网络进行解码。
CN201910436234.3A 2019-05-23 2019-05-23 基于文本生成式的多实体关系联合抽取方法和装置 Pending CN110196913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910436234.3A CN110196913A (zh) 2019-05-23 2019-05-23 基于文本生成式的多实体关系联合抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910436234.3A CN110196913A (zh) 2019-05-23 2019-05-23 基于文本生成式的多实体关系联合抽取方法和装置

Publications (1)

Publication Number Publication Date
CN110196913A true CN110196913A (zh) 2019-09-03

Family

ID=67751606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910436234.3A Pending CN110196913A (zh) 2019-05-23 2019-05-23 基于文本生成式的多实体关系联合抽取方法和装置

Country Status (1)

Country Link
CN (1) CN110196913A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598005A (zh) * 2019-09-06 2019-12-20 中科院合肥技术创新工程院 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN111008279A (zh) * 2019-11-27 2020-04-14 云知声智能科技股份有限公司 一种实体关系抽取方法及装置
CN111199149A (zh) * 2019-12-17 2020-05-26 航天信息股份有限公司 一种对话系统的语句智能澄清方法及系统
CN111476023A (zh) * 2020-05-22 2020-07-31 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
CN111539211A (zh) * 2020-04-17 2020-08-14 中移(杭州)信息技术有限公司 实体及语义关系识别方法、装置、电子设备及存储介质
CN111597341A (zh) * 2020-05-22 2020-08-28 北京慧闻科技(集团)有限公司 一种文档级关系抽取方法、装置、设备及存储介质
CN111813896A (zh) * 2020-07-13 2020-10-23 重庆紫光华山智安科技有限公司 文本三元组关系识别方法、装置、训练方法及电子设备
CN111914097A (zh) * 2020-07-13 2020-11-10 吉林大学 基于注意力机制和多层级特征融合的实体抽取方法与装置
CN112069823A (zh) * 2020-09-17 2020-12-11 华院数据技术(上海)有限公司 信息处理方法和装置
CN112131401A (zh) * 2020-09-14 2020-12-25 腾讯科技(深圳)有限公司 一种概念知识图谱构建方法和装置
CN112183023A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 一种多关系抽取方法和终端
CN112287119A (zh) * 2020-06-23 2021-01-29 北京理工大学 一种在线资源相关信息抽取的知识图谱生成方法
WO2021063086A1 (zh) * 2019-09-30 2021-04-08 北京国双科技有限公司 一种三元组抽取方法、装置、设备及存储介质
CN112668336A (zh) * 2020-05-14 2021-04-16 北京金山数字娱乐科技有限公司 一种基于任务模型的词语处理方法
CN112905713A (zh) * 2020-11-13 2021-06-04 昆明理工大学 联合罪名预测的涉案新闻重叠实体关系抽取方法
CN113240443A (zh) * 2021-05-28 2021-08-10 国网江苏省电力有限公司营销服务中心 面向电力客服问答的实体属性对抽取方法和系统
WO2021159762A1 (zh) * 2020-09-08 2021-08-19 平安科技(深圳)有限公司 数据关系抽取方法、装置、电子设备及存储介质
CN113378571A (zh) * 2021-06-11 2021-09-10 广东工业大学 一种文本数据的实体数据关系抽取方法
CN113901151A (zh) * 2021-09-30 2022-01-07 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质
WO2022095354A1 (zh) * 2020-11-03 2022-05-12 平安科技(深圳)有限公司 基于bert的文本分类方法、装置、计算机设备及存储介质
CN114792092A (zh) * 2022-06-24 2022-07-26 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置
CN115250216A (zh) * 2022-07-19 2022-10-28 西安科技大学 一种基于深度学习的水声ofdm联合信道估计和信号检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
US20190005029A1 (en) * 2017-06-30 2019-01-03 Jpmorgan Chase Bank, N.A. Systems and methods for natural language processing of structured documents
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
US20190005029A1 (en) * 2017-06-30 2019-01-03 Jpmorgan Chase Bank, N.A. Systems and methods for natural language processing of structured documents
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ABIGAIL SEE等: "Get To The Point: Summarization with Pointer-Generator Networks", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
XIANGRONG ZENG ET AL: "Extracting relations Facts by an End-to-End neural model with copy mechanism", 《PROCEEDINGS OF THE 56TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
鄂海红等: "深度学习实体关系抽取研究综述", 《软件学报》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598005A (zh) * 2019-09-06 2019-12-20 中科院合肥技术创新工程院 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN110598005B (zh) * 2019-09-06 2022-08-16 中科院合肥技术创新工程院 一种面向公共安全事件的多源异构数据知识图谱构建方法
WO2021063086A1 (zh) * 2019-09-30 2021-04-08 北京国双科技有限公司 一种三元组抽取方法、装置、设备及存储介质
CN111008279B (zh) * 2019-11-27 2023-11-14 云知声智能科技股份有限公司 一种实体关系抽取方法及装置
CN111008279A (zh) * 2019-11-27 2020-04-14 云知声智能科技股份有限公司 一种实体关系抽取方法及装置
CN111199149A (zh) * 2019-12-17 2020-05-26 航天信息股份有限公司 一种对话系统的语句智能澄清方法及系统
CN111199149B (zh) * 2019-12-17 2023-10-20 航天信息股份有限公司 一种对话系统的语句智能澄清方法及系统
CN111539211A (zh) * 2020-04-17 2020-08-14 中移(杭州)信息技术有限公司 实体及语义关系识别方法、装置、电子设备及存储介质
CN112668336B (zh) * 2020-05-14 2024-01-09 北京金山数字娱乐科技有限公司 一种基于任务模型的词语处理方法
CN112668336A (zh) * 2020-05-14 2021-04-16 北京金山数字娱乐科技有限公司 一种基于任务模型的词语处理方法
CN111597341B (zh) * 2020-05-22 2024-01-26 北京慧闻科技(集团)有限公司 一种文档级关系抽取方法、装置、设备及存储介质
CN111597341A (zh) * 2020-05-22 2020-08-28 北京慧闻科技(集团)有限公司 一种文档级关系抽取方法、装置、设备及存储介质
CN111476023B (zh) * 2020-05-22 2023-09-01 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
CN111476023A (zh) * 2020-05-22 2020-07-31 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
CN112287119A (zh) * 2020-06-23 2021-01-29 北京理工大学 一种在线资源相关信息抽取的知识图谱生成方法
CN112287119B (zh) * 2020-06-23 2022-10-18 北京理工大学 一种在线资源相关信息抽取的知识图谱生成方法
CN111914097A (zh) * 2020-07-13 2020-11-10 吉林大学 基于注意力机制和多层级特征融合的实体抽取方法与装置
CN111813896A (zh) * 2020-07-13 2020-10-23 重庆紫光华山智安科技有限公司 文本三元组关系识别方法、装置、训练方法及电子设备
CN111813896B (zh) * 2020-07-13 2022-12-02 重庆紫光华山智安科技有限公司 文本三元组关系识别方法、装置、训练方法及电子设备
WO2021159762A1 (zh) * 2020-09-08 2021-08-19 平安科技(深圳)有限公司 数据关系抽取方法、装置、电子设备及存储介质
CN112131401B (zh) * 2020-09-14 2024-02-13 腾讯科技(深圳)有限公司 一种概念知识图谱构建方法和装置
CN112131401A (zh) * 2020-09-14 2020-12-25 腾讯科技(深圳)有限公司 一种概念知识图谱构建方法和装置
CN112069823A (zh) * 2020-09-17 2020-12-11 华院数据技术(上海)有限公司 信息处理方法和装置
CN112183023A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 一种多关系抽取方法和终端
WO2022095354A1 (zh) * 2020-11-03 2022-05-12 平安科技(深圳)有限公司 基于bert的文本分类方法、装置、计算机设备及存储介质
CN112905713A (zh) * 2020-11-13 2021-06-04 昆明理工大学 联合罪名预测的涉案新闻重叠实体关系抽取方法
CN112905713B (zh) * 2020-11-13 2022-06-14 昆明理工大学 联合罪名预测的涉案新闻重叠实体关系抽取方法
CN113240443B (zh) * 2021-05-28 2024-02-06 国网江苏省电力有限公司营销服务中心 面向电力客服问答的实体属性对抽取方法和系统
CN113240443A (zh) * 2021-05-28 2021-08-10 国网江苏省电力有限公司营销服务中心 面向电力客服问答的实体属性对抽取方法和系统
CN113378571A (zh) * 2021-06-11 2021-09-10 广东工业大学 一种文本数据的实体数据关系抽取方法
WO2023051142A1 (zh) * 2021-09-30 2023-04-06 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质
CN113901151A (zh) * 2021-09-30 2022-01-07 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质
CN114792092B (zh) * 2022-06-24 2022-09-13 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置
CN114792092A (zh) * 2022-06-24 2022-07-26 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置
CN115250216A (zh) * 2022-07-19 2022-10-28 西安科技大学 一种基于深度学习的水声ofdm联合信道估计和信号检测方法

Similar Documents

Publication Publication Date Title
CN110196913A (zh) 基于文本生成式的多实体关系联合抽取方法和装置
US11501182B2 (en) Method and apparatus for generating model
Zhang et al. Understanding subtitles by character-level sequence-to-sequence learning
CN107357789B (zh) 融合多语编码信息的神经机器翻译方法
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN111563146B (zh) 一种基于推理的难度可控问题生成方法
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN112784604A (zh) 一种基于实体边界网络的实体链接方法
CN111523420A (zh) 基于多任务深度神经网络的表头分类与表头列语义识别方法
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN115759042A (zh) 一种基于句法感知提示学习的句子级问题生成方法
CN116484879A (zh) 提示信息的生成方法、装置、电子设备及存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114970503A (zh) 一种基于预训练的字音字形知识增强的中文拼写纠正方法
Gao et al. Generating natural adversarial examples with universal perturbations for text classification
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN115935957A (zh) 一种基于句法分析的句子语法纠错方法及系统
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113887251A (zh) 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及系统
CN115309886A (zh) 基于多模态信息输入的人工智能文本创作方法
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination