CN111160008B - 一种实体关系联合抽取方法及系统 - Google Patents

一种实体关系联合抽取方法及系统 Download PDF

Info

Publication number
CN111160008B
CN111160008B CN201911308937.4A CN201911308937A CN111160008B CN 111160008 B CN111160008 B CN 111160008B CN 201911308937 A CN201911308937 A CN 201911308937A CN 111160008 B CN111160008 B CN 111160008B
Authority
CN
China
Prior art keywords
word
entity
vector
extraction
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911308937.4A
Other languages
English (en)
Other versions
CN111160008A (zh
Inventor
蔡毅
陈�峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911308937.4A priority Critical patent/CN111160008B/zh
Publication of CN111160008A publication Critical patent/CN111160008A/zh
Application granted granted Critical
Publication of CN111160008B publication Critical patent/CN111160008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种实体关系联合抽取方法,包括步骤:对输入句子进行数据预处理;将输入句子中的每个词映射成对应的词向量;将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练;采用训练后的LSTM‑GCN模型进行实体抽取和关系抽取。本发明通过LSTM和GCN可以同时捕捉到输入句子的顺序信息和区域信息,更好地表示每个词,提升了实体抽取和关系抽取的性能,具有一定的实用性。

Description

一种实体关系联合抽取方法及系统
技术领域
本发明涉及深度学习算法应用技术领域,尤其涉及一种实体关系联合抽取方法及系统。
背景技术
随着数字时代的兴起,社交媒体、文章、新闻等形式的信息爆炸式增长。这些数据大部分都是非结构化形式的,人工管理和有效利用这些信息是很繁琐、乏味和费时费力的。因此,信息爆炸以及对更复杂有效信息的处理工具的需求,使得人们对自动信息抽取的技术越来越关注。信息抽取系统以自然语言文本作为输入,从文本中识别出相关的知识要素(通常是预先定义好的类型),并生成由特定标准指定的结构化信息,这些信息与特定的应用程序相关。最近几年,信息抽取领域快速发展,研究学者提出许多方法使信息抽取过程自动化。然而,由于Web数据具有异构性、非结构化等特点,自动信息抽取仍然存在许多具有挑战性的研究问题。
信息抽取一般包括两个普遍存在并且紧密相关的子任务:命名实体识别和关系抽取。现有技术通常使用基于流水线的方法来处理这两个子任务,然而这种分离的框架会导致错误传播的问题,并且忽略了两个子任务之间的相关性。最近的研究提出使用联合方法来同时进行命名实体识别和关系抽取,以解决上述问题。
现有技术提出了一种抽取方法,该方法将每个词转化为一个预定义类型的标签的形式,在预测阶段中,预测出每个词对应的标签,根据标签和三元组中每个词的对应关系,得到句子中存在的实体关系三元组。但是所述方法无法解决关系重叠的问题,而关系重叠的现象在数据集中普遍存在。因此,急需一种实体关系联合抽取方法来解决关系重叠的问题。
发明内容
本发明的目的在于解决现有技术中的关系重叠问题,提供一种实体关系联合抽取方法。
本发明的目的通过以下技术方案实现:
一种实体关系联合抽取方法,包括步骤:
对输入句子进行数据预处理;
将输入句子中的每个词映射成对应的词向量;
将得到的词向量输入到基于长短期记忆网络和图卷积神经网络(LSTM-GCN)的实体关系联合抽取模型中进行训练;
采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。
具体地,所述预处理包括实体标注、单词映射、图的构造。
更进一步地,所述实体标注采用BIO标注机制进行标注,每个实体包含有一个或多个单词,为每个单词打上标签,这样就知道每个实体的开始结束位置以及实体类型。
更进一步地,所述单词映射表示将输入句子中的每个单词映射成对应的ID。
更进一步地,所述图的构造通过依存解析器为输入句子构造一棵依存树,再采用邻接矩阵表示该依存树。
具体地,所述LSTM-GCN实体关系联合抽取模型训练的步骤中,包括:
将得到的词向量矩阵输入到Bi-LSTM中,捕捉每个单词的上下文信息,得到每个词对应的隐藏层状态;
将得到的每个词的隐藏层状态向量输入到Bi-GCN中,捕捉每个单词的区域信息,得到每个词对应的向量表示;
通过特征融合机制融合每个词的上下文特征和区域特征,利用可学习的门向量,选择上下文特征和区域特征来形成每个词最终的向量表示;
将得到的每个词最终的向量表示经过全连接层将向量维度映射为实体标签大小,然后经过条件随机场(Conditional Random Field)得到每个词的各类实体标签概率;
将关系抽取建模为多头选择问题,对于每个单词,同时预测该单词的头实体及该单词与头实体之间的关系类型;
将命名实体识别的交叉熵损失与关系抽取的交叉熵损失相加作为整个模型的最终损失函数,最小化最终损失函数;
通过反向传播算法训练模型,更新模型中的所有参数。
一种LSTM-GCN的实体关系联合抽取系统,包括:
预处理模块,用于对实体采用BIO标注机制进行标注,将输入句子的每个单词转换为对应的ID,为输入句子通过依存解析器构造依存树;
嵌入模块,用于将输入句子中的每个词对应的ID映射成对应的词向量;
结果处理模块,用于使用训练后的LSTM-GCN模型同时预测输入句子的实体及其关系;
模型训练模块,用于对LSTM-GCN模型进行训练,包括:
特征构建模块,用于将词向量输入到Bi-LSTM网络中提取每个词的上下文特征,再将LSTM的输出输入到Bi-GCN网络中提取每个词的区域特征,最后通过特征融合机制融合每个词的上下文特征和区域特征;
实体识别模块,用于通过条件随机场得到每个词的各类实体标签概率;
关系抽取模块,用于将关系抽取建模为多头选择问题,对于每个单词,同时预测该单词的头实体及该单词与头实体之间的关系类型。
本发明相较于现有技术,具有以下的有益效果:
本发明通过长短期记忆网络(Long Short Term Memory,LSTM)和图卷积神经网络(Graph Convolutional Network,GCN)同时捕捉句子的上下文特征和区域特征,能够更好地表示每个词,并且解决了关系重叠的问题,提升了实体抽取和关系抽取的性能。
附图说明
图1为本发明中一种实体关系联合抽取方法的流程示意图;
图2是本实施例中的实体关系联合抽取模型的结构示意图;
图3是本实施例中依存句法分析的示例图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为一种实体关系联合抽取方法的流程图,所述方法包括步骤:
(1)对输入句子进行数据预处理,所述预处理包括:
根据BIO(Begin,Inside,Outside)标注机制对实体和关系进行标注,每个实体包含有一个或多个单词,为每个单词打上标签,获取每个实体的开始结束位置以及实体类型。
在本实施例中,对于句子“Smith lives in California.”对应的实体标签序列为“B-PER O O B-LOC”。其中“PER”表示人名,标签“O”表示非实体,“LOC”表示地点。该句子对应的关系标签为[[‘N’,‘N’,‘N’,‘live in’],[‘N’,‘N’,‘N’,‘N’],[‘N’,‘N’,‘N’,‘N’],[‘live in’,‘N’,‘N’,‘N’]]。其中标注了每两个单词之间的关系,‘N’表示不存在关系,‘live in’表示对应的两个单词之间存在‘live in’关系。
将输入句子中的每个单词映射成对应的ID。
上述句子“Smith lives in California.”对应的索引序列为“105 546 254821564 52”。
通过依存解析器对输入句子进行依存分析,得到词汇之间的依存关系,为输入句子构造一颗依存树,如图3所示,然后使用邻接矩阵表示该依存树。本实施例中使用的依存解析器是spacy,一个高级的自然语言处理库,拥有很多强大的功能。
(2)将输入句子中的每个词映射成对应的词向量;
模型的输入是单词序列w=w1,w2,...wn,根据每个单词的ID映射成相应的词向量wword2vec,形成词向量矩阵。本实施例中使用Skip-Gram word2vec预训练的词向量模型。
(3)将得到的词向量输入到基于长短期记忆网络和图卷积神经网络(LSTM-GCN)的实体关系联合抽取模型中进行训练,包括:
(3-1)将得到的词向量矩阵输入到Bi-LSTM中,捕捉每个单词的上下文信息,得到每个词对应的隐藏层状态;
将得到的词向量矩阵输入到Bi-LSTM中,可以从左到右或从右到左进行编码来输入句子的信息,进而捕捉到单词的上下文表示信息。因此本发明可以通过在时间步t时拼接前向
Figure BDA0002323968820000051
和后向
Figure BDA0002323968820000052
的隐藏层状态得到每个单词的双向信息,双向LSTM在时间步t的输出可以用如下的公式表示:
Figure BDA0002323968820000053
(3-2)将得到的每个词的隐藏层状态向量输入到Bi-GCN中,捕捉每个单词的区域信息,得到每个词对应的向量表示;
每个词对应的向量表示为
Figure BDA0002323968820000061
具体计算公式如下:
Figure BDA0002323968820000062
Figure BDA0002323968820000063
Figure BDA0002323968820000064
其中,(g)表示GCN的参数,
Figure BDA0002323968820000065
表示第t时刻的隐藏层状态,σ表示非线性函数包括但不限于tanh函数和relu函数,
Figure BDA0002323968820000066
Figure BDA0002323968820000067
分别表示出入方向的邻接矩阵,
Figure BDA0002323968820000068
表示向量拼接。
(3-3)通过特征融合机制融合每个词的上下文特征和区域特征,利用可学习的门向量,选择上下文特征和区域特征来形成每个词最终的向量表示,包括:
(3-3-1)通过全连接层结合上下文特征和区域特征:
Figure BDA0002323968820000069
(3-3-2)新建可学习的门向量gt,用来选择上下文特征和区域特征:
Figure BDA00023239688200000610
(3-3-3)通过门向量来控制上下文特征和区域特征的流动,即控制选择输入到下一层的特征向量,得到每个词最终的向量表示:
Figure BDA00023239688200000611
(3-4)将得到的每个词的向量表示经过全连接层将向量维度映射为实体标签大小,然后经过条件随机场(Conditional Random Field)得到每个词的各类实体标签概率,包括:
(3-4-1)计算每个单词wi对步骤(1)中每个实体标签的得分,计算公式如下:
Figure BDA0002323968820000071
其中,(e)表示命名实体识别任务,f(·)表示激活函数,包括但不限于relu函数和tanh函数;V(e)、U(e)表示权重矩阵,b(e)表示偏置。如果预定义的标签类别有5个,那么每个单词对应一个5维的向量,其中每个元素代表该单词对应标签的得分。
(3-4-2)为了考虑到标签之间的依赖性,本实施例中使用线性链CRF。单词序列为w,得分向量序列为
Figure BDA0002323968820000072
标签预测向量为
Figure BDA0002323968820000073
线性链CRF的分数计算如下:
Figure BDA0002323968820000074
其中,
Figure BDA0002323968820000075
是单词wi的预测标签为
Figure BDA0002323968820000076
时的分数。T是转移矩阵,其中每一项表示从一个标签到另一个标签的转移分数,
Figure BDA0002323968820000077
p表示预定义好的实体标签类别的数目;
Figure BDA0002323968820000078
Figure BDA0002323968820000079
是两个辅助标签,表示句子的开始和结束。
(3-4-3)输入句子w的所有可能标签序列中每个标签序列的概率的计算方法为:
Figure BDA00023239688200000710
使用Viterbi算法来得到最高分数的标签序列
Figure BDA00023239688200000711
(3-5)将关系抽取建模为多头选择问题,实现对于每个单词,同时预测该单词的头实体及该单词与头实体之间的关系类型,包括:
(3-5-1)输入单词wi的最终表示ui与标签嵌入gi的拼接结果:
zi=[ui;gi],i=0,...,n
(3-5-2)计算单词wi和单词wj之间的关系标签为rk的分数:
s(r)(zj,zi,rk)=V(r)f(U(r)zj+W(r)zi+b(r))
其中(r)表示关系抽取任务,f(·)表示激活函数,包括但不限于relu函数和tanh函数;V(r)、U(r)、W(r)、b(r)为权重参数。
(3-5-3)识别两个单词之间的关系:定义单词wi的头为wj,并且单词wi和单词wj之间的关系为rk,所述关系的概率的计算公式为:
Pr(head=wj,label=rk|wi)=σ(s(r)(zj,zi,rk))
其中,σ表示sigmoid函数。
(3-6)将命名实体识别的交叉熵损失
Figure BDA0002323968820000081
与关系抽取的交叉熵损失
Figure BDA0002323968820000082
相加作为整个模型的最终损失函数
Figure BDA0002323968820000083
最小化最终损失函数
Figure BDA0002323968820000084
包括:
(3-6-1)计算命名实体识别的交叉熵损失
Figure BDA0002323968820000085
其中N表示训练集大小,si表示第i个句子,yi表示该句子对应真实标签的:
Figure BDA0002323968820000086
(3-6-2)计算关系抽取的交叉熵损失
Figure BDA0002323968820000087
其中yi,j表示单词wi的真实头向量,ri,j为该单词对应的真实关系标签向量,n表示句子长度,m表示关系标签数:
Figure BDA0002323968820000088
(3-6-3)对于实体关系联合抽取模型最终的损失函数为:
Figure BDA0002323968820000089
(3-7)通过反向传播算法训练模型,更新模型中的所有参数,包括但不限于Bi-LSTM的参数、Bi-GCN的参数、特征融合的权重参数以及全连接层的参数。模型训练过程中在验证集上使用了早停法,最多更新迭代50词,当模型在验证集上的性能开始降低时,模型就停止训练,这样就可以避免继续训练导致过拟合的问题。
(4)采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。
本发明提供一种基于LSTM-GCN的实体关系联合抽取方法的系统,包括:
预处理模块,用于对实体采用BIO标注机制进行标注,将输入句子的每个单词转换为对应的ID,为输入句子通过依存解析器构造依存树;
嵌入模块,用于将输入句子中的每个词对应的ID映射成对应的词向量;
结果处理模块,用于使用训练后的LSTM-GCN模型同时预测输入句子的实体及其关系;
模型训练模块,用于对LSTM-GCN模型进行训练,包括:
特征构建模块,用于将词向量输入到Bi-LSTM网络中提取每个词的上下文特征,再将LSTM的输出输入到Bi-GCN网络中提取每个词的区域特征,最后通过特征融合机制融合每个词的上下文特征和区域特征;
实体识别模块,用于通过条件随机场得到每个词的各类实体标签概率;
关系抽取模块,用于将关系抽取建模为多头选择问题,对于每个单词,同时预测该单词的头实体及该单词与头实体之间的关系类型。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种实体关系联合抽取方法,其特征在于,包括步骤:
对输入句子进行数据预处理;
将输入句子中的每个词映射成对应的词向量;
将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练,包括:
将得到的词向量矩阵输入到Bi-LSTM中,捕捉每个单词的上下文信息,得到每个词对应的隐藏层状态;
将得到的每个词的隐藏层状态向量输入到Bi-GCN中,捕捉每个单词的区域信息,得到每个词对应的向量表示;
通过特征融合机制融合每个词的上下文特征和区域特征,利用可学习的门向量,选择上下文特征和区域特征来形成每个词最终的向量表示,包括:
通过全连接层结合上下文特征和区域特征:
Figure FDA0003353677890000011
新建可学习的门向量gt,用来选择上下文特征和区域特征:
Figure FDA0003353677890000012
Figure FDA0003353677890000013
表示第t个词的隐藏层状态,每个词对应的向量表示为
Figure FDA0003353677890000014
通过门向量来控制上下文特征和区域特征的流动,得到每个词最终的向量表示:
Figure FDA0003353677890000015
将得到的每个词最终的向量表示经过全连接层将向量维度映射为实体标签大小,然后经过条件随机场得到每个词的各类实体标签概率;
将关系抽取建模为多头选择问题,对于每个单词,同时预测该单词的头实体及该单词与头实体之间的关系类型;
将命名实体识别的交叉熵损失与关系抽取的交叉熵损失相加作为整个模型的最终损失函数,最小化最终损失函数;
通过反向传播算法训练模型,更新模型中的所有参数;
采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。
2.根据权利要求1所述的方法,其特征在于,所述预处理包括实体标注、单词映射、图的构造;
所述实体标注采用BIO标注机制进行标注,每个实体包含有一个或多个单词,为每个单词打上标签;
所述单词映射表示将输入句子中的每个单词映射成对应的ID;
所述图的构造通过依存解析器为输入句子构造一棵依存树,再采用邻接矩阵表示该依存树。
3.根据权利要求1所述的方法,其特征在于,所述将得到的词向量矩阵输入到Bi-LSTM中,捕捉每个单词的上下文信息,得到每个词对应的隐藏层状态的步骤中,通过在时间步t时拼接前向
Figure FDA0003353677890000021
和后向
Figure FDA0003353677890000022
的隐藏层状态得到每个单词的双向信息,双向LSTM在时间步t的输出可以用如下的公式表示:
Figure FDA0003353677890000023
4.根据权利要求1所述的方法,其特征在于,所述将得到的每个词的隐藏层状态向量输入到Bi-GCN中,捕捉每个单词的区域信息,得到每个词对应的向量表示的步骤中,每个词对应的向量表示为
Figure FDA0003353677890000024
具体计算公式如下:
Figure FDA0003353677890000025
Figure FDA0003353677890000026
Figure FDA0003353677890000027
其中,(g)表示GCN的参数,
Figure FDA0003353677890000028
表示第t个词的隐藏层状态,σ表示非线性函数包括但不限于tanh函数和relu函数,
Figure FDA0003353677890000029
Figure FDA00033536778900000210
分别表示出入方向的邻接矩阵,
Figure FDA00033536778900000211
表示向量拼接。
5.根据权利要求1所述的方法,其特征在于,所述将得到的每个词的向量表示经过全连接层将向量维度映射为实体标签大小,然后经过条件随机场得到每个词的各类实体标签概率的步骤中,包括:
计算每个单词wi对每个实体标签的得分,计算公式如下:
s(e)(wi)=V(e)f(U(e)ui+b(e))
其中,(e)表示命名实体识别任务,f(·)表示激活函数,包括但不限于relu函数和tanh函数;V(e)、U(e)表示权重矩阵,b(e)表示偏置;
为了考虑到标签之间的依赖性,使用线性链CRF;单词序列为w,得分向量序列为
Figure FDA0003353677890000031
标签预测向量为
Figure FDA0003353677890000032
线性链CRF的分数计算如下:
Figure FDA0003353677890000033
其中,
Figure FDA0003353677890000034
是单词wi的预测标签为
Figure FDA0003353677890000035
时的分数;T是转移矩阵,其中每一项表示从一个标签到另一个标签的转移分数,
Figure FDA0003353677890000036
p表示预定义好的实体标签类别的数目;
Figure FDA0003353677890000037
Figure FDA0003353677890000038
是两个辅助标签,表示句子的开始和结束;
输入句子w的所有可能标签序列中每个标签序列的概率的计算方法为:
Figure FDA0003353677890000039
使用Viterbi算法来得到最高分数的标签序列
Figure FDA00033536778900000310
6.根据权利要求1所述的方法,其特征在于,所述将关系抽取建模为多头选择问题,对于每个单词,同时预测该单词的头实体及该单词与头实体之间的关系类型的步骤中,包括:
输入单词wi的最终表示ui与标签嵌入gi的拼接结果:
zi=[ui;gi],i=0,...,n
计算单词wi和单词wj之间的关系标签为rk的分数:
s(r)(zj,zi,rk)=V(r)f(U(r)zj+W(r)zi+b(r))
其中,(r)表示关系抽取任务,f(·)表示激活函数,包括但不限于relu函数和tanh函数;V(r)、U(r)、W(r)、b(r)为权重参数;
定义单词wi的头为wj,并且单词wi和单词wj之间的关系为rk的概率为:
Pr(head=wj,label=rk|wi)=σ(s(r)(zj,zi,rk))
其中,σ表示sigmoid函数。
7.一种实体关系联合抽取系统,其基于权利要求1-6任意一项所述的实体关系联合抽取方法,其特征在于,所述系统具体包括:
预处理模块,用于对实体采用BIO标注机制进行标注,将输入句子的每个单词转换为对应的ID,为输入句子通过依存解析器构造依存树;
嵌入模块,用于将输入句子中的每个词对应的ID映射成对应的词向量;
结果处理模块,用于使用训练后的LSTM-GCN模型同时预测输入句子的实体及其关系;
模型训练模块,用于对LSTM-GCN模型进行训练,包括:
特征构建模块,用于将词向量输入到Bi-LSTM网络中提取每个词的上下文特征,再将LSTM的输出输入到Bi-GCN网络中提取每个词的区域特征,最后通过特征融合机制融合每个词的上下文特征和区域特征,利用可学习的门向量,选择上下文特征和区域特征来形成每个词最终的向量表示;
实体识别模块,用于通过条件随机场得到每个词的各类实体标签概率;
关系抽取模块,用于将关系抽取建模为多头选择问题,对于每个单词,同时预测该单词的头实体及该单词与头实体之间的关系类型。
CN201911308937.4A 2019-12-18 2019-12-18 一种实体关系联合抽取方法及系统 Active CN111160008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911308937.4A CN111160008B (zh) 2019-12-18 2019-12-18 一种实体关系联合抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911308937.4A CN111160008B (zh) 2019-12-18 2019-12-18 一种实体关系联合抽取方法及系统

Publications (2)

Publication Number Publication Date
CN111160008A CN111160008A (zh) 2020-05-15
CN111160008B true CN111160008B (zh) 2022-03-25

Family

ID=70557857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911308937.4A Active CN111160008B (zh) 2019-12-18 2019-12-18 一种实体关系联合抽取方法及系统

Country Status (1)

Country Link
CN (1) CN111160008B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494647B2 (en) 2019-12-06 2022-11-08 Adobe Inc. Slot filling with contextual information
CN111597341B (zh) * 2020-05-22 2024-01-26 北京慧闻科技(集团)有限公司 一种文档级关系抽取方法、装置、设备及存储介质
CN111666427B (zh) * 2020-06-12 2023-05-12 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
CN111831829B (zh) * 2020-06-12 2024-04-09 广州多益网络股份有限公司 一种面向开放域的实体关系抽取方法、装置及终端设备
CN111753024B (zh) * 2020-06-24 2024-02-20 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN111611393A (zh) * 2020-06-29 2020-09-01 支付宝(杭州)信息技术有限公司 一种文本分类方法、装置及设备
CN111914559B (zh) * 2020-07-31 2023-04-07 平安科技(深圳)有限公司 基于概率图模型的文本属性抽取方法、装置及计算机设备
CN118313367A (zh) * 2020-08-17 2024-07-09 支付宝(杭州)信息技术有限公司 一种文本信息的抽取方法、装置及设备
CN112069823B (zh) * 2020-09-17 2021-07-09 华院计算技术(上海)股份有限公司 信息处理方法和装置
CN112163416B (zh) * 2020-10-09 2021-11-02 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112347759A (zh) * 2020-11-10 2021-02-09 华夏幸福产业投资有限公司 一种实体关系的抽取方法、装置、设备及存储介质
CN112069825B (zh) * 2020-11-12 2021-01-15 湖南数定智能科技有限公司 面向警情笔录数据的实体关系联合抽取方法
CN112417886B (zh) * 2020-11-20 2024-08-27 西藏纳柯电子科技有限公司 意图实体信息抽取方法、装置、计算机设备及存储介质
CN112597757A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 词的检测方法及装置、存储介质、电子装置
CN112463970B (zh) * 2020-12-16 2022-11-22 吉林大学 一种基于时间关系对文本包含的因果关系进行抽取的方法
CN112685513A (zh) * 2021-01-07 2021-04-20 昆明理工大学 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法
CN113051891B (zh) * 2021-01-13 2022-11-18 东南大学 一种面向机场应急预案文本的实体与关系联合抽取方法
CN113239186B (zh) * 2021-02-26 2022-11-29 中国科学院电子学研究所苏州研究院 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN112948505A (zh) * 2021-03-30 2021-06-11 太原理工大学 一种实体关系分类的模型构建方法、设备及存储介质
CN113032571A (zh) * 2021-04-19 2021-06-25 广东工业大学 一种实体和关系抽取方法
CN113268595B (zh) * 2021-05-24 2022-09-06 中国电子科技集团公司第二十八研究所 一种基于实体关系抽取的结构化机场警报处理方法
CN113283243B (zh) * 2021-06-09 2022-07-26 广东工业大学 一种实体与关系联合抽取的方法
CN113378571A (zh) * 2021-06-11 2021-09-10 广东工业大学 一种文本数据的实体数据关系抽取方法
CN113435582B (zh) * 2021-06-30 2023-05-30 平安科技(深圳)有限公司 基于句向量预训练模型的文本处理方法及相关设备
CN113536795B (zh) * 2021-07-05 2022-02-15 杭州远传新业科技有限公司 实体关系抽取的方法、系统、电子装置和存储介质
CN113468330B (zh) * 2021-07-06 2023-04-28 北京有竹居网络技术有限公司 信息获取方法、装置、设备及介质
CN113657095B (zh) * 2021-08-23 2024-08-23 北京理工大学 一种具备关系模式识别能力的关系抽取系统
CN114781375A (zh) * 2022-05-19 2022-07-22 中国电子科技集团公司第二十八研究所 一种基于bert与注意力机制的军事装备关系抽取方法
CN115114934B (zh) * 2022-07-15 2024-07-12 广东工业大学 一种标签融合的联合抽取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法
CN110277165A (zh) * 2019-06-27 2019-09-24 清华大学 基于图神经网络的辅助诊断方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162790A (zh) * 2019-05-24 2019-08-23 贵州大学 一种基于神经网络的犯罪行为识别方法
CN110377903B (zh) * 2019-06-24 2020-08-14 浙江大学 一种句子级实体和关系联合抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法
CN110277165A (zh) * 2019-06-27 2019-09-24 清华大学 基于图神经网络的辅助诊断方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Graph Convolution over Pruned Dependency Trees Improves Relation Extraction;Yuhao Zhang et al;《https://arxiv.org/abs/1809.10185》;20180926;1-13 *
Graph Convolutional Networks for Named Entity Recognition;A. Cetoli et al;《https://arxiv.org/abs/1709.10053》;20180214;1-9 *
基于神经网络的实体识别和关系抽取的联合模型研究;丁琛;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190815(第8期);I138-1393 *
面向初等数学的知识点关系提取研究;顾航;《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》;20190915(第9期);A002-6 *

Also Published As

Publication number Publication date
CN111160008A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111160008B (zh) 一种实体关系联合抽取方法及系统
WO2021147726A1 (zh) 信息抽取方法、装置、电子设备及存储介质
CN111694924B (zh) 一种事件抽取方法和系统
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及系统
CN113822026B (zh) 一种多标签实体标注方法
CN111522839A (zh) 一种基于深度学习的自然语言查询方法
CN113761893B (zh) 一种基于模式预训练的关系抽取方法
CN109960728A (zh) 一种开放域会议信息命名实体识别方法及系统
CN111651974A (zh) 一种隐式篇章关系分析方法和系统
CN109918647A (zh) 一种安全领域命名实体识别方法及神经网络模型
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
KR102139272B1 (ko) 생의학적 개체명 인식 시스템
CN113868432A (zh) 一种用于钢铁制造企业的知识图谱自动构建方法和系统
CN115688752A (zh) 一种基于多语义特征的知识抽取方法
CN117033423A (zh) 一种注入最优模式项和历史交互信息的sql生成方法
CN109446523A (zh) 基于BiLSTM和条件随机场的实体属性抽取模型
CN114048314B (zh) 一种自然语言隐写分析方法
CN114356924A (zh) 用于从结构化文档提取数据的方法和设备
CN110008344B (zh) 一种自动给代码打数据结构标签的方法
CN115408506B (zh) 联合语义解析和语义成分匹配的nl2sql的方法
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN113822018B (zh) 实体关系联合抽取方法
CN113947083A (zh) 一种文档级别命名实体识别方法
CN111723568A (zh) 一种事件抽取方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant