CN111666427A - 一种实体关系联合抽取方法、装置、设备及介质 - Google Patents

一种实体关系联合抽取方法、装置、设备及介质 Download PDF

Info

Publication number
CN111666427A
CN111666427A CN202010538132.5A CN202010538132A CN111666427A CN 111666427 A CN111666427 A CN 111666427A CN 202010538132 A CN202010538132 A CN 202010538132A CN 111666427 A CN111666427 A CN 111666427A
Authority
CN
China
Prior art keywords
entity
training
extraction
entity relationship
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010538132.5A
Other languages
English (en)
Other versions
CN111666427B (zh
Inventor
曾道建
谢依玲
赵超
田剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202010538132.5A priority Critical patent/CN111666427B/zh
Publication of CN111666427A publication Critical patent/CN111666427A/zh
Application granted granted Critical
Publication of CN111666427B publication Critical patent/CN111666427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本申请公开了一种实体关系联合抽取方法、装置、设备及介质,包括:获取训练样本数据;利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算;当获取到待进行实体关系抽取的目标文本,利用所述训练后模型输出对应的实体关系抽取结果。这样,对包括自注意力层的实体关系抽取模型进行训练,能够在实体关系的抽取过程中考虑其他三元组对当前预测关系的影响,从而提升实体关系抽取的准确度。

Description

一种实体关系联合抽取方法、装置、设备及介质
技术领域
本申请涉及自然语言处理领域,特别涉及一种实体关系联合抽取方法、装置、设备及介质。
背景技术
实体关系抽取作为信息抽取的关键技术,具有重要的理论意义和广阔的应用前景。从理论价值层面看,实体关系抽取涉及到机器学习、数据挖掘、自然语言处理等多个学科的理论和方法。从应用层面看,实体关系抽取可用于自动构建大规模知识库。实体关系抽取还能为信息检索和自动问答系统的构建提供数据支持。实体关系抽取还在篇章理解、机器翻译等方面具有重要的研究意义。在关系抽取中,已经有许多关于抽取关系的方法。
目前进行实体关系抽取的方法主要是串联的抽取方法,即把实体和关系的抽取分为两个子任务:先采用实体识别模型抽取实体,再采用分类器得到实体对之间的关系。然而由于串联的方法分为两个任务,实体识别的结果会进一步影响关系抽取的结果,导致误差累积,同时子任务之间相互独立忽视了两个任务之间的关联性。事实上,实体识别影响关系分类,关系分类也影响着实体识别;如果两个词具有某种关系,可以根据两个词之间关系的类型预测两个实体的类型。这两个任务是相互依赖的。基于此提出了联合抽取的方法,即通过联合模型将两个任务合二为一,将关系抽取看作从非结构化文本中提取出实体关系三元组的过程。目前存在的联合抽取方法虽然消除了串联方法中两个子任务相互独立的问题,但存在关系抽取不够准确的问题。
发明内容
有鉴于此,本申请的目的在于提供一种实体关系联合抽取方法、装置、设备及介质,能够在实体关系的抽取过程中考虑其他三元组对当前预测关系的影响,从而提升实体关系抽取的准确度。其具体方案如下:
第一方面,本申请公开了一种实体关系联合抽取方法,包括:
获取训练样本数据;
利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算;
当获取到待进行实体关系抽取的目标文本,利用所述训练后模型输出对应的实体关系抽取结果。
可选的,所述实体关系抽取模型,还包括BERT层、NER层以及表填充层;
相应的,所述利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,包括:
将所述训练样本数据输入至所述BERT层,通过所述BERT层对句子进行划分,并将划分出的每个词映射为对应的词向量,以得到句子的上下文表示;
通过所述NER层对所述词向量进行线性CRF计算,得到对应的预测实体标记序列,以及将所述预测实体标记序列转换为对应的标签嵌入序列;
对所述词向量和所述标签嵌入序列进行拼接,得到目标向量;
通过所述表填充层对所述目标向量进行实体关系预测,得到对应的预测实体关系;
将所述预测实体关系输入至所述自注意力层进行注意力计算,得到对应的注意力计算后实体关系;
对所述注意力计算后实体关系与预定义关系向量进行内积运算,然后通过多标签分类器进行分类,得到每个词对应的实体关系。
可选的,所述实体关系联合抽取方法,还包括:
利用标签序列损失函数计算标签序列损失;其中,所述标签序列损失函数为
Figure BDA0002537790440000021
其中,τ为训练集,所述训练集包括全部所述训练样本数据,y*为词序列x的人工标注的正确关系,所述词序列为通过所述BERT层对句子进行划分,得到的序列,p(y*|x)为y*对应的概率值。
可选的,所述实体关系联合抽取方法,还包括:
利用表填充损失函数计算表填充损失;其中,所述表填充损失函数为
Figure BDA0002537790440000031
其中,LRE为表填充损失,τ为训练集,所述训练集包括全部所述训练样本数据,x为训练集τ中句子对应的词序列,
Figure BDA0002537790440000032
为词xi的训练集中人工标注的正确关系;
Figure BDA0002537790440000033
表示词xi的第j个有关系的实体,
Figure BDA0002537790440000034
表示词xi
Figure BDA0002537790440000035
间的训练集中人工标注的正确关系,第k个关系表示为
Figure BDA0002537790440000036
为词xi
Figure BDA0002537790440000037
间有关系
Figure BDA0002537790440000038
的概率。
可选的,所述通过所述BERT层对句子进行划分,并将划分出的每个词映射为对应的词向量,包括:
通过所述BERT层对句子进行划分,将划分出的每个词转换为对应的向量,然后将转换出的向量输入至编码器编码,以得到所述词向量。
可选的,所述实体关系联合抽取方法,还包括:
计算训练损失;所述训练损失包括标签序列损失和表填充损失。
第二方面,本申请公开了一种实体关系联合抽取装置,包括:
数据获取模块,用于获取训练样本数据;
模型训练模块,用于利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算;
关系抽取模块,用于当获取到待进行实体关系抽取的目标文本,利用所述训练后模型输出对应的实体关系抽取结果。
可选的,所述实体关系联合抽取装置,还包括训练损失计算模块,用于计算训练损失;所述训练损失包括标签序列损失和表填充损失。
第三方面,本申请公开了一种实体关系联合抽取设备,包括处理器和存储器;其中,
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序以实现前述的实体关系联合抽取方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述的实体关系联合抽取方法。
可见,本申请先获取训练样本数据,然后利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算,最后当获取到待进行实体关系抽取的目标文本,利用所述训练后模型输出对应的实体关系抽取结果。这样,对包括自注意力层的实体关系抽取模型进行训练,能够在实体关系的抽取过程中考虑其他三元组对当前预测关系的影响,从而提升实体关系抽取的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种实体关系联合抽取方法流程图;
图2为本申请公开的一种具体的实体关系联合抽取方法流程图;
图3为本申请公开的一种具体的实体关系联合抽取方法流程图;
图4为本申请公开的一种具体的实体关系联合抽取方法的实施框架图;
图5为本申请公开的一种实体关系联合抽取装置结构示意图;
图6为本申请公开的一种实体关系联合抽取设备结构图;
图7为本申请公开的一种电子终端结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前进行实体关系抽取的方法主要是串联的抽取方法,即把实体和关系的抽取分为两个子任务:先采用实体识别模型抽取实体,再采用分类器得到实体对之间的关系。然而由于串联的方法分为两个任务,实体识别的结果会进一步影响关系抽取的结果,导致误差累积,同时子任务之间相互独立忽视了两个任务之间的关联性。事实上,实体识别影响关系分类,关系分类也影响着实体识别;如果两个词具有某种关系,可以根据两个词之间关系的类型预测两个实体的类型。这两个任务是相互依赖的。基于此提出了联合抽取的方法,即通过联合模型将两个任务合二为一,将关系抽取看作从非结构化文本中提取出实体关系三元组的过程。目前存在的联合抽取方法虽然消除了串联方法中两个子任务相互独立的问题,但存在关系抽取不够准确的问题。为此,本申请提供了一种实体关系联合抽取方案,能够在实体关系的抽取过程中考虑其他三元组对当前预测关系的影响,从而提升实体关系抽取的准确度。
参见图1所示,本申请实施例公开了一种实体关系联合抽取方法,包括:
步骤S11:获取训练样本数据。
步骤S12:利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算。
在具体的实施方式中,本实施例中的所述实体关系抽取模型,还包括BERT(即Bidirectional Encoder Representations from Transformers)层、NER(即named entityrecognition,命名实体识别)层以及表填充层;相应的,所述利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,包括:
步骤S121:将所述训练样本数据输入至所述BERT层,通过所述BERT层对句子进行划分,并将划分出的每个词映射为对应的词向量,以得到句子的上下文表示。
在具体的实施方式中,本实施例可以通过所述BERT层对句子进行划分,将划分出的每个词转换为对应的向量,然后将转换出的向量输入至编码器编码,以得到所述词向量。具体的,先将句子用Wordpiece tokenizer划分成词,每个词的输入表示由每个词的标记、段、位置嵌入的和构成,通过BERT层给第一个词加上特殊标记([CLS])。用x={x1,x2,...,xn}表示句子的词序列,xn表示句子中的词,其中,n为句子的长度。然后通过BERT将每个词映射成一个词向量:先通过嵌入层将每一个词转换成向量,再将向量输入到编码器编码得到每个词的连续嵌入表示z={z1,z2,...,zn}。
也即,本实施例通过BERT得到训练样本数据中句子的上下文表示。
步骤S122:通过所述NER层对所述词向量进行线性CRF(即conditional randomfield,条件随机场)计算,得到对应的预测实体标记序列,以及将所述预测实体标记序列转换为对应的标签嵌入序列。
也即,本实施例通过NER层进行线性CRF计算,得到最有可能的实体标记序列,然后转化为对应的标签嵌入序列h={h1,h2,...,hn}。
并且,每个词xi得到每个实体标记的得分计算为:
si=V1f(W1zi+bz)+bs
其中,f(·)是激活函数,W1、V1是转换矩阵,bz、bs是偏置向量,l是隐层数目。若预测实体标记序列为y={y1,y2,…,yn},利用公式
Figure BDA0002537790440000061
计算所述线性CRF得分;
其中,
Figure BDA0002537790440000062
是词xi的实体标记为yi的得分,xi为第i个词,yi为xi对应的实体标记,
Figure BDA0002537790440000063
是实体标记yi-1到实体标记yi的过渡得分。
Figure BDA0002537790440000064
为过渡矩阵,并且,有
Figure BDA0002537790440000065
其中,y={y1,y2,…,yn}为所述预测实体标记序列,n为实体标记数量,p(y|x)为利用softmax函数计算出的所述预测实体标记序列对应的概率值,s(x,y)为所述预测实体标记序列对应的线性CRF得分,
Figure BDA0002537790440000066
为词序列x对应的实体标记序列集。
也即,本申请实施通过对实体标记序列集中的全部序列进行线性CRF计算,得到对应的线性CRF得分,进而得到对应的概率值,从而确定出预测实体序列。
步骤S123:对所述词向量和所述标签嵌入序列进行拼接,得到目标向量。
步骤S124:通过所述表填充层对所述目标向量进行实体关系预测,得到对应的预测实体关系。
在具体的实施方式中,本实施例可以对BERT层输出的词向量zk和NER层输出的标签嵌入hk得到目标向量gk,通过所述表填充层对所述目标向量进行实体关系预测。具体的,通过公式f(Ugj+Wgi+br)预测任意两个词xi和xj之间的关系,其中,U、W为转换矩阵,br为偏置向量。
步骤S125:将所述预测实体关系输入至所述自注意力层进行注意力计算,得到对应的注意力计算后实体关系。
在具体的实施方式中,自注意力层的输出矩阵计算为:
Figure BDA0002537790440000071
其中,Q、K、V是每个输入的关系向量的查询、键和值表示,Q=K=V,D为Q、K的维度,每个序列中的单元和该序列中所有单元进行attention计算。首先输入关系向量,然后初始化权重得到Q、K、V表示,利用K和Q之间取一个点积得到输入向量的注意力得分,再在所有注意力得分中使用softmax,最后将每个输入的softmaxed attention得分和相应的V相乘之后相加得到输出向量。
步骤S126:对所述注意力计算后实体关系与预定义关系向量进行内积运算,然后通过多标签分类器进行分类,得到每个词对应的实体关系。
在具体的实施方式中,将注意力计算后实体关系和每个预定义好的关系向量进行内积,通过sigmoid多标签分类器得到每个词与其所选实体间的关系,词xi和词xj具有关系rk的得分定义为:
s(r)(gj,gi,rk)=V(k)f(Ugj+Wgi+br),
其中,V、U、W是转换矩阵,br是偏置向量,gj=[zj;hj]是BERT的输出zj和词xj的标签嵌入hj的拼接。在表填充中,评估词xj是词xi的头实体并且具有关系rk的概率为:
pr(xj,rk|xi)=δ(s(r)(gj,gi,rk)),δ表示sigmoid变换。
步骤S13:当获取到待进行实体关系抽取的目标文本,利用所述训练后模型输出对应的实体关系抽取结果。
需要指出的是,通过表填充层可以有效的解决重叠关系抽取的问题。
可见,本申请实施例先获取训练样本数据,然后利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算,最后当获取到待进行实体关系抽取的目标文本,利用所述训练后模型输出对应的实体关系抽取结果。这样,对包括自注意力层的实体关系抽取模型进行训练,能够在实体关系的抽取过程中考虑其他三元组对当前预测关系的影响,从而提升实体关系抽取的准确度。
参见图2所示,本申请实施例公开了一种具体的实体关系联合抽取方法,包括:
步骤S21:获取训练样本数据。
步骤S22:利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算。
在具体的实施方式中,所述实体关系抽取模型,还包括BERT层、NER层以及表填充层;相应的,所述利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,包括:将所述训练样本数据输入至所述BERT层,通过所述BERT层对句子进行划分,并将划分出的每个词映射为对应的词向量,以得到句子的上下文表示;通过所述NER层对所述词向量进行线性CRF计算,得到对应的预测实体标记序列,以及将所述预测实体标记序列转换为对应的标签嵌入序列;对所述词向量和所述标签嵌入序列进行拼接,得到目标向量;通过所述表填充层对所述目标向量进行实体关系预测,得到对应的预测实体关系;将所述预测实体关系输入至所述自注意力层进行注意力计算,得到对应的注意力计算后实体关系;对所述注意力计算后实体关系与预定义关系向量进行内积运算,然后通过多标签分类器进行分类,得到每个词对应的实体关系。
步骤S23:计算训练损失;所述训练损失包括标签序列损失和表填充损失。
在本实施例中,利用训练损失函数计算训练损失,对于联合抽取实体关系,损失函数定义为标签序列损失即NER损失和基于自注意力机制的表填充的损失之和:LN+LRE
在具体的实施方式中,本申请可以利用标签序列损失函数计算标签序列损失;其中,所述标签序列损失函数为
Figure BDA0002537790440000091
其中,τ为训练集,所述训练集包括全部所述训练样本数据,y*为词序列x的人工标注的正确关系,所述词序列为通过所述BERT层对句子进行划分,得到的序列,p(y*|x)为y*对应的概率值。p(y*|x)的计算方法同前述实施例公开的p(y|x)的运算方法,在训练时,将人工标注的正确关系的负对数似然LN最小化,通过查找一个嵌入层将标记转换为标签嵌入:对于序列y={y1,y2,…,yn},得到标签嵌入序列h={h1,h2,...,hn}。
进一步的,本实施例可以利用表填充损失函数计算表填充损失;其中,所述表填充损失函数为
Figure BDA0002537790440000092
其中,LRE为表填充损失,τ为训练集,所述训练集包括全部所述训练样本数据,x为训练集τ中句子对应的词序列,
Figure BDA0002537790440000093
为词xi的训练集中人工标注的正确关系;
Figure BDA0002537790440000094
表示词xi的第j个有关系的实体,
Figure BDA0002537790440000095
表示词xi
Figure BDA0002537790440000096
间的训练集中人工标注的正确关系,第k个关系表示为
Figure BDA0002537790440000097
为词xi
Figure BDA0002537790440000098
间有关系
Figure BDA0002537790440000099
的概率。
步骤S24:当获取到待进行实体关系抽取的目标文本,利用所述训练后模型输出对应的实体关系抽取结果。
也即,本申请实施例的实体关系抽取首先使用BERT对训练数据进行预处理,将预处理的数据进行向量化表示,对向量化的数据进行编码以捕获包含上下文信息的语义信息,然后通过NER层计算出句子最有可能的实体标记序列,再将其转化为标签嵌入,接下来通过表填充预测关系,然后将句子中预测的所有关系送入自注意力机制,综合考虑训练句子中其他所有三元组对当前预测关系的影响,最后通过sigmoid多标签分类器得到每个词与其所选实体间的关系。具体的,实体关系联合抽取模型主要包括BERT层、NER层、self-attention层和表填充层,BERT层先将句子进行划分,每个词的输入表示由每个词的标记、段、位置嵌入的和构成,然后BERT将每个词映射成一个词向量:先通过嵌入层将每一个词转换成向量,再将向量输入到编码器编码得到每个词的连续嵌入表示作为BERT层的输出。将经过BERT预处理后的词向量作为NER层的输入,使用线性CRF计算出最有可能的实体标记序列,然后将其转化为标签嵌入作为NER层的输出。将BERT模层的输出向量与NER层的输出向量拼接作为表填充层的输入,根据前预测关系的公式预测出关系;将预测的所有关系向量作为self-attention模块的输入,综合考虑句子中其他三元组对当前关系的影响,从而更准确的预测当前实体间的关系。表填充层通过sigmoid多标签分类器得到每个词与其所选实体间的关系并输出。例如,输入训练句子:输入:李华于1980年出生于上海;输出:(李华,1980,生日)、(李华,上海,出生地)。
可见,本申请实施例利用自注意力机制综合考虑句子中其他三元组对当前预测关系的影响,从而更好的预测出当前实体之间的关系。并且如果一个实体与其他多个实体之间存在关系,关系抽取时以表填充的方式来实现,表填充可以列举出一个句子中任意两个实体间的关系。通过本申请的抽取策略解决目前实体关系联合抽取的不足,同时提高了实体关系联合抽取的准确率和召回率。
例如,参见图3所示,图3为本申请实施例公开一种具体的实体关系联合抽取方法流程图。例如,参见图4所示,图4为本申请公开的一种具体的实体关系联合抽取方法的实施框架图。
参见图5所示,本申请实施例公开了一种体关系联合抽取装置,包括:
数据获取模块11,用于获取训练样本数据;
模型训练模块12,用于利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算;
关系抽取模块13,用于当获取到待进行实体关系抽取的目标文本,利用所述训练后模型输出对应的实体关系抽取结果。
可见,本申请先获取训练样本数据,然后利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算,最后当获取到待进行实体关系抽取的目标文本,利用所述训练后模型输出对应的实体关系抽取结果。这样,对包括自注意力层的实体关系抽取模型进行训练,能够在实体关系的抽取过程中考虑其他三元组对当前预测关系的影响,从而提升实体关系抽取的准确度。
其中,所述实体关系抽取模型,还包括BERT层、NER层以及表填充层;
相应的,所述模型训练模块12具体用于将所述训练样本数据输入至所述BERT层,通过所述BERT层对句子进行划分,并将划分出的每个词映射为对应的词向量,以得到句子的上下文表示;通过所述NER层对所述词向量进行线性CRF计算,得到对应的预测实体标记序列,以及将所述预测实体标记序列转换为对应的标签嵌入序列;对所述词向量和所述标签嵌入序列进行拼接,得到目标向量;通过所述表填充层对所述目标向量进行实体关系预测,得到对应的预测实体关系;将所述预测实体关系输入至所述自注意力层进行注意力计算,得到对应的注意力计算后实体关系;对所述注意力计算后实体关系与预定义关系向量进行内积运算,然后通过多标签分类器进行分类,得到每个词对应的实体关系。
并且,所述实体关系联合抽取装置,还包括标签序列损失计算模块,用于利用标签序列损失函数计算标签序列损失;其中,所述标签序列损失函数为
Figure BDA0002537790440000111
其中,τ为训练集,所述训练集包括全部所述训练样本数据,y*为词序列x的人工标注的正确关系,所述词序列为通过所述BERT层对句子进行划分,得到的序列,p(y*|x)为y*对应的概率值。
所述实体关系联合抽取装置,还包括表填充损失计算模块,用于利用表填充损失函数计算表填充损失;其中,所述表填充损失函数为
Figure BDA0002537790440000112
其中,LRE为表填充损失,τ为训练集,所述训练集包括全部所述训练样本数据,x为训练集τ中句子对应的词序列,
Figure BDA0002537790440000121
为词xi的训练集中人工标注的正确关系;
Figure BDA0002537790440000122
表示词xi的第j个有关系的实体,
Figure BDA0002537790440000123
表示词xi
Figure BDA0002537790440000124
间的训练集中人工标注的正确关系,第k个关系表示为
Figure BDA0002537790440000125
为词xi
Figure BDA0002537790440000126
间有关系
Figure BDA0002537790440000127
的概率。
进一步的,所述模型训练模块12具体用于通过所述BERT层对句子进行划分,将划分出的每个词转换为对应的向量,然后将转换出的向量输入至编码器编码,以得到所述词向量。
所述实体关系联合抽取装置,还包括训练损失计算模块,用于计算训练损失;所述训练损失包括标签序列损失和表填充损失。
参见图6所示,本申请实施例公开了一种实体关系联合抽取设备,包括处理器21和存储器22;其中,所述存储器22,用于保存计算机程序;所述处理器21,用于执行所述计算机程序,以实现前述实施例公开的实体关系联合抽取方法。
关于上述实体关系联合抽取方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
参见图7所示,本申请实施例公开了一种电子终端20,包括前述实施例中公开的处理器21和存储器22。关于上述处理器21具体可以执行的步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步的,本实施例中的电子终端20,还可以具体包括电源23、通信接口24、输入输出接口25和通信总线26;其中,所述电源23用于为所述终端20上的各硬件设备提供工作电压;所述通信接口24能够为所述终端20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;所述输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
进一步的,本申请实施例还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的实体关系联合抽取方法。
关于上述实体关系联合抽取方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种实体关系联合抽取方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种实体关系联合抽取方法,其特征在于,包括:
获取训练样本数据;
利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算;
当获取到待进行实体关系抽取的目标文本,利用所述训练后模型输出对应的实体关系抽取结果。
2.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述实体关系抽取模型,还包括BERT层、NER层以及表填充层;
相应的,所述利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,包括:
将所述训练样本数据输入至所述BERT层,通过所述BERT层对句子进行划分,并将划分出的每个词映射为对应的词向量,以得到句子的上下文表示;
通过所述NER层对所述词向量进行线性CRF计算,得到对应的预测实体标记序列,以及将所述预测实体标记序列转换为对应的标签嵌入序列;
对所述词向量和所述标签嵌入序列进行拼接,得到目标向量;
通过所述表填充层对所述目标向量进行实体关系预测,得到对应的预测实体关系;
将所述预测实体关系输入至所述自注意力层进行注意力计算,得到对应的注意力计算后实体关系;
对所述注意力计算后实体关系与预定义关系向量进行内积运算,然后通过多标签分类器进行分类,得到每个词对应的实体关系。
3.根据权利要求2所述的实体关系联合抽取方法,其特征在于,还包括:
利用标签序列损失函数计算标签序列损失;其中,所述标签序列损失函数为
Figure FDA0002537790430000011
其中,τ为训练集,所述训练集包括全部所述训练样本数据,y*为词序列x的人工标注的正确关系,所述词序列为通过所述BERT层对句子进行划分,得到的序列,p(y*|x)为y*对应的概率值。
4.根据权利要求2所述的实体关系联合抽取方法,其特征在于,还包括:
利用表填充损失函数计算表填充损失;其中,所述表填充损失函数为
Figure FDA0002537790430000021
其中,LRE为表填充损失,τ为训练集,所述训练集包括全部所述训练样本数据,x为训练集τ句子中对应的词序列,
Figure FDA0002537790430000022
为词xi的训练集中人工标注的正确关系;
Figure FDA0002537790430000023
表示词xi的第j个有关系的实体,
Figure FDA0002537790430000024
表示词xi
Figure FDA0002537790430000025
间的训练集中人工标注的正确关系,第k个关系表示为
Figure FDA0002537790430000026
Figure FDA0002537790430000027
为词xi
Figure FDA0002537790430000028
间有关系
Figure FDA0002537790430000029
的概率。
5.根据权利要求2所述的实体关系联合抽取方法,其特征在于,所述通过所述BERT层对句子进行划分,并将划分出的每个词映射为对应的词向量,包括:
通过所述BERT层对句子进行划分,将划分出的每个词转换为对应的向量,然后将转换出的向量输入至编码器编码,以得到所述词向量。
6.根据权利要求2所述的实体关系联合抽取方法,其特征在于,还包括:
计算训练损失;所述训练损失包括标签序列损失和表填充损失。
7.一种实体关系联合抽取装置,其特征在于,包括:
数据获取模块,用于获取训练样本数据;
模型训练模块,用于利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算;
关系抽取模块,用于当获取到待进行实体关系抽取的目标文本,利用所述训练后模型输出对应的实体关系抽取结果。
8.根据权利要求7所述的实体关系联合抽取装置,其特征在于,
还包括训练损失计算模块,用于计算训练损失;所述训练损失包括标签序列损失和表填充损失。
9.一种实体关系联合抽取设备,其特征在于,包括处理器和存储器;其中,
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序以实现如权利要求1至6任一项所述的实体关系联合抽取方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的实体关系联合抽取方法。
CN202010538132.5A 2020-06-12 2020-06-12 一种实体关系联合抽取方法、装置、设备及介质 Active CN111666427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010538132.5A CN111666427B (zh) 2020-06-12 2020-06-12 一种实体关系联合抽取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010538132.5A CN111666427B (zh) 2020-06-12 2020-06-12 一种实体关系联合抽取方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111666427A true CN111666427A (zh) 2020-09-15
CN111666427B CN111666427B (zh) 2023-05-12

Family

ID=72387352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010538132.5A Active CN111666427B (zh) 2020-06-12 2020-06-12 一种实体关系联合抽取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111666427B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163092A (zh) * 2020-10-10 2021-01-01 成都数之联科技有限公司 实体及关系抽取方法及系统、装置、介质
CN112395407A (zh) * 2020-11-03 2021-02-23 杭州未名信科科技有限公司 企业实体关系的抽取方法、装置及存储介质
CN112819622A (zh) * 2021-01-26 2021-05-18 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN112818676A (zh) * 2021-02-02 2021-05-18 东北大学 一种医学实体关系联合抽取方法
CN112883736A (zh) * 2021-02-22 2021-06-01 零氪科技(北京)有限公司 医疗实体关系抽取方法和装置
CN112989788A (zh) * 2021-03-12 2021-06-18 平安科技(深圳)有限公司 关系三元组的提取方法、装置、设备及介质
CN113806493A (zh) * 2021-10-09 2021-12-17 中国人民解放军国防科技大学 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN114266245A (zh) * 2020-09-16 2022-04-01 北京金山数字娱乐科技有限公司 一种实体链接方法及装置
CN114548325A (zh) * 2022-04-26 2022-05-27 北京大学 基于对偶对比学习的零样本关系抽取方法和系统
CN115169350A (zh) * 2022-07-14 2022-10-11 中国电信股份有限公司 情报信息的处理方法、装置、设备、介质及程序

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109670050A (zh) * 2018-12-12 2019-04-23 科大讯飞股份有限公司 一种实体关系预测方法及装置
GB201904161D0 (en) * 2019-03-26 2019-05-08 Benevolentai Tech Limited Entity type identification for named entity recognition systems
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN111178074A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于深度学习的中文命名实体识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109670050A (zh) * 2018-12-12 2019-04-23 科大讯飞股份有限公司 一种实体关系预测方法及装置
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
GB201904161D0 (en) * 2019-03-26 2019-05-08 Benevolentai Tech Limited Entity type identification for named entity recognition systems
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN111178074A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于深度学习的中文命名实体识别方法
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张晓海;操新文;张敏;: "基于自注意力机制的军事命名实体识别" *
李卫疆,李 涛,漆 芳: "基于多特征自注意力BLSTM的中文实体关系抽取" *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266245A (zh) * 2020-09-16 2022-04-01 北京金山数字娱乐科技有限公司 一种实体链接方法及装置
CN112163092A (zh) * 2020-10-10 2021-01-01 成都数之联科技有限公司 实体及关系抽取方法及系统、装置、介质
CN112163092B (zh) * 2020-10-10 2022-07-12 成都数之联科技股份有限公司 实体及关系抽取方法及系统、装置、介质
CN112395407A (zh) * 2020-11-03 2021-02-23 杭州未名信科科技有限公司 企业实体关系的抽取方法、装置及存储介质
CN112395407B (zh) * 2020-11-03 2023-09-19 杭州未名信科科技有限公司 企业实体关系的抽取方法、装置及存储介质
CN112819622A (zh) * 2021-01-26 2021-05-18 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN112819622B (zh) * 2021-01-26 2023-10-17 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN112818676A (zh) * 2021-02-02 2021-05-18 东北大学 一种医学实体关系联合抽取方法
CN112818676B (zh) * 2021-02-02 2023-09-26 东北大学 一种医学实体关系联合抽取方法
CN112883736A (zh) * 2021-02-22 2021-06-01 零氪科技(北京)有限公司 医疗实体关系抽取方法和装置
CN112989788A (zh) * 2021-03-12 2021-06-18 平安科技(深圳)有限公司 关系三元组的提取方法、装置、设备及介质
CN113806493B (zh) * 2021-10-09 2023-08-29 中国人民解放军国防科技大学 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN113806493A (zh) * 2021-10-09 2021-12-17 中国人民解放军国防科技大学 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN114548325B (zh) * 2022-04-26 2022-08-02 北京大学 基于对偶对比学习的零样本关系抽取方法和系统
CN114548325A (zh) * 2022-04-26 2022-05-27 北京大学 基于对偶对比学习的零样本关系抽取方法和系统
CN115169350A (zh) * 2022-07-14 2022-10-11 中国电信股份有限公司 情报信息的处理方法、装置、设备、介质及程序
CN115169350B (zh) * 2022-07-14 2024-03-12 中国电信股份有限公司 情报信息的处理方法、装置、设备、介质及程序

Also Published As

Publication number Publication date
CN111666427B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及系统
CN108920461B (zh) 一种多类型且含复杂关系的实体抽取方法及装置
CN111461301B (zh) 序列化数据处理方法和装置、文本处理方法和装置
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
WO2021027125A1 (zh) 序列标注方法、装置、计算机设备和存储介质
CN114186084B (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN114780723B (zh) 基于向导网络文本分类的画像生成方法、系统和介质
CN114021573B (zh) 一种自然语言处理方法、装置、设备及可读存储介质
CN116136870A (zh) 基于增强实体表示的智能社交对话方法、对话系统
CN115658846A (zh) 一种适用于开源软件供应链的智能搜索方法及装置
CN115062134A (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN112182167B (zh) 一种文本匹配方法、装置、终端设备和存储介质
CN110210035B (zh) 序列标注方法、装置及序列标注模型的训练方法
CN114021572B (zh) 一种自然语言处理方法、装置、设备及可读存储介质
CN115983269A (zh) 一种智慧社区数据命名实体识别方法、终端及计算机介质
CN115129842A (zh) 一种用于户外变电站的智能问答方法及置于户外的机器人
CN114492377A (zh) 一种事件角色的标注方法和计算机设备、计算机可读存储介质
CN113836903A (zh) 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant