CN109992629A - 一种融合实体类型约束的神经网络关系抽取方法及系统 - Google Patents

一种融合实体类型约束的神经网络关系抽取方法及系统 Download PDF

Info

Publication number
CN109992629A
CN109992629A CN201910149696.7A CN201910149696A CN109992629A CN 109992629 A CN109992629 A CN 109992629A CN 201910149696 A CN201910149696 A CN 201910149696A CN 109992629 A CN109992629 A CN 109992629A
Authority
CN
China
Prior art keywords
vector
type
entity
relationship
entity type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910149696.7A
Other languages
English (en)
Other versions
CN109992629B (zh
Inventor
靳小龙
程学旗
席鹏弼
郭嘉丰
白龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201910149696.7A priority Critical patent/CN109992629B/zh
Publication of CN109992629A publication Critical patent/CN109992629A/zh
Application granted granted Critical
Publication of CN109992629B publication Critical patent/CN109992629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种融合实体类型约束的神经网络关系抽取方法及系统,包括对实体类型施加注意力机制,该机制对实体的多种类型分配了不同权重,从而凸显了影响最大的类型标签;在损失函数中添加实体类型约束函数,该约束函数在更新过程中使实体词向量学习到实体类型信息,从而实现实体类型对关系的约束。该技术增强了模型对通用方法无法区别关系的识别能力。

Description

一种融合实体类型约束的神经网络关系抽取方法及系统
技术领域
本发明属于大数据分析中关系抽取领域,并特别涉及一种融合实体类型约束的神经网络关系抽取方法及系统。
背景技术
信息抽取是自然语言处理领域的一个子领域,它的目标是从非结构化数据中挖掘结构化信息。关系抽取是信息抽取的一项关键技术,其目的是挖掘实体之间存在的语义关系。关系抽取对于知识库自动构建、问答系统等领域有着极为重要的意义。
现有的关系抽取方法可以分为四类,分别是有监督关系抽取、半监督关系抽取、远程监督关系抽取和无监督关系抽取。由于远程监督关系抽取方法能够极大地减少标注成本,因而近来受到了人们的关注。
远程监督关系抽取采用如下方法标注数据:假如两个实体之间存在某种关系,那么所有这两个实体共现的句子都有可能表达了这种关系。根据这一方法,可以通过外部知识库代替人对语料进行标注,从而低成本地获取大量有标注数据,通过分类方法进行关系抽取。当前远程监督关系抽取的基本方法是多实例多标签学习方法,具体地说,该方法将一个实体对共现的所有句子聚合成句袋,并对句袋进行关系预测。结合神经网络技术,当前远程监督关系抽取方法利用句子编码器将句子编码为向量,然后通过注意力机制将句子向量聚合成句袋向量,在句袋向量上进行。
现有方法并未考虑到实体的类型信息对关系的约束作用,导致句式相似而类型不同的实体可能被判断为表达了相同的关系。发明人在进行远程监督关系抽取研究时,发现现有技术中该项缺陷是由缺乏实体类型信息导致的,现有方法过于依赖相似句式和词向量信息,并未考虑实体词的类型等语义信息,例如句子“…inrural Bihar state innorthernIndia…”中,实体Bihar和India之间应当具有/location/administrative_division/country关系,而现有方法预测为/location/location/contains关系,这就是未能识别Bihar是一个行政区。发明人经过研究发现,解决该项缺陷可通过在损失函数中加入对实体类型的约束来实现。
发明内容
本发明的目的是解决基于神经网络的关系抽取模型缺乏实体类型信息而导致部分实体间的关系预测错误的问题,使用本发明提出的方法可以将实体信息融入神经网络模型中,从而提升神经网络模型对于实体间关系的预测准确率。
为了实现上述目的,本发明提出了一种融合实体类型信息的神经网络关系抽取方法。通过在训练过程中对模型施加实体类型约束,从而将实体类型信息融入实体的词向量表示中,并增强神经网络模型对于实体类型的识别能力。
具体来说,本发明公开了一种融合实体类型约束的神经网络关系抽取方法,其中包括:
预测步骤,获取训练句袋,该训练句袋包括实体对共现的多个句子,每个训练句袋对应一个表示实体间关系的三元组,将该训练句袋中句子编码为句子向量,并通过注意力机制将该句子向量聚合为句袋向量,将该句袋向量输入至预测模型得到训练句袋对应各关系类型的概率;
约束步骤,为该训练句袋中涉及的实体标记实体类型,并将该实体类型向量化,得到类型向量,根据实体间关系的注意力向量得到每个该类型向量的权重,根据该权重使用注意力机制将该类型向量聚合,以曼哈顿距离表示该实体类型对词向量的约束;
更新步骤,根据该曼哈顿距离和该关系类型计算损失函数,并对该预测模型进行更新,直到该损失函数收敛,将当前预测模型作为最终模型;
抽取步骤,依次将具有不同关系注意力的待抽取句袋输入该最终模型,得到多个该待抽取句袋的预测结果,将每个关系注意力下的预测结果聚合为最终预测结果。
所述的融合实体类型约束的神经网络关系抽取方法,其中该约束步骤具体包括:
为该训练句袋中涉及的实体e标记实体类型ve,1,ve,2,…,并将该实体类型转换为实体类型向量te,1,te,2,…;
根据该三元组中关系的向量rj,得到关系的注意力向量T为矩阵转置,代表将关系向量rj投影到实体类型向量空间Rt
根据该关系的注意力向量,得到每种类型的分数te,i代表实体e的第i种实体类型对应的实体类型向量;
根据每种类型的分数,得到每个该类型向量的权重k为实体类型种类总数,βi代表第i个该类型向量的权重,exp代表指数函数;
通过注意力机制将该类型向量聚合te=∑iβite,i
得到以该曼哈顿距离表示的距离损失Lt(e)=|we-te|1,其中we为实体e的词向量。
所述的融合实体类型约束的神经网络关系抽取方法,其中该更新步骤包括:
构建关系概率预测损失函数LB=-logP(rj|B),其中P(rj|B)为句袋B对应关系rj类型的概率;
构建实体距离损失函数LC=Lt(e1)+Lt(e2);
根据该实体距离损失函数和关系概率预测损失函数,构建整体损失函数L=LB+λLC,使用该整体损失函数对该预测模型进行更新,直到该损失函数收敛。
所述的融合实体类型约束的神经网络关系抽取方法,其中该约束步骤包括:通过实体类型识别,得到该实体类型。
所述的融合实体类型约束的神经网络关系抽取方法,其中该约束步骤包括:通过查找知识库,得到该实体类型。
本发明还公开了一种融合实体类型约束的神经网络关系抽取系统,其中包括:
预测模块,获取训练句袋,该训练句袋包括实体对共现的多个句子,每个训练句袋对应一个表示实体间关系的三元组,将该训练句袋中句子编码为句子向量,并通过注意力机制将该句子向量聚合为句袋向量,将该句袋向量输入至预测模型得到训练句袋对应各关系类型的概率;
约束模块,为该训练句袋中涉及的实体标记实体类型,并将该实体类型向量化,得到类型向量,根据实体间关系的注意力向量得到每个该类型向量的权重,根据该权重使用注意力机制将该类型向量聚合,以曼哈顿距离表示该实体类型对词向量的约束;
更新模块,根据该曼哈顿距离和该关系类型计算损失函数,并对该预测模型进行更新,直到该损失函数收敛,将当前预测模型作为最终模型;
抽取模块,依次将具有不同关系注意力的待抽取句袋输入该最终模型,得到多个该待抽取句袋的预测结果,将每个关系注意力下的预测结果聚合为最终预测结果。
所述的融合实体类型约束的神经网络关系抽取系统,其中该约束模块具体包括:
为该训练句袋中涉及的实体e标记实体类型ve,1,ve,2,…,并将该实体类型转换为实体类型向量te,1,te,2,…;
根据该三元组中关系的向量rj,得到关系的注意力向量T为矩阵转置,代表将关系向量rj投影到实体类型向量空间Rt
根据该关系的注意力向量,得到每种类型的分数te,i代表实体e的第i种实体类型对应的实体类型向量;
根据每种类型的分数,得到每个该类型向量的权重k为实体类型种类总数,βi代表第i个该类型向量的权重,exp代表指数函数;
通过注意力机制将该类型向量聚合te=∑iβite,i
得到以该曼哈顿距离表示的距离损失Lt(e)=|we-te|1,其中we为实体e的词向量。
所述的融合实体类型约束的神经网络关系抽取系统,其中该更新模块包括:
构建关系概率预测损失函数LB=-logP(rj|B),其中P(rj|B)为句袋B对应关系rj类型的概率;
构建实体距离损失函数LC=Lt(e1)+Lt(e2);
根据该实体距离损失函数和关系概率预测损失函数,构建整体损失函数L=LB+λLC,使用该整体损失函数对该预测模型进行更新,直到该损失函数收敛。
所述的融合实体类型约束的神经网络关系抽取系统,其中该约束模块包括:通过实体类型识别,得到该实体类型。
所述的融合实体类型约束的神经网络关系抽取系统,其中该约束模块包括:通过查找知识库,得到该实体类型。
本发明通过融合实体信息的方法提升了句式相似但语义不同的情况下,关系抽取模型在实体类型信息方面的识别能力,从而提升关系抽取结果的准确性。本发明使用了公开数据集NYT对模型进行评估。该数据集是将纽约时报语料对齐到Freebase数据库上产生的标注数据。该数据集一共有522611条训练样本,172448条测试样本。相比现有方法,本发明的方法在关系抽取的表现上有显著提升。本发明的方法在不同召回率等级下,准确率均高于现有方法。
附图说明
图1为模型结构图;
图2为模型训练部分流程图;
图3为模型推断部分流程图;
图4为添加实体约束流程图;
图5为准确率-召回率曲线图。
具体实施细节
本发明的关键点在于:对实体类型施加注意力机制,该机制对实体的多种类型(实体类型)分配了不同权重,从而凸显了影响最大的类型标签;在损失函数中添加实体类型约束函数,该约束函数在更新过程中使实体词向量学习到实体类型信息,从而实现实体类型对关系的约束。该技术增强了模型对通用方法无法区别关系的识别能力。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明提出了一种融合实体类型约束的神经网络关系抽取方法,所涉及方法基于将词和类型向量化,并进行一定的矩阵运算,从而得到在每个关系上的预测概率,其中矩阵运算部分采用了神经网络模型,图1中包含本发明所用神经网络结构图。本发明分为模型训练阶段和模型推断阶段。模型训练阶段分为两部分,第一部分是关系概率预测,第二部分是实体类型约束。在关系概率预测部分,首先将句子编码为向量,然后通过注意力机制将句子向量聚合为句袋向量,再根据句袋向量对每种关系进行打分,其中每种关系为预设数据。在实体类型约束部分,首先将实体类型嵌入为类型向量,再通过注意力机制对类型向量进行聚合,然后计算该类型向量与对应实体的距离,将距离作为损失,其中该实体类型可根据现有知识库得到,亦可通过实体类型识别方法得到。计算完两部分之后,将关系概率预测的负对数似然与类型约束的和作为损失函数,采用随机梯度下降法对模型参数进行优化。测试阶段只需要输出训练阶段的关系概率。方法分为模型训练阶段和模型推断阶段。在模型训练阶段,不断地重复以下步骤S:
步骤S1、随机从多个训练句袋中挑选一个句袋(训练句袋),该句袋包含某一个实体对共现的所有句子;
步骤S2、将句袋中的所有句子编码为向量表示,得到句子向量;
步骤S3、通过注意力机制将句子向量聚合为句袋向量;
步骤S4、通过句袋向量预测句袋(即实体对)的关系类型;
步骤S5、对预测结果施加实体类型约束,进行如下处理:
步骤S501、通过查询知识库或通过实体类型识别,找出对应实体所有的实体类型标签;
步骤S502、将实体类型标签转换为向量表示,得到实体类型向量;
步骤S503、根据关系注意力,得到每个实体类型向量的分数和权重;
步骤S504、将实体类型向量聚合;
步骤S505、实体类型对词向量的约束,可以表示为两者的曼哈顿距离。
步骤S6、根据预测结果和实体类型约束计算损失函数,并对模型参数进行更新;
直到参数收敛,即损失函数在一个较小的预设范围内波动。
在模型推断阶段,对于每一个待预测的句袋,模型执行如下步骤S(如图3):
步骤S7、为句袋选定关系注意力。推断阶段,对于每个句袋,依次将每种关系作为句袋的关系注意力,分别预测;
步骤S8、执行步骤S1到S4,预测该句袋的关系类型;
步骤S9、回到步骤S7,选择新的关系注意力;
步骤S10、将在每个关系注意力下的预测结果聚合为最终预测结果。
模型训练阶段,重复以下步骤S直到参数收敛(如图2):
步骤S1、挑选一个句袋B,该句袋包含句子{S1,S2,…},且该句袋对应三元组<e1,rj,e2>,ei为第i个实体,rj为实体之间具有的第j种关系;
步骤S2、句子编码:
S201.对每个句子Si,将其中每个词{w1,w2,…,wn}转换为向量表达{we1,we2,…,wen}
S202.对句子中的每个词wk(k=1,2,…,n),计算其到该句中头实体和尾实体的距离wp1,k和wp2,k
S203.将距离根据最大长度maxdistance进行截断,即当长度大于maxdistance或小于-maxdistance时,使其等于maxdistance和-maxdistance。
S204.将距离转换为向量表达{wp1,1,wp1,2,…,wp1,n}和{wp2,1,wp2,2,…,wp2,n}
S205.将词的向量表达和距离的向量表达拼接成为输入序列{w1,w2,…,wn}
S206.采用nc个窗口为w的卷积核,对输入序列进行卷积操作,得到特征张量
S207.对特征张量采用分块池化的操作:若句子中的头实体下标和尾实体下标分别为pos1和pos2,则
S208.将池化后的特征张量拉成一个向量c。
S209.使用双曲正切激活函数得到句子的向量表达si=tanh(c)。
步骤S3、通过注意力机制将句子表示聚合为句袋表示
S301.根据所选关系的向量rj得到其句子注意力向量式中T代表转置,代表将向量rj投影到句子向量空间Rs
S302.得到每个句子的分数
S303.得到每个句子的权重
S304.将句子向量聚合为句袋向量b=∑iαisi
步骤S4、通过句袋表示预测句袋在每种关系上的概率
S401.得到句袋在每个句子上的分值
S402.计算关系rj作为注意力的情况下rj的预测概率
步骤S5、实体类型约束(如图4):
S501.对实体e,得到其实体类型ve,1,ve,2,…转换为实体类型向量te,1,te,2,…;
S502.根据所选关系的向量rj得到所选关系的类型注意力向量 含义与上文Rs类似,是将向量rj投影到实体类型向量空间Rt
S503.得到每种类型的分数te,i代表实体e的第i种实体类型对应的实体类型向量;
S504.得到每种类型的权重k为实体类型种类总数,βi代表第i个该类型向量的权重,exp代表指数函数;
S505.通过注意力机制将类型向量聚合te=∑iβite,i
S506.计算距离损失Lt(e)=|we-te|1,其中we为实体e的词向量。
步骤S6、参数更新:
S601.关系概率预测损失函数LB=-logP(rj|B);
S602.实体距离损失函数LC=Lt(e1)+Lt(e2);e1、e2为步骤S1中的e1、e2,均代表相应实体。
S603.整体损失函数L=LB+λLC;式中λ代表超参数。
S604.使用随机梯度下降法进行参数更新,参数指的是神经网络中所有待训练参数,包含:词向量、位置向量、类型向量、关系向量、卷积核等。
模型推断阶段(如图3),对每个待预测句袋B:
步骤S7、选取一个关系注意力r。
步骤S8、执行步骤S1到步骤S4,在关系注意力为r的情况下预测句袋的关系为R的概率P(R|B,r)。
步骤S9、重复S7到S8,更换一个用于注意力的关系r,直到所有的关系都被用于作为注意力。
步骤S10、将一个句袋在不同关系注意力下的预测结果聚合。
与已有技术相比,本发明方法充分利用了实体类型信息,辅助关系抽取模型达到了更好的抽取效果。实验结果以准确率-召回率曲线的形式呈现,如图5。其中,PCNN+ATT+T是本发明的方法,PCNN+ATT+TrD是将本发明中实体类型约束替换了PCNN+ATT+D中的实体描述信息,其他方法均为现有方法。由图可见,本发明所提出的方法在不同召回率水平下的准确率均高于现有方法。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还公开了一种融合实体类型约束的神经网络关系抽取系统,其中包括:
预测模块,获取训练句袋,该训练句袋包括实体对共现的多个句子,每个训练句袋对应一个表示实体间关系的三元组,将该训练句袋中句子编码为句子向量,并通过注意力机制将该句子向量聚合为句袋向量,将该句袋向量输入至预测模型得到训练句袋对应各关系类型的概率;
约束模块,为该训练句袋中涉及的实体标记实体类型,并将该实体类型向量化,得到类型向量,根据实体间关系的注意力向量得到每个该类型向量的权重,根据该权重使用注意力机制将该类型向量聚合,以曼哈顿距离表示该实体类型对词向量的约束;
更新模块,根据该曼哈顿距离和该关系类型计算损失函数,并对该预测模型进行更新,直到该损失函数收敛,将当前预测模型作为最终模型;
抽取模块,依次将具有不同关系注意力的待抽取句袋输入该最终模型,得到多个该待抽取句袋的预测结果,将每个关系注意力下的预测结果聚合为最终预测结果。
所述的融合实体类型约束的神经网络关系抽取系统,其中该约束模块具体包括:
为该训练句袋中涉及的实体e标记实体类型ve,1,ve,2,…,并将该实体类型转换为实体类型向量te,1,te,2,…;
根据该三元组中关系的向量rj,得到关系的注意力向量T为矩阵转置,代表将关系向量rj投影到实体类型向量空间Rt
根据该关系的注意力向量,得到每种类型的分数te,i代表实体e的第i种实体类型对应的实体类型向量;
根据每种类型的分数,得到每个该类型向量的权重k为实体类型种类总数,βi代表第i个该类型向量的权重,exp代表指数函数;
通过注意力机制将该类型向量聚合te=∑iβite,i
得到以该曼哈顿距离表示的距离损失Lt(e)=|we-te|1,其中we为实体e的词向量。
所述的融合实体类型约束的神经网络关系抽取系统,其中该更新模块包括:
构建关系概率预测损失函数LB=-logP(rj|B),其中P(rj|B)为句袋B对应关系rj类型的概率;
构建实体距离损失函数LC=Lt(e1)+Lt(e2);
根据该实体距离损失函数和关系概率预测损失函数,构建整体损失函数L=LB+λLC,使用该整体损失函数对该预测模型进行更新,直到该损失函数收敛。
所述的融合实体类型约束的神经网络关系抽取系统,其中该约束模块包括:通过实体类型识别,得到该实体类型。
所述的融合实体类型约束的神经网络关系抽取系统,其中该约束模块包括:通过查找知识库,得到该实体类型。

Claims (10)

1.一种融合实体类型约束的神经网络关系抽取方法,其特征在于,包括:
预测步骤,获取训练句袋,该训练句袋包括实体对共现的多个句子,每个训练句袋对应一个表示实体间关系的三元组,将该训练句袋中句子编码为句子向量,并通过注意力机制将该句子向量聚合为句袋向量,将该句袋向量输入至预测模型得到训练句袋对应各关系类型的概率;
约束步骤,为该训练句袋中涉及的实体标记实体类型,并将该实体类型向量化,得到类型向量,根据实体间关系的注意力向量得到每个该类型向量的权重,根据该权重使用注意力机制将该类型向量聚合,以曼哈顿距离表示该实体类型对词向量的约束;
更新步骤,根据该曼哈顿距离和该关系类型计算损失函数,并对该预测模型进行更新,直到该损失函数收敛,将当前预测模型作为最终模型;
抽取步骤,依次将具有不同关系注意力的待抽取句袋输入该最终模型,得到多个该待抽取句袋的预测结果,将每个关系注意力下的预测结果聚合为最终预测结果。
2.如权利要求1所述的融合实体类型约束的神经网络关系抽取方法,其特征在于,该约束步骤具体包括:
为该训练句袋中涉及的实体e标记实体类型ve,1,ve,2,…,并将该实体类型转换为实体类型向量te,1,te,2,…;
根据该三元组中关系的向量rj,得到关系的注意力向量T为矩阵转置,代表将关系向量rj投影到实体类型向量空间Rt
根据该关系的注意力向量,得到每种类型的分数te,i代表实体e的第i种实体类型对应的实体类型向量;
根据每种类型的分数,得到每个该类型向量的权重k为实体类型种类总数,βi代表第i个该类型向量的权重,exp代表指数函数;
通过注意力机制将该类型向量聚合te=∑iβite,i
得到以该曼哈顿距离表示的距离损失Lt(e)=|we-te|1,其中we为实体e的词向量。
3.如权利要求2所述的融合实体类型约束的神经网络关系抽取方法,其特征在于,该更新步骤包括:
构建关系概率预测损失函数LB=-logP(rj|B),其中P(rj|B)为句袋B对应关系rj类型的概率;
构建实体距离损失函数LC=Lt(e1)+Lt(e2);
根据该实体距离损失函数和关系概率预测损失函数,构建整体损失函数L=LB+λLC,使用该整体损失函数对该预测模型进行更新,直到该损失函数收敛。
4.如权利要求1-3中所述的任一种融合实体类型约束的神经网络关系抽取方法,其特征在于,该约束步骤包括:通过实体类型识别,得到该实体类型。
5.如权利要求1-3中所述的任一种融合实体类型约束的神经网络关系抽取方法,其特征在于,该约束步骤包括:通过查找知识库,得到该实体类型。
6.一种融合实体类型约束的神经网络关系抽取系统,其特征在于,包括:
预测模块,获取训练句袋,该训练句袋包括实体对共现的多个句子,每个训练句袋对应一个表示实体间关系的三元组,将该训练句袋中句子编码为句子向量,并通过注意力机制将该句子向量聚合为句袋向量,将该句袋向量输入至预测模型得到训练句袋对应各关系类型的概率;
约束模块,为该训练句袋中涉及的实体标记实体类型,并将该实体类型向量化,得到类型向量,根据实体间关系的注意力向量得到每个该类型向量的权重,根据该权重使用注意力机制将该类型向量聚合,以曼哈顿距离表示该实体类型对词向量的约束;
更新模块,根据该曼哈顿距离和该关系类型计算损失函数,并对该预测模型进行更新,直到该损失函数收敛,将当前预测模型作为最终模型;
抽取模块,依次将具有不同关系注意力的待抽取句袋输入该最终模型,得到多个该待抽取句袋的预测结果,将每个关系注意力下的预测结果聚合为最终预测结果。
7.如权利要求6所述的融合实体类型约束的神经网络关系抽取系统,其特征在于,该约束模块具体包括:
为该训练句袋中涉及的实体e标记实体类型ve,1,ve,2,…,并将该实体类型转换为实体类型向量te,1,te,2,…;
根据该三元组中关系的向量rj,得到关系的注意力向量T为矩阵转置,代表将关系向量rj投影到实体类型向量空间Rt
根据该关系的注意力向量,得到每种类型的分数te,i代表实体e的第i种实体类型对应的实体类型向量;
根据每种类型的分数,得到每个该类型向量的权重k为实体类型种类总数,βi代表第i个该类型向量的权重,exp代表指数函数;
通过注意力机制将该类型向量聚合te=∑iβite,i
得到以该曼哈顿距离表示的距离损失Lt(e)=|we-te|1,其中we为实体e的词向量。
8.如权利要求7所述的融合实体类型约束的神经网络关系抽取系统,其特征在于,该更新模块包括:
构建关系概率预测损失函数LB=-logP(rj|B),其中P(rj|B)为句袋B对应关系rj类型的概率;
构建实体距离损失函数LC=Lt(e1)+Lt(e2);
根据该实体距离损失函数和关系概率预测损失函数,构建整体损失函数L=LB+λLC,使用该整体损失函数对该预测模型进行更新,直到该损失函数收敛。
9.如权利要求6-8中所述的任一种融合实体类型约束的神经网络关系抽取系统,其特征在于,该约束模块包括:通过实体类型识别,得到该实体类型。
10.如权利要求6-8中所述的任一种融合实体类型约束的神经网络关系抽取系统,其特征在于,该约束模块包括:通过查找知识库,得到该实体类型。
CN201910149696.7A 2019-02-28 2019-02-28 一种融合实体类型约束的神经网络关系抽取方法及系统 Active CN109992629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910149696.7A CN109992629B (zh) 2019-02-28 2019-02-28 一种融合实体类型约束的神经网络关系抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910149696.7A CN109992629B (zh) 2019-02-28 2019-02-28 一种融合实体类型约束的神经网络关系抽取方法及系统

Publications (2)

Publication Number Publication Date
CN109992629A true CN109992629A (zh) 2019-07-09
CN109992629B CN109992629B (zh) 2021-08-06

Family

ID=67130073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910149696.7A Active CN109992629B (zh) 2019-02-28 2019-02-28 一种融合实体类型约束的神经网络关系抽取方法及系统

Country Status (1)

Country Link
CN (1) CN109992629B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532368A (zh) * 2019-09-04 2019-12-03 深圳前海达闼云端智能科技有限公司 问答方法、电子设备及计算机可读存储介质
CN110543634A (zh) * 2019-09-02 2019-12-06 北京邮电大学 语料数据集的处理方法、装置、电子设备及存储介质
CN110555084A (zh) * 2019-08-26 2019-12-10 电子科技大学 基于pcnn和多层注意力的远程监督关系分类方法
CN110807069A (zh) * 2019-10-23 2020-02-18 华侨大学 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN111062214A (zh) * 2019-11-25 2020-04-24 中国科学院计算技术研究所 基于深度学习的集成实体链接方法及系统
CN111125370A (zh) * 2019-12-06 2020-05-08 南京中新赛克科技有限责任公司 一种适应小样本的关系抽取方法
CN111160049A (zh) * 2019-12-06 2020-05-15 华为技术有限公司 文本翻译方法、装置、机器翻译系统和存储介质
CN111563374A (zh) * 2020-03-23 2020-08-21 北京交通大学 一种基于司法裁判文书的人员社交关系抽取方法
CN111832287A (zh) * 2020-07-22 2020-10-27 广东工业大学 一种实体关系联合抽取方法及装置
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN112395393A (zh) * 2020-11-27 2021-02-23 华东师范大学 一种基于多任务多示例的远程监督关系抽取方法
CN112463982A (zh) * 2020-11-27 2021-03-09 华东师范大学 一种基于显隐式实体约束的关系抽取方法
CN114238524A (zh) * 2021-12-21 2022-03-25 军事科学院系统工程研究院网络信息研究所 基于增强样本模型的卫星频轨数据信息抽取方法
CN116090449A (zh) * 2022-11-16 2023-05-09 北京京航计算通讯研究所 一种质量问题分析报告的实体关系抽取方法及系统
WO2024098636A1 (zh) * 2022-11-08 2024-05-16 华院计算技术(上海)股份有限公司 文本匹配方法及装置、计算机可读存储介质、终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915448A (zh) * 2015-06-30 2015-09-16 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备
WO2018218705A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN108959474A (zh) * 2018-06-20 2018-12-07 上海交通大学 实体关系提取方法
CN109271529A (zh) * 2018-10-10 2019-01-25 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915448A (zh) * 2015-06-30 2015-09-16 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
WO2018218705A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备
CN108959474A (zh) * 2018-06-20 2018-12-07 上海交通大学 实体关系提取方法
CN109271529A (zh) * 2018-10-10 2019-01-25 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHAE-GYUN LIM 等: "LSTM-Based Model for Extracting Temporal Relations from Korean Text", 《2018 IEEE INTERNATIONAL CONFERENCE ON BIG DATA AND SMART COMPUTING》 *
延浩然: "一种改进的实体关系抽取算法——OptMultiR", 《中文信息学报》 *
李枫林 等: "基于深度学习框架的实体关系抽取研究进展", 《情报科学》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555084A (zh) * 2019-08-26 2019-12-10 电子科技大学 基于pcnn和多层注意力的远程监督关系分类方法
CN110555084B (zh) * 2019-08-26 2023-01-24 电子科技大学 基于pcnn和多层注意力的远程监督关系分类方法
CN110543634A (zh) * 2019-09-02 2019-12-06 北京邮电大学 语料数据集的处理方法、装置、电子设备及存储介质
CN110543634B (zh) * 2019-09-02 2021-03-02 北京邮电大学 语料数据集的处理方法、装置、电子设备及存储介质
CN110532368A (zh) * 2019-09-04 2019-12-03 深圳前海达闼云端智能科技有限公司 问答方法、电子设备及计算机可读存储介质
CN110807069B (zh) * 2019-10-23 2022-06-07 华侨大学 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN110807069A (zh) * 2019-10-23 2020-02-18 华侨大学 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN111062214A (zh) * 2019-11-25 2020-04-24 中国科学院计算技术研究所 基于深度学习的集成实体链接方法及系统
CN111125370A (zh) * 2019-12-06 2020-05-08 南京中新赛克科技有限责任公司 一种适应小样本的关系抽取方法
CN111160049A (zh) * 2019-12-06 2020-05-15 华为技术有限公司 文本翻译方法、装置、机器翻译系统和存储介质
CN111160049B (zh) * 2019-12-06 2023-06-06 华为技术有限公司 文本翻译方法、装置、机器翻译系统和存储介质
CN111563374A (zh) * 2020-03-23 2020-08-21 北京交通大学 一种基于司法裁判文书的人员社交关系抽取方法
CN111832287A (zh) * 2020-07-22 2020-10-27 广东工业大学 一种实体关系联合抽取方法及装置
CN111832287B (zh) * 2020-07-22 2024-04-19 广东工业大学 一种实体关系联合抽取方法及装置
CN111914558B (zh) * 2020-07-31 2024-04-16 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN112395393A (zh) * 2020-11-27 2021-02-23 华东师范大学 一种基于多任务多示例的远程监督关系抽取方法
CN112395393B (zh) * 2020-11-27 2022-09-30 华东师范大学 一种基于多任务多示例的远程监督关系抽取方法
CN112463982A (zh) * 2020-11-27 2021-03-09 华东师范大学 一种基于显隐式实体约束的关系抽取方法
CN114238524A (zh) * 2021-12-21 2022-03-25 军事科学院系统工程研究院网络信息研究所 基于增强样本模型的卫星频轨数据信息抽取方法
WO2024098636A1 (zh) * 2022-11-08 2024-05-16 华院计算技术(上海)股份有限公司 文本匹配方法及装置、计算机可读存储介质、终端
CN116090449A (zh) * 2022-11-16 2023-05-09 北京京航计算通讯研究所 一种质量问题分析报告的实体关系抽取方法及系统
CN116090449B (zh) * 2022-11-16 2024-05-14 北京京航计算通讯研究所 一种质量问题分析报告的实体关系抽取方法及系统

Also Published As

Publication number Publication date
CN109992629B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN109992629A (zh) 一种融合实体类型约束的神经网络关系抽取方法及系统
CN110825881B (zh) 一种建立电力知识图谱的方法
CN110334354B (zh) 一种中文关系抽取方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN109359293B (zh) 基于神经网络的蒙古文命名实体识别方法及其识别系统
US11151984B2 (en) Multi-language mixed speech recognition method
Jiang et al. Evaluating BERT for natural language inference: A case study on the CommitmentBank
CN107133220A (zh) 一种地理学科领域命名实体识别方法
CN110309514A (zh) 一种语义识别方法及装置
CN108133038A (zh) 一种基于动态记忆网络的实体级别情感分类系统及方法
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
CN107818164A (zh) 一种智能问答方法及其系统
CN107293291A (zh) 一种基于自适应学习率的端到端的语音识别方法
CN108763201A (zh) 一种基于半监督学习的开放域中文文本命名实体识别方法
CN107526834A (zh) 联合词性与词序的相关因子训练的word2vec改进方法
CN108491382A (zh) 一种半监督生物医学文本语义消歧方法
CN110263325A (zh) 中文分词系统
CN111160005A (zh) 基于事件演化知识本体的事件预测方法、装置及终端设备
CN112183064B (zh) 基于多任务联合学习的文本情绪原因识别系统
CN107180084A (zh) 词库更新方法及装置
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
CN110826316A (zh) 一种应用于裁判文书中敏感信息的识别方法
CN115309915B (zh) 知识图谱构建方法、装置、设备和存储介质
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant