CN114330323A - 实体关系联合抽取方法、装置、计算机终端及存储介质 - Google Patents

实体关系联合抽取方法、装置、计算机终端及存储介质 Download PDF

Info

Publication number
CN114330323A
CN114330323A CN202210217727.XA CN202210217727A CN114330323A CN 114330323 A CN114330323 A CN 114330323A CN 202210217727 A CN202210217727 A CN 202210217727A CN 114330323 A CN114330323 A CN 114330323A
Authority
CN
China
Prior art keywords
tensor
text
scoring
feature
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210217727.XA
Other languages
English (en)
Other versions
CN114330323B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shulian Cloud Computing Technology Co ltd
Original Assignee
Chengdu Shulian Cloud Computing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shulian Cloud Computing Technology Co ltd filed Critical Chengdu Shulian Cloud Computing Technology Co ltd
Priority to CN202210217727.XA priority Critical patent/CN114330323B/zh
Publication of CN114330323A publication Critical patent/CN114330323A/zh
Application granted granted Critical
Publication of CN114330323B publication Critical patent/CN114330323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种实体关系联合抽取方法、装置、计算机终端及存储介质。该实体关系联合抽取方法包括:基于文本数据得到文本张量;根据所述文本张量,获取文本的头特征张量和尾特征张量;将所述头特征张量和转置后的所述尾特征张量进行特征融合,得到融合张量;将所述融合张量输入卷积神经网络中,得到打分张量;将所述打分张量输入预测模型中,得到所述打分张量中各个元素在实体和关系的标签空间的概率分布数据,并根据所述概率分布数据输出抽取结果。在自然语言处理中,在二维矩阵上使用卷积神经网络进一步提取特征,实现了主体、客体、关系联合抽取,不仅能大大降低计算量,而且可以提高三元组抽取的准确率。

Description

实体关系联合抽取方法、装置、计算机终端及存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及实体关系联合抽取方法、装置、计算机终端及存储介质。
背景技术
最常用的实体及关系抽取方法有两种,一种是以pipeline为代表的流水线抽取方法,另一种是实体关系联合抽取方法。流水线抽取方法认为实体和关系属于不同的语义空间,需将实体和关系的抽取分为两个任务,分别为命名实体识别和关系分类,这种抽取方法存在错误传递和冗余实体等问题。实体关系联合抽取方法认为实体和关系属于同一个语义空间,需要将实体特征和关系特征充分融合后对一个模型进行联合训练,以达到实体和关系相互促进的目的。
现有方案中的实体关系联合抽取可以在一定程度上提高抽取的准确率。但是用一维向量表示每条文本的特征信息,计算量巨大而且不能充分融合实体识别、关系抽取两个子任务的特征,使得三元组抽取准确率提升有限。
发明内容
有鉴于此,本申请提供一种实体关系联合抽取方法,包括:
基于文本数据得到文本张量;
根据所述文本张量,获取文本的头特征张量和尾特征张量;
将所述头特征张量和转置后的所述尾特征张量进行特征融合,得到融合张量;
将所述融合张量输入卷积神经网络中,得到打分张量;
将所述打分张量输入预测模型中,得到所述打分张量中各个元素在实体和关系的标签空间的概率分布数据,并根据所述概率分布数据输出抽取结果。
在一个实施例中,所述头特征张量和尾特征张量的获得方法包括:
将所述文本张量分别输入提取头特征全连接神经网络和提取尾特征全连接神经网络,得到头文本特征和尾文本特征;
将所述头文本特征复制预定数量份并对所有的所述头文本特征进行拼接操作,得到所述头特征张量;用于以张量的形式代表所述文本数据的头特征。
将所述尾文本特征复制预定数量份并对所有的所述头尾本特征进行拼接操作,得到所述尾特征张量。用于以张量的形式代表所述文本数据的尾特征。
在一个实施例中,所述根据所述概率分布数据输出抽取结果包括:
根据所述概率分布数据,确定所述打分张量中各个元素对应概率最高的实体和关系标签,将所述标签作为对应元素的结果标签;使得打分张量中每个融合过的元素都得到了自身的实体关系标签。
根据所述各个元素的结果标签,以及所述各个元素和所述文本数据的对应关系,从所述文本数据中抽取出实体和关系,将所述实体和关系作为所述抽取结果。
在一个实施例中,所述基于文本数据得到文本张量包括:
将文本数据进行数据清洗,得到清洗后的文本数据;保证文本数据在进行特征提取时不会有别的干扰。
将所述清洗后的文本数据输入文本特征模型,得到所述文本张量。
在一个实施例中,所述将所述头特征张量和所述尾特征张量进行特征融合的公式为:
式中D为所述融合张量,Dhead为所述头特征张量,Dtail为所述尾特征张量,T为转置符号。使得文本数据在二维空间上融合,使得实体识别和关系抽取两个子任务的特征融合。
在一个实施例中,所述得到所述打分张量中各个元素在实体和关系标签空间的概率分布数据后还包括:
根据最终损失函数对所述卷积神经网络进行参数更新;所述最终损失函数基于标注损失函数、对称性损失函数和蕴含性损失函数得到。
在一个实施例中,所述标注损失函数的公式为:
Figure F_220303103123272_272567002
式中
Figure F_220303103123366_366310003
代表标签的个数,
Figure F_220303103123477_477643004
为所述打分张量位于i行j列元素最高概率标签的概率,
Figure F_220303103123555_555766005
为标注损失值。
在一个实施例中,所述对称性损失函数的公式为:
Figure F_220303103123650_650973006
式中
Figure F_220303103123729_729122007
表示实体和无向关系的标签空间,
Figure F_220303103123824_824343008
表示在所述打分张量中第i行j列元素为第t个标签概率值,
Figure F_220303103123902_902942009
表示在所述打分张量中第j行i列元素为第t个标签概率值,
Figure F_220303103123980_980582010
代表标签的个数,L sym 为对称损失值。
在一个实施例中,所述蕴含性损失函数的公式:
Figure F_220303103124061_061151011
式中ye是标签空间中的实体标签,yr是标签空间中的关系标签,N label 代表标签的个数,P i,i,t 为在所述打分张量ii列元素为第t个标签的概率值,P :,i,l 为在所述打分张量上任意一行第i列元素为第l个标签的概率值,P i,:,l 为在所述打分张量上第i行任意一列元素为第l个标签的概率值,L imp 为蕴含性损失值。
在一个实施例中,所述最终损失函数为:
Figure F_220303103124154_154905012
式中
Figure F_220303103124234_234482013
为对称损失值,
Figure F_220303103124312_312622014
为标注损失值
Figure F_220303103124392_392170015
为蕴含性损失值,L为最终损失值。
本申请还提供一种实体关系联合抽取装置,包括:
预提取模块,用于基于文本数据得到文本张量;
分割模块,用于根据所述文本张量,获取文本的头特征张量和尾特征张量;
融合模块,用于将所述头特征张量和转置后的所述尾特征张量进行特征融合,得到融合张量;
打分模块,用于将所述融合张量输入卷积神经网络中,得到打分张量;
抽取模块,用于将所述打分张量输入预测模型中,得到所述打分张量中各个元素在实体和关系标签空间的概率分布数据,并根据所述概率分布数据输出抽取结果。
本申请还提供一种计算机终端,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行上述实施例中任一所述的实体关系联合抽取方法。
本申请还提供一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行上述实施例中一项所述的实体关系联合抽取方法。
本发明通过一种实体关系联合抽取方法基于文本数据得到文本张量;根据所述文本张量,获取文本的头特征张量和尾特征张量;将所述头特征张量和转置后的所述尾特征张量进行特征融合,得到融合张量;将所述融合张量输入卷积神经网络中,得到打分张量;将所述打分张量输入预测模型中,得到所述打分张量中各个元素在实体和关系的标签空间的概率分布数据,并根据所述概率分布数据输出抽取结果。在自然语言处理中,相较于现有技术中的流水线抽取方法以及实体关系抽取方法,本申请在二维矩阵上使用卷积神经网络进一步提取特征,实现了主体、客体、关系联合抽取,不仅能大大降低计算量,提高了实体识别和关系抽取两个子任务的特征,并且极大避免了错误传递和冗余实体的问题,从而进一步提高实体关系联合抽取的准确率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本申请实施例一种实体关系联合抽取方法流程示意图;
图2示出了本申请实施例的融合张量计算过程示意图;
图3示出了本申请实施例中的融合张量示意图;
图4示出了本申请实施例中打分张量的识别结果示意图;
图5示出了本申请实施例中一种实体关系联合抽取装置示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
图1为本实施例实体关系联合抽取方法的流程示意图,该方法包括以下步骤:
步骤S100,基于文本数据得到文本张量。
本实施例中,以“张三出生于成都市。”的文本数据为例进行说明,在输入上述文本后,会先对文本数据进行清洗,删掉不需要的文本数据,基于每个字符,可以得到一个代表待处理字符的一个特征向量,根据提取的特征数不同,向量维度也不同。
在输入文本特征模型后可以得到文本张量,比如使用bert-base-chinese提取输入的文本特征,则可提取到768维的特征向量,上述9个字符(包括句号)按顺序拼接这些向量,则是一个9*768的张量矩阵,即文本张量。
步骤S200,根据所述文本张量,获取文本的头特征张量和尾特征张量;
将上述获得的文本张量拷贝两份,一份作为输入文本的头特征表示,一份作为尾特征表示,分别输入全连接神经网络提取特征,两个全连接层的输入维度和输出维度都设定为768,将头特征表示的文本张量输入提取头特征的全连接网络,得到9*768的头文本特征,另一份输入提取尾特征的全连接网络中,得到9*768的尾文本特征。
以头文本特征为例,将头文本特征复制预定数量份并对所有的所述头文本特征进行拼接操作,得到所述头特征张量,本实施例中复制9份,即将9个头文本特征进行深度拼接,得到一个9*9*768的头特征张量,然后再对上述为文本特征进行相同的操作,得到一个9*9*768的尾特征张量。
步骤S300,将所述头特征张量和转置后的所述尾特征张量进行特征融合,得到融合张量。
将所述头特征张量和转置后的所述尾特征张量进行特征融合的公式为:
Figure F_220303103124502_502070016
式中D为所述融合张量,Dhead为所述头特征张量,Dtail为所述尾特征张量,T为转置符号,经过上述公示后得到统合D。
结合图2所示,为融合张量计算过程示意图,图2中data部分为矩阵部分,位于边上的“张三出生于成都市。”代表每个字符和所对应行/列的数据的对应关系。左边的矩阵相当于上式中的Dhead,右边的矩阵相当于上式中的
Figure F_220303103124597_597233017
,图中的两矩阵相加代表上式中的
Figure F_220303103124691_691532018
,data代表张量中的特征数据,即上述的768维特征值,可见在根据矩阵相加之,后对每个元素数据进行平均取值,实现了头尾特征的融合。
参考图3所示的融合张量,该融合张量中的每个元素可以表示为文本特征数据中,某两个字符的融合数据,其中按照规律可发现,该矩阵行和列标号相等的对角线上的数据代表的就是“张三出生于成都市。”的特征数据,而在行列数相加为9的对角线上则是上述文本数据首尾字符融合后的关系特征数据,由此可知,整个融合张量上的各个元素可以代表不同字符的融合特征,同时也因为是二维平面,使得所融合的特征情况更加全面。
步骤S400,将所述融合张量输入卷积神经网络中,得到打分张量。
针对上述融合张量中的每个元素进行打分,因为每个元素是两个字符的融合特征,因此可以得到该元素在标签空间中各个可能实体关系标签的概率,比如在训练该卷积神经网络时,所使用的数据库中的实体关系标签数量为5个,那么对于每个元素来讲,就只能识别出5种可能的实体关系标签。
具体的,根据上述可能的标签数,选择适当的卷积核数,再根据融合张量的数据来选择合适的卷积核尺寸,如以选择(3,3,768)的卷积核为例,本实施例所使用的卷积神经网络的标签数为5,则使用5个卷积核,并对输入卷积层的张量使用零填充,以保障输入张量和输出张量的前两个维度相等,即输出一个9*9*5的打分张量。
该打分张量和融合张量类似,在打分张量的每个元素中所记录的为该元素对应每个标签的概率分布数据,如本实施例为5种实体标签,则会记录5个概率,这些概率表示对应实体和关系的标签空间的概率分布数据。
步骤S500,将所述打分张量输入预测模型中,得到所述打分张量中各个元素在实体和关系的标签空间的概率分布数据,并根据所述概率分布数据输出抽取结果。
将上述打分张量输入预测模型中,该预测模型在读取了打分张量各个元素在实体和关系的标签空间的概率分布数据后,并根据所述概率分布数据输出抽取结果。
具体而言,如图4所示,预测模型会根据概率分布中最大的那个概率所对应的标签对应的元素进行识别输出,如张三两个字被识别为“PRE”也就是人物(person),而张三和成都市融合的那片区域的元素被识别为“born”也就是出生地,成都市被识别为“LOC”也就是地方(location),除此之外,其他被标为“-”的元素则代表没有和实体标签空间中的标签对应的识别概率,没有被识别为任何一种标签,这样就完成了最终的实体关系联合抽取。
也就是说在输入了“张三出生于成都市。”后,经过本实施例的技术方案的实例联合抽取,确定了该句子中的实体为“张三”、“成都市”,这两者之间的关系为“出生地”。
进一步的,在得到所述打分张量中各个元素在实体和关系标签空间的概率分布数据后,还可以根据最终损失函数对所述卷积神经网络进行参数更新。最终损失函数基于标注损失函数、对称性损失函数和蕴含性损失函数得到。
标注损失函数的公式为:
Figure F_220303103124809_809180019
式中
Figure F_220303103124902_902941020
代表标签的个数,
Figure F_220303103124981_981067021
为所述打分张量位于i行j列元素最高概率标签的概率,
Figure F_220303103125061_061142022
为标注损失值。
对称性损失函数的公式为:
Figure F_220303103125154_154887023
式中
Figure F_220303103125266_266205024
表示实体和无向关系的标签空间,
Figure F_220303103125442_442968025
表示在所述打分张量中第i行j列元素为第t个标签的概率值,
Figure F_220303103125536_536733026
表示在所述打分张量中第j行i列元素为第t个标签的概率值,
Figure F_220303103125670_670535027
代表标签的个数,
Figure F_220303103125764_764275028
为对称损失值。
蕴含性损失函数的公式:
Figure F_220303103126074_074323029
式中ye是标签空间中的实体标签,yr是标签空间中的关系标签,N label 代表标签的个数,P i,i,t 为在所述打分张量ii列元素为第t个标签的概率值,P :,i,l 为在所述打分张量上任意一行第i列元素为第l个标签的概率值,P i,:,l 为在所述打分张量上第i行任意一列元素为第l个标签的概率值,L imp 为蕴含性损失值。
最终损失函数为:
Figure F_220303103126216_216425030
式中
Figure F_220303103126423_423435031
为对称损失值,
Figure F_220303103126597_597241032
为标注损失值
Figure F_220303103126707_707123033
为蕴含性损失值,L为最终损失值。
可见,本实施例的联合实体抽取,区别于流水线抽取方法以及现有的实体关系联合抽取技术在一维空间上对向量进行的抽取,本申请通过对一维的文本特征进行复制和拼接,形成二维的张量,然后进行头文本和尾文本特征的融合,完成实体识别和关系抽取两个子任务的特征融合,使得生成的打分张量上,可以显示文本数据中各个实体之间的关系,以及对各个实体类型的识别,实现了在二维空间对文本语句进行实体识别和关系分类,提高了实体识别和关系分类的准确率,可以充分考虑句子中各个词语的意义,以及不同词语之间的关系,在进行了充分的实体识别和关系分类外,还减小了计算量,避免了错误传递和冗余实体的问题。
实施例2
本申请还提供一种实体关系联合抽取装置,如图5所示,包括:
预提取模块10,用于基于文本数据得到文本张量;
分割模块20,用于根据所述文本张量,获取文本的头特征张量和尾特征张量;
融合模块30,用于将所述头特征张量和转置后的所述尾特征张量进行特征融合,得到融合张量;
打分模块40,用于将所述融合张量输入卷积神经网络中,得到打分张量;
抽取模块50,用于将所述打分张量输入预测模型中,得到所述打分张量中各个元素在实体和关系标签空间的概率分布数据,并根据所述概率分布数据输出抽取结果。
本申请还提供一种计算机终端,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行上述实施例中任一所述的实体关系联合抽取方法。
本申请还提供一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行上述实施例中一项所述的实体关系联合抽取方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (13)

1.一种实体关系联合抽取方法,其特征在于,包括:
基于文本数据得到文本张量;
根据所述文本张量,获取文本的头特征张量和尾特征张量;
将所述头特征张量和转置后的所述尾特征张量进行特征融合,得到融合张量;
将所述融合张量输入卷积神经网络中,得到打分张量;
将所述打分张量输入预测模型中,得到所述打分张量中各个元素在实体和关系的标签空间的概率分布数据,并根据所述概率分布数据输出抽取结果。
2.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述头特征张量和尾特征张量的获得方法包括:
将所述文本张量分别输入提取头特征全连接神经网络和提取尾特征全连接神经网络,得到头文本特征和尾文本特征;
将所述头文本特征复制预定数量份并对所有的所述头文本特征进行拼接操作,得到所述头特征张量;
将所述尾文本特征复制预定数量份并对所有的所述尾文本特征进行拼接操作,得到所述尾特征张量。
3.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述根据所述概率分布数据输出抽取结果包括:
根据所述概率分布数据,确定所述打分张量中各个元素对应概率最高的实体和关系标签,将所述标签作为对应元素的结果标签;
根据所述各个元素的结果标签,以及所述各个元素和所述文本数据的对应关系,从所述文本数据中抽取出实体和关系,将所述实体和关系作为所述抽取结果。
4.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述基于文本数据得到文本张量包括:
将文本数据进行数据清洗,得到清洗后的文本数据;
将所述清洗后的文本数据输入文本特征模型,得到所述文本张量。
5.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述将所述头特征张量和转置后的所述尾特征张量进行特征融合的公式为:
式中D为所述融合张量,Dhead为所述头特征张量,Dtail为所述尾特征张量,T为转置符号。
6.根据权利要求1所述的实体关系联合抽取方法,其特征在于,在得到所述打分张量中各个元素在实体和关系的标签空间的概率分布数据后还包括:
根据最终损失函数对所述卷积神经网络进行参数更新;所述最终损失函数基于标注损失函数、对称性损失函数和蕴含性损失函数得到。
7.根据权利要求6所述的实体关系联合抽取方法,其特征在于,所述标注损失函数的公式为:
Figure F_220303103119575_575797002
式中
Figure F_220303103119686_686633003
代表标签的个数,
Figure F_220303103119831_831654004
表示所述打分张量位于i行j列元素为最高概率标签的概率值,
Figure F_220303103119909_909777005
为标注损失值。
8.根据权利要求6所述的实体关系联合抽取方法,其特征在于,所述对称性损失函数的公式为:
Figure F_220303103119989_989339006
式中
Figure F_220303103120099_099227007
表示实体和无向关系的标签空间,
Figure F_220303103120177_177342008
表示在所述打分张量中第i行j列元素为第t个标签的概率值,
Figure F_220303103120273_273080009
表示在所述打分张量中第j行i列元素为第t个标签的概率值,
Figure F_220303103120366_366830010
代表标签的个数,
Figure F_220303103120446_446437011
为对称损失值。
9.根据权利要求6所述的实体关系联合抽取方法,其特征在于,所述蕴含性损失函数的公式:
Figure F_220303103120540_540161012
式中ye是标签空间中的实体标签,yr是标签空间中的关系标签,N label 代表标签的个数,P i,i,t 为在所述打分张量ii列元素为第t个标签的概率值,P :,i,l 为在所述打分张量上任意一行第i列元素为第l个标签的概率值,P i,:,l 为在所述打分张量上第i行任意一列元素为第l个标签的概率值,L imp 为蕴含性损失值。
10.根据权利要求6所述的实体关系联合抽取方法,其特征在于,所述最终损失函数为:
Figure F_220303103120636_636343013
式中
Figure F_220303103120714_714506014
为对称损失值,
Figure F_220303103120809_809667015
为标注损失值,
Figure F_220303103120887_887800016
为蕴含性损失值,L为最终损失值。
11.一种实体关系联合抽取装置,其特征在于,包括:
预提取模块,用于基于文本数据得到文本张量;
分割模块,用于根据所述文本张量,获取文本的头特征张量和尾特征张量;
融合模块,用于将所述头特征张量和转置后的所述尾特征张量进行特征融合,得到融合张量;
打分模块,用于将所述融合张量输入卷积神经网络中,得到打分张量;
抽取模块,用于将所述打分张量输入预测模型中,得到所述打分张量中各个元素在实体和关系标签空间的概率分布数据,并根据所述概率分布数据输出抽取结果。
12.一种计算机终端,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行权利要求1至10中任一项所述的实体关系联合抽取方法。
13.一种可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至10中任一项所述的实体关系联合抽取方法。
CN202210217727.XA 2022-03-08 2022-03-08 实体关系联合抽取方法、装置、计算机终端及存储介质 Active CN114330323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210217727.XA CN114330323B (zh) 2022-03-08 2022-03-08 实体关系联合抽取方法、装置、计算机终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210217727.XA CN114330323B (zh) 2022-03-08 2022-03-08 实体关系联合抽取方法、装置、计算机终端及存储介质

Publications (2)

Publication Number Publication Date
CN114330323A true CN114330323A (zh) 2022-04-12
CN114330323B CN114330323B (zh) 2022-06-28

Family

ID=81031185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210217727.XA Active CN114330323B (zh) 2022-03-08 2022-03-08 实体关系联合抽取方法、装置、计算机终端及存储介质

Country Status (1)

Country Link
CN (1) CN114330323B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306673A (zh) * 2023-03-16 2023-06-23 之江实验室 一种文本特征提取方法与系统、电子设备、介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647258A (zh) * 2018-01-24 2018-10-12 北京理工大学 一种基于实体关联性约束的表示学习方法
CN109815339A (zh) * 2019-01-02 2019-05-28 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN109947948A (zh) * 2019-02-28 2019-06-28 中国地质大学(武汉) 一种基于张量的知识图谱表示学习方法及系统
CN110555083A (zh) * 2019-08-26 2019-12-10 北京工业大学 一种基于zero-shot无监督实体关系抽取方法
CN110969020A (zh) * 2019-11-21 2020-04-07 中国人民解放军国防科技大学 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111444715A (zh) * 2020-03-24 2020-07-24 腾讯科技(深圳)有限公司 实体关系识别方法、装置、计算机设备和存储介质
CN111476023A (zh) * 2020-05-22 2020-07-31 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
CN111652827A (zh) * 2020-04-24 2020-09-11 山东大学 一种基于生成对抗网络的正面人脸合成方法及系统
CN111709243A (zh) * 2020-06-19 2020-09-25 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN111859912A (zh) * 2020-07-28 2020-10-30 广西师范大学 基于pcnn模型的带有实体感知的远程监督关系抽取方法
CN112287672A (zh) * 2019-11-28 2021-01-29 北京京东尚科信息技术有限公司 文本意图识别方法及装置、电子设备、存储介质
CN113064968A (zh) * 2021-04-06 2021-07-02 齐鲁工业大学 一种基于张量融合网络的社交媒体情感分析方法及系统
CN113220844A (zh) * 2021-05-25 2021-08-06 广西师范大学 基于实体特征的远程监督关系抽取方法
CN113360670A (zh) * 2021-06-09 2021-09-07 山东大学 一种基于事实上下文的知识图谱补全方法及系统
CN113553440A (zh) * 2021-06-25 2021-10-26 武汉理工大学 一种基于层次推理的医学实体关系抽取方法
CN113626574A (zh) * 2021-08-19 2021-11-09 成都数联云算科技有限公司 一种信息查询方法及系统及装置及介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647258A (zh) * 2018-01-24 2018-10-12 北京理工大学 一种基于实体关联性约束的表示学习方法
CN109815339A (zh) * 2019-01-02 2019-05-28 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN109947948A (zh) * 2019-02-28 2019-06-28 中国地质大学(武汉) 一种基于张量的知识图谱表示学习方法及系统
CN110555083A (zh) * 2019-08-26 2019-12-10 北京工业大学 一种基于zero-shot无监督实体关系抽取方法
CN110969020A (zh) * 2019-11-21 2020-04-07 中国人民解放军国防科技大学 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN112287672A (zh) * 2019-11-28 2021-01-29 北京京东尚科信息技术有限公司 文本意图识别方法及装置、电子设备、存储介质
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111444715A (zh) * 2020-03-24 2020-07-24 腾讯科技(深圳)有限公司 实体关系识别方法、装置、计算机设备和存储介质
CN111652827A (zh) * 2020-04-24 2020-09-11 山东大学 一种基于生成对抗网络的正面人脸合成方法及系统
CN111476023A (zh) * 2020-05-22 2020-07-31 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
CN111709243A (zh) * 2020-06-19 2020-09-25 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN111859912A (zh) * 2020-07-28 2020-10-30 广西师范大学 基于pcnn模型的带有实体感知的远程监督关系抽取方法
CN113064968A (zh) * 2021-04-06 2021-07-02 齐鲁工业大学 一种基于张量融合网络的社交媒体情感分析方法及系统
CN113220844A (zh) * 2021-05-25 2021-08-06 广西师范大学 基于实体特征的远程监督关系抽取方法
CN113360670A (zh) * 2021-06-09 2021-09-07 山东大学 一种基于事实上下文的知识图谱补全方法及系统
CN113553440A (zh) * 2021-06-25 2021-10-26 武汉理工大学 一种基于层次推理的医学实体关系抽取方法
CN113626574A (zh) * 2021-08-19 2021-11-09 成都数联云算科技有限公司 一种信息查询方法及系统及装置及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WEN ZHANG 等: "Interaction Embeddings for Prediction and Explanation in Knowledge Graphs", 《HTTPS://ARXIV.ORG》 *
姚娟: "基于深度学习的实体关系抽取和知识图谱补全方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
汪璟玢 等: "基于注意力机制的多尺度空洞卷积神经网络模型", 《模式识别与人工智能》 *
陈嘉裕: "实体关系联合抽取技术研究及实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306673A (zh) * 2023-03-16 2023-06-23 之江实验室 一种文本特征提取方法与系统、电子设备、介质
CN116306673B (zh) * 2023-03-16 2023-10-24 之江实验室 一种文本特征提取方法与系统、电子设备、介质

Also Published As

Publication number Publication date
CN114330323B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
US11860684B2 (en) Few-shot named-entity recognition
US9342794B2 (en) Non-linear classification of text samples
CN112185520A (zh) 一种医疗病理报告图片的文本结构化处理系统和方法
CN111832307A (zh) 一种基于知识增强的实体关系抽取方法及系统
CN111783126B (zh) 一种隐私数据识别方法、装置、设备和可读介质
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN113032580B (zh) 关联档案推荐方法、系统及电子设备
CN109791570B (zh) 高效且精确的命名实体识别方法和装置
CN116071077B (zh) 一种违规账户的风险评估与识别方法及装置
CN114330323B (zh) 实体关系联合抽取方法、装置、计算机终端及存储介质
CN114528413B (zh) 众包标注支持的知识图谱更新方法、系统和可读存储介质
CN112836502A (zh) 一种金融领域事件隐式因果关系抽取方法
CN114818718A (zh) 合同文本识别方法及装置
CN117271759A (zh) 文本摘要生成模型训练方法、文本摘要生成方法和装置
CN108984777B (zh) 客户服务方法、装置和计算机可读存储介质
CN117216279A (zh) Pdf文件的文本提取方法、装置、设备及存储介质
CN112949637A (zh) 基于idcnn和注意力机制的招投标文本实体识别方法
CN112395407A (zh) 企业实体关系的抽取方法、装置及存储介质
CN117009516A (zh) 换流站故障策略模型训练方法、推送方法及装置
CN114332872B (zh) 一种基于图注意力网络的合同文档容错信息提取方法
CN115640378A (zh) 工单检索方法、服务器、介质及产品
CN116127087A (zh) 一种知识图谱构建方法、装置、电子设备及存储介质
CN113901175A (zh) 物品关系判别方法和装置
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN111738358B (zh) 一种数据识别方法、装置、设备和可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant