CN114510939A - 实体关系抽取方法、装置、电子设备及存储介质 - Google Patents

实体关系抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114510939A
CN114510939A CN202111552323.8A CN202111552323A CN114510939A CN 114510939 A CN114510939 A CN 114510939A CN 202111552323 A CN202111552323 A CN 202111552323A CN 114510939 A CN114510939 A CN 114510939A
Authority
CN
China
Prior art keywords
entity
relation
sequence
prediction
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111552323.8A
Other languages
English (en)
Inventor
杜娟
刘轶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Original Assignee
PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PKU-HKUST SHENZHEN-HONGKONG INSTITUTION filed Critical PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Priority to CN202111552323.8A priority Critical patent/CN114510939A/zh
Publication of CN114510939A publication Critical patent/CN114510939A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术,揭露了一种实体关系抽取方法,包括:获取关系实例文本,利用预训练的编码模型对关系实例文本进行语义编码,得到语义向量序列,对语义向量序列进行标签预测,根据预测结果获取标准标签序列,并对标准标签序列进行实体标注,得到实体标注结果,获取预设的关系集合,基于关系集合对语义向量序列进行关系预测,得到关系预测结果,对实体标注结果及关系预测结果进行拼接组合,得到实体关系对集合,对实体关系对集合进行头实体及尾实体概率识别,根据识别结果从实体关系对集合中选取标准实体关系对。本发明还提出一种实体关系抽取装置、电子设备以及计算机可读存储介质。本发明可以解决实体关系抽取准确率不高的问题。

Description

实体关系抽取方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种实体关系抽取方法、装置、电子设备及计算机可读存储介质。
背景技术
实体和实体之间的关系联合抽取模型的结构一般分为两种,一种为管道型(pipeline),另一种为端到端的结构。前者一般先抽取实体,同时判定实体的类别,然后对每对候选实体进行关系分类,得到关系抽取三元组结果,管道型的一个明显的缺点是误差传递的问题,因为实体识别和关系抽取两个任务本身独立完成,导致两部分信息不能充分共享,实体关系抽取准确率较低。端到端的模型一般设计成将实体识别的结果作为模型的隐藏层结果,将实体识别的损失和关系分类的损失相加作为整个模型的损失函数。端到端模型可以有效减少管道模型在实体识别(NER)和关系抽取(RE)模型之间误差传播问题并且充分利用NER和RE两部分任务间的有用信息,提高最终的抽取效果,但在实际的应用中,经常出现一个句子实例中出现多个关系的情况,多个关系还可能重叠,即同一个实体可能出现于不同的关系类别中,也会使得实体关系抽取的准确率不高。
发明内容
本申请提供了一种实体关系抽取方法、装置、电子设备及存储介质,以解决实体关系抽取准确率不高的问题。
第一方面,本申请提供了一种实体关系抽取方法,所述方法包括:
获取关系实例文本,利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列;
对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,并对所述标准标签序列进行实体标注,得到实体标注结果;
获取预设的关系集合,基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果;
对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对。
详细地,所述利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列,包括:
对所述关系实例文本进行分词,得到原始分词序列,在所述原始分词序列中添加间隔标识,得到标准分词序列;
利用所述编码模型中的嵌入向量表示层生成所述标准分词序列中每个分词的组合向量;
利用所述编码模型中的编码器层对每个分词的组合向量进行语义特征编码,得到所有分词的语义特征向量,利用所述编码模型中的池化层对所述语义特征向量及所述间隔标识进行向量排列,得到所述语义向量序列。
详细地,所述利用所述编码模型中的嵌入向量表示层生成所述标准分词序列中每个分词的组合向量,包括:
利用所述嵌入向量表示层将所述标准分词序列中每个分词转化为token向量、位置向量及序列标记向量;
利用下述公式组合每个分词的所述token向量、所述位置向量及所述序列标记向量,得到每个分词的组合向量embedding:
embedding=embeddingtokens+embeddingposition+embeddingseg type
其中,embeddingtokens为所述token向量,embeddingposition为所述位置向量,embeddingseg type为所述序列标记向量。
详细地,所述对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,包括:
对所述语义向量序列中每个分词对应的语义特征向量进行标签预测,得到多个标签序列,其中,每个标签序列中包括每个分词的预测标签及所述预测标签对应的预测分数;
利用所述预测分数对所述多个标签序列中的预测标签进行筛选及排序,得到原始标签序列集合;
利用预设的目标函数从所述原始标签序列集合中选取目标序列作为所述标准标签序列。
详细地,所述利用预设的目标函数从所述原始标签序列集合中选取目标序列作为所述标准标签序列,包括:
利用所述目标函数对所述原始标签集合进行概率优化,并选取使所述目标函数最大的目标序列为所述标准标签序列;
所述目标函数如下所示:
Figure BDA0003418033760000031
其中,yX为所述原始标签序列集合,s(h,y)表示所述原始标签序列集合其中一个序列y的得分,p(y|h)表示序列y的条件概率。
详细地,所述基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果,包括:
提取所述语义向量序列中间隔标识对应的标识向量,并利用预设的分类函数得到所述标识向量在所述关系集合中存在的预测关系及所述预测关系的概率;
基于所述预测关系的概率,利用预设的标签函数对所述预测关系进行关系分类,得到所述关系预测结果。
详细地,所述对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对,包括:
根据所述关系集合将所述关系预测结果中的关系转化为嵌入关系;
将所述嵌入关系及所述实体标注结果中的实体进行随机组合,得到所述实体关系对集合;
利用预设的实体概率公式计算所述实体关系对集合中头实体及尾实体的概率,并根据所述概率选择满足预设条件的实体关系对作为所述标准实体关系对。
第二方面,本申请提供了一种实体关系抽取装置,所述装置包括:
语义编码模块,用于获取关系实例文本,利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列;
实体标注模块,用于对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,并对所述标准标签序列进行实体标注,得到实体标注结果;
关系预测模块,用于获取预设的关系集合,基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果;
实体关系对抽取模块,用于对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对。
第三方面,提供了一种实体关系抽取设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的实体关系抽取方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的实体关系抽取方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明通过对语义向量序列先进行标签预测,再进行实体标注,可以提高实体标注的准确率,同时通过预设的关系集合来进行关系预测,由于预设的关系集合限定了可预测关系的数量,通过限定关系集合的大小可以有效避免关系的过多重复,因此提高实体关系抽取的准确率。并且,对实体标注结果及关系预测结果进行拼接组合,组合得到所有可能的实体关系对集合,由于实体标注结果及关系预测结果都是从同一语义向量得到,因此可以共享实体识别及关系分类两部分的信息,最后通过对实体关系对集合进行概率识别,对于关系重叠的实体,同时考虑了头实体及尾实体的概率,进一步提高了实体关系抽取的准确率。因此本发明提出的实体关系抽取方法、装置、电子设备及计算机可读存储介质,可以解决实体关系抽取准确率不高的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种实体关系抽取方法的流程示意图;
图2为本申请实施例提供的一种实体关系抽取装置的模块示意图;
图3为本申请实施例提供的一种实现实体关系抽取方法的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种实体关系抽取方法的流程示意图。在本实施例中,所述实体关系抽取方法包括:
S1、获取关系实例文本,利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列。
本发明实施例中,所述关系实例文本可以为从门户网站或专业网站(包括:金融类、法律类、医疗类、教育类、娱乐类、体育类等)抓取的待抽取关系的文本。例如,从百度百科中抽取的关系实例文本为:“小丁为第一电气的原实际控制人之一,小夏的前妻”。
本发明一可选实施例中,所述预训练的编码模型可以为预训练的BERT-base-Chinese模型,BERT-base-Chinese模型用来对输入的关系实例文本进行向量编码,以捕获文本的语义,所述BERT-base-Chinese模型包括嵌入向量表示层、编码器层和池化层,其中,所述嵌入向量表示层用来将文本特征编码成向量,编码器层用来对嵌入向量表示层输出的结果进行非线性表示,提取出其中的特征向量,池化层用来对提取出来的特征向量进行排列,得到语义向量序列。
详细地,所述利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列,包括:
对所述关系实例文本进行分词,得到原始分词序列,在所述原始分词序列中添加间隔标识,得到标准分词序列;
利用所述编码模型中的嵌入向量表示层生成所述标准分词序列中每个分词的组合向量;
利用所述编码模型中的编码器层对每个分词的组合向量进行语义特征编码,得到所有分词的语义特征向量,利用所述编码模型中的池化层对所述语义特征向量及所述间隔标识进行向量排列,得到所述语义向量序列。
本发明一可选实施例中,所述间隔标识包括[CLS]及[SEP],[CLS]为分类标识,放在句首并用来表示整个序列,[SEP]标记用来分隔句子文本,放在句尾,表示句子结束。例如,“小丁为第一电气的原实际控制人之一,小夏的前妻”的标准分词序列为“[CLS]小丁/为/第一电气/的/原实际控制人/之一/小夏/的/前妻[SEP]”
例如,给定一个带有n个token(即分词)的关系实例文本,标准分词序列为x=[c,x1,x2,...,xn,s],c表示[CLS],s表示[SEP],xi代表x中的每个token(即分词),0≤i≤n,对应的语义向量序列为h=[h0,h1,h2,...,hn,hn+1],其中,h0是c对应的输出,hn+1是s对应的输出,hi对应xj(1≤j≤n)的输出,n代表文本中包含n个token,即[h1,h2,...,hn]为关系实例文本x=[x1,x2,...,xn]对应的语义向量。
详细地,所述利用所述编码模型中的嵌入向量表示层生成所述标准分词序列中每个分词的组合向量,包括:
利用所述嵌入向量表示层将所述标准分词序列中每个分词转化为token向量、位置向量及序列标记向量;
利用下述公式组合每个分词的所述token向量、所述位置向量及所述序列标记向量,得到每个分词的组合向量embedding:
embedding=embeddingtokens+embeddingposition+embeddingseg_type
其中,embeddingtokens为所述token向量,embeddingposition为所述位置向量,embeddingseg type为所述序列标记向量。
本发明实施例中,通过预训练的BERT-base-Chinese模型来对关系实例文本进行语义编码,提高了编码效率。例如,利用所述嵌入向量表示层将每个分词转化为768维字向量(序列标记向量)、位置向量和token向量,将每个分词的三种向量相加作为中间结果输入到LayerNormer层和Dropout层进行处理,得到所有分词的组合向量;编码器层中包括12个编码器(隐藏层),每个编码器通过线性变换、激活函数(activation function)、多头自注意力(multi-head self-attention)、跳跃连接(skip connection)、LayerNormer层和Dropout层对嵌入向量表示层输出的组合向量进行非线性表示,得到所有分词文本的语义特征向量;池化层将[CLS]标记提取出来,并做一定的变换,作为整个序列的表示,同时按照原始分词序列的顺序原封不动对所有的语义特征向量进行排列,得到所述语义向量序列。
S2、对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,并对所述标准标签序列进行实体标注,得到实体标注结果。
本发明实施例中,所述标签预测是指预测所述语义向量序列中的语义特征向量的类别,包括:人、地方、时间等。可以使用Linear层+CRF模型来进行标签预测,所述Linear层基于BIOS标注方法对所述语义向量序列中每个分词的语义特征向量进行标签预测,并给出每个预测标签的预测分数,再通过CRF模型对预测标签进行筛选及排序,直至排序后的序列满足预设的目标函数,得到标准标签序列。所述BIOS标注方法将可能为实体提及的字标注标签为B或I,非实体标注标签为O,得到多个预测标签序列,CRF模型可以通过转移矩阵来学习到一些约束条件来对所述预测分数对应的预测标签进行筛选排列,并得到预测标签序列的出现概率。
具体地,所述对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,包括:
对所述语义向量序列中每个分词对应的语义特征向量进行标签预测,得到多个标签序列,其中,每个标签序列中包括每个分词的预测标签及所述预测标签对应的预测分数;
利用所述预测分数对所述多个标签序列中的预测标签进行筛选及排序,得到原始标签序列集合;
利用预设的目标函数从所述原始标签序列集合中选取目标序列作为所述标准标签序列。
可选的,CRF模型可以将预测分数大于预设阈值的预测标签筛选出来,并根据转移矩阵学习到一些约束条件(例如标签B-总是在标签I-之前)来对预测标签进行排序,得到原始标签序列集合。
本发明一可选实施例中,例如,从语义向量序列中得到文本x=[x1,x2,...,xn]的文本向量序列[h1,h2,...,hm],其中m代表文本中包含m个token(分词),hi(1≤i≤m)代表第i个token对应的编码向量,然后通过标签预测及CRF模型得到的原始标签序列集合中的一个原始标签序列y=(y1,...,ym),yi∈{1,...,K}的得分为:
Figure BDA0003418033760000071
K为标签类别的数量,Ayi,yi+1为标签i到标签i+1的转移分数,其中y0和ym+1为起始和结束标签,Pi,yi为标签i的预测分数。
本发明一可选实施例中,所述利用预设的目标函数从所述原始标签序列集合中选取目标序列作为所述标准标签序列,包括:
利用所述目标函数对所述原始标签集合进行概率优化,并选取使所述目标函数最大的目标序列为所述标准标签序列;
所述目标函数如下所示:
Figure BDA0003418033760000072
其中,yX为所述原始标签序列集合,s(h,y)表示所述原始标签序列集合其中一个序列y的得分,p(y|h)表示序列y的条件概率。
本发明一可选实施例中,利用所述目标函数计算所述原始标签序列集合中的每一个序列,并将使目标函数最大的序列作为所述标准标签序列。
具体地,所述对所述标准标签序列进行实体标注,得到实体标注结果,包括:
将所述标准标签序列中预测标签对应的文本作为预测实体,得到所述实体标注结果。
本发明一可选实施例中,例如,对于关系实例文本:“小丁为第一电气的原实际控制人之一小夏的前妻”,得到的标准标签序列为:
“B-PER/I-PER/O/B-ORG/I-ORG/I-ORG/I-ORG/O/O/O/O/O/O/O/O/O/B-PER/I-PER/O/O/O”则预测标签“B-PER、I-PER”、“B-ORG、I-ORG、I-ORG、I-ORG”及“B-PER、I-PER”对应的预测实体包括“小丁”、“第一电气”及“小夏”即为所述实体标注结果。
S3、获取预设的关系集合,基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果。
本发明实施例中,所述预设的关系集合由用户预先定义,并与所述关系实例文本相对应,例如,对于关系实例文本“小丁为第一电气的原实际控制人之一,小夏的前妻”,预设的关系集合可以包括“夫妻”、“实控人”、“股东”等。通过给定一组预定义的关系集合R=r1,r2,...,rK(K是R的大小,即关系的类别),将BERT编码输出结果的[CLS]位置的向量h0,作为输入识别所述语义向量序列在关系集合R中存在的所有预测关系,然后使用sigmoid函数生成每种预测关系的概率,并根据预测关系的概率进行筛选,得到关系预测结果。
详细地,所述基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果,包括:
提取所述语义向量序列中间隔标识对应的标识向量,并利用预设的分类函数得到所述标识向量在所述关系集合中存在的预测关系及所述预测关系的概率;
基于所述预测关系的概率,利用预设的标签函数对所述预测关系进行关系分类,得到所述关系预测结果。
本发明一可选实施例中,所述预设的分类函数为sigmoid分类函数
Figure BDA0003418033760000081
Figure BDA0003418033760000082
其中,
Figure BDA0003418033760000083
为预测的第i种预测关系ri的概率,W为sigmoid分类函数中的权重项,br为sigmoid分类函数中的偏置项,h0为所述标识向量。
本发明一可选实施例中,例如,在关系实例文本为“小丁为第一电气的原实际控制人之一,小夏的前妻”的例子中,通过sigmoid函数生成预测关系“股东关系”、“夫妻关系”和“实控人关系”两种关系的概率分别为0.8、0.9和0.95。
本发明实施例中,所述预设的标签函数如下所示:
Figure BDA0003418033760000084
其中,p(r|X)为所述关系预测结果相对于整个关系实例文本X的条件概率分布,K为分类关系的类别,
Figure BDA0003418033760000091
为预测的第i种预测关系ri的概率,
Figure BDA0003418033760000092
为第i种预测关系ri的标签。
本发明一可选实施例中,通过最大化所述关系预测结果的条件概率分布,可以得到不同预测关系在整个关系实例文本中的组合概率,可以得到从文本x中检测到的关系预测结果(ri1,...,rik)。例如,对于“股东关系”、“夫妻关系”和“实控人关系”,通过随机组合不同的预测关系,并求解每种组合的条件概率分布,得到使得条件概率分布最大的组合“夫妻关系”和“实控人关系”为所述关系预测结果。
S4、对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对。
详细地,所述对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对,包括:
根据所述关系集合将所述关系预测结果中的关系转化为嵌入关系;
将所述嵌入关系及所述实体标注结果中的实体进行随机组合,得到所述实体关系对集合;
利用预设的实体概率公式计算所述实体关系对集合中头实体及尾实体的概率,并根据所述概率选择满足预设条件的实体关系对作为所述标准实体关系对。
本发明一可选实施例中,可以通过预设的向量矩阵将所述关系集合R=r1,r2,...,rK转化为嵌入表达集合
Figure BDA0003418033760000093
则直接将关系预测结果中的关系替换为对应的嵌入关系,例如,关系预测结果中的关系ri1对应的嵌入关系为
Figure BDA0003418033760000094
本发明一可选实施例中,预设条件为使argmax函数最大化的实体关系对,即利用argmax函数找出最大可能概率的实体关系对。
本发明实施例中,所述利用预设的实体概率公式计算所述实体关系对集合中头实体及尾实体的概率,包括:
利用下述公式计算所述实体关系对集合中第i个组合的头实体概率及尾实体概率:
Figure BDA0003418033760000095
Figure BDA0003418033760000096
其中,sent为所述文本向量序列,
Figure BDA0003418033760000097
为所述嵌入关系,
Figure BDA0003418033760000098
Figure BDA0003418033760000099
分别表示实体Ei对应于
Figure BDA0003418033760000101
分类的头实体或尾实体的概率,W(·)为可训练的权重矩阵,b(·)为权重矩阵对应的偏置,σ为sigmoid激活函数。
本发明实施例中,例如,对于关系实例文本为“小丁为第一电气的原实际控制人之一,小夏的前妻”的例子,从实体标注结果中得到三个实体“小丁”、“第一电气”及“小夏”,两种关系预测结果“实际控制人关系”及“夫妻关系”,对实体及关系预测结果进行随机组合得到“头实体-关系-尾实体”类型的实体关系对集合,包括:“小丁-夫妻-小夏”、“小夏-实际控制人-第一电气”、“第一电气-夫妻-小夏”及“小夏-夫妻-第一电气”等,计算所述实体关系对集合中头实体及尾实体的概率,并利用argmax函数找出最大可能概率的实体关系对为:“小丁-夫妻-小夏”及“小夏-实际控制人-第一电气”。
本发明通过对语义向量序列先进行标签预测,再进行实体标注,可以提高实体标注的准确率,同时通过预设的关系集合来进行关系预测,由于预设的关系集合限定了可预测关系的数量,通过限定关系集合的大小可以有效避免关系的过多重复,因此提高实体关系抽取的准确率。并且,对实体标注结果及关系预测结果进行拼接组合,组合得到所有可能的实体关系对集合,由于实体标注结果及关系预测结果都是从同一语义向量得到,因此可以共享实体识别及关系分类两部分的信息,最后通过对实体关系对集合进行概率识别,对于关系重叠的实体,同时考虑了头实体及尾实体的概率,进一步提高了实体关系抽取的准确率。因此本发明提出的实体关系抽取方法,可以解决实体关系抽取准确率不高的问题。
如图2所示,本申请实施例提供了一种实体关系抽取装置10的模块示意图,所述实体关系抽取装置10,包括:所述语义编码模块11、所述实体标注模块12、所述关系预测模块13和所述实体关系对抽取模块14。
所述语义编码模块11,用于获取关系实例文本,利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列;
所述实体标注模块12,用于对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,并对所述标准标签序列进行实体标注,得到实体标注结果;
所述关系预测模块13,用于获取预设的关系集合,基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果;
所述实体关系对抽取模块14,用于对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对。
详细地,本申请实施例中所述实体关系抽取装置10中的各模块在使用时采用与上述的图1中所述的实体关系抽取方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图3所示,本申请实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111、通信接口112、存储器113通过通信总线114完成相互间的通信;
存储器113,用于存放计算机程序;
在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的实体关系抽取方法,包括:
获取关系实例文本,利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列;
对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,并对所述标准标签序列进行实体标注,得到实体标注结果;
获取预设的关系集合,基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果;
对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对。
上述通信总线114可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线114可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口112用于上述电子设备与其他设备之间的通信。
存储器113可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器113还可以是至少一个位于远离前述处理器111的存储装置。
上述的处理器111可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的实体关系抽取方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种实体关系抽取方法,其特征在于,所述方法包括:
获取关系实例文本,利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列;
对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,并对所述标准标签序列进行实体标注,得到实体标注结果;
获取预设的关系集合,基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果;
对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对。
2.如权利要求1所述的实体关系抽取方法,其特征在于,所述利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列,包括:
对所述关系实例文本进行分词,得到原始分词序列,在所述原始分词序列中添加间隔标识,得到标准分词序列;
利用所述编码模型中的嵌入向量表示层生成所述标准分词序列中每个分词的组合向量;
利用所述编码模型中的编码器层对每个分词的组合向量进行语义特征编码,得到所有分词的语义特征向量,利用所述编码模型中的池化层对所述语义特征向量及所述间隔标识进行向量排列,得到所述语义向量序列。
3.如权利要求2所述的实体关系抽取方法,其特征在于,所述利用所述编码模型中的嵌入向量表示层生成所述标准分词序列中每个分词的组合向量,包括:
利用所述嵌入向量表示层将所述标准分词序列中每个分词转化为token向量、位置向量及序列标记向量;
利用下述公式组合每个分词的所述token向量、所述位置向量及所述序列标记向量,得到每个分词的组合向量embedding:
embedding=embeddingtokens+embeddingposition+embeddingseg type
其中,embeddingtokens为所述token向量,embeddingposition为所述位置向量,embeddingseg type为所述序列标记向量。
4.如权利要求1所述的实体关系抽取方法,其特征在于,所述对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,包括:
对所述语义向量序列中每个分词对应的语义特征向量进行标签预测,得到多个标签序列,其中,每个标签序列中包括每个分词的预测标签及所述预测标签对应的预测分数;
利用所述预测分数对所述多个标签序列中的预测标签进行筛选及排序,得到原始标签序列集合;
利用预设的目标函数从所述原始标签序列集合中选取目标序列作为所述标准标签序列。
5.如权利要求4所述的实体关系抽取方法,其特征在于,所述利用预设的目标函数从所述原始标签序列集合中选取目标序列作为所述标准标签序列,包括:
利用所述目标函数对所述原始标签集合进行概率优化,并选取使所述目标函数最大的目标序列为所述标准标签序列;
所述目标函数如下所示:
Figure FDA0003418033750000021
其中,yX为所述原始标签序列集合,s(h,y)表示所述原始标签序列集合其中一个序列y的得分,p(y|h)表示序列y的条件概率。
6.如权利要求2所述的实体关系抽取方法,其特征在于,所述基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果,包括:
提取所述语义向量序列中间隔标识对应的标识向量,并利用预设的分类函数得到所述标识向量在所述关系集合中存在的预测关系及所述预测关系的概率;
基于所述预测关系的概率,利用预设的标签函数对所述预测关系进行关系分类,得到所述关系预测结果。
7.如权利要求6所述的实体关系抽取方法,其特征在于,所述对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对,包括:
根据所述关系集合将所述关系预测结果中的关系转化为嵌入关系;
将所述嵌入关系及所述实体标注结果中的实体进行随机组合,得到所述实体关系对集合;
利用预设的实体概率公式计算所述实体关系对集合中头实体及尾实体的概率,并根据所述概率选择满足预设条件的实体关系对作为所述标准实体关系对。
8.一种实体关系抽取装置,其特征在于,所述装置包括:
语义编码模块,用于获取关系实例文本,利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列;
实体标注模块,用于对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,并对所述标准标签序列进行实体标注,得到实体标注结果;
关系预测模块,用于获取预设的关系集合,基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果;
实体关系对抽取模块,用于对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述的实体关系抽取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的实体关系抽取方法的步骤。
CN202111552323.8A 2021-12-17 2021-12-17 实体关系抽取方法、装置、电子设备及存储介质 Pending CN114510939A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111552323.8A CN114510939A (zh) 2021-12-17 2021-12-17 实体关系抽取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111552323.8A CN114510939A (zh) 2021-12-17 2021-12-17 实体关系抽取方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114510939A true CN114510939A (zh) 2022-05-17

Family

ID=81548050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111552323.8A Pending CN114510939A (zh) 2021-12-17 2021-12-17 实体关系抽取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114510939A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016403A (zh) * 2020-08-05 2020-12-01 中山大学 一种视频异常事件检测方法
CN114783559A (zh) * 2022-06-23 2022-07-22 浙江太美医疗科技股份有限公司 医学影像报告信息抽取方法、装置、电子设备和存储介质
CN114841151A (zh) * 2022-07-04 2022-08-02 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法
CN115204120A (zh) * 2022-07-25 2022-10-18 平安科技(深圳)有限公司 保险领域三元组抽取方法、装置、电子设备及存储介质
CN116756250A (zh) * 2023-06-06 2023-09-15 电子科技大学 故障相关数据的处理方法、装置、计算机设备及存储介质
CN116824305A (zh) * 2023-08-09 2023-09-29 中国气象服务协会 应用于云计算的生态环境监测数据处理方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016403A (zh) * 2020-08-05 2020-12-01 中山大学 一种视频异常事件检测方法
CN114783559A (zh) * 2022-06-23 2022-07-22 浙江太美医疗科技股份有限公司 医学影像报告信息抽取方法、装置、电子设备和存储介质
CN114841151A (zh) * 2022-07-04 2022-08-02 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法
CN115204120A (zh) * 2022-07-25 2022-10-18 平安科技(深圳)有限公司 保险领域三元组抽取方法、装置、电子设备及存储介质
CN115204120B (zh) * 2022-07-25 2023-05-30 平安科技(深圳)有限公司 保险领域三元组抽取方法、装置、电子设备及存储介质
CN116756250A (zh) * 2023-06-06 2023-09-15 电子科技大学 故障相关数据的处理方法、装置、计算机设备及存储介质
CN116824305A (zh) * 2023-08-09 2023-09-29 中国气象服务协会 应用于云计算的生态环境监测数据处理方法及系统
CN116824305B (zh) * 2023-08-09 2024-06-04 中国气象服务协会 应用于云计算的生态环境监测数据处理方法及系统

Similar Documents

Publication Publication Date Title
CN114510939A (zh) 实体关系抽取方法、装置、电子设备及存储介质
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN113656570B (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111985229B (zh) 一种序列标注方法、装置及计算机设备
CN111694924A (zh) 一种事件抽取方法和系统
CN112435656B (zh) 模型训练方法、语音识别方法、装置、设备及存储介质
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN116415654A (zh) 一种数据处理方法及相关设备
CN112528029A (zh) 文本分类模型处理方法、装置、计算机设备及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN111695335A (zh) 一种智能面试方法、装置及终端设备
CN115114407B (zh) 意图识别方法、装置、计算机设备及存储介质
CN111860193A (zh) 一种基于文本的行人检索自监督视觉表示学习系统及方法
CN113490053A (zh) 播放量预测方法、装置、模型、电子设备及存储介质
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
Ou et al. Cross-modal generation and pair correlation alignment hashing
CN113111971A (zh) 分类模型的智能处理方法、装置、电子设备及介质
CN116092101A (zh) 训练方法、图像识别方法、装置、设备及可读存储介质
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
CN116029303A (zh) 语言表达方式识别方法、装置、电子设备和存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113836903A (zh) 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
CN111402012B (zh) 一种基于迁移学习的电商缺陷产品识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination