CN113157936A - 实体关系联合抽取方法、装置、电子设备和存储介质 - Google Patents

实体关系联合抽取方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113157936A
CN113157936A CN202110283634.2A CN202110283634A CN113157936A CN 113157936 A CN113157936 A CN 113157936A CN 202110283634 A CN202110283634 A CN 202110283634A CN 113157936 A CN113157936 A CN 113157936A
Authority
CN
China
Prior art keywords
entity
word level
level matrix
matrix
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110283634.2A
Other languages
English (en)
Other versions
CN113157936B (zh
Inventor
曾祥荣
刘升平
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202110283634.2A priority Critical patent/CN113157936B/zh
Publication of CN113157936A publication Critical patent/CN113157936A/zh
Application granted granted Critical
Publication of CN113157936B publication Critical patent/CN113157936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种实体关系联合抽取方法、装置、电子设备和存储介质,该方法包括:获取标记序列;根据所述标记序列确定语义表示;根据标记序列和所述语义表示确定特征图矩阵;根据特征图矩阵预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵;将三元组相关的字级别矩阵合并得到目标三元组。本申请实施例中实体信息相关的的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵是分阶段确定的,通过基于图像语义分割的多阶段实体关系抽取联合方法,使用语义分割框架进行目标三元组抽取,避免了实体重叠和误差累积的问题,并通过多阶段渐进式的方式,提升了抽取效果。

Description

实体关系联合抽取方法、装置、电子设备和存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种实体关系联合抽取方法、装置、电子设备和存储介质。
背景技术
目前,实体关系抽取(Entity and Relation Extraction,ERE)任务,主要目的是从一段非结构化文本中抽取出实体关系三元组(subject, predicate,object),比如文本“周杰伦作曲并演唱了《七里香》”,需要抽取出(周杰伦,歌手,七里香)和(周杰伦,作曲,七里香)两个三元组,该任务在知识图谱、智能问答等领域有重要作用。ERE包括实体抽取和关系抽取两个子任务,一般分为管道式方法和联合抽取式方法,研究者针对该任务从不同角度提出很多解决方案。
在实体关系抽取任务中,管道式方法一般先做实体识别,然后对实体对进行关系分类;该类方法忽略了实体与关系之间的联系,而且存在误差累积的问题。联合抽取式方法同时对实体和关系进行统一抽取,一般不能解决实体重叠的问题,即使有的方法变体能解决重叠问题,又面临训练和推理阶段不一致的现象。
发明内容
本发明提供一种实体关系联合抽取方法、装置、电子设备和存储介质,能够解决上述存在误差累积和实体重叠的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明实施例提供了一种实体关系联合抽取方法,包括:
获取标记序列;
根据所述标记序列确定语义表示;
根据所述标记序列和所述语义表示确定特征图矩阵;
根据所述特征图矩阵预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵;
将所述三元组相关的字级别矩阵合并得到目标三元组。
在一些实施例中,所述根据所述特征图矩阵预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵,包括:
对所述特征图矩阵中的每个元素进行二分类,预测所述实体信息相关的字级别矩阵,从而确定每个元素对应的坐标是不是实体;
对所述实体信息相关的字级别矩阵的每个元素进行多标签分类,预测所述实体和关系相关的字级别矩阵,从而确定每个元素对应的实体和关系信息;
对所述实体和关系相关的字级别矩阵的每个元素进行多标签分类,预测所述三元组相关的字级别矩阵,从而确定每个元素解构的三元组信息。
在一些实施例中,所述根据所述标记序列确定语义表示,包括:
根据输入的标记序列确定对应的词嵌入,句子嵌入和位置嵌入;
将所述词嵌入,所述句子嵌入和所述位置嵌入加和;
将所述加和后的标记序列输入BERT模型中得到语义表示。
在一些实施例中,所述对所述特征图矩阵中的每个元素进行二分类,所述元素对应的横坐标和纵坐标分别表示文本片段在句子中的开始位置和结束位置。
在一些实施例中,所述根据所述标记序列和所述语义表示确定特征图矩阵是根据相似度计算确定的。
在一些实施例中,将所述特征图矩阵特征图矩阵看作d通道图像,分割层用于预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵。
第二方面,本发明实施例还提供了一种实体关系联合抽取装置,包括:
获取模块:用于获取标记序列;
第一确定模块:用于根据所述标记序列确定语义表示;
第二确定模块:用于根据所述标记序列和所述语义表示确定特征图矩阵;
预测模块:用于根据所述特征图矩阵预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵;
合并模块:用于将所述三元组相关的字级别矩阵合并得到目标三元组。
在一些实施例中,上述装置中的预测模块还用于:
对所述特征图矩阵中的每个元素进行二分类,预测所述实体信息相关的字级别矩阵,从而确定每个元素对应的坐标是不是实体;
对所述实体信息相关的字级别矩阵的每个元素进行多标签分类,预测所述实体和关系相关的字级别矩阵,从而确定每个元素对应的实体和关系信息;
对所述实体和关系相关的字级别矩阵的每个元素进行多标签分类,预测所述三元组相关的字级别矩阵,从而确定每个元素解构的三元组信息。
在一些实施例中,上述装置中的第一确定模块还用于:
根据输入的标记序列确定对应的词嵌入,句子嵌入和位置嵌入;
将所述词嵌入,所述句子嵌入和所述位置嵌入加和;
将所述加和后的标记序列输入BERT模型中得到语义表示。
在一些实施例中,上述装置中对所述特征图矩阵中的每个元素进行二分类,其中,所述元素对应的横坐标和纵坐标分别表示文本片段在句子中的开始位置和结束位置。
在一些实施例中,上述装置中根据所述标记序列和所述语义表示确定特征图矩阵是根据相似度计算确定的。
在一些实施例中,上述装置中将所述特征图矩阵特征图矩阵看作d通道图像,分割层用于预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述实体关系联合抽取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述实体关系联合抽取方法。
本发明的有益效果是:本发明涉及一种实体关系联合抽取方法、装置、电子设备和存储介质,该方法包括:获取标记序列;根据所述标记序列确定语义表示;根据所述标记序列和所述语义表示确定特征图矩阵;根据所述特征图矩阵预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵;将所述三元组相关的字级别矩阵合并得到目标三元组。本申请实施例中实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵是分阶段确定的,通过基于图像语义分割的多阶段实体关系抽取联合方法,使用语义分割框架进行目标三元组抽取,避免了实体重叠和误差累积的问题,并通过多阶段渐进式的方式,提升了抽取效果。
附图说明
图1为本发明实施例提供的一种实体关系联合抽取方法图之一;
图2为本发明实施例提供的一种实体关系联合抽取方法架构图;
图3为本发明实施例提供的一种实体关系联合抽取方法图之二;
图4为本发明实施例提供的得到语义表示的过程示意图;
图5为本发明实施例提供的一种实体关系联合抽取装置图;
图6为本发明实施例提供的一种电子设备的示意性框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的一种实体关系联合抽取方法图之一。
结合图1,第一方面,本发明实施例提供了一种实体关系联合抽取方法,包括:
S101:获取标记序列;
具体的,本申请实施例中,标记序列表示为x=([cls],x1,x2,x3,x4,…,xn[sep]);标记[cls]对应的最终隐藏状态通常被用于分类任务,标记[sep]表示一个句子的结束;这两个标记是BERT模型约定的符号。
S102:根据所述标记序列确定语义表示;
具体的,本申请实施例中,将标记序列输入到BERT模型得到语义表示 e=(e[cls],e1,e2,e3,e4,…,en,e[sep])。
S103:根据所述标记序列和所述语义表示确定特征图矩阵;
具体的,本申请实施例中,通过相似度计算确定特征图矩阵。
S104:根据所述特征图矩阵预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵;
具体的,本申请实施例中,上述实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵是分阶段确定的。
S105:将所述三元组相关的字级别矩阵合并得到目标三元组。
示例性地,在步骤S104和S105中,假设输入文本为“周深演唱大鱼”,对应的三元组为(周深,歌手,大鱼)。第一阶段为实体信息相关的字级别矩阵(周深,大鱼),表示两者都是实体;第二阶段为实体和关系相关的字级别矩阵(周深,歌手),(大鱼,歌手),表示“周深”在歌手相关的三元组中,“大鱼”也在歌手相关的三元组中。第三阶段为三元组相关的字级别矩阵,为解构的三元组信息(周,歌手,大),(深,歌手,鱼),前者格式是(subject头部,关系,object尾部),后者格式是(subject尾部,关系,object尾部),最后将第三阶段的预测结果进行合并得到目标三元组。
图2为本发明实施例提供的一种实体关系联合抽取方法架构图;
本申请实施例提出的实体关系抽取联合抽取方法架构图如图2所示,模型使用BERT(Bidirectional Encoder Representations from Transformers) 作为编码器,根据BERT的输出确定字与字之间的特征图矩阵,作为语义分割模块的输入,最后语义分割模块输出三个预测结果,分别为实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵,三元组相关的字级别矩阵;将所述三元组相关的字级别矩阵合并得到目标三元组,并且本申请实施例中通过BERT模型能准确地表达出输入文本的语义信息。
在一些实施例中,所述根据所述特征图矩阵预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵,包括如下三个阶段:
第一个阶段:对特征图矩阵中的每个元素进行二分类,预测所述实体信息相关的字级别矩阵,从而确定每个元素对应的坐标是不是实体;
具体的,本申请实施例中,语义分割模块分割层的输出,通过卷积神经网络和全连接层的处理,对特征图矩阵中的每个元素进行二分类。其中矩阵元素对应的横纵坐标分别表示文本片段在句子中的开始位置和结束位置,并且矩阵的下三角不会对应实体,因为实体开始位置不会在结束位置的前面;二分类的目的是判断该坐标对应的文本片段是否是实体。比如在例句中有“周深”和“大鱼”两个实体,对应坐标分别为(1,2)和(5,6),对应图 2中第一阶段字级别矩阵的灰色部分。
第二个阶段:对实体信息相关的字级别矩阵的每个元素进行多标签分类,预测所述实体和关系相关的字级别矩阵,从而确定每个元素对应的实体和关系信息;
具体的,本申请实施例中,预测实体信息相关字级别矩阵过程中卷积层的输出,通过卷积神经网络和全连接层的处理,对特征图矩阵中的每个元素进行多标签分类,类别总数为所有的关系类别数R,多标签分类的原因是一个实体可能存在多个关系三元组中。同样矩阵的每个元素对应的实体和关系信息,比如该阶段实体信息相关的字级别矩阵的灰色元素表示:(周深,歌手),(大鱼,歌手)信息。
第三个阶段:对实体和关系相关的字级别矩阵的每个元素进行多标签分类,预测所述三元组相关的字级别矩阵,从而确定每个元素解构的三元组信息。
具体的,本申请实施例中,实体信息相关的字级别矩阵的卷积层的输出,通过卷积神经网络和全连接层的处理,同样对特征图矩阵的每个元素进行多标签分类,类别总数为2R,例如针对关系集合(歌手,作曲),对应标签映射关系{歌手-subject:0,歌手-object:1,作曲-subject:2,作曲-object: 3},从而每个元素解构的三元组信息,合并得到三元组信息。
图3为本发明实施例提供的一种实体关系联合抽取方法图之三;
在一些实施例中,所述根据所述标记序列确定语义表示,包括:
S301:根据标记序列确定对应的词嵌入,句子嵌入和位置嵌入;
S302:将所述词嵌入,所述句子嵌入和所述位置嵌入加和;
S303:将所述加和后的标记序列输入BERT模型中得到语义表示。
图4为本发明实施例提供的得到语义表示的过程示意图;
具体的,结合图4,可以直观的看出得到语义表示的过程。
在一些实施例中,所述对所述特征图矩阵中的每个元素进行二分类,所述元素对应的横坐标和纵坐标分别表示文本片段在句子中的开始位置和结束位置。
具体的,本申请实施例中,矩阵元素对应的横纵坐标分别表示文本片段在句子中的开始位置和结束位置,并且矩阵的下三角不会对应实体,因为实体开始位置不会在结束位置的前面。
在一些实施例中,所述根据所述标记序列和所述语义表示确定特征图矩阵是根据相似度计算确定的。
具体的,本申请实施例中,融合多种相似度计算方式编码得到字和字之间的相关性。
输入句子的第i个字xi和第j个字xj的相似度是一个向量
Figure RE-GDA0003095897670000083
三部分内容分别为双线性相似度、余弦相似度和多头注意力机制,其中将多头注意力机制中的多头看作图像中的通道数,其中W,
Figure RE-GDA0003095897670000081
是可学习的参数,h是注意力中的头数,
Figure RE-GDA0003095897670000082
是每个头对应向量维度。
MultiHead(ei,ej)=Concat(head1,head2,…,headh)
Figure RE-GDA0003095897670000091
Figure RE-GDA0003095897670000092
在一些实施例中,将所述特征图矩阵特征图矩阵看作d通道图像,分割层用于预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵。
将特征图矩阵F=∈Rn×n×d看作d通道图像,分割层用来预测字级别矩阵 F=∈Rn ×n,类似于对图像的每个像素进行分类。分割层使用图像语义分割中的UNet结构,本文语义分割层由两个下采样模块和两个上采样模块跨层连接构成,通过扩大感受野为下阶段的分类任务提供了丰富的全局信息。
图3为本发明实施例提供的一种实体关系联合抽取装置图;
第二方面,本发明实施例还提供了一种实体关系联合抽取装置,包括:
获取模块401:用于获取标记序列;
具体的,本申请实施例中,获取模块获取标记序列,标记序列表示为 x=([cls],x1,x2,x3,x4,…,xn[sep]);标记[cls]对应的最终隐藏状态通常被用于分类任务,标记[sep]表示一个句子的结束;这两个标记是BERT模型约定的符号。
第一确定模块402:用于根据所述标记序列确定语义表示;
具体的,本申请实施例中,第一确定模块将标记序列输入到BERT模型确定语义表示e=(e[cls],e1,e2,e3,e4,…,en,e[sep])。
第二确定模块403:用于根据所述标记序列和所述语义表示确定特征图矩阵。
具体的,本申请实施例中,通过第二确定模块303中的相似度计算确定特征图矩阵。
预测模块404:用于根据所述特征图矩阵预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵。
具体的,本申请实施例中,上述实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵是预测模块404分阶段预测的。
合并模块405:用于将所述三元组相关的字级别矩阵合并得到目标三元组。
示例性地,假设输入文本为“周深演唱大鱼”,对应的三元组为(周深,歌手,大鱼)。预测模块404预测第一阶段为实体信息相关的字级别矩阵(周深,大鱼),表示两者都是实体;预测模块404预测第二阶段为实体和关系相关的字级别矩阵(周深,歌手),(大鱼,歌手),表示“周深”在歌手相关的三元组中,“大鱼”也在歌手相关的三元组中。预测模块404预测第三阶段为三元组相关的字级别矩阵,为解构的三元组信息(周,歌手,大), (深,歌手,鱼),前者格式是(subject头部,关系,object尾部),后者格式是(subject尾部,关系,object尾部),最后合并模块405将第三阶段的预测结果进行合并得到目标三元组。
在一些实施例中,上述装置中的预测模块404还用于:
对所述特征图矩阵中的每个元素进行二分类,预测所述实体信息相关的字级别矩阵,从而确定每个元素对应的坐标是不是实体;
对所述实体信息相关的字级别矩阵的每个元素进行多标签分类,预测所述实体和关系相关的字级别矩阵,从而确定每个元素对应的实体和关系信息;
对所述实体和关系相关的字级别矩阵的每个元素进行多标签分类,预测所述三元组相关的字级别矩阵,从而确定每个元素解构的三元组信息。
在一些实施例中,上述装置中的第一确定模块402还用于:
根据输入的标记序列确定对应的词嵌入,句子嵌入和位置嵌入;
将所述词嵌入,所述句子嵌入和所述位置嵌入加和;
将所述加和后的标记序列输入BERT模型中得到语义表示。
在一些实施例中,上述装置中对所述特征图矩阵中的每个元素进行二分类,其中,所述元素对应的横坐标和纵坐标分别表示文本片段在句子中的开始位置和结束位置。
在一些实施例中,上述装置中根据所述标记序列和所述语义表示确定特征图矩阵是根据相似度计算确定的。
在一些实施例中,上述装置中将所述特征图矩阵特征图矩阵看作d通道图像,分割层用于预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述实体关系联合抽取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述实体关系联合抽取方法。
图5是本公开实施例提供的一种电子设备的示意性框图。
如图5所示,电子设备包括:至少一个处理器501、至少一个存储器502 和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503,用于与外部设备之间的信息传输。可理解,总线系统 504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图5 中将各种总线都标为总线系统504。
可以理解,本实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例提供的实体关系联合抽取方法中任一方法的程序可以包含在应用程序中。
在本申请实施例中,处理器501通过调用存储器502存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器501用于执行本申请实施例提供的实体关系联合抽取方法各实施例的步骤。
获取标记序列;
根据所述标记序列确定语义表示;
根据所述标记序列和所述语义表示确定特征图矩阵;
根据所述特征图矩阵确定实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵;
将所述三元组相关的字级别矩阵合并得到目标三元组。
本申请实施例提供的实体关系联合抽取方法中任一方法可以应用于处理器501中,或者由处理器501实现。处理器501可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501 中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例提供的实体关系联合抽取方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成方法的步骤。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.实体关系联合抽取方法,其特征在于,包括:
获取标记序列;
根据所述标记序列确定语义表示;
根据所述标记序列和所述语义表示确定特征图矩阵;
根据所述特征图矩阵预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵;
将所述三元组相关的字级别矩阵合并得到目标三元组。
2.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述根据所述特征图矩阵预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵,包括:
对所述特征图矩阵中的每个元素进行二分类,预测所述实体信息相关的字级别矩阵,从而确定每个元素对应的坐标是不是实体;
对所述实体信息相关的字级别矩阵的每个元素进行多标签分类,预测所述实体和关系相关的字级别矩阵,从而确定每个元素对应的实体和关系信息;
对所述实体和关系相关的字级别矩阵的每个元素进行多标签分类,预测所述三元组相关的字级别矩阵,从而确定每个元素解构的三元组信息。
3.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述根据所述标记序列确定语义表示,包括:
根据标记序列确定对应的词嵌入,句子嵌入和位置嵌入;
将所述词嵌入,所述句子嵌入和所述位置嵌入加和;
将所述加和后的标记序列输入BERT模型中得到语义表示。
4.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述对所述特征图矩阵中的每个元素进行二分类,所述元素对应的横坐标和纵坐标分别表示文本片段在句子中的开始位置和结束位置。
5.根据权利要求1所述的实体关系联合抽取方法,其特征在于,所述根据所述标记序列和所述语义表示确定所述特征图矩阵是根据相似度计算确定的。
6.根据权利要求1所述的实体关系联合抽取方法,其特征在于,将所述特征图矩阵看作d通道图像,分割层用于预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵。
7.实体关系联合抽取装置,其特征在于,包括:
获取模块:用于获取标记序列;
第一确定模块:用于根据所述标记序列确定语义表示;
第二确定模块:用于根据所述标记序列和所述语义表示确定特征图矩阵;
预测模块:用于根据所述特征图矩阵预测实体信息相关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵;
合并模块:用于将所述三元组相关的字级别矩阵合并得到目标三元组。
8.根据权利要求7所述的实体关系联合抽取装置,其特征在于,预测模块还用于:
对所述特征图矩阵中的每个元素进行二分类,预测所述实体信息相关的字级别矩阵,从而确定每个元素对应的坐标是不是实体;
对所述实体信息相关的字级别矩阵的每个元素进行多标签分类,预测所述实体和关系相关的字级别矩阵,从而确定每个元素对应的实体和关系信息;
对所述实体和关系相关的字级别矩阵的每个元素进行多标签分类,预测所述三元组相关的字级别矩阵,从而确定每个元素解构的三元组信息。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至6任一项所述实体关系联合抽取方法。
10.一种计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至6任一项所述实体关系联合抽取方法。
CN202110283634.2A 2021-03-16 2021-03-16 实体关系联合抽取方法、装置、电子设备和存储介质 Active CN113157936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110283634.2A CN113157936B (zh) 2021-03-16 2021-03-16 实体关系联合抽取方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110283634.2A CN113157936B (zh) 2021-03-16 2021-03-16 实体关系联合抽取方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113157936A true CN113157936A (zh) 2021-07-23
CN113157936B CN113157936B (zh) 2024-03-12

Family

ID=76887407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110283634.2A Active CN113157936B (zh) 2021-03-16 2021-03-16 实体关系联合抽取方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113157936B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568969A (zh) * 2021-07-30 2021-10-29 咪咕文化科技有限公司 信息抽取方法、装置、设备以及计算机可读存储介质
CN113901827A (zh) * 2021-12-10 2022-01-07 北京邮电大学 实体识别和关系抽取方法、装置、电子设备及存储介质
CN114357179A (zh) * 2021-12-10 2022-04-15 杭州海康威视数字技术股份有限公司 实体关系联合抽取方法及电子设备
CN115146068A (zh) * 2022-06-01 2022-10-04 西北工业大学 关系三元组的抽取方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705299A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 实体和关系的联合抽取方法、模型、电子设备及存储介质
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法
US20200311197A1 (en) * 2019-03-27 2020-10-01 International Business Machines Corporation Natural language processing matrices
CN112232058A (zh) * 2020-10-15 2021-01-15 济南大学 基于深度学习三层语义抽取框架的假新闻识别方法及系统
CN112257417A (zh) * 2020-10-29 2021-01-22 重庆紫光华山智安科技有限公司 一种多任务命名实体识别训练方法、介质及终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200311197A1 (en) * 2019-03-27 2020-10-01 International Business Machines Corporation Natural language processing matrices
CN110705299A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 实体和关系的联合抽取方法、模型、电子设备及存储介质
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法
CN112232058A (zh) * 2020-10-15 2021-01-15 济南大学 基于深度学习三层语义抽取框架的假新闻识别方法及系统
CN112257417A (zh) * 2020-10-29 2021-01-22 重庆紫光华山智安科技有限公司 一种多任务命名实体识别训练方法、介质及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
甘云强: ""面向文本数据的金融实体关系挖掘技术研究"", 《中国优秀硕士学位论文数据库》, pages 7 - 65 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568969A (zh) * 2021-07-30 2021-10-29 咪咕文化科技有限公司 信息抽取方法、装置、设备以及计算机可读存储介质
CN113568969B (zh) * 2021-07-30 2024-06-04 咪咕文化科技有限公司 信息抽取方法、装置、设备以及计算机可读存储介质
CN113901827A (zh) * 2021-12-10 2022-01-07 北京邮电大学 实体识别和关系抽取方法、装置、电子设备及存储介质
CN114357179A (zh) * 2021-12-10 2022-04-15 杭州海康威视数字技术股份有限公司 实体关系联合抽取方法及电子设备
CN115146068A (zh) * 2022-06-01 2022-10-04 西北工业大学 关系三元组的抽取方法、装置、设备及存储介质
CN115146068B (zh) * 2022-06-01 2023-10-03 西北工业大学 关系三元组的抽取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113157936B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN113157936A (zh) 实体关系联合抽取方法、装置、电子设备和存储介质
US11775574B2 (en) Method and apparatus for visual question answering, computer device and medium
EP3859560A2 (en) Method and apparatus for visual question answering, computer device and medium
CN110751134A (zh) 目标检测方法、存储介质及计算机设备
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN112699937A (zh) 基于特征引导网络的图像分类与分割的装置、方法、设备及介质
CN112016510B (zh) 基于深度学习的信号灯识别方法和装置、设备及存储介质
WO2022152104A1 (zh) 动作识别模型的训练方法及装置、动作识别方法及装置
CN113869138A (zh) 多尺度目标检测方法、装置及计算机可读存储介质
WO2023207778A1 (zh) 数据修复方法、装置、计算机及可读存储介质
CN116740527A (zh) U型网络与自注意力机制结合的遥感图像变化检测方法
CN115482518A (zh) 一种面向交通场景的可扩展多任务视觉感知方法
CN112861539B (zh) 嵌套命名实体识别方法、装置、电子设备和存储介质
CN115223662A (zh) 数据处理方法、装置、设备及存储介质
CN115577768A (zh) 半监督模型训练方法和装置
WO2024175079A1 (zh) 一种模型的量化方法以及相关设备
CN113436287B (zh) 一种基于lstm网络与编解码网络的篡改图像盲取证方法
Li et al. Superdense-scale network for semantic segmentation
CN116069801B (zh) 一种交通视频结构化数据生成方法、装置及介质
WO2024001653A9 (zh) 特征提取方法、装置、存储介质及电子设备
CN116229406A (zh) 车道线检测方法、系统、电子设备及存储介质
CN115810152A (zh) 基于图卷积的遥感图像变化检测方法、装置和计算机设备
CN112990041B (zh) 一种基于改进型U-net的遥感影像建筑物提取方法
Yan et al. IV-YOLO: A Lightweight Dual-Branch Object Detection Network
CN113283241A (zh) 文本识别方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant