CN113157936B

CN113157936B - 实体关系联合抽取方法、装置、电子设备和存储介质

Info

Publication number: CN113157936B
Application number: CN202110283634.2A
Authority: CN
Inventors: 曾祥荣; 刘升平; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2024-03-12
Anticipated expiration: 2041-03-16
Also published as: CN113157936A

Abstract

本发明涉及一种实体关系联合抽取方法、装置、电子设备和存储介质，该方法包括：获取标记序列；根据所述标记序列确定语义表示；根据标记序列和所述语义表示确定特征图矩阵；根据特征图矩阵预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵；将三元组相关的字级别矩阵合并得到目标三元组。本申请实施例中实体信息相关的的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵是分阶段确定的，通过基于图像语义分割的多阶段实体关系抽取联合方法，使用语义分割框架进行目标三元组抽取，避免了实体重叠和误差累积的问题，并通过多阶段渐进式的方式，提升了抽取效果。

Description

实体关系联合抽取方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种实体关系联合抽取方法、装置、电子设备和存储介质。

背景技术

目前，实体关系抽取(Entity and Relation Extraction,ERE)任务，主要目的是从一段非结构化文本中抽取出实体关系三元组(subject,predicate,object)，比如文本“周某某作曲并演唱了《歌曲一》”，需要抽取出(周某某，歌手，歌曲一)和(周某某，作曲，歌曲一)两个三元组，该任务在知识图谱、智能问答等领域有重要作用。ERE包括实体抽取和关系抽取两个子任务，一般分为管道式方法和联合抽取式方法，研究者针对该任务从不同角度提出很多解决方案。

在实体关系抽取任务中，管道式方法一般先做实体识别，然后对实体对进行关系分类；该类方法忽略了实体与关系之间的联系，而且存在误差累积的问题。联合抽取式方法同时对实体和关系进行统一抽取，一般不能解决实体重叠的问题，即使有的方法变体能解决重叠问题，又面临训练和推理阶段不一致的现象。

发明内容

本发明提供一种实体关系联合抽取方法、装置、电子设备和存储介质，能够解决上述存在误差累积和实体重叠的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供了一种实体关系联合抽取方法，包括：

获取标记序列；

根据所述标记序列确定语义表示；

根据所述标记序列和所述语义表示确定特征图矩阵；

根据所述特征图矩阵预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵；

将所述三元组相关的字级别矩阵合并得到目标三元组。

在一些实施例中，所述根据所述特征图矩阵预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵，包括：

对所述特征图矩阵中的每个元素进行二分类，预测所述实体信息相关的字级别矩阵，从而确定每个元素对应的坐标是不是实体；

对所述实体信息相关的字级别矩阵的每个元素进行多标签分类，预测所述实体和关系相关的字级别矩阵，从而确定每个元素对应的实体和关系信息；

对所述实体和关系相关的字级别矩阵的每个元素进行多标签分类，预测所述三元组相关的字级别矩阵，从而确定每个元素解构的三元组信息。

在一些实施例中，所述根据所述标记序列确定语义表示，包括：

根据输入的标记序列确定对应的词嵌入，句子嵌入和位置嵌入；

将所述词嵌入，所述句子嵌入和所述位置嵌入加和；

将所述加和后的标记序列输入BERT模型中得到语义表示。

在一些实施例中，所述对所述特征图矩阵中的每个元素进行二分类，所述元素对应的横坐标和纵坐标分别表示文本片段在句子中的开始位置和结束位置。

在一些实施例中，所述根据所述标记序列和所述语义表示确定特征图矩阵是根据相似度计算确定的。

在一些实施例中，将所述特征图矩阵特征图矩阵看作d通道图像，分割层用于预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵。

第二方面，本发明实施例还提供了一种实体关系联合抽取装置，包括：

获取模块：用于获取标记序列；

第一确定模块：用于根据所述标记序列确定语义表示；

第二确定模块：用于根据所述标记序列和所述语义表示确定特征图矩阵；

预测模块：用于根据所述特征图矩阵预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵；

合并模块：用于将所述三元组相关的字级别矩阵合并得到目标三元组。

在一些实施例中，上述装置中的预测模块还用于：

在一些实施例中，上述装置中的第一确定模块还用于：

将所述词嵌入，所述句子嵌入和所述位置嵌入加和；

将所述加和后的标记序列输入BERT模型中得到语义表示。

在一些实施例中，上述装置中对所述特征图矩阵中的每个元素进行二分类，其中，所述元素对应的横坐标和纵坐标分别表示文本片段在句子中的开始位置和结束位置。

在一些实施例中，上述装置中根据所述标记序列和所述语义表示确定特征图矩阵是根据相似度计算确定的。

在一些实施例中，上述装置中将所述特征图矩阵特征图矩阵看作d通道图像，分割层用于预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项所述实体关系联合抽取方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项所述实体关系联合抽取方法。

本发明的有益效果是：本发明涉及一种实体关系联合抽取方法、装置、电子设备和存储介质，该方法包括：获取标记序列；根据所述标记序列确定语义表示；根据所述标记序列和所述语义表示确定特征图矩阵；根据所述特征图矩阵预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵；将所述三元组相关的字级别矩阵合并得到目标三元组。本申请实施例中实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵是分阶段确定的，通过基于图像语义分割的多阶段实体关系抽取联合方法，使用语义分割框架进行目标三元组抽取，避免了实体重叠和误差累积的问题，并通过多阶段渐进式的方式，提升了抽取效果。

附图说明

图1为本发明实施例提供的一种实体关系联合抽取方法图之一；

图2为本发明实施例提供的一种实体关系联合抽取方法架构图；

图3为本发明实施例提供的一种实体关系联合抽取方法图之二；

图4为本发明实施例提供的一种实体关系联合抽取装置图；

图5为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种实体关系联合抽取方法图之一。

结合图1，第一方面，本发明实施例提供了一种实体关系联合抽取方法，包括：

S101：获取标记序列；

具体的，本申请实施例中，标记序列表示为x＝([cls],x₁,x₂,x₃,x₄,...,x_n[sep])；标记[cls]对应的最终隐藏状态通常被用于分类任务，标记[sep]表示一个句子的结束；这两个标记是BERT模型约定的符号。

S102：根据所述标记序列确定语义表示；

具体的，本申请实施例中，将标记序列输入到BERT模型得到语义表示e＝(e_[cls],e₁,e₂,e₃,e₄,...，e_n,e_[sep])。

S103：根据所述标记序列和所述语义表示确定特征图矩阵；

具体的，本申请实施例中，通过相似度计算确定特征图矩阵。

S104：根据所述特征图矩阵预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵；

具体的，本申请实施例中，上述实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵是分阶段确定的。

S105：将所述三元组相关的字级别矩阵合并得到目标三元组。

示例性地，在步骤S104和S105中，假设输入文本为“周某演唱曲二”，对应的三元组为(周某，歌手，曲二)。第一阶段为实体信息相关的字级别矩阵(周某，曲二)，表示两者都是实体；第二阶段为实体和关系相关的字级别矩阵(周某，歌手)，(曲二，歌手)，表示“周某”在歌手相关的三元组中，“曲二”也在歌手相关的三元组中。第三阶段为三元组相关的字级别矩阵，为解构的三元组信息(周，歌手，曲)，(某，歌手，二)，前者格式是(subject头部，关系，object尾部)，后者格式是(subject尾部，关系，object尾部)，最后将第三阶段的预测结果进行合并得到目标三元组。

本申请实施例提出的实体关系抽取联合抽取方法架构图如图2所示，模型使用BERT(Bidirectional Encoder Representations from Transformers)作为编码器，根据BERT的输出确定字与字之间的特征图矩阵，作为语义分割模块的输入，最后语义分割模块输出三个预测结果，分别为实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵，三元组相关的字级别矩阵；将所述三元组相关的字级别矩阵合并得到目标三元组，并且本申请实施例中通过BERT模型能准确地表达出输入文本的语义信息。

在一些实施例中，所述根据所述特征图矩阵预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵，包括如下三个阶段：

第一个阶段：对特征图矩阵中的每个元素进行二分类，预测所述实体信息相关的字级别矩阵，从而确定每个元素对应的坐标是不是实体；

具体的，本申请实施例中，语义分割模块分割层的输出，通过卷积神经网络和全连接层的处理，对特征图矩阵中的每个元素进行二分类。其中矩阵元素对应的横纵坐标分别表示文本片段在句子中的开始位置和结束位置，并且矩阵的下三角不会对应实体，因为实体开始位置不会在结束位置的前面；二分类的目的是判断该坐标对应的文本片段是否是实体。比如在例句中有“周某”和“曲二”两个实体，对应坐标分别为(1,2)和(5,6)，对应图2中第一阶段字级别矩阵的灰色部分。

第二个阶段：对实体信息相关的字级别矩阵的每个元素进行多标签分类，预测所述实体和关系相关的字级别矩阵，从而确定每个元素对应的实体和关系信息；

具体的，本申请实施例中，预测实体信息相关字级别矩阵过程中卷积层的输出，通过卷积神经网络和全连接层的处理，对特征图矩阵中的每个元素进行多标签分类，类别总数为所有的关系类别数R，多标签分类的原因是一个实体可能存在多个关系三元组中。同样矩阵的每个元素对应的实体和关系信息，比如该阶段实体信息相关的字级别矩阵的灰色元素表示：(周某，歌手)，(曲二，歌手)信息。

第三个阶段：对实体和关系相关的字级别矩阵的每个元素进行多标签分类，预测所述三元组相关的字级别矩阵，从而确定每个元素解构的三元组信息。

具体的，本申请实施例中，实体信息相关的字级别矩阵的卷积层的输出，通过卷积神经网络和全连接层的处理，同样对特征图矩阵的每个元素进行多标签分类，类别总数为2R，例如针对关系集合(歌手，作曲)，对应标签映射关系{歌手-subject:0，歌手-object:1，作曲-subject：2，作曲-object：3}，从而每个元素解构的三元组信息，合并得到三元组信息。

图3为本发明实施例提供的一种实体关系联合抽取方法图之三；

S301：根据标记序列确定对应的词嵌入，句子嵌入和位置嵌入；

S302：将所述词嵌入，所述句子嵌入和所述位置嵌入加和；

S303：将所述加和后的标记序列输入BERT模型中得到语义表示。

具体的，本申请实施例中，矩阵元素对应的横纵坐标分别表示文本片段在句子中的开始位置和结束位置，并且矩阵的下三角不会对应实体，因为实体开始位置不会在结束位置的前面。

具体的，本申请实施例中，融合多种相似度计算方式编码得到字和字之间的相关性。

输入句子的第i个字x_i和第j个字x_j的相似度是一个向量F＝(x_i,x_j)＝[e_iWe_j；cos(e_i,e_j；MultiHead(e_i,e_j)]，三部分内容分别为双线性相似度、余弦相似度和多头注意力机制，其中将多头注意力机制中的多头看作图像中的通道数，其中W，是可学习的参数，h是注意力中的头数，/>是每个头对应向量维度。

MultiHead(e_i,e_j)＝Concat(head₁,head₂,...，head_h)

将特征图矩阵F＝∈R^n×n×d看作d通道图像，分割层用来预测字级别矩阵F＝∈R^n×n，类似于对图像的每个像素进行分类。分割层使用图像语义分割中的UNet结构，本文语义分割层由两个下采样模块和两个上采样模块跨层连接构成，通过扩大感受野为下阶段的分类任务提供了丰富的全局信息。

图3为本发明实施例提供的一种实体关系联合抽取装置图；

获取模块401：用于获取标记序列；

具体的，本申请实施例中，获取模块获取标记序列，标记序列表示为x＝([cls],x₁,x₂,x₃,x₄,...,x_n[sep])；标记[cls]对应的最终隐藏状态通常被用于分类任务，标记[sep]表示一个句子的结束；这两个标记是BERT模型约定的符号。

第一确定模块402：用于根据所述标记序列确定语义表示；

具体的，本申请实施例中，第一确定模块将标记序列输入到BERT模型确定语义表示e＝(e_[cls],e₁,e₂,e₃,e₄,...，e_n,e_[sep])。

第二确定模块403：用于根据所述标记序列和所述语义表示确定特征图矩阵。

具体的，本申请实施例中，通过第二确定模块303中的相似度计算确定特征图矩阵。

预测模块404：用于根据所述特征图矩阵预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵。

具体的，本申请实施例中，上述实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵是预测模块404分阶段预测的。

合并模块405：用于将所述三元组相关的字级别矩阵合并得到目标三元组。

示例性地，假设输入文本为“周某演唱曲二”，对应的三元组为(周某，歌手，曲二)。预测模块404预测第一阶段为实体信息相关的字级别矩阵(周某，曲二)，表示两者都是实体；预测模块404预测第二阶段为实体和关系相关的字级别矩阵(周某，歌手)，(曲二，歌手)，表示“周某”在歌手相关的三元组中，“曲二”也在歌手相关的三元组中。预测模块404预测第三阶段为三元组相关的字级别矩阵，为解构的三元组信息(周，歌手，曲)，(某，歌手，二)，前者格式是(subject头部，关系，object尾部)，后者格式是(subject尾部，关系，object尾部)，最后合并模块405将第三阶段的预测结果进行合并得到目标三元组。

在一些实施例中，上述装置中的预测模块404还用于：

在一些实施例中，上述装置中的第一确定模块402还用于：

将所述词嵌入，所述句子嵌入和所述位置嵌入加和；

将所述加和后的标记序列输入BERT模型中得到语义表示。

图5是本公开实施例提供的一种电子设备的示意性框图。

如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统504。

可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的实体关系联合抽取方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本申请实施例提供的实体关系联合抽取方法各实施例的步骤。

获取标记序列；

根据所述标记序列确定语义表示；

根据所述标记序列和所述语义表示确定特征图矩阵；

根据所述特征图矩阵确定实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵；

将所述三元组相关的字级别矩阵合并得到目标三元组。

本申请实施例提供的实体关系联合抽取方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的实体关系联合抽取方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.实体关系联合抽取方法，其特征在于，包括：

获取标记序列；

根据所述标记序列确定语义表示；

根据所述标记序列和所述语义表示确定特征图矩阵；

将所述三元组相关的字级别矩阵合并得到目标三元组；

其中，所述特征图矩阵是根据相似度计算确定的，融合多种相似度计算方式编码得到字和字之间的相关性；

其中，所述根据所述特征图矩阵预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵，包括：

2.根据权利要求1所述的实体关系联合抽取方法，其特征在于，所述根据所述标记序列确定语义表示，包括：

根据标记序列确定对应的词嵌入，句子嵌入和位置嵌入；

将所述词嵌入，所述句子嵌入和所述位置嵌入加和；

将所述加和后的标记序列输入BERT模型中得到语义表示。

3.根据权利要求1所述的实体关系联合抽取方法，其特征在于，所述对所述特征图矩阵中的每个元素进行二分类，所述元素对应的横坐标和纵坐标分别表示文本片段在句子中的开始位置和结束位置。

4.根据权利要求1所述的实体关系联合抽取方法，其特征在于，将所述特征图矩阵看作d通道图像，分割层用于预测实体信息相关的字级别矩阵，实体和关系相关的字级别矩阵和三元组相关的字级别矩阵。

5.实体关系联合抽取装置，其特征在于，包括：

获取模块：用于获取标记序列；

第一确定模块：用于根据所述标记序列确定语义表示；

第二确定模块：用于根据所述标记序列和所述语义表示确定特征图矩阵,其中，所述特征图矩阵是根据相似度计算确定的，融合多种相似度计算方式编码得到字和字之间的相关性；

合并模块：用于将所述三元组相关的字级别矩阵合并得到目标三元组；

其中，预测模块还用于：

6.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至4任一项所述实体关系联合抽取方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至4任一项所述实体关系联合抽取方法。