CN112183023A

CN112183023A - 一种多关系抽取方法和终端

Info

Publication number: CN112183023A
Application number: CN202011045802.6A
Authority: CN
Inventors: 曾祥荣
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-05

Abstract

本发明提出了一种多关系抽取方法和终端，该方法包括：将待处理句子中的每个词进行向量变换后输入Transformer模型的解码器进行编码，得到编码向量；将预设句子中的每个词进行向量变换，得到预设向量；将所述编码向量与所述预设向量同时输入所述Transformer模型的解码器进行解码，得到输出数据集；所述输出数据集由多个按序排列的子数据集组成，每个所述子数据集由5个按序排列的输出数据组成；依次基于每个所述子数据集中按序先后排列的5个输出数据确定所有的关系及其实体对。本方案中通过Transformer的编码和解码，利用本方案中的生成方式同时生成了多个关系及其实体对，对关系和实体的出现次数并无约束，由此可以同时抽取多个关系实体对。

Description

一种多关系抽取方法和终端

技术领域

本发明涉及数据关系抽取技术领域，特别涉及一种多关系抽取方法和终端。

背景技术

现有的基于神经网络的实体关系抽取方法主要由以下步骤构成：首先是对文本进行标注，给其中的每个词标记上一个预先定义好的标签；然后构建神经网络模型，使其对输入的每个词预测一个标签，使用标注好的数据对模型进行训练；最后使用训练好的神经网络对输入句子的每个词进行标签预测，并根据每个词的标签来搜集关系及对应的实体对。

现有的方法是基于序列标注的方法，每个词只能被标记一个标签，因而不能参与多个关系中

发明内容

针对现有技术中的缺陷，本发明提出了一种多关系抽取方法和终端，本方案中通过Transformer的编码和解码，利用本方案中的生成方式同时生成了多个关系及其实体对，对关系和实体的出现次数并无约束，由此可以同时抽取多个关系实体对。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种多关系抽取方法，包括：

将待处理句子中的每个词进行向量变换后输入Transformer模型的解码器进行编码，得到编码向量；

将预设句子中的每个词进行向量变换，得到预设向量；

将所述编码向量与所述预设向量同时输入所述Transformer模型的解码器进行解码，得到输出数据集；所述输出数据集由多个按序排列的子数据集组成，每个所述子数据集由5个按序排列的输出数据组成；

依次基于每个所述子数据集中按序先后排列的5个输出数据确定所有的关系及其实体对。

在一个具体的实施例中，所述预设句子中词的数量与所述输出数据集中输出数据的数量一致；所述预设向量均为可学习的参数；

所述预设句子中词的数量为m,且m＝5×k；k为句子中关系及其实体对的最大数量。

在一个具体的实施例中，所述关系及其实体对为：

T＝(r,es₁,ee₁,es₂,ee₂)；其中，T为关系及其实体对；r为关系；es₁为实体1的开始位置；ee₁为实体1的结束位置，es₂为实体2的开始位置；ee₂为实体2的结束位置。

在一个具体的实施例中，所述“依次基于每个所述子数据集中按序先后排列的5个输出数据确定所有的关系及其实体对”，包括：

根据概率分布依次基于每个所述子数据集中按序先后排列的5个输出数据确定关系、实体1的开始词、实体1的结束词、实体2的开始词、实体2的结束词；

分别基于实体1的开始词、实体1的结束词、实体2的开始词、实体2的结束词确定实体1的开始位置、实体1的结束位置、实体2的开始位置、实体2的结束位置；

基于所有所述输出数据的关系、实体1的开始位置、实体1的结束位置、实体2的开始位置、实体2的结束位置确定所有的关系及其实体对。

在一个具体的实施例中，所述关系是基于下列公式确定的：

r＝argmax(p_r)；其中,r为关系；

p_r＝softmax(logit_r)；p_r为各个关系的概率分布；

logit_r＝W_r*o_5(i-1)+1+b_r；W_r和b_r均为可以学习的参数；

o_5(i-1)+1为每个所述子数据集中按序先后排列的第1个输出数据；

i依次取值为0、1、2、…、k；k为句子中关系及其实体对的最大数量。

在一个具体的实施例中，所述实体1的开始词是基于下列公式确定的：

j＝argmax(p_e)；其中，j为概率分布中的最大概率，最大概率对应的位置对应的词为实体1的开始词；

p_e＝softmax(logit_e)；p_e为实体1开始位置在待处理句子中各个词的概率分布；

logit_e＝W_e*o_5(i-1)+2+b_e；W_e和b_e均为可以学习的参数；

o_5(i-1)+2为每个所述子数据集中按序先后排列的第2个输出数据；i依次取值为0、1、2、…、k；k为句子中关系及其实体对的最大数量。

在一个具体的实施例中，所述实体1的结束词是基于下列公式确定的：

logit_e＝W_e*o_5(i-1)+3+b_e；W_e和b_e均为可以学习的参数；

o_5(i-1)+3为每个所述子数据集中按序先后排列的第3个输出数据；

在一个具体的实施例中，所述实体2的开始词是基于下列公式确定的：

logit_e＝W_e*o_5(i-1)+4+b_e；W_e和b_e均为可以学习的参数；

o_5(i-1)+4为每个所述子数据集中按序先后排列的第4个输出数据；

在一个具体的实施例中，所述实体2的结束词是基于下列公式确定的：

logit_e＝W_e*o_5(i-1)+5+b_e；W_e和b_e均为可以学习的参数；

o_5(i-1)+5为每个所述子数据集中按序先后排列的第5个输出数据；

本发明实施例还提出了一种终端，包括存储器与处理器，所述处理器在执行所述存储器中的程序时执行上述的方法。

以此，本发明实施例提出了一种多关系抽取方法和终端，该方法包括：将待处理句子中的每个词进行向量变换后输入Transformer模型的解码器进行编码，得到编码向量；将预设句子中的每个词进行向量变换，得到预设向量；将所述编码向量与所述预设向量同时输入所述Transformer模型的解码器进行解码，得到输出数据集；所述输出数据集由多个按序排列的子数据集组成，每个所述子数据集由5个按序排列的输出数据组成；依次基于每个所述子数据集中按序先后排列的5个输出数据确定所有的关系及其实体对。本方案中通过Transformer的编码和解码，利用本方案中的生成方式同时生成了多个关系及其实体对，对关系和实体的出现次数并无约束，由此可以同时抽取多个关系实体对。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种多关系抽取方法的流程示意图；

图2为本发明实施例提出的一种多关系抽取方法中所有的关系及其实体对的流程示意图；

图3为本发明实施例提出的一种终端的结构示意图。

具体实施方式

在下文中，将更全面地描述本公开的各种实施例。本公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本公开的各种实施例限于在此公开的特定实施例的意图，而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本公开的各种实施例中被清楚地限定。

实施例1

本发明实施例1公开了一种多关系抽取方法，如图1所示，包括以下步骤：

步骤101、将待处理句子中的每个词进行向量变换后输入Transformer模型的解码器进行编码，得到编码向量；

具体的待处理句子也即待抽取其多个关系及实体对的句子，例如为句子s＝(w₁,…,w_n)，其中w_n表示句子中的第n个词。

具体的，Transformer模型为Google的团队在2017年提出的一种NLP(NaturalLanguage Processing，自然语言处理)经典模型。

步骤102、将预设句子中的每个词进行向量变换，得到预设向量；

预设句子为固定的句子，用于得到预设向量输入后续的解码器中。

步骤103、将所述编码向量与所述预设向量同时输入所述Transformer模型的解码器进行解码，得到输出数据集；所述输出数据集由多个按序排列的子数据集组成，每个所述子数据集由5个按序排列的输出数据组成；

例如，假设一个句子中关系及其实体对的个数最大为k，解码器的输入为d＝(d₁,…,d_m)，其中d_m是d的第m个词，其中m＝5×k。d中的每个词经过向量变换输入解码器。d中的每个词对应的向量都是可学习的参数；

在此情况下，解码器同时读入步骤101和步骤102中的向量，进行解码，得到输出数据集为：O＝(o₁,…,o_m)。o₁,…,o_m为各个按序输出数据；且各个输出数据均自带有序号，从1到m。

由于m＝5×k，将输出数据集从前到后按照每5个输出数据划分为一个子数据集，；例如o₁、o₂、o₃、o₄、o₅为第一子数据集；o₆、o₇、o₈、o₉、o₁₀为第二个子数据集，以此类推。

步骤104、依次基于每个所述子数据集中按序先后排列的5个输出数据确定所有的关系及其实体对。

后续在得到输出数据集后，根据每个子数据集中的5个数据依次确定关系及实体对。

在一个具体的实施例中，所述关系及其实体对为：

具体的，实体的开始、结束位置分别指该实体开始词是句子中的第几个词以及实体最后一个词是句子中的第几个词，基于此，如图2所示，步骤104中的所述“依次基于每个所述子数据集中按序先后排列的5个输出数据确定所有的关系及其实体对”，包括：

步骤1041、根据概率分布依次基于每个所述子数据集中按序先后排列的5个输出数据确定关系、实体1的开始词、实体1的结束词、实体2的开始词、实体2的结束词；

步骤1042、分别基于实体1的开始词、实体1的结束词、实体2的开始词、实体2的结束词确定实体1的开始位置、实体1的结束位置、实体2的开始位置、实体2的结束位置；

步骤1043、基于所有所述输出数据的关系、实体1的开始位置、实体1的结束位置、实体2的开始位置、实体2的结束位置确定所有的关系及其实体对。

具体的，关系及其实体对的过程为如下过程：

1、所述关系是基于下列公式确定的：

r＝argmax(p_r)；其中,r为关系；

p_r＝softmax(logit_r)；p_r为各个关系的概率分布；

logit_r＝W_r*o_5(i-1)+1+b_r；W_r和b_r均为可以学习的参数；

2、所述实体1的开始词是基于下列公式确定的：

logit_e＝W_e*o_5(i-1)+2+b_e；W_e和b_e均为可以学习的参数；

3、所述实体1的结束词是基于下列公式确定的：

logit_e＝W_e*o_5(i-1)+3+b_e；W_e和b_e均为可以学习的参数；

4、所述实体2的开始词是基于下列公式确定的：

logit_e＝W_e*o_5(i-1)+4+b_e；W_e和b_e均为可以学习的参数；

5、所述实体2的结束词是基于下列公式确定的：

logit_e＝W_e*o_5(i-1)+5+b_e；W_e和b_e均为可以学习的参数；

基于上述5个步骤，确定了所有关系及其实体对。由此，本方案中通过Transformer的编码和解码，利用本方案中的生成方式同时生成了多个关系及其实体对，对关系和实体的出现次数并无约束，由此可以同时抽取多个关系实体对。

实施例2

本发明实施例2还公开了一种终端，如图3所示，包括存储器201与处理器202，所述处理器202在执行所述存储器201中的程序时执行实施例1中所述的方法。

具体的，本发明实施例2还公开有其他相关的特征，具体的其他相关的特征请参见实施例1中的记载。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种多关系抽取方法，其特征在于，包括：

将预设句子中的每个词进行向量变换，得到预设向量；

2.如权利要求1所述的方法，其特征在于，所述预设句子中词的数量与所述输出数据集中输出数据的数量一致；所述预设向量均为可学习的参数；

3.如权利要求1所述的方法，其特征在于，所述关系及其实体对为：

4.如权利要求1-3中任意一项所述的方法，其特征在于，所述“依次基于每个所述子数据集中按序先后排列的5个输出数据确定所有的关系及其实体对”，包括：

5.如权利要求4所述的方法，其特征在于，所述关系是基于下列公式确定的：

r＝argmax(p_r)；其中,r为关系；

p_r＝softmax(logit_r)；p_r为各个关系的概率分布；

logit_r＝W_r*o_5(i-1)+1+b_r；W_r和b_r均为可以学习的参数；

6.如权利要求4或5所述的方法，其特征在于，所述实体1的开始词是基于下列公式确定的：

logit_e＝W_e*o_5(i-1)+2+b_e；W_e和b_e均为可以学习的参数；

7.如权利要求4或5所述的方法，其特征在于，所述实体1的结束词是基于下列公式确定的：

logit_e＝W_e*o_5(i-1)+3+b_e；W_e和b_e均为可以学习的参数；

8.如权利要求4或5所述的方法，其特征在于，所述实体2的开始词是基于下列公式确定的：

logit_e＝W_e*o_5(i-1)+4+b_e；W_e和b_e均为可以学习的参数；

9.如权利要求4或5所述的方法，其特征在于，所述实体2的结束词是基于下列公式确定的：

logit_e＝W_e*o_5(i-1)+5+b_e；W_e和b_e均为可以学习的参数；

10.一种终端，其特征在于，包括存储器与处理器，所述处理器在执行所述存储器中的程序时执行权利要求1-9中任意一项所述的方法。