CN110704547B

CN110704547B - 基于神经网络的关系抽取数据生成方法、模型及训练方法

Info

Publication number: CN110704547B
Application number: CN201910922416.1A
Authority: CN
Inventors: 陈栋; 齐云飞; 付骁弈
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2022-08-09
Anticipated expiration: 2039-09-26
Also published as: CN110704547A

Abstract

本申请提供一种基于神经网络的关系抽取数据生成方法、模型及训练方法，所述方法应用于关系抽取数据生成模型，包括：获取由三元组信息确定出的输入信息；根据所述输入信息，确定出多条包含所述三元组信息的文本数据；输出多条所述文本数据中的k条所述文本数据，其中，k为大于1的整数。通过将由三元组信息确定出的输入信息输入关系抽取数据生成模型中，模型确定出多条包含三元组信息的文本数据，并且输出其中的k条文本数据，以此获得k条包含三元组信息的文本数据。因此，可以实现根据一条数据派生出多条包含与该数据一致的三元组信息的文本数据，在节约人工标注的基础上，有效地丰富有监督关系抽取模型的训练数据。

Description

基于神经网络的关系抽取数据生成方法、模型及训练方法

技术领域

本申请涉及人工智能领域，具体而言，涉及一种基于神经网络的关系抽取数据生成方法、模型及训练方法。

背景技术

在以非结构化数据构建知识图谱的过程中，需要进行实体(可以理解为节点)抽取和关系(可以理解为边)抽取，如何高效精准的抽取实体与实体之间的关系成为了现如今研究的热点。

随着神经网络的广泛应用，利用神经网络模型抽取数据的方法，具有高精确率、低召回的优势，逐渐替代了原有的利用规则模型抽取关系的方法。利用神经网络模型抽取数据的方法，若要保证模型的精度，需要充足的训练数据。在现有的方式中，对训练数据通常采取人工标注的方式，但是人工标注的成本高昂，另外，由于同行业相关中文公开数据的缺失，使得高效精准的有监督关系抽取模型的训练面临着训练数据不足的问题。

发明内容

本申请实施例的目的在于提供一种基于神经网络的关系抽取数据生成方法、模型及训练方法，以解决现阶段高效精准的有监督关系抽取模型的训练数据不足的问题。

为了实现上述目的，本申请的实施例通过如下方式实现：

第一方面，本申请实施例提供一种基于神经网络的关系抽取数据生成方法，应用于关系抽取数据生成模型，所述方法包括：获取由三元组信息确定出的输入信息；根据所述输入信息，确定出多条包含所述三元组信息的文本数据；输出多条所述文本数据中的k条所述文本数据，其中，k为大于1的整数。

通过将由三元组信息确定出的输入信息输入关系抽取数据生成模型中，模型确定出多条包含三元组信息的文本数据，并且输出其中的k条文本数据，以此获得k条包含三元组信息的文本数据。因此，可以实现根据一条数据派生出多条包含与该数据一致的三元组信息的文本数据，在节约人工标注的基础上，有效地丰富有监督关系抽取模型的训练数据。

结合第一方面，在第一方面的第一种可能的实现方式中，所述输入信息由词嵌入矩阵、关系类型嵌入矩阵、实体类型嵌入矩阵、位置嵌入矩阵和掩码矩阵确定出，其中，所述词嵌入矩阵、所述关系类型嵌入矩阵、所述实体类型嵌入矩阵、所述位置嵌入矩阵和是掩码矩阵由所述三元组信息确定出，所述根据所述输入信息，确定出多条包含所述三元组信息的文本数据，包括：根据所述词嵌入矩阵、所述关系类型嵌入矩阵、所述实体类型嵌入矩阵、所述位置嵌入矩阵和所述掩码矩阵，确定出多条包含所述三元组信息的文本数据。

通过将三元组信息确定出的词嵌入矩阵、关系类型嵌入矩阵、实体类型嵌入矩阵、位置嵌入矩阵和掩码矩阵作为关系抽取数据生成模型的输入，可以保证三元组信息的合理搭配，从而准确确定出包含三元组信息的文本数据，可以尽可能保证确定出的文本数据与包含输入信息中的三元组信息的数据的一致性和有效性。

第二方面，本申请实施例提供一种关系抽取数据生成模型，包括：输入单元，用于获取由三元组信息确定出的输入信息；文本数据确定单元，用于根据所述输入信息，确定出多条包含所述三元组信息的文本数据；输出单元，用于输出多条所述文本数据中的k条所述文本数据，其中，k为大于1的整数。

第三方面，本申请实施例提供一种模型训练方法，用于训练如第二方面所述的关系抽取数据生成模型，所述方法包括：获取结构化和/或半结构化的训练数据，并确定出所述训练数据中的三元组信息；根据所述三元组信息确定出所述输入信息；将所述输入信息输入所述关系抽取数据生成模型，计算所述关系抽取数据生成模型输出的文本数据与所述训练数据的一致性，并更新所述关系抽取数据生成模型的参数；利用所述训练数据重复训练所述关系抽取数据生成模型，直到达到训练周期，保存训练精度最好的关系抽取数据生成模型。

第四方面，本申请实施例提供一种基于神经网络的关系抽取数据生成方法，应用于电子设备，所述方法包括：从种子知识图谱中获取待处理数据，并对所述待处理数据进行特征抽取，确定出三元组信息，其中，所述种子知识图谱由结构化数据和/或半结构化数据构建；根据所述三元组信息确定出所述输入信息；将所述输入信息输入第二方面所述的关系抽取数据生成模型，获得k条所述文本数据。

通过从由结构化数据和/或半结构化数据构建的种子知识图谱中获取待处理数据，并从待处理数据中抽取出三元组信息，由三元组信息确定出输入信息后将输入信息输入关系抽取数据生成模型，以获得k条文本数据。这样可以将种子知识图谱中的数据进行成倍的有效扩展，从而实现对高效精准的有监督关系抽取模型的训练数据进行有效的扩充。由于种子知识图谱是以结构化数据和/或半结构化数据为基础构建的，因此，可以保证数据来源的准确性，因而，可以尽可能保证扩充的文本数据的准确性。

结合第四方面，在第四方面的第一种可能的实现方式中，对所述待处理数据进行特征抽取，确定出三元组信息，包括：将所述待处理数据输入预设的特征抽取模型中；获得所述特征抽取模型对所述待处理数据进行特征抽取后输出的所述三元组信息。

通过使用预设的特征抽取模型对待处理数据进行特征抽取，可以准确且高效地确定出待处理数据的三元组信息。且由于待处理数据来源于由结构化数据和/或半结构化数据构建的种子知识图谱，可以保证抽取出三元组信息的准确性和降低特征抽取的难度。

结合第四方面，在第四方面的第二种可能的实现方式中，确定出包含所述三元组信息的输入信息，包括：根据所述三元组信息中字表的大小，确定出词嵌入矩阵；根据所述三元组信息的主体、客体和关系，确定出关系类型嵌入矩阵；根据所述三元组信息的实体类型的数量和关系类型的数量，确定出实体类型嵌入矩阵；根据所述三元组信息中字表的位置，确定出位置嵌入矩阵；根据所述三元组信息中三元组的长度，确定出掩码矩阵；根据所述词嵌入矩阵、所述关系类型嵌入矩阵、所述实体类型嵌入矩阵、所述位置嵌入矩阵和所述掩码矩阵，确定出所述输入信息。

通过根据三元组信息中字表的大小确定出词嵌入矩阵，可以保证输入信息中三元组信息的字表(主体、客体和关系的字)的准确性；通过根据三元组信息的主体、客体和关系确定出关系类型嵌入矩阵，可以保证输入信息中三元组信息的关系的准确性；通过根据三元组信息的实体类型的数量和关系类型的数量确定出实体类型嵌入矩阵，可以保证保证输入信息中三元组信息的实体和关系的准确性和完整性；而通过根据三元组信息中字表的位置确定出位置嵌入矩阵，可以保证输入信息中三元组信息的字表(主体、客体和关系的字)的位置的准确性；以及，根据三元组信息中三元组的长度确定出掩码矩阵，可以保证输入信息中三元组信息的长度的准确性。而由词嵌入矩阵、关系类型嵌入矩阵、实体类型嵌入矩阵、位置嵌入矩阵和掩码矩阵确定出的输入信息，可以从多种维度上保证三元组信息在输入信息中的准确表达，从而有利于确保确定出的多条文本数据的有效性。

结合第四方面的第二种可能的实现方式，在第四方面的第三种可能的实现方式中，根据所述三元组信息的主体、客体和关系，确定出关系类型嵌入矩阵，包括：根据所述三元组信息的主体、客体和关系，生成对应的关系类型序列；将所述关系类型序列转换为矩阵，以确定出所述关系类型嵌入矩阵。

通过由三元组信息的主体、客体和关系生成对应的关系类型序列，再将关系类型序列转换为矩阵形式，可以保证三元组信息的主体、客体和关系之间的关系类型的准确性和可靠性。

结合第四方面的第二种可能的实现方式，在第四方面的第四种可能的实现方式中，根据所述三元组信息的实体类型的数量和关系类型的数量，确定出实体类型嵌入矩阵，包括：根据所述三元组信息的实体类型的数量和关系类型的数量，生成对应的实体类型序列；将所述实体类型序列转换为矩阵，以确定出所述实体类型嵌入矩阵。

通过由三元组信息的实体类型的数量和关系类型的数量生成对应的实体类型序列，再将实体类型序列转换为矩阵形式，可以保证三元组信息的主体、客体和关系之间的实体类型的准确性和可靠性。

第五方面，本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现第四方面或第四方面的可能的实现方式中任一项所述的基于神经网络的关系抽取数据生成方法。

第六方面，本申请实施例提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如第一方面或第一方面的第一种可能的实现方式中所述的基于神经网络的关系抽取数据生成方法；或者实现如第三方面所述的模型训练方法；或者实现如第四方面或第四方面可能的实现方式中任一项所述的基于神经网络的关系抽取数据生成方法。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种关系抽取数据生成模型的结构示意图。

图2为本申请实施例提供的一种关系抽取数据生成模型的结构示意图。

图3为本申请实施例提供的一种模型训练方法的流程图。

图4为本申请实施例提供的一种应用于电子设备的关系抽取数据生成方法的流程图。

图5为本申请实施例提供的一种应用于关系抽取数据生成模型的关系抽取数据生成方法的流程图。

图6为本申请实施例提供的一种电子设备的结构框图。

具体实施方式

在现有技术中，通常采取Distant Supervision(远程监督)的方法，从已有的知识图谱中抽取出三元组信息(例如主体：李小明，客体：海星公司，关系：创始人)，然后从大量的文本中过滤出同时包含李小明、海星公司的句子，并默认其关系为创始人，以此解决标注数据缺失的问题而获取充足的训练数据。但由于远程监督存在其假设性过强的问题，导致筛选出来的句子中会带有大量的噪音，例如：李小明今天去了海星公司上班。但是筛选的该句子无法确定李小明就是海星公司的创始人关系，因而准确性和可信度较低。

又如，现有技术中还可以采取基于模版种子的方法，针对不同的关系，人工构建种子句子模版。示例性的，种子句子模版为：{XXX}为{YYY}公司的创始人。其中，XXX为主体的槽位，YYY为客体的槽位，关系则为创始人。但基于模版种子方法的问题在于人工构建的句子灵活性太低，无法枚举所有的关系以及有可能出现此关系的句子，并且人工成本较高。

基于此，本申请的发明人提供一种基于神经网络的关系抽取数据生成方法、模型及训练方法，以解决现阶段高效精准的有监督关系抽取模型的训练数据不足的问题。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

在本实施例中，可以构建一种基于神经网络的关系抽取数据生成模型，作为运行关系抽取数据生成方法的基础。

示例性的，可以采用对seq2seq(Sequence to Sequence，序列到序列)模型进行改进的方式构建关系抽取数据生成模型。总体而言，可以通过改造经典seq2seq模型的输入与输出，将经典seq2seq模型输入的句子改为三元组信息，并将其实体信息、关系信息等嵌入到输入中，从而得到模型的输入信息。

为了便于理解本方案，此处对seq2seq模型进行简单的介绍：Seq2Seq模型是RNN(Recurrent Neural Network，循环神经网络)最重要的一个变种，N vs M(输入与输出序列长度不同)，这种结构的模型又叫Encoder-Decoder(Encoder-Decoder，编码-解码)模型。Seq2Seq模型中可以包括Encoder(编码器)部分和Decoder(解码器)部分，其中，Encoder部分用于编码(即，对输入的信息进行特征提取)，Decoder部分用于解码(以获取输出)。Seq2Seq模型广泛应用于机器翻译中，例如输入为中文，输出为翻译后的英语。

在本实施例中，可以对seq2seq模型进行改造，以获取关系抽取数据生成模型。请参阅图1，图1为本申请实施例提供的一种关系抽取数据生成模型11的结构示意图。

在本实施例中，可以对seq2seq模型的Encoder部分和Decoder部分都进行改造。为了提高模型的准确性和可靠性，对Encoder部分，可以改造其接收输入信息的输入接口，使其接收的输入信息为特定的结构(示例性的，可以为由三元组信息确定出的包含词嵌入矩阵、关系类型嵌入矩阵、实体类型嵌入矩阵、位置嵌入矩阵和掩码矩阵的输入信息，后文将对此种结构的输入信息进行详细的介绍)。而对应Encoder部分的改进，Decoder部分可以做出对应的调整，以对从输入信息中提取出的特征进行编码，确定出多条包含该三元组信息的文本数据，以输出其中的部分文本数据。需要说明的是，还可以在改进的模型基础上添加Top-k机制(对数据进行排序后筛选出其中的k个，例如筛选出按与输入数据的相似度排序的k个文本数据)，从而改进的模型可以输出其中的部分文本数据(例如多条文本数据中的k条文本数据，k为大于等于1的整数)。

对应此种改进，构建的关系抽取数据生成模型11可以包括输入单元111、文本数据确定单元112和输出单元113。其中，输入单元111用于获取由三元组信息确定出的输入信息，文本数据确定单元112用于根据输入信息确定出多条包含三元组信息的文本数据，输出单元113用于输出多条文本数据中相似度较高的k条文本数据。

本实施例还提供另一种对seq2seq模型进行改造而构建出的关系抽取数据生成模型12。关系抽取数据生成模型12的结构示意图如图2所示。

在本实施例中，可以选取seq2seq模型中的Decoder部分进行改进，以及，在此基础上添加Top-k机制，使得改进的Decoder部分可以对由三元组信息确定出的包含词嵌入矩阵、关系类型嵌入矩阵、实体类型嵌入矩阵、位置嵌入矩阵和掩码矩阵的输入信息进行编码(或者特征提取和编码)，确定出多条包含该三元组信息的文本数据，以输出其中的部分文本数据(例如多条文本数据中的k条文本数据)。

而对应此种改进，构建的关系抽取数据生成模型12可以包括输入单元121、文本数据确定单元122和输出单元123。其中，输入单元121用于获取由三元组信息确定出的输入信息，文本数据确定单元122用于根据输入信息确定出多条包含三元组信息的文本数据，输出单元123用于输出多条文本数据中的k条文本数据。

需要说明的是，上述构建关系抽取数据生成模型的方式，只是多种方式中的两种，并不限定于此。在其他一些可实现的方式中，构建的关系抽取数据生成模型还可以包括三元组信息提取及输入改造部分，用于提取结构化和/或半结构化数据中的三元组信息，并根据提取的三元组信息确定出包含词嵌入矩阵、关系类型嵌入矩阵、实体类型嵌入矩阵、位置嵌入矩阵和掩码矩阵的输入信息。因此，此处不应视为对本申请的限定。

以上，为构建关系抽取数据生成模型的过程。在构建好关系抽取数据生成模型后，可以对关系抽取数据生成模型进行训练。为了保证训练效果，以高效地训练好关系抽取数据生成模型，可以选用由结构化和/或半结构化的数据构建的训练数据集对关系抽取数据生成模型进行训练。需要说明的是，训练关系抽取数据生成模型时，可以不使用Top-k机制(或者设置k＝1)，关系抽取数据生成模型输出一条包含三元组信息的文本数据即可。并将输出的文本数据与训练数据进行对比，以输出的文本数据与训练数据一致为佳。

请参阅图3，图3示出了本申请实施例提供的一种模型训练方法的流程图，以对构建的关系抽取数据生成模型进行训练。在本实施例中，模型训练方法可以包括步骤S11、步骤S12、步骤S13和步骤S14。

步骤S11：获取结构化和/或半结构化的训练数据，并确定出所述训练数据中的三元组信息。

在本实施例中，可以从训练数据集中获取结构化和/或半结构化的训练数据，通过特征提取模型提取出训练数据中的三元组信息。此处特征抽取模型可以选取TransformerEncoder(一种特征抽取模型)，也可以选取LSTM(Long Short-Term Memory，长短期记忆网络)，CNN(Convolutional Neural Networks，卷积神经网络)，RNN，预训练模型等，此处不作限定。

在确定出三元组信息后，可以执行步骤S12。

步骤S12：根据所述三元组信息确定出所述输入信息。

在本实施例中，关系抽取数据生成模型的输入信息可以包括5种类型的Embedding(嵌入)：Word Embedding(词嵌入)、Relation Type Embedding(关系类型嵌入)、EntityType Embedding(实体类型嵌入)、Position Embedding(位置嵌入)和Masking(掩码)。示例性的，关系抽取数据生成模型的输入信息可以包括这些Embedding，例如，确定出的输入信息可以为：Word Embedding+Position Embedding+Masking+Entity Type Embedding+Relation Type Embedding。当然，本实施例中以此种结构的输入信息为例，只是便于对输入信息进行说明，而不应视为对本申请的限定。输入信息也可以为其他的结构，例如，各种类型的嵌入在顺序上的不同，此处不作限定。

为了便于关系抽取数据生成模型对输入信息中各种类型嵌入的识别，本实施例还可以设置特殊符号，结合各种类型的嵌入，确定出输入信息。示例性的，特殊符号可以包括SOS：为句子开始符号，SEP：为分隔符，PAD：为填充符,EOS：为句子结束符号。符号的表示方式和具体种类，本申请不作限定。

在本实施例中，可以根据三元组信息中字表的大小，确定出词嵌入矩阵。示例性的，可以设置Word Embedding的维度为W(例如300)，W＝字表的大小+特殊符号量，用于将字转换为向量，将字转换为向量的方式可以参照经典seq2seq模型将字转换为向量的方式。例如，以三元组信息(主体：李小明，客体：海星公司，关系：创始人)为例，则Word Embedding为：[<SOS>李小明<SEP>海星公司<SEP>创始人<EOS><PAD>]，并将Word Embedding转换为矩阵，由此可以确定出词嵌入矩阵。通过根据三元组信息中字表的大小确定出词嵌入矩阵，可以保证输入信息中三元组信息的字表(主体、客体和关系的字)的准确性。

在本实施例中，可以根据三元组信息的主体、客体和关系，确定出关系类型嵌入矩阵。示例性的，可以设置Relation Type Embedding的维度为T(例如300)，T＝3+特殊符号量＝7(此处，3为关系实体的种类数量，特殊符号量的种类为4，7为总的种类数量)，其中，特殊字符：(SOS：0)，(SEP：1)，(PAD：2)，(EOS：3)；关系实体：(主体：4)，(客体：5)，(关系：6)。同样的，以三元组信息(主体：李小明，客体：海星公司，关系：创始人)为例，则Relation TypeEmbedding为[0 4 4 4 1 5 5 5 5 1 6 6 6 3 2]，并将Relation Type Embedding转换为矩阵，由此可以确定出关系类型嵌入矩阵。其中，Relation Type Embedding：[0 4 4 4 1 55 5 5 1 6 6 6 3 2]中的“0”表示句子开始符号SOS，“1”表示分隔符SEP，“2”表示填充符EOS，“3”表示句子结束符号EOS，而“4”表示三元组信息中的主体，“5”表示三元组信息中的客体，“6”表示三元组信息中的关系。通过根据三元组信息的主体、客体和关系确定出关系类型嵌入矩阵，可以保证输入信息中三元组信息的关系的准确性。

在本实施例中，可以根据三元组信息的实体类型的数量和关系类型的数量，确定出实体类型嵌入矩阵。示例性的，可以设置Entity Type Embedding的维度为E(例如300)，E＝实体类型的数量+特殊字符量+关系类型的数量。例如，特殊字符：(SOS：0)，(SEP：1)，(PAD：2)，(EOS：3)；实体：(人名：4)，(地名：5)，(组织机构名：6)；关系：(创始人：7)，(来自于：8)，(毕业于：9)。同样的，以三元组信息(主体：李小明，客体：海星公司，关系：创始人)为例，则Entity Type Embedding为[0 4 4 4 1 6 6 6 6 1 7 7 7 3 2]，并将Entity TypeEmbedding转换为矩阵，由此可以确定出实体类型嵌入矩阵。其中，Entity TypeEmbedding：[0 4 4 4 1 6 6 6 6 1 7 7 7 3 2]中的“0”表示句子开始符号SOS，“1”表示分隔符SEP，“2”表示填充符EOS，“3”表示句子结束符号EOS，而“4”表示三元组信息中包含的人名，“6”表示三元组信息中包含的组织机构名，“7”表示三元组信息中包含的创始人关系。通过根据三元组信息的实体类型的数量和关系类型的数量确定出实体类型嵌入矩阵，可以保证保证输入信息中三元组信息的实体和关系的准确性和完整性。

在本实施例中，可以根据三元组信息中字表的位置，确定出位置嵌入矩阵。示例性的，可以设置Position Embedding的维度为(P，预定义维度)，其中，P为关系抽取数据生成模型最大可支持的长度(主体+客体+关系)。同样的，以三元组信息(主体：李小明，客体：海星公司，关系：创始人)为例，则Position Embedding为[1 2 3 4 5 6 7 8 9 10 11 12 1314 15]，并将Position Embedding转换为矩阵，由此可以确定出位置嵌入矩阵。其中，Position Embedding：[1 2 3 4 5 6 7 8 9 10 11 12 13 14 15]中的1～15表示每个字表的位置，可以与[<SOS>李小明<SEP>海星公司<SEP>创始人<EOS><PAD>]结合起来，“<SOS>”的位置为“1”，“李”的位置为“2”，以此类推，不再赘述。通过根据三元组信息中字表的位置确定出位置嵌入矩阵，可以保证输入信息中三元组信息的字表(主体、客体和关系的字)的位置的准确性。

在本实施例中，可以根据三元组信息中三元组的长度，确定出掩码矩阵。示例性的，关系抽取数据生成模型的最大支持长度为15，再次以三元组信息(主体：李小明，客体：海星公司，关系：创始人)为例，三元组的长度(主体+客体+关系)为14，则Masking为[1 1 11 1 1 1 1 1 1 1 1 1 1 0]，并将Masking转换为矩阵，由此可以确定出掩码矩阵。其中，Masking：[1 1 1 1 1 1 1 1 1 1 1 1 1 1 0]中的“1”表示存在字的部分，“0”则为将三元组的长度补至最大支持长度的补位部分。假设另一三元组信息长度为10，最大支持长度为15，则对应该三元组的Masking为：[1 1 1 1 1 1 1 1 1 1 0 0 0 0 0]。根据三元组信息中三元组的长度确定出掩码矩阵，可以保证输入信息中三元组信息的长度的准确性。

需要说明的是，将向量转换为矩阵的方法，可以采用常用的向量转矩阵的方式，例如变维函数，此处不作限定，只需将向量转换为矩阵即可，以实际需要和便利为准。

根据确定出的词嵌入矩阵、关系类型嵌入矩阵、实体类型嵌入矩阵、位置嵌入矩阵和掩码矩阵，可以确定出输入信息。例如，输入信息的结构形式可以为：词嵌入矩阵+位置嵌入矩阵+掩码矩阵+实体类型嵌入矩阵+关系类型嵌入矩阵，当然并不限定于此，矩阵的顺序和种类可以不同，或者再进行一些变换等。当然，在其他一些可实现的方式中，也可以通过Word Embedding、Relation Type Embedding、Entity Type Embedding、PositionEmbedding和Masking的向量确定出输入信息，而无需进行向量转换为矩阵的过程，以实际需要为准。由词嵌入矩阵、关系类型嵌入矩阵、实体类型嵌入矩阵、位置嵌入矩阵和掩码矩阵确定出的输入信息，可以从多种维度上保证三元组信息在输入信息中的准确表达，从而有利于有效确定出多条文本数据。

在确定出输入信息后，可以执行步骤S13。

步骤S13：将所述输入信息输入所述关系抽取数据生成模型，计算所述关系抽取数据生成模型输出的文本数据与所述训练数据的一致性，并更新所述关系抽取数据生成模型的参数。

在本实施例中，为了保证训练效果，可以设置关系抽取数据生成模型输出一条包含三元组信息的文本数据即可(即不使用Top-k机制或者设置k＝1)，并将输出的文本数据与训练数据进行对比，以输出的文本数据与训练数据一致为佳。模型可以计算输出的文本数据与训练数据的一致性，并根据所计算的一致性结果更新关系抽取数据生成模型的参数。例如，训练数据中的句子为：李小明创办了伟大的海星公司(其三元组信息的主体：李小明，客体：海星公司，关系：创始人)。而关系抽取数据生成模型输出的包含该三元组信息的文本数据可能为：李小明是海星公司的创办人。输出的文本数据与训练数据的三元组信息一致，在表达上却有不同，仍需继续训练，以输出的文本数据与训练数据一致为佳。

以及，为了更好地训练关系抽取数据生成模型，可以执行步骤S14。

步骤S14：利用所述训练数据重复训练所述关系抽取数据生成模型，直到达到训练周期，保存训练精度最好的关系抽取数据生成模型。

在本实施例中，可以利用训练数据集中的训练数据，对关系抽取数据生成模型进行重复训练，直到达到训练周期，保存训练精度最好的关系抽取数据生成模型，即完成对关系抽取数据生成模型的训练。

在训练好关系抽取数据生成模型后，电子设备可以运行本申请实施例提供的关系抽取数据生成方法。

请参阅图4，图4示出了本申请实施例提供的一种应用于电子设备的关系抽取数据生成方法。在本实施例中，应用于电子设备的关系抽取数据生成方法可以包括步骤S21、步骤S22和步骤S23。

在电子设备执行步骤S21之前，可以利用结构化和/或半结构化的数据构建种子知识图谱，以构建好的种子知识图谱作为获取包含三元组信息的文本数据(即有监督关系抽取模型的训练数据)的基础。需要说明的是，构建关系抽取数据生成模型和构建种子知识图谱的过程，在时间上并无严格限制，可以先构建关系抽取数据生成模型后构建种子知识图谱，也可以先构建种子知识图谱后构建关系抽取数据生成模型，还可以同时构建关系抽取数据生成模型和构建种子知识图谱，此处不作限定。

构建好种子知识图谱后，电子设备可以执行步骤S21。

步骤S21：从种子知识图谱中获取待处理数据，并对所述待处理数据进行特征抽取，确定出三元组信息，其中，所述种子知识图谱由结构化数据和/或半结构化数据构建。

在本实施例中，电子设备可以种子知识图谱中获取待处理数据。以及，电子设备可以通过预设的特征抽取模型(即，将待处理数据输入预设的特征抽取模型中)，对待处理数据进行特征抽取，从而获得对待处理数据进行特征抽取后输出的三元组信息。其中，预设的特征抽取模型可以为Transformer Encoder，LSTM，CNN，RNN，预训练模型等，此处不作限定。

例如，待处理数据为：李小明创办了伟大的海星公司。那么，特征抽取模型抽取的三元组信息的主体：李小明，客体：海星公司，关系：创始人。

抽取出待处理数据的三元组信息后，电子设备可以执行步骤S22。

步骤S22：根据所述三元组信息确定出所述输入信息。

在本实施例中，电子设备可以根据三元组信息确定出关系抽取数据生成模型的输入信息。而三元组信息确定出输入信息的具体过程，可以参照前文中所使用的方式，由此确定出关系抽取数据生成模型的输入信息，输入信息中包含三元组信息的多个维度方面的特征，以便关系抽取数据生成模型能够从输入信息中获取更多关于三元组信息的信息，有利于提高由关系抽取数据生成模型确定出的包含三元组信息的文本数据能够清楚准确地揭示原来的三元组之间的关系，进而保证输出的文本数据的准确性。

例如，输入信息为：词嵌入矩阵+位置嵌入矩阵+掩码矩阵+实体类型嵌入矩阵+关系类型嵌入矩阵(对应此三元组信息确定出的各个矩阵的元素值和形式，此处不作具体的列举，但可以预见)。

确定出关系抽取数据生成模型的输入信息后，电子设备可以执行步骤S23。

步骤S23：将所述输入信息输入所述关系抽取数据生成模型，获得k条所述文本数据。

在本实施例中，为了对将输入信息输入关系抽取数据生成模型以获得k条文本数据的过程进行详细介绍，本申请实施例还提供一种基于神经网络的关系抽取数据生成方法，且关系抽取数据生成方法应用于本申请实施例提供的关系抽取数据生成模型。

请参阅图5，图5示出了本申请实施例提供的一种应用于关系抽取数据生成模型的关系抽取数据生成方法。在本实施例中，应用于关系抽取数据生成模型的关系抽取数据生成方法可以包括步骤S31、步骤S32和步骤S33。需要说明的是，关系抽取数据生成模型执行关系抽取数据生成方法时，可以采用Top-k机制(即确定出多条文本数据并输出其中满足条件的k条文本数据)。

电子设备将输入信息输入关系抽取数据生成模型，关系抽取数据生成模型可以执行步骤S31。

步骤S31：获取由三元组信息确定出的输入信息。

在本实施例中，关系抽取数据生成模型可以获取由三元组信息确定出的输入信息(即电子设备输入的输入信息，其待处理数据为：李小明创办了伟大的海星公司。其三元组信息的主体：李小明，客体：海星公司，关系：创始人)。

获取输入信息后，关系抽取数据生成模型执行步骤S32。

执行步骤S32：根据所述输入信息，确定出多条包含所述三元组信息的文本数据。

在本实施例中，关系抽取数据生成模型可以对输入信息进行预先约定的操作，以获取输入信息中包含的词嵌入矩阵、关系类型嵌入矩阵、实体类型嵌入矩阵、位置嵌入矩阵和掩码矩阵。

通过关系抽取数据生成模型对词嵌入矩阵、关系类型嵌入矩阵、实体类型嵌入矩阵、位置嵌入矩阵和掩码矩阵的处理，可以准确地确定出词嵌入矩阵、关系类型嵌入矩阵、实体类型嵌入矩阵、位置嵌入矩阵和掩码矩阵中包含的三元组信息，以及确定出三元组信息中主体、客体和关系中更加详细的信息，例如主体、客体和关系的字、长度、位置等，有利于关系抽取数据生成模型确定出有效的文本数据。由此，关系抽取数据生成模型可以确定出多条包含该三元组信息(例如，主体：李小明，客体：海星公司，关系：创始人)的文本数据。

确定出的文本数据例如：1.李小明创办了伟大的海星公司。2.李小明是海星公司的创办人。3.李小明为海星公司的创始人。4.李小明在1976年成立了海星公司。5.李小明创办的是一家电脑公司。

确定出多条包含该三元组信息的文本数据后，关系抽取数据生成模型可以执行步骤S33。

步骤S33：输出多条所述文本数据中的k条所述文本数据，其中，k为大于1的整数。

在本实施例中，关系抽取数据生成模型可以根据预设的k的值，从多条文本数据中确定出k条文本数据输出。例如，k值为4，那么，关系抽取数据生成模型可以从确定出的5条包含该三元组信息的文本数据中确定出4条并输出。示例性的，关系抽取数据生成模型可以将确定出的多条文本数据进行排序(确定出的文本数据与输入信息中三元组信息对应的待处理数据的相似程度)。需要说明的是，由于关系抽取数据生成模型训练时即以与训练数据的一致性为指标训练的，因此，在关系抽取数据生成模型的使用过程中，关系抽取数据生成模型可对确定出的文本数据与待处理数据的相似度进行估计，进行排序，以输出排序靠前的k条文本数据。当然，这种方式只是输出k条文本数据中的一种方式，不应视为对本申请的限定，输出k条文本数据的方式还可以为确定出的所有包含三元组信息的文本数据，或者随机输出k条文本数据，此处不作限定。

由此，即可实现关系抽取数据生成模型对关系抽取数据生成方法的执行，实现电子设备对关系抽取数据生成方法的执行，以对种子知识图谱中的结构化和/或半结构化数据的扩充，无需人工标注数据，且能够保证数据的准确性和有效性，也能够迅速将种子知识图谱中的数据扩充多倍，实现为高效精准的有监督关系抽取模型提供充足的训练数据。

另外，在一些可实现的方式中，还可以对种子知识图谱扩充数据后的得到的知识图谱进行数据筛重，以保证数据的准确性和有效性，尽可能减少知识图谱中重复的无效数据。

如图6所示，本申请的实施例还提供一种电子设备20，本申请实施例提供的应用于电子设备20的关系抽取数据生成方法和/或模型训练方法，可以由电子设备20执行。电子设备20可以为终端，例如智能手机、平板电脑、个人电脑、个人数字助理等；电子设备20也可以为服务器，例如网络服务器、云服务器、服务器集群、数据服务器等，此处不作限定。

示例性的，电子设备20可以包括：通过网络与外界连接的通信模块22、用于执行程序指令的一个或多个处理器24、总线23和不同形式的存储器21，例如，磁盘、ROM(Read-OnlyMemory，只读存储器)、或RAM(Random Access Memory，随机存取存储器)，或其任意组合。

示例性的，存储器21中存储有程序。处理器24可以从存储器21调用并运行这些程序，从而便可以通过运行程序而执行关系抽取数据生成方法和/或模型训练方法。处理器24通过对关系抽取数据生成方法的执行，处理器24可以根据包含三元组信息的输入信息生成多条包含三元组信息的文本数据，并输出其中的k条文本数据。

综上所述，本申请的实施例提供一种基于神经网络的关系抽取数据生成方法、模型及训练方法，关系抽取数据生成方法应用于关系抽取数据生成模型，通过将由三元组信息确定出的输入信息输入关系抽取数据生成模型中，模型确定出多条包含三元组信息的文本数据，并且输出其中的k条文本数据，以此获得k条包含三元组信息的文本数据。因此，可以实现根据一条数据派生出多条包含与该数据一致的三元组信息的文本数据，在节约人工标注的基础上，有效地丰富有监督关系抽取模型的训练数据。

在本申请所提供的实施例中，应该理解到，所揭露的方法，可以通过其它的方式实现。另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于神经网络的关系抽取数据生成方法，其特征在于，应用于关系抽取数据生成模型，所述方法包括：

获取由三元组信息确定出的输入信息，其中，所述输入信息包括词嵌入、关系类型嵌入、实体类型嵌入、位置嵌入和掩码；

根据所述输入信息，确定出多条包含所述三元组信息的文本数据；

输出多条所述文本数据中的k条所述文本数据，其中，k为大于1的整数。

2.根据权利要求1所述的基于神经网络的关系抽取数据生成方法，其特征在于，所述输入信息由词嵌入矩阵、关系类型嵌入矩阵、实体类型嵌入矩阵、位置嵌入矩阵和掩码矩阵确定出，其中，所述词嵌入矩阵、所述关系类型嵌入矩阵、所述实体类型嵌入矩阵、所述位置嵌入矩阵和掩码矩阵由所述三元组信息确定出，所述根据所述输入信息，确定出多条包含所述三元组信息的文本数据，包括：

根据所述词嵌入矩阵、所述关系类型嵌入矩阵、所述实体类型嵌入矩阵、所述位置嵌入矩阵和所述掩码矩阵，确定出多条包含所述三元组信息的文本数据。

3.一种关系抽取数据生成模型，其特征在于，包括：

输入单元，用于获取由三元组信息确定出的输入信息，其中，所述输入信息包括词嵌入、关系类型嵌入、实体类型嵌入、位置嵌入和掩码；

文本数据确定单元，用于根据所述输入信息，确定出多条包含所述三元组信息的文本数据；

输出单元，用于输出多条所述文本数据中的k条所述文本数据，其中，k为大于1的整数。

4.一种模型训练方法，其特征在于，用于训练如权利要求3所述的关系抽取数据生成模型，所述方法包括：

获取结构化和/或半结构化的训练数据，并确定出所述训练数据中的三元组信息；

根据所述三元组信息确定出所述输入信息；

将所述输入信息输入所述关系抽取数据生成模型，计算所述关系抽取数据生成模型输出的文本数据与所述训练数据的一致性，并更新所述关系抽取数据生成模型的参数；

利用所述训练数据重复训练所述关系抽取数据生成模型，直到达到训练周期，保存训练精度最好的关系抽取数据生成模型。

5.一种基于神经网络的关系抽取数据生成方法，其特征在于，应用于电子设备，所述方法包括：

从种子知识图谱中获取待处理数据，并对所述待处理数据进行特征抽取，确定出三元组信息，其中，所述种子知识图谱由结构化数据和/或半结构化数据构建；

根据所述三元组信息确定出输入信息，其中，所述输入信息包括词嵌入、关系类型嵌入、实体类型嵌入、位置嵌入和掩码；

将所述输入信息输入权利要求3所述的关系抽取数据生成模型，获得k条所述文本数据。

6.根据权利要求5所述的基于神经网络的关系抽取数据生成方法，其特征在于，对所述待处理数据进行特征抽取，确定出三元组信息，包括：

将所述待处理数据输入预设的特征抽取模型中；

获得所述特征抽取模型对所述待处理数据进行特征抽取后输出的所述三元组信息。

7.根据权利要求5所述的基于神经网络的关系抽取数据生成方法，其特征在于，确定出包含所述三元组信息的输入信息，包括：

根据所述三元组信息中字表的大小，确定出词嵌入矩阵；

根据所述三元组信息的主体、客体和关系，确定出关系类型嵌入矩阵；

根据所述三元组信息的实体类型的数量和关系类型的数量，确定出实体类型嵌入矩阵；

根据所述三元组信息中字表的位置，确定出位置嵌入矩阵；

根据所述三元组信息中三元组的长度，确定出掩码矩阵；

根据所述词嵌入矩阵、所述关系类型嵌入矩阵、所述实体类型嵌入矩阵、所述位置嵌入矩阵和所述掩码矩阵，确定出所述输入信息。

8.根据权利要求7所述的基于神经网络的关系抽取数据生成方法，其特征在于，根据所述三元组信息的主体、客体和关系，确定出关系类型嵌入矩阵，包括：

根据所述三元组信息的主体、客体和关系，生成对应的关系类型序列；

将所述关系类型序列转换为矩阵，以确定出所述关系类型嵌入矩阵。

9.根据权利要求7所述的基于神经网络的关系抽取数据生成方法，其特征在于，根据所述三元组信息的实体类型的数量和关系类型的数量，确定出实体类型嵌入矩阵，包括：

根据所述三元组信息的实体类型的数量和关系类型的数量，生成对应的实体类型序列；

将所述实体类型序列转换为矩阵，以确定出所述实体类型嵌入矩阵。

10.一种电子设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于，所述程序指令被处理器加载并执行时实现权利要求5至9中任一项所述的基于神经网络的关系抽取数据生成方法。

11.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至2中任一项所述的基于神经网络的关系抽取数据生成方法；或者实现如权利要求4所述的模型训练方法；或者实现如权利要求5至9中任一项所述的基于神经网络的关系抽取数据生成方法。