CN114969372A

CN114969372A - 关系抽取方法、系统、设备及存储介质

Info

Publication number: CN114969372A
Application number: CN202210616979.XA
Authority: CN
Inventors: 徐芳; 蔡超; 武学敏; 杨万征; 王雪
Original assignee: Glabal Tone Communication Technology Co ltd
Current assignee: Glabal Tone Communication Technology Co ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-08-30

Abstract

本发明提出一种关系抽取方法、系统、设备及存储介质，该方法包括：获取待抽取目标文本；将所述待抽取目标文本输入到关系抽取模型中，获取所述待抽取目标文本对应的实体关系，其中，所述关系抽取模型为神经网络模型，所述关系抽取模型通过样本文本和样本标签进行训练得到，所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。本发明采用对prompt进行部分掩码掉的操作可以有效的降低预训练模型微调和训练过程中的误差，同时对prompt和原始文本构建句子对原始一条文本数据构建出多条数据的方式可以解决微调语料不足的情况，将已有知识进行最大化利用，提高本发明实施例中关系抽取方法的准确性。

Description

关系抽取方法、系统、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种关系抽取方法、系统、设备及存储介质。

背景技术

目前关系抽取任务集较少，关系抽取任务集中包括标注实体和实体之间对应的文本，比如老秦是小琴的爸爸，那么老秦和小琴之间的关系就是父女关系，A是B公司的员工，A与B公司之间的关系就是雇佣关系；另，由于一对实体可能存在多种关系，比如C某和D某是班上令人羡慕的一对情侣，那么实体C某和D某之间的关系就有两种，一种是同学，一种是情侣，由于存在同对实体对多关系等情况问题，关系抽取任务需要根据句子语义信息推测实体间的关系，是构建知识图谱不可或缺的一步。

近几年，随着神经网络的发展，为关系抽取任务带来了诸多新的突破，但在实际工作中，关系抽取仍旧面临很多挑战，例如，构建大规模知识图谱需要对大规模数据进行关系抽取，但人工精准去标注句子中的实体和关系需要消耗大量人力和物力，对数以万计的实体对、数以百计或数以千计的关系，依靠人工标注几乎不可能完成。同时，往往存在大量的实体对之间的关系在关系集合中占比较小的情况，使得神经网络模型无法学习到有用的规律，并且，由于复杂语境的问题，使得现有的模型对多句抽取、重叠实体和实体对多关系的情况难以表现的尽如人意。

BERT(Bidirectional Encoder Representations for Transformers，来自变换器的双向编码器表征量)用作下游任务数据微调预训练模型已经成为目前NLP(NaturalLanguage Processing，自然语言处理)领域常见的做法。

但是，在关系抽取任务中，通常采用预训练模型在编码过程中对句子进行向量化，然后再使用解码模型去预测实体关系，且由于BERT的训练是带有掩码的训练方法，而关系抽取任务进行微调时并不会采用掩码的方式，因此会造成微调和训练不一致的问题。

发明内容

本发明提供一种关系抽取方法，其主要目的在于克服现有关系抽取方法中微调和训练不一致的问题，有效提高关系抽取方法的准确率

第一方面，本发明实施例提供一种关系抽取方法，包括：

获取待抽取目标文本；

将所述待抽取目标文本输入到关系抽取模型中，获取所述待抽取目标文本对应的实体关系，其中，所述关系抽取模型为神经网络模型，所述关系抽取模型通过样本文本和样本标签进行训练得到，所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。

优选地，所述关系抽取模型通过样本文本和样本标签进行训练得到，通过如下步骤得到：

对所述样本文本进行特征提取，获取所述样本文本中的样本实体；

根据所述样本实体，基于预设实体关系模板，对所述样本实体构建模板样本文本，所述模板样本文本包括正模板样本文本和负模板样本文本；

利用所述模板样本文本对BERT中的句子对预测任务构建模型进行训练；

对所述正模板样本文本中表征关系的词语进行掩码，并利用掩码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练，获取训练后的BERT模型，将训练后的BERT模型作为所述关系抽取模型。

优选地，所述对所述样本文本进行特征提取，获取所述样本文本中的样本实体，包括：

利用机器学习，对所述样本文本进行识别，获取样本实体。

优选地，所述根据所述样本实体，基于预设实体关系模板，对所述样本实体构建模板样本文本，包括：

对于所述样本实体中第一样本实体和第二样本实体，对于所述预设实体关系模板中的每一预设实体关系，构造出所有能表达所述第一样本实体和所述第二样本实体为预设实体关系的语句，构造成的语句即为模板样本文本。

优选地，所述对所述正模板样本文本中表征关系的词语进行掩码，包括：

保留所述正模板样本文本中的实体字样，对所述正模板样本文本中的关系字样进行掩码。

第二方面，本发明实施例提供一种关系抽取系统，包括：

获取模块，用于获取待抽取目标文本；

抽取模块，用于将所述待抽取目标文本输入到关系抽取模型中，获取所述待抽取目标文本对应的实体关系，其中，所述关系抽取模型为神经网络模型，所述关系抽取模型通过样本文本和样本标签进行训练得到，所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。

优选地，所述抽取模块包括特征提取单元、样本构建单元、第一训练单元、第二训练单元

所述特征提取单元用于对所述样本文本进行特征提取，获取所述样本文本中的样本实体；

所述样本构建单元用于根据所述样本实体，基于预设实体关系模板，对所述样本实体构建模板样本文本，所述模板样本文本包括正模板样本文本和负模板样本文本；

所述第一训练单元用于利用所述模板样本文本对BERT中的句子对预测任务构建模型进行训练；

所述第二训练单元用于对所述正模板样本文本中表征关系的词语进行掩码，并利用掩码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练，获取训练后的BERT模型，将训练后的BERT模型作为所述关系抽取模型。

优选地，所述样本构建单元包括样本构建子单元，其中：

所述样本构建子单元用于对于所述样本实体中第一样本实体和第二样本实体，对于所述预设实体关系模板中的每一预设实体关系，构造出所有能表达所述第一样本实体和所述第二样本实体为预设实体关系的语句，构造成的语句即为模板样本文本。

第三方面，本发明实施例提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述关系抽取方法的步骤。

第四方面，本发明实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述关系抽取方法的步骤。

本发明提出的一种关系抽取方法、系统、设备及存储介质，可以有效的利用预训练语言模型的优点，提高关系抽取的效果，原始关系抽取任务中，对于文本会直接进行向量化(没有mask掉句子中某些词的操作)，而在BERT在训练中是通过一定的概率选择了某个词进行mask后再进行向量化的，由于mask掉的词也是会对句子语义产生影响的，这就使得传统方法中直接使用BERT模型进行文本向量化时会和BERT训练时存在一定的误差，因此本发明采用对prompt进行部分mask掉(类似于完形填空任务)的操作可以有效的降低预训练模型微调和训练过程中的误差，同时对prompt和原始文本构建句子对原始一条文本数据构建出多条数据的方式可以解决微调语料不足的情况，将已有知识进行最大化利用，提高本发明实施例中关系抽取方法的准确性。

附图说明

图1为本发明实施例提供的一种关系抽取方法的使用场景图；

图2为本发明实施例提供的一种关系抽取方法的流程图；

图3为本发明实施例提供的一种关系抽取系统的结构示意图；

图4为本发明实施例中提供的一种计算机设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为本发明实施例提供的一种关系抽取方法的使用场景图，如图1所示，用户在客户端提供的页面上输入待抽取目标文本，客户端接收到该待抽取目标文本后，将该待抽取目标文本发送给服务器，服务器接收到该待抽取目标文本后，执行该一种关系抽取方法，获取所述待抽取目标文本对应的实体关系。

需要说明的是，服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。客户端可为智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。客户端和服务端可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者其他通讯连接方式进行连接，本发明实施例在此不做限制。

图2为本发明实施例提供的一种关系抽取方法的流程图，如图2所示，该方法包括：

S210，获取待抽取目标文本；

S220，将所述待抽取目标文本输入到关系抽取模型中，获取所述待抽取目标文本对应的实体关系，其中，所述关系抽取模型为神经网络模型，所述关系抽取模型通过样本文本和样本标签进行训练得到，所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。

本发明实施例旨在解决目前关系抽取无法很好的利用预训练模型的问题，同时又保证了预训练模型在训练和微调阶段的一致性。

本发明一种基于prompt的关系抽取方法流程中，先对关系抽取模型进行训练，然后利用训练后的关系抽取模型对待抽取目标文本进行关系提取，得到待抽取目标文本对应的实体关系。

所述关系抽取模型通过样本文本和样本标签进行训练得到，通过如下步骤得到：

第一，先对输入样本文本进行特征提取，主要采用基于深度学习的方法，例如BERT、循环神经网络(Recurrent Neural Network，RNN)等对样本文本进行向量化，向量化是指将一段中文文本用数值向量来表示。

第二，使用目前已有的实体识别方法对输入的样本文本进行实体识别，例如，A某和B某是班上令人羡煞的一对情侣，那么实体识别的结果就是识别出A某和B某这两个实体。

第三，构建模板样本文本，即构建prompt，对抽取出的实体构建prompt，构建的方法主要是基于模板进行构建，对于数据集中的已有预设实体关系已经通过人工构建了模板，例如：预设实体关系是“同学”关系，人工模板主要有：实体1是实体2的同学，实体1和实体2在同一个班上读书，实体1和实体2是同桌；预设实体关系是“出生于”关系，人工模板主要有：实体1在实体2出生，实体1从小就在实体2生活等；预设实体关系是“情侣”关系，人工模板主要有：实体1和实体2正在谈恋爱，实体1是实体2的情侣，实体1和实体2是一对。对于上述输入样本文本，会构建A某是B某的同学、A某和B某在同一个班上读书、A某和B某是同桌(多个模板随机选择一个生成)，A某在B某出生、A某从小就在B某生活，A某和B某正在谈恋爱、A某是B某的情侣，A某和B某是一对。

第四，将原始文本和构建好的prompt都进行特征抽取，特征抽取方法为第一步中的方法；其次，对抽取的特征融合，融合方法主要有：

对于一个原始输入文本，会生成若干prompt，挑选其中正确的prompt作为正例，错误的prompt作为负例；(其中针对“A某和B某是班上令人羡煞的一对情侣”，关系抽取数据集中会给定A某和B某的关系是同学和情侣，那么针对同学和情侣关系生成的prompt都是正确的，其余都是错误的)；根据原始句子和正例、原始句子和负例对构建出若干个句子对，这些句子对通过BERT中的句子对预测任务Next Sentence Prediction(NSP)构建模型。

同时，对于正确的prompt，通过掩码的方式对句子中的非实体的其他词进行掩码，例如：A某和B某正在谈恋爱，而A某和B某是抽取得到的实体，利用这两个实体构建的prompt，因此进行掩码时会避开这两个实体，那么构造的掩码可能是：A某和B某正在XXX(XXX表示使用特殊字符对原始文本进行了遮盖)，然后通过BERT的Masked Language Model(MLM)任务对遮盖住的谈恋爱进行预测，预测为谈恋爱则认为正确，预测为打游戏等其他词则认为错误。

通过将关系抽取任务改造为适应BERT的MLM和NSP任务，然后通过BERT模型进行模型的训练，模型其他部分和BERT保持一致。

第五、构建完模型进行训练，训练完某后可以对文本进行关系抽取得到三元组，例如上述待抽取目标文本“A某和B某是班上令人羡煞的一对情侣”，得到的三元组为：(A某，情侣，B某)，(A某，同学，B某)

本发明提出的一种关系抽取方法，可以有效的利用预训练语言模型的优点，提高关系抽取的效果，原始关系抽取任务中，对于文本会直接进行向量化(没有mask掉句子中某些词的操作)，而在BERT在训练中是通过一定的概率选择了某个词进行mask后再进行向量化的，由于mask掉的词也是会对句子语义产生影响的，这就使得传统方法中直接使用BERT模型进行文本向量化时会和BERT训练时存在一定的误差，因此本发明采用对prompt进行部分mask掉(类似于完形填空任务)的操作可以有效的降低预训练模型微调和训练过程中的误差，同时对prompt和原始文本构建句子对原始一条文本数据构建出多条数据的方式可以解决微调语料不足的情况，将已有知识进行最大化利用，提高本发明实施例中关系抽取方法的准确性。

本发明采用prompt learning将关系抽取进行转化，可以有效的利用目前大规模的预训练语言模型蕴含的丰富的知识，同时采用“完形填空”的方式进行实体和关系的预测在预训练模型上进行微调，保证了微调阶段和训练阶段的一致性，避免了因语料不足而带来的微调困难等问题。

图3为本发明实施例提供的一种关系抽取系统的结构示意图，如图3所示，该系统包括获取模块310和抽取模块320，其中：

获取模块310用于获取待抽取目标文本；

抽取模块320用于将所述待抽取目标文本输入到关系抽取模型中，获取所述待抽取目标文本对应的实体关系，其中，所述关系抽取模型为神经网络模型，所述关系抽取模型通过样本文本和样本标签进行训练得到，所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。

本实施例为与上述方法相对应的系统实施例，详情请参考上述方法实施例，本系统实施例在此不再赘述。

在上述实施例的基础上，优选地，所述抽取模块包括特征提取单元、样本构建单元、第一训练单元、第二训练单元

在上述实施例的基础上，优选地，所述样本构建单元包括样本构建子单元，其中：

上述关系抽取系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图4为本发明实施例中提供的一种计算机设备的结构示意图，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行关系抽取方法过程中生成或获取的数据，如待抽取目标文本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种关系抽取方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的关系抽取方法的步骤。或者，处理器执行计算机程序时实现关系抽取系统这一实施例中的各模块/单元的功能。

在一实施例中，提供一计算机存储介质，该计算机存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中关系抽取方法的步骤。或者，该计算机程序被处理器执行时实现上述关系抽取系统这一实施例中的各模块/单元的功能。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种关系抽取方法，其特征在于，包括：

获取待抽取目标文本；

2.根据权利要求1所述的关系抽取方法，其特征在于，所述关系抽取模型通过样本文本和样本标签进行训练得到，通过如下步骤得到：

3.根据权利要求2所述的关系抽取方法，其特征在于，所述对所述样本文本进行特征提取，获取所述样本文本中的样本实体，包括：

利用机器学习，对所述样本文本进行识别，获取样本实体。

4.根据权利要求2所述的关系抽取方法，其特征在于，所述根据所述样本实体，基于预设实体关系模板，对所述样本实体构建模板样本文本，包括：

5.根据权利要求3所述的关系抽取方法，其特征在于，所述对所述正模板样本文本中表征关系的词语进行掩码，包括：

6.一种关系抽取系统，其特征在于，包括：

获取模块，用于获取待抽取目标文本；

7.根据权利要求6所述的关系抽取系统，其特征在于，所述抽取模块包括特征提取单元、样本构建单元、第一训练单元、第二训练单元

8.根据权利要求7所述的关系抽取系统，其特征在于，所述样本构建单元包括样本构建子单元，其中：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述关系抽取方法的步骤。

10.一种计算机存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述关系抽取方法的步骤。