CN114036276A

CN114036276A - 一种信息抽取方法、装置、设备及存储介质

Info

Publication number: CN114036276A
Application number: CN202111317510.8A
Authority: CN
Inventors: 张美伟; 李昱; 王全礼; 张晨; 唐汇
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-11

Abstract

本发明公开了一种信息抽取方法、装置、设备及存储介质，该信息抽取方法包括：获取待抽取数据；将所述待抽取数据输入预先训练好的触发词抽取模型中，获得触发词；将待抽取数据和触发词输入到预先训练好的目标信息抽取模型中，得到目标信息；其中，预先训练好的触发词抽取模型是通过将样本数据集合划分为K份，根据K份数据中的一份数据和其他数据的触发词标签训练得到的。由于本发明中先通过触发词抽取模型得到触发词，再将触发词作为输入，通过目标信息抽取模型得到目标信息，且触发词抽取模型是将样本数据集合划分为K份，根据K份数据中的一份数据和其他数据的触发词标签训练得到的，从而可以提高信息抽取的准确度。

Description

一种信息抽取方法、装置、设备及存储介质

技术领域

本发明涉及信息处理技术领域，特别涉及一种信息抽取方法、装置、设备及存储介质。

背景技术

随着科学技术的发展，人工智能逐步涉足各个领域。在自然语言处理领域，通常需要对非结构化数据进行信息的抽取。即针对海量的非结构化文本，需要利用自然语言处理技术抽取文本中的事件信息。

目前通常使用三元组的抽取方式对信息进行抽取，由于语言的复杂性和事件的多样性，在对非结构化数据进行信息提取时，如何提高信息抽取的精度是本领域技术人员亟待解决的问题。

发明内容

本发明提供一种信息抽取方法、装置、设备及存储介质，用以解决现有技术中存在的信息抽取精度差的问题。

第一方面，本发明公开了一种信息抽取方法，所述方法包括：

获取待抽取数据；

将所述待抽取数据输入到预先训练好的触发词抽取模型中，获得触发词；

将所述待抽取数据和所述触发词输入到预先训练好的目标信息抽取模型中，得到目标信息；

其中，所述预先训练好的触发词抽取模型是通过将样本数据集合划分为K份，根据K份数据中的一份数据和其他数据的触发词训练得到的，K为大于1的正整数。

在一种可选的实现方式中，通过下列方式得到所述触发词抽取模型：

将所述样本数据集划分为K份，得到K份样本数据；

遍历所述K份样本数据，从所述K份样本数据中选择第i份数据，抽取其他样本数据的触发词，并将抽取到的触发词匹配至所述第i份样本数据，得到所述第i份样本数据的触发词，1≤i≤K；

根据每份所述样本数据和每份所述样本数据对应的触发词对第一预训练模型进行训练，得到所述触发词抽取模型。

在一种可选的实现方式中，所述抽取其他样本数据的触发词，包括：

根据事件类型，从所述其他样本数据中抽取与所述事件类型对应的触发词。

在一种可选的实现方式中，通过下列方式获得目标信息抽取模型：

针对每个样本数据，从所述样本数据中获取触发词的位置信息；

根据所述样本数据、预设距离向量和所述位置信息，对第二预训练模型进行训练，得到所述目标信息抽取模型；

其中，所述触发词为将所述样本数据输入到预先训练好的触发词抽取模型中得到的。

在一种可选的实现方式中，所述样本数据集为非结构化文本样本。

第二方面，本发明还公开了一种信息抽取装置，所述装置包括：

获取模块，被配置为获取待抽取数据；

第一抽取模块，被配置为将所述待抽取数据输入到预先训练好的触发词抽取模型中，获得触发词；

第二抽取模块，被配置为将所述待抽取数据和所述触发词输入到预先训练好的目标信息抽取模型中，得到目标信息；其中，所述预先训练好的触发词抽取模型是通过将样本数据集合划分为K份，根据K份数据中的一份数据和其他数据的触发词训练得到的，K为大于1的正整数。

在一种可能的实现方式中，所述装置还包括第一训练模块，所述第一训练模块用于通过下列方式得到所述触发词抽取模型：

将所述样本数据集划分为K份，得到K份样本数据；

在一种可能的实现方式中，所述第一训练模块具体用于：

在一种可能的实现方式中，所述装置还包括第二训练模块，所述第二训练模块用于通过下列方式获得目标信息抽取模型：

在一种可能的实现方式中，所述样本数据集为非结构化文本样本。

第三方面，本发明实施例还提供一种信息抽取设备，所述设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如下步骤：

获取待抽取数据；

将所述待抽取数据输入预先训练好的触发词抽取模型中，获得触发词；

在一种可能的实现方式中，所述处理器具体用于通过下列方式得到所述触发词抽取模型：

将所述样本数据集划分为K份，得到K份样本数据；

在一种可能的实现方式中，所述处理器具体用于：

在一种可能的实现方式中，所述处理器具体用于通过下列方式获得目标信息抽取模型：

第四方面，本发明实施例还提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中任一项所述的信息抽取方法。

本发明有益效果如下：

本发明公开的一种信息抽取方法、装置、设备及存储介质，该信息抽取方法包括：获取待抽取数据；将待抽取数据输入预先训练好的触发词抽取模型中，获得触发词；将待抽取数据和触发词输入到预先训练好的目标信息抽取模型中，得到目标信息；其中，预先训练好的触发词抽取模型是通过将样本数据集合划分为K份，根据K份数据中的一份数据和其他数据的触发词训练得到的。由于本发明中先通过触发词抽取模型得到触发词，再将触发词作为输入，通过目标信息抽取模型得到目标信息，且触发词抽取模型是将样本数据集合划分为K份，根据K份数据中的一份数据和其他数据的触发词标签训练得到的，从而可以提高信息抽取的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种智能交互平台示意图；

图2为本发明实施例提供的一种信息抽取方法的流程示意图；

图3为本发明实施例提供的一种得到触发词抽取模型的流程示意图；

图4为本发明实施例提供的一种知识库构建的示意图；

图5为本发明实施例提供的一种添加远程监督标签的示意图；

图6为本发明实施例提供的一种得到目标信息抽取模型的流程示意图；

图7为本发明实施例提供的一种条件数据标准化(Conditional LayerNormalization)的示意图；

图8为本发明实施例提供的总体方案示意图；

图9为本发明实施例提供的一种信息抽取装置的结构示意图；

图10为本发明实施例提供的一种信息抽取设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明应用背景源自智能交互平台，该智能交互平台集成了会话平台，训练平台，标注平台等涉及自然语言交互所需要的全部模块，如图1所示，其中对于训练平台需要从海量非结构化文本中抽取关键信息做监督学习，对于标注平台需要结构化海量的非结构化金融领域文本，对于会话平台需要针对金融文本特性，在FAQ(frequency asked question，常见问题解答)、KBQA(knowledge based question answer，基于知识图谱的问答系统)等场景自动抽取实体。因此对于智能交互平台，各个子平台均有对于非结构化文本结构化处理的需求，即对非结构化数据进行信息提取。

非结构化数据不是那么容易组织或格式化的。收集、处理和分析非结构化数据是一项重大挑战。这产生了一些问题，因为非结构化数据构成了网络上绝大多数可用数据，并且它每年都在增长。随着更多信息在网络上可用，并且大部分信息都是非结构化的，找到使用它的方法已成为许多企业的重要战略。更传统的数据分析工具和方法还不足以完成工作。

结构化数据，可以从名称中看出，是高度组织和整齐格式化的数据。它是可以放入表格和电子表格中的数据类型。它可能不是人们最容易找到的数据类型，但与非结构化数据相比，无疑是两者中人们更容易使用的数据类型，另一方面，计算机可以轻松地搜索它。

传统的对非结构化文本进行结构化处理一般是采用关系抽取的模式，用到了三元组抽取的方式，即给定一段句子文本，抽取句子中的两个实体以及实体之间的关系，以构成一个三元组(s，p，o)，其中，s为subject，表示主实体，o为object，表示客实体，p为predicate，表示两实体间的关系。总的来说，(s,p,o)可以理解的“s的p是o”，即主实体的两实体间的关系是客实体。

当然一个句子中可能不止两个实体，从而也不止一种关系，所以要做的就是尽可能多并且正确的抽取句子中的关系实体对。例如，输入文本“查尔斯·阿兰基斯，1989年4月17日出生于智利圣地亚哥，智利职业足球运动员，司职中场，效力于德国足球甲级联赛勒沃库森足球俱乐部”，那么采用三元组的方式进行抽取，抽取结果可以为：s为查尔斯·阿兰基斯，p为出生地，o为智利圣地亚哥，即其中主实体为查尔斯·阿兰基斯，客实体为智利圣地亚哥，两实体间的关系为出生地，实体一般指名词性词，如人名、地点名、时间、组织名等，这个关系种类是预先根据训练集定义好的。

但是传统的三元组的抽取方式表达能力有限，并不能准确抽取到文本的有效信息，导致最终的结果精度较低。

基于上述问题，本申请提供了一种信息抽取方法，预先训练好触发词抽取模型和目标信息抽取模型，其中，触发词抽取模型是通过将样本数据集合划分为K份，根据K份数据中的一份数据和其他数据的触发词标签训练得到的。本发明实施例提供的触发词抽取模型，可以降低提取触发词的误差，从而可以提高信息抽取的精度。

例如智能交互平台的会话平台中的KBQA在知识图谱构建的时候需要自动从实体抽取其属性，这一过程刚好是本发明可以解决的，通过自动化抽取，极大的提高了知识图谱的构建，优化了整个交互平台的数据质量。

需要说明的是，知识图谱是从特定资源中抽取实体和实体之间的关系，从而构建知识库，它包含的知识体系通常具有很强的领域针对性和专业性。知识图谱自上而下进行构建，主要包括schema设计，实体识别、关系抽取、实体链接、知识融合、知识计算等几个环节。其关键是如何自动抽取信息得到候选知识单元，其中涉及的技术包括：实体抽取、关系抽取和属性抽取，统称为信息抽取。

为了提高信息抽取的精度，本申请提供了一种信息抽取方法，如图2所示，该方法包括：

S201、获取待抽取数据；

在具体实施中，待抽取数据可以为非结构化文本。

对非结构化文本进行信息的自动抽取，可以提高抽取效率，节省人力。

S202、将待抽取数据输入预先训练好的触发词抽取模型中，获得触发词；其中，预先训练好的触发词抽取模型是通过将样本数据集合划分为K份，根据K份数据中的一份数据和其他数据的触发词训练得到的，K为大于1的正整数。

在具体实施中，触发词抽取模型是预先训练好的，如图3所示，可以通过下列方式得到触发词抽取模型：

S301、将样本数据集划分为K份，得到K份样本数据；

S302、遍历K份样本数据，从K份样本数据中选择第i份数据，抽取其他样本数据的触发词，并将抽取到的触发词匹配至第i份样本数据，得到第i份样本数据的触发词，1≤i≤K；

S303、根据每份样本数据和每份样本数据对应的触发词对第一预训练模型进行训练，得到触发词抽取模型。

具体的，将样本数据集划分为K份，可以进行K折划分，需要将样本数据集分成训练集和测试级，将样本数据集分成训练集和测试级可以根据标签进行划分。K折交叉验证将训练集划分为K个较小的集合，每一个K折都会遵循如下过程：(1)将K-1份样本数据作为training data(训练集)训练模型；(2)将剩余的1份样本数据用于模型验证(也就是把它当做一个测试集来计算模型的性能指标，例如准确率)。

本发明实施例中，需要遍历K份样本数据，首先从K份样本数据中任取1份样本数据，从剩下的(K-1)份样本数据中，提取每份样本数据的触发词，得到一个远程知识库，远程知识库中存储有从(K-1)份样本数据中提取的所有触发词，对于任取的1份样本数据，从远程知识库通过匹配的方式增加远程监督的触发词，然后再从(K-1)份样本数据中任取1份样本数据，再执行如上步骤，直至所有样本数据均完成上述步骤。

需要说明的是，在第2次抽取样本数据后，提取每份样本数据的触发词时，包括第1次处理过的任取的1份数据。

比如，将样本数据集划分为4份，分别为1、2、3、4，随机抽取的1份样本数据为4，对1、2和3进行触发词提取，然后将提取到的触发词匹配到4中；从1、2和3中随机抽取的1份样本数据为2，对1、3和4进行触发词提取，然后将提取到的触发词匹配到2中；从1和3中随机抽取的1份样本数据为1，对2、3和4进行触发词提取，然后将提取到的触发词匹配到4中；对1、2和4进行触发词提取，然后将提取到的触发词匹配到3中。

在实施中，本申请实施例可以引入远程监督方法提供额外的“标签”，也称该标签为触发词(Trigger)。首先将样本数据集进行K-折划分，将样本数据集划分为K份样本数据，然后抽取1份样本数据，对于剩下的(K-1)份数据，统计其触发词，使用远程监督算法，可以得到一个远程的知识库Trigger＝∑trigger_i，其中trigger_i为从(K-1)份数据中统计到的第i个trigger触发词，所有的触发词均来自(K-1)份样本数据，对于剩下的1份样本数据，从远程知识库Trigger通过匹配的方式增加远程监督的标签。

如图4所示，为知识库构建的过程，其中训练集内部交叉构建，测试集使用全体训练集作为知识库构建，图4中对于划分的3句话进行标签抽取，也即触发词抽取，其中，对“2月11日，收购益阳通信股份成为首要任务”进行触发词抽取，抽取到的触发词为“收购”，对“经过多轮融资，它终于上市了”进行触发词抽取，抽取到的触发词为“上市”，对“一季度，因为疫情，共亏损了180亿”进行触发词抽取，抽取到的触发词为“亏损”，所有的触发词“收购”、“上市”、“亏损”均来自K-1份数据，即均来自划分的3句话，“收购”、“上市”、“亏损”构成了远程知识库，对于剩下的一份数据，则从远程知识库通过匹配(match)的方式得到增加的远程监督的标签为“收购并寻求上市，是目前避免亏损的选择”。

值得说明的是，上述情况的知识库构建的例子仅用于举例说明知识库构建以及远程监督提供额外标签的过程，对于其他K值和上述过程原理相同，此处不再赘述。

图5是对于该过程的一个总结示意图，其中对于划分的K份样本数据，最初都没有远程标签，其中(K-1)份样本数据进行触发词抽取构成标签库(远程知识库)，对于剩下的一份样本数据，即第i份样本数据添加远程监督标签，该远程监督标签的添加过程是基于远程知识库匹配得到的。

其中，1≤i≤K，当i遍历1至K中所有的值后，K份样本数据全部被添加了远程监督标签，也即K份样本数据均具有远程监督标签，此时将远程监督标签作为输入信息对第一预训练模型进行训练，便得到了触发词抽取模型，可以有效避免在触发词发掘上的遗漏问题，进而极大降低了误差传播。

需要说明的是，本发明实施例中的第一预训练模型，即一个未经过训练的初始的模型。模型的训练过程为现有技术，本发明对此不做赘述。

在一些实施例中，抽取其他样本数据(即K-1份样本数据)的触发词可以根据事件类型，从该样本数据中抽取与事件类型对应的触发词。

例如图4中所展示的，对于“2月11日，收购益阳通信股份成为首要任务”，可以判断出该内容事件类型为“收购”事件，因此抽取的触发词(Trigger)为“收购”。

S203、将待抽取数据和触发词输入到预先训练好的目标信息抽取模型中，得到目标信息。

在一些实施例中，可以通过下列方式获得目标信息抽取模型，如图6所示。

S601、针对每个样本数据，从样本数据中获取触发词的位置信息；

S602、根据样本数据、预设距离向量和位置信息，对第二预训练模型进行训练，得到目标信息抽取模型；

其中，触发词为将样本数据输入到预先训练好的触发词抽取模型中得到的。

本发明实施例中的目标信息，可以包括论元角色和论元。

由于目标信息在原文本中一般出现在触发词附近，因此本发明实施例在提取目标信息时，考虑了触发词和目标信息之间的距离，从而可以进一步提供目标信息提取的精度。

对于抽取到的触发词，作为先验信息服务于论元信息的抽取，考虑将触发词信息以及触发词的位置信息一并考虑到论元的抽取过程中。其中，研发人员在通过大量分析与归纳，发现了触发词与论元的“相邻”特点，即一般情况下，论元本体会出现在触发词在本文位置的附近，因此本发明引入相对距离作为整个论元抽取的输入。

在Bert等Transformer模型中，主要的Normalization方法是LayerNormalization，所以很自然就能想到将对应的β和γ变成输入条件的函数，来控制Transformer模型的生成行为，这就是Conditional Layer Normalization的线索思路。

如图7所示，本发明中利用BERT，已经有现成的、无条件的β和γ了，它们都是长度固定的向量。可以通过两个不同的变换矩阵，将输入条件变换到跟β,γ一样的维度，然后将两个变换结果分别加到β和γ上去。为了防止扰乱原来的预训练权重，两个变换矩阵可以全零初始化(单层神经网络可以用全零初始化，连续的多层神经网络才不应当用全零初始化)，这样在初始状态，模型依然保持跟原来的预训练模型一致。

本发明整体思路是将事件抽取任务分成三阶段任务，如图8所示，首先利用触发词抽取模块对待抽取数据进行触发词抽取，然后分别利用论元抽取模块和论元角色抽取模块对论元和论元角色进行抽取，最后将结果进行合并。

图8中的论元抽取模块和论元角色抽取模块即本发明实施例中的目标信息抽取模型。

本发明实施例提供的信息抽取方法，主张更细粒度的将文本信息抽取任务做拆分，并摒弃了采用三元组抽取的方式，在抽取子任务中融合先验信息，并且在先验信息利用上，将先验信息(触发词)的位置，以及文本到触发词的距离等信息一并加入Bert的输入，提高了信息抽取的精度。

基于同一发明构思，本发明实施例中还提供了一种信息抽取装置，由于该装置解决问题的原理与信息抽取方法相似，因此该装置的实施可以参见该方法的实施，重复之处不再赘述。

如图9所示，为本发明实施例提供的一种信息抽取装置，该装置可以包括：

获取模块901，被配置为获取待抽取数据；

第一抽取模块902，被配置为将所述待抽取数据输入到预先训练好的触发词抽取模型中，获得触发词；

第二抽取模块903，被配置为将所述待抽取数据和所述触发词输入到预先训练好的目标信息抽取模型中，得到目标信息；其中，所述预先训练好的触发词抽取模型是通过将样本数据集合划分为K份，根据K份数据中的一份数据和其他数据的触发词训练得到的，K为大于1的正整数。

将所述样本数据集划分为K份，得到K份样本数据；

在一种可能的实现方式中，所述第一训练模块具体用于：

基于同一发明构思，本发明实施例中还提供了一种信息抽取设备，由于该设备解决问题的原理与信息抽取方法相似，因此该设备的实施可以参见该方法的实施，重复之处不再赘述。

如图10所示，为本发明实施例提供的一种信息抽取设备，所述设备包括：

处理器1001；

用于存储所述处理器可执行指令的存储器1002；

其中，所述处理器1001被配置为执行所述指令，以实现如下步骤：

获取待抽取数据；

在一种可能的实现方式中，所述处理器1001具体用于通过下列方式得到所述触发词抽取模型：

将所述样本数据集划分为K份，得到K份样本数据；

在一种可能的实现方式中，所述处理器1001具体用于：根据事件类型，从所述其他样本数据中抽取与所述事件类型对应的触发词。

在一种可能的实现方式中，所述处理器1001具体用于通过下列方式获得目标信息抽取模型：

进一步的，本发明实施例还提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一项所述的信息抽取方法。

以上参照示出根据本申请实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本申请。应理解，可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置，以产生机器，使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。

相应地，还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地，本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式，其具有在介质中实现的计算机可使用或计算机可读程序代码，以由指令执行系统来使用或结合指令执行系统而使用。在本申请上下文中，计算机可使用或计算机可读介质可以是任意介质，其可以包含、存储、通信、传输、或传送程序，以由指令执行系统、装置或设备使用，或结合指令执行系统、装置或设备使用。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种信息抽取方法，其特征在于，该方法包括：

获取待抽取数据；

2.如权利要求1所述的方法，其特征在于，通过下列方式得到所述触发词抽取模型：

将所述样本数据集划分为K份，得到K份样本数据；

3.如权利要求2所述的方法，其特征在于，所述抽取其他样本数据的触发词，包括：

4.如权利要求2所述的方法，其特征在于，通过下列方式获得所述目标信息抽取模型：

5.如权利要求2-4任一所述的方法，其特征在于，所述样本数据集为非结构化文本样本。

6.一种信息抽取装置，其特征在于，所述装置包括：

获取模块，被配置为获取待抽取数据；

第二抽取模块，被配置为将所述待抽取数据和所述触发词输入到预先训练好的目标信息抽取模型中，得到目标信息；

7.如权利要求6所述的装置，其特征在于，所述装置还包括第一训练模块，所述第一训练模块用于通过下列方式得到所述触发词抽取模型：

将所述样本数据集划分为K份，得到K份样本数据；

8.如权利要求7所述的装置，其特征在于，所述第一训练模块具体用于：

9.如权利要求6所述的装置，其特征在于，所述装置还包括第二训练模块，所述第二训练模块用于通过下列方式获得所述目标信息抽取模型：

10.如权利要求6-9任一所述的装置，其特征在于，所述样本数据集为非结构化文本样本。

11.一种信息抽取设备，其特征在于，所述设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的信息抽取方法。

12.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的信息抽取方法。