CN116151257B

CN116151257B - 基于样例模型的数据抽取方法、装置、设备及存储介质

Info

Publication number: CN116151257B
Application number: CN202310077073.XA
Authority: CN
Inventors: 郎凯; 胡殿明; 刘雨亮
Original assignee: Beijing Ganyi Intelligent Technology Co ltd
Current assignee: Beijing Ganyi Intelligent Technology Co ltd
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2024-06-25
Anticipated expiration: 2043-01-16
Also published as: CN116151257A

Abstract

本发明提供一种基于样例模型的数据抽取方法、装置、设备及存储介质，该方法包括：在分类模式下，基于线索词和第一样例文本，确定出第一待抽取文本中与第一样例文本为同类事件描述的目标抽取文本；在实体识别模式下，基于标记了事件触发词的第一样例文本和线索词，从目标抽取文本中抽取出同事件类型的头实体；在关系识别模式下，基于标记了事件触发词和事件要素的第一样例文本和线索词，在标记了头实体的目标抽取文本中抽取出同事件类型的事件要素。本发明提供的基于样例模型的数据抽取方法只需通过分类模式、实体识别模式和关系识别模式即可抽取出与第一样例文本同事件类型的事件要素，提升了不同场景的迁移效果，促进事件抽取的大规模推广。

Description

基于样例模型的数据抽取方法、装置、设备及存储介质

技术领域

本发明涉及计算机领域，尤其涉及一种基于样例模型的数据抽取方法、装置、设备及存储介质。

背景技术

目前数据抽取方法主要是基于多轮问答神经网络模型方法和基于promptlearning方法。

基于多轮问答神经网络模型方法即将事件抽取转化为问答任务，通过在问句中嵌入事件描述信息，但过程中需要通过调整模型来适应具体任务，需要标注数据和微调模型，需要算法人员介入，无法直接迁移新场景。基于prompt learning方法依赖于大规模预训练语言模型，通过引入模版的方式，以类似多轮问答的方式抽取事件，虽然避免了调整模型，但抽取效果受prompt选择的影响不够稳定，且需要部署超大预训练模型，成本极高，仍处于学术论证阶段。

发明内容

本发明提供一种基于样例模型的数据抽取方法、装置、设备及存储介质，旨在提升不同场景的迁移效果，降低使用门槛，促进事件抽取的大规模推广。

第一方面，本发明提供一种基于样例模型的数据抽取方法，样例模型包括分类模式、实体识别模式和关系识别模式，包括：

确定线索词和标注的第一样例文本；

在所述分类模式下，基于所述线索词和所述第一样例文本，确定出第一待抽取文本中与所述第一样例文本为同类事件描述的目标抽取文本；

在所述实体识别模式下，基于标记了事件触发词的第一样例文本和所述线索词，从所述目标抽取文本中抽取出同事件类型的头实体；

在所述关系识别模式下，基于标记了事件触发词和事件要素的第一样例文本和所述线索词，在标记了头实体的目标抽取文本中抽取出同事件类型的事件要素；

其中，所述样例模型是通过预训练模型训练数据集进行标注训练得到的，所述训练数据集是基于事件描述文本标注得到的。

在一个实施例中，本发明提供一种基于样例模型的数据抽取方法还包括：

确定第二待抽取文本和标注的第二样例文本；

基于所述第二样例文本和所述第二待抽取文本，执行所述分类模式的过程、所述实体识别模式的过程和关系识别模式的过程，确定出所述第二待抽取文本中的待比较文本；

计算所述待比较文本与所述第二样例文本之间的表达相似度；

采信表达相似度大于相似度阈值的目标比较文本的抽取结果。

所述计算所述待比较文本与所述第二样例文本之间的表达相似度之后，还包括：

确定第三待抽取文本和标注的新样例文本；所述第三待抽取文本为所述第二待抽取文本中除所述目标比较文本之外剩余的文本；

基于所述新样例文本和所述第三待抽取文本，执行所述分类模式的过程、所述实体识别模式的过程和关系识别模式的过程，直至所述新样例文本覆盖其类型事件的各类表述。

所述在所述分类模式下，基于所述线索词和所述第一样例文本，确定出第一待抽取文本中与所述第一样例文本为同类事件描述的目标抽取文本，包括：

确定所述待抽取文本的第一事件描述信息，以及确定所述第一样例文本的第二事件描述信息；

在所述分类模式下，基于所述线索词、所述第一事件描述信息和所述第二事件描述信息，确定出所述待抽取文本中，与所述第一样例文本为同类事件描述的目标抽取文本。

所述在所述实体识别模式下，基于标记了事件触发词的第一样例文本和所述线索词，从所述目标抽取文本中抽取出同事件类型的头实体，包括：

在所述实体识别模式下，基于标记了事件触发词的第一样例文本和线索词，从所述目标抽取文本中抽取出同事件类型的头触发词；

将抽取出的头触发词确定为所述目标抽取文本中抽取出同事件类型的头实体。

第二方面，本发明提供一种基于样例模型的数据抽取装置样例模型包括分类模式、实体识别模式和关系识别模式；

所述基于样例模型的数据抽取装置，包括：

第一确定模块，用于确定第一样例文本和线索词；

第二确定模块，用于在所述分类模式下，基于所述线索词、所述第一样例文本和待抽取文本，确定出所述待抽取文本中，与所述第一样例文本为同类事件描述的目标抽取文本；

第一抽取模块，用于在所述实体识别模式下，基于标记了事件触发词的第一样例文本和所述线索词，从所述目标抽取文本中抽取出同事件类型的头实体；

第二抽取模块，用于在所述关系识别模式下，基于标记了事件触发词和事件要素的第一样例文本和所述线索词，在标记了事件触发词的目标抽取文本中抽取出同事件类型的事件要素；

在一实施例中，所述基于样例模型的数据抽取装置还包括效果迭代优化模块，用于：

确定第二待抽取文本和标注的第二样例文本；

采信表达相似度大于相似度阈值的待比较文本的抽取结果。

所述效果迭代优化模块还用于：

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述基于样例模型的数据抽取方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括计算机程序，所述计算机程序被所述处理器执行时实现第一方面所述基于样例模型的数据抽取方法。

第五方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被所述处理器执行时实现第一方面所述基于样例模型的数据抽取方法。

本发明提供的基于样例模型的数据抽取方法、装置、设备及存储介质，确定线索词和标注的第一样例文本；在分类模式下，基于线索词和第一样例文本，确定出第一待抽取文本中与第一样例文本为同类事件描述的目标抽取文本；在实体识别模式下，基于标记了事件触发词的第一样例文本和线索词，从目标抽取文本中抽取出同事件类型的头实体；在关系识别模式下，基于标记了事件触发词和事件要素的第一样例文本和线索词，在标记了头实体的目标抽取文本中抽取出同事件类型的事件要素；其中，样例模型是通过预训练模型训练数据集进行标注训练得到的，训练数据集是基于事件描述文本标注得到的。

在基于样例模型的数据抽取的过程中，不需要对模型微调，只需通过样例模型中的分类模式、实体识别模式和关系识别模式，结合第一样例文本和线索词在第一待抽取文本中进行事件数据匹配抽取，即可抽取出第一待抽取文本中第一样例文本同事件类型的事件要素，从而将高难度的判决问题转化为低难度的匹配问题，提升了不同场景的迁移效果，降低了使用门槛，促进事件抽取的大规模推广。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于样例模型的数据抽取方法的流程图；

图2是本发明提供的效果迭代优化的流程示意图；

图3是本发明提供的基于样例模型的数据抽取装置的结构图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了基于样例模型的数据抽取方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些数据下，可以以不同于此处的顺序完成所示出或描述的步骤。

参照图1，图1是本发明提供的基于样例模型的数据抽取方法的流程图。本发明提供的基于样例模型的数据抽取方法包括：

步骤101，确定线索词和标注的第一样例文本；

步骤102，在所述分类模式下，基于所述线索词和所述第一样例文本，确定出第一待抽取文本中与所述第一样例文本为同类事件描述的目标抽取文本；

步骤103，在所述实体识别模式下，基于标记了事件触发词的第一样例文本和所述线索词，从所述目标抽取文本中抽取出同事件类型的头实体；

步骤104，在所述关系识别模式下，基于标记了事件触发词和事件要素的第一样例文本和所述线索词，在标记了头实体的目标抽取文本中抽取出同事件类型的事件要素。

需要说明的是，本发明实施例以事件抽取系统为执行主体。

在事件抽取系统中至少包括样例模型，其中，样例模型是事先使用常规的预训练语言模型大量得训练数据集标注训练而成，训练数据集是事先从海量事件描述文本中标注得到。

进一步地，样例模型包括分类模式、实体识别模式和关系识别模式，其中，分类模式的主要作用是给定线索词和示例文本，对另一份文本进行同类或者非同类的分类。实体识别模式的主要作用是给定线索词、示例文本和示例头实体(从示例文本中标识)，从另一份文本中识别对应的头实体。关系识别模式的主要作用是给定线索词、示例文本、示例头实体(从示例文本中标识)，示例尾实体，从另一份已标识头实体的文本中识别尾实体。

进一步地，分类模式、实体识别模式和关系识别模式分别通过预训练模型常规的分类、序列标注模式、序列标注模式实施。

需要说明的是，本发明实施例中的预训练语言模型以预训练模型BERT(Bidirectional Encoder Representation from Transformers，是一个预训练的语言表征模型)为例进行说明：

对于分类模式，具体为：输入为[CLS]<clue>线索词</clue>示例文本[SEP]待分类文本[SEP]，将预训练模型BERT的[CLS]输出后接sigmoid层进行二分类。

对于实体识别模式，具体为：输入为<clue>线索词</clue>示例文本(其中示例实体的标识为<entity>示例实体</entity>)[SEP]待分类文本[SEP]，将预训练模型BERT输出每个位置接softmax进行五分类(序列标注BIOES标注法)，标注识别的实体。

对于关系识别模式，具体为：输入为<clue>线索词</clue>示例文本(其中头实体的标识为<head>头实体</head>这，尾实体的标识为<tail>尾实体</tail>)[SEP]待分类文本(其中头实体的标识为<head>头实体</head>)[SEP]，将预训练模型BERT输出每个位置接softmax进行五分类(序列标注BIOES标注法)，标注识别的尾实体。

因此，样例模型在网络结构上没有过多设计，采用常规的预训练语言模型BERT。为了保证效果，通过准备多样充分的训练数据集使样例模型获得如下泛化能力：

语法的泛化能力：本发明实施例准备了多种句式的样本(例如主被动、否定、猜测、疑问、时态等)。同语义的样例和待处理文本，无论切换不同的句式，可得到正结果(即分类模式判断为同类，实体识别模式识别出实体，关系识别模式识别出尾实体)。肯定表述的样例不会从不同语义的否定、猜测的易混淆文本中得到正结果。

线索词的泛化：不包含线索词的待处理文本也可得到正结果，只要表述同类事件。例如，线索词是“拖欠工资”时，可从“欠薪”的表述文本中得到正结果。

粒度的泛化：通过调整线索词来控制识别粒度。例如，当线索词是“拖欠”，样例文本是拖欠工资的表述时，可从“拖欠工程款”的待处理文本中得到正结果。但把线索词换成“拖欠工资”，样例文本和待处理文本不变，则无法获得正结果

因此，用户在使用时除了提供标注样例，不需要额外标注样例模型。因为样例模型的泛化能力，用户在使用时识别的事件类型不需要在训练数据集中出现过。

进一步地，用户需要进行事件抽取时，需要提供线索词、待抽取文本和标注的样例文本，即用户需要将线索词、待抽取文本和标注的样例文本输入至事件抽取系统。因此，事件抽取系统可以确定出线索词、第一待抽取文本和标注的第一样例文本。

进一步地，事件抽取系统将线索词、第一待抽取文本和标注的第一样例文本传输至样例模型中。在样例模型的分类模式下，通过线索词和第一样例文本，对第一待抽取文本是否与第一样例文本为同类事件或者非同类事件进行判断。即可以理解为，在样例模型的分类模式下，通过线索词和第一样例文本，确定出第一待抽取文本中与第一样例文本为同类事件描述的目标抽取文本。

进一步地，事件抽取系统在样例模型的实体识别模式下，通过标记了事件触发词的第一样例文本和线索词，对目标抽取文本中的线索词进行识别，即从目标抽取文本中抽取出同事件类型的头实体。

进一步地，事件抽取系统在样例模型的关系识别模式下，通过标记了事件触发词和事件要素的第一样例文本和线索词，在标记了头实体的目标抽取文本中抽取出同事件类型的事件要素。

本发明提供的基于样例模型的数据抽取方法，确定线索词和标注的第一样例文本；在分类模式下，基于线索词和第一样例文本，确定出第一待抽取文本中与第一样例文本为同类事件描述的目标抽取文本；在实体识别模式下，基于标记了事件触发词的第一样例文本和线索词，从目标抽取文本中抽取出同事件类型的头实体；在关系识别模式下，基于标记了事件触发词和事件要素的第一样例文本和线索词，在标记了头实体的目标抽取文本中抽取出同事件类型的事件要素；其中，样例模型是通过预训练模型训练数据集进行标注训练得到的，训练数据集是基于事件描述文本标注得到的。

进一步地，步骤102记载的在所述分类模式下，基于所述线索词和所述第一样例文本，确定出第一待抽取文本中与所述第一样例文本为同类事件描述的目标抽取文本，包括：

具体地，事件抽取系统确定待抽取文本的第一事件描述信息，以及确定第一样例文本的第二事件描述信息，其中，事件描述信息即事件内容表述信息。进一步地，事件抽取系统通过样例模型的分类模式结合线索词、第一事件描述信息和第二事件描述信息对待抽取文本进行数据分类，即分类出待抽取文本中与第一样例文本为同类事件描述的目标抽取文本，以及分类出待抽取文本中与第一样例文本为非同类事件描述的其他抽取文本。

具体为：事件抽取系统通过样例模型的分类模式，确定待抽取文本中是否携带有线索词，且第一事件描述信息是否和第二事件描述信息相同。若确定待抽取文本中携带有线索词，且第一事件描述信息和第二事件描述信息相同，事件抽取系统则将待抽取文本确定为与第一样例文本为同类事件描述的目标抽取文本。若确定待抽取文本中不携带有线索词，或/和第一事件描述信息和第二事件描述信息不相同，事件抽取系统则将待抽取文本确定为与第一样例文本为非同类事件描述的其他抽取文本。如A文本的事件描述信息为“......回购股份”，B文本为“......卖出股份”，A文本和B文本的事件描述信息不相同。

在一实施例中，线索词为“回购股份”，第一样例文本为“X电子技术股份有限公司拟以超募资金通过A证券交易所交易系统以集中竞价交易方式回购公司已发行的股票”。待抽取文本中有待抽取文本1和待抽取文本2，待抽取文本1为“B股份有限公司本次拟回购部分公司股份，主要内容如下......”，待抽取文本2为“截至本公告披露日，公司股东C通过集中竞价方式累计减持3,142,740股，占公司总股本的1％”。由于待抽取文本1携带有线索词“回购股份”，且待抽取文本1的事件描述信息与第一样例文本的事件描述信息相同，待抽取文本2没有携带有线索词“回购股份”，且待抽取文本2的事件描述信息与第一样例文本的事件描述信息不相同，因此，将待抽取文本1确定为目标抽取文本。

本发明实施例在基于样例模型的数据抽取的过程中，不需要对模型微调，只需通过样例模型中的分类模式，结合线索词和标注的第一样例文本在待抽取文本中匹配抽取，即可抽取出待抽取文本中的目标抽取文本，从而将高难度的判决问题转化为低难度的匹配问题，提升了不同场景的迁移效果，降低了使用门槛，促进事件抽取的大规模推广，同时，提升了事件抽取的抽取效果。

进一步地，基于步骤103记载的在所述实体识别模式下，基于标记了事件触发词的第一样例文本和所述线索词，从所述目标抽取文本中抽取出同事件类型的头实体，包括：

具体地，事件抽取系统通过样例模型的实体识别模式和关系识别模式，结合标记了事件触发词的第一样例文本和线索词，对目标抽取文本进行事件抽取，得到待抽取文本中的头实体，具体为：

事件抽取系统通过样例模型的实体识别模式结合线索词，对第一样例文本进行实体识别，得到第一样例文本的第一头实体信息。进一步地，事件抽取系统通过样例模型的实体识别模式结合第一头实体信息，对目标抽取文本进行实体识别，得到目标抽取文本的第二头实体信息。在一实施例中，线索词为“回购股份”，第一样例文本为“X电子技术股份有限公司拟以超募资金通过A证券交易所交易系统以集中竞价交易方式回购公司已发行的股票”，目标抽取文本为“B股份有限公司本次拟回购部分公司股份，主要内容如下......”。因此，经过样例模型的实体识别模式后，得到第一样例文本的第一头实体信息为“回购，在第一样例文本第39个字开始”，目标抽取文本的第二头实体信息为“回购，在目标抽取文本的第11个字开始”。

进一步地，事件抽取系统通过样例模型的实体识别模式结合标记了事件触发词和事件要素的第一样例文本和线索词，对目标抽取文本进行事件要素抽取，得到目标抽取文本的事件要素信息。最后，事件抽取系统将目标抽取文本的第二头实体信息和事件要素信息组合，得到目标抽取文本的目标事件数据。

事件抽取系统确定第一样例文本中的第一尾实体信息，其中，第一尾实体信息是人工预先在第一样例文本中标注的。

进一步地，事件抽取系统通过样例模型的关系识别模式结合第一尾实体信息，对目标抽取文本进行事件要素抽取，得到目标抽取文本的第二尾实体信息，并将第二尾实体信息确定为事件要素信息。

在一实施例中，线索词为“回购股份”，第一样例文本为“X电子技术股份有限公司拟以超募资金通过A证券交易所交易系统以集中竞价交易方式回购公司已发行的股票”，人工对第一样例文本标注的第一尾实体信息为“X电子技术股份有限公司，在第一样例文本的第1个字开始”，第一尾实体信息表示本次抽取回购股份的公司。

目标抽取文本为“B股份有限公司本次拟回购部分公司股份，主要内容如下......”。

因此，经过样例模型的实体识别模式后，得到第一样例文本的第一头实体信息为“回购，在第一样例文本第39个字开始”，目标抽取文本的第二头实体信息为“回购，在目标抽取文本的第11个字开始”，目标抽取文本的事件要素信息为“B股份有限公司，在目标抽取文本的第1个字开始”。因此，目标抽取文本的目标事件数据为“B股份有限公司，回购股份”。

本发明实施例在基于样例模型的数据抽取的过程中，不需要对模型微调，只需通过样例模型中的实体识别模式和关系识别模式，结合第一样例文本和线索词对目标抽取文本进行匹配抽取，抽取出目标抽取文本的事件要素，从而将高难度的判决问题转化为低难度的匹配问题，提升了不同场景的迁移效果，降低了使用门槛，促进事件抽取的大规模推广，同时，提升了事件抽取的抽取效果。

进一步地，因为在使用时识别的事件类型不能保证在训练数据集中出现过，因此单个样例文本不能保证样例模型能将同类事件的所有文本都抽取正确。但是，当样例文本和待抽取文本的表述方式相近时，抽取出的事件结果的准确率很高。因此，需要进行效果迭代优化。

因此，本发明实施例通过挑选不同表述方式的样例文本供用户标注，对于识别出的数据，根据与样例文本的相近程度、与其他识别出的数据的相近程度估计置信度，最后采纳置信度高的结果。由于不同的样例文本表述方式不一，因此高置信度识别结果的覆盖范围不一。通过扩充不同的样例文本，最终达到面向同类事件的不同表述文本，均可获得高置信度优质结果，效果迭代优化的过程具体包括：

进一步地，参照图2，图2是本发明提供的基于样例模型的数据抽取方法的整体流程示意图。

确定第二待抽取文本和标注的第二样例文本；

具体地，事件抽取系统确定第二待抽取文本和标注的第二样例文本，其中，第二待抽取文本包括大量的待抽取文本。

进一步地，事件抽取系统将第二待抽取文本和标注的第二样例文本输入至样例模型中，通过步骤102至步骤104实施例中样例模型的分类模式执行分类模式的过程，实体识别模式执行实体识别模式的过程，以及关系识别模式执行关系识别模式的过程，确定出第二待抽取文本中的待比较文本，其中，待比较文本即分类模式判断为同类，实体识别模式识别出实体，关系识别模式识别出尾实体的文本。

进一步地，事件抽取系统通过双塔模型(文本相似度双塔模型)计算出待比较文本与第二样例文本之间的表达相似度。进一步地，事件抽取系统根据表达相似度对待比较文本进行聚类，得到目标文本集合。具体的聚类过程为：事件抽取系统将第二样例文本与每一个待比较文本之间的表达相似度，与预设相似度进行数值大小比较，得到比较结果，预设相似度由技术人员设定。比较结果为表达相似度大于或者等于预设相似度，比较结果也可为表达相似度小于预设相似度。

事件抽取系统将表达相似度大于或者等于预设相似度的待比较文本归为一类，将表达相似度小于预设相似度的待比较文本归为一类。进一步地，事件抽取系统采信表达相似度大于相似度阈值的目标比较文本的抽取结果。

需要说明的是，通过1个样例文本预测出来的结果可能有错的和漏的，表达相似度和聚类是为了把错的或者漏的结果区分出来不采信，并引导用户补充新的样例文本来预测这部分语料。

在一实施例中，文本集中包括文本a、文本b至文本f。

文本a为：A投资有限公司(收购人)自xxxx年xx月xx日起以要约方式收购A1信通股份。

文本b为：本次公告为B交通投资集团有限公司(收购人)要约收购B1集团股份有限公司的股份的第一次提示性公告。

文本c为：依据《要约收购报告书》，就本次收购人要约收购C1股份的有关事项作出申报公告如下......。

文本d为：本次公告为收购人要约收购D1信通股份有限公司的股份的第二次提示性公告。

文本e为：E医药集团召开董事会、股东会，审议并根据《上市公司收购管理办法》的要求，要约收购XX药业除E1集团所持股份以外的全部无限售条件流通股票。

文本f为：本次要约收购系F1钢铁向F2制药除F1钢铁及其一致行动人以外的其他股东发出的全面要约收购，具体情况如下。

文本g为：G设计股份有限公司要约收购报告书摘要。

文本h为：H建设股份有限公司要约收购报告书。

上述文本中都有被要约收购方信息，其中，文本a至文本d句式大体为X1要约收购X2，文本e和文本f句式大体为X1要约收购X2除X3以外的股份。文本g和文本h句式为XXX要约收购报告书。

第二样例文本为文本a，待比较文本为文本b至文本f。

通过双塔模型计算出文本a与文本b至文本f之间的表达相似度，确定文本g、文本h和文本a句式差距较大，不采信在文本g和文本h上预测的结果。对剩下的文本b至文本f进行聚类，文本b、文本c和文本d聚类为一类，文本e和文本f聚类为一类。

进一步地，确定文本b、文本c和文本d预测是对的，所以，采信文本b、文本c和文本d的预测结果。

进一步地，确定文本e和文本f预测是错的，把除xxx外也预测出来了，因此，不采信文本e和文本f。因此，将文本b、文本c和文本d，确定为文本a的目标文本集合。

本发明实施例通过通过1个样例文本预测出来的结果可能有错的和漏的，表达相似度和聚类是为了把错的或者漏的结果区分出来不采信，并引导用户补充新的样例文本来预测这部分语料，使用者只需要标注自动挑选的样例文本，不对模型有任何操作，取代了传统的标注数据+训练/微调模型方式，保证了模型稳定的同时，能够不断地优化样例模型，从而提高了使得事件抽取的过程中事件抽取的抽取效果。进一步地，由于不用对模型进行调整，因此，降低了上手门槛，增强了迁移能力和使用多样性。

进一步地，确定第三待抽取文本和标注的新样例文本；所述第三待抽取文本为所述第二待抽取文本中除所述目标比较文本之外剩余的文本；

具体地，事件抽取系统确定第三待抽取文本和标注的新样例文本，其中，第三待抽取文本为第二待抽取文本中除目标比较文本之外剩余的文本。

进一步地，事件抽取系统将第三待抽取文本和新样例文本输入至样例模型中，通过步骤102至步骤104实施例中样例模型的分类模式执行分类模式的过程，实体识别模式执行实体识别模式的过程，以及关系识别模式执行关系识别模式的过程，确定出第三待抽取文本中的待比较文本。

进一步地，事件抽取系统通过文本相似度双塔模型计算出待比较文本与新样例文本之间的表达相似度。进一步地，事件抽取系统根据表达相似度对待比较文本进行聚类，得到目标文本集合。具体的聚类过程为：事件抽取系统将新样例文本与每一个待比较文本之间的表达相似度，与预设相似度进行数值大小比较，得到比较结果，预设相似度由技术人员设定。比较结果为表达相似度大于或者等于预设相似度，比较结果也可为表达相似度小于预设相似度。

进一步地，事件抽取系统将表达相似度大于或者等于预设相似度的待比较文本归为一类，将表达相似度小于预设相似度的待比较文本归为一类。进一步地，事件抽取系统采信表达相似度大于相似度阈值的目标比较文本的抽取结果，不断重复上述步骤，直至新样例文本覆盖其类型事件的各类表述。

在上述实施例中，可以得到另一类文本集为文本e、文本f、文本g和文本h。确定另一类文本集中的新样例文本为文本e和文本g，待比较文本为文本f和文本h。

进一步地，通过双塔模型计算出文本e，与文本f和文本h之间的表达相似度，通过双塔模型计算出文本g，与文本f和文本h之间的表达相似度。

对于文本e：确定文本h和文本e句式差距较大，不采信在文本h上预测的结果，确定文本f和文本e句式一致，采信实例语f的预测结果。对于文本g：确定文本f和文本g句式差距较大，不采信在文本f上预测的结果，确定文本h和文本g句式一致，采信实例语h的预测结果。。

本发明实施例不断地对剩余的目标文本集进行效果迭代优化，提升了样例模型对整体结果的覆盖率，使得在事件抽取的过程中，不用调整模型，降低了上手门槛，增强了迁移能力和使用多样性，同时提升了准确率和召回率。

进一步地，本发明提供的基于样例模型的数据抽取装置与本发明提供的基于样例模型的数据抽取方法互对应参照。

图3所示，图3是本发明提供的基于样例模型的数据抽取装置的结构图，样例模型包括分类模式、实体识别模式和关系识别模式；

基于样例模型的数据抽取装置，包括：

第一确定模块301，用于确定第一样例文本和线索词；

第二确定模块302，用于在所述分类模式下，基于所述线索词、所述第一样例文本和待抽取文本，确定出所述待抽取文本中，与所述第一样例文本为同类事件描述的目标抽取文本；

第一抽取模块303，用于在所述实体识别模式下，基于标记了事件触发词的第一样例文本和所述线索词，从所述目标抽取文本中抽取出同事件类型的头实体；

第二抽取模块304，用于在所述关系识别模式下，基于标记了事件触发词和事件要素的第一样例文本和所述线索词，在标记了事件触发词的目标抽取文本中抽取出同事件类型的事件要素；

进一步地，基于样例模型的数据抽取装置还包括效果迭代优化模块，用于：

确定第二待抽取文本和标注的第二样例文本；

采信表达相似度大于相似度阈值的待比较文本的抽取结果。

进一步地，效果迭代优化模块还用于：

进一步地，第一抽取模块303还用于：

进一步地，第二抽取模块304还用于：

本发明提供的基于样例模型的数据抽取装置的具体实施例与上述基于样例模型的数据抽取方法各实施例基本相同，在此不作赘述。

图4示例了一种电子设备的实体结构示意图，如图4所示，电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行基于样例模型的数据抽取方法，该方法包括：

确定线索词和标注的第一样例文本；

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于样例模型的数据抽取方法，该方法包括：

确定线索词和标注的第一样例文本；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于样例模型的数据抽取方法，该方法包括：

确定线索词和标注的第一样例文本；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于样例模型的数据抽取方法，其特征在于，样例模型包括分类模式、实体识别模式和关系识别模式，包括：

确定线索词和标注的第一样例文本；

其中，所述样例模型是通过预训练模型训练数据集进行标注训练得到的，所述训练数据集是基于事件描述文本标注得到的；

确定所述第一待抽取文本的第一事件描述信息，以及确定所述第一样例文本的第二事件描述信息；

在所述分类模式下，基于所述线索词、所述第一事件描述信息和所述第二事件描述信息，确定出所述第一待抽取文本中，与所述第一样例文本为同类事件描述的目标抽取文本；

2.根据权利要求1所述的基于样例模型的数据抽取方法，其特征在于，还包括：

确定第二待抽取文本和标注的第二样例文本；

3.根据权利要求2所述的基于样例模型的数据抽取方法，其特征在于，所述计算所述待比较文本与所述第二样例文本之间的表达相似度之后，还包括：

4.一种基于样例模型的数据抽取装置，其特征在于，样例模型包括分类模式、实体识别模式和关系识别模式；

所述基于样例模型的数据抽取装置，包括：

第一确定模块，用于确定线索词和标注的第一样例文本；

第二确定模块，用于在所述分类模式下，基于所述线索词和所述第一样例文本，确定出第一待抽取文本中与所述第一样例文本为同类事件描述的目标抽取文本；

第二抽取模块，用于在所述关系识别模式下，基于标记了事件触发词和事件要素的第一样例文本和所述线索词，在标记了头实体的目标抽取文本中抽取出同事件类型的事件要素；

5.根据权利要求4所述的基于样例模型的数据抽取装置，所述基于样例模型的数据抽取装置还包括效果迭代优化模块，用于：

确定第二待抽取文本和标注的第二样例文本；

6.根据权利要求5所述的基于样例模型的数据抽取装置，所述效果迭代优化模块还用于：

7.一种电子设备，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的基于样例模型的数据抽取方法。

8.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一项所述的基于样例模型的数据抽取方法。