CN113312464A

CN113312464A - 一种基于对话状态追踪技术的事件抽取方法

Info

Publication number: CN113312464A
Application number: CN202110589755.XA
Authority: CN
Inventors: 李建欣; 李倩; 宁元星; 骆功旭; 李熙; 毛乾任; 黄洪仁
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-27
Anticipated expiration: 2041-05-28
Also published as: CN113312464B

Abstract

本发明通过人工智能领域的方法，实现了一种基于对话状态追踪技术的事件抽取方法。方法整体由事件分类、序列问题生成模型和论元抽取模型三部分组成；事件分类检测输入文本是否是事件，如果文本不包含事件，则输出NULL，否则分类文本所属的事件类型；序列问题生成模型根据事件类型和已经预测的置信度高的论元结果自动生成问题；论元抽取模型将所述序列问题生成模型生成的问题和输入文本作为输入来预测论元位置，然后采用标签对齐机制将预测的论元中置信度高的论元加入训练集中。这一方法通过三部分模型，能对所有参数的预测结果和高置信度结果进行反馈；提取两个任务之间的共同信息和模式，并利用所学习到的语法和语义知识标记；并充分利用论元之间的相关性。

Description

一种基于对话状态追踪技术的事件抽取方法

技术领域

本发明涉及人工智能领域，尤其涉及一种基于对话状态追踪技术的事件抽取方法。

背景技术

事件提取是从文本中检测特定类型事件的发生，并提取与事件关联的参数(例如，事件参与者或其他属性)。它是支持许多自然语言处理任务的基本技术，如知识推理、文本摘要和事件预测。在现实世界中，标记大量数据是一项很高的成本。因此，研究如何从少量的标记数据和大量未标记的数据中检测事件并提取其参数是十分必要的。以前的研究是孤立地研究每个论点，没有利用论点之间的相关性。事件提取需要提取与每个事件对应的所有论元及其角色。这样做是具有挑战性的，因为一个事件往往与多个论点相关联，而这些论点在不同的语境中扮演着不同的角色。

事件提取任务是复杂和多任务的。它需要识别事件的类型，查找事件触发器和事件参数，并对每个事件参数的角色进行分类。事件提取需要解决参数的重叠和分散问题，这就要求模型准确地学习文本的语义关系和单词的多语义表示。基于多回合对话框的序列事件提取通过构造问题依次识别参数。现有的事件抽取系统通常采用监督学习范式，必须依赖于标记训练数据，但是高质量训练数据的缺乏是一个常见的问题。通过将领域知识整合到问题集中，可以引导抽取框架专注于要从句子中抽取的基本语义。现有的方法没有利用多个论元之间的关系，留下了很大的改进空间。

发明内容

为此，本发明首先提出一种基于对话状态追踪技术的事件抽取方法，由事件分类、序列问题生成模型和论元抽取模型三部分组成；所述事件分类检测输入文本是否是事件，如果文本不包含事件，则输出NULL，否则分类文本所属的事件类型；所述序列问题生成模型根据事件类型和已经预测的置信度高的论元结果自动生成问题；所述论元抽取模型将所述序列问题生成模型生成的问题和输入文本作为输入来预测论元位置，然后采用标签对齐机制将预测的论元中置信度高的论元加入训练集中，最终输出每个文本中的所有事件类型和事件类型对应的论元；

具体地，所述事件分类中的所述分类过程为：包含事件的文本被分别传入一个图神经网络模型和一个BERT模型中，分别学习文本的结构化知识和上下文知识，之后将所述图神经网络模型模型和所述BERT模型输出的字表征拼接，得到每个字的新的表征，再加入一个自注意力机制，学习新的字的上下文表征，最后模型经过FCN层后输出当前文本是否包含事件，如果包含事件则输出事件类型；构造事件类别数量预测任务提高事件分类性能，通过计算事件分类和事件类别数预测两个任务的联合损失，来差别考虑当前预测错误是因为预测错类别还是事件类别预测少了或者多了；

所述预测论元位置的方法为：根据事件分类的结果，确定事件类型所包含的论元角色，对于每个论元角色，利用所述序列问题生成模块生成问题集，设计一个机器阅读理解模型，每次输入一个问题和对应的文本，之后将问题输入到一个BERT模型中，文本分别输入到一个图注意力模型来学习文本的结构化表征和BERT模型来学习文本的上下文表征，然后将两个模型的结果拼接在一起后经过一个自注意力机制，最后经过FCN层预测论元的开始和结束位置。

所述图神经网络模型具体为：将每个文本构成一个图，每个字被为图中的一个节点，使用词汇知识连接字符并提出一个全局中继节点，以捕获局部组成和潜在的单词边界，节点间的连边包括四种：第一种连边是词内关系连边，即一个词内的字之间依次顺序相连，直到连接到最后一个字；第二种连边方式是词语之间构建一条连边，具体连接方式是前一个词的第一个字和后一个词的第一个字相连，每条边代表潜在的可能存在的词语的特征；中继节点的连边，由一个所述中继节点与图中所有边和节点都相连；以及共现概率高的节点之间构建的连边。

所述生成问题的方法为：首先，根据事件分类模型预测的文本所属事件类型和事件类型对应的事件模板，构造所有论元的问题；

然后预测每个论元的起始位置，判断这些论元中置信度最高的论元是否超过阈值，如果置信度没有超过阈值，认为当前的预测结果都可能存在错误信息传输，将所有论元预测结果输出，不再执行后面的步骤；如果超过阈值，则将该论元作为事件论元；

接着构造下一个论元识别的问题，问题的构造包括事件类型、事件模板和已识别的论元，预测这些论元的起始位置，判断这些论元中置信度最高的论元是否超过阈值，如果超过阈值将当前论元的所构造的问题作为当前轮的问题，如果没有超过则同时识别所有论元，这一过程不断反复，直到识别所有论元；

依次生成每个论元角色的问题集，对每个论元构造多个问题，具体地，首先识别第一个论元，问题的构造只包含事件类型信息和要识别的论元角色；依次识别所有的事件论元，选择置信度最高的论元作为第一个事件论元，然后构造第二个论元识别的问题，问题的构造包括事件类型和第一个论元，然后识别下一个置信度最高的论元，如此反复，直到识别所有论元；并设置一个置信度阈值，达到阈值时增加论元，如果一轮论元识别中没有增加论元，即剩下的论元识别结果置信度都不高，则同时添加所有的论元预测结果。

所述标签对齐机制为：依次预测论元，将论元预测结果中置信度高的添加到问题中，为抽取下一个论元提供附加信息，对于置信度不高的论元角色，将事件模板中所有的论元识别完一轮后，重新识别置信度不高的论元，这样能利用上一轮中识别的论元信息，如此迭代，直到识别完所有论元，两轮没有新增的置信度高的论元，则同时识别剩下所有的论元。

本发明所要实现的技术效果在于：

1.本发明设计了一个问题生成器，并对所有参数的论元预测结果和高置信度结果进行反馈，以伪标签的形式加入到训练数据中。

2.本发明提出了一种事件类型分类和参数提取任务的多任务模型，利用预先训练的共享BERT模型和基于词典的图注意网络，提取了这两个任务之间的共同信息和模式，并利用所学习到的语法和语义知识标记。

3.本发明设计一种序列多回合对话模型，通过基于事件分类和预测事件论元过程中，将高置信度地论元预测结果加入下一轮对话中构建新问题来识别下一个论元，充分利用论元之间的相关性。

附图说明

图1事件抽取原理示意图；

图2文本构建成graph的示意图；

图3序列问题生成模型算法伪代码；

图4方法的整体架构

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种基于对话状态追踪技术的事件抽取方法，由事件分类、序列问题生成和论元抽取三部分组成。事件分类检测输入文本是否是事件，并分类文本所属的事件类型。序列问题生成器根据事件类型和已经预测的置信度高的论元结果自动生成问题。论元抽取将文本和问题作为输入预测论元位置，然后通过标签对齐机制将预测的论元中置信度高的论元加入训练集中。

事件分类模型

事件分类是确定每个句子是否是一个事件。此外，如果句子是一个事件，则该句子所属的一个或多个事件类型。因此，对每个事件的类型进行分类是一个多标签文本分类任务。

事件分类模型判断当前文本是否包含事件。如果文本不包含事件，则输出NULL，不再执行后面的模块。否则，检测文本包含哪几类事件。

在这个工作中，模型输入文本，文本被分别传入一个GAT模型和一个BERT模型中，分别学习文本的结构化知识和上下文知识。为了提高事件分类性能，我们构造一个事件类别数量预测任务。模型计算事件分类和事件类别数预测两个任务的联合损失，使模型能差别考虑当前预测错误是因为预测错类别还是事件类别预测少了或者多了。

(1)基于词汇信息的图神经网络(单文档)

将每个文本构成一个graph，每个字被当做图中的一个节点，我们使用词汇知识连接字符和提出了一个全局中继节点，以捕获局部组成和潜在的单词边界。节点间的连边包括四种。

图1为构建连边的示意图，其中relay node节点表示中继节点，其他每个节点表示句子中的一个字。我们构建的第一种连边是词内关系连边，即一个词内的字之间依次顺序相连，直到连接到最后一个字，如图中a与cameraman，died、an、American与tank，the、Palestine与Hotel的连边。第二种连边方式是词语之间构建一条连边，如图中Baghda、a、died或an、fired与the之间的连边。具体连接方式是前一个词的第一个字和后一个词的第一个字相连，每条边代表潜在的可能存在的词语的特征。我们还设计一个中继节点，该节点与图中所有边和节点都相连，用来汇聚所有边和点的信息，从而消除词语之间的边界模糊。中继节点与所有字相连，如图中relay node的连边，这使中继节点能够学习文档的全局信息。因此，中继节点的表征可以看作是文档的表征。最后，我们计算数据集中词的共现概率，将共现概率高的节点之间构建一条连边，如图中died、on与the之间的连边。

(2)文本中的BERT

文本还被传入一个BERT模型中，模型首先学习每个字的上下文表征，然后，我们将GAT模型和BERT模型输出的字表征拼接，得到每个字的新的表征。我们再加入一个自注意力机制，学习新的字的上下文表征。最后，模型经过FCN层后输出当前文本是否包含事件，如果包含事件，输出事件类型。

序列问题生成器

为了充分利用论元之间的关联关系，我们借鉴多轮对话系统的中利用前一轮对话的信息来生成下一轮的对话。我们设计序列多轮对话生成器，将论元识别任务看做是序列式的依次识别每个论元。

首先，根据事件分类模型预测的文本所属事件类型和事件类型对应的事件模板，我们构造所有论元的问题。然后，我们预测每个论元的起始位置，判断这些论元中置信度最高的论元是否超过阈值。如果置信度没有超过阈值，我们认为当前的预测结果都可能存在错误信息传输，为了避免错误信息传输，我们将所有预测结果输出，不再执行后面的步骤。如果超过阈值，则将该论元作为事件论元。接着，我们构造下一个论元识别的问题，问题的构造包括事件类型、事件模板和已识别的论元，预测这些论元的起始位置，判断这些论元中置信度最高的论元是否超过阈值。同样，如果超过阈值我们将当前论元的所构造的问题作为当前轮的问题，如果没有超过则同时识别所有论元。如此反复，直到识别所有论元。

我们依次生成每个论元角色的问题集。由于事件抽取数据集有标签数据有限，我们对每个论元构造多个问题。首先，我们识别第一个论元，问题的构造只包含事件类型信息和要识别的论元角色。我们依次识别所有的事件论元，选择置信度最高的论元作为第一个事件论元。然后，我们构造第二个论元识别的问题，问题的构造包括事件类型和第一个论元，然后识别下一个置信度最高的论元。如此反复，直到识别所有论元。我们设置一个置信度阈值，达到这个阈值时才会增加论元。如果一轮论元识别中没有增加论元，即剩下的论元识别结果置信度都不高，我们同时添加所有的预测结果。

序列论元抽取模型

论元抽取模型的输入是有序列问题生成模型生成的问题和输入文本两部分组成。由于事件抽取数据集都只有少量有标签的数据，为了充分利用已有数据的知识，我们共享事件分类和论元抽取模型中文本的表征。

根据事件分类的结果，确定事件类型对应的模板(即事件类型所包含的论元角色)。对于每个论元角色，序列问题生成模块会生成问题集。在论元抽取模型中，我们设计一个机器阅读理解模型，每次输入一个问题和对应的文本。问题输入到一个BERT模型中。文本分别输入到一个GAT模型来学习文本的结构化表征和BERT模型来学习文本的上下文表征，然后将两个模型的结果拼接在一起后经过一个自注意力机制。最后经过FCN层预测论元的开始和结束位置。

我们增加了一个标签对齐机制。我们认为论元抽取模型中预测置信度高的论元是可靠地，这些结果非常接近真实结果。针对事件抽取数据集有标签数据不足的情况，我们将置信度高的结果当做标签，添加到训练数据中。

由于同时抽取所有的论元无法学习到论元之间的关联关系，所以我们设计序列论元抽取模型。我们依次预测论元，将预测结果中置信度高的添加到问题中，为抽取下一个论元提供附加信息。对于置信度不高的论元角色，我们将事件模板中所有的论元识别完一轮后，重新识别置信度不高的论元，这样能利用上一轮中识别的论元信息。如此迭代，直到识别完所有论元。两轮没有新增的置信度高的论元，我们同时识别剩下所有的论元。这样能避免置信度不高的论元识别结果影响其他论元识别的效果，达到减小负信息传播的目的。

Claims

1.一种基于对话状态追踪技术的事件抽取方法，其特征在于：由事件检测、序列问题生成模型和论元抽取模型三部分组成；所述事件检测输入文本是否是事件，并分类文本所属的事件类型；所述序列问题生成模型根据事件类型和已经预测的置信度高的论元结果自动生成问题；所述论元抽取模型将所述序列问题生成模型生成的问题和输入文本作为输入来预测论元位置，然后采用标签对齐机制将预测的论元中置信度高的论元加入训练集中，最终输出每个文本中的所有事件类型和事件类型对应的论元；

具体地，所述事件检测中的所述检测过程为：包含事件的文本被分别传入一个图神经网络模型和一个BERT模型中，分别学习文本的结构化知识和上下文知识，之后将所述图神经网络模型模型和所述BERT模型输出的字表征拼接，得到每个字的新的表征，再加入一个自注意力机制，学习字的新的上下文表征，最后模型输出当前文本是否包含事件和所属事件类型；构造事件类别数量预测任务提高事件检测性能，通过计算事件分类和事件类别数预测两个任务的联合损失，来差别考虑当前预测错误所属类型；

2.如权利要求1所述的一种基于对话状态追踪技术的事件抽取方法，其特征在于：所述图神经网络模型具体为：将每个文本构成一个图，每个字被为图中的一个节点，使用词汇知识连接字符并提出一个全局中继节点，以捕获局部组成和潜在的单词边界，节点间的连边包括四种：第一种连边是词内关系连边，即一个词内的字之间依次顺序相连，直到连接到最后一个字；第二种连边方式是词语之间构建一条连边，具体连接方式是前一个词的第一个字和后一个词的第一个字相连，每条边代表潜在的可能存在的词语的特征；中继节点的连边，由一个所述中继节点与图中所有边和节点都相连；以及共现概率高的节点之间构建的连边。

3.如权利要求2所述的一种基于对话状态追踪技术的事件抽取方法，其特征在于：所述生成问题的方法为：首先，根据事件分类模型预测的文本所属事件类型和事件类型对应的事件模板，构造所有论元的问题；

4.如权利要求3所述的一种基于对话状态追踪技术的事件抽取方法，其特征在于：所述标签对齐机制为：依次预测论元，将论元预测结果中置信度高的添加到问题中，为抽取下一个论元提供附加信息，对于置信度不高的论元角色，将事件模板中所有的论元识别完一轮后，重新识别置信度不高的论元，这样能利用上一轮中识别的论元信息，如此迭代，直到识别完所有论元，两轮没有新增的置信度高的论元，则同时识别剩下所有的论元。