CN111881688B

CN111881688B - 基于屏蔽泛化机制的事件因果关系识别方法、系统、装置

Info

Publication number: CN111881688B
Application number: CN202010801363.0A
Authority: CN
Inventors: 赵军; 刘康; 陈玉博; 刘健
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2021-09-14
Anticipated expiration: 2040-08-11
Also published as: CN111881688A

Abstract

本发明属于自然语言处理技术领域，具体涉及一种基于屏蔽泛化机制的事件因果关系识别方法、系统、装置，旨在解决模型训练困难以及事件因果关系识别鲁棒性较差的问题。本发明方法包括：获取待识别事件因果关系的文本，作为输入文本；通过BERT模型提取输入文本与因果事件的实体信息对应的三元组集合融合后的特征，作为第一特征；通过BERT模型提取输入文本中未屏蔽信息的特征，作为第二特征；将第一特征、第二特征进行融合，将融合后的特征作为第三特征；基于第三特征，通过预构建的分类模型获取输入文本中事件因果关系的识别结果。本发明简化了模型训练的难度，并提高了事件因果关系识别的鲁棒性。

Description

基于屏蔽泛化机制的事件因果关系识别方法、系统、装置

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于屏蔽泛化机制的事件因果关系识别方法、系统、装置。

背景技术

互联网的发展让信息的获取变得容易。人们无时无刻都会接触来自各个领域的海量信息。如何从这些海量信息中快速发现有用的信息是目前亟需解决的问题之一。

事件因果关系识别旨在从无结构化文本中发现事件因果关系，它是信息抽取的一个重要子任务。例如，对于文本“地震引发强烈的海啸”，一个事件因果关系识别模型应该从中推断出：“地震”和“海啸”这两个事件之间具有因果关系。事件因果关系识别对于事件预测、灾害预警、因果分析等方面具有重要意义。

尽管事件因果关系识别非常重要，现有的研究相对较少。其中一个主要难点在于现有的标注数据集普遍较小，很难从中学习一个很好的统计模型。另外，现有的方法在事件因果关系识别过程中往往只利用文本进行特征提取，它们忽视了对于事件因果关系识别非常重要的背景知识。基于此，本发明提出了一种基于屏蔽泛化机制的事件因果关系识别方法。

发明内容

为了解决现有技术中的上述问题，即为了解决因标注数据集较少，导致事件因果关系识别模型训练较为困难；以及忽视背景知识，导致事件因果关系识别模型的鲁棒性较差的问题，本发明提出了一种基于屏蔽泛化机制的事件因果关系识别方法，该方法包括：

步骤S10，获取待识别事件因果关系的文本，作为输入文本；

步骤S20，提取所述输入文本中因果事件的实体信息；通过外部知识库获取各实体信息对应的三元组集合，并通过BERT模型提取所述输入文本与所述三元组集合融合后的特征，作为第一特征；

步骤S30，利用预设的屏蔽机制对所述输入文本中的因果事件的实体信息进行屏蔽，并通过BERT模型提取所述输入文本中未屏蔽信息的特征，作为第二特征；

步骤S40，通过注意力网络将所述第一特征、所述第二特征进行融合，将融合后的特征作为第三特征；

步骤S50，基于所述第三特征，通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果；所述分类模型基于深度神经网络构建；

所述外部知识库为存储实体对应的三元组集合的数据库。

在一些优选的实施方式中，步骤S20中“通过BERT模型提取所述输入文本与所述三元组集合融合后的特征”，其方法为：通过BERT模型分别提取所述输入文本与原因事件实体信息对应的三元组集合融合后的特征、所述输入文本与结果事件实体信息对应的三元组集合融合后的特征；所述因果事件的实体信息包括原因事件实体信息、结果事件实体信息。

在一些优选的实施方式中，步骤S30中“通过BERT模型提取所述输入文本中未屏蔽信息的特征”，其方法为：通过BERT模型分别提取输入文本中不包含原因事件实体信息的特征、输入文本中不包含结果事件实体信息的特征。

在一些优选的实施方式中，步骤S40中“通过注意力网络将所述第一特征、所述第二特征进行融合，将融合后的特征作为第三特征”，其方法为：

步骤S41，将所述输入文本与原因事件实体信息对应的三元组集合融合后的特征、所述输入文本与结果事件实体信息对应的三元组集合融合后的特征进行拼接，作为第一联合特征；

步骤S42，将输入文本中不包含原因事件实体信息的特征、输入文本中不包含结果事件实体信息的特征进行拼接，得到第二联合特征；

步骤S43，将所述第一联合特征、所述第二联合特征进行融合，得到第三特征。

在一些优选的实施方式中，“将所述第一联合特征、所述第二联合特征进行融合，得到第三特征”，其方法为：

T＝g·C+(1-g)·D

g＝w*[C+D]+b

其中，T表示第三特征，C表示第一联合特征，D表示第二联合特征，w表示注意力网络的权重向量，b表示注意力网络的权重偏置项。

在一些优选的实施方式中，步骤S50中“通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果”，其方法为：基于所述第三特征，通过预构建的分类模型获取所述输入文本中因果事件的实体信息的概率权重，若该概率权重大于设定的阈值，则认为原因事件实体信息、结果事件实体信息表达了因果关系。

在一些优选的实施方式中，“通过预构建的分类模型获取所述输入文本中因果事件信息的概率权重”，其方法为：

p＝w_o*T+b_o

其中，w_o、b_o分别表示分类模型的权重向量、权重偏置项，T表示第三特征，p表示输入文本中因果事件的实体信息的概率权重。

本发明的第二方面，提出了一种基于屏蔽泛化机制的事件因果关系识别系统，该系统包括：文本获取模块、知识增强模块、屏蔽泛化模块、特征融合模块、分类输出模块；

所述文本获取模块，配置为获取待识别事件因果关系的文本，作为输入文本；

所述知识增强模块，配置为提取所述输入文本中因果事件的实体信息；通过外部知识库获取各实体信息对应的三元组集合，并通过BERT模型提取所述输入文本与所述三元组集合融合后的特征，作为第一特征；

所述屏蔽泛化模块，配置为利用预设的屏蔽机制对所述输入文本中的因果事件的实体信息进行屏蔽，并通过BERT模型提取所述输入文本中未屏蔽信息的特征，作为第二特征；

所述特征融合模块，配置为通过注意力网络将所述第一特征、所述第二特征进行融合，将融合后的特征作为第三特征；

所述分类输出模块，配置为基于所述第三特征，通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果；所述分类模型基于深度神经网络构建；

所述外部知识库为存储实体对应的三元组集合的数据库。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序应用由处理器加载并执行以实现上述的基于屏蔽泛化机制的事件因果关系识别方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于屏蔽泛化机制的事件因果关系识别方法。

本发明的有益效果：

本发明简化了模型训练的难度，并提高了事件因果关系识别的鲁棒性。本发明一方面通过外部知识库对输入文本进行知识扩充，获得因果事件的知识增强特征，增强因果事件的表示，另一方面利用屏蔽机制对文本中的事件信息进行屏蔽，以获得与因果事件信息无关的特征，学习更具泛化性的事件无关表示。将获取的知识增强特征、事件无关特征进行融合，可以极大提升因果关系识别的鲁棒性，并降低了因标注数据较少导致识别模型的训练难度。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的基于屏蔽泛化机制的事件因果关系识别方法的流程示意图；

图2为本发明一种实施例的基于屏蔽泛化机制的事件因果关系识别系统的框架示意图；

图3是本发明一种实施例的基于屏蔽泛化机制的事件因果关系识别方法的简略结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明第一实施例的一种基于屏蔽泛化机制的事件因果关系识别方法，如图1所示，该方法包括以下步骤：

步骤S10，获取待识别事件因果关系的文本，作为输入文本；

所述外部知识库为存储实体对应的三元组集合的数据库。

为了更清晰地对本发明基于屏蔽泛化机制的事件因果关系识别方法进行说明，下面对本发明方法一种实施例中各步骤进行展开详述。

步骤S10，获取待识别事件因果关系的文本，作为输入文本；

在本实施例中，获取待处理的文本，即待识别事件因果关系的文本，作为输入文本。

在本实施例中，根据输入文本的内容，从外部知识库中提取和文本中表述的因果事件相关联的知识，把提取到的知识与输入文本内容进行融合，以学习知识增强的特征表示，如图3所示，图3中的其余部分在下文中描述。具体如下：

假设待识别事件因果关系的文本为“地震引发强烈的海啸”，提取该文本中因果事件的实体信息(包括原因事件的实体信息，结果事件的实体信息)，即提取到的原因事件的实体信息为“地震”、结果事件的实体信息为“海啸”。

基于提取到的原因事件的实体信息、结果事件的实体信息，通过外部知识库获取各实体信息对应的三元组集合。例如：关于“地震”事件提取的一条三元组为“地震->自然灾害”，这种背景知识对于事件因果关系识别非常重要，但它们可能并没有被包含在待识别的文本中。

其中，外部知识库为存储实体对应的三元组集合的数据库。本发明中外部知识库优选采用ConceptNet知识库。

在获取各实体信息对应的三元组集合后，将他们嵌入在输入文本中，以学习事件的增强表示。本发明加入两个特殊的符号<S></S>，以区分输入文本中的原文本内容与三元组集合对应的知识信息，比如把“地震->自然灾害”这一知识信息嵌入融合到输入文本后，得到的结果为：

“地震<S>地震->自然灾害<S>引发强烈的海啸”。

利用融合后的文本，可以学习知识的事件特征表示，它们更具表征力。本发明通过BERT模型提取融合后的文本的特征，作为第一特征。其中第一特征包括原因事件知识增强特征、结果事件知识增强特征，原因事件知识增强特征为输入文本与原因事件实体信息对应的三元组集合融合后的特征，结果事件知识增强特征为输入文本与结果事件实体信息对应的三元组集合融合后的特征，本实施例中将关于“地震”和“海啸”学习到的知识增强特征表示记为F_地震和F_海啸。

在本实施例中，利用屏蔽机制对输入文本中的因果事件的实体信息进行屏蔽，以学习与因果事件无关的特征表示，如图3所示，这种特征更具泛化性。具体如下：

对输入文本“地震引发强烈的海啸”，把因果事件表示词“地震”和“海啸”进行显示地屏蔽，把它们替换成一个特征符号[MASK]。由此可以得到：

“[MASK]引发强烈的[MASK]”

采用这种方法的目的是学习与事件无关的特征表示，以增强模型的泛化性。例如，以上特征可以用来识别“讲话”和“争议”的事件因果关系：“讲话引发强烈的争议”，通过BERT模型提取屏蔽因果事件表示词后的特征，作为第二特征，第二特征包括原因事件无关特征、结果事件无关特征，原因事件无关特征为提取输入文本中不包含原因事件实体信息的特征；结果事件无关特征为提取输入文本中不包含结果事件实体信息的特征。本实施例中将学习到的关于“地震”和“海啸”的事件无关的特征表示记为H_地震和H_海啸，即分别提取“[MASK]引发强烈的海啸”，“地震引发强烈的[MASK]”的文本的特征。

另外本发明中的屏蔽机制即将输入文本中的因果事件的实体信息进行屏蔽，

在本实施例中，利用注意力机制建模第一特征和第二特征的权重，以进行以上两种特征的融合。具体如下：

步骤S41，将原因事件知识增强特征、结果事件知识增强特征进行拼接，作为第一联合特征；

步骤S42，将原因事件无关特征、结果事件无关特征进行拼接，作为第二联合特征；

步骤S43，将第一联合特征、第二联合特征进行融合，得到第三特征。

例如上述文中提出的特征F_地震、F_海啸以及H_地震、H_海啸，将“地震”、“海啸”事件知识增强特征，即第一联合特征记为C，

代表向量拼接操作。将“地震”、“海啸”事件无关特征的联合特征，即第二联合特征记为D，

利用注意力机制建模C和D，以进行特征融合。具体如下：

利用注意力网络，计算一个特征权重g，如式(1)所示：

g＝w*[C+D]+b (1)

其中，C表示第一联合特征，D表示第二联合特征，w表示注意力网络的权重向量，b表示注意力网络的权重偏置项。

基于特征权重，将第一联合特征、第二联合特征进行融合，得到第三特征，如式(2)所示：

T＝g·C+(1-g)·D (2)

其中，T表示第三特征，·代表标量与向量相乘操作。

步骤S50，基于所述第三特征，通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果；所述分类模型基于深度神经网络构建。

在本实施例中，基于深度神经网络构建分类模型，以融合后的特征作为输入，计算一个概率权重，以表征所关注的事件是否具有因果关系，并进行最终的事件因果关系的识别。具体如下：

基于第三特征，通过预构建的分类模型获取输入文本中因果事件的实体信息的概率权重，若该概率权重大于设定的阈值，则认为原因事件实体信息、结果事件实体信息表达了因果关系。

其中，通过预构建的分类模型获取输入文本中因果事件信息的概率权重，如式(3)所示：

p＝w_o*T+b_o (3)

其中，w_o、b_o分别表示分类模型的权重向量、权重偏置项，p表示输入文本中因果事件的实体信息的概率权重。

在本发明中，优选设定的阈值为0.5，即如果p的值大于0.5，认为两个事件表达因果关系；否则，不表达因果关系。分类模型在训练时，采用随机梯度下降的方法进行模型参数学习。

另外，为验证本发明的有效性，使用公开数据集EventStoryLine对本发明方法进行评测。该数据集共包含258篇标注文档，分为12个主题。总有5334个事件，形成7805个事件对(只考虑句内事件对)，其中1770个事件对之间具有因果关系。使用10折交叉验证评测方法的性能。本发明方法与现有方法的对比结果如表1所示：

表1

表1中PRE、REC表示、F1表示各方法(METHODS)在公开数据集EventStoryLine的精确率、召回率和F1得分指标，其中，OP[Caselli and Vossen,2017]为基于二项匹配的事件因果关系识别方法，LSTM[Cheng and Miyao,2017]为基于LSTM网络的事件因果关系识别方法，Seq[Cheng and Miyao,2017]为基于序列标注的事件因果关系识别方法，LR+[Gao etal,2019]为基于整数线性规划以及篇章信息的事件因果关系识别方法，LIP[Gao et al,2019]为基于整数线性规划的事件因果关系识别方法，BERT为基于BERT网络的事件因果关系识别方法，M_KG[Ours]表示仅使用本发明知识增强特征表示的实验结果，M_MMR[Ours]表示仅使用本发明事件无关的特征表示的实验结果，M_FULL[Ours]表示本发明方法的实验结果，从实验结果可以看到，基于屏蔽泛化机制的事件因果关系识别方法在该任务上较已有方法具有显著提升。

本发明第二实施例的一种基于屏蔽泛化机制的事件因果关系识别系统，如图2所示，包括：文本获取模块100、知识增强模块200、屏蔽泛化模块300、特征融合模块400、分类输出模块500；

所述文本获取模块100，配置为获取待识别事件因果关系的文本，作为输入文本；

所述知识增强模块200，配置为提取所述输入文本中因果事件的实体信息；通过外部知识库获取各实体信息对应的三元组集合，并通过BERT模型提取所述输入文本与所述三元组集合融合后的特征，作为第一特征；

所述屏蔽泛化模块300，配置为利用预设的屏蔽机制对所述输入文本中的因果事件的实体信息进行屏蔽，并通过BERT模型提取所述输入文本中未屏蔽信息的特征，作为第二特征；

所述特征融合模块400，配置为通过注意力网络将所述第一特征、所述第二特征进行融合，将融合后的特征作为第三特征；

所述分类输出模块500，配置为基于所述第三特征，通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果；所述分类模型基于深度神经网络构建；

所述外部知识库为存储实体对应的三元组集合的数据库。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于屏蔽泛化机制的事件因果关系识别系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的基于屏蔽泛化机制的事件因果关系识别方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于屏蔽泛化机制的事件因果关系识别方法。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于屏蔽泛化机制的事件因果关系识别方法，其特征在于，该方法包括：

步骤S10，获取待识别事件因果关系的文本，作为输入文本；

步骤S20，提取所述输入文本中因果事件的实体信息；通过外部知识库获取各实体信息对应的三元组集合，并通过BERT模型提取所述输入文本与所述三元组集合融合后的特征，作为第一特征；所述因果事件的实体信息包括原因事件实体信息、结果事件实体信息；

所述外部知识库为存储实体信息对应的三元组集合的数据库；

其中，“通过BERT模型提取所述输入文本与所述三元组集合融合后的特征”，其方法为：通过BERT模型分别提取所述输入文本与原因事件实体信息对应的三元组集合融合后的特征、所述输入文本与结果事件实体信息对应的三元组集合融合后的特征；

“通过BERT模型提取所述输入文本中未屏蔽信息的特征”，其方法为：通过BERT模型分别提取输入文本中不包含原因事件实体信息的特征、输入文本中不包含结果事件实体信息的特征；

“通过注意力网络将所述第一特征、所述第二特征进行融合，将融合后的特征作为第三特征”，其方法为：

将所述输入文本与原因事件实体信息对应的三元组集合融合后的特征、所述输入文本与结果事件实体信息对应的三元组集合融合后的特征进行拼接，作为第一联合特征；

将输入文本中不包含原因事件实体信息的特征、输入文本中不包含结果事件实体信息的特征进行拼接，得到第二联合特征；

将所述第一联合特征、所述第二联合特征进行融合，得到第三特征；

“通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果”，其方法为：基于所述第三特征，通过预构建的分类模型获取所述输入文本中因果事件的实体信息的概率权重，若该概率权重大于设定的阈值，则认为原因事件实体信息、结果事件实体信息表达了因果关系。

2.根据权利要求1所述的基于屏蔽泛化机制的事件因果关系识别方法，其特征在于，“将所述第一联合特征、所述第二联合特征进行融合，得到第三特征”，其方法为：

T＝g·C+(1-g)·D

g＝w*[C+D]+b

其中，T表示第三特征，C表示第一联合特征，D表示第二联合特征，w表示注意力网络的权重向量，b表示注意力网络的权重偏置项，·代表标量与向量相乘操作。

3.根据权利要求1所述的基于屏蔽泛化机制的事件因果关系识别方法，其特征在于，“通过预构建的分类模型获取所述输入文本中因果事件信息的概率权重”，其方法为；

p＝w_o*T+b_o

4.一种基于屏蔽泛化机制的事件因果关系识别系统，其特征在于，该系统包括：文本获取模块、知识增强模块、屏蔽泛化模块、特征融合模块、分类输出模块；

所述知识增强模块，配置为提取所述输入文本中因果事件的实体信息；通过外部知识库获取各实体信息对应的三元组集合，并通过BERT模型提取所述输入文本与所述三元组集合融合后的特征，作为第一特征；所述因果事件的实体信息包括原因事件实体信息、结果事件实体信息；

所述外部知识库为存储实体对应的三元组集合的数据库；

5.一种存储装置，其中存储有多条程序，其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1-3任一项所述的基于屏蔽泛化机制的事件因果关系识别方法。

6.一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1-3任一项所述的基于屏蔽泛化机制的事件因果关系识别方法。