CN113901170A

CN113901170A - 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备

Info

Publication number: CN113901170A
Application number: CN202111486633.4A
Authority: CN
Inventors: 刘禹汐; 侯立旺; 姜青涛; 崔利娜
Original assignee: Beijing Daoda Tianji Technology Co ltd
Current assignee: Beijing Daoda Tianji Technology Co ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-01-07

Abstract

本发明涉及一种结合Bert模型和模板匹配的事件抽取方法及系统、电子设备，该方法包括步骤：基于Bert模型对待处理文本进行事件检测，识别出事件中的触发词及其类型；根据触发词的类型确定出事件类型，根据事件类型调取对应的模式匹配模板，并基于调取出的模式匹配模板匹配抽取出事件中的论元信息。本发明通过Bert模型进行事件检测和触发词分类，充分发挥了深度学习无需特征设计和可移植性强的特点，避免了模板匹配方式只能在限定域使用的缺点；然后，在得到触发词抽取结果后，根据触发词类型和领域，用提前设计好的对应领域的模板进行论元抽取，充分发挥出模板匹配在限定域准确率高的特点，同时又避免了联合抽取模型方案设计困难的缺点。

Description

结合Bert模型和模板匹配的事件抽取方法及系统、电子设备

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种结合Bert模型和模板匹配的事件抽取方法及系统。

背景技术

事件抽取是信息抽取领域一个重要的研究方向，也是当前自然语言处理的研究热点和难点问题。事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来，对人们认知世界有着深远的意义，在自动文摘、自动问答、信息检索、知识图谱等领域有着广泛的应用。

事件抽取包括两个子任务：事件检测与论元抽取，而具体到评测过程中，每一个子任务中又包含两个评测目标，事件检测包括触发词检测和触发词分类，论元抽取包括论元检测与论元分类。即事件抽取首先得基于触发词识别出文本中的事件和事件类型，其次要从文本中识别出事件元素并判断元素角色。所以事件抽取依赖于命名实体识别、关系抽取等底层自然语言处理任务的结果，但其并不是事件抽取任务本身所关注的。事件抽取主要有三种方法：模式匹配的方法、机器学习的方法、深度学习的方法。

早期的事件抽取任务采用基于模式匹配的方法，模式匹配的方法是指对于某类事件的识别和抽取是在一些模式的指导下进行的，采用各种模式匹配法将待抽取的句子和已经抽出的模板匹配。框架表示事件抽取任务是参照公开测评事件抽取任务，预先定义结构化的事件表示框架来进行的事件抽取任务，也称为限定域事件抽取。模式匹配的方法对于限定域准确率较高，但往往依赖于具体领域，可移植性差。

随着机器学习的兴起，利用最大熵、隐马尔可夫、支持向量机等分类器采用特征工程的方法进行事件抽取受到越来越多的关注，机器学习的方法是把事件抽取任务看作分类问题，把主要的精力放在分类器的构建和特征的发现、选择上。中文事件抽取还存在中文语言特性方面的问题需要解决。机器学习的方法较为客观，受领域限制较小，具有良好的可移植性，其缺点主要在于需要复杂的词法、句法特征设计，以及能够良好契合特征设计的模型构建。

深度学习为事件抽取研究指出了一条新的方向，捕获了更为深层次的语义特征，分为流水线的方式和联合抽取的方式进行事件抽取。流水线方式的思路是将事件抽取任务划分成两阶段任务，先进行触发词抽取，再利用抽出的触发词对事件论元进行槽填充。联合抽取的方式是以文本作为模型的输入，考虑了事件触发词与事件论元之间的依赖性，直接输出抽取出的触发词和对应的论元。深度学习方法相较于模式匹配方法以及机器学习方法，大大减少了特征设计的需求，且具有更高的可移植性。但深度学习方法也有其缺点，流水线的方式中，触发词抽取结果的错误会在论元抽取模型中传播，而联合抽取模型的缺点是方案设计困难，无法进行局部的优化处理。

发明内容

本发明的目的在于提供一种结合Bert模型和模板匹配的事件抽取方法及系统，以改善目前常用的事件抽取方法所存在的缺陷。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一方面，本发明实施例提供了一种结合Bert模型和模板匹配的事件抽取方法，包括以下步骤：

基于Bert模型对待处理文本进行事件检测，识别出事件中的触发词及其类型；

根据触发词的类型确定出事件类型，根据事件类型调取对应的模式匹配模板，并基于调取出的模式匹配模板匹配抽取出事件中的论元信息。

另一方面，本发明实施例同时提供了一种结合Bert模型和模板匹配的事件抽取系统，包括：

事件检测模块，用于基于Bert模型对待处理文本进行事件检测，识别出事件中的触发词及其类型；

论元抽取模块，用于根据触发词的类型确定出事件类型，根据事件类型调取对应的模式匹配模板，并基于调取出的模式匹配模板匹配抽取出事件中的论元信息。

再一方面，本发明实施例同时提供了一种电子设备，包括：存储器，存储程序指令；处理器，与所述存储器相连接，执行存储器中的程序指令，实现本发明实施例中所述方法中的步骤。

与现有技术相比，本发明在深入分析现有事件抽取方法优缺点的基础上，独辟蹊径，提出了一种结合Bert模型和模板匹配的事件抽取方法。首先，通过Bert模型进行事件检测和触发词分类，充分发挥了深度学习无需特征设计和可移植性强的特点，避免了模板匹配方式只能在限定域使用的缺点；然后，在得到触发词抽取结果后，根据触发词类型和领域，用提前设计好的对应领域的模板进行论元抽取，充分发挥出模板匹配在限定域准确率高的特点，同时又避免了联合抽取模型方案设计困难的缺点。简言之，本发明通过将Bert模型和模板匹配两种方式完美结合，在保障抽取结果准确性的基础上，增强了可移植性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例中所述事件抽取方法的流程图。

图2为本发明实施例中事件检测Bert-CRF模型的结构图。

图3为本发明实施例中的军事演习模板示意图。

图4为本发明实施例中的军事演习信息抽取结果示意图。

图5为本发明实施例中所述事件抽取系统的结构框图。

图6为本发明实施例中所述电子设备的结构框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本实施例提供的一种结合Bert模型和模板匹配的事件抽取方法，包括以下步骤：

S1，基于Bert模型对待处理文本进行事件检测，识别出事件中的触发词及其类型。

事件类型与触发词的类型对应关系是预先定义的，比如演习事件类型，对应的触发词有三个，分别是演习、演练、演训，即这三个词为演习事件类触发词，当用Bert模型对文本句子进行序列标注实体识别时，识别到了演习、演练、演训三个词中的任何一个，即可判断出该文本中事件类型为演习事件。

S2，根据触发词的类型确定出事件类型，根据事件类型调取对应的模式匹配模板，并基于调取出的模式匹配模板匹配抽取出事件中的论元信息。

下面将更具体地阐述各个步骤。

Bert模型使用了transformer的self-attention机制实现双向编码，并且构造了更加通用的输入层和输出层，只修改模型下游任务，就可以应用在多种任务中，这里采用了CRF层，将中文事件检测看作序列标注任务。事件检测采用的Bert-CRF模型整体结构如附图2所示。

Bert的输入表示是三种Embedding的直接相加，其中，Token Embeddings表示为词向量，对中文语句处理时，可以是针对字的向量，也可以是针对词的向量，本发明使用的是词向量，Position Embeddings 表示位置信息，由于基于自注意力机制的模型不能感知每个字之间的位置关系，因此需要使用Position Embeddings给每个字标记序列顺序信息，Segment Embeddings是用于针对多个句子间的分割向量，本发明中只在每个句子的开头和结尾加上[CLS]与[SEP]。

Bert是采用基于微调的多层双向 Transformer编码器，可以让一句话中的每个字无论方向前后或距离远近，直接和句子中的任何一个字进行编码，每个字都能融合字左右两边的信息。Encoder（Transformer由encoder编码器和decoder解码器组成，Bert模型仅采用了Transformer中的encoder编码器）的每个模块包括多头自注意力机制（multi-headself-attention）和全连接前馈网络，multi-head attention 意味着对多个 attention计算，每一个attention关注句子中的不同信息，再将所有的attention信息拼接在一起，如下式所示：

而self-attention是对Q、K、V三个向量计算，将Encoder中输入的每个字向量在整个输入序列中进行点积与加权求和得到在此位置的输出结果，如下式所示：

由于self-attention的注意力只放在每个词的自身，为了训练双向 Transformer模型，需要随机掩盖一定比例的词语，让模型用正确的词预测被掩盖的词，在模型预训练的过程中，与CBOW（Continuous Bag-of-Words，连续词袋模型）将每一个词都预测一遍不同，而是随机选择数据集中15%的原始词语，这样就可以融合到上下文相关的信息。在掩盖的词中有80%会直接用MASK代替，10%用另外一个词代替，剩下10%不变还使用原词。

接着将Bert层的输出输入到CRF层，每个词的所有标签的各自得分，即发射概率矩阵以及转移概率矩阵，作为原始CRF模型的参数，最终获得标签序列的概率。

设CRF输入的序列为X，预测的标签序列为y，则CRF的预测序列y的得分S(X,y)计算如下：

式中，

为第

个token的标签得分，

为第

个token的标签转移到第

+1个token的标签的转移得分。

每一个得分对应一个完整的路径。利用Softmax函数，为每一个正确的序列y定义一个概率值，定义所有预测序列的集合为Y，最大化似然概率p(y|X)：

利用对数似然，将损失函数定义为−log(p(y|X))：

在训练时，采用最小化损失函数来训练模型的参数，在预测时，应用Viterbi算法来获取得分最高的实体标签序列。本发明将触发词抽取与检测看作词级别的标注任务，采用BIO序列标注规则，其中，“B”表示为事件触发词的起始， “I”表示为事件触发词的中间，“O”表示为非事件触发词。模型的输入包括词向量、位置向量和句子向量，输出为每个词的标注结果。

上述步骤S1中，Bert模型通过前面序列标注实体识别方式，识别出事件中的触发词。Bert模型通过BIO序列标注规则对待处理文本句子中的词进行标注，输出得到各个词的标注结果，基于标注结果即可识别出事件中的触发词及其类型。例如，图4所示的新闻内容中，词语“演习”的标注结果是演习事件类。

通过第一步将触发词标注出来后，即检测出文本中的事件类型，再根据事件类型选择对应的提前设计好的模式匹配模板，进行对应领域的高准确率的论元抽取，即可实现对限定域事件的事件发生时间、事件发生地点、事件结果等论元信息的抽取。

以演习类型的事件为例，对于已经被检测到触发词为演习类型的事件，即可调用设计的模板进行信息抽取。对已识别为军事演习内容的文本进行预处理的步骤是一致的，都需要进行分词、分句、命名实体识别，然后用正则表达式的方式对文本进行模式匹配和信息抽取。如附图4所示。

模式匹配模板需要提前设计。建立相关事件的抽取模板（即模式匹配模板），即一组抽取规则，使用这些规则对测试语料进行模板匹配与信息抽取。模板的方法需要高质量的种子模板，需要为每个类型的事件定义一定数量的种子模板。

模板设计可以由领域专家一定程度参与进行人工设计，把限定领域中对于事件最有价值的关键点设计到模板元素中。例如军事情报领域，事件类型很多，这里仅以军事领域演习相关的情报新闻进行一个模板设计为例，专家对军事演习问题主要抽取7个关键要素：演习代号、演习地点、演习时间、演习科目、参演国家、参演武器和参演部队，如附图3所示。

针对于待处理文本只有一个的情况，抽取出事件中的论元信息即可。当有多个文本，且多个文本描述同一个事件（即通过Bert模型识别出触发词的类型一致）时，可以对事件抽取的结果进行比对，当时间、空间和事件主体一致时，可以根据时空的一致性原则对同一事件进行合并，这样对同一事件抽取到的信息会更加丰富完整。

上述方法中，通过Bert模型进行事件检测和触发词分类，充分发挥了深度学习无需特征设计和可移植性强的特点，避免了模板匹配方式只能在限定域使用的缺点；确定出事件类型后，又基于模板匹配的方式进行论元抽取，充分发挥出模板匹配在限定域准确率高的特点。深度学习与模板匹配的两种方式相结合，扬长补短。

如图5所示，基于相同的发明构思，本实施例中同时提供了一种结合Bert模型和模板匹配的事件抽取系统。该系统包括事件检测模块、论元抽取模块和事件合并模块，其中，事件检测模块和论元抽取模块为必要部件，事件合并模块为可选部件，因此图5中用虚线框表示。

其中，事件检测模块用于基于Bert模型对待处理文本进行事件检测，识别出事件中的触发词及其类型。例如，Bert模型通过BIO序列标注规则对待处理文本句子中的词进行标注，输出得到词的标注结果，基于标注结果识别出事件中的触发词及其类型。

论元抽取模块用于根据触发词的类型确定出事件类型，根据事件类型调取对应的模式匹配模板，并基于调取出的模式匹配模板匹配抽取出事件中的论元信息。

更具体地，论元抽取模块包括模板设计子模块和信息抽取子模块。其中，模板设计子模块用于针对于不同事件类型，设计出对应的模式匹配模板；信息抽取子模块用于根据触发词的类型确定出事件类型，根据事件类型调取对应的模式匹配模板，并基于调取出的模式匹配模板匹配抽取出事件中的论元信息。

信息抽取子模块具体根据触发词的类型确定出事件类型，根据事件类型调取对应的模式匹配模板，对待处理文本进行分词、分句、命名实体识别，然后用正则表达式的方式对待处理文本进行模式匹配和信息抽取，得到事件中的论元信息。

事件合并模块的主要作用是当所述待处理文本为多个，且确定出为同一个事件时，将从每一个待处理文本中抽取出的论元信息进行比对，当时间、空间和事件主体一致时，根据时空的一致性原则对同一事件进行合并。因此，当待处理文本只有一个时，或者文本有多个但分别针对不同的事件时，不需要事件合并模块执行处理。

如图6所示，本实施例同时提供了一种电子设备，该电子设备可以包括处理器51和存储器52，其中存储器52耦合至处理器51。值得注意的是，该图是示例性的，还可以使用其他类型的结构来补充或替代该结构，实现数据提取、报告生成、通信或其他功能。

如图6所示，该电子设备还可以包括：输入单元53、显示单元54和电源55。值得注意的是，该电子设备也并不是必须要包括图6中显示的所有部件。此外，电子设备还可以包括图6中没有示出的部件，可以参考现有技术。

处理器51有时也称控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该处理器51接收输入并控制电子设备的各个部件的操作。

其中，存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种，可存储上述处理器51的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以执行存储器52存储的程序，以实现信息存储或处理等。在一个实施例中，存储器52中还包括缓冲存储器，即缓冲器，以存储中间信息。

输入单元53例如用于向处理器51提供待标注的文本数据。显示单元54用于显示处理过程中的各种结果，例如输入的文本数据、转换后的多维向量、计算出的距离值等，该显示单元例如可以为LCD显示器，但本发明并不限于此。电源55用于为电子设备提供电力。

本发明实施例还提供一种计算机可读指令，其中当在电子设备中执行所述指令时，所述程序使得电子设备执行本发明方法所包含的操作步骤。

本发明实施例还提供一种存储有计算机可读指令的存储介质，其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种结合Bert模型和模板匹配的事件抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的结合Bert模型和模板匹配的事件抽取方法，其特征在于，所述Bert模型通过BIO序列标注规则对待处理文本句子中的词进行标注，输出得到词的标注结果，基于标注结果识别出事件中的触发词及其类型。

3.根据权利要求1所述的结合Bert模型和模板匹配的事件抽取方法，其特征在于，所述基于调取出的模式匹配模板匹配抽取出事件中的论元信息的步骤包括：对待处理文本进行分词、分句、命名实体识别，然后用正则表达式的方式对待处理文本进行模式匹配和信息抽取，得到事件中的论元信息。

4.根据权利要求1所述的结合Bert模型和模板匹配的事件抽取方法，其特征在于，还包括步骤：当所述待处理文本为多个，且确定出为同一个事件时，将从每一个待处理文本中抽取出的论元信息进行比对，当时间、空间和事件主体一致时，根据时空的一致性原则对同一事件进行合并。

5.一种结合Bert模型和模板匹配的事件抽取系统，其特征在于，包括：

6.根据权利要求5所述的结合Bert模型和模板匹配的事件抽取系统，其特征在于，所述Bert模型通过BIO序列标注规则对待处理文本句子中的词进行标注，输出得到词的标注结果，基于标注结果识别出事件中的触发词及其类型。

7.根据权利要求5所述的结合Bert模型和模板匹配的事件抽取系统，其特征在于，所述论元抽取模块包括：

模板设计子模块，用于针对于不同事件类型，设计出对应的模式匹配模板；

信息抽取子模块，用于根据触发词的类型确定出事件类型，根据事件类型调取对应的模式匹配模板，对待处理文本进行分词、分句、命名实体识别，然后用正则表达式的方式对待处理文本进行模式匹配和信息抽取，得到事件中的论元信息。

8.根据权利要求5所述的结合Bert模型和模板匹配的事件抽取系统，其特征在于，还包括事件合并模块：用于当所述待处理文本为多个，且确定出为同一个事件时，将从每一个待处理文本中抽取出的论元信息进行比对，当时间、空间和事件主体一致时，根据时空的一致性原则对同一事件进行合并。

9.一种电子设备，其特征在于，所述的设备包括：

存储器，存储程序指令；

处理器，与所述存储器相连接，执行存储器中的程序指令，实现权利要求1-4任一所述方法中的步骤。