CN111797241A

CN111797241A - 基于强化学习的事件论元抽取方法及装置

Info

Publication number: CN111797241A
Application number: CN202010552821.1A
Authority: CN
Inventors: 张世琨; 叶蔚; 习翔宇; 张君福; 胡文蕙; 刘学洋
Original assignee: Beijing Peking University Software Engineering Co ltd
Current assignee: Beijing Peking University Software Engineering Co ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-10-20
Anticipated expiration: 2040-06-17
Also published as: CN111797241B

Abstract

本发明涉及一种基于强化学习的事件论元抽取方法及装置，包括构建事件检测模型，构建论元检测模型，构建实体选择模型，将实体选择模型选择的待检测实体输入到论元检测模型进行检测，采集预测结果的损失，根据预测结果的损失更新论元检测模型的参数；根据待检测实体更新实体选择模型；通过更新后的论元检测模型和更新后的实体选择模型对句子中的实体进行检测，并将检测结果引入更新后的论元检测模型和更新后的实体选择模型进行更新，循环直至遍历所有实体。本发明能够在检测当前论元的时候，引入已知论元的信息，通过引入已知论元信息和强化学习技术，能够有效利用论元间交互关系，提高论元检测效果。

Description

基于强化学习的事件论元抽取方法及装置

技术领域

本发明属于自然语言技术领域，具体涉及一种基于强化学习的事件论元抽取方法及装置。

背景技术

信息抽取是通过自然语言处理等方法将人类可读的非结构化文本转化为机器可读的结构化文本，特别是从文本中识别和抽取出用户感兴趣的实体、事件和实体关系等，并将结果以结构化的形式存储，例如关系数据库或者XML，为数据分析、查询等应用提供数据。其中事件抽取是一个重要且难度较高的任务。事件抽取是把含有事件信息的非结构化文本中的事件信息以结构化的形式呈现出来，包括识别事件触发词和事件相关论元。事件抽取在自动文摘、自动问答、信息检索、知识图谱等领域有着广泛的应用。

近年来，事件抽取受到了各国学者的广泛关注，并且产生了大量优秀的研究成果和应用。按照事件抽取技术来区分，可以分为两大类:

1、传统机器学习方式；在2014年及以前，事件抽取以传统机器学习方法为主，主要包括基于特征的方式和基于结构的方式。传统机器学习方式通常依赖于手工设计的特征和语言学知识，通常需要使用外部工具来生成特征，例如词性标注、实体标注、句法依存分析等特征；使用外部工具程序复杂，实现困难；

2、深度学习方式；2015年及以后，深度学习被逐渐引入到事件抽取中，也取得了超越传统机器学习方法的效果。基于深度学习的方式通常采用深度学习算法例如CNN、RNN、DMCNN、JRNN、DBRNN以及各种Attention机制等来对特征进行自动抽取，并进行分类。

但是，现有的事件抽取工作通常将论元抽取建模为针对实体和相关事件的论元角色分类任务，并且针对一个句子中实体集合的每个实体分离地进行训练与测试，忽略了候选论元之间潜在的交互关系，导致论元检测效果不显著。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于强化学习的事件论元抽取方法及装置，以解决现有技术中忽略了候选论元之间潜在的交互关系，导致论元检测效果不显著的问题。

为实现以上目的，本发明采用如下技术方案：一种基于强化学习的事件论元抽取方法，包括：

构建事件检测模型，所述事件检测模型检测句子中的触发词并根据所述触发词进行事件类型预测；其中，所述句子包括触发词和实体；

构建论元检测模型，所述论元检测模根据预测的事件类型对事件的每个触发词和每个实体两两之间进行论元检测；

构建实体选择模型，所述实体选择模型从未检测的实体集合中确定待检测实体；

将所述实体选择模型选择的待检测实体输入到所述论元检测模型进行检测，采集预测结果的损失，根据所述预测结果的损失更新所述论元检测模型的参数；根据所述待检测实体更新所述实体选择模型；

通过更新后的论元检测模型和更新后的实体选择模型对所述句子中的实体进行检测，并将检测结果引入更新后的论元检测模型和更新后的实体选择模型进行更新，循环直至遍历所有实体，确定并输出论元集合。

进一步的，所述构建事件检测模型，包括：

采用双向长短期记忆条件随机场模型对文本数据进行标注；

采用已标注文本数据对事件检测模型进行训练，直至收敛，输出事件检测模型。

进一步的，所述构建论元检测模型，包括：

对所述论元检测模型进行预训练，采用从左往右遍历的方式来选择实体，采用真实的实体、论元角色信息作为特征。

进一步的，所述构建实体选择模型，包括：

向所述实体选择模型中输入环境信息；

所述环境信息包括：句子信息、实体信息、所述实体信息包括实体类型、事件的触发词信息、所述触发词信息包括事件类型、已预测出的实体类别信息。

进一步的，所述论元检测模型，包括：

嵌入层，用于构造事件的每个词的向量表示，获取词向量；

卷积层，用于对所述词向量进行卷积操作；

池化层，用于对卷积操作后的词向量进行最大池化操作，获取事件和实体构成的二元组的向量表示；

分类层，用于采用全连接网络和Softmax操作对实体向量属于事件向量的角色进行分类。

进一步的，所述实体选择模型，包括：

嵌入层，用于构造事件的每个词的向量表示；

双向递归神经网络层，用于采用双向递归结构对所述嵌入层输出的句子进行表示并输出；

事件信息增强层，用于将事件类型引入到所述双向递归神经网络层的输出中；

线性映射层，用于对事件信息增强层输出的向量进行矩阵乘法操作，并将操作后的字符映射到二维向量，表示实体被选择进行检测的概率；

输出层，用于屏蔽已经选择的实体的字符向量或者非实体的字符向量，选择概率最大的实体。

进一步的，采用Adam优化器更新论元检测模型的参数。

本申请实施例提供一种基于强化学习的事件论元抽取装置，包括：

所述卷积层采用长度为3、数量为300的卷积核进行操作。

本申请提供一种基于强化学习的事件论元抽取装置，包括：

第一构建模块，用于构建事件检测模型，所述事件检测模型检测句子中的触发词并根据所述触发词进行事件类型预测；其中，所述句子包括触发词和实体；

第二构建模块，用于构建论元检测模型，所述论元检测模根据预测的事件类型对事件的每个触发词和每个实体两两之间进行论元检测；

第三构建模块，用于构建实体选择模型，所述实体选择模型从未检测的实体集合中确定待检测实体；

更新模块，用于将所述实体选择模型选择的待检测实体输入到所述论元检测模型进行检测，采集预测结果的损失，根据所述预测结果的损失更新所述论元检测模型的参数；根据所述待检测实体更新所述实体选择模型；

检测模块，用于通过更新后的论元检测模型和更新后的实体选择模型对所述句子中的实体进行检测，并将检测结果引入更新后的论元检测模型和更新后的实体选择模型进行更新，循环直至遍历所有实体。

进一步的，所述构建事件检测模型，包括：

标注单元，用于采用双向长短期记忆条件随机场模型对文本数据进行标注；

训练单元，用于采用已标注文本数据对事件检测模型进行训练，直至收敛，输出事件检测模型。

本发明采用以上技术方案，能够达到的有益效果包括：

本发明提供一种基于强化学习的事件论元抽取方法，能够在检测当前论元的时候，引入已知论元的信息，通过引入已知论元信息和强化学习技术，能够有效利用论元间交互关系，提高论元检测效果。开发者可以使用该方法来处理有多个实体或者其他预测目标的文本，采用遍历的方式来利用已有的检测结果；并且采用强化学习选择最佳的遍历顺序。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于强化学习的事件论元抽取方法的步骤示意图；

图2为本发明论元检测模型的结构示意图；

图3为本发明实体选择模型的结构示意图；

图4为本发明基于强化学习的事件论元抽取装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

在ACE中，事件是涉及参与者的特定发生，可以经常被描述为状态的改变。

事件由

事件触发词(Event Trigger)和描述事件结构的论元(Argument)构成。

事件触发词事件触发词(trigger)是能够触动事件发生的词，是决定事件类型最重要的特征词，决定了事件类型/子类别。论元用于填充事件模版，两者完整的描述了事件本身。

事件抽取通常可以被可分为四个子任务：

1、触发词识别(Trigger Identification)，如果判断到的trigger offset与reference trigger完全匹配，那么trigger识别正确；

2、触发词分类(Trigger Classification)，如果判断到的trigger offset与reference trigger完全匹配，并且类别也完全匹配，那么trigger分类正确；

3、论元识别(Argument Identification)，如果一个论元的offset、相关的trigger offset和type都完全匹配，那么该论元识别正确；

4、论元分类(Argument Classification)，如果一个论元的role、offset、相关的trigger offset和type都完全匹配，那么该论元分类正确。

下面结合附图介绍本申请实施例中提供的一个具体的基于强化学习的事件论元抽取方法。

如图1所示，本申请实施例中提供的基于强化学习的事件论元抽取方法包括：

S101，构建事件检测模型，所述事件检测模型检测句子中的触发词并根据所述触发词进行事件类型预测；其中，所述句子包括触发词和实体；

本申请中句子可以是中文也可以是英文，首先构建事件检测模型，检测句子中的触发词，通过触发词找出句子中的实体，并预测事件类型，以供后续的论元检测模型和实体选择模型使用。

S102，构建论元检测模型，所述论元检测模根据预测的事件类型对事件的每个触发词和每个实体两两之间进行论元预测；

例如：在检测出触发词之后，确定实体为5个，则论元检测单元要对触发词和每个实体进行论文检测，最后确定实体在触发词对应的事件中所扮演的论元角色。

S103，构建实体选择模型，所述实体选择模型从未检测的实体集合中确定待检测实体；

根据当前的环境信息，计算句子中所有实体被选择进行检测的概率，将概率最高的实体确定为待检测实体。

S104，将所述实体选择模型选择的待检测实体输入到所述论元检测模型进行检测，采集预测结果的损失，根据所述预测结果的损失更新所述论元检测模型的参数；根据所述待检测实体更新所述实体选择模型；

将待检测实体输入到论元检测模型中进行检测，论元检测模型是根据从左到右顺序对实体进行检测，而本申请中因为实体选择模型的选择，论元检测模型根据实体选择模型选择的待检测实体的顺序对句子中的所有实体进行逐个检测。

S105，通过更新后的论元检测模型和更新后的实体选择模型对所述句子中的实体进行检测，并将检测结果引入更新后的论元检测模型和更新后的实体选择模型进行更新，循环直至遍历所有实体，确定并输出论元集合。

对每个实体检测后，都对论元检测模型和实体选择模型进行更新，然后使用更新后的论元检测模型和实体选择模型对下一个实体进行检测，直至检测所有的实体，确定所有实体在触发词对应的事件中所扮演的论元角色，输出论元集合。

基于强化学习的事件论元抽取方法的工作原理为：首先构建事件检测模型，在句子中检测触发词，进行事件类型预测，构建论元检测模型，根据当前的环境信息，从当前句子中的所有实体中选择概率最高的实体为待检测实体，实体选择模型选择的待检测实体输入到论元检测模型进行检测，采集预测结果的损失，根据预测结果的损失更新论元检测模型的参数；根据待检测实体更新实体选择模型，通过更新后的论元检测模型和更新后的实体选择模型对句子中的实体进行检测，并将检测结果引入更新后的论元检测模型和更新后的实体选择模型进行更新，循环直至遍历所有实体，确定并输出论元集合。

一些实施例中，所述构建事件检测模型，包括：

采用双向长短期记忆条件随机场(BI-LSTM-CRF)模型对文本数据进行标注；

BiLSTM-CRF中，BiLSTM主要用于根据一个单词的上下文，给出当前单词对应标签的概率分布，可以把BiLSTM看成一个编码层。比如，对于标签集{Attack，Die，Injure}和单词fire，BiLSTM可能输出形如(0.88,-1.23,0.03)的非归一化概率分布。这个分布我们看作是crf的特征分布输入。

具体的，本申请中采用已有标注文本数据，训练触发词检测模型，供后续使用，例如选择Bi-LSTM+CRF模型来进行序列标注，对每个词进行事件类型预测，其中检测出的事件将用于后续的论元检测。

一些实施例中，所述构建论元检测模型，包括：

具体的，在构建论元检测模型后对模型进行预训练，优化模型，在预训练过程中采用句子中的真实实体对模型进行训练。

优选的，所述构建实体选择模型，包括：

向所述实体选择模型中输入环境信息；

一些实施例中，所述论元检测模型，包括：

嵌入层，用于构造事件的每个词的向量表示，获取词向量；

卷积层，用于对所述词向量进行卷积操作；

具体的，构建论元检测模型，如图2所示，对每个触发词和每个实体两两之间进行论元角色预测，包括以下模块

嵌入层(Embedding Layer)，构造对每个词的向量表示，包括以下内容：

词向量(word embedding)；

实体类别向量(entity type embedding)；

距离向量(distance embedding)；

论元角色向量(argument role embedding)；

事件类别向量(event type embedding)；

卷积层，对Embedding Layer产生的句子表示矩阵进行卷积操作，采用长度为3、数量为300的卷积核进行操作；

池化层，对卷积层产生的300个向量进行最大池化的操作，将每个向量中最大的数合并到一个向量中，得到{事件，实体}二元组的向量表示；

分类层，采用全连接网络和Softmax操作，对该实体属于事件的什么角色进行分类；

一些实施例中，所述实体选择模型，包括：

嵌入层，用于构造事件的每个词的向量表示；

事件信息增强层，用于将事件类别引入到所述双向递归神经网络层的输出中；

具体的，构建实体选择模型，如图3所示，从现有的未预测的实体集合中选择一个实体来作为下一时刻需要预测的实体，包括以下模块

词向量(word embedding)；

实体类别向量(entity type embedding)；

论元角色向量(argument role embedding)；

事件类别向量(event type embedding)；

双向递归神经网络层(Bi-LSTM Layer)，对Embedding Layer产生的句子进行进一步表示，采用Bi-LSTM结构；

事件信息增强层(Event Information Enhancement Layer)，将事件的信息引入到Bi-LSTM输出的表示中；

线性映射层(Dense Layer)，对增强之后的字符表示进行矩阵乘法操作，将其映射到二维向量，表示是否选择该实体；

输出层(Masked Softmax Layer)，该层对已经选择的实体或者非实体的字符进行屏蔽，选择概率最大的实体；

其中，I_t为负无穷，如果第t个字符是已经选择的实体或者非实体的字符。其中，字符是向量表示。

优选的，采用Adam优化器更新论元检测模型的参数。

优选的，所述卷积层采用长度为3、数量为300的卷积核进行操作。

具体的，联合训练论元检测模型和实体选择模型，其中流程如下：

采用实体选择模型，选择一个实体；

采用论元检测模型，对该实体进行预测；

收集预测结果的损失；

采用Adam优化器更新论元检测模型的参数；

将选择的该实体作为真实标签，更新实体选择模型参数；

重复进行上述最后两个操作，并采用early stop机制来决定停止轮数。

下面为方便理解，本申请进行举例说明：

选用英文ACE 2005语料来进行事件抽取。其中部分应用实例进行展示如下：

第一步，进行事件检测，在一个句子中，单词”threw”触发了攻击类型的事件，针对该事件用于后续的论元检测；

第二步，采用实体选择模型，根据当前的环境信息，从当前的五个实体中选择“demonstrators”来进行论元检测；

第三步，采用论元检测模型并根据当前的环境信息，检测到该实体的论元角色是“Attacker”；

第四步，记录当前已经检测到的论元，并将其更新到环境中；

第五步，采用实体选择模型，根据当前的环境信息，从当前的四个实体中选择“yesterday”来进行论元检测；

第六步，采用论元检测模型并根据当前的环境信息，检测到该实体的论元角色是“Time”；

第七步，记录当前已经检测到的论元，并将其更新到环境中；

第八步，采用实体选择模型，根据当前的环境信息，从当前的三个实体中选择“soldiers”来进行论元检测；

第九步，采用论元检测模型并根据当前的环境信息，检测到该实体的论元角色是“Target”；

第十步，记录当前已经检测到的论元，并将其更新到环境中；

第十一步，采用实体选择模型，根据当前的环境信息，从当前的两个实体中选择“Israeli”来进行论元检测；

第十二步，采用论元检测模型并根据当前的环境信息，检测到该实体的论元角色是“Place”；

第十三步，记录当前已经检测到的论元，并将其更新到环境中；

第十四步，采用实体选择模型，根据当前的环境信息，从当前的一个实体中选择“stones”来进行论元检测；

第十五步，采用论元检测模型并根据当前的环境信息，检测到该实体的论元角色是“Instrument”；

第十六步，记录当前已经检测到的论元，并将其更新到环境中；

第十七步，已经对句子中所有的实体进行了检测，检测完成，跳出。

本申请提供一种基于强化学习的事件论元抽取装置，如图4所示，包括：

第一构建模块201，用于构建事件检测模型，所述事件检测模型检测句子中的触发词并根据所述触发词进行事件类型预测；其中，所述句子包括触发词和实体；

第二构建模块202，用于构建论元检测模型，所述论元检测模根据预测的事件类型对事件的每个触发词和每个实体两两之间进行论元检测；

第三构建模块203，用于构建实体选择模型，所述实体选择模型从未检测的实体集合中确定待检测实体；

更新模块204，用于将所述实体选择模型选择的待检测实体输入到所述论元检测模型进行检测，采集预测结果的损失，根据所述预测结果的损失更新所述论元检测模型的参数；根据所述待检测实体更新所述实体选择模型；

检测模块205，用于通过更新后的论元检测模型和更新后的实体选择模型对所述句子中的实体进行检测，并将检测结果引入更新后的论元检测模型和更新后的实体选择模型进行更新，循环直至遍历所有实体。

优选的，所述构建事件检测模型，包括：

本申请实施例提供一种计算机设备，包括处理器，以及与处理器连接的存储器；

存储器用于存储计算机程序，计算机程序用于执行上述任一实施例提供的基于强化学习的事件论元抽取方法；

处理器用于调用并执行存储器中的计算机程序。

综上，本发明提供一种基于强化学习的事件论元抽取方法及装置，能够在检测当前论元的时候，引入已知论元的信息，通过引入已知论元信息和强化学习技术，能够有效利用论元间交互关系，提高论元检测效果。开发者可以使用该方法来处理有多个实体或者其他预测目标的文本，采用遍历的方式来利用已有的检测结果；并且采用强化学习选择最佳的遍历顺序。

可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于强化学习的事件论元抽取方法，其特征在于，包括：

2.根据权利要求1所述的抽取方法，其特征在于，所述构建事件检测模型，包括：

采用双向长短期记忆条件随机场模型对文本数据进行标注；

3.根据权利要求1所述的抽取方法，其特征在于，所述构建论元检测模型，包括：

4.根据权利要求1所述的抽取方法，其特征在于，所述构建实体选择模型，包括：

向所述实体选择模型中输入环境信息；

5.根据权利要求4所述的抽取方法，其特征在于，所述论元检测模型，包括：

嵌入层，用于构造事件的每个词的向量表示，获取词向量；

卷积层，用于对所述词向量进行卷积操作；

6.根据权利要求5所述的抽取方法，其特征在于，所述实体选择模型，包括：

嵌入层，用于构造事件的每个词的向量表示；

7.根据权利要求1所述的抽取方法，其特征在于，

采用Adam优化器更新论元检测模型的参数。

8.根据权利要求5所述的抽取方法，其特征在于，

所述卷积层采用长度为3、数量为300的卷积核进行操作。

9.一种基于强化学习的事件论元抽取装置，其特征在于，包括：

10.根据权利要求8所述的抽取装置，其特征在于，所述构建事件检测模型，包括：