CN116579338A

CN116579338A - 基于集成联合学习的文档级事件抽取方法和系统

Info

Publication number: CN116579338A
Application number: CN202310858934.8A
Authority: CN
Inventors: 万齐智; 万常选; 刘喜平; 刘德喜; 胡蓉
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-08-11

Abstract

本发明提供了一种基于集成联合学习的文档级事件抽取方法和系统，该方法包括：分别对样本文档中的各样本语句进行句法解析得到句法解析结果；根据样本文档中的样本事件和样本词语构建词语事件对，分别对各词语事件对进行论元角色标记；根据句法解析结果对论元角色标记后的各词语事件对进行特征拼接得到拼接特征，根据拼接特征对论元预测模型进行模型训练；将待抽取文档输入训练后的论元预测模型进行论元角色预测得到预测论元，根据预测论元进行事件抽取得到文档级事件抽取结果。本发明基于待抽取文档的预测论元能有效地进行事件抽取得到文档级事件抽取结果，提高了事件抽取效率。

Description

基于集成联合学习的文档级事件抽取方法和系统

技术领域

本发明涉及信息抽取技术领域，尤其涉及一种基于集成联合学习的文档级事件抽取方法和系统。

背景技术

文档级事件抽取旨在从文档层面抽取事件信息，主要解决多事件、论元跨句和论元多角色问题，一般需要完成实体抽取、判断文档包含的事件类型、多事件及其论元角色识别等子任务。

现有的文档级事件抽取过程中，一般采用流水线模式实现文档级事件抽取，导致任务之间存在严重的错误传播，导致事件抽取效率低下。

发明内容

本发明实施例的目的在于提供一种基于集成联合学习的文档级事件抽取方法和系统，旨在解决现有的文档级事件抽取过程中，事件抽取效率低下的问题。

本发明实施例是这样实现的，一种基于集成联合学习的文档级事件抽取方法，所述方法包括：

获取样本文档，并分别对所述样本文档中的各样本语句进行句法解析，得到句法解析结果；

根据所述样本文档中的样本事件和样本词语构建词语事件对，并分别对各词语事件对进行论元角色标记；

根据所述句法解析结果对论元角色标记后的各词语事件对进行特征拼接，得到拼接特征，并根据所述拼接特征对论元预测模型进行模型训练；

将待抽取文档输入训练后的所述论元预测模型进行论元角色预测，得到预测论元，并根据所述预测论元进行事件抽取，得到文档级事件抽取结果。

优选的，所述根据所述样本文档中的样本事件和样本词语构建词语事件对，包括：

分别获取各样本事件的事件标识，并分别将各样本事件的事件标识与各样本词语进行组合，得到所述词语事件对。

优选的，所述分别对各词语事件对进行论元角色标记，包括：

将各词语事件对中的事件标识和样本词语与预存储的标签查询表进行匹配，得到论元标签，所述论元标签用于表征样本词语在对应样本事件中扮演的论元角色；

根据所述论元标签对各词语事件对进行论元角色标记。

优选的，所述拼接特征为：

；

是词语事件对/>的拼接特征，/>是第/>个样本词语/>对应的词向量表示，/>表示样本词语/>所属样本语句的编号对应的向量表示，/>表示样本词语/>在样本语句中的位置编号对应的向量表示，/>、/>和/>分别表示样本词语/>的父结点词语、父结点词性和依存关系对应的向量表示，/>表示样本词语/>的词性的向量表示，/>表示样本词语/>的依存关系的向量表示，||表示拼接操作，/>是第j 个样本事件的事件标识。

优选的，所述根据所述拼接特征对论元预测模型进行模型训练，包括：

将所述拼接特征输入所述论元预测模型中的编码层分别进行向前编码和向后编码，得到向前上下文信息和向后上下文信息，并将所述向前上下文信息和所述向后上下文信息进行拼接，得到编码特征；

将所述编码特征输入所述论元预测模型中的全连接网络进行概率分布计算，各全连接网络对应一个模型通道，各模型通道用于计算编码特征在指定事件类型上的概率分布；

根据所述概率分布计算各模型通道的通道损失，并根据各通道损失计算模型总损失；

根据所述模型总损失对所述论元预测模型进行参数更新。

优选的，所述分别对所述样本文档中的各样本语句进行句法解析，得到句法解析结果，包括：

对各样本语句进行分词，得到样本词语，并对各样本词语进行词性标注和依存结构解析，得到词性标注结果和依存解析结果；

对各样本词语进行向量转换，得到词语向量表示；

其中，所述句法解析结果包括各样本词语、所述词性标注结果、所述依存解析结果和各词语向量表示。

优选的，所述将所述编码特征输入所述论元预测模型中的全连接网络进行概率分布计算采用的公式包括：

；

其中，W_p为权重矩阵，b _p为偏置项，为词语事件对/>在参数/>下的最终标签输出，FCNN(·)表示全连接网络，/>为第/>个模型通道中指定事件类型的嵌入表示，为词语事件对/>对应的编码特征的嵌入表示， />为/>在第/>个模型通道中产生的嵌入表示，/>为词语事件对/>对应的编码特征的概率分布。

本发明实施例的另一目的在于提供一种基于集成联合学习的文档级事件联合抽取系统，所述系统包括：

句法解析模块，用于获取样本文档，并分别对所述样本文档中的各样本语句进行句法解析，得到句法解析结果；

角色标记模块，用于根据所述样本文档中的样本事件和样本词语构建词语事件对，并分别对各词语事件对进行论元角色标记；

模型训练模块，用于根据所述句法解析结果对论元角色标记后的各词语事件对进行特征拼接，得到拼接特征，并根据所述拼接特征对论元预测模型进行模型训练；

事件抽取模块，用于将待抽取文档输入训练后的所述论元预测模型进行论元角色预测，得到预测论元，并根据所述预测论元进行事件抽取，得到文档级事件抽取结果。

本发明实施例，通过构建词语事件对，对各词语事件对进行论元角色标记，有效地设计了一个刻画词语-事件-论元角色匹配关系的数据结构，能够直接地揭示每个词语在每个事件中充当何种角色的论元，能有效地将多事件及其论元角色识别问题就转化为预测待抽取文档中词语-事件的论元角色的多分类问题，基于待抽取文档的预测论元能有效地进行事件抽取得到文档级事件抽取结果，防止了流水线模型的错误传播问题，提高了事件抽取效率。

附图说明

图1是本发明第一实施例提供的基于集成联合学习的文档级事件抽取方法的流程图；

图2是本发明第二实施例提供的基于集成联合学习的文档级事件联合抽取系统的结构示意图；

图3是本发明第二实施例提供的基于集成联合学习的文档级事件联合抽取系统的具体实施步骤流程图；

图4是本发明第三实施例提供的终端设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的基于集成联合学习的文档级事件抽取方法的流程图，该基于集成联合学习的文档级事件抽取方法可以应用于任一终端设备或系统，该文档级事件抽取方法包括步骤：

步骤S10，获取样本文档，并分别对所述样本文档中的各样本语句进行句法解析，得到句法解析结果；

可选的，所述分别对所述样本文档中的各样本语句进行句法解析，得到句法解析结果，包括：

对各样本词语进行向量转换，得到词语向量表示；

其中，句法解析结果包括各样本词语、词性标注结果、依存解析结果和各词语向量表示，优选的，该步骤中，对于给定的样本文档，将每个样本语句依次送入句法解析工具进行分词、词性标注和依存结构解析，最后得到。其中，/>为第/>个样本文档，N为样本文档中的样本语句的数量，为样本文档中样本词语的数量(即文档长度)。

该步骤中，采用预训练语言模型BERT对样本文档d的样本词语进行向量初始化，得到样本词语的向量表示：

；

其中，是第/>个样本词语/>对应的词向量表示。

步骤S20，根据所述样本文档中的样本事件和样本词语构建词语事件对，并分别对各词语事件对进行论元角色标记；

其中，假设样本文档包含样本事件数为(超参数)，每个样本事件用一个事件Id(只是一个抽象的符号)代表。

可选的，所述根据所述样本文档中的样本事件和样本词语构建词语事件对，包括：

分别获取各样本事件的事件标识，并分别将各样本事件的事件标识与各样本词语进行组合，得到所述词语事件对；

其中，将每个样本词语与每个样本事件Id（事件标识）进行组合形成词语事件对，词语事件对可以表征为(词语，事件)对，得到所有样本词语与所有样本事件之间的组合：

；

其中，表示第/>个样本事件的Id，预设事件表示为/>，/>表示预设事件的数量。

进一步地，所述分别对各词语事件对进行论元角色标记，包括：

根据所述论元标签对各词语事件对进行论元角色标记；

其中，针对每个(词语，事件)对，通过标注的语料，确定样本词语/>在第/>个样本事件/>中扮演的论元角色，形成词语-事件-论元角色匹配关系，为每个(词语，事件)对分配一个对应的论元角色标签值，该预存储的标签查询表中存储有不同样本词语、样本事件和论元角色之间的对应关系。

可选的，本实施例中，预先利用序列标注技术，将论元角色识别对象由实体转化为词语，避免实体抽取，构建词语-事件-论元角色匹配关系，揭示每个词语所属的事件以及扮演的论元角色，根据语料标注的事件记录信息和词语-事件-论元角色匹配关系，生成标签查询表。

进一步地，将论元角色识别对象由实体转化为词语，包括：

针对每种事件类型下的每个论元角色，将其涉及的每个论元按词语进行拆分，并给每个词语分配一个角色标签。论元首位置的词语分配角色标签“/>”，其它位置的词语分配角色标签“/>”；另外，非论元词语分配一个角色标签“O”。

对所有角色标签进行编号，以id数值代表每种角色标签类型，事件类型表示为，其包含的论元角色表示为/>，/>表示论元角色的数量。

步骤S30，根据所述句法解析结果对论元角色标记后的各词语事件对进行特征拼接，得到拼接特征，并根据所述拼接特征对论元预测模型进行模型训练；

其中，为了有效实现事件论元的训练，编码了词语所属语句和在当前语句中的位置信息，利用词语的词性和依存关系和词语父结点的词性和依存关系等特征，(词语，事件)对拼接上述特征的向量后，拼接特征表示为：

；

是词语事件对/>的拼接特征，/>表示样本词语/>所属样本语句的编号对应的向量表示，/>表示样本词语/>在样本语句中的位置编号对应的向量表示，、/>和/>分别表示样本词语/>的父结点词语、父结点词性和依存关系对应的向量表示，/>表示样本词语/>的词性的向量表示，/>表示样本词语/>的依存关系的向量表示，||表示拼接操作，/>是第/>个样本事件的事件标识。

可选的，所述根据所述拼接特征对论元预测模型进行模型训练，包括：

根据所述模型总损失对所述论元预测模型进行参数更新；

其中，对于每个词语-事件对，利用一个前向LSTM编码w ₁-e ₁至w _i-e _j的向前上下文信息，再采用一个后向LSTM编码w _n-e _m至w _i-e _j的向后上下文信息，具体如下：

向前上下文信息：；

向后上下文信息：；

最后，将向前上下文信息和向后上下文信息进行拼接作为词语-事件对w _i-e _j经过编码层（Bi-LSTM）后的特征表示，编码特征记为：

；

多通道论元角色预测：

针对每个模型通道，其内部采用一个全连接层（全连接网络），根据不同事件类型包含的论元角色的个数，形成相应维数的嵌入表示，涉及的参数每个通道单独学习，因此。(词语，事件)对w _i-e _j在模型通道t中产生的嵌入表示为：

；

h_t为第个模型通道中指定事件类型的嵌入表示，/>为词语事件对/>对应的编码特征的嵌入表示， />为/>在第/>个模型通道中产生的嵌入表示，FCNN(·)表示全连接网络。

该步骤中，采用softmax函数计算(词语，事件)对w _i-e _j在各论元角色上的概率，即，所述将所述编码特征输入所述论元预测模型中的全连接网络进行概率分布计算采用的公式包括：

；

其中，W_p为权重矩阵，b _p为偏置项，为词语事件对/>在参数/>下的最终标签输出，/>为词语事件对w _i-e _j对应的编码特征的概率分布。

进一步地，采用带权重的交叉熵损失函数作为目标函数：

；

其中，和/>分别为样本文档中样本词语的数量和样本文档包含的样本事件的数量，/>为/>类别的权重，计算如下：

；

其中，Med(·)表示取中值操作，为语料中属于第/>个标签类别的事件数量，表示第/>个标签的类别，/>的标签类别属于/>。

最后，将每个模型通道的通道损失相加，得到模型总损失，用其指导论元预测模型训练，模型总损失为：

；

其中，为语料包含的事件类型数量，/>为第/>个模型通道的通道损失。

步骤S40，将待抽取文档输入训练后的所述论元预测模型进行论元角色预测，得到预测论元，并根据所述预测论元进行事件抽取，得到文档级事件抽取结果；

其中，可以采用精确率、召回率、F1值作为评价指标，以评价文档级事件抽取的效果；

；

其中，Precision表示精确率，Recall表示召回率，TP表示被预测为正且真实值为正的样本数，FP表示被预测为正但真实值为负的样本数，FN为被预测为负但真实值为正的样本数。

本实施例中，通过构建词语事件对，对各词语事件对进行论元角色标记，有效地设计了一个刻画词语-事件-论元角色匹配关系的数据结构，能够直接地揭示每个词语在每个事件中充当何种角色的论元，能有效地将多事件及其论元角色识别问题就转化为预测待抽取文档中词语-事件的论元角色的多分类问题，基于待抽取文档的预测论元能有效地进行事件抽取得到文档级事件抽取结果，防止了流水线模型的错误传播问题，提高了事件抽取效率。

实施例二

请参阅图2，是本发明第二实施例提供的基于集成联合学习的文档级事件联合抽取系统100的结构示意图，包括：句法解析模块10、角色标记模块11、模型训练模块12和事件抽取模块13，其中：

句法解析模块10，用于获取样本文档，并分别对所述样本文档中的各样本语句进行句法解析，得到句法解析结果。

角色标记模块11，用于根据所述样本文档中的样本事件和样本词语构建词语事件对，并分别对各词语事件对进行论元角色标记。

模型训练模块12，用于根据所述句法解析结果对论元角色标记后的各词语事件对进行特征拼接，得到拼接特征，并根据所述拼接特征对论元预测模型进行模型训练。

事件抽取模块13，用于将待抽取文档输入训练后的所述论元预测模型进行论元角色预测，得到预测论元，并根据所述预测论元进行事件抽取，得到文档级事件抽取结果。

请参阅图3，本实施例中，首先对样本文档中的各样本语句进行句法解析，得到句法解析结果，通过构建词语事件对，分别对各词语事件对进行论元角色标记，以达到词语-事件-论元角色构造的效果，根据句法解析结果对论元角色标记后的各词语事件对进行特征整合，得到拼接特征，将拼接特征输入Bi-LSTM中进行编码，得到编码特征，将编码特征分别输入模型通道（Channel）进行论元角色预测，根据论元预测结果分别计算各模型通道的通道损失，根据各模型通道的通道损失计算模型总损失，根据模型总损失对论元预测模型进行参数更新，将待抽取文档输入训练后的论元预测模型进行论元角色预测，得到预测论元，根据预测论元进行事件抽取，得到文档级事件抽取结果。

本实施例，通过构建词语事件对，对各词语事件对进行论元角色标记，有效地设计了一个刻画词语-事件-论元角色匹配关系的数据结构，能够直接地揭示每个词语在每个事件中充当何种角色的论元，能有效地将多事件及其论元角色识别问题就转化为预测待抽取文档中词语-事件的论元角色的多分类问题，基于待抽取文档的预测论元能有效地进行事件抽取得到文档级事件抽取结果，防止了流水线模型的错误传播问题，提高了事件抽取效率。

实施例三

图4是本申请第三实施例提供的一种终端设备2的结构框图。该实施例的终端设备2包括：处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22，例如文档级事件抽取方法的程序。处理器20执行所述计算机程序22时实现上述各个文档级事件抽取方法各实施例中的步骤。

示例性的，所述计算机程序22可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器21中，并由所述处理器20执行，以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。所述终端设备可包括，但不仅限于，处理器20、存储器21。

所称处理器20可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器21可以是所述终端设备2的内部存储单元，例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备，例如所述终端设备2上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。其中，计算机可读存储介质可以是非易失性的，也可以是易失性的。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于集成联合学习的文档级事件抽取方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于集成联合学习的文档级事件抽取方法，其特征在于，所述根据所述样本文档中的样本事件和样本词语构建词语事件对，包括：

3.如权利要求2所述的基于集成联合学习的文档级事件抽取方法，其特征在于，所述分别对各词语事件对进行论元角色标记，包括：

根据所述论元标签对各词语事件对进行论元角色标记。

4.如权利要求1所述的基于集成联合学习的文档级事件抽取方法，其特征在于，所述拼接特征为：

；

是词语事件对/>的拼接特征，/>是第/>个样本词语/>对应的词向量表示，/>表示样本词语/>所属样本语句的编号对应的向量表示，/>表示样本词语/>在样本语句中的位置编号对应的向量表示，/>、/>和/>分别表示样本词语/>的父结点词语、父结点词性和依存关系对应的向量表示，/>表示样本词语/>的词性的向量表示，/>表示样本词语i的依存关系的向量表示，||表示拼接操作，/>是第/>个样本事件的事件标识。

5.如权利要求1所述的基于集成联合学习的文档级事件抽取方法，其特征在于，所述根据所述拼接特征对论元预测模型进行模型训练，包括：

根据所述模型总损失对所述论元预测模型进行参数更新。

6.如权利要求1所述的基于集成联合学习的文档级事件抽取方法，其特征在于，所述分别对所述样本文档中的各样本语句进行句法解析，得到句法解析结果，包括：

对各样本词语进行向量转换，得到词语向量表示；

7.如权利要求5所述的基于集成联合学习的文档级事件抽取方法，其特征在于，所述将所述编码特征输入所述论元预测模型中的全连接网络进行概率分布计算采用的公式包括：

；

其中，W_p为权重矩阵，b _p为偏置项，为词语事件对/>在参数/>下的最终标签输出，FCNN(·)表示全连接网络，/>为第/>个模型通道中指定事件类型的嵌入表示，/>为词语事件对/>对应的编码特征的嵌入表示， />为/>在第/>个模型通道中产生的嵌入表示，/>为词语事件对/>对应的编码特征的概率分布。

8.一种基于集成联合学习的文档级事件联合抽取系统，其特征在于，所述系统包括：

9.如权利要求8所述的基于集成联合学习的文档级事件联合抽取系统，其特征在于，所述角色标记模块还用于：

10.如权利要求9所述的基于集成联合学习的文档级事件联合抽取系统，其特征在于，所述角色标记模块还用于：

根据所述论元标签对各词语事件对进行论元角色标记。