CN116049345A

CN116049345A - 基于双向事件完全图的文档级事件联合抽取方法及系统

Info

Publication number: CN116049345A
Application number: CN202310337487.1A
Authority: CN
Inventors: 万齐智; 万常选; 胡蓉; 刘德喜; 刘喜平
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-05-02
Anticipated expiration: 2043-03-31
Also published as: CN116049345B

Abstract

本发明提供了一种基于双向事件完全图的文档级事件联合抽取方法及系统，该方法包括：根据各样本事件类型与论元角色之间的关系，构建三元组关联关系；根据标注语料中各事件记录信息中的词语和三元组关联关系，构建样本双向事件完全图；分别构建各样本文档的邻接矩阵，根据样本双向事件完全图对各邻接矩阵进行标识填充，得到样本邻接矩阵；根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练；将待抽取文档输入收敛后的事件联合抽取模型进行事件抽取，得到事件信息。本发明基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练，使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息，提高了事件抽取的准确性。

Description

基于双向事件完全图的文档级事件联合抽取方法及系统

技术领域

本发明涉及信息抽取技术领域，尤其涉及一种基于双向事件完全图的文档级事件联合抽取方法及系统。

背景技术

语句级事件抽取旨在从单个语句中抽取事件相关的信息，然而一个事件的成分可能散落的多个语句中，导致事件论元出现跨句现象。因此，需要从整个文档范围中抽取事件。由于同一个事件在一个文档中存在多次提及、一个文档可能包含多个不同事件，使得文档级事件抽取需要解决多事件识别问题。文档级事件抽取需要完成实体识别、事件类型判断、事件识别、事件论元角色识别等任务。

现有的文档级事件抽取过程中，一般采用流水线模式实现文档级事件抽取，导致任务之间存在严重的错误传播，如论元角色识别需要基于实体识别的结果，不准确的实体识别将导致论元角色识别效果较低。

发明内容

本发明实施例的目的在于提供一种基于双向事件完全图的文档级事件联合抽取方法及系统，旨在解决现有的文档级事件抽取过程中，事件抽取准确性低下的问题。

本发明实施例是这样实现的，一种基于双向事件完全图的文档级事件联合抽取方法，所述方法包括：

获取样本事件类型，并根据各样本事件类型与论元角色之间的关系，构建三元组关联关系，所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色；

获取标注语料中的事件记录信息，并根据各事件记录信息中的词语和所述三元组关联关系，构建样本双向事件完全图，所述样本双向事件完全图用于表征各事件记录中词语之间的关联；

分别构建所述标注语料中各样本文档的邻接矩阵，并根据所述样本双向事件完全图对各邻接矩阵进行标识填充，得到样本邻接矩阵；

根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练，直至所述事件联合抽取模型收敛；

将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取，得到事件信息。

优选的，所述根据各样本事件类型与论元角色之间的关系，构建三元组关联关系，包括：

分别获取各样本事件类型的论元角色集合，并将所述论元角色集合中的不同论元角色进行组合，得到论元角色对；

针对各样本事件类型，分别与对应的各论元角色对进行组合，得到所述三元组关联关系，并对所述三元组关联关系进行标识编号。

优选的，所述根据各事件记录信息中的词语和所述三元组关联关系，构建样本双向事件完全图，包括：

分别获取各事件记录信息的事件类型，并分别将各事件记录信息中的事件词语进行组合，得到词语对；

分别获取各词语对的论元角色，并针对各事件记录信息，将对应的所述事件类型和各词语对的论元角色进行边类型组合，得到所述样本双向事件完全图；

根据所述三元组关联关系中标识对所述样本双向事件完全图进行编号。

优选的，所述分别构建所述标注语料中各样本文档的邻接矩阵，并根据所述样本双向事件完全图对各邻接矩阵进行标识填充，得到样本邻接矩阵，包括：

分别获取各样本文档的词语数，并根据所述词语数建立所述邻接矩阵；

分别查询所述样本双向事件完全图中各词语对在所述邻接矩阵中的填充位置；

根据所述样本双向事件完全图中各词语对携带的编号对相对应的所述填充位置进行标识填充，得到所述样本邻接矩阵。

优选的，所述根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练，包括：

根据所述事件联合抽取模型中的编码层对各样本文档中的文档词语进行向量初始化，并获取捕获各文档词语之间的位置信息，得到特征编码信息；

根据所述事件联合抽取模型中的分类层对各特征编码信息进行事件分类预测，得到预测邻接矩阵，并根据所述预测邻接矩阵和所述样本邻接矩阵确定模型损失；

根据所述模型损失对所述编码层和所述分类层进行参数更新，直至所述编码层和所述分类层收敛，得到收敛后的所述事件联合抽取模型。

优选的，所述将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取，得到事件信息，包括：

根据收敛后的所述事件联合抽取模型对所述待抽取文档进行事件分类预测，得到输出邻接矩阵，并对所述输出邻接矩阵进行结构解码，得到解码双向事件完全图；

获取所述解码双向事件完全图中的完全子图，并根据各完全子图中边类型的编号进行结构转换，得到输出三元组关联关系；

获取所述输出三元组关联关系中的事件类型和论元角色，得到所述事件信息。

优选的，所述根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练之后，还包括:

分别计算所述事件联合抽取模型的精确率、召回率和F1值；

当所述事件联合抽取模型的精确率、召回率和F1值均大于对应的收敛阈值时，则判定所述事件联合抽取模型收敛；

所述计算所述事件联合抽取模型的精确率、召回率和F1值采用的公式包括：

；

其中， Precision表示所述精确率， Recall表示所述召回率， TP表示被预测为正且真实值为正的样本数， FP表示被预测为正但真实值为负的样本数， FN为被预测为负但真实值为正的样本数。

本发明实施例的另一目的在于提供一种基于双向事件完全图的文档级事件联合抽取系统，所述系统包括：

关系构建模块，用于获取样本事件类型，并根据各样本事件类型与论元角色之间的关系，构建三元组关联关系，所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色；

完全图构建模块，用于获取标注语料中的事件记录信息，并根据各事件记录信息中的词语和所述三元组关联关系，构建样本双向事件完全图，所述样本双向事件完全图用于表征各事件记录中词语之间的关联；

邻接矩阵构建模块，用于分别构建所述标注语料中各样本文档的邻接矩阵，并根据所述样本双向事件完全图对各邻接矩阵进行标识填充，得到样本邻接矩阵；

模型训练模块，用于根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练，直至所述事件联合抽取模型收敛；

事件抽取模块，用于将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取，得到事件信息。

本发明实施例，通过构建三元组关联关系，能有效地确定各词语在特定事件类型下扮演指定角色的论元，通过构建样本双向事件完全图和样本邻接矩阵，能有效地确定同一个事件中词语之间的关联，基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练，使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息，防止了基于流水线模式的错误传播问题，提高了事件抽取的准确性。

附图说明

图1是本发明第一实施例提供的基于双向事件完全图的文档级事件联合抽取方法的流程图；

图2是本发明第一实施例提供的事件记录信息和词语-词语邻接矩阵的示意图；

图3是本发明第二实施例提供的基于双向事件完全图的文档级事件联合抽取方法的流程图；

图4是本发明第二实施例提供的事件联合抽取模型训练的示意图；

图5是本发明第三实施例提供的基于双向事件完全图的文档级事件联合抽取系统的结构示意图；

图6是本发明第四实施例提供的终端设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的基于双向事件完全图的文档级事件联合抽取方法的流程图，该基于双向事件完全图的文档级事件联合抽取方法可以应用于任一终端设备或系统，该基于双向事件完全图的文档级事件联合抽取方法包括步骤：

步骤S10，获取样本事件类型，并根据各样本事件类型与论元角色之间的关系，构建三元组关联关系；

其中，三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色，该样本事件类型的数量和内容可以根据需求进行设置，通过构建三元组关联关系，能有效地确定各词语在特定事件类型下扮演指定角色的论元；

可选的，该步骤中，所述根据各样本事件类型与论元角色之间的关系，构建三元组关联关系，包括：

针对各样本事件类型，分别与对应的各论元角色对进行组合，得到所述三元组关联关系，并对所述三元组关联关系进行标识编号；

其中，分别将各样本事件类型的类型标识与集合查询表进行匹配，得到该论元角色集合，该集合查询表中存储有不同类型标识与对应论元角色集合之间的对应关系，该论元角色集合包括对应样本事件类型涉及的所有事件论元角色；

该步骤中，针对各元角色集合中的论元角色，将任意2种论元角色相互组合，得到论元角色对，然后将其与对应的样本事件类型组合，形成三元组关联关系，该三元组关联关系包括事件类型-论元角色-论元角色的关系结构集合，对各样本事件类型的三元组关联关系进行编号，以id数值代表每种关系结构。

可选的，样本事件类型表示为，其包含的论元角色可以表示为，论元角色对的集合表示为：

；

样本事件类型下的三元组关联关系的关系结构集合表示为：

；

其中，为第个论元角色，表示论元角色对，为样本事件类型涉及的论元角色个数，公式中的“”为连接符，表示下的第个论元角色对，表示第个论元角色对中的第个论元角色。

步骤S20，获取标注语料中的事件记录信息，并根据各事件记录信息中的词语和所述三元组关联关系，构建样本双向事件完全图；

其中，样本双向事件完全图用于表征各事件记录中词语之间的关联；可选的，该步骤中，所述根据各事件记录信息中的词语和所述三元组关联关系，构建样本双向事件完全图，包括：

根据所述三元组关联关系中标识对所述样本双向事件完全图进行编号；

其中，扫描标注语料中的所有事件记录信息，针对各事件记录信息获取事件类型，扫描当前事件记录信息，获取事件包含的所有词语，为其中任意2个词语建立关联，形成词语对，针对各词语对，获取词语的论元角色，形成该词语对的事件类型-论元角色-论元角色关系结构，以各词语对的事件类型-论元角色-论元角色关系结构为边类型进行组合，得到该样本双向事件完全图，根据三元组关联关系中各事件类型-论元角色-论元角色的id数值，对样本双向事件完全图中对应的事件类型-论元角色-论元角色关系结构进行编号。

其中，当前事件记录信息及事件类型分别为和，事件包含的词语表示为，对应的词语对表示为：

；

其中， w- w表示词语对，表示事件类型下事件 e包含的第 s个词语。

事件的词语对的事件类型-论元角色-论元角色关系结构表示为：

；

其中，表示下的第个论元角色对，表示第 k个论元角色对中的第 i个论元角色。

步骤S30，分别构建所述标注语料中各样本文档的邻接矩阵，并根据所述样本双向事件完全图对各邻接矩阵进行标识填充，得到样本邻接矩阵；

其中，通过构建样本双向事件完全图和样本邻接矩阵，能有效地确定同一个事件中词语之间的关联，可选的，该步骤中，所述分别构建所述标注语料中各样本文档的邻接矩阵，并根据所述样本双向事件完全图对各邻接矩阵进行标识填充，得到样本邻接矩阵，包括：

其中，扫描标注语料及对应的样本文档，获取样本文档包含的词语数 N，针对各样本文档，建立 N× N的目标词语-词语的邻接矩阵，分别查询样本双向事件完全图中各词语对在邻接矩阵中的填充位置，通过将各词语对携带的编号对相对应的填充位置进行标识填充，能有效地构建该样本邻接矩阵TT。

样本邻接矩阵表示为，每行和每列均表示样本文档 d中的一个词语。在TT第 s行和第 q列、第 q行和第 s列填充id值可表示为：

；

其中，为事件记录信息包含的词语个数， N为样本文档 d的词语个数，，表示样本文档中的第 s和第 q个词语，对应的第个论元角色对，ID为取三元组关联关系的id值函数。

步骤S40，根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练，直至所述事件联合抽取模型收敛；

其中，基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练，使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息。

步骤S50，将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取，得到事件信息；

可选的，该步骤中，所述将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取，得到事件信息，包括：

获取所述输出三元组关联关系中的事件类型和论元角色，得到所述事件信息；

其中，将待抽取文档输入收敛后的事件联合抽取模型进行事件分类预测，以得到表征待抽取文档中目标词语-词语的输出邻接矩阵，通过对输出邻接矩阵进行结构解码，以得到表征待抽取文档中各事件记录中词语之间关联的解码双向事件完全图；

由于一个完全子图对应一个事件，通过获取解码双向事件完全图中的完全子图，以得到待抽取文档中的事件，通过解码完全子图中的所有词语-词语之间的边类型，可明确哪些词语在特定事件类型下的一个事件中扮演了指定角色的论元，得到该输出三元组关联关系。

请参阅图2，左上部分为语料标注的事件记录信息，右上部分为根据事件记录信息构建的词语-词语关联图(可表示为词语-词语邻接矩阵)。其中，选择“持股者”角色对应的词语“国联”作为伪触发词，伪触发词指向同一事件内的非伪触发词。

基于团的事件解码策略因共享伪触发词导致无法准确解码。当“国联”作为伪触发词时，、和对应的词语-词语关联图完全一样(如图2右上部分所示)，此时基于这个图解码成事件记录则存在问题，即无法确定是哪个虚框的事件记录。导致这种情况的原因是该策略需要选定伪触发词并以其为中心，伪触发词一旦相同或部分重叠，则解码存在错误。

因此，本实施例舍弃以伪触发词为中心的策略，将事件记录内的所有论元相互关联(即构建完全图，如图2左下部分所示)。其次，由于无向的词语-词语关联图只能揭示词语之间存在关联，而词语的边类型为，的边类型却为，它们的类型不相同。因此，词语-词语关联图中词语之间的连边需要采用双向，如图2右下部分所示。最后，本实施例设计了一个以事件类型-论元角色-论元角色关系为边类型的词语-词语双向事件完全图，通过解码该图中包含的每一个完全子图(一个完全子图对应一个事件)中的所有词语-词语之间的边类型，可明确哪些词语在特定事件类型下的一个事件中扮演了指定角色的论元。

本实施例中，通过构建三元组关联关系，能有效地确定各词语在特定事件类型下扮演指定角色的论元，通过构建样本双向事件完全图和样本邻接矩阵，能有效地确定同一个事件中词语之间的关联，基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练，使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息，防止了基于流水线模式的错误传播问题，提高了事件抽取的准确性。

实施例二

请参阅图3，是本发明第二实施例提供的基于双向事件完全图的文档级事件联合抽取方法的流程图，该实施例用于对第一实施例中步骤S40作进一步细化，包括步骤：

步骤S41，根据所述事件联合抽取模型中的编码层对各样本文档中的文档词语进行向量初始化，并获取捕获各文档词语之间的位置信息，得到特征编码信息；

其中，针对编码层：给定样本文档 d的词语初始化向量表示为，词语的类型为，其中，表示的类型并没有具体限定，不同词可以对应有不同的类型。例如，类型可以为公司名或时间词等。

请参阅图4，将词语在输入编码层中的Bi-LSTM网络之前与其类型拼接：

；

为拼接操作，为词语的初始化嵌入表示，在随机初始化生成的向量表中查找得到。

Bi-LSTM网络捕获词语对的位置信息，的嵌入表示更新过程表示为：

；

其中，和分别表示进行前向和后向LSTM操作， h _s表示第 s个词语的嵌入表示， N为词语数量。

词语输出Bi-LSTM网络的嵌入表示为：

；

词语对更新后的嵌入表示为：

；

步骤S42，根据所述事件联合抽取模型中的分类层对各特征编码信息进行事件分类预测，得到预测邻接矩阵，并根据所述预测邻接矩阵和所述样本邻接矩阵确定模型损失；

其中，通过分类层对各特征编码信息进行事件分类预测，得到预测邻接矩阵（预测的词语-词语邻接矩阵），针对分类层：对于样本文档中的各词语对，将其输入分类层中的全连接网络，采用softmax函数计算其对应嵌入表示在事件类型-论元角色-论元角色关系结构上的概率：

；

其中， W为权重矩阵， b为偏置项，为词语对在参数下的最终标签输出。

根据词语对在所有关系结构上的概率，采用标准带权重的交叉熵损失函数作为目标函数，以计算模型损失，目标函数公式为：

；

其中，为类别的权重。

可选的，针对预测的词语-词语邻接矩阵可以进行图结构解码，得到词语-词语双向事件完全图，对词语-词语双向事件完全图进行边类型解码，可以得到该预测的词语-词语邻接矩阵对应的事件记录。

步骤S43，根据所述模型损失对所述编码层和所述分类层进行参数更新，直至所述编码层和所述分类层收敛，得到收敛后的所述事件联合抽取模型；

可选的，该步骤中，所述根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练之后，还包括:

分别计算所述事件联合抽取模型的精确率、召回率和F1值；

当所述事件联合抽取模型的精确率、召回率和F1值均大于对应的收敛阈值时，则判定所述事件联合抽取模型收敛，其中，该收敛阈值可以根据需求进行设置；

；

其中， Precision表示所述精确率， Recall表示所述召回率， TP表示被预测为正且真实值为正的样本数， FP表示被预测为正但真实值为负的样本数， FN为被预测为负但真实值为正的样本数。在此需要补充说明的是，上述的F1值为综合评价指标，具体表示准确率和召回率的调和平均值。

本实施例中，通过对各样本文档中的文档词语进行向量初始化，获取捕获各文档词语之间的位置信息，能有效地对各样本文档中的文档词语进行特征编码，得到该特征编码信息，通过对各特征编码信息进行事件分类预测，能有效地得到事件联合抽取模型对各样本文档的预测邻接矩阵，基于预测邻接矩阵和样本邻接矩阵能有效地计算到事件联合抽取模型的模型损失，基于模型损失对编码层和分类层进行参数更新，以提高事件联合抽取模型的准确性。

实施例三

请参阅图5，是本发明第三实施例提供的基于双向事件完全图的文档级事件联合抽取系统100的结构示意图，包括：关系构建模块10、完全图构建模块11、邻接矩阵构建模块12、模型训练模块13和事件抽取模块14，其中：

关系构建模块10，用于获取样本事件类型，并根据各样本事件类型与论元角色之间的关系，构建三元组关联关系，所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色。

可选的，关系构建模块10还用于：分别获取各样本事件类型的论元角色集合，并将所述论元角色集合中的不同论元角色进行组合，得到论元角色对；

完全图构建模块11，用于获取标注语料中的事件记录信息，并根据各事件记录信息中的词语和所述三元组关联关系，构建样本双向事件完全图，所述样本双向事件完全图用于表征各事件记录中词语之间的关联。

可选的，完全图构建模块11还用于：分别获取各事件记录信息的事件类型，并分别将各事件记录信息中的事件词语进行组合，得到词语对；

邻接矩阵构建模块12，用于分别构建所述标注语料中各样本文档的邻接矩阵，并根据所述样本双向事件完全图对各邻接矩阵进行标识填充，得到样本邻接矩阵。

可选的，邻接矩阵构建模块12还用于：分别获取各样本文档的词语数，并根据所述词语数建立所述邻接矩阵；

模型训练模块13，用于根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练，直至所述事件联合抽取模型收敛。

模型训练模块13还用于：根据所述事件联合抽取模型中的编码层对各样本文档中的文档词语进行向量初始化，并获取捕获各文档词语之间的位置信息，得到特征编码信息；

进一步地，模型训练模块13还用于：分别计算所述事件联合抽取模型的精确率、召回率和F1值；

；

事件抽取模块14，用于将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取，得到事件信息。

可选的，事件抽取模块14还用于：根据收敛后的所述事件联合抽取模型对所述待抽取文档进行事件分类预测，得到输出邻接矩阵，并对所述输出邻接矩阵进行结构解码，得到解码双向事件完全图；

本实施例，通过构建三元组关联关系，能有效地确定各词语在特定事件类型下扮演指定角色的论元，通过构建样本双向事件完全图和样本邻接矩阵，能有效地确定同一个事件中词语之间的关联，基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练，使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息，防止了基于流水线模式的错误传播问题，提高了事件抽取的准确性。

实施例四

图6是本申请第四实施例提供的一种终端设备2的结构框图。如图6所示，该实施例的终端设备2包括：处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22，例如基于双向事件完全图的文档级事件联合抽取方法的程序。处理器20执行所述计算机程序22时实现上述各个基于双向事件完全图的文档级事件联合抽取方法各实施例中的步骤。

示例性的，所述计算机程序22可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器21中，并由所述处理器20执行，以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。所述终端设备可包括，但不仅限于，处理器20、存储器21。

所称处理器20可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器21可以是所述终端设备2的内部存储单元，例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备，例如所述终端设备2上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。其中，计算机可读存储介质可以是非易失性的，也可以是易失性的。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述根据各样本事件类型与论元角色之间的关系，构建三元组关联关系，包括：

3.如权利要求2所述的基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述根据各事件记录信息中的词语和所述三元组关联关系，构建样本双向事件完全图，包括：

4.如权利要求3所述的基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述分别构建所述标注语料中各样本文档的邻接矩阵，并根据所述样本双向事件完全图对各邻接矩阵进行标识填充，得到样本邻接矩阵，包括：

5.如权利要求1所述的基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练，包括：

6.如权利要求1所述的基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取，得到事件信息，包括：

7.如权利要求1至6任一所述的基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练之后，还包括:

分别计算所述事件联合抽取模型的精确率、召回率和F1值；

；

其中，Precision表示所述精确率，Recall表示所述召回率，TP表示被预测为正且真实值为正的样本数，FP表示被预测为正但真实值为负的样本数，FN为被预测为负但真实值为正的样本数。

8.一种基于双向事件完全图的文档级事件联合抽取系统，其特征在于，应用如上述权利要求1至7任一项所述的基于双向事件完全图的文档级事件联合抽取方法，所述系统包括：

9.如权利要求8所述的基于双向事件完全图的文档级事件联合抽取系统，其特征在于，所述关系构建模块还用于：

10.如权利要求9所述的基于双向事件完全图的文档级事件联合抽取系统，其特征在于，所述完全图构建模块还用于：