CN114444473B

CN114444473B - 基于多通道层次图注意力网络的开放事件抽取方法与系统

Info

Publication number: CN114444473B
Application number: CN202210375116.8A
Authority: CN
Inventors: 万齐智; 万常选; 胡蓉; 刘德喜; 刘喜平
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-06-21
Anticipated expiration: 2042-04-11
Also published as: CN114444473A

Abstract

本发明提出一种基于多通道层次图注意力网络的开放事件抽取方法与系统，该方法包括：获取给定文档，根据给定文档建立得到文档句法依存树；基于文档句法依存树，依次按照调整依存结构、关联缺省成分、添加序列顺序以及关联祖先结点与后代结点的步骤，以构建得到双向依存图；基于原始图注意力网络，嵌入结点类型并进行层级调整，以改造原始图注意力网络的特征汇聚过程，进而构建得到层次图注意力网络；构建得到三通道图注意力网络；将给定文档中的词语，输入至三通道图注意力网络更新嵌入表示，并通过全连接网络进行四分类判断，以实现开放事件的抽取。本发明可有效增强图结构的特征编码能力。

Description

基于多通道层次图注意力网络的开放事件抽取方法与系统

技术领域

本发明涉及信息抽取技术领域，特别涉及一种基于多通道层次图注意力网络的开放事件抽取方法与系统。

背景技术

事件抽取作为信息抽取的关键基础任务，旨在从浩瀚的文本数据中抽取有价值的事件信息。毫无疑义的，事件抽取具有较大意义，可以帮助投资决策、风险分析、人们交谈方式的理解、案件推送以及辅助决策等。

目前，现有的针对开放事件抽取的研究工作中，有部分是采用远程监督和对抗技术检测不限定类型的事件；还有一部分是采用模式匹配的方法抽取三元组事件。

然而，上述的研究存在较大的局限性，事件检测只需要识别事件的触发词，不讨论事件论元的抽取；模式匹配的方法通常准确率高，其召回率一般较低，即只能适用于部分语料和场景。基于此，有必要开发出一种普遍适用的开放事件抽取策略，以帮助很多下游应用。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于多通道层次图注意力网络的开放事件抽取方法与系统，以解决上述的技术问题。

本发明实施例提出一种基于多通道层次图注意力网络的开放事件抽取方法，其中，所述方法包括如下步骤：

步骤一、获取给定文档，根据所述给定文档建立得到文档句法依存树；

步骤二、基于所述文档句法依存树，依次按照调整依存结构、关联缺省成分、添加序列顺序以及关联祖先结点与后代结点的步骤，以构建得到双向依存图；

步骤三、基于原始图注意力网络，嵌入结点类型并进行层级调整，以改造所述原始图注意力网络的特征汇聚过程，进而构建得到层次图注意力网络，其中所述结点类型包括自身结点、父结点、兄弟结点、子结点以及孙结点，嵌入结点类型并进行层级调整表示在所述原始图注意力网络中添加结点类型的权重以及添加结点层级的权重；

步骤四、基于所述层次图注意力网络，编码得到词语语义特征、句法依存关系类型特征以及词性特征，并根据所述词语语义特征、所述句法依存关系类型特征以及所述词性特征构建得到三通道图注意力网络，其中所述三通道图注意力网络包括词语语义图注意力网络、句法依存关系图注意力网络以及词语词性图注意力网络；

步骤五、将所述给定文档中的词语，输入至所述三通道图注意力网络更新嵌入表示，并通过全连接网络进行四分类判断，以实现开放事件的抽取，其中四分类包括主语、谓语、宾语及非主谓宾短语。

本发明提出一种基于多通道层次图注意力网络的开放事件抽取方法，基于句法依存树，设计双向依存图，能够有效增强图结构的特征编码能力；针对原始图注意力网络，通过嵌入结点类型并进行层级调整，以构建得到层次图注意力网络，使得结点特征在汇聚时能够捕获具有层级信息和结点类型信息的图结构；本发明单独地编码词语语义、依存关系类型和词性信息，使得每个通道既可以重点关注本身的主要特征，又可及时混入其它通道的特征进行补充。

所述基于多通道层次图注意力网络的开放事件抽取方法，其中，在所述步骤一中，所述文档句法依存树的构建方法包括如下步骤：

采用句法依存分析工具对所述给定文档进行分句以得到多个语句；

依次对所述给定文档中的每个语句进行句法结构解析，以得到语句的句法依存树；

将所有语句对应的句法依存树按照语句顺序进行排列，以建立得到所述文档句法依存树；

其中，所述给定文档

表示为

，在所述给定文档

中，第

个语句

的词语

表示为：

其中，

表示给定文档

中的语句数量，

表示语句长度，

表示语句中的第

个词语，每个词语对应语句中一个结点。

所述基于多通道层次图注意力网络的开放事件抽取方法，其中，在所述步骤三中，在所述原始图注意力网络中，结点

与结点

之间的原始图注意力系数

表示为：

其中，W为变换矩阵，

为结点i的嵌入表示，

为结点j的嵌入表示，

为共享注意力机制；

采用softmax归一化公式对原始图注意力系数

进行标准化可得：

其中，

表示原始图注意力系数

标准化后的结果，

表示结点i与结点

之间的原始图注意力系数，

表示与结点i直接相连的结点集合；

原始图中结点i基于多头注意力机制的嵌入表示

的公式为：

其中，K为多头注意力的头数，

为非线性函数，

为结点i和结点j的第k头注意力系数，

表示第k头注意力的变换矩阵。

所述基于多通道层次图注意力网络的开放事件抽取方法，其中，在所述步骤三中，在所述层次图注意力网络中，结点

与结点

之间的层次图注意力系数

表示为：

其中，

表示结点j汇聚至结点i时的类型，

表示结点

汇聚至结点i时的类型，

的取值范围为(0，1]，

表示对共享注意力机制

进行参数化，

表示激活函数，

表示结点

的嵌入表示；

层次图中结点i基于多头注意力机制的嵌入表示

的公式为：

其中，

，

表示结点j的层级，

为标准化后的层级值，

。

所述基于多通道层次图注意力网络的开放事件抽取方法，其中，在所述步骤四中，输出所述词语语义特征的计算公式表示为：

其中，

表示结点i在第l层的词语语义特征，

表示结点i和结点j在第l-1层的第k头注意力系数，

为第l-1层的第k头注意力的变换矩阵，

表示结点j在第l-1层的嵌入表示。

所述基于多通道层次图注意力网络的开放事件抽取方法，其中，在所述步骤四中，输出所述句法依存关系类型特征的计算公式表示为：

其中，

为结点i的句法依存关系类型在第l层的嵌入表示，即所述句法依存关系类型特征，M同样为多头注意力的头数，

表示结点i和结点j之间依存关系类型在第l-1层的第m头注意力系数，

为第l-1层的第m头注意力的变换矩阵，

表示结点j在第l-1层的词语语义嵌入表示，

为结点i和结点j在第l-1层第m头的边的权重，即

标准化之前的值，

为结点i和结点d在第l-1层第m头的边的权重，relu(·)为激活函数，

为结点i和结点j之间的句法依存关系类型在第l-1层的嵌入表示，

和

分别为第m头的2个不同的变换矩阵，

和

分别为第m头2个不同的偏置项。

所述基于多通道层次图注意力网络的开放事件抽取方法，其中，在得到了所述词语语义特征、句法依存关系类型特征以及词性特征之后，所述方法还包括：

将结点i的最后一层的输出特征进行拼接，以得到三通道图注意力网络的最终结点特征；

其中，

表示三通道图注意力网络的最终结点特征，

表示结点i在第l层的词语语义的嵌入表示，

表示结点i在第l层的句法依存关系类型的嵌入表示，

表示结点i在第l层的词性的嵌入表示。

所述基于多通道层次图注意力网络的开放事件抽取方法，其中，所述方法还包括：

对于三通道图注意力网络输出的每个结点的嵌入表示，将每个结点的嵌入表示输入至全连接网络，采用softmax函数计算结点的嵌入表示在所有事件元素标签上的概率：

其中，

为结点的嵌入表示在所有事件元素标签上的概率，

为权重矩阵，

为结点i在L层的最终嵌入表示，

表示偏置项，

表示结点i在参数

下的最终标签输出；

根据结点的嵌入表示在所有事件元素标签上的概率，采用带权重的交叉熵损失函数作为目标函数

，目标函数

对应的公式为：

其中，

为语句数量，

为第s个语句中结点的个数，

为

类别的权重；

其中，Med(·)表示取中值操作，

为语料中属于第r个标签类别的词语数量，

表示第r个标签的类别，

表示语料中第n个标签类别的词语数量。

采用精确率、召回率、Micro-F1值以及Macro-Avg-F1值作为评价指标，以评价开放时间的抽取效果；

其中，Precision表示精确率，Recall表示召回率，F1表示Micro-F1值，Avg-F1表示Macro-Avg-F1值，TP表示被预测为正且真实值为正的样本数，FP表示被预测为正但真实值为负的样本数，FN为被预测为负但真实值为正的样本数，

分别表示主语、谓语、宾语和其它的F1值分数。

本发明提出一种基于多通道层次图注意力网络的开放事件抽取系统，其中，所述系统包括：

第一处理模块，用于获取给定文档，根据所述给定文档建立得到文档句法依存树；

第二处理模块，用于基于所述文档句法依存树，依次按照调整依存结构、关联缺省成分、添加序列顺序以及关联祖先结点与后代结点的步骤，以构建得到双向依存图；

第三处理模块，用于基于原始图注意力网络，嵌入结点类型并进行层级调整，以改造所述原始图注意力网络的特征汇聚过程，进而构建得到层次图注意力网络，其中所述结点类型包括自身结点、父结点、兄弟结点、子结点以及孙结点，嵌入结点类型并进行层级调整表示在所述原始图注意力网络中添加结点类型的权重以及添加结点层级的权重；

第四处理模块，用于基于所述层次图注意力网络，编码得到词语语义特征、句法依存关系类型特征以及词性特征，并根据所述词语语义特征、所述句法依存关系类型特征以及所述词性特征构建得到三通道图注意力网络，其中所述三通道图注意力网络包括词语语义图注意力网络、句法依存关系图注意力网络以及词语词性图注意力网络；

事件抽取模块，用于将所述给定文档中的词语，输入至所述三通道图注意力网络更新嵌入表示，并通过全连接网络进行四分类判断，以实现开放事件的抽取，其中四分类包括主语、谓语、宾语及非主谓宾短语。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于多通道层次图注意力网络的开放事件抽取方法的流程图；

图2为本发明提出的基于多通道层次图注意力网络的开放事件抽取方法的流程框架图；

图3为本发明提出的基于多通道层次图注意力网络的开放事件抽取系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1与图2，本发明提出一种基于多通道层次图注意力网络的开放事件抽取方法，其中，所述方法包括如下步骤：

S101、获取给定文档，根据所述给定文档建立得到文档句法依存树。

在本步骤中，文档句法依存树的构建方法包括如下步骤：

S1011、采用句法依存分析工具对所述给定文档进行分句以得到多个语句。

S1012、依次对所述给定文档中的每个语句进行句法结构解析，以得到语句的句法依存树。

S1013、将所有语句对应的句法依存树按照语句顺序进行排列，以建立得到所述文档句法依存树。

其中，给定文档

表示为

，在给定文档

中，第

个语句

的词语

表示为：

其中，

表示给定文档

中的语句数量，

表示语句长度，

表示语句中的第

个词语，其中每个词语对应语句中一个结点。

在本发明中，通过Bi-LSTM层对上述的各词语进行编码拼接。具体的，利用一个前向LSTM编码w ₁至w _i的上下文信息

，然后再采用一个后向LSTM编码

至w _i的上下文

。最后，将

和

进行拼接作为词语w _i经过Bi-LSTM后的特征表示，记为

。其中，||表示拼接操作。

S102、基于所述文档句法依存树，依次按照调整依存结构、关联缺省成分、添加序列顺序以及关联祖先结点与后代结点的步骤，以构建得到双向依存图。

其中，调整依存结构的过程包括：

扫描文档句法依存树中所有并列关系的依存结构；

针对每个依存结构，获取相应的结点（即父结点pNode以及子结点cNode），并将父结点pNode以及子结点cNode的依存关系调整为兄弟关联关系；

为父结点pNode以及子结点cNode建立依存关联，形成文档句法依存图。

关联缺省成分的方法包括如下步骤：

扫描文档句法依存图，获取结点列表；

针对每个结点Node，利用成分缺省判断和补全策略，建立由缺省的成分结点指向结点Node的连边。

添加序列顺序的方法包括如下步骤：

扫描文档句法依存图；

针对每个结点Node，获取其对应的子结点cNode；

针对每个子结点cNode，根据结点Node和子结点cNode对应词语在原始语句中的顺序，为结点Node和子结点cNode建立前向边或后向边。

其中，子结点cNode出现在结点Node之前，则建立由结点Node指向子结点cNode的前向边，代表前向序列结构，否则建立后向边。

关联祖先结点和后代结点的方法包括如下步骤：

扫描文档句法依存图；

针对每个结点Node，获取其对应的后代结点desNodes；

针对每个后代结点desNode，建立后代结点desNode与Node的双向边。

S103、基于原始图注意力网络，嵌入结点类型并进行层级调整，以改造所述原始图注意力网络的特征汇聚过程，进而构建得到层次图注意力网络。

其中，所述结点类型包括自身结点、父结点、兄弟结点、子结点以及孙结点，嵌入结点类型并进行层级调整表示在所述原始图注意力网络中添加结点类型的权重以及添加结点层级的权重。

在本步骤中，在原始图注意力网络中，结点

与结点

之间的原始图注意力系数

表示为：

其中，W为变换矩阵，

为结点i的嵌入表示，

为结点j的嵌入表示，

为共享注意力机制。

进一步的，采用softmax归一化公式对原始图注意力系数

进行标准化可得：

其中，

表示原始图注意力系数

标准化后的结果，

表示结点i与结点

之间的原始图注意力系数，

表示与结点i直接相连的结点集合。

原始图中结点i基于多头注意力机制的嵌入表示

的公式为：

其中，K为多头注意力的头数，

为非线性函数，

为结点i和结点j的第k头注意力系数，

表示第k头注意力的变换矩阵。

进一步的，在层次图注意力网络中，结点

与结点

之间的层次图注意力系数

表示为：

其中，

表示结点j汇聚至结点i时的类型，

表示结点

汇聚至结点i时的类型，

的取值范围为(0，1]，

表示对共享注意力机制

进行参数化，

表示激活函数，

表示结点

的嵌入表示。

层次图中结点i基于多头注意力机制的嵌入表示

的公式为：

其中，

，

表示结点j的层级，

为标准化后的层级值，

。

S104、基于所述层次图注意力网络，编码得到词语语义特征、句法依存关系类型特征以及词性特征，并根据所述词语语义特征、所述句法依存关系类型特征以及所述词性特征构建得到三通道图注意力网络。

其中，上述的三通道图注意力网络包括词语语义图注意力网络、句法依存关系图注意力网络以及词语词性图注意力网络。

在步骤S104中，输出词语语义特征的计算公式表示为：

其中，

表示结点i在第l层的词语语义特征，

表示结点i和结点j在第l-1层的第k头注意力系数，

为第l-1层的第k头注意力的变换矩阵，

表示结点j在第l-1层的嵌入表示。

输出所述句法依存关系类型特征的计算公式表示为：

其中，

为第l-1层的第m头注意力的变换矩阵，

表示结点j在第l-1层的词语语义嵌入表示，

为结点i和结点j在第l-1层第m头的边的权重，即

标准化之前的值，

和

分别为第m头的2个不同的变换矩阵，

和

分别为第m头2个不同的偏置项。

作为补充说明的，对于上述输出句法依存关系类型特征的计算公式，同样可输出词性特征，只需将上述的角标dep更改为pos，故在此不再重复呈现上述公式。

进一步的，在得到了词语语义特征、句法依存关系类型特征以及词性特征之后，所述方法还包括：

其中，

表示三通道图注意力网络的最终结点特征，

表示结点i在第l层的词语语义的嵌入表示，

表示结点i在第l层的句法依存关系类型的嵌入表示，

表示结点i在第l层的词性的嵌入表示。

S105、将所述给定文档中的词语，输入至所述三通道图注意力网络更新嵌入表示，并通过全连接网络进行四分类判断，以实现开放事件的抽取。

其中，四分类包括主语、谓语、宾语及非主谓宾短语。对于分类判断的操作，在分类层中，对于三通道图注意力网络输出的每个结点的嵌入表示，将每个结点的嵌入表示输入至全连接网络，采用softmax函数计算结点的嵌入表示在所有事件元素标签上的概率：

其中，

为结点的嵌入表示在所有事件元素标签上的概率，

为权重矩阵，

为结点i在L层的最终嵌入表示，

表示偏置项，

表示结点i在参数

下的最终标签输出；

，目标函数

对应的公式为：

其中，

为语句数量，

为第s个语句中结点的个数，

为

类别的权重；

其中，Med(·)表示取中值操作，

为语料中属于第r个标签类别的词语数量，

表示第r个标签的类别，

表示语料中第n个标签类别的词语数量。

为了考察事件缺省成分的补全抽取效果，采用精确率、召回率、Micro-F1值以及Macro-Avg-F1值作为评价指标，以评价开放时间的抽取效果；

分别表示主语、谓语、宾语和其它的F1值分数。

请参阅图3，本发明提出一种基于多通道层次图注意力网络的开放事件抽取系统，其中，所述系统包括：

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。