CN116629237B

CN116629237B - 基于逐步集成多层注意力的事件表示学习方法及系统

Info

Publication number: CN116629237B
Application number: CN202310917751.9A
Authority: CN
Inventors: 万齐智; 万常选; 刘德喜; 刘喜平; 胡蓉
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-10
Anticipated expiration: 2043-07-25
Also published as: CN116629237A

Abstract

本发明提出一种基于逐步集成多层注意力的事件表示学习方法及系统，该方法包括：获取文本中词语的结点嵌入表示，利用文本生成词语依存树及词语短语树，并构建词语‑短语依存树以及短语‑结构依存树，以词语的结点嵌入表示作为初始输入，采用上一层的输出转化为下一层输入的方式依次对词语依存树、词语‑短语依存树和短语‑结构依存树的结点嵌入表示进行更新，得到事件嵌入表示；每层转化包含转化注意力系数和语义重要性注意力系数，揭示转化过程中结点的不同重要程度。本发明不依赖于事先给定的各种关系，通过词语‑短语‑结构‑对象的转化策略，有指导地逐步编码事件及其上下文中蕴含的语义信息，利用包含事件的文本片段实现事件嵌入表示学习。

Description

基于逐步集成多层注意力的事件表示学习方法及系统

技术领域

本发明属于信息抽取技术领域，特别涉及一种基于逐步集成多层注意力的事件表示学习方法及系统。

背景技术

事件嵌入表示学习方法早期主要建模事件元素间的点乘信息；随后，通过利用事件之间的各种关系和外部知识，提高事件嵌入表示的区分度。这些方法存在以下局限：只针对抽取的事件元素进行编码、事件之间存在哪些关系需要事先给定，同时无法适用于不存在指定关系的情景、依赖外部知识。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于逐步集成多层注意力的事件表示学习方法及系统，以解决上述技术问题。

本发明提供了一种基于逐步集成多层注意力的事件表示学习方法，所述方法包括如下步骤：

步骤1、对文本的词语进行向量化，利用双向长短期记忆网络捕获文档中词的序列信息，以得到词语的结点嵌入表示；

步骤2、对文本进行句法解析，生成词语依存树及词语短语树；

步骤3、根据人类理解自然语言时，从词语、短语、结构到对象的理解过程，将词语依存树中属于短语范围的词语信息聚合至短语中心词，以短语中心词代表整个短语，得到词语-短语依存树；

再将所得词语-短语依存树中非核心成分结点信息向上合并至核心成分结点中，利用核心成分结点揭示事件语义，形成结构化的事件核心结点，通过若干结构化的事件核心结点构成短语-结构依存树；

步骤4、以词语的结点嵌入表示作为初始输入，采用上一层的输出根据词语聚合成短语的不同重要程度以及形成的短语对理解事件语义的不同重要程度转化为下一层的输入的方式依次对词语依存树、词语-短语依存树和短语-结构依存树的结点嵌入表示进行更新，以得到每个事件嵌入表示；

步骤5、判断属于同一个文本中的事件数量是否支持构建事件关联图，若是，则利用文本中事件信息构建事件关联图，将事件嵌入表示输入事件关联图进行更新，以捕获得到以事件为单位的全局信息。

本发明不依赖于事先给定的各种关系和外部知识，通过词语-短语-结构-对象的转化策略，有指导地逐步编码事件及其上下文中蕴含的语义信息，进而利用包含事件的文本片段即可实现事件嵌入表示学习。

本发明还提供了一种基于逐步集成多层注意力的事件表示学习系统，所述系统包括：

编码层：用于对文本的词语进行向量化；

Bi-LSTM层：用于利用双向长短期记忆网络对每个词语进行编码，以捕获文档中词的序列信息，得到隐含状态向量，隐含状态向量既词语的结点嵌入表示；

树构建模块：用于对文本进行句法解析，生成词语依存树及词语短语树；

根据人类理解自然语言时，从词语、短语、结构到对象的理解过程，将词语依存树中属于短语范围的词语信息聚合至短语中心词，以短语中心词代表整个短语，得到词语-短语依存树；

再将所得词语-短语依存树中非核心成分结点信息向上合并至核心成分结点中，利用核心成分结点揭示事件语义，形成结构化的事件核心结点，若干结构化的事件核心结点构成短语-结构依存树；

GAT-转化模块：用于以词语的结点嵌入表示作为初始输入，采用上一层的输出根据词语聚合成短语的不同重要程度以及形成的短语对理解事件语义的不同重要程度转化为下一层的输入的方式依次对词语依存树、词语-短语依存树和短语-结构依存树的结点嵌入表示进行更新，得到每个事件嵌入表示；

判断属于同一个文本中的事件数量是否支持构建事件关联图，若是，则利用文本中事件信息构建事件关联图，将事件嵌入表示输入事件关联图进行更新，捕获以事件为单位的全局信息。

进一步的，还包括有下游任务模块：用于监督上游任务的训练，生成对应的事件嵌入表示。

进一步的，GAT-转化模块包括分别设置于聚合层、合并层、映射层和事件应用层的神经网络(GAT)和设置于聚合层、合并层、映射层，并与图神经网络对应转化模块，图神经网络(GAT)根据输入的结点嵌入表示和图结构，更新结点的嵌入表示；转化模块主要负责相邻层之间不同树结构的转化，保证GAT的有效执行。

本发明的附加方面与优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于逐步集成多层注意力的事件表示学习方法的流程图；

图2为本发明提出的基于逐步集成多层注意力的事件表示学习系统的拓扑图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。

请参阅图1，本发明实施例提供了一种基于逐步集成多层注意力的事件表示学习方法，所述方法包括如下步骤：

进一步的，利用双向长短期记忆网络对每个词语进行编码的方法具体包括：

将每个词语，采用前向LSTM编码/>至/>的上下文信息/>，再采用后向LSTM编码至/>的上下文/>，具体如下：

；

将和/>进行拼接作为词语/>经过Bi-LSTM后的特征表示，记为/>。其中，表示拼接操作，/>表示词语/>对应的向量表示，/>表示文本包含的词语数量。

步骤2、对文本进行句法解析，生成词语依存树(TDP)及词语短语树(TPP)；

步骤3、根据人类理解自然语言时，从词语、短语、结构到对象的理解过程，将词语依存树中属于短语范围的词语信息聚合至短语中心词，以短语中心词代表整个短语，以得到词语-短语依存树(TPDP)；

再将所得词语-短语依存树中非核心成分结点信息向上合并至核心成分结点中，利用核心成分结点揭示事件语义，形成结构化的事件核心结点，通过若干结构化的事件核心结点构成短语-结构依存树(PSDP)；

其中，核心结点包括充当谓语的结点、依存关系类型为主谓关系或谓宾关系的结点、语义角色标注词语为时间或地点涵义的结点。

优选的，将更新后的词语依存树结点转化成下一层的输入存在如下关系式：

；

其中，表示非线性函数，/>表示注意力的头数，/>表示基于词语聚合成短语的不同重要程度所构建的聚合层转化注意力系数，/>表示基于形成的短语对理解事件语义的不同重要程度所构建的聚合层语义重要性系数，/>采用随机初始化生成，/>表示哈达马积，即矩阵对应元素相乘，/>表示转置操作，/>根据词语依存树(TDP)生成，/>表示聚合层词语-短语的聚合矩阵，/>表示词语-短语依存树中结点的个数，/>表示GAT网络在聚合层输出的嵌入表示，/>表示在聚合层转化后输出的嵌入表示。

优选的，将更新后的词语-短语依存树结点转化成下一层的输入存在如下关系式：

；

其中，表示基于词语聚合成短语的不同重要程度所构建的合并层转化注意力系数，/>根据词语-短语依存树(TPDP)生成，/>表示合并层词语-短语的聚合矩阵，/>表示基于形成的短语对理解事件语义的不同重要程度所构建的合并层语义重要性系数，/>采用随机初始化生成，/>表示短语-结构依存树中合并属于相同事件结点后的结点个数，/>表示GAT网络在合并层输出的嵌入表示，/>表示合并层产生的每个结点的向量维度，/>表示在合并层转化后输出的嵌入表示。

优选的，将更新后的短语-结构依存树结点转化成下一层的输入存在如下关系式：

；

其中，表示基于词语聚合成短语的不同重要程度所构建的映射层转化注意力系数，/>根据短语-结构依存树(PSDP)生成，/>表示映射层词语-短语的聚合矩阵，/>表示基于形成的短语对理解事件语义的不同重要程度所构建的映射层语义重要性系数，/>采用随机初始化生成，/>表示短语-结构依存树中事件结点数量，/>表示GAT网络在映射层输出的嵌入表示，/>表示映射层产生的每个结点的向量维度，/>表示在映射层转化后输出的嵌入表示。

优选的，将事件嵌入表示输入事件关联图进行更新存在如下关系式：

；

其中，表示更新后的事件嵌入表示，/>表示事件应用层的嵌入表示，表示对事件应用层的嵌入表示/>进行图注意力编码，/>存在如下关系式：

；

其中，存在如下关系式：

；

其中，表示池化操作，/>表示由Bi-LSTM输出的词语嵌入根据词语依存树揭示的事件所包含的词语组成的事件嵌入表示。

步骤6，将事件嵌入表示灌溉给下游任务，利用下游任务监督上游模型的训练，生成对应的事件嵌入表示。

进一步的，聚合层转化注意力系数、合并层转化注意力系数和映射层转化注意力系数均采用同一转化注意力系数计算方式，转化注意力系数表达式为：

；

其中，表示非线性函数，/>表示转化注意力系数中的元素，/>表示激活函数，/>表示结点/>的权重向量，/>表示当前层产生的每个结点的向量维度，/>表示聚合层产生的每个结点的向量维度，/>表示结点/>的嵌入表示。

进一步的，在执行上述步骤1至步骤5中，对应的训练方法包括如下训练步骤：

给定的黄金标签；

将最终的事件嵌入表示输入全连接网络；

采用softmax函数计算第i个事件e _i在各标签上的概率分布，概率分布表达式为：

；

其中，表示权重矩阵，/>表示偏置项，/>表示事件/>在参数/>下的最终标签输出，表示第/>个事件的嵌入表示；

采用带权重的交叉熵损失函数作为目标函数计算黄金标签与最终的概率分布的损失值，通过最小化损失以提高输出最终的事件嵌入表示的准确性，目标函数表达式为：

；

其中，表示短语-结构依存树中事件结点数量，/>表示/>类别的权重。

本发明根据概率分布实现主题事件抽取，在抽取完成后还可以采用精确率、召回率、F1值作为评价指标，以评价文档级事件抽取的效果；

；

其中，Precision表示精确率，Recall表示召回率，TP表示被预测为正且真实值为正的样本数，FP表示被预测为正但真实值为负的样本数，FN为被预测为负但真实值为正的样本数。

与现有技术相比，本发明的有益效果为：

1) 本发明不依赖于事先给定的各种关系和外部知识，通过词语-短语-结构-对象的转化策略，有指导地逐步编码事件及其上下文中蕴含的语义信息，进而利用包含事件的文本片段即可实现事件嵌入表示学习。

2) 根据词语聚合成短语的不同重要程度以及形成的短语对理解事件语义的不同重要程度定义注意力机制，揭示每一步转化过程中各原对象在形成新对象时的不同关注度以及形成的新对象对理解事件语义的不同重要程度。

请参照图2，本发明实施例还提供一种基于逐步集成多层注意力的事件表示学习系统，所述系统包括：

编码层：用于对文本的词语进行向量化；

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于逐步集成多层注意力的事件表示学习方法，其特征在于，所述方法包括如下步骤：

步骤3、根据人类理解自然语言时，从词语、短语、结构到对象的理解过程，将词语依存树中属于短语范围的词语信息聚合至短语中心词，以短语中心词代表整个短语，以得到词语-短语依存树；

步骤5、判断属于同一个文本中的事件数量是否支持构建事件关联图，若是，则利用文本中事件信息构建事件关联图，将事件嵌入表示输入事件关联图进行更新，以捕获得到以事件为单位的全局信息；

在步骤4中，将更新后的词语依存树结点转化成下一层的输入存在如下关系式：

；

其中，表示非线性函数，/>表示注意力的头数，/>表示基于词语聚合成短语的不同重要程度所构建的聚合层转化注意力系数，/>表示基于形成的短语对理解事件语义的不同重要程度所构建的聚合层语义重要性系数，/>采用随机初始化生成，/>表示哈达马积，即矩阵对应元素相乘，/>表示转置操作，/>根据词语依存树生成，表示聚合层词语-短语的聚合矩阵，/>表示文本包含的词语数量，/>表示词语-短语依存树中结点的个数，/>表示GAT网络在聚合层输出的嵌入表示，/>表示在聚合层转化后输出的嵌入表示；

将更新后的词语-短语依存树结点转化成下一层的输入存在如下关系式：

；

其中，表示基于词语聚合成短语的不同重要程度所构建的合并层转化注意力系数，/>根据词语-短语依存树生成，/>表示合并层词语-短语的聚合矩阵，/>表示基于形成的短语对理解事件语义的不同重要程度所构建的合并层语义重要性系数，/>采用随机初始化生成，/>表示短语-结构依存树中合并属于相同事件结点后的结点个数，/>表示GAT网络在合并层输出的嵌入表示，/>表示合并层产生的每个结点的向量维度，/>表示在合并层转化后输出的嵌入表示；

将更新后的短语-结构依存树结点转化成下一层的输入存在如下关系式：

；

其中，表示基于词语聚合成短语的不同重要程度所构建的映射层转化注意力系数，/>根据短语-结构依存树生成，/>表示映射层词语-短语的聚合矩阵，/>表示基于形成的短语对理解事件语义的不同重要程度所构建的映射层语义重要性系数，/>采用随机初始化生成，/>表示短语-结构依存树中事件结点数量，表示GAT网络在映射层输出的嵌入表示，/>表示映射层产生的每个结点的向量维度，/>表示在映射层转化后输出的嵌入表示；

在步骤5中，将事件嵌入表示输入事件关联图进行更新存在如下关系式：

；

其中，表示更新后的事件嵌入表示，/>表示事件应用层的嵌入表示，/>表示对事件应用层的嵌入表示/>进行图注意力编码，/>存在如下关系式：

；

其中，存在如下关系式：

；

2.根据权利要求1所述的一种基于逐步集成多层注意力的事件表示学习方法，其特征在于，所述方法还包括步骤6：

将事件嵌入表示灌溉给下游任务，利用下游任务监督上游模型的训练，以生成对应的事件嵌入表示。

3.根据权利要求1所述的一种基于逐步集成多层注意力的事件表示学习方法，其特征在于，在执行上述步骤1至步骤5中，对应的训练方法包括如下训练步骤：

给定的黄金标签；

将最终的事件嵌入表示输入全连接网络；

采用softmax函数计算第个事件/>在各标签上的概率分布，概率分布表达式为：

；

其中，表示权重矩阵，/>表示偏置项， />表示事件/>在参数/>下的最终标签输出，/>表示第/>个事件的嵌入表示；

；

4.根据权利要求1所述的一种基于逐步集成多层注意力的事件表示学习方法，其特征在于，在步骤1中，利用双向长短期记忆网络对每个词语进行编码的方法具体包括：

将每个词语，采用前向LSTM编码/>至/>的上下文信息/>，再采用后向LSTM编码/>至的上下文/>；

将和/>进行拼接作为词语/>经过Bi-LSTM后的特征表示。

5.根据权利要求1至4任意一项所述的一种基于逐步集成多层注意力的事件表示学习方法，其特征在于，聚合层转化注意力系数、合并层转化注意力系数和映射层转化注意力系数均采用同一转化注意力系数计算方式，转化注意力系数表达式为：

；

其中，表示非线性函数，/>表示转化注意力系数中的元素，/>表示激活函数，/>表示结点/>的权重向量，/>表示当前层产生的每个结点的向量维度， />表示聚合层产生的每个结点的向量维度，/>表示结点/>的嵌入表示。

6.一种基于逐步集成多层注意力的事件表示学习系统，其特征是，所述系统应用如权利要求1所述的基于逐步集成多层注意力的事件表示学习方法，所述系统包括：

编码层：用于对文本的词语进行向量化；