CN115841119B

CN115841119B - 一种基于图结构的情绪原因提取方法

Info

Publication number: CN115841119B
Application number: CN202310144042.1A
Authority: CN
Inventors: 宋彦; 田元贺; 张勇东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-06-16
Anticipated expiration: 2043-02-21
Also published as: CN115841119A

Abstract

本发明涉及自然语言处理技术领域，公开了一种基于图结构的情绪原因提取方法；在图构建模块中，通过在情绪原因句子、情绪句子以及情绪之间构建边，有效构建起了他们之间的上下文和情绪信息之间的关系，并通过关系图卷积网络和注意力图卷积神经网络的建模有效利用了这些信息，从而提升了模型的性能；通过注意力图卷积神经网络模块计算注意力系数，对不同的上下文信息和情绪信息进行加权，实现了对不同信息的重要性的识别和利用，有效避免了这些信息中潜在的噪音对模型性能的影响。

Description

一种基于图结构的情绪原因提取方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于图结构的情绪原因提取方法。

背景技术

情绪原因提取旨在从对话中提取出导致目标情绪句子含有特定情绪的“情绪原因片段”。现有的方法把这个任务看作是抽取式问答任务，将情绪、情绪句子和单个情绪原因句子填入问题模板，并从情绪原因句子中抽取出情绪原因片段。

这种做法的局限性在于每次仅对一个情绪原因句子分析，忽略了句子之间的因果关系，可能造成情绪原因片段的遗漏。

本发明建立关于情绪原因句子、目标情绪句子和情绪的有向图模型，并将它们的相对位置关系引入到边上，从而全面地捕获情绪产生过程的因果关系，减少了由于忽略句子间因果关系造成的遗漏问题。

发明内容

为解决上述技术问题，本发明提供一种基于图结构的情绪原因提取方法。

为解决上述技术问题，本发明采用如下技术方案：

一种基于图结构的情绪原因提取方法，通过情绪原因提取模型从对话中提取出导致情绪句子含有特定情绪E的情绪原因片段，情绪原因片段所在的句子称为情绪原因句子；

对话记为

，其中/>

为对话的第i个句子，N为对话中的句子总数，/>

为第i个句子的第j个词，/>

为第i个句子中词的总数；情绪句子记为/>

；

为词/>

的情绪原因抽取标签，当/>

不属于情绪E的原因时，/>

；当/>

在情绪E的原因的开始位置时，/>

；/>

在情绪E的原因的中间时，/>

；将情绪原因抽取标签/>

和

的词按顺序组合在一起即形成所述的情绪原因片段；

情绪原因提取模型包括编码器、多原因推测图网络和解码器；

情绪原因提取模型训练过程包括以下步骤：

步骤一、使用编码器为对话中的N个句子以及句子中的词进行编码，得到第i个句子的初始句子编码向量

，第i个句子中第j个词的初始词编码向量/>

；记情绪句子/>

的初始情绪编码向量/>

；将初始句子编码向量/>

和初始情绪编码向量/>

输入到双向长短期记忆网络后，得到句子编码向量/>

和情绪编码向量/>

；取句子/>

中，存在情绪原因片段的情绪原因句子/>

对应的句子编码向量，得到原因编码向量

，n为情绪原因句子的总数；第c个情绪原因句子中第j个词的词编码向量为/>

；

步骤二、使用多原因推测图网络，对n个原因编码向量

、情绪E、情绪编码向量/>

建模，得到n个增强原因隐向量/>

，其中，第c个增强原因隐向量为/>

；

步骤三、使用解码器，对某个情绪原因句子

的每个词的词编码向量/>

与/>

对应的原因增强隐向量/>

进行粘连，生成增强词编码隐向量/>

，即

；将增强词编码隐向量/>

通过全连接层得到最终输出词向量/>

，即

，/>

和b分别为解码器矩阵和向量；其中/>

每个维度的值表示对应维度的情绪标签得分，选择得分最高的情绪标签作为词/>

的情绪原因抽取标签/>

的预测结果。

进一步地，所述编码器为SpanBERT编码器。

进一步地，多原因推测图网络包括嵌入模块、图构建模块、关系图卷积神经网络模块和注意力图卷积神经网络模块；步骤二中，多原因推测图网络计算增强原因隐向量

的过程如下：

步骤21：在嵌入模块中，使用情绪嵌入矩阵，把情绪E映射为向量

，然后计算原因编码隐向量/>

、情绪隐向量/>

和情绪句子隐向量/>

：

；

其中

和/>

为可训练参数，构成关于原因编码向量/>

的全连接层；/>

为非线性激活函数；

；

其中

和/>

为可训练的参数，构成关于情绪编码向量/>

的全连接层；

；

其中

为情绪词嵌入矩阵，/>

和/>

均为线性激活函数/>

的参数，/>

表示自变量；

步骤22：在图构建模块中，把情绪句子隐向量

、情绪隐向量/>

以及n个原因编码隐向量/>

作为节点表征；记这n+2个节点表征为/>

，/>

为第k个节点，其中当/>

时，/>

；当/>

时，/>

；当/>

时，/>

；得到邻接矩阵

和关系矩阵/>

；其中/>

表示为G中任意两个节点/>

之间的有向边，/>

，/>

表示有向边/>

所标记的值，反映了节点/>

与节点/>

之间的关系；对得到的n+2个节点/>

使用有向异构图模型/>

进行建模：即G中的每一对节点/>

都能够映射到邻接矩阵A中的一个元素/>

，而邻接矩阵A中的元素/>

也能够映射为关系矩阵/>

中的元素/>

；

步骤23：在关系图卷积神经网络模块中，对于每个节点

，将与/>

有连接的其他节点/>

的信息聚合到节点/>

中后，记为节点/>

：

；

其中，

是与节点/>

有连接的其他节点的集合；/>

是关系矩阵R中起始节点为/>

的可能值的集合，/>

；/>

是用于自连接的矩阵，能够聚合自身的信息；/>

是在关系r下用于提取节点/>

信息的矩阵，/>

和/>

均为可训练参数；

步骤24：在注意力图卷积神经网络模块中，使用注意力机制，对连接节点的异构信息进行动态聚合，具体包括：对于节点

，计算与/>

连接的节点/>

对应的注意力系数/>

：

；

其中

表示softmax激活函数，/>

为LeakyRelu非线性激活函数，/>

是用于得到注意力打分值的可训练的向量，/>

为可训练的参数，/>

是与节点/>

有连接的其他节点的集合；

得到注意力系数

后，将和/>

相连的节点进行加权求和得到所述的增强原因隐向量/>

：

；

其中，

是节点/>

对自身的注意力系数，/>

是节点/>

关于节点/>

的注意力系数。

与现有技术相比，本发明的有益技术效果是：

本发明在图构建模块中，通过在情绪原因句子

、情绪句子/>

以及情绪E之间构建边，有效构建起了他们之间的上下文和情绪信息之间的关系，并通过关系图卷积网络和注意力图卷积神经网络的建模有效利用了这些信息，从而提升了模型的性能。

本发明通过注意力图卷积神经网络模块计算注意力系数，对不同的上下文信息和情绪信息进行加权，实现了对不同信息的重要性的识别和利用，有效避免了这些信息中潜在的噪音对模型性能的影响。

附图说明

图1为本发明的整体模型结构图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

情绪原因提取方法，是通过情绪原因提取模型从对话中提取出导致情绪句子含有特定情绪E的情绪原因片段，情绪原因片段所在的句子称为情绪原因句子。

对话记为

，其中/>

为对话的第i个句子，N为对话中的句子总数，/>

为第i个句子的第j个词，/>

为第i个句子中词的总数；情绪句子记为/>

；

为词/>

的情绪原因抽取标签，当/>

不属于情绪E的原因时，/>

；当/>

在情绪E的原因的开始位置时，/>

；/>

在情绪E的原因的中间时，/>

；将情绪原因抽取标签/>

和

的词按顺序组合在一起即形成情绪原因片段。

本发明中的情绪原因提取模型包括编码器、多原因推测图网络和解码器；

情绪原因提取模型训练过程包括以下步骤：

S1、使用编码器为对话中的N个句子以及句子中的词进行编码，得到第i个句子的初始句子编码向量

，第i个句子中第j个词的初始词编码向量/>

；记情绪句子/>

的初始情绪编码向量/>

；将初始句子编码向量/>

和初始情绪编码向量/>

输入到双向长短期记忆网络后，得到句子编码向量/>

和情绪编码向量/>

；由于情绪句子属于对话中所有句子的一部分，故将初始句子编码向量输入双向长短期记忆网络（BiLSTM）时，同时也会将初始情绪编码向量/>

输入，但这里为了强调，故写做：将初始句子编码向量和初始情绪编码向量输入到双向长短期记忆网络。

取句子

中，存在情绪原因片段的情绪原因句子/>

对应的句子编码向量，得到原因编码向量/>

。情绪原因句子不一定在对话中的句子中连续。

S2、使用多原因推测图网络，对n个原因编码向量

、情绪E、情绪编码向量/>

建模，得到n个增强原因隐向量/>

，其中，第c个增强原因隐向量为/>

。

S3、使用解码器，对某个情绪原因句子

的每个词的词编码向量/>

与/>

对应的原因增强隐向量/>

进行粘连，生成增强词编码隐向量/>

，即

；将增强词编码隐向量/>

通过全连接层得到最终输出词向量/>

，即

，/>

和b分别为解码器矩阵和向量；其中/>

每个维度的值表示对应维度的情绪标签得分，选择得分最高的情绪标签（ECEC label）作为词/>

的情绪原因抽取标签的预测结果。

本实施例，编码器为SpanBERT编码器。

本发明中的多原因推测图网络包括嵌入模块、图构建模块、关系图卷积神经网络模块和注意力图卷积神经网络模块；步骤二中，多原因推测图网络计算增强原因隐向量

的过程如下：

S21：在嵌入模块中，使用情绪嵌入矩阵，把情绪E映射为向量

，然后计算原因编码隐向量/>

、情绪隐向量/>

和情绪句子隐向量/>

：

；

其中

和/>

为可训练参数，构成关于原因编码向量/>

的全连接层；/>

为非线性激活函数；

；

其中

和/>

为可训练的参数，构成关于情绪编码向量/>

的全连接层；

；

其中

为情绪词嵌入矩阵，/>

和/>

均为线性激活函数/>

的参数。

S22：在图构建模块中，把情绪句子隐向量

、情绪隐向量/>

以及n个原因编码隐向量/>

作为节点表征；记这n+2个节点表征为/>

，/>

为第k个节点，其中当

时，/>

；当/>

时，/>

；当/>

时，/>

；得到邻接矩阵

和关系矩阵/>

；为充分利用情绪原因句子/>

、情绪句子/>

，以及情绪E之间的关系，其中/>

表示为G中任意两个节点/>

之间的有向边，

，/>

表示有向边/>

所标记的值，反映了节点/>

与节点/>

之间的关系；对得到的n+2个节点/>

使用有向异构图模型/>

进行建模：即G中的每一对节点/>

都可映射到邻接矩阵A中的一个元素/>

，而邻接矩阵A中的元素/>

也可映射为关系矩阵/>

中的元素/>

。

根据有向边

所连接节点的属性，关系矩阵/>

中元素的值有三种类型{原因-原因，原因-目标，情绪-话语}：

对于类型“原因-原因”，根据有向节点对

对应的情绪原因句子/>

是否相邻，即{相邻，不相邻}，以及情绪原因句子/>

在对话中的顺序，即{未来,过去}，组合后得到四种值{相邻-过去，相邻-未来，不相邻-过去，不相邻-未来}。

对于类型“原因-目标”，由于节点

对应的情绪原因句子/>

都在节点/>

对应的情绪句子/>

之前，所以“原因-目标”不考虑节点对应句子在对话中的顺序，即{未来,过去}。而/>

与/>

之间存在邻近与远离的情况，所以考虑是否相邻，即{相邻，不相邻}。同时考虑到，情绪句子/>

有可能也是促使其情绪产生的原因，对于这种情况，引入“自身”表示。最终得到三种值{相邻，不相邻，自身}。

对于类型“情绪-话语”，由于

对应的情绪E与情绪原因句子/>

和情绪句子/>

之间，既没有邻近关系也没有顺序关系，所以引入新的值“影响”表示。最终得到一种值{影响}。

S23：在关系图卷积神经网络模块中，对于每个节点

，将与/>

有连接的其他节点/>

的信息聚合到节点/>

中后，记为节点/>

：

；

其中，

是与节点/>

有连接的其他节点的集合；/>

是关系矩阵R中起始节点为/>

的可能值的集合/>

；/>

是用于自连接的矩阵，能够聚合自身的信息；/>

是在关系r下用于提取节点/>

信息的矩阵，/>

和/>

均为可训练参数。

S24：在注意力图卷积神经网络模块中，使用注意力机制，对连接节点的异构信息进行动态的聚合，注意力机制可以是多头注意力，取其中的一个部分进行描述：对于节点

，计算与/>

连接的节点/>

对应的注意力系数/>

：

；

其中

表示softmax激活函数，/>

为LeakyRelu非线性激活函数，/>

是用于得到注意力打分值的可训练的向量，/>

为可训练的参数，/>

是与节点/>

有连接的其他节点的集合。

得到注意力系数

}后，将和/>

相连的节点进行加权求和得到所述的增强原因隐向量/>

：

；

其中，

是节点/>

对自身的注意力系数，/>

是节点/>

关于节点/>

的注意力系数。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。