CN112579745A

CN112579745A - 基于图神经网络的对话情感纠错模型

Info

Publication number: CN112579745A
Application number: CN202110196514.9A
Authority: CN
Inventors: 陶建华; 连政; 刘斌; 柳雪飞
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-03-30
Anticipated expiration: 2041-02-22
Also published as: CN112579745B; US20220270636A1

Abstract

本申请涉及基于图神经网络的对话情感纠错模型，包括：多模态特征抽取模块、基于单句的情感识别模块、交互建模模块、时序建模模块和情感预测模块；所述多模态特征抽取模块和所述基于单句的情感识别模块连接，所述基于单句的情感识别模块与所述交互建模模块连接，所述交互建模模块与所述时序建模模块连接，所述时序建模模块与所述情感预测模块连接。

Description

基于图神经网络的对话情感纠错模型

技术领域

本申请涉及情感识别领域，尤其涉及基于图神经网络的对话情感纠错模型。

背景技术

面向对话场景的情感识别技术，不仅具有重大的科学意义，而且极具经济价值，有着广泛的应用前景。同时其应用场景也不仅仅局限于人机交互领域，在其他诸多领域都可以发挥重要作用，例如对话生成，社会媒体分析和智能系统。面向对话场景的情感识别技术，旨在理解人类在对话场景下表达情感的方式，并识别出对话中每一句话所蕴含的情绪状态。

对话场景中存在着两部分重要的信息：时序信息和交互信息。时序信息中蕴含着丰富的背景知识，这些知识往往有助于理解当前时刻的情绪状态。而交互信息指的是，当前时刻的情绪状态会受到与之交谈者情绪的影响。例如，当交谈者处于极端愤怒的情况下，听众往往会受到他此刻情感状态的影响，也变得很愤怒，这种现象在心理学领域称之为“共情”。

目前，基于单句的情感识别模型占据研究的主流。但是，这种模型只依赖于当前句子识别情感状态，并没有考虑到对话场景下的时序信息和交互信息。如何将这些模型改造成适用于对话场景的情感识别系统，是一个具有挑战性的问题，而改造的关键在于将这两部分信息融入到模型中。

授权公告号CN 108877801 B公开了一种基于多模态情绪识别系统的多轮对话语义理解子系统，它包括数据采集设备、输出设备，其特征在于：它还包括情绪分析软件系统，所述情绪分析软件系统通过对所述数据采集设备得到的数据进行综合分析推理，最终把结果输出至所述输出设备上；所述情绪分析软件系统包括基于多轮对话语义理解子系统。本发明突破性的打通了五大单模态的情绪识别，创新性的利用深度神经网络将多个单模态的信息由神经网络编码、深度的关联和理解后进行综合判断，大幅度的提高了准确率，适用于绝大多数一般问询互动类应用场景。

申请公布号CN 111164601 A公开了一种情感识别方法，该情感识别方法包括：获取包括视频数据、音频数据和/或文本数据中的至少两个的待识别多模态数据组；提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，和/或提取文本数据中的文本语义特征序列；将文本语义特征序列向音频数据的时间维度对齐处理，生成文本语义时序序列；将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合，生成多模态语义特征序列；将多模态语义特征序列输入预训练的情感识别神经网络，将情感识别神经网络的输出结果作为待识别数据组应的目标情感。本发明还公开了智能装置和计算机可读存储介质。本发明可以有效提升情感识别的准确性。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种基于图神经网络的对话情感纠错模型，包括：多模态特征抽取模块、基于单句的情感识别模块、交互建模模块、时序建模模块和情感预测模块；所述多模态特征抽取模块和所述基于单句的情感识别模块连接，所述基于单句的情感识别模块与所述交互建模模块连接，所述交互建模模块与所述时序建模模块连接，所述时序建模模块与所述情感预测模块连接；

所述多模态特征抽取模块的具体功能为：抽取视频文件中的声学特征、文本特征和图像特征，并将所述视频中的声学特征、所述文本特征和所述图像特征融合，得到多模态特征；

基于单句的情感识别模块的具体功能为：获取每个句子的情感预测结果；

交互建模模块的具体功能为：在每个句子的情感预测结果的基础上融合交互信息，得到融合交互信息特征；

时序建模模块的具体功能为：动态关注到比较重要的上下文信息，得到对话情感特征；

情感预测模块的具体功能为：预测所述视频文件中个体的情绪状态。

优选地，所述多模态特征抽取模块包括，

声学特征抽取模块、文本特征抽取模块、图像特征抽取模块和多模态特征融合模块；视频文件分别输入所述声学特征抽取模块、所述文本特征抽取模块和所述图像特征抽取模块，所述声学特征抽取模块、所述文本特征抽取模块和所述图像特征抽取模块的输出分别输入所述多模态特征融合模块；

所述声学特征抽取模块的具体功能为：

将所述视频文件中的语音分帧，抽取每一帧的声学特征参数，计算所有帧的声学特征参数的统计信息，从而获取句子级别声学特征；所述声学特征参数包括：韵律特征、音质特征和谱特征；

所述文本特征抽取模块的具体功能为：

将所述视频文件中每个词转化为其对应的词向量特征，计算所有词的统计信息，从而获取句子级别文本特征；

所述图像特征抽取模块的具体功能为：

将视频分成若干图像帧，从所述图像帧中检测出面部区域位置，基于所述面部区域位置抽取形状特征和外观特征；计算所有图像帧的形状特征和外观特征统计信息，从而获取最终的图像特征；

所述多模态特征融合模块的具体功能为：

将声学特征、文本特征以及图像特征进行拼接，作为多模态特征参数。

优选地，所述基于单句的情感识别模块采用支持向量机、随机森林或深度网络任何一种情感识别方法。

优选地，所述交互建模模块采用图神经网络结构，所述图神经网络由三部分组成：节点、边及边的类型。

优选地，所述图神经网络以每个句子

都作为所述图神经网络中的节点，节点的初始特征采用基于基于单句的情感识别模块的情感预测结果

表示。

优选地，所述交互建模模块采用图神经网络建模对话中的交互信息，所述交互信息包括：自我依赖和相互依赖；所述自我依赖指的是每个人当前时刻的情绪状态，与其之前时刻的情绪状态之间存在的相互影响；所述相互依赖指的是每个人当前时刻的情绪状态，也会受到与之交谈者的影响；

图神经网络采用两种类型的边对所述自我依赖和所述相互依赖进行建模；采用连接当前时刻A的句子节点和上一时刻A的句子节点作为边建模自我依赖；采用连接当前时刻A的句子节点和上一时刻B的句子节点作为边建模相互依赖；其中所述A和B是对话中存在两个人。

优选地，采用两个门控机制：重置门

和更新门

，将整合后的信息

和上一时刻的信息

进行融合，获取了新的特征参数

，其计算公式如下所示：

其中

，

，

，

，

，

是模型中的训练参数，

为元素按位点积；

所述

为，将不同节点的信息，按照边的类型进行整合：

其中，

为边类型的集合，

为在关系

下与节点

相连的节点集合，

为节点

和节点

之间边的权重，

为节点

在

轮迭代时的特征，

为关系

所对应的权重参数；其中

为边类型数目。

优选地，所述时序建模模块（包括：

特征增广模块、双向循环神经网络和自注意力机制模块；所述特征增广模块与所述双向循环神经网络连接，所述双向循环神经网络与所述自注意力机制模块连接；

所述特征增广模块的具体功能为：将节点

的所述交互建模模块初始特征

和所述交互建模模块输出特征

进行拼接，形成增广特征，表示为

；

所述双向循环神经网络的具体功能为：将

输入到双向循环神经网络中，对上下文信息进行建模，获得上下文信特征，表示标记为

；

所述自注意力机制模块的具体功能为：使得模型能够动态关注到比较重要的上下文信息。

优选地，所述自注意力机制模块包括查询

，键

和值

；

将

赋值到查询

，键

和值

中，作为自注意力机制的输入信息，过

次线性变换，获取子空间下的查询

，键

和值

，其中

；

计算基于注意力机制融合后的特征表示

，具体计算公式为：

，

将

进行拼接，得到输出特征，表示为

。

优选地，所述情感预测模块（5）利用单层感知机预测个体的情绪状态，具体公式为：

，

其中

和

是单层感知机的参数。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，

（1）首次提出了一种基于图神经网络的对话情感纠错模型，通过引入交互信息和时序信息，从而将传统意义上基于单句的情感识别模型，快速改造成适用于对话情感识别任务的模型。

（2）通过利用图神经网络，建模说话人之间的依赖关系，从而增强了情感识别的效果。

（3）通过循环神经网络和自注意力机制，建模对话中的上下文依赖关系，从而增强了情感识别的效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于图神经网络的对话情感纠错模型结构框图；

图2是根据一示例性实施例示出的多模态特征抽取模块的结构框图；

图3是根据一示例性实施例示出的时序建模模块的结构框图。

图中：1-多模态特征抽取模块、2-基于单句的情感识别模块、3-交互建模模块、4-时序建模模块、5-情感预测模块、11-声学特征抽取模块、12-文本特征抽取模块、13-图像特征抽取模块、14-多模态特征融合模块、41-特征增广模块、42-双向循环神经网络、43-自注意力机制模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1，为本申请实施例提供的基于图神经网络的对话情感纠错模型，包括：

多模态特征抽取模块1、基于单句的情感识别模块2、交互建模模块3、时序建模模块4和情感预测模块5；所述多模态特征抽取模块1和所述基于单句的情感识别模块2连接，所述基于单句的情感识别模块2与所述交互建模模块3连接，所述交互建模模块3与所述时序建模模块4连接，所述时序建模模块4与所述情感预测模块5连接；

所述多模态特征抽取模块1的具体功能为：抽取视频文件中的声学特征、文本特征和图像特征，并将所述视频中的声学特征、所述文本特征和所述图像特征融合，得到多模态特征；

如图2所示，多模态特征抽取模块1包括，

声学特征抽取模块11、文本特征抽取模块12、图像特征抽取模块13和多模态特征融合模块14；视频文件分别输入所述声学特征抽取模块11、所述文本特征抽取模块12和所述图像特征抽取模块13，所述声学特征抽取模块11、所述文本特征抽取模块12和所述图像特征抽取模块13的输出分别输入所述多模态特征融合模块14；

所述声学特征抽取模块11的具体功能为：

所述文本特征抽取模块12的具体功能为：

所述图像特征抽取模块13的具体功能为：

所述多模态特征融合模块14的具体功能为：

基于单句的情感识别模块2的具体功能为：获取每个句子的情感预测结果；所述基于单句的情感识别模块2采用支持向量机、随机森林或深度网络任何一种情感识别方法。

交互建模模块3的具体功能为：在每个句子的情感预测结果的基础上融合交互信息，建模说话人之间的依赖关系，得到融合交互信息特征；

所述交互建模模块3采用图神经网络结构，所述图神经由三部分组成：节点、边及边的类型；

所述图神经网络以每个句子

都作为所述图神经网络中的节点，节点的初始特征采用基于基于单句的情感识别模块2的情感预测结果

表示；

所述交互建模模块3采用图神经网络建模对话中的交互信息，所述交互信息包括：自我依赖和相互依赖；所述自我依赖指的是每个人当前时刻的情绪状态，与其之前时刻的情绪状态之间存在的相互影响；所述相互依赖指的是每个人当前时刻的情绪状态，也会受到与之交谈者的影响；

图神经网络采用两种类型的边对所述自我依赖和所述相互依赖进行建模；采用连接当前时刻A的句子节点和上一时刻A的句子节点作为边建模自我依赖；采用连接当前时刻A的句子节点和上一时刻B的句子节点作为边建模相互依赖；其中所述A和B是对话中存在两个人；

采用两个门控机制：重置门

和更新门

，将整合后的信息

和上一时刻的信息

进行融合，获取了新的特征参数

，其计算公式如下所示：

其中

，

，

，

，

，

是模型中的训练参数，

为元素按位点积；

所述

为，将不同节点的信息，按照边的类型进行整合：

其中，

为边类型的集合，

为在关系

下与节点

相连的节点集合，

为节点

和节点

之间边的权重，

为节点

在

轮迭代时的特征，

为关系

所对应的权重参数；其中

为边类型数目。

时序建模模块4的具体功能为：建模对话中的上下文依赖关系，动态关注到比较重要的上下文信息，得到对话情感特征；

如图3所示，所述时序建模模块4包括：

特征增广模块41、双向循环神经网络42和自注意力机制模块43；所述特征增广模块41与所述双向循环神经网络42连接，所述双向循环神经网络42与所述自注意力机制模块43连接；

所述特征增广模块41的具体功能为：将节点

的所述交互建模模块初始特征

和所述交互建模模块输出特征

进行拼接，形成增广特征，表示为

；

所述双向循环神经网络42的具体功能为：将

；

所述自注意力机制模块43的具体功能为：使得模型能够动态关注到比较重要的上下文信息；

所述自注意力机制模块43包括查询

，键

和值

；

将

赋值到查询

，键

和值

中，作为自注意力机制的输入信息，过

次线性变换，获取子空间下的查询

，键

和值

，其中

；

计算基于注意力机制融合后的特征表示

，具体计算公式为：

，

将

进行拼接，得到输出特征，表示为

。

情感预测模块5的具体功能为：预测所述视频文件中个体的情绪状态。

所述情感预测模块5利用单层感知机预测个体的情绪状态，具体公式为：

，

其中

和

是单层感知机的参数。

情感识别结果使用准确率、召回率、F1分数进行度量，用于判断预测的情感状态和真实情感状态之间的相关性。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.基于图神经网络的对话情感纠错模型，其特征在于，包括：多模态特征抽取模块（1）、基于单句的情感识别模块（2）、交互建模模块（3）、时序建模模块（4）和情感预测模块（5）；所述多模态特征抽取模块（1）和所述基于单句的情感识别模块（2）连接，所述基于单句的情感识别模块（2）与所述交互建模模块（3）连接，所述交互建模模块（3）与所述时序建模模块（4）连接，所述时序建模模块（4）与所述情感预测模块（5）连接；

所述多模态特征抽取模块（1）的具体功能为：抽取视频文件中的声学特征、文本特征和图像特征，并将所述视频中的声学特征、所述文本特征和所述图像特征融合，得到多模态特征；

基于单句的情感识别模块（2）的具体功能为：获取每个句子的情感预测结果；

交互建模模块（3）的具体功能为：在每个句子的情感预测结果的基础上融合交互信息，得到融合交互信息特征；

时序建模模块（4）的具体功能为：动态关注到比较重要的上下文信息，得到对话情感特征；

情感预测模块（5）的具体功能为：预测所述视频文件中个体的情绪状态。

2.根据权利要求1所述的基于图神经网络的对话情感纠错模型，其特征在于，所述多模态特征抽取模块（1）包括，

声学特征抽取模块（11）、文本特征抽取模块（12）、图像特征抽取模块（13）和多模态特征融合模块（14）；视频文件分别输入所述声学特征抽取模块（11）、所述文本特征抽取模块（12）和所述图像特征抽取模块（13），所述声学特征抽取模块（11）、所述文本特征抽取模块（12）和所述图像特征抽取模块（13）的输出分别输入所述多模态特征融合模块（14）；

所述声学特征抽取模块（11）的具体功能为：

所述文本特征抽取模块（12）的具体功能为：

所述图像特征抽取模块（13）的具体功能为：

所述多模态特征融合模块（14）的具体功能为：

3.根据权利要求1所述的基于图神经网络的对话情感纠错模型，其特征在于，所述基于单句的情感识别模块（2）采用支持向量机、随机森林或深度网络任何一种情感识别方法。

4.根据权利要求1所述的基于图神经网络的对话情感纠错模型，其特征在于，所述交互建模模块（3）采用图神经网络结构，所述图神经网络由三部分组成：节点、边及边的类型。

5.根据权利要求4所述的基于图神经网络的对话情感纠错模型，其特征在于，所述图神经网络以每个句子

都作为所述图神经网络中的节点，节点的初始特征采用基于基于单句的情感识别模块（2）的情感预测结果

表示。

6.根据权利要求5所述的基于图神经网络的对话情感纠错模型，其特征在于，所述交互建模模块（3）采用图神经网络建模对话中的交互信息，所述交互信息包括：自我依赖和相互依赖；所述自我依赖指的是每个人当前时刻的情绪状态，与其之前时刻的情绪状态之间存在的相互影响；所述相互依赖指的是每个人当前时刻的情绪状态，也会受到与之交谈者的影响；

7.根据权利要求6所述的基于图神经网络的对话情感纠错模型，其特征在于，采用两个门控机制：重置门