CN115374281A

CN115374281A - 基于多粒度融合和图卷积网络的会话情感分析方法

Info

Publication number: CN115374281A
Application number: CN202211049590.8A
Authority: CN
Inventors: 朱小飞; 王佳
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-11-22
Anticipated expiration: 2042-08-30
Also published as: CN115374281B

Abstract

本发明具体涉及基于多粒度融合和图卷积网络的会话情感分析方法，包括：获取会话序列；将会话序列输入至训练后的情感分类模型，输出得到各个语句的情感预测标签：通过预训练语言模型获取粗粒度上下文信息；其次通过各个语句内的句法依赖关系获取细粒度句法信息；再融合得到多粒度的语句嵌入表示，并输入至星图增强的图卷积网络和有向无环图神经网络，得到各个语句的背景情感语句表示和交互语句表示；进而融合得到各个语句的最终语句表示；最后基于各个语句的最终语句表示生成情感预测标签；本发明能够提取会话中的句子级特征和词级特征，并能够增强会话表征的现实性和可解释性，从而能够提高会话情感分析的准确性。

Description

基于多粒度融合和图卷积网络的会话情感分析方法

技术领域

本发明涉及会话情感分类技术领域，具体涉及基于多粒度融合和图卷积网络的会话情感分析方法。

背景技术

会话情感分析是指对一段会话中的每个语句进行情感分类。最早研究情感分类的方法主要是基于神经网络的方法，社交媒体的兴起也使得具备丰富情感的会话数据激增，因此会话情感分析成为近两年来人工智能领域的一项新兴任务。

对话情感(情绪)分类同样是一个分类任务，具体来说就是对一段会话中的语句进行情感分类，这项任务旨在赋予计算机类似人一样的能力，使得计算机通过像人一样的观察、理解去识别会话中每个语句的情感，该任务在很多领域都具备潜在的应用价值。会话中的每一个语句的情感会受到多方面、多因素的影响，比如说话者之间会有情感传递的影响，因此需要对会话的上下文之间进行有效的建模。

现有技术针对会话情境的建模，主要分为基于图形的建模以及基于递归方式的建模，但这两种方式都存在一定的局限性：1)对于基于图形的建模来说，上下文信息的收集是根据窗口的滑动来收集窗口周围的信息，但是这种方式总是忽略远距离语句的重要信息，并且建模方式也只考虑到了语句之间的交互语句表示，忽略了语句内部的交互语句表示，比如复杂的句法结构和语法信息，而语句内部的依赖结构对于整个语句的理解甚至对会话流程的建模都是至关重要的，这导致会话表征的现实性和可解释性不足。2)基于递归方式的建模也存在忽略远距离信息以及语句内部有效信息的局限性，因为递归方式建模是根据目前语句的时间编码去考虑远距离语句的信息，但这种方式往往只是从最近的语句去获得临近的信息来更新交互语句表示，这样获得的交互语句表示也是受到距离局限的，同样导致会话表征的现实性和可解释性不足。因此，如何设计一种能够增强会话表征的现实性和可解释性的方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种基于多粒度融合和图卷积网络的会话情感分析方法，以能够提取会话中的句子级特征和词级特征，并能够增强会话表征的现实性和可解释性，从而能够提高会话情感分析的准确性。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于多粒度融合和图卷积网络的会话情感分析方法，包括：

S1：获取包含若干个语句的会话序列；

S2：将会话序列输入至训练后的情感分类模型，输出得到各个语句的情感预测标签；

情感分类模型通过预训练语言模型获取会话序列中语句之间的粗粒度上下文信息；其次通过各个语句内的句法依赖关系获取单词之间的细粒度句法信息；再融合粗粒度上下文信息和细粒度句法信息得到多粒度的语句嵌入表示；然后将多粒度的语句嵌入表示输入至星图增强的图卷积网络和有向无环图神经网络，建模会话序列的背景情感信息和会话序列中不同说话者之间的说话者交互信息，得到各个语句的背景情感语句表示和交互语句表示；进而融合背景情感语句表示和交互语句表示得到各个语句的最终语句表示；最后基于各个语句的最终语句表示生成情感预测标签；

S3：将会话序列各个语句的情感预测标签作为其会话情感分析结果。

优选的，步骤S2中，将会话序列中的每个语句作为预训练RoBERT-Large模型的输入；然后使用预训练RoBERT-Large模型最后一层的池化嵌入作为对应语句的粗粒度上下文信息。

优选的，步骤S2中，通过如下步骤生成细粒度句法信息：

S201：通过无监督词表示方法将语句中的每个单词映射到一个低维稠密向量，得到语句的向量空间嵌入；

S202：将语句的向量空间嵌入输入至双向LSTM模型，输出语句上下文表示；

向量空间嵌入

语句上下文表示

其中，

式中：

表示可学习参数；

表示语句的向量空间嵌入表示；

表示经过Bi-LSTM的语句表示；

S203：结合Spacy工具对语句的句法结构进行抽取以形成对应的有向图结构；然后将语句上下文表示输入至图卷积神经网络，结合有向图结构进行节点之间的信息传播以捕获到结合了句法结构的语句表示；经过L层图卷积神经网络后，得到语句的语句增强表示；

语句增强表示

其中，

式中：

均表示可学习参数；l＝[1,2,…,L],l∈L表示第l层图卷积神经网络GCN；σ表示非线性激活函数RELU；

表示有向图结构；

表示有向图结构l-1层中第i个会话中第j个语句的表示；

S204：对语句增强表示进行最大池化，得到对应的细粒度句法信息；

式中：

表示细粒度句法信息；POOLING表示最大池化操作。

优选的，步骤S2中，通过如下公式计算多粒度的语句嵌入表示：

式中：g_i表示多粒度的语句嵌入表示；

表示细粒度句法信息；vⁱ表示粗粒度上下文信息。

优选的，步骤S2中，通过如下步骤生成交互语句表示：

S211：以会话序列中的语句为节点构建会话序列的有向无环图；

S212：基于有向无环图生成图注意力神经网络，并将融合语句嵌入表示输入至图注意力神经网络，输出拓扑关系语句表示

式中：

表示拓扑关系语句表示；

表示可训练的参数；N_i表示说话者之间的有向无环图中第i个说话者的邻居；||表示拼接操作；当l＝1时，

表示注意力分数；

表示聚合之后语句的表示。

S213：通过门控循环单元计算拓扑关系语句表示

与融合之后的节点表示

的交互，得到交互语句表示

然后通过门控循环单元和拓扑关系语句表示

对节点

进行更新，得到更新节点表示

式中：

表示交互语句表示；

表示更新节点表示；GRU表示门控循环单元；

S214：将交互语句表示

和更新节点表示

进行融合，得到交互语句表示；

式中：

表示交互语句表示；

表示交互语句表示；

表示更新节点表示。

优选的，步骤S2中，通过如下步骤生成背景情感语句表示：

S221：基于会话序列构建会话星图，并在会话星图中构造一个星节点，使得会话星图中的所有节点与星节点完全连接；

S222：对会话序列中所有语句的融合语句嵌入表示进行平均池化操作，作为星节点的初始化表示；

S223：基于自注意力机制，将星节点自身视为query，赋予会话星图中其他节点不同的重要性分数；

式中：

表示重要性分数；

均表示可训练参数；

分别通过星节点和其他节点计算；

S224：基于会话星图中其他节点的重要性分数更新星节点表示；

式中：

表示星节点表示；

表示注意力分数；

S225：将拓扑关系语句表示

与星节点表示

进行拼接，得到背景情感语句表示；

式中：

表示背景情感语句表示；

表示拓扑关系语句表示；

表示星节点表示。

优选的，步骤S2中，通过如下公式计算最终语句表示：

式中：T_i表示最终语句表示；

表示交互语句表示；

表示背景情感语句表示。

优选的，步骤S2中，通过如下公式生成对应的情感预测标签：

P_i＝Softmax(W_zZ_i+b_z)；

Z_i＝RELU(W_VV_i+b_V)；

式中：

表示语句u_i的情感预测标签；P_i[k]表示映射函数；V_i表示最终聚合所有层的语句的表示；Z_i表示经过激活函数RELU之后的语句表示；W_z、W_V表示可学习的参数；S表示情感标签的集合。

优选的，训练情感分类模型时，通过如下的交叉熵损失优化模型参数；

式中：L(θ)表示交叉熵损失；θ表示可训练参数；M表示用于训练的会话序列数量；N_i表示第i个用于训练的会话序列中的语句数量；y_i,j表示第i个会话中第j条语句的真实标签；P_i,j表示第i个会话中第j条语句情感标签的预测概率函数。

本发明中基于多粒度融合和图卷积网络的会话情感分析方法，具有如下有益效果：

本发明通过情感分类模型获取语句之间的粗粒度上下文信息即句子级特征以及单词之间的细粒度句法信息即词级特征，句子级特征能够反映语句之间上下文的联系，词级特征能够反映语句内部单词之间的交互信息，通过将词级特征和句子级的征进行融合建模，能够更好的捕获会话的局部语义信息和全局语义信息，并且能够将语句内部单词之间的交互信息融入建模，以便更好的理解会话中每个语句所表达的意思，即能够增强会话表征的现实性和可解释性，从而能够提高会话情感分析的准确性。

其次，本发明通过情感分类模型结合星图增强的图卷积网络，建模会话序列的背景情感信息和会话序列中不同说话者之间的说话者交互信息，得到各个语句的背景情感语句表示和交互语句表示并进行融合，使得能够将说话者之间的对话关系和会话的背景情感信息融入到会话中的每个语句中，学习到会话的主体背景情感以及丰富的上下文信息，进而能够大幅提高会话情感识别的准确性，从而能够进一步提高会话情感分析的准确性。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为基于多粒度融合和图卷积网络的会话情感分析方法的逻辑框图；

图2为情感分类模型的网络构架图；

图3为GNN层数在4个数据集上对MGF-ERC和DAG-ERC性能影响的比较示意图；

图4为随着数据迭代次数的增加4个数据集上模型性能的变化示意图；

图5为MELD数据集上对话表示的可视化结果；

图6为实例分析示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于多粒度融合和图卷积网络的会话情感分析方法。

如图1所示，基于多粒度融合和图卷积网络的会话情感分析方法，包括：

S1：获取包含若干个语句的会话序列；

结合图2所示，情感分类模型(后续称为MGF-ERC)通过预训练语言模型获取会话序列中语句之间的粗粒度上下文信息；其次通过各个语句内的句法依赖关系获取单词之间的细粒度句法信息；再融合粗粒度上下文信息和细粒度句法信息得到多粒度的语句嵌入表示；然后将多粒度的语句嵌入表示输入至星图增强的图卷积网络和有向无环图神经网络，建模会话序列的背景情感信息和会话序列中不同说话者之间的说话者交互信息，得到各个语句的背景情感语句表示和交互语句表示；进而融合背景情感语句表示和交互语句表示得到各个语句的最终语句表示；最后基于各个语句的最终语句表示生成情感预测标签；

本实施例中，情感预测标签是指情感标签的预测概率函数，进而能够根据情感标签的预测概率函数(如[0.04,0,0.92,0.02,0.02])判断语句的标签，其中，预测概率最高的标签便是语句的所属标签，例如：积极、消极、兴奋等。

具体实施过程中，会话序列U＝{u₁,u₂,…,u_N}，u_i表示会话序列的第i个语句，N表示会话序列中语句的数量；每个语句u_i由n个单词组成，

S＝(y₁,y₂,…,y_|V|}是情感标签的集合，y_i∈S表示第i个语句u_i的情感标签，|V|代表情感标签集合的大小。使用p(.)表示说话者的映射函数，例如：p(u_i)∈P表示语句u_i所对应的说话者，P表示数据中所有说话者的集合。会话情感分析的目标是识别会话序列U＝{u₁,u₂,…,u_N}中每条语句u_i的情感倾向(即情感标签)y_i。

具体实施过程中，预训练语言模型例如BERT、RoBERT等能在大规模语料库中训练得到一个通用的语言解释，本发明在句子级特征提取阶段使用了预训练模型RoBERTa-Large进行句子级别的特征提取。

将会话序列中的每个语句u_i作为预训练RoBERT-Large模型的输入，输入形式为

然后使用[CLS]在预训练RoBERT-Large模型最后一层的池化嵌入作为语句u_i的句子级特征表示，即粗粒度上下文信息

RoBERT-Large是一种现有预训练语言模型，属于BERT的强化版本，也是BERT模型更为精细的调优版本。RoBERT-Large模型是BERT的改进版在模型规模、算力和数据上有更大的模型参数量、更大bacth size以及更多的训练数据。

具体实施过程中，词级特征提取的目标是基于句子内的句法依赖关系来捕获词之间的交互信息以增强语句的表征能力。

通过如下步骤生成细粒度句法信息：

S201：通过无监督词表示方法Glove将语句u_i中的每个单词w_i,j映射到一个低维稠密向量

得到语句u_i的向量空间嵌入

S202：将语句的向量空间嵌入

输入至双向LSTM模型，输出对应的语句上下文表示

其中

语句上下文表示

其中，

式中：

表示可学习参数；

表示语句的向量空间嵌入表示；

表示经过Bi-LSTM的语句表示；

语句的句法结构可以捕获词之间的隐式内联关系，通过建模这种关系可以从语句的句法角度增强单词的表征能力。为此，本发明针对性的设计了一个以语句的句法依赖结构为基础的图神经网络。

S203：结合Spacy工具对语句u_i的句法结构进行抽取以形成到对应的有向图结构

其中n是语句u_i中的单词数量；然后将语句上下文表示

输入至图卷积神经网络GCN，结合有向图结构

进行节点即单词之间的信息传播以捕获到u_i的句法结构；经过L层图卷积神经网络GCN后，得到语句u_i的语句增强表示

有向无环图作为一种特殊类型的图结构出现在自然语言处理领域，逐渐在NLP的多个子任务中发挥作用，在会话情感分析任务中也提出了许多采用有向无环图架构的神经网络模型，该模型允许多层图结构的堆叠，同时可以更有效的聚合上下文信息。

语句增强表示

其中，

式中：

表示有向图结构；

表示有向图结构l-1层中第i个会话中第j个语句的表示；

S204：对语句增强表示

进行最大池化，得到对应的细粒度句法信息

式中：

表示通过句法结构增强的语句表示，即细粒度句法信息；POOLING表示最大池化操作。

具体实施过程中，语句的词级表示捕获了词之间的句法内联关系，其可以从句法角度来对语句进行表征。并且，语句的句子级表示充分捕获了语句的上下文，其蕴含的是一种句子顺序表示。因此，在得到两种粒度的表征后，将二者进行特征融合以捕获高质量的语句嵌入表示。

通过如下公式计算多粒度的语句嵌入表示：

式中：g_i表示多粒度的语句嵌入表示；

表示细粒度句法信息；vⁱ表示粗粒度上下文信息。

本发明能够有效的获取语句之间的粗粒度上下文信息即句子级特征以及单词之间的细粒度句法信息即词级特征，其中，句子级特征能够反映语句之间上下文的联系，词级特征能够反映语句内部单词之间的交互信息，通过将词级特征和句子级的征进行融合建模，能够更好的捕获会话的局部语义信息和全局语义信息，并且能够将语句内部单词之间的交互信息融入建模，以便更好的理解会话中每个语句所表达的意思，从而能够更好的增强会话表征的现实性和可解释性。

具体实施过程中，会话是以多位说话者之间相互交流的语句形成，说话者之间的对话关系往往蕴含着会话的情感走向。为了捕获此类信息，在建模中以说话者为节点来为每个会话序列构建一张有向无环图并结合图神经网络来使语句的嵌入表示包含说话者之间的信息传播范式。

通过如下步骤生成交互语句表示：

S211：以会话序列中的语句为节点构建会话序列的有向无环图G＝(V,E,R)；

V＝{u₁,u₂,…,u_N}表示会话序列中的语句集合，(i,j,r_ij)∈E表示有向无环图中节点u_i和u_j之间的信息传播，r_ij∈R表示节点之间边的类型，边的类型只有两类R＝{0,1}，1表示两个连接的语句是由同一个说话者说出的，0表示两个连接的语句不是一个说话者说出的；

在构图过程中定义了三个约束去决定是否将信息从u_i传给u_j：

1)

为了捕获会话中说话者之间的顺序关系，该约束表示会话中在前面的说话者的语句可以传递给相对后面的说话者的语句，但是后面的说话者的语句不能向前传递。

2)

并且

为了捕获语句的同源性，在图中设置同一说话者之间的语句进行关系连接。例如第i个语句的说话者在同一会话中靠后部分发布了第γ个语句u_γ，同时为了捕获同一说话者语句间的顺序性，规定存在连边(i,γ,r_γj)∈E(p,γ,r_γj)∈E。

3)

为了捕获说话者之间的高阶关系，若说话者γ和i的语句交流中存在说话者l发布的语句，构图中则规定语句u_γ和语句u_i之间存在连边。

式中：

表示拓扑关系语句表示；N_i表示说话者之间的有向无环图G中第i个说话者的邻居；

表示可训练的参数；||表示拼接操作；当l＝1时，

S213：为了缓解由于堆叠过多图神经网络而带来的过度平滑问题，同时为了进一步捕获会话内语句间的顺序关系，通过门控循环单元计算拓扑关系语句表示

与融合之后的节点表示

的交互，得到交互语句表示

为了同属使得聚合词级和句子级的语句表示能够和经过聚合说话者之间拓扑关系的语句表示进行充分交互，通过门控循环单元和拓扑关系语句表示

对节点

进行更新，得到更新节点表示

式中：

表示交互语句表示；

表示更新节点表示；GRU表示门控循环单元；

S214：将交互语句表示

和更新节点表示

进行融合，得到交互语句表示

式中：

表示交互语句表示；

表示交互语句表示；

表示更新节点表示。

具体实施过程中，在日常会话当中，往往存在着一个会话主题或主体背景情感潜在影响着会话中每句话的情感倾向，基于对会话主体的把握，为了建模此类信息，我们在每个会话中构建了一个星节点来代表每个会话的背景情感信息，将会话的背景情感信息融入到会话中的每个语句中，以此来达到增强情感分析准确性的目的。

通过如下步骤生成背景情感语句表示：

S222：对会话序列中所有语句的多粒度的语句嵌入表示进行平均池化操作，作为星节点

的初始化表征；

基于对会话主体的把握，为了建模此类信息，我们在每个会话中构建了一个星节点来代表每个会话的背景情感信息，将会话的背景情感信息融入到会话中的每个语句中，以此来达到增强情感分析准确性的目的。

S223：基于自注意力机制，将星节点

自身视为query，赋予会话星图中其他节点不同的重要性分数；也可基于会话星图生成图注意力神经网络，并将多粒度的语句嵌入表示输入至图注意力神经网络，输出拓扑关系语句表示

并结合拓扑关系语句表示

更新星节点。

式中：

表示重要性分数；

均表示可训练参数；

分别通过星节点和其他节点计算；

S224：基于会话星图中其他节点的重要性分数更新星节点表示

式中：

表示注意力分数；

S225：将拓扑关系语句表示

与星节点表示

进行拼接，得到背景情感语句表示；

式中：

表示背景情感语句表示；

表示拓扑关系语句表示；

表示星节点表示。

本发明能够有效建模会话序列的背景情感信息和会话序列中不同说话者之间的说话者交互信息，得到各个语句的背景情感语句表示和交互语句表示并进行融合，使得能够将说话者之间的对话关系和会话的背景情感信息融入到会话中的每个语句中，学习到会话的主体背景情感以及丰富的上下文信息，进而能够大幅提高会话情感识别的准确性，从而能够进一步提高会话情感分析的准确性。

具体实施过程中，为了缓解深度网络带来的梯度消失的问题，结合残差结构用以进行信息增强。通过如下公式计算最终语句表示：

式中：T_i表示最终语句表示；

表示交互语句表示；

表示背景情感语句表示。

具体实施过程中，将所有层的隐藏状态进行拼接得到语句u_i的最终语句表示，并将其放入一个前馈神经网络进行情感倾向预测。通过如下公式生成对应的情感预测标签：

P_i＝Softmax(W_zZ_i+b_z)；

Z_i＝RELU(W_VV_i+b_V)；

式中：

具体实施过程中，训练情感分类模型时，通过如下的交叉熵损失优化模型参数；

式中：K(θ)表示交叉熵损失；θ表示可训练参数；M表示用于训练的会话序列数量；N_i表示第i个用于训练的会话序列中的语句数量；y_i,j表示第i个会话中第j条语句的真实标签；P_i,j表示第i个会话中第j条语句情感标签的预测概率函数，基于情感标签的预测概率函数可以确定情感预测标签

为了更好的说明本专利申请技术方案的优势，本实施例中公开了如下实验。

1、参数设置及评价指标

本实验提出的模型中所有的隐藏状态维度都是300维，RoBERT-large提取的特征维度是1024维，Bi-LSTM层数为2层，GAT层数为6层，同时我们对模型进行了多次训练，本实验中所报告的结果都是基于测试集上10次随机运行的平均分数。

MGF-ERC模型(即本发明中的情感分类模型)采用F₁值作为评价指标，来验证MGF-ERC模型在会话情感分析任务中的性能，如下式所示：

2、数据集统计

本实验在四个数据集上评估MGF-ERC模型，统计结果如表1所示。

表1数据集统计

IEMOCAP(来自Busso C,Bulut M,Lee C C,et al.IEMOCAP:Interactiveemotional dyadic motion capture database)：是一个多模态会话情感分析数据集，IEMOCAP里的每一段对话都是两个演员基于剧本的对话，数据集中包含6种情绪，即中性、快乐、悲伤、愤怒、沮丧以及兴奋。

DailyDialog(来自Li Y,Su H,Shen X,et al.Dailydialog:A manuallylabelled multi-turn dialogue dataset)：该数据集是从大量英语学习者网站中收集的对话数据，包括7种情绪标签，即中性、快乐、惊讶、悲伤、愤怒、厌恶以及恐惧。

MELD(来自Poria S,Hazarika D,Majumder N,et al.Meld:A multimodal multi-party dataset for emotion recognition in conversations)：是一个多模态会话情感分析数据集，这个数据是从电视节目《老友记》中收集而来，一共包含7种情绪标签，即中性、快乐、惊讶、悲伤、愤怒、厌恶以及恐惧。

EmoryNLP(来自Zahiri S M,Choi J D.Emotion detection on tv showtranscripts with sequence-based convolutional neural networks)：这个数据集也是从电视剧《老友记》剧本中收集而来的对话，但是和数据集MELD相比，它在场景和情感标签的选择上都是不同的。该数据集包含7种情感标签，即中性、悲伤、疯狂、恐惧、强大、平静以及快乐。

3、对比实验

为了验证本发明MGF-ERC模型的有效性，本实验将MGF-ERC模型与其他基线模型进行对比，总体结果如表2所示。

表2 MGF-ERC模型实验结果(粗体：最优结果；下划线：次优结果)

DialogRNN(来自Majumder N,Poria S,Hazarika D,et al.Dialoguernn:Anattentive rnn for emotion detection in conversations)描述了一种基于递归神经网络的新方法，它在整个对话过程中跟踪独立当事人(individual party)的状态，并将这些信息用于会话情感分类。

KET(来自Zhong P,Wang D,Miao C.Knowledge-enriched transformer foremotion detection in textual conversations)的任务是输出给定话语的情感类别，使机器能够分析对话中的情感，这个任务具有挑战性的部分原因是人们经常依赖上下文和常识知识来表达情感，KET对Transformer模型做了一些改进，引入了常识知识库以及情感词典，同时提出了分层注意力:话语级和上下文级自注意力层，分别用来计算话语表示和上下文表示。

DialogX L(来自Shen W,Chen J,Quan X,et al.Dialogxl:All-in-one xlnetfor multi-party conversation emotion recognition)首先将XLNet的重复机制从段落级别修改为话语级别，以便更好地对会话数据进行建模。其次，文中DialogXL在XLNet的基础上引入了对话感知的自我关注来取代普通的自我关注，以捕获有用的说话者内部和说话者之间的依赖关系。

DialogueGCN(来自Ghosal D,Majumder N,Poria S,et al.Dialoguegcn:A graphconvolutional neural network for emotion recognition in conversation)是一种基于图神经网络的ERC方法，它利用了对话者的自我和说话者之间的依存关系来为情感识别建模会话上下文。通过图网络，DialogueGCN解决了当前基于RNN的方法中存在的上下文传播问题。

RGAT(来自Ishiwatari T,Yasuda Y,Miyazaki T,et al.Relation-aware graphattention networks with relational position encodings for emotion recognitionin conversations)提出了关系位置编码，为RGAT提供反映关系图结构的顺序信息，可以同时捕获说话者依赖性和顺序信息。

DAGNN(来自Thost V,Chen J.Directed acyclic graph neural networks)首次提出了有向无环图神经网络，它是一种根据部分顺序定义的流程来处理信息的体系结构，DAGNN通常被看作是一种进行早期工作的框架。

DAG-ERC(来自Shen W,Wu S,Yang Y,et al.Directed acyclic graph networkfor conversational emotion recognition)是使用了有向无环图对会话进行编码的方法，在DAGNN的基础上进行了两项改进：1)基于说话人身份的关系感知特征转换以收集信息；2)利用上下文信息单元，以增强历史上下文信息。

本实验提出的MGF-ERC模型在四个数据集上都具有较好的竞争性能，并且以评价指标也都达到了新的技术水平。

从表2中可以看出，当特征提取方式相同的情况下，基于图的模型分别在IEMOCAP、DailyDialog以及EmoryNLP三个数据集上的表现优于基于递归的模型，这种实验现象表明，基于图形的模型比基于递归的模型能更有效的对会话上下文进行编码，特别是对具有位置信息的局部上下文编码会更加有效。同时，MGF-ERC在IEMOCAP数据集上表现卓越，这能有效证明本实验提出的模型能有效捕捉远程信息并且做到更好的分类效果，因为IEMOCAP数据集中会话的长度是比较长的，平均每个会话都有70条左右的对话，在较长的会话中每条对话都做到大概率的正确分类，说明MGF-ERC模型能对会话上下文信息进行有效的利用和整合。

同时可以看出预训练语言模型RoBERTa的加入对于基于图形的模型以及基于递归的模型都能有相当大的改进，这也是近年来预训练模型作为功能强大的特征提取器在NLP领域中多个任务中发挥作用的原因。

同时，MGF-ERC在四个数据集上都要优于DAGNN以及DAG-ERC，这就进一步证明MGF-ERC具有更好的整合上下文信息的能力，也说明MGF-ERC从对话中提取的句法结构以及主体情感是合理且有效的。

4、消融实验

为了研究模型MGF-ERC各个模块对整体的作用，本实验进行了消融实验，通过分别去除词级特征提取层以及星图来评估MGF-ERC，其实验结果如表3所示。

表3 MGF-ERC在4个数据集上的消融实验结果

1)w/o Star-Graph：移除了星图部分，在构图过程中没有将星节点加入有向无环图来更新节点，这样做就是将会话中的主体信息移除，最后得到的会话中句子的表征没有融合会话的背景情感信息。

2)w/o Fine-grained-Feature Extraction：移除了相比使用Robert更加细粒度的词级特征提取层，也就是在模型中图节点的初始化表征没有会话中句子的句法信息，只用到了会话中句子上下文之间的交互信息。

从表3中可以看出，分别删除星图部分和细粒度词级特征提取部分会使得MGF-ERC模型的效果明显下降。通过特征提取部分会使得MGF-ERC模型的效果明显下降。通过实验结果显示，单个加入星节点建模对于模型效果的提升是十分有效的，这说明会话还是有很大比例具有相似的背景情感，这点从常识中也可以判断，比如以一件喜事围绕的对话，那对话中大部分话语是更倾向于积极情绪的，以丧事围绕的对话，对话中大部分话语肯定是比较偏向于消极的。

同时也可以证明，将对话中的句法信息加入建模对于上下文的理解也是很有帮助的，这也是在情感分析领域将句法树加入建模的重要原因。

5、参数敏感性实验

在星图和有向无环图的建模过程中，利用堆叠多层的GNN去获取会话中的远程信息，为了测试建模过程中GNN层数对模型性能的影响，在四个数据集上做了参数敏感性实验，图3中(a)～(d)表示四个数据集的参数敏感性实验图，从图中可以看出，当GNN层数堆叠到一定数量时，会出现过度平滑问题而导致模型的性能下降，但是MGF-ERC相较于DAG-ERC来说性能下降的坡度会更加平缓一些，而且在各个参数下模型的总体性能也优于基线模型DAG-ERC。

6、学习曲线

在训练过程中可以利用学习曲线来查看模型的学习效果，通过学习曲线可以清晰的看出模型对数据的过拟合和欠拟合，本实验在四个数据集上(a)～(d)做了相应的学习曲线实验，如图4所示。从图中可以看到，随着数据迭代次数的增加，模型的度量指标F₁Score也在逐渐增加，但是当训练数据的迭代次数达到一定数目时，模型的准确率和F₁Score都会趋向于平稳。同时，训练时的损失函数随着训练数据迭代的增加会逐渐下降，在一定的迭代次数后达到平稳，也就说明模型性能趋于平稳。图4是MGF-ERC在四个数据集上随着训练数据迭代次数的增加，模型的准确率的变化曲线。

7、t-SNE可视化

为了更加直观的展现本实验模型MGF-ERC的有效性，在MELD数据集上执行了对应的可视化实验，其他三个数据集(IEMOCAP、DailyDialog以及EmoryNLP)与MELD数据集上的可视化效果类似，该实验是将模型最后训练得到的会话中对话的表征使用了t-SNE进行降维，得到如图5所示的可视化图。

从图5中可以看出，MGF-ERC相较于DAG-ERC能更好的学习到会话中对话的表征，可以看出DAG-ERC模型学习到的可视化图中，具有同一种情感属性的节点之间的联系是比较分散的，而具备不同情感属性的节点之间的类别边界也比较模糊，反观MGF-ERC模型学习到的对话表征，同一类别的节点间比DAG-ERC更加紧凑、不同类别间的区分也要更明显，同时，就学到的可视化图来看，MGF-ERC类别间的边界也要更加圆滑清晰。

8、实例分析

为了进一步探求MGF-ERC的有效性，将DAG-ERC与我们的模型在会话中对话语的情感分类效果进行实例对比分析，其中DAG-ERC与MGF-ERC的分类实例如图6所示。

从图6中可以看出，整个对话是处于一个相对积极的背景，所以会话中每句话的情感倾向都是更偏向于积极的。

因为MGF-ERC提取了每个会话对应的背景情感信息加入了建模，所以能更准确的分析出会话中对话的情感极性，比如图6中的第六句话“Whoa.What an idea.Where wouldyou want to live？”，如果是单独的句子，这句话就可能是其他的情感极性，但是处于这样一个会话情境下，MGF-ERC就可以通过分析整个会话的情感进而判断单个句子的情感倾向，这一点是DAG-ERC做不到的。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。