CN115221301A

CN115221301A - 联合多任务学习的对话情感分类和对话行为识别方法

Info

Publication number: CN115221301A
Application number: CN202210850676.4A
Authority: CN
Inventors: 朱小飞; 刘思进; 彭展望
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-10-21
Anticipated expiration: 2042-07-19
Also published as: CN115221301B

Abstract

本发明具体涉及联合多任务学习的对话情感分类和对话行为识别方法，包括：获取包含各个说话者语句的待测对话文本；将待测对话文本输入经过训练的预测模型中，输出待测对话文本各个语句的预测情感标签和预测行为标签；预测模型捕捉说话者随时间变化的情感线索和行为线索；将情感任务和行为任务进行有向无环图传播以对话的信息传播，并在每次有向无环图传播后对情感任务和行为任务进行交互；最后预测待测对话文本各个语句的预测情感标签和预测行为标签；基于待测对话文本对话情感分类和对话行为识别的结果分析说话者的情感和行为。本发明能够按照对话时间顺序建模说话者的信息，并能够充分建模整个对话的上下文信息。

Description

联合多任务学习的对话情感分类和对话行为识别方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及联合多任务学习的对话情感分类和对话行为识别方法。

背景技术

对话情感分类(Dialogue sentiment classification,DSC)和对话行为识别(Dialogue act recognition,DAR)是对话系统中两个具有挑战性的任务。DSC旨在预测对话中每个语句的情感标签(如积极、消极和中性等)，DAR旨在预测每个语句的行为标签(如同意、询问和陈述等)，通过对话情感分类和对话行为识别的结果能够分析说话者的情感和行为，这能够用于对话系统生成适当的共情回复，也可以用于一些舆情分析、心理咨询和热点观察等。

申请人发现，DSC和DAR这两项任务密切相关，可以通过共同执行而相互促进。在早期的工作中，现有技术提出了多任务框架来联合建模这两个任务，其中两个任务共享一个编码器，以此来隐式建模两个任务的相关性。然而简单的多任务学习框架只是通过共享潜在表示来隐式地建模两个任务之间的相互联系，无法取得理想的结果，甚至低于一些独立建模两个任务的工作。同时，现有技术中还出现了将对话行为、谓词和情感的识别整合到统一的模型中，明确建模两个任务之间的相互作用，但他们的框架仅考虑当前的语句。最近，现有技术中出现了通过上下文感知的动态卷积网络来捕获关键局部上下文的技术方案以及交互图框架，其中，相同任务内语句连接和不同任务间语句连接的全连通图被构造并迭代更新，实现了在一个统一的体系结构中同时建模上下文信息和交互信息。

然而，上述现有方案虽然产生了显著的效果，但是他们还存在一些缺陷：1)现有方案没有按照对话时间顺序建模说话者的信息。现有说话者感知的编码器只是简单地构建了一个连接相同说话者的无向图再进行图传播，而没有考虑时间顺序，也没有单独建模说话者的情感和行为线索，导致对话情感分类和对话行为识别的准确性偏低。2)对整个对话的上下文建模不充分。现有方案仅是将图注意力网络(GAT)应用于一个无向的图，该图是一个任务内的上下文语句和跨任务的语句构成的全连通图，无法区分相同还是不同说话者之间的互动关系，导致对话情感分类和对话行为识别的有效性不好。因此，如何设计一种能够按照对话时间顺序建模说话者信息且能够充分建模整个对话上下文表示的方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种联合多任务学习的对话情感分类和对话行为识别方法，以能够按照对话时间顺序建模说话者的信息，并能够充分建模整个对话的上下文信息，从而能够提高对话情感分类和对话行为识别的准确性和有效性，进而能够更好的分析说话者的情感和行为，以应用于共情回复、舆情分析、心理咨询和热点观察等领域。

为了解决上述技术问题，本发明采用了如下的技术方案：

联合多任务学习的对话情感分类和对话行为识别方法，包括以下步骤：

S1：获取包含各个说话者语句的待测对话文本；

S2：将待测对话文本输入经过训练的预测模型中，输出待测对话文本各个语句的预测情感标签和预测行为标签；

预测模型首先编码得到待测对话文本的语句初始表示；然后基于语句初始表示捕捉说话者随时间变化的情感线索和行为线索，得到对话情感和对话行为的初始表示序列；其次分别将对话情感和对话行为的初始表示序列作为情感任务和行为任务来进行有向无环图传播以模拟对话的信息传播，并在每次有向无环图传播后对情感任务和行为任务进行交互，最终得到情感表示序列和行为表示序列；最后通过情感表示序列和行为表示序列预测待测对话文本各个语句的预测情感标签和预测行为标签；

S3：将预测模型输出的各个语句的预测情感标签和预测行为标签作为待测对话文本对话情感分类和对话行为识别的结果；

S4：基于待测对话文本对话情感分类和对话行为识别的结果分析说话者的情感和行为。

优选的，步骤S2中，通过如下步骤训练预测模型：

S201：将作为训练样本的对话文本输入至预测模型中；

S202：将对话文本中各个语句的单词进行单词编码，得到各个语句的语句表示序列；然后对各个语句的语句向量序列进行平均池化操作，得到各个语句的语句总体表示；最后基于各个语句的语句总体表示得到对话文本的语句初始表示；

S203：基于对话文本的语句初始表示得到各个说话者的语句表示序列；然后将各个说话者的语句表示序列输入对应的双向门控循环单元，得到各个说话者感知的语句表示；其次基于各个说话者感知的语句表示映射得到对话文本的感知语句表示；最后将对话文本的感知语句表示输入两个单独的双向门控循环单元，得到对话情感和对话行为的初始表示序列；

S204：将对话情感和对话行为的初始表示序列作为情感任务和行为任务，并分别输入至两个单独的具有若干个有向无环图传播层的无环图网络中传播以模拟对话的信息传播；然后将两个任务在对应有向无环图传播层的输出进行交互；最后分别将两个任务在各个有向无环图传播层的输出进行拼接，得到最终的情感表示序列和行为表示序列；

S205：基于最终的情感表示序列和行为表示序列分别计算情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失，然后基于情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失联合训练预测模型；

S206：重复执行步骤S201至S205，直至预测模型收敛。

优选的，步骤S201中，对话文本U＝{u₁,u₂,…,u_N}由N个语句u_i组成；每个语句的原始输入是一个单词序列，即u_i＝{w_i,1,w_i,2,…,w_i,n}，其中n表示语句的长度。

优选的，步骤S202中，具体包括：

1)将对话文本U中各个语句u_i的各个单词w_i,j映射到向量表示；

2)通过双向门控循环单元生成各个单词w_i,j的隐藏状态h_i,j，即对单词w_i,j进行编码，进而得到单词编码后语句u_i的语句向量序列{h_i,1,…,h_i,n}；

式中：φ^emb(·)表示嵌入函数；||表示拼接操作；

和

分别表示第i个语句u_i中第j个单词w_i,j的前向表示和后向表示；

3)对语句u_i的语句向量序列{h_i,1,…,h_i,n}中所有单词表示进行平均池化，得到语句u_i的语句总体表示e_i；

e_i＝avg_pool(h_i,1,…,h_i,n)；

式中：avg_pool表示平均池化操作；

4)基于对话文本中各个语句的语句总体表示得到对话文本的语句初始表示E＝{e₁,…,e_N}。

优选的，步骤S203中，具体包括：

1)对于对话文本U＝{u₁,u₂,…,u_N}，说话者X的所有语句序列表示为

说话者Y的所有语句序列表示为

L_X和L_Y分别表示两个序列包含的语句数，即L_X+L_Y＝N；

基于对话文本的语句初始表示E得到说话者X和Y的语句表示序列

和

其中，

和

表示映射函数，用于分别将语句

和

映射到对话文本U中对应语句的索引；

2)将E^X和E^Y分别输入至双向门控循环单元，得到说话者X和Y各个语句的语句表示；

对于说话者X和Y第j个语句

和

先得到语句

和

的前向语句表示和后向语句表示，进而拼接得到语句

和

的语句表示

和

对于说话者X：

式中：

和

分别表示说话者X第j个语句的前向语句表示和后向语句表示；

3)分别基于说话者X和Y各个语句的语句表示，得到说话者X和Y的感知语句表示

和

4)将说话者X和Y的感知语句表示P^X和P^Y按照对话文本U中原语句序列的顺序映射回去，得到对话文本U的说话者感知语句表示P＝{p₁,…,p_N}；

5)分别将对话文本的U感知语句表示P输入至两个单独的双向门控循环单元，得到对话情感的初始表示序列S＝{s₁,…,s_N}和对话行为的初始表示序列A＝{a₁,…,a_N}；

S＝Bi-LSTM_s(P)；

A＝Bi-LSTM_a(P)。

优选的，步骤S204中，具体包括：

1)情感任务：

对于对话情感的初始表示序列S＝{s₁,…,s_N}；

首先通过语句u_i在(l-1)层的隐藏状态

和语句u_i在(l)层的前驱语句u_j的隐藏状态

计算语句u_i与其前驱语句u_j之间第(l)层的注意力权重

式中：

表示可训练参数；||表示拼接操作；

表示语句u_i的前驱集合；

表示语句u_i在(l-1)层的隐藏状态；

表示语句u_i在(l)层的前驱语句u_j的隐藏状态；使用对话情感的初始表示序列S＝{s₁,…,s_N}中的s_i来初始化第(0)层每个语句节点的情感表示

然后引入关系感知特征转换来对不同关系类型的边进行建模，在第(l)层有向无环图传播层获得语句u_i的聚合表示

式中：

表示关系转换的可训练参数，用于学习不同边类型的特征；

其次通过门控递归单元将语句u_i的聚合表示

与隐藏状态

合并，以通过聚合表示

控制语句u_i在隐藏状态

的传播，得到语句u_i在第(l)层的情感节点特征表示

式中：GRU表示门控递归单元；

再通过另一个门控递归单元将语句u_i的聚合表示

与隐藏状态

合并，以通过隐藏状态

控制语句u_i在聚合表示

的传播，获得语句u_i在第(l)层的种情感节点特征表示

式中：GRU表示门控递归单元；

最后合并语句u_i在第(l)层的两种情感节点特征表示

和

得到语句u_i在第(l)层的最后情感表示

2)行为任务：

对于对话行为的初始表示序列A＝{a₁,…,a_N}，通过与对话情感的初始表示序列S相同的逻辑得到语句u_i在第(l)层的最后行为表示

3)将情感任务和行为任务中，语句u_i在第(l)层的最后情感表示

和最后行为表示

进行交互，得到交互后语句u_i在第(l+1)层的情感表示

和行为表示

4)将语句u_i在L层有向无环图传播层中输出的表示进行拼接，得到语句u_i最后的节点情感特征表示

和节点行为特征表示

5)基于各个语句的节点情感特征表示和节点行为特征表示，得到对话文本最后的情感表示序列

和行为表示序列

优选的，由于将两个任务在对应有向无环图传播层的输出进行交互后传播至下一个有向无环图传播层，计算注意力权重

以及情感节点特征表示

和

的公式作如下更新：

式中：

表示交互后语句u_i在第(l-1)层的情感表示。

优选的，有向无环图传播层中，构建有向无环图时满足以下三个约束：

约束1：信息只能从先前的语句传播到未来的语句，即

其中，r_ji表示从u_j传播到u_i的边；

约束2：对于每个语句u_i，其远程信息被定义为语句u_τ；其中u_τ表示与u_i相同的说话者所说的前一个语句，即

约束3：u_τ和u_i之间所有语句包含局部信息，局部信息应传播到u_i，即

其中，r_li表示从u_l传播到u_i的边。

优选的，步骤S205中，情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失的计算逻辑一致；

对于情感分类：

1)通过如下步骤计算情感分类的交叉熵损失

式中：

表示第i个语句u_i的真实情感标签，用0或1表示，如果样本i的真实情感类别等于c取1，否则取0；

表示样本i的情感属于类别c的预测概率的对数值；C表示标签类别总数；

表示根据情感表示序列

得到的第i个语句u_i预测的标签概率分布；softmax表示归一化指数函数，用于多分类过程，它将多个神经元的输出，映射到(0,1)区间内，并且归一化保证和为1；W_f和b_f均为可训练参数，即线性转换的权重和偏置；

表示情感表示序列

中第i个语句u_i的情感表示；

表示根据情感表示序列

得到的第i个语句u_i的预测情感标签，即对话文本N个语句的预测情感标签表示为

argmax是对函数求参数集合的函数，即求得函数取得最大值所对应的自变量；

2)通过如下公式计算情感分类的监督对比损失

式中：P(i)＝I_j＝i-{i}表示与i类别相同的训练样本，但不包括其自身；I＝{1,2,...,2N}表示一个双视图批次的所有样本索引集合；i∈I＝{1,2,...,2N}表示在一个双视图批次里的训练样本索引；SIM(p,i)表示样本对p和i的监督对比损失；A(i)＝I-{i,N+i}表示多视图批次中除其自身以外的训练样本；sim(p,i)表示样本p和样本i两个向量之间的余弦相似度；X_i表示在一个双视图批次中的第i个样本；X_p表示在一个双视图批次中的第p个样本；X_a表示在一个双视图批次中的第a个样本；

表示用于控制训练样本之间距离的温度系数；

表示一个双视图批次的所有样本的表示集合；

为复制的情感表示的副本的集合；

3)通过如下步骤计算情感分类的CRF损失

式中：

表示给定对话文本U，标签序列为Y^s的条件概率；

表示标签序列Y^s的分数；

表示一个有效的标签序列y′在情感表示

的情况下的分数；

表示标签

到

的转移分数；

表示标签

在情感表示序列

下的发射分数；γ_s表示所有有效的情感标签序列γ_s。

优选的，通过如下公式联合情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失得到最终的训练损失，用以训练和优化预测模型的参数；

式中：

表示最终的训练损失；

分别表示情感分类的交叉熵损失、监督对比损失和CRF损失；

分别表示行为识别的交叉熵损失、监督对比损失和CRF损失；α、β、γ、δ均表示超参数，用于控制对应监督对比损失和CRF损失的权重。

本发明中联合多任务学习的对话情感分类和对话行为识别方法，具有如下有益效果：

本发明通过编码得到待测对话文本的语句初始表示，能够提取与对话上下文无关的语句级特征向量，进而通过单独建模说话者的情感线索和行为线索来得到对话情感和对话行为的初始表示序列，使得预测模型能够更好地捕捉说话者的信息，更好的理解同一说话者的情感线索和行为线索如何随着时间变化，即能够按照对话时间顺序建模说话者的信息，从而能够提高对话情感分类和对话行为识别的准确性和有效性，进而能够更好的分析说话者的情感和行为，以应用于共情回复、舆情分析、心理咨询和热点观察等领域。

同时，本发明通过将对话情感和对话行为的初始表示序列作为情感任务和行为任务来进行有向无环图传播以对话的信息传播，使得预测模型能够有效区分相同或不同说话者之间的互动关系，并在每次有向无环图传播后对情感任务和行为任务进行交互，使得情感分类和行为识别两个任务能够互相交互和促进，即能够充分建模整个对话的上下文信息，从而能够提高情感分类和行为识别的有效性。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为联合多任务学习的对话情感分类和对话行为识别方法的逻辑框图；

图2为预测模型(SA-CCGN)的网络构架图；

图3为DAG传播层取不同层数的模型性能示意图；

图4在Mastodon数据集上的学习曲线示意图；

图5为SA-CCGN和Co-GAT在低资源环境的模型性能示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种联合多任务学习的对话情感分类和对话行为识别方法。

如图1所示，联合多任务学习的对话情感分类和对话行为识别方法，包括以下步骤：

S1：获取包含各个说话者语句的待测对话文本；

本实施例中，分析得到说话者的情感和行为后，可以用于下游任务，比如用于对话系统生成适当的共情的回复，获用于舆情分析、心理咨询、热点观察等。其中，基于待测对话文本对话情感分类和对话行为识别的结果分析说话者的情感和行为，以及将说话者的情感和行为用于下游任务均采用现有手段完成，本发明只是为了更好的获取对话文本各个语句的预测情感标签和预测行为标签。

本发明公开的预测模型是一种说话者感知跨任务协同交互图网络(也称为SA-CCGN)。

其中，对话文本U＝{u₁,u₂,…,u_N}由N个语句u_i组成；每个语句的原始输入是一个单词序列，即u_i＝{w_i,1,w_i,2,…,w_i,n}，其中n表示语句的长度；

和

分别是对话文本U对应的情感标签序列和行为标签序列，其中

是语句u_i的情感标签和行为标签，γ^s和γ^a表示情感标签集和行为标签集；在一个对话中，有2个独立的说话者P＝{p_X,p_Y}，其中X、Y代表不同说话者；

表示第i个语句u_i的对应说话者，其中φ(u_i)∈{X,Y}是一个映射函数，它将u_i映射到其对应说话者的索引。

预测模型的目标是在根据对话的上下文信息及说话者信息从预先定义的情绪标签集合γ^s和行为标签集合γ^a中预测每个语句u_i的情绪标签

和行为标签

如图2所示，通过如下步骤训练预测模型：

S201：将作为训练样本的对话文本输入至预测模型中；

S202：(通过语句编码器)将对话文本中各个语句的单词进行单词编码，得到各个语句的语句向量序列；然后对各个语句的语句向量序列进行平均池化操作，得到各个语句的语句总体表示；最后基于各个语句的语句总体表示得到对话文本的语句初始表示；

S203：(通过说话者感知交互层)基于对话文本的语句初始表示得到各个说话者的语句表示序列；然后将各个说话者的语句表示序列输入双向门控循环单元，得到各个说话者的感知语句表示；其次基于各个说话者的感知语句表示映射得到对话文本的感知语句表示；最后将对话文本的感知语句表示输入双向门控循环单元，得到对话情感和对话行为的初始表示序列；

S204：(通过跨任务协同交互图网络)将对话情感和对话行为的初始表示序列作为情感任务和行为任务，并分别输入至两个单独的具有若干个有向无环图传播层的无环图网络中传播以模拟对话的信息传播；然后将两个任务在对应有向无环图传播层的输出进行交互；最后分别两个任务在各个有向无环图传播层的输出进行拼接，得到最终的情感表示序列和行为表示序列；

S206：重复执行步骤S201至S205，直至预测模型收敛。

具体的：

语句编码器模块采用了双向门控循环单元(Bi-LSTM)用于提取与对话上下文无关的语句级特征向量。具体包括：

1)用嵌入函数φ^emb(·)将对话文本U中语句u_i的单词w_i,j映射到向量表示；

2)通过Bi-LSTM生成单词w_i,j的隐藏状态h_i,j，即对单词w_i,j进行编码，进而得到单词编码后语句u_i的语句向量序列{h_i,1,…,h_i,n}；经过双向编码之后，第j个单词的表示为h_i,j，即将通过Bi-LSTM的两个方向的表示拼接起来，最后得到编码后的u_i的语句向量序列；

式中：φ^emb(·)表示嵌入函数；||表示拼接操作；

和

e_i＝avg_pool(h_i,1,…,h_i,n)；

式中：avg_pool表示平均池化操作；

为了更好地捕捉说话者信息，使用说话者感知交互层来使其随着对话顺序交互，使得预测模型能够更好理解同一说话者的情绪和行为线索如何随着时间变化。具体包括：

说话者Y的所有语句序列表示为

L_X和L_Y分别表示两个序列包含的语句数，即L_X+L_Y＝N；

和

其中，

和

表示映射函数，用于分别将语句

和

映射到对话文本U中对应语句的索引；

2)将E^X和E^Y分别输入至Bi-LSTM，得到说话者X和Y各个语句的语句表示；

对于说话者X和Y第j个语句

和

先得到语句

和

的前向语句表示和后向语句表示，进而拼接得到语句

和

的语句表示

和

对于说话者X(说话者Y的计算逻辑与说话者X一致)：

式中：

和

和

5)分别将对话文本的U感知语句表示P输入至两个单独的Bi-LSTM，得到对话情感的初始表示序列S＝{s₁,…,s_N}和对话行为的初始表示序列A＝{a₁,…,a_N}；

S＝Bi-LSTM_s(P)；

A＝Bi-LSTM_a(P)。

本发明通过编码得到待测对话文本的语句初始表示，能够提取与对话上下文无关的语句级特征向量，进而通过单独建模说话者的情感线索和行为线索来得到对话情感和对话行为的初始表示序列，使得预测模型能够更好地捕捉说话者的信息，更好的理解同一说话者的情感线索和行为线索如何随着时间变化，即能够按照对话时间顺序建模说话者的信息，从而能够提高情感分类和行为识别的准确性，进而更好的应用于共情回复、舆情分析、心理咨询和热点观察等领域。

本发明设计了一个跨任务协同交互图网络，将语句作为图的节点，通过构建一个有向无环图来模拟一个对话中信息的传播。并在每一次图传播后，使用协同交互层对两个任务进行交互。具体包括：

1、DAG传播层

首先，应用有向无环图(DAG)来模拟对话中的信息传播。形式上，将DAG表示为

DAG中的节点是对话中的语句，即

边代表语句之间的信息传播，例如，(i,j,r_ij∈ε)表示信息从u_i传播到u_j，边关系类型为

其中

是边的关系类型集。如果两个相连的语句u_i和u_j由同一说话者说出，则r_ij＝1；如果两个语句由不同说话者说出，则r_ij＝0。

在对话中，信息按时间顺序在说话者的互动中流动，DAG的构造应该模拟对话中的信息传播。特别地，本发明考虑了三个约束来决定在DAG中何时连接两个语句，即将信息从一个语句传播到另一个语句。

DAG传播层中，构建有向无环图时满足以下三个约束：

约束1(有向性)：信息只能从先前的语句传播到未来的语句，即

其中，r_ji表示从u_j传播到u_i的边；此约束确保对话是有向无环图。

约束2(远程信息)：对于每个语句u_i(第一个除外)，其远程信息被定义为语句u_τ；其中u_τ表示与u_i相同的说话者所说的前一个语句，即

它假设u_τ包含应该传播到u_i的远程信息，此远程约束表示u_τ是远程信息的截止点。

约束3(局部信息)：u_τ和u_i之间所有语句包含局部信息，局部信息应传播到u_i，即

其中，r_li表示从u_l传播到u_i的边。局部约束给出局部信息分界点。

1)情感任务：

对于对话情感的初始表示序列S＝{s₁,…,s_N}；

首先通过语句u_i在(l-1)层的隐藏状态和语句u_i在(l)层的前驱语句u_j的隐藏状态来计算语句u_i与其前驱语句u_j之间第(l)层的注意力权重

式中：

表示可训练参数；||表示拼接操作；

表示语句u_i的前驱集合；

表示语句u_i在(l-1)层的隐藏状态；

然后引入关系感知特征转换来对不同关系类型的边进行建模，在第(l)层DAG传播层获得语句u_i的聚合表示

式中：

表示关系转换的可训练参数，用于学习不同边类型的特征；

其次通过门控递归单元将语句u_i的聚合表示

与隐藏状态

合并，以通过聚合表示

控制语句u_i在隐藏状态

的传播，得到语句u_i在第(l)层的情感节点特征表示

式中：GRU表示门控递归单元；

再通过另一个门控递归单元将语句u_i的聚合表示

与隐藏状态

合并，以通过隐藏状态

控制语句u_i在聚合表示

的传播，获得语句u_i在第(l)层的种情感节点特征表示

式中：GRU表示门控递归单元；

最后合并语句u_i在第(l)层的两种情感节点特征表示

和

得到语句u_i在第(l)层的最后情感表示

2)行为任务：

2、协同交互层

为了使得情感分类和行为识别两个任务进行充分交互、互相促进。使用协同交互层在每个DAG传播层传播之后对两个任务的表示进行交互。具体来说，使用门控机制(来自Zhao F,Wu Z,Dai X.Attention Transfer Network for Aspect-level SentimentClassification)来确定两种表示的融合比例。

和最后行为表示

进行交互，得到交互后语句u_i在第(l+1)层的情感表示

和行为表示

传播过程中，将两个DAG网络中对应DAG传播层输出的表示进行交互后传播至下一个DAG传播层，因此每次DAG传播层的上一层节点表示，使用的是经过协同交互后的新的节点表示，计算注意力权重

以及情感节点特征表示

和

的公式作如下更新：

式中：

表示交互后语句u_i在第(l-1)层的情感表示。

4)将语句u_i在L层DAG传播层中输出的表示进行拼接，得到语句u_i最后的节点情感特征表示

和节点行为特征表示

和行为表示序列

本发明通过将对话情感和对话行为的初始表示序列作为情感任务和行为任务来进行有向无环图传播以对话的信息传播，使得预测模型能够有效区分相同或不同说话者之间的互动关系，并在每次有向无环图传播后对情感任务和行为任务进行交互，使得情感分类和行为识别两个任务能够互相交互和促进，即能够充分建模整个对话的上下文信息，从而能够提高情感分类和行为识别的有效性。

传统的交叉熵损失函数仅考虑了分类模型预测标签的准确性，而忽略了样本的标签之间的区分度以及标签之前存在的关联。因此，为了充分挖掘样本标签信息，本发明采用交叉熵损失、监督对比损失和CRF损失这3种损失函数联合训练的方式，对模型的训练过程进行监督。在减小分类误差的同时，约束样本的类间距离和类内距离，并通过标签之间的关联性对整个输出标签序列进行约束。

情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失的计算逻辑一致；

对于感分类：

1)通过如下步骤计算情感分类的交叉熵损失

式中：

表示根据情感表示序列

表示情感表示序列

中第i个语句u_i的情感表示；

表示根据情感表示序列

需要说明的是，预测行为标签的计算公式与预测情感标签的计算公式一致。

2)通过如下公式计算情感分类的监督对比损失

本发明采用了监督对比学习(SCL)(来自Khosla P,Teterwak P,Wang C,etal.Supervised contrastive learning)以缓解相似标签分类的困难，在充分利用标签信息的情况下，使相同情绪的样本具有内聚性，不同情绪的样本相互排斥。监督对比学习将同批次(batch)中所有具有相同标签的样本视为正样本，不同标签的样本视作负样本。如果批次中某一类别只存在一个样本，它不能直接应用于计算损失，所以本发明对情感表示复制一份副本，其梯度被分离。此时，参数优化保持稳定。对于一批有N个训练样本的批次，每个样本通过上述机制操作，以获得多视图2N个样本。

式中：P(i)＝I_j＝i-{i}表示与i类别相同的训练样本，但不包括其自身；I＝{1,2,...,2N}表示一个双视图批次的所有样本索引集合；i∈I＝{1,2,...,2N}表示在一个双视图批次里的训练样本索引；SIM(p,i)表示样本对p和i的监督对比损失；A(i)＝I＝{i,N+i}表示多视图批次中除其自身以外的训练样本；sim(p,i)表示样本p和样本i两个向量之间的余弦相似度；X_i表示在一个双视图批次中的第i个样本；X_p表示在一个双视图批次中的第p个样本；X_a表示在一个双视图批次中的第a个样本；

表示用于控制训练样本之间距离的温度系数；

表示一个双视图批次的所有样本的表示集合；

为复制的情感表示的副本的集合；

3)通过如下步骤计算情感分类的CRF损失

随着对话信息的流动，可以将ERC视为序列标记任务，即可以顺序解码对话中所有语句的情感标签。由于语句标签之间有很强的相关性，因而在最终表示

之上使用一个CRF层来预测每个语句的情感标签。

形式上，给定句子序列U＝{u₁,u₂,...,u_N}及其相应的真实情感标签序列

和所有有效的情感标签序列γ_s。对于对话U，利用得到的情感特征表示

可以获得

对应标签

的分数

式中：

表示给定对话文本U，标签序列为Y^s的条件概率；

表示标签序列Y^s的分数；

表示一个有效的标签序列y′在情感表示

的情况下的分数；

表示标签

到

的转移分数；

表示标签

在情感表示序列

下的发射分数；γ_s表示所有有效的情感标签序列γ_s。

通过如下公式联合情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失得到最终的训练损失，用以训练和优化预测模型的参数；

式中：

表示最终的训练损失；

分别表示情感分类的交叉熵损失、监督对比损失和CRF损失；

现有技术主要关注建模标签之间的关联性，而忽略了考虑标签之间的区分度，对于语义相似但不同的情感类别，如“愤怒”和“厌恶”等，模型很难对其进行区分。

因此，本发明基于情感表示序列和行为表示序列分别计算情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失并联合训练预测模型，通过交叉熵损失函数保证了预测模型预测标签的准确性，通过监督对比损失函数使得学习到的不同标签的表示更具有区分度，通过CRF损失函数约束相邻标签序列的产生，即能够在减小分类误差的同时，约束样本的类间距离和类内距离并通过标签之间的关联性对整个输出标签序列进行约束，进而能够利用标签之间的区分度和关联性来使预测模型学习到更为细粒度的表示，从而能够提高预测模型的训练效果和预测性能。

为了更好的说明本发明技术方案的优势，本实施例中公开了如下实验。

1、实验设置

本实验使用验证集来调整超参数，并在训练期间使用AdamW优化器。可调超参数包括学习率、批量大小、随机失活率，DAG传播层的数量和损失权重。对于其他超参数，语句的隐藏表示设置为300维。所有呈现的结果均为5次运行的平均值，实验是在Intel核心CPUI7-9700K 3.6GHz和NVIDIA GeForce GTX 2080TI的硬件上进行的。

2、数据集

本实验在两个公开数据集上进行实验：Mastodon(来自Cerisara C,Jafaritazehjani S,Oluokun A,et al.Multi-task dialog act and sentimentrecognition on Mastodon)和DailyDialog(来自Li Y,Su H,Shen X,et al.DailyDialog:A Manually Labelled Multi-turn Dialogue Dataset)。Mastodon是一个对源自于Mastodon社交网络的英语对话进行注释的数据集。对话中的每个语句被分配了两个标签。一个是情感标签，分为积极、消极和中性3个类别，另一个是行为标签，共有15类，如声明、同意、请求等。DailyDialog是从英语学习者的日常交流中收集的双向对话数据集。它包含7种情绪：中性、愤怒、厌恶等。在DailyDilaog中，那些表现出模棱两可情绪的语句被标注为中性。对于行为标签，分为通知、疑问、建议、接受/拒绝4个类别。

本实验仅利用上述数据集的文本形式进行实验，并且采用原始数据集的训练集/验证集/测试集的划分比例。对于评估指标，遵循Cerisara等人(来自Ghosal D,MajumderN,Mihalcea R,et al.Exploring the Role of Context in Utterance-level Emotion,Act and Intent Classification in Conversations:An Empirical Study)和Qin等人(来自Qin L,Che W,Li Y,et al.Dcr-net:A deep co-interactive relation networkfor joint dialog act recognition and sentiment classification和Qin L,Li Z,CheW,et al.Co-GAT:A Co-Interactive Graph Attention Network for Joint Dialog ActRecognition and Sentiment Classification)，对Dailydialog数据集的情感分类和对话行为识别采用宏平均(Macro-average)准确率(Precision，P)和召回率(Recall，R)和F1值，在Mastodon数据集上，忽略了DSC任务中的中性标签，而在DAR任务中，采用了行为特定均值F1分数，由每个对话行为的流行度加权。

3、基线

本实验将提出的模型与一些最先进的基线进行比较，并将所有对比的基线分为三类，包括：1)单独的对话情感分类方法：DialogueRNN(来自Majumder N,Poria S,HazarikaD,et al.Dialoguernn:An attentive rnn for emotion detection in conversations)DialogueGCN(来自Ghosal D,Majumder N,Poria S,et al.DialogueGCN:A GraphConvolutional Neural Network for Emotion Recognition in Conversation)；2)单独的对话行为识别方法：HEC(来自Kumar H,Agarwal A,Dasgupta R,et al.Dialogue actsequence labeling using hierarchical encoder with crf[)，CRF-ASN(来自Chen Z,Yang R,Zhao Z,et al.Dialogue act recognition via crf-attentive structurednetwork)，CASA(来自Raheja V,Tetreault J.Dialogue Act Classification withContext-Aware Self-Attention)；(3)对话情感分类和对话行为识别联合模型：JointDAS(来自Cerisara C,Jafaritazehjani S,Oluokun A,et al.Multi-task dialog act andsentiment recognition on Mastodon),IIIM(来自Kim M,Kim H.Integrated neuralnetwork model for identifying speech acts,predicators,and sentiments ofdialogue utterances)，DCR-Net(来自Qin L,Che W,Li Y,et al.Dcr-net:A deep co-interactive relation network for joint dialog act recognition and sentimentclassification)，Co-GAT(来自Qin L,Li Z,Che W,et al.Co-GAT:A Co-InteractiveGraph Attention Network for Joint Dialog Act Recognition and SentimentClassification)。

4、结果对比和分析

4.1、总体性能实验

本实验在两个公开数据集上进行了实验，被比较的基线的总体性能都如表1所示。表现最优的和次优的结果分别用粗体和下划线表示。

如表1所示，本发明提出的预测模型SA-CCGN与所有基线方法相比，在两个数据集上都表现出更好的性能。与最优的基线Co-GAT相比，SA-CCGN在Mastodon和DailyDialog上DSC任务F1值分别提高了4.57％和3.33％，DAR任务F1值分别提高了2.15％和0.63％。另外，可以发现多任务模型表现有时略差于单任务模型，这可能是因为任务间不恰当或不充分的交互反而会降低模型的性能。

表1在两个数据集上的总体表现(％)

4.2、消融实验

为了验证模型SA-CCGN的每个组成部分的有效性，从SA-CCGN中移除每个部分进行比较，所有的变体都列举如下：(2)w/o说话者感知交互层：去掉了说话者感知交互层，此时模型不再单独捕捉说话者随时间变化的信息。(3)w/o协同交互层：去掉了协同交互层，两个任务进行单独的图传播，不再进行交互。(4)w/o监督对比损失：最后的损失计算只使用两个任务的交叉熵损失及CRF损失。(5)w/o CRF损失：最后的损失计算只使用两个任务的交叉熵损失及监督对比损失。(6)w/o监督对比损失&CRF损失：最后的损失计算只使用两个任务的交叉熵损失。

表2为报告的消融实验的结果，最好的结果使用粗体表示，根据实验结果得到的结论为：(1)与完整的SA-CCGN相比，移除任一组件的SA-CCGN变体的性能都明显下降，这表明每个组件都起到了积极的作用。(2)在所有的数据集上，去除协同交互层将导致相当大的性能下降，例如在Mastodon上两个任务的性能下降分别为0.97％、1.96％、1.25％、4.08％。这证明了本发明的模型对于两个任务的交互是合理且充分的。(3)分别去除监督对比损失和CRF损失，模型表现的下降比例各有不同，可能是因为不同数据集不同任务存在差异性。同时去除监督对比损失和CRF损失，将导致性能更差。

表2消融实验

4.3、参数敏感性实验

DAG传播层的数量L控制了节点信息传播的范围。在这个实验中，把L的层数从0到6依次改变，研究DAG传播层数参数L的敏感性，结果显示在图3中。可以观察到，当增加层数时，性能持续上升，进一步增加L时，性能相对下降。主要原因是当L较小时，DAG的结构信息没有被很好地挖掘，例如，当L＝1时，模型聚合来自一跳邻居的信息。然而，过大的L可能会导致模型从图中的所有节点收集信息，使得图节点过于平滑。此外，最佳层数随不同的数据集和不同任务而变化。在DailyDialog上，更多的层数是首选，即L＝3或者L＝4。而在Mastodon上，相对较少的层数会带来更好的性能，如L＝1。原因可能是DailyDialog的平均语句数量比Mastodon更多，L的层数过多会损害模型性能。

4.4、学习曲线实验

本实验进一步Mastodon数据集上进行实验，以研究所提出的模型的收敛速度。图4显示了SA-CCGN模型的学习曲线，报告了在每个迭代次数(epoch)时两个任务的测试集的F1得分和训练集的总loss值。从图4可以看到，SA-CCGN模型收敛得较快，在Mastodon数据集，DAR和DSC任务分别能够在大约10和50个epoch时模型得到收敛。总的来说，SA-CCGN模型的学习曲线较为平滑与稳定，模型具有很好的收敛性和鲁棒性。

4.5、低资源环境下的模型性能

本实验将研究低资源环境下的模型性能。实验选取在DailyDialog数据集，通过从原始训练集中随机选择20％-100％依次递增的样本数量来训练模型，并在原始测试集中进行测试。图5显示了本发明提出的模型SA-CCGN和最具竞争力的基线Co-GAT在不同比例的训练数据上的性能。可以观察到，SA-CCGN始终优于Co-GAT。训练数据的比例小时，相对于Co-GAT有显著提升，例如，在训练数据比例为20％、40％时DSC任务的性能改进分别为21％、25％。实验结果验证了本发明模型在低资源环境仍具有良好的性能。

4.6、计算效率对比实验

在实际应用中，除了性能外，参数数量、时间成本和所需的GPU内存也是重要因素。以Mastodon为试验基准，将本发明提出的模型SA-CCGN与最新的SOTA(Co-GAT)在这些因素上进行了比较，结果如表3所示。值得注意的是，尽管本发明模型在两个任务达到性能上都超过了SOTA，但它将参数数量和所需的GPU内存减少了约1/2，因为Co-GAT的两个任务之间是通过一个全连通的无向图进行传播，而SA-CCGN则在两个任务分别进行传播后再可适应地协同交互，训练成本较低。因此，在实际应用中本发明提出模型是更有效的。

表3 SA-CCGN和Co-GAT的计算效率对比

5、总结

综上，本发明能够充分利用对话中包含的说话者信息、时间信息和标签信息等显式信息和隐式信息，从而能够进一步提高情感分类和行为识别的准确性和有效性。

并且，通过实验证明了本发明所提出模型的有效性，并且超越了现有的基线，达到了最先进的性能。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.联合多任务学习的对话情感分类和对话行为识别方法，其特征在于，包括以下步骤：

S1：获取包含各个说话者语句的待测对话文本；

2.如权利要求1所述的联合多任务学习的对话情感分类和对话行为识别方法，其特征在于：步骤S2中，通过如下步骤训练预测模型：

S201：将作为训练样本的对话文本输入至预测模型中；

S206：重复执行步骤S201至S205，直至预测模型收敛。

3.如权利要求2所述的联合多任务学习的对话情感分类和对话行为识别方法，其特征在于：步骤S201中，对话文本U＝{u₁,u₂,…,u_N}由N个语句u_i组成；每个语句的原始输入是一个单词序列，即u_i＝{w_i,1,w_i,2,…,w_i,n}，其中n表示语句的长度。

4.如权利要求2所述的联合多任务学习的对话情感分类和对话行为识别方法，其特征在于：步骤S202中，具体包括：

式中：φ^emb(·)表示嵌入函数；||表示拼接操作；

和

e_i＝avg_pool(h_i,1,…,h_i,n)；

式中：avg_pool表示平均池化操作；

5.如权利要求4所述的联合多任务学习的对话情感分类和对话行为识别方法，其特征在于：步骤S203中，具体包括：

说话者Y的所有语句序列表示为

L_X和L_Y分别表示两个序列包含的语句数，即L_X+L_Y＝N；

和

其中，

和

表示映射函数，用于分别将语句

和

映射到对话文本U中对应语句的索引；

对于说话者X和Y第j个语句

和

先得到语句

和

的前向语句表示和后向语句表示，进而拼接得到语句

和

的语句表示

和

对于说话者X：

式中：

和

和

4)将说话者X和Y的感知语句表示P^X和P^Y按照对话文本U中原语句序列的顺序映射回去，得到对话文本U的感知语句表示P＝{p₁,…,p_N}；

5)分别将对话文本U的说话者感知语句表示P输入至两个单独的双向门控循环单元，得到对话情感的初始表示序列S＝{s₁,…,s_N}和对话行为的初始表示序列A＝{a₁,…,a_N}；

S＝Bi-LSTM_s(P)；

A＝Bi-LSTM_a(P)。

6.如权利要求5所述的联合多任务学习的对话情感分类和对话行为识别方法，其特征在于：步骤S204中，具体包括：

1)情感任务：

对于对话情感的初始表示序列S＝{s₁,…,s_N}；

首先通过语句u_i在(l-1)层的隐藏状态

和语句u_i在(l)层的前驱语句u_j的隐藏状态

计算语句u_i与其前驱语句u_j之间第(l)层的注意力权重

式中：W_α ^(l)表示可训练参数；||表示拼接操作；

表示语句u_i的前驱集合；

表示语句u_i在(l-1)层的隐藏状态；

式中：

表示关系转换的可训练参数，用于学习不同边类型的特征；

其次通过门控递归单元将语句u_i的聚合表示

与隐藏状态

合并，以通过聚合表示

控制语句u_i在隐藏状态

的传播，得到语句u_i在第(l)层的情感节点特征表示

式中：GRU表示门控递归单元；

再通过另一个门控递归单元将语句u_i的聚合表示

与隐藏状态

合并，以通过隐藏状态

控制语句u_i在聚合表示

的传播，获得语句u_i在第(l)层的种情感节点特征表示

式中：GRU表示门控递归单元；

最后合并语句u_i在第(l)层的两种情感节点特征表示

和

得到语句u_i在第(l)层的最后情感表示

2)行为任务：

和最后行为表示

进行交互，得到交互后语句u_i在第(l+1)层的情感表示

和行为表示

和节点行为特征表示

和行为表示序列

7.如权利要求6所述的联合多任务学习的对话情感分类和对话行为识别方法，其特征在于：由于将两个任务在对应有向无环图传播层的输出进行交互后传播至下一个有向无环图传播层，计算注意力权重

以及情感节点特征表示

和

的公式作如下更新：

式中：

表示交互后语句u_i在第(l-1)层的情感表示。

8.如权利要求6所述的联合多任务学习的对话情感分类和对话行为识别方法，其特征在于：有向无环图传播层中，构建有向无环图时满足以下三个约束：

约束1：信息只能从先前的语句传播到未来的语句，即

其中，r_ji表示从u_j传播到u_i的边；

其中，r_li表示从u_l传播到u_i的边。

9.如权利要求6所述的联合多任务学习的对话情感分类和对话行为识别方法，其特征在于：步骤S205中，情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失的计算逻辑一致；

对于情感分类：

1)通过如下步骤计算情感分类的交叉熵损失

式中：

表示根据情感表示序列

表示情感表示序列

中第i个语句u_i的情感表示；

表示根据情感表示序列

2)通过如下公式计算情感分类的监督对比损失

表示用于控制训练样本之间距离的温度系数；

表示一个双视图批次的所有样本的表示集合；

为复制的情感表示的副本的集合；

3)通过如下步骤计算情感分类的CRF损失

式中：

表示给定对话文本U，标签序列为Y^s的条件概率；

表示标签序列Y^s的分数；

表示一个有效的标签序列y′在情感表示

的情况下的分数；

表示标签

到

的转移分数；

表示标签

在情感表示序列

下的发射分数；γ_s表示所有有效的情感标签序列γ_s。

10.如权利要求9所述的联合多任务学习的对话情感分类和对话行为识别方法，其特征在于：通过如下公式联合情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失得到最终的训练损失，用以训练和优化预测模型的参数；

式中：

表示最终的训练损失；

分别表示情感分类的交叉熵损失、监督对比损失和CRF损失；