CN115062115A

CN115062115A - 一种在对话策略中响应情感类别预测方法

Info

Publication number: CN115062115A
Application number: CN202210761098.7A
Authority: CN
Inventors: 王振宇; 张睿; 徐恺
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-09-16
Anticipated expiration: 2042-06-30
Also published as: CN115062115B

Abstract

本发明公开了一种在对话策略中响应情感类别预测方法。所述方法包括以下步骤：知识增强的对话上下文编码模块通过分层Transformer网络将前M‑1轮的对话历史信息V_1:M‑1编码为上下文向量表示X_1:M‑1，并融合对话中的对话特征；潜在情感响应学习模块采用变分网络学习语料中从上下文向量表示X_1:M‑1到情感响应的映射，从而建模得到潜在分布z；交互情感预测模块将对话上下文编码模块输出的上下文向量表示X_1:M‑1和潜在分布z作为输入，预测响应情感E′_Y。本发明提出的方法实现响应情感类别的预测，赋予对话代理自适应地进行多样化情感表达的能力，缓解目标文本缺失导致的推断合理性问题。

Description

一种在对话策略中响应情感类别预测方法

技术领域

本发明涉及自然语言处理中的人机对话领域，具体涉及一种在对话策略中响应情感类别预测方法。

技术背景

随着人工智能等技术的发展，国家建设数字化建设的提出，各行各业对智能人机对话的需求持续增长。自然语言处理的研究是实现数字化、智能化生活与服务不可或缺的环节。研究富有情感的任务型对话系统是能够为智能化的人机交互系统带来更加实用的价值。

目前，任务型对话代理在帮助客户解决特定的任务时缺乏情感的响应。具备多样化情感表达能力的对话代理需要根据当前任务的需求自适应地切换不同的情感风格与用户进行对话，从而提高对话的成功率和用户满意度。先前，许多模型通过人工设置特定的触发规则来选取预先定义的情感表达模板。然而，这样的模型通常需要构建庞大的规则库以适应复杂的对话场景，该过程往往费时费力。随着近年来深度学习技术的发展，基于深度神经网络的情感人机对话生成模型大量涌现。然而，目前基于端到端形式的情感对话生成方法往往忽略了响应情感类别的预测问题。这些对话生成模型旨在根据给定的响应情感类型和特定的对话上下文生成与该响应情感类型一致的情感回复。也就是说，这些方法通常假定对话生成时，其响应情感的类别是已知的。该假设导致这些模型仅能够在特定的标注数据集上进行训练和测试，而无法被部署到线上对话系统中，因为在线上运行时，用户不会主动告知对话代理应该用哪种情感来进行回复，此时响应情感类别的标签是缺失的。

自适应的响应情感类别任务可以看成做一项存在目标文本缺失问题的特殊文本分类任务。经典的文本情感分类任务是从已知的文本片段中提取相应的语义信息并对其类型进行判别；而在响应情感类别预测任务中，模型无法获得尚未生成的情感响应内容，而需要直接根据对话上下文信息对响应的情感类型进行推断。这种目标文本缺失的现象也称为“鸿沟”问题，该现象导致现有的对话情感分类方法在这一任务上无法取得很好的效果，因为这些模型不具备对未来的响应进行推断的能力。

现有技术中，情感分类的方法和情感分类模型的训练方法、装置，只根据输入的文本进行情感分类，而不能解决目标文本缺失的问题(杨哲,卓泽城,龚建,黄强,潘旭.情感分类的方法和情感分类模型的训练方法、装置[P].北京市：CN113806541A,2021-12-17.)。

发明内容

为了实现响应情感类别的预测，并缓解该任务所面临的目标文本缺失问题，本发明提出面向任务型对话的响应情感类别预测方法。由于直接根据对话上下文历史预测合理的响应情感类型非常困难，该方法结合对话中的任务相关知识实现多轮对话编码，并引入变分网络将潜在的合理响应建模为语义空间上的分布，利用该分布强化响应情感的类别进行推断的能力。

本发明至少通过如下技术方案之一实现。

一种在对话策略中响应情感类别预测方法，包括以下步骤：

S1、知识增强的对话上下文编码模块通过分层Transformer网络将前M-1轮的对话历史信息V_1:M-1编码为上下文向量表示X_1:M-1，并融合对话中的对话特征，提升上下文编码模块的语义表征能力；

S2、潜在情感响应学习模块采用变分网络学习语料中从上下文向量表示X_1:M-1到情感响应的映射，从而建模得到潜在分布z，潜在分布z能够从语料中学习到情感对话的交互模式；

S3、交互情感预测模块通过一个带有softmax激活的线性网络实现；交互情感预测模块将对话上下文编码模块输出的上下文向量表示X_1:M-1和潜在分布z作为输入，预测响应情感E′_Y。

进一步地，步骤S1中，对于前M-1轮的对话历史信息V_1:M-1中的每一轮对话，融合对话文本、任务相关知识和属性三种对话特征，每一种对话特征的表示形式均为向量化表示；

所述对话文本是对话的上下文；

所述任务相关知识为任务型对话中的用户意图和槽值信息，通过查询数据库得到；

所述属性信息为用户角色类型和用户角色的情感信息，用户角色类型包括对话代理和客户。

进一步地，步骤S1具体包括以下步骤：

S1.1、对于第k轮对话中由用户或对话代理产生的对话文本

使用BERT模型将对话文本V_k编码为对话文本向量v_k；

为第k轮中第i个用户或对话代理产生的对话文本；

S1.2、对于第k轮对话中包括的任务相关知识

采用BERT模型进行知识编码得到任务相关知识向量u_k，其中，

为第k轮第i个用户的任务相关知识，任务相关知识的编码同样采用BERT模型进行参数初始化；

S1.3、对于第k轮对话中的属性信息，将用户角色类型和第k轮对话的情感类别表示为独热向量，并采用一个线性的属性编码网络将该独热向量表示为第k轮对话中的属性信息向量att_k；

S1.4、对于第k轮对话，通过一个线性前馈网络和一个分层池化操作融合对话文本向量v_k、任务相关知识向量u_k和属性信息向量att_k并得到句子级的编码向量s_k：

s_k＝Hierarchical_pooling(W_s·[v_k；Mean(u_k)；att_k]+b_s)

其中，Mean(·)表示平均池化操作，W_s和b_s分别为线性前馈网络的权重和偏置；s_k是第k轮对话中的经过分层池化操作Hierarchical_Pooling(·)处理后得到的句子级的编码向量；分层池化操作首先对原有的句子向量进行n-gram窗口的最大池化操作，再进行平均池化得到最终的句子编码结果；

S1.5、采用分层Transformer网络通过多头自注意力机制将前M-1轮对话中的句子级的编码向量s_k转换为前M-1轮的上下文向量表示X_1:M-1：

X_1:M-1＝Encoder(s_1:M-1)

对话级编码网络中的多头注意力机制能够忽略对话的时序关系，捕捉到多轮对话中的长程依赖，从而能够更加有效地提取到与当前响应情感类别预测任务有关的对话历史信息；s_1:M-1表示前M-1轮对话的句子级的编码向量，s_1:M-1＝s₁,s₂,…s_k,…,s_M-1。

进一步地，步骤S2具体包括以下步骤：

S2.1、采用先验网络构建情感类别的预测条件c，该先验网络记为p_θ，将编码前M-1轮的上下文向量表示X_1:M-1、当前第M轮对话中对话代理的响应动作

以及查询结果的任务相关知识向量u_M，构建情感类别预测的条件c，其中任务相关知识向量σ_M是根据用户对话匹配的用户意图和对话槽值信息的编码，具体如下：

其中，FF(·)表示前馈网络；假设潜在分布z服从具有对数协方差矩阵的多元高斯分布，则可表示为p_θ(z|c)～N(μ,σ²)，含义为条件c下潜在分布z的概率满足高斯分布均值μ和方差σ；

采用多头注意力机制计算潜在分布z的均值μ和方差σ，具体如下：

h＝Hierarchical_Pooling(MH(c,c,c))

其中，MH(·)表示多头自注意力网络，Hierarchical_Pooling为分层池化操作，W_p和b_p分别为多头注意力网络的权重和偏置值，可通过神经网络的线性层学习得到；

S2.2、将第M轮对话中的对话代理的响应Y_M视为对话代理的响应目标y_M，采用BERT模型将对话代理的响应Y_M编码得到目标句子的向量v_M，v_M表示第M轮对话中的对话文本向量，根据前M-1轮对话预测得到；根据条件c和响应目标y_M引入分布z′，令分布z′服从

在条件c和响应目标y_M的情况下分布z′满足均值μ′和方差σ′的高斯分布；

记为该识别网络。该做法的目的是为了让响应目标y_M的分布z′和潜在分布z的分布相接近，分布z′的均值μ′和方差σ′的计算方式为：

c′＝Linear([c；v_M])

h′＝Hierarchical_Pooling(MH(c′,c′,c′))

其中，W_q和b_q分别是h′的权重和偏置值，h′表示分层池化操作的结果；可以利用重参数技巧根据μ和σ采样出潜在分布z，或从识别网络

中根据μ′和σ′采样出分布z′，并将潜在分布z或分布z′应用到解码器中进行对话代理的响应Y的重构；

S2.3、根据分布z′进行采样，基于Transformer的解码器网络以向量拼接的形式将潜在分布特征和采样的特征进行融合，具体如下：

基于Transformer的解码器网络将条件c和对对话代理的响应Y_M进行位移和掩盖操作后得到的向量化表示Y_mask作为输入，通过Transformer解码块计算后得到输出T_out：

T_out＝Decoder(Y_mask,c)

解码器网络将分布z′的向量与输出T_out进行拼接，通过一个带有Softmax激活的线性层对对话代理的响应Y_M进行重构，得到预测的响应文本Y′_M：

Y′_M＝softmax(Linear([z′；T_out]))

S2.4、通过预测的词语分布y′_n与真实分布y_n之间的交叉熵损失

训练解码器网络，其中n是词语的索引，y′_n∈Y′_M，y_n∈Y_M；

分布z′通过随机梯度变分贝叶斯框架，经由最大化以下的变分下界进行学习得到，具体如下：

的作用是利用KL散度迫使模型保持两个分布相接近；

其中，所述变分下界利用KL散度迫使潜在分布z和分布z′相接近；通过联合损失函数

和

进行训练。

进一步地，步骤S3中，预测响应情感E′_Y的学习函数为：

E′_Y＝softmax(Linear([Mean(X_1:M-1)；z]))

损失函数

为：

其中，K表示情感类型的数量，n是词语的索引，e_n是预测的响应情感，p(e_n)∈[0,1]表示所预测的响应情感E′_Y的标签概率分布，o_n∈{0,1}表示情感E_Y的真实值；

最后，利用损失函数

通过反向梯度传播对交互情感预测模块中的参数进行调整优化，得到训练好的交互情感预测模块。

本发明与现有技术相比，具有如下优点和有益效果：

1.利用分层Transformer实现对话级文本的特征编码，克服多轮对话编码过程中的文本过长问题；

2.在对话编码中引入知识编码网络，对任务型对话中涉及到的意图、槽以及知识库查询结果进行编码，通过融合这些知识丰富对话特征，提升模型的预测效果；

3.提出潜在情感响应学习网络，利用变分推断从语料中学习潜在的情感响应模式，赋予模型推断合理响应的能力，从而缓解目标文本缺失问题。

附图说明

图1为本发明实施例中一种在对话策略中响应情感类别预测方法流程图。

图2为本发明实施例中知识增强的对话上下文编码模块的网络结构图。

图3为本发明实施例中潜在情感响应学习模块的网络结构图。

具体实施方式

下面结合本发明实施例中的附图对本发明的技术方案进行描述。需要说明的是，在不冲突的情况下，本发明中的实施例以及实施例中的特征可以相互结合。

实施例1：

一种在对话策略中响应情感类别预测方法，如图1、图2和图3所示，包括以下步骤：

对于前M-1轮的对话历史信息V_1:M-1中的每一轮对话，融合对话文本、任务相关知识和属性三种对话特征，每一种对话特征的表示形式均为向量化表示；

所述对话文本是对话的上下文；

步骤S1具体包括以下步骤：

S1.1、对于第k轮对话中由用户或对话代理产生的对话文本

使用BERT模型将对话文本V_k编码为对话文本向量v_k；

为第k轮中第i个用户或对话代理产生的对话文本；

S1.2、对于第k轮对话中包括的任务相关知识

采用BERT模型进行知识编码得到任务相关知识向量u_k，其中，

s_k＝Hierarchical_pooling(W_s·[v_k；Mean(u_k)；att_k]+b_s)

X_1:M-1＝Encoder(s_1:M-1)

S2、潜在情感响应学习模块采用变分网络学习语料中从上下文向量表示X_1:M-1到情感响应的映射，从而建模得到潜在分布z，潜在分布z能够从语料中学习到情感对话的交互模式，具体包括以下步骤：

以及查询结果的任务相关知识向量u_M，构建情感类别预测的条件c，其中任务相关知识向量u_M是根据用户对话匹配的用户意图和对话槽值信息的编码，具体如下：

h＝Hierarchical_Pooling(MH(c,c,c))

本实施例中，前馈网络为循环神经网络，多头自注意力网络为transformer网络。

c′＝Linear([c；v_M])

h′＝Hierarchical_Pooling(MH(c′,c′,c′))

T_out＝Decoder(Y_mask,c)

Y′_M＝softmax(Linear([z′；T_out]))

的作用是利用KL散度迫使模型保持两个分布相接近；

和

进行训练。

S3、交互情感预测模块通过一个带有softmax激活的线性网络实现；交互情感预测模块将对话上下文编码模块输出的上下文向量表示X_1:M-1和潜在分布z作为输入，预测响应情感E′_Y；

预测响应情感E′_Y的学习函数为：

E′_Y＝softmax(Linear([Mean(X_1:M-1)；z]))

损失函数

为：

最后，利用损失函数

实施例2：

本实施例中，与实施例1的不同之处具体如下：

步骤S1中，融合对话文本、任务相关知识和属性三种对话特征的向量，属性特征向量不包括用户角色。

步骤S2.1中，多头自注意力网络的头设置并没有限制，本实施例中多头个数设置为6。

步骤S2.3中，基于Transformer的解码器网络以向量相加(而非拼接)的形式将潜在分布特征和采样的特征进行融合。

步骤S3中，交互情感预测模块将对话上下文编码模块输出的上下文向量表示X_1:M-1和分布z′和z的平均作为输入，预测响应情感E′_Y。

预测响应情感E′_Y的学习函数为：

E′_Y＝softmax(Linear([Mean(X_1:M-1)；z]))

其中用与分类的softmax将情感分类为特定个数K，K在此实施列中为7个情感类别。

实施例3：

本实施例中，与实施例1的不同之处具体如下：

步骤S1中，融合对话文本、任务相关知识和属性三种对话特征的向量，相关知识特征向量只包含用户意图。

步骤S2.1中，多头自注意力网络的头设置并没有限制，本实施例中多头个数设置为12。

步骤S2.3中，解码器网络将条件c和对目标输出Y进行直接拼接和掩盖操作后得到的向量化表示Y_mask

步骤S3中，交互情感预测模块将对话上下文编码模块输出的上下文向量表示X_1:M-1和分布z′作为输入，预测响应情感E′_Y

预测响应情感E′_Y的学习函数为：

E′_Y＝softmax(Linear([Mean(X_1:M-1)；z]))

其中用与分类的softmax将情感分类为特定个数K，K在此实施列中为22个情感类别。

尽管已经示出和描述了本发明的实施例，对于本领域普通技术人员而言，可以理解的是，在不脱离本发明原理和精神的情况下可以对这些实施例进行多种等效的变换、修改、替换和变型，本发明的范围由所附权利要求及其等同范围限定。

Claims

1.一种在对话策略中响应情感类别预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种在对话策略中响应情感类别预测方法，其特征在于，步骤S1中，对于前M-1轮的对话历史信息V_1:M-1中的每一轮对话，融合对话文本、任务相关知识和属性三种对话特征，每一种对话特征的表示形式均为向量化表示。

3.根据权利要求2所述的一种在对话策略中响应情感类别预测方法，其特征在于，所述对话文本是对话的上下文。

4.根据权利要求2所述的一种在对话策略中响应情感类别预测方法，其特征在于，所述任务相关知识为任务型对话中的用户意图和槽值信息，通过查询数据库得到。

5.根据权利要求2所述的一种在对话策略中响应情感类别预测方法，其特征在于，所述属性信息为用户角色类型和用户角色的情感信息，用户角色类型包括对话代理和客户。

6.根据权利要求2所述的一种在对话策略中响应情感类别预测方法，其特征在于，步骤S1具体包括以下步骤：

S1.1、对于第k轮对话中由用户或对话代理产生的对话文本

使用BERT模型将对话文本V_k编码为对话文本向量v_k；

为第k轮中第i个用户或对话代理产生的对话文本；

S1.2、对于第k轮对话中包括的任务相关知识

采用BERT模型进行知识编码得到任务相关知识向量u_k，其中，

s_k＝Hierarchical_pooling(W_s·[v_k；Mean(u_k)；att_k]+b_s)

X_1:M-1＝Encoder(s_1:M-1)

7.根据权利要求6所述的一种在对话策略中响应情感类别预测方法，其特征在于，步骤S2具体包括以下步骤：

S2.1、采用先验网络构建情感类别的预测条件c，该先验网络记为p_θ，具体如下：

将编码前M-1轮的上下文向量表示X_1:M-1、当前第M轮对话中对话代理的响应动作

以及查询结果的任务相关知识向量u_M，构建情感类别预测的条件c，其中，任务相关知识向量u_M是根据用户对话匹配的用户意图和对话槽值信息的编码，具体如下：

h＝Hierarchical_Pooling(MH(c,c,c))

在条件c和响应目标y_M的情况下分布z′满足均值μ′和方差σ′的高斯分布，

记为识别网络；该做法的目的是为了让响应目标y_M的分布z′和潜在分布z的分布相接近，分布z′的均值μ′和方差σ′的计算方式为：

c′＝Linear([c；v_M])

h′＝Hierarchical_Pooling(MH(c′,c′,c′))

T_out＝Decoder(Y_mask,c)

Y′_M＝softmax(Linear([z′；T_out]))

的作用是利用KL散度迫使模型保持两个分布相接近。

8.根据权利要求7所述的一种在对话策略中响应情感类别预测方法，其特征在于，所述变分下界利用KL散度迫使潜在分布z和分布z′相接近；通过联合损失函数

和

进行训练。

9.根据权利要求7所述的一种在对话策略中响应情感类别预测方法，其特征在于，步骤S3中，预测响应情感E′_Y的学习函数为：

E′_Y＝softmax(Linear([Mean(X_1:M-1)；z]))

损失函数

为：

其中，K表示情感类型的数量，n是词语的索引，e_n是预测的响应情感，p(e_n)∈[0,1]表示所预测的响应情感E′_Y类别的概率分布，o_n∈{0,1}表示情感E_Y的真实值。

10.根据权利要求1～9任一项所述的一种在对话策略中响应情感类别预测方法，其特征在于，利用损失函数