CN112163080A

CN112163080A - 一种基于多轮情绪分析的生成式对话系统

Info

Publication number: CN112163080A
Application number: CN202011083309.3A
Authority: CN
Inventors: 王伟; 阮文翰; 齐庆杰; 孟祥福; 张宵燕; 张志莹
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-01-01

Abstract

针对人机对话中不能对多轮情绪语义进行准确分析而造成回答不准确的问题，通过对Transformer即多头注意力机制进行改进，提出一种基于多轮情绪分析的生成式对话模型。考虑编码端的多轮对话的情绪，在解码端嵌入情绪向量。在解码开始时，依据第一个情绪向量能以很大概率生成第一个符合当前的语境的词，之后每一个词都嵌入这个向量来限制语境。为防止生成像“我不知道”，“呵呵”等万能词，将输出函数进行基于Maximum Mutual Information(MMI)的优化。

Description

一种基于多轮情绪分析的生成式对话系统

技术领域

本发明涉及人工智能对话系统，特别是涉及当出现多轮人机对话的多轮情绪分析的生成式对话系统。

背景技术

随着人类社会信息化的不断演进以及人工服务成本的不断上升，人们越来越希望通过自然语言与计算机进行交流，智能对话机器人系统成为这样的历史背景下诞生的产物，尤其是能够理解用户情绪，能够记忆用户的历史对话，能够记忆用户历史情绪变动，能够给用户提供个性化的服务的智能对话系统，正成为各大公司及学术研究机构研发的方向和重点。

目前已有的智能对话系统的研究中，在人机单轮对话中，机器的表现尚佳，但是在多轮对话中，就暴露出不能基于多轮对话情绪分析出当前话语具体含义的问题，如在负面情绪的情况下说出正面的话语，即正话反说，而机器只会根据单论对话进行回答，不能基于背景情绪给出一个令人满意的答复。

本发明针对此缺陷提出，解决人机对话系统不能依据用户的情绪给出准确回答的问题。

发明内容

一种基于多轮情绪分析的生成式对话系统，其特征在于使用基于深度学习的Transformer的端到端方式，研究针对多轮情绪分析的人机智能对话系统，根据用户输入的当前轮次的对话文本，联系上下文信息判断出最终情绪，给出合理的回答。

本发明提供的技术方案包括如下步骤：在编码部分，将当前轮次客户输入的信息和前几轮的信息进行编码；解码部分，首先将编码后的向量输入到解码部分，进行解码生成回复语句的第一个字，之后将编码后的向量和解码生成的字向量输入到解码部分中，直到生成最后一个字符。

附图说明

图1对话系统编码部分任务示意图。

图2对话系统解码部分任务示意图。

图3对话系统的总体示意图。

具体实施方式

第一步将当前话语与context进行字嵌入编码和位置编码，其中每个字嵌入编码的维度是常用字的维度设为4096，字向量的表示方式就是one-hot编码，即每个字向量中只有一个值为1的分量，这个1所在的槽位就是所准备的4000多个字语料库中该字的槽位。之后字嵌入编码与位置编码进行相加，位置编码的维度和字嵌入编码维度一样，句子的长度是对话语料库中最长句子中的字数，也就是每句话是用一个矩阵进行表示。然后将编码后的两个矩阵相拼接输入到Encoder层中，矩阵为当前对话和前几轮对话即context，同时将target输入到Decoder中进行掩码操作，Target是标签，即对当前话语(你们的产品质量可真好啊)的标准输出；第二步经过Encoder中的self-attentionlayer算出每个字符的注意力权重，进行残差连接和归一化操作，然后输入到Decoder中self-attentionlayer中，同时target在经过掩码后也输入到self-attentionlayer，其中编码的过程是并行的，位置顺序对self-attention没有任何影响；第三步在decoder进行解码由图中V’向量和Vi向量共同决定。

如公式1所示，其中V’表示情绪向量，是由context(前n-1轮对话)在Encoder中生成的，V指的是当前语句(如图1中，“你们的产品质量可真好啊”这句话)在Encoder中生成的起始向量，传入到Decoder，使Decoder接收到开始解码的信息，算出第一个字为‘对’时概率最大，如公式二所示，第二个字为‘不’，依此类推最后得出整句回复“对不起我们马上处理并给您一个满意的答复”。

这是在模型训练完之后的效果，模型的构造和参数以及训练过程在编码和解码部分。

Y(1)＝max(P(word1|V',V,word0)) (公式1)

Y(2)＝max(P(word2|V',V,word1)) (公式2)

编码部分：字嵌入操作最开始就是随机初始化后续通过学习可得到精准的字嵌入向量，位置编码是经验赋值，经验赋值公式如公式3，其中PE(pos；2i)为对偶数位置的字符进行位置编码，PE(pos；2i+1)为对奇数位置的字符进行位置编码。

输入到self-attention；当前对话进行字嵌入操作得到的输入向量为公式5，context进行字嵌入操作得到的输入向量为公式6。

在self-attention中多头注意力Q，K，V的计算为公式7～8其中Q₁，K₁，V₁初始值为I₁，d_k1为I₁的维度；Q₂，K₂，V₂初始值为I₂，d_k2为I₂的维度,编码层起始层为E(0)＝[I₁(w₁),I₁(w₂),···,I₁(w_m)；I₂(w₁),I₂(w₂),···,I₂(w_m)]第L层的编码值为公式9。

其中Multihead(Q,K,V)是以query，key，value矩阵为输入参数的多头注意力机制向量拼接然后乘以一个降维矩阵，降维到d_k2。

I₁(w_i)＝WE(w_i)+PE(w_i) (公式5)

I₂(w_i)＝WE(w_i)+TE(w_i) (公式6)

E^(L)＝FFN(MultiHead(E^(L-1),E^(L-1),E^(L-1))) (公式9)

FFN＝max(0,xW_i+b_i)W_i+1+b_i+1 (公式10)

MultiHead(Q,K,V)＝Concat(head₁,···,head_h)W^O (公式11)

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (公式12)

解码部分：解码器的层数和编码器的层数一样，每一层也都是残差连接层，第一个残差连接的多头自注意力机制为公式13，R为每一轮的reply，第二个残差连接层的输入一部分由解码器第一个残差连接的输出和编码器的输出组成，情绪向量的多头自注意力机制为公式14，当前对话的多头自注意力机制为公式15，第三层为一个全连接的前向传播层，公式16，其中

代表着向量的拼接，在训练时是将编码后得到的向量与解码端掩码操作后输入的标签向量进行解码生成字向量，其中字向量的维度是常用字的维度设为4096，向量中的每个分量表示生成该索引所对应的字的概率。

M^L＝Multihead(D(^L-1),D(^L-1),D(^L-1)),D⁰＝R (公式13)

预测输出优化：在生成回复语句是依据概率输出的，概率值小于1，生成的话语字数越多，概率经过连乘后，值变得越小，像“呵呵”和“我不知道”这种答复，字数少而且在任何情况下都是正确的，因此生成这样的结果概率值最大，因此采用最大相互信息MMI方式的奖惩措施，使生成这样结果的概率值降低，在给定话语S，生成回复T的概率为公式17，加入惩罚机制后生成回复T的概率为lnP(T│S)，公式18为P(T)的值，为了方便对P(T)分配权重，采用公式19，g(k)的表达式为公式20，其中γ为设定的字符长度的阈值，比如说像“呵呵”，“我不知道”这样的词就小于γ，g(k)就等于1，因此新生成回复T的概率就为公式21，从而将生成万能句的概率降低。

lnP(T|S)-λlnP(T) (公式17)

logP(T|S)-λlogU(T) (公式21)

Claims

1.一种基于多轮情绪分析的生成式对话系统，其特征在于使用基于深度学习的Transformer的端到端方式，多轮情绪分析的生成式对话系统，其包括如下步骤：根据用户输入的当前轮次的对话文本，建立了分析上下文情绪信息的情绪分析系统，系统根据判断出的最终情绪，给出合理的回答，避免出现像“呵呵”，“我不知道”等万能词的出现，系统分为编码、解码和预测输出回答三部分。

2.根据权利要求1的完整系统应包括(1)根据输入的文本，对话系统给出回答内容。(2)是多轮对话系统，该系统可以根据前几轮的对话，判断出客户的情绪，在当前对话中依据情绪分析给出恰当的回复。(3)依据情绪的对话系统可以处理客户正话反说的话语，例如：客户在之前的几轮对话中有对产品不满意的，或者情绪不太好的话语，在当前对话中，说出了正向话语，那么这种情况就是正话反说。

3.根据权利要求2的多轮情绪分析的生成式对话系统，主要针对带有情绪的多轮对话，建立多轮情绪分析对话的生成式对话系统进行对话的分析与学习，在transformer的编码端需要再加入一个情绪向量。

4.根据权利要求1中编码部分，情绪向量就是在当轮对话中之前的几轮对话进行编码，字嵌入操作最开始就是随机初始化后续通过学习可得到精准的字嵌入向量，位置编码是经验赋值，其中PE(pos；2i)为对偶数位置的字符进行位置编码，PE(pos；2i+1)为对奇数位置的字符进行位置编码。与当轮对话的编码进行拼接，将当前话语与context进行字嵌入编码和位置编码，其中每个字嵌入编码的维度是常用字的个数，本系统中的维度设为4096，字向量的表示方式就是one-hot编码，即每个字向量中只有一个值为1的分量，这个1所在的槽位就是所准备的4000多个字语料库中该字的槽位，将字嵌入编码与位置编码进行相加，位置编码的维度和字嵌入编码有相同维度，句子的长度是对话语料库中最长句子中的字数，也就是每句话是用一个矩阵进行表示，然后将编码后的两个矩阵，当前对话和前几轮对话即context，相拼接输入到Encoder层中，同时将target输入到Decoder中进行掩码操作，Target是标签，即对当前话语(你们的产品质量可真好啊)的标准输出；经过Encoder中的self-attention layer算出每个字符的注意力权重，进行残差连接和归一化操作，然后输入到Decoder中self-attention layer中，同时target在经过掩码后也输入到self-attention layer，其中编码的过程是并行的，位置顺序对self-attention没有任何影响；在decoder进行解码由图中V’向量和Vi向量共同决定。

5.根据权利要求1中根据权利要求1中解码部分，解码器的层数和编码器的层数一样，每一层也都是残差连接层，第一个残差连接的多头自注意力机制为公式13，R为每一轮的reply，第二个残差连接层的输入一部分由解码器第一个残差连接的输出和编码器的输出组成，情绪向量的多头自注意力机制为公式14，对话的多头自注意力机制为公式15，第三层为一个全连接的前向传播层，公式16，其中

代表着向量的拼接，在训练时是将编码后得到的向量与解码端掩码操作后输入的标签向量进行解码生成字向量，向量中的每个分量表示生成该索引所对应的字的概率。

6.根据权利要求1中本系统可以减少万能句子的出现，在解码中输出部分进行改进，预测输出的都是每个字的概率，采用惩罚措施，降低生出万能句子的概率，采用MMI的方式进行降低万能句子生成的概率。