CN111949762A

CN111949762A - 基于上下文情感对话的方法和系统、存储介质

Info

Publication number: CN111949762A
Application number: CN202010659317.1A
Authority: CN
Inventors: 孙晓; 丁兵兵; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-11-17
Anticipated expiration: 2040-07-09
Also published as: CN111949762B

Abstract

本发明提供一种基于上下文情感对话的方法和系统、存储介质，涉及情感对话技术领域。本发明实施例首先获取对话上下文数据集，提取其中的主题类别和情感类别，得到主题关键词概率和情感关键词概率，随之预测回复中的主题关键词和情感关键词，根据预测的主题关键词和情感关键词生成初步的回复，接着得到所述初步的回复的权重值，根据初步的回复和权重，得到最终的回复。由此，本发明实施例充分利用了对话上下文，让机器生成的回复更加贴近主题，也更好地判断上下文的情感变化，以及把握对话主题的延伸。

Description

基于上下文情感对话的方法和系统、存储介质

技术领域

本发明涉及情感对话技术领域，具体涉及一种基于上下文情感对话的方法和系统、存储介质。

背景技术

人机对话系统是当前研究的热点问题，其主要的目标是能够实现机器对自然语言的理解并像人们一样可以完成情感对话。

目前，已有人工智能系统可以自动生成对话，完成与人之间的简单交流。例如，申请号为CN110032636A的发明《一种基于强化学习的情感对话异步生成方法》，其自动生成回复的基本构思是，选择一个代理，设定代理中x代表外界环境输入的句子，y代表代理针对输入的x给出的回答，然后给定一个问句，利用编码器对问句进行编码，再使用结构预测器来预测回答中是否需要包含关键词，以及关键词之间的位置关系，使用关键词预测器来生成对应的关键词，并将生成的关键词作为先验知识指导回答的生成。

但是，上述发明提供的情感对话是针对某一句话给出回复，没有考虑对话上下文的主题和情感。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于上下文情感对话的方法和系统、存储介质，解决了现有的情感对话是针对某一句话给出回复，没有考虑对话上下文的主题和情感的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于上下文情感对话的方法，包括：

获取对话上下文数据集；

提取对话上下文数据集的主题类别和情感类别，得到对话上下文数据集的主题关键词概率和情感关键词概率；

根据主题类别和主题关键词概率预测回复中的主题关键词，根据情感类别和情感关键词概率预测回复中的情感关键词；

根据预测的主题关键词和情感关键词生成初步的回复；

根据初步的回复，得到初步的回复的权重；

根据初步的回复和权重，得到最终的回复。

优选的，提取对话上下文数据集的主题类别包括：采用LDA模型确定对话上下文数据集的主题类别。

优选的，得到对话上下文数据集的情感关键词概率包括：采用贝叶斯算法得到情感关键词概率。

优选的，情感类别包括高兴，伤心，生气，厌恶，喜欢，惊讶，恐惧。

优选的，根据主题类别和主题关键词概率预测回复中的主题关键词，根据情感类别和情感关键词概率预测回复中的情感关键词之前，还包括：

根据主题类别、主题关键词概率，得到初步预测的主题关键词，根据情感类别、情感关键词概率，得到初步预测的主题关键词；

其中，k_tp为主题类别、P(k_tp|t_i)为主题关键词概率，K为初步预测的主题关键词，k_et为情感类别k_et、P(k_et|t_i)为情感关键词概率，E为初步预测的主题关键词。

优选的，根据预测的主题关键词和情感关键词生成初步的回复，具体包括：

根据预测的主题关键词和情感关键词生成中间段回复序列，将预测的主题关键词和情感关键词分别拼接在中间段回复序列两侧，得到初步的回复。

优选的，根据初步的回复，得到初步的回复的权重值，具体包括：将初步的回复输入LSTM模型中，得到权重。

优选的，根据初步的回复和权重，得到最终的回复，具体包括：根据初步的回复和权重，采用一个Transformer模型得到最终的回复。

一种基于上下文情感对话的系统，包括：

获取模块，用于获取对话上下文数据集；

提取模块，用于提取对话上下文数据集的主题类别和情感类别，还用于得到对话上下文数据集的主题关键词概率和情感关键词概率；

预测模块，用于根据主题类别和主题关键词概率预测回复中的主题关键词，根据情感类别和情感关键词概率预测回复中的情感关键词；

回复模块，用于根据预测的主题关键词和情感关键词生成初步的回复，用于根据初步的回复，得到初步的回复的权重值，还用于根据初步的回复和权重，得到最终的回复。

一种计算机可读存储介质，其上存储有计算机程序，在处理器执行计算机程序时可实现上述任一项的方法。

(三)有益效果

本发明提供了一种基于上下文情感对话的方法和系统、存储介质，与现有技术相比，具备以下有益效果：

本发明首先获取对话上下文数据集，提取其中的主题类别和情感类别，得到主题关键词概率和情感关键词概率，随之预测回复中的主题关键词和情感关键词，根据预测的主题关键词和情感关键词生成初步的回复，接着得到所述初步的回复的权重值，根据初步的回复和权重，得到最终的回复。由此，充分利用了对话上下文，让机器生成的回复更加贴近主题，也更好地判断上下文的情感变化，以及把握对话主题的延伸。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于上下文情感对话的方法的流程示意图；

图2为本发明实施例提供的一种基于上下文情感对话的系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于上下文情感对话的方法和系统、存储介质，解决了现有的情感对话是针对某一句话给出回复，没有考虑对话上下文的主题和情感的技术问题，实现情感对话充分利用了对话上下文，让机器生成的回复更加贴近主题，也更好地判断上下文的情感变化，以及把握对话主题的延伸的技术效果。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例首先获取对话上下文数据集，提取其中的主题类别和情感类别，得到主题关键词概率和情感关键词概率，随之预测回复中的主题关键词和情感关键词，根据预测的主题关键词和情感关键词生成初步的回复，接着得到所述初步的回复的权重值，根据初步的回复和权重，得到最终的回复。由此，充分利用了对话上下文，让机器生成的回复更加贴近主题，也更好地判断上下文的情感变化，以及把握对话主题的延伸。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例：

如图1所示，本发明实施例提供了一种基于上下文情感对话的方法，包括：

获取对话上下文数据集；

提取所述对话上下文数据集的主题类别和情感类别，得到所述对话上下文数据集的主题关键词概率和情感关键词概率；

根据所述主题类别和主题关键词概率预测回复中的主题关键词，根据所述情感类别和情感关键词概率预测回复中的情感关键词；

根据所述预测的主题关键词和情感关键词生成初步的回复；

根据初步的回复，得到所述初步的回复的权重；

根据所述初步的回复和权重，得到最终的回复。

本发明实施例的有益效果包括：其情感对话充分利用了对话上下文，让机器生成的回复更加贴近主题，也更好地判断上下文的情感变化，以及把握对话主题的延伸。

具体包括：

步骤一：获取对话上下文数据集。

采用python技术从QQ、微信或者人人网等社交网络获取对话上下文数据集D，所述对话上下文数据集包括n个句子c_t，即D＝(c₁,…,c_t,…c_n),t＝1,…,n。

步骤二：提取对话上下文数据集的主题类别和情感类别，得到对话上下文数据集的主题关键词概率和情感关键词概率。

本发明实施例采用TF-IDF算法提取所述对话上下文数据集D中的主题关键词，TF-IDF算法是一种数值统计方法，用于反映某个单词对于整篇文档的重要性。具体包括：

(1)对所述对话上下文数据集D进行预处理，包括采用结巴分词工具分词、词性标注和去除停用词，得到包括n个候选关键词t_i的关键词集d，即d＝(t₁,…t_i,…,t_n),i＝1,…,n；

(2)计算候选关键词t_i在关键词集d中的词频TF_i；

(3)计算候选关键词t_i在关键词集d中的逆向文档频率IDF_i；

(4)计算得到候选关键词t_i的(TF-IDF)_i＝TF_i*IDF_i；

采用LDA(隐含狄利克雷分布)模型确定所述候选关键词t_i的主题类别k_tp，隐含狄利克雷分布模型是一种文本主题归纳以及预测模型，简称为LDA模型。具体的过程如下所述：

从NLPCC2017微博数据集中抽取了60000组对话数据作为LDA模型的训练数据，经过训练可以归纳出常见的主题类别有10个，共有1000个主题词，将1000个主题词形成主题知识库。我们将所述句子c_t的关键词在LDA模型中查找关键词对应的主题类别k_tp。

将所述采用TF-IDF算法得到的候选关键词t_i的(TF-IDF)_i作为主题关键词概率P(k_tp|t_i)。

对于情感关键词的提取，本发明实施例首先将七类情感经过Word2vec工具向量化后得到情感类别k_et，接着采用Word2vec工具将所述关键词集d中的关键词t_i向量化，最后采用贝叶斯算法得到情感关键词概率P(k_et|t_i)，计算公式为：

其中，所述七类情感具体包括高兴，伤心，生气，厌恶，喜欢，惊讶，恐惧。

步骤三：根据所述主题类别和主题关键词概率预测回复中的主题关键词，根据所述情感类别和情感关键词概率预测回复中的情感关键词。

本步骤用于预测回复中应该出现的关键词。具体包括：

(1)根据所述主题类别k_tp、主题关键词概率P(k_tp|t_i)，得到初步预测的主题关键词K，根据所述情感类别k_et、情感关键词概率P(k_et|t_i)，得到初步预测的主题关键词E。

(2)根据所述初步预测的主题关键词K和初步预测的主题关键词E，得到预测的主题关键词

和情感关键词

其中，

和

均为维度转换矩阵，softmax函数是归一化函数。将P(w_tp|k_tp)和P(w_et|k_et)为最大时对应的w_tp和w_et作为预测的主题关键词和情感关键词，分别记为预测的主题关键词

和情感关键词

步骤四：根据所述预测的主题关键词和情感关键词生成初步的回复。

根据所述预测的主题关键词

和情感关键词

生成初步的回复x_t。具体包括：

将所述对话上下文数据集D(c₁,…,c_t,…c_n),t＝1,…,n分词，然后采用Word2vec工具编码成向量，将所述c_t对应的向量输入到encoder-decoder框架中，得到一个输出中间段回复序列r。

将上述步骤三中的预测的主题关键词

和情感关键词

分别拼接在所述中间段回复序列r两侧，得到初步的回复x_t。

步骤五：根据初步的回复，得到所述初步的回复的权重值

根据初步的回复x_t，本步骤采用了一个LSTM网络来解决上下文问题

长短期记忆(Long short-term memory,LSTM)是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。

将初步的回复x_t输入LSTM模型中，LSTM通过模型本身的遗忘门和控制门的作用，得到所述初步的回复x_t的权重h_t。

步骤六：根据所述初步的回复和权重，得到最终的回复。

为了生成更贴近人类的回复，提高人机对话的准确率和可交互性。本步骤根据所述初步的回复x_t和权重h_t，采用一个Transformer模型得到最终的回复y，具体包括：

本发明实施例提供的Transformer模型是在经典的seq2seq模型上进行改进的，由6个encoder和6个decoder组成，每个encoder和decoder都包含一个self-attention层和一个前馈神经网络。Decoder层之后还包括了一个全连接层和softmax来实现解码生成。self-attention能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义。

首先模型将所述x_t与h_t的乘积x_th_t作为输入，模型需要对所述x_th_t进行embedding操作，得到一个新的向量Y，目的是为了减少输入的数据不整齐带来的数据噪声。

self-attention处理完数据后把数据送给前馈神经网络，前馈神经网络的计算可以并行，得到的输出会输入到下一个encoder。self-attention会计算出三个新的向量，分别为Q(Query)，K(Key),V(Value)，这三个向量是用embedding向量与一个随机的矩阵矩阵相乘得到的结果。这三个向量的作用是，将Q与K进行点乘来计算，然后经过softmax来计算，得到self-attention的权重，从而实现对不同的句子有着不同的关注程度。得到self-attention的权重以后，将所得的权重与V相乘，便会得到输入到decoder层的向量Z，然后进入到decoder层来实现输出，decoder层将encoder输出的向量通过一个全连接层和softmax层，会得到每个词的概率p(y_i|{y₁,y₂,y₃…})，然后按概率值的大小进行拼接，生成了最终的回复y。其计算过程具体如下：

attention＝Attention(Q,K,V) (7)

y_i＝decoder(W^TZ_i+b_i) (9)

p(y_i|{y₁,y₂,y₃…})＝softmax(y_i,y₁,y₂,y₃,…y_i-1) (10)

y＝∑y_i (11)

其中，d为Q和K矩阵的列数，即向量的维度。W^T为全连接层随机初始化的矩阵，b_i为偏置值，二者都是神经网络通过自学习的参数，y_i为生成的词。

如图2所示，本发明实施例还提供了一种基于上下文情感对话的系统，具体包括：

获取模块，用于获取对话上下文数据集；

提取模块，用于提取所述对话上下文数据集的主题类别和情感类别，还用于得到所述对话上下文数据集的主题关键词概率和情感关键词概率；

预测模块，用于根据所述主题类别和主题关键词概率预测回复中的主题关键词，根据所述情感类别和情感关键词概率预测回复中的情感关键词；

回复模块，用于根据所述预测的主题关键词和情感关键词生成初步的回复，用于根据初步的回复，得到所述初步的回复的权重值，还用于根据所述初步的回复和权重，得到最终的回复。

可理解的是，本发明实施例提供的基于上下文情感对话的系统与本发明实施例提供的基于上下文情感对话的方法相对应，其有关内容的解释、举例和有益效果等部分可以参考考虑基于上下文情感对话的方法中的相应部分，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，在处理器执行所述计算机程序时可实现上述对话问题生成方法。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例首先获取对话上下文数据集，提取其中的主题类别和情感类别，得到主题关键词概率和情感关键词概率，随之预测回复中的主题关键词和情感关键词，根据预测的主题关键词和情感关键词生成初步的回复，接着得到所述初步的回复的权重值，根据初步的回复和权重，得到最终的回复。由此，充分利用了对话上下文，让机器生成的回复更加贴近主题，也更好地判断上下文的情感变化，以及把握对话主题的延伸。

2、本发明实施例中的LSTM模型和transformer模型，将上下文的主题和情感更好的联系起来，生成的最终的回复逻辑性更强，上下文关联性更大。

需要说明的是，在本文中术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于上下文情感对话的方法，其特征在于，包括：

获取对话上下文数据集；

根据所述预测的主题关键词和情感关键词生成初步的回复；

根据初步的回复，得到所述初步的回复的权重；

根据所述初步的回复和权重，得到最终的回复。

2.如权利要求1所述的基于上下文情感对话的方法，其特征在于，所述提取所述对话上下文数据集的主题类别包括：采用LDA模型确定对话上下文数据集的主题类别。

3.如权利要求1所述的基于上下文情感对话的方法，其特征在于，所述得到所述对话上下文数据集的情感关键词概率包括：采用贝叶斯算法得到所述情感关键词概率。

4.如权利要求1所述的基于上下文情感对话的方法，其特征在于，所述情感类别包括高兴，伤心，生气，厌恶，喜欢，惊讶，恐惧。

5.如权利要求1所述的基于上下文情感对话的方法，其特征在于，所述根据所述主题类别和主题关键词概率预测回复中的主题关键词，根据所述情感类别和情感关键词概率预测回复中的情感关键词之前，还包括：

根据所述主题类别、主题关键词概率，得到初步预测的主题关键词，根据所述情感类别、情感关键词概率，得到初步预测的主题关键词；

6.如权利要求1所述的基于上下文情感对话的方法，其特征在于，所述根据所述预测的主题关键词和情感关键词生成初步的回复，具体包括：

根据所述预测的主题关键词和情感关键词生成中间段回复序列，将所述预测的主题关键词和情感关键词分别拼接在所述中间段回复序列两侧，得到所述初步的回复。

7.如权利要求1所述的基于上下文情感对话的方法，其特征在于，所述根据初步的回复，得到所述初步的回复的权重值，具体包括：将所述初步的回复输入LSTM模型中，得到所述权重。

8.如权利要求1所述的基于上下文情感对话的方法，其特征在于，所述根据所述初步的回复和权重，得到最终的回复，具体包括：根据所述初步的回复和权重，采用一个Transformer模型得到最终的回复。

9.一种基于上下文情感对话的系统，其特征在于，包括：

获取模块，用于获取对话上下文数据集；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，在处理器执行所述计算机程序时可实现权利要求1～8任一项所述的方法。