CN112182162A

CN112182162A - 一种基于记忆神经网络的个性化对话方法和系统

Info

Publication number: CN112182162A
Application number: CN202011060198.4A
Authority: CN
Inventors: 窦志成; 钟函汛; 文继荣
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-05
Anticipated expiration: 2040-09-30
Also published as: CN112182162B

Abstract

本发明涉及一种基于记忆神经网络的个性化对话方法和系统，包括：S1通过Doc2Vec模型对每条用户历史句子和输入句子进行编码，获得历史句子向量和查询向量；S2根据历史句子向量和查询向量生成情景记忆向量，再将历史句子向量与当前情景记忆向量进行匹配，根据匹配结果更新情景记忆向量，最终利用最新的情景记忆向量生成个性化记忆向量；S3将个性化记忆向量与用户风格向量一同输入至解码器的循环神经网络中，再将解码器与编码器的循环神经网络的输出一同输入注意力机制，使用全连接网络输出最终的个性化回复。其提供了一种直接利用用户对话历史构建个性化对话系统，其对话数据集获取更加方便，更贴近现实中的应用场景。

Description

一种基于记忆神经网络的个性化对话方法和系统

技术领域

本发明涉及一种基于记忆神经网络的个性化对话方法和系统，属于人工智能技术领域。

背景技术

实现一个能通过图灵测试的对话机器人一直是对话系统领域的一个重要目标。现有的对话系统存在的一个普遍问题是回答的答案缺乏特异性，不能保持并展现前后一致的个性以及回复普通泛化。造成这些问题的一个重要原因是因为在人类的自然对话过程中对话者始终具有排他的背景和角色。具体来说，给一个具体定位，人们会根据自己的兴趣，个性和特定环境做出各种有效的回应。因此，具有一个特定的个性将是提高对话系统效果的一个重要方向。同时，这也是对话机器人通过图灵测试的关键。个性化对话系统由于其可以通过编码用户个性化信息来提高对话质量，并保持对话前后人格一致性而受到人们广泛关注。现有的个性化对话系统相关研究主要集中在利用预先给定的针对用户的描述性句子或词组进行个性化对话的方向上。这种类型的个性化对话系统可以通过将少数几句蕴含用户个性化信息的句子编码，来引导生成符合用户个性的回复。其可以在有限范围内生成符合个性信息的回复并保持对话机器人前后人格一致性。但是，由于缺乏具有显式用户个性化信息的大规模个性化对话数据集，并且由于此类模型会极大限制预先定义的句子的数量，以及模型不能迭代式地更新用户个性，使得此类个性化对话系统应用场景较窄。

发明内容

针对上述问题，本发明的目的是提供一种基于记忆神经网络的个性化对话方法和系统，其提供了一种直接利用用户对话历史构建个性化对话系统的方法，其对话数据集获取更加方便，更贴近现实中的应用场景。

为实现上述目的，本发明采取以下技术方案：一种基于记忆神经网络的个性化对话方法，包括以下步骤：S1通过编码器的记忆神经网络对每条用户历史句子his和输入句子X进行编码，获得历史句子向量和查询向量q；S2根据历史句子向量和查询向量生成情景记忆向量，再将历史句子向量与情景记忆向量进行匹配，根据匹配结果更新当前情景记忆向量，最终利用最新的情景记忆向量生成个性化记忆向量m_t；S3将个性化记忆向量m_t与用户风格向量p一同输入至解码器的循环神经网络中，再将每一层的解码器的循环神经网络的输出与编码器的循环神经网络的输出一同输入注意力机制，注意力机制的输出结果与最后一层解码器的循环神经网络的输出进行拼接后，使用全连接网络输出最终的个性化回复。

进一步，步骤S2中的匹配方法为个性化记忆向量进行连续地迭代更新，在每一轮迭代中，按照时间先后顺序遍历用户历史信息，使用个性化记忆注意力机制对历史句子向量和当前情景记忆向量e进行匹配，并根据匹配结果更新当前情景记忆向量e，直到当前情景记忆向量e与这一轮所有历史句子向量均已进行过匹配为止。

个性化记忆注意力机制的计算公式为：

其中，特征向量集合

的计算公式为：

G函数由两层前向反馈神经网络构成。

计算公式为：

G(z)＝σ(W⁽²⁾tanh(W⁽¹⁾z+b⁽¹⁾)+b⁽²⁾)

其中，W⁽¹⁾，W⁽²⁾为可训练的权重矩阵，b⁽¹⁾，b⁽²⁾为可训练的偏置向量，σ为Softmax函数。

进一步，当前情景记忆向量e的更新公式为：

最终，使用GRU神经网络，通过上一轮的记忆向量m_t-1与当前情景记忆向量e_t，

生成新的个性化记忆向量m_t。公式为：

m_i＝GRU(m_i-1,e_i)

进一步，步骤S3中注意力机制的公式为：

其中，

为当前GRU神经元的输出向量，h_enc为编码器端输出向量，c_t为注意力机制输出向量。

进一步，步骤S3中用户风格向量p为用户ID通过嵌入式表示后得到的特征向量，特征向量在模型训练过程中迭代式更新。

进一步，步骤S3中解码器的解码过程包括强制利用个性化记忆解码和利用个性化记忆初始化解码器端隐藏向量两种。

进一步，强制利用个性化记忆解码为在解码器的每个神经元处，强制拼接个性化记忆信息与用户风格信息，再进行解码；利用个性化记忆初始化解码器端隐藏向量为在解码器的每个神经元处，仅拼接用户风格信息用以在生成回复中引入用户个性化的说话风格。

本发明还公开了一种基于记忆神经网络的个性化对话系统，包括：编码模块，用于通过编码器的循环神经网络对输入句子X进行编码，获得句子编码向量表示h，通过Doc2Vec模型对用户历史集合H中的每条用户历史句子his和输入句子进行编码，获得历史句子向量和查询向量q；个性化记忆模块，用于根据历史句子向量和查询向量生成情景记忆向量，再将历史句子向量与当前情景记忆向量进行匹配，根据匹配结果更新当前情景记忆向量，最终利用情景记忆向量生成当前个性化记忆向量m_t；解码模块，将个性化记忆向量m_t与用户风格向量p一同输入至解码器的循环神经网络中，再将每一层的解码器的循环神经网络的输出与的编码器的循环神经网络的输出一同输入注意力机制，注意力机制的输出结果与最后一层解码器的循环神经网络的输出进行拼接后，使用全连接网络输出最终的个性化回复。

本发明由于采取以上技术方案，其具有以下优点：相较于收集具有显式的用户预先定义个性化信息的对话数据，本发明所需的具有用户对话历史的对话数据集更易获得。其次，基于用户对话历史进行个性化对话的方案更贴近现实中的应用场景，其随着对话地深入可以不断丰富对话数据集并迭代式更新模型，因此具有更广泛的发展前景。

附图说明

图1是本发明一实施例中基于记忆神经网络的个性化对话方法的示意图；

图2是本发明一实施例中个性化记忆过程的示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

实施例一

本实施例公开了一种基于记忆神经网络的个性化对话方法，如图1所示，包括以下步骤：

S1通过编码器的循环神经网络对每条用户历史句子his和输入句子X进行编码，获得历史句子向量和查询向量q。

在本实施例中，使用了四个随机变量来定义一个动态的对话过程：对话输入句子X，目标回复Y，用户U，和用户对话历史集合H。输入句子的编码器是一个双向循环神经网络(BRNN)。取出最后一层的隐藏层向量

其中前向隐藏向量

与后向隐藏向量

分别捕获了前向和后向上的输入句子语义信息。将二者拼接后得到向量h。向量h将作为输入句子X的编码向量表示，

同时，将双向循环神经网络每一个编码器模块的输出取出，

T为输入句子长度。H_enc将用在解码器模块注意力机制中。通过全体文本，预训练出Doc2Vec模型，对于用户历史集合H中的每条用户历史句子his，通过Doc2Vec模型计算出历史句子向量his_embed作为该条历史的向量表示。同时，也将输入句子X通过Doc2Vec模型得到查询向量q，用以在个性化记忆模块中匹配获得记忆信息。

S2根据历史句子向量和查询向量生成情景记忆向量，再将历史句子向量与当前情景记忆向量进行匹配，根据匹配结果更新当前情景记忆向量，最终利用情景记忆向量生成当前个性化记忆向量m_t。

如图2所示，个性化记忆向量进行连续地迭代更新，在每一轮迭代中，按照时间先后顺序遍历用户历史信息，使用个性化记忆注意力机制对历史句子向量和当前情景记忆向量e进行匹配，并根据匹配结果更新当前情景记忆向量e，直到当前情景记忆向量e与这一轮所有历史句子向量均已进行过匹配为止。

个性化记忆注意力机制的计算公式为：

其中，特征向量集合

的计算公式为：

G函数由两层前向反馈神经网络构成。

G函数的计算公式为：

G(z)＝σ(W⁽²⁾tanh(W⁽¹⁾z+b⁽¹⁾)+b⁽²⁾)

其中，W⁽¹⁾，W⁽²⁾分别为第一层和第二层前向反馈神经网络的可训练的权重矩阵，b⁽¹⁾，b⁽²⁾分别为第一层和第二层前向反馈神经网络的可训练的偏置向量，σ为Softmax函数。

当前情景记忆向量e的更新公式为：

e_i＝gate_i*GRU(e_i-1,his_i)+(1-gate_i)*e_i-1

再使用GRU神经网络，通过上一轮的个性化记忆向量m_i-1与当前情景记忆向量e_i，生成新的记忆向量m_i。即：

m_i＝GRU(m_i-1,e_i)

最终，在迭代结束后，输出当前个性化记忆向量m_t，m_t将作为额外信息添加到解码器端指导生成。

S3将个性化记忆向量m_t与用户风格向量p一同输入至解码器的循环神经网络中，将每一层解码器的循环神经网络的输出与编码器的循环神经网络的输出一同输入注意力机制，注意力机制的输出结果与最后一层解码器的循环神经网络的输出进行拼接后，使用全连接网络输出最终的个性化回复。

为了提升模型的生成效果，本实施例在解码器端利用每一层的编码器的输出向量H_enc与解码器端的输出向量进行加权注意力，并将获得的向量拼接在编码器端的输出上再进行最终的词语预测。其中，注意力机制的公式为：

其中，

利用编码器端输出的隐藏向量h初始化解码器端隐藏向量。将开始标记经过嵌入表示成向量并且拼接用户风格向量p以及个性化记忆向量m后作为解码器的初始化输入。其中，用户风格向量p为用户ID通过嵌入式表示后得到的特征向量，特征向量在模型训练过程中迭代式更新。

初始化输入h_decin可表示为：

p＝embedding(U)

h_decin＝[embedding(<SOS>),m,p]

其中，U是当前用户ID，<SOS>为句子起始标记符。

在解码器端，使用与编码器端相同的结构。每一个RNN神经元的输入为前一个神经元的隐藏向量以及按照不同解码方式处理的输入向量，然后将每个RNN的输出向量与编码器端的输出向量H_enc使用注意力机制，注意力机制输出向量与RNN输出向量拼接后，使用全连接层得到最后的单词输出。即输出过程为：

prob_i＝softmax(MLP([h_decout,attention(h_decout,H_enc)]))

其中，

为当前GRU神经元的输出向量，h_enc为编码器端输出向量。最后，使用负对数最大似然函数定义模型损失。

解码器的解码过程包括强制利用个性化记忆解码和利用个性化记忆初始化解码器端隐藏向量两种。强制利用个性化记忆解码为在解码器的每个神经元处，强制拼接个性化记忆信息与用户风格信息，再进行解码；利用个性化记忆初始化解码器端隐藏向量为在解码器的每个神经元处，仅拼接用户风格信息用以在生成回复中引入用户个性化的说话风格。

实施例二

基于相同的发明构思，本实施例公开了一种基于记忆神经网络的个性化对话系统，包括：

编码模块，用于通过编码器的循环神经网络对输入句子X进行编码，获得句子编码向量表示h，通过Doc2Vec模型对用户历史集合H中的每条用户历史句子his和输入句子进行编码，获得历史句子向量和查询向量q；

个性化记忆模块，用于根据历史句子向量和查询向量生成情景记忆向量，再将历史句子向量与当前情景记忆向量进行匹配，根据匹配结果更新当前情景记忆向量，最终利用情景记忆向量生成当前个性化记忆向量m_t；

解码模块，用于将个性化记忆向量m_t与用户风格向量p一同输入至解码器的循环神经网络中，将每一层的解码器的循环神经网络的输出与的编码器的循环神经网络的输出一同输入注意力机制，注意力机制的输出结果与最后一层解码器的循环神经网络的输出进行拼接后，使用全连接网络输出最终的个性化回复。

在文本生成任务中，以编码器-解码器为基础的Seq2Seq结构作为最经典的架构被广泛应用。它通过编码器端将输入文本抽象为一个蕴含文本信息的特征向量，再通过解码器端将该特征向量解码回一段目标文本。在本发明中，也采取了这样的主体框架，将帖子作为输入文本，将生成的个性化回复作为解码后的目标文本加以训练。利用用户历史实现个性化对话系统的一个难点在于用户历史信息中含有大量与当前对话无关的“噪音”。如何筛选并提取出与当前对话贴切的用户历史信息对于提升对话效果非常重要。本发明利用注意力机制可以选择性地侧重不同方面信息的特点。将当前对话作为查询向量，用户历史数据作为键值,利用注意力机制让当前问题与用户历史数据进行加权，从而选择到更贴切当前对话的历史信息。利用用户历史实现个性化对话系统的又一难点在于用户历史信息较多，RNN和Transformer结构均难以保存并利用全部历史数据。本发明利用记忆神经网络有助于保存并利用长时记忆的特点，使用带有注意力机制的动态记忆神经网络保存并提取贴合当前对话的历史信息。我们将用户历史数据作为记忆神经网络中的记忆，按照历史数据的时间先后顺序，迭代式地更新记忆向量，并最终将记忆向量用作解码端的额外向量指导文本的生成。关于动态记忆神经网络的具体的细节将在个性化记忆章节阐释。同时，借鉴在中提到的利用用户风格向量实现用户个性化的方式，本发明使用用户的全部历史信息，动态地迭代用户说话风格向量，并在解码器端利用用户风格向量生成更符合该名用户说话风格的回复。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。上述内容仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于记忆神经网络的个性化对话方法，包括以下步骤：

S1通过编码器的循环神经网络模型对每条用户历史句子his和输入句子X进行编码，获得历史句子向量和查询向量q；

S2根据历史句子向量和查询向量q生成情景记忆向量，再将所述历史句子向量与情景记忆向量进行匹配，根据匹配结果更新当前情景记忆向量，最终利用最新的所述情景记忆向量生成个性化记忆向量m_t；

S3将所述个性化记忆向量m_t与用户风格向量p一同输入至解码器的循环神经网络中，将每一层的所述解码器的循环神经网络的输出与的所述编码器的循环神经网络的输出一同输入注意力机制，所述注意力机制的输出结果与最后一层所述解码器的循环神经网络的输出进行拼接后，使用全连接网络输出最终的个性化回复。

2.如权利要求1所述的基于记忆神经网络的个性化对话方法，其特征在于，所述步骤S2中的匹配方法为：所述个性化记忆向量进行连续地迭代更新，在每一轮迭代中，按照时间先后顺序遍历用户历史信息，使用个性化记忆注意力机制对所述历史句子向量和当前情景记忆向量e进行匹配，并根据匹配结果更新当前情景记忆向量e，直到当前情景记忆向量e与这一轮所有历史句子向量均已进行过匹配为止。

3.如权利要求2所述的基于记忆神经网络的个性化对话方法，其特征在于，所述个性化记忆注意力机制的计算公式为：

其中，特征向量集合

的计算公式为：

G函数由两层前向反馈神经网络构成。

4.如权利要求3所述的基于记忆神经网络的个性化对话方法，其特征在于，所述G函数的计算公式为：

G(z)＝σ(W⁽²⁾tanh(W⁽¹⁾z+b⁽¹⁾)+b⁽²⁾)

5.如权利要求4所述的基于记忆神经网络的个性化对话方法，其特征在于，所述当前情景记忆向量e的更新公式为：

6.如权利要求5所述的基于记忆神经网络的个性化对话方法，其特征在于，所述步骤S3中注意力机制的公式为：

其中，

7.如权利要求6所述的基于记忆神经网络的个性化对话方法，其特征在于，步骤S3中用户风格向量p为用户ID通过嵌入式表示后得到的特征向量，所述特征向量在模型训练过程中迭代式更新。

8.如权利要求7所述的基于记忆神经网络的个性化对话方法，其特征在于，所述步骤S3中解码器的解码过程包括强制利用个性化记忆解码和利用个性化记忆初始化解码器端隐藏向量两种。

9.如权利要求8所述的基于记忆神经网络的个性化对话方法，其特征在于，所述强制利用个性化记忆解码为在解码器的每个神经元处，强制拼接个性化记忆信息与用户风格信息，再进行解码；所述利用个性化记忆初始化解码器端隐藏向量为在解码器的每个神经元处，仅拼接用户风格信息用以在生成回复中引入用户个性化的说话风格。

10.一种基于记忆神经网络的个性化对话系统，其特征在于，包括：

编码模块，通过编码器的循环神经网络模型对用户历史集合中的每条用户历史句子his和输入句子进行编码，获得历史句子向量和查询向量q；

个性化记忆模块，用于根据历史句子向量和查询向量生成情景记忆向量，再将历史句子向量与情景记忆向量进行匹配，根据匹配结果更新当前情景记忆向量，最终利用最新的情景记忆向量生成个性化记忆向量m_t；

解码模块，用于将个性化记忆向量m_t与用户风格向量p一同输入至解码器的循环神经网络中，再将每一层的所述解码器的循环神经网络的输出与的所述编码器的循环神经网络的输出一同输入注意力机制，所述注意力机制的输出结果与最后一层所述解码器的循环神经网络的输出进行拼接后，使用全连接网络输出最终的个性化回复。