CN112199481A

CN112199481A - 一种采用pcc对话模型的单用户个性化对话方法和系统

Info

Publication number: CN112199481A
Application number: CN202011055601.4A
Authority: CN
Inventors: 窦志成; 郭宇
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-08
Anticipated expiration: 2040-09-30
Also published as: CN112199481B

Abstract

本发明涉及一种采用PCC对话模型的单用户个性化对话方法和系统，包括以下步骤：1)在用户的对话历史中寻找与当前问题最为匹配的回复，并将最为匹配的回复作为显性指导向量

2)对当前问题和历史回复问题进行编码，从而获得当前问题的语义信息和用户兴趣信息，将语义信息和用户兴趣信息通过第一注意力机制结合，得到包含用户兴趣信息的语义向量

3)对显性指导信息指导向量

用户兴趣信息的语义向量

和用户说话风格信息进行解码，再通过第二注意力机制结合当前问题，并通过全连接层生成最终的个性化回复。其在外部加入了搜索模块搜索相似回答作为显性指导，并通过历史发表问题编码了用户历史特征信息，提升了回复的准确性和多样性。

Description

一种采用PCC对话模型的单用户个性化对话方法和系统

技术领域

本发明涉及一种采用PCC对话模型的单用户个性化对话方法和系统，属于人工智能技术领域。

背景技术

个性化是提升对话系统质量的重要方式之一，现有的高质量对话模型主要是通过深度学习框架来实现的，其通过编码用户的个性化信息并反映到生成的回复中来提升对话效果，同时保持了机器人前后对话的一致性。而在个性化系统中，生成式模型相较于检索式模型来说生成答案更丰富，同时可以解决一些答非所问的问题。现有的主流的个性化生成式算法是通过文件来赋予机器人人格的。具体来说，其预设了机器人的部分属性，当问题与预设内容相关时，则根据文件内容进行回复，但当问题超出文件范围时，并不能做出更好的回答。文件的内容多种多样，但主要是一些个人的显性属性例如性别、年龄、学历等，而一些隐形信息类似于说话风格和习惯、兴趣变化等则很难加入到文件中；还有一种基于用户历史的方案，其需要在数据中加入用户的ID信息，通过该ID对应的用户历史记录来训练出一个ID向量空间，并将该ID向量空间嵌入到原始模型中。类似于单词的向量空间，距离较近的说话者的向量空间中的说话者具有更相似的说话风格。该模型不仅可以生成更多的个性化答案，而且在某种程度上符合人类对话中的一对多模式，即一个问题可以具有多个不同的答案，同时也编码了用户的说话风格等隐形信息；此外，还有一种用户适应的方法，其也是对单个用户进行建模，模型包括两部分，第一部分使用大型通用训练数据对对话系统进行预训练，第二部分是根据小型个性化训练数据调整模型，使其在快速适应用户上取得了很好的效果。

基于文件的个性化方案存在的问题是：由于其主要编码的是一些显性的信息，一些隐形信息类似于说话风格和习惯、兴趣变化等则很难加入到文件中。其次是此种方案所赋予的人格不能进行变化，即不会随着时间的改变而改变。此外该类个性化数据语料也较难收集。现有的基于用户历史的方案对用户信息的利用率仍然较低，且对用户兴趣信息反应的程度较弱，有较大的提升空间。基于用户适应的方案的用户编码是静态的，是通过预先给出的语料进行训练，并不会在模型中迭代进行更新。

发明内容

针对上述问题，本发明的目的是提供一种采用PCC对话模型的单用户个性化对话方法和系统，其在外部加入了搜索模块搜索相似回答作为显性指导，并通过历史发表问题编码了用户历史特征信息，提升了回复的准确性和多样性。

为实现上述目的，本发明采取以下技术方案：一种采用PCC对话模型的单用户个性化对话方法，包括以下步骤：1)在用户的对话历史中寻找与当前问题最为匹配的回复，并将最为匹配的回复作为显性指导向量

3)对显性指导信息指导向量

用户兴趣信息的语义向量

和用户说话风格信息进行解码，通过第二注意力机制进行结合，并通过全连接层生成最终的个性化回复。

进一步，步骤1)中显性指导向量通过以下方法获得：分别对当前问题x和用户历史回复问题hp进行编码，生成当前问题向量

以及历史回复问题向量

计算当前问题向量

与每个历史回复问题向量

的相似度，选择其中相似度最高的历史回复问题向量作为显性指导向量

进一步，若相似度值大于预设阈值则输出显性指导向量

若相似度值小于等于预设阈值，则显性指导向量

为空值。

进一步，步骤2)中当前问题的语义信息通过对当前问题进行GRU编码得到语义信息向量；用户兴趣信息获取的方法为先将用户历史回复问题转化为词向量，再进行聚合得到用户历史向量，将用户历史向量通过TextCNN将词向量的特征进行提取获得特征提取向量，对特征提取向量进行线性化操作得到单个句子的特征向量，将所有句子的特征向量结合得到用户兴趣向量。

进一步，TextCNN的特征提取方法为：首先对用户历史回复问题的一句话对应的词向量进行卷积操作，得到第j个卷积核卷积过后的第i个值c^v,j _i，随后将c^v,j _i进行聚合起来得到经过第j个卷积核卷积后的向量c^v,j，再通过一维的最大池化函数1_max_pooling对c^v,j进行池化操作，最后将l个卷积核依次进行卷积得到用户兴趣信息的特征提取向量c。该向量被认为是用户兴趣信息的特征提取向量。

进一步，c^v,j _i的计算公式为：

其中，c^v,j _i代表第j个卷积核卷积过后的第i个值,h_j为卷积核大小，σ为sigmond函数,w_j为随机初始化并参与训练的矩阵，b_j为偏移量，

为聚合后得到用户历史向量。

进一步，步骤2)中语义信息和用户兴趣信息通过第一注意力机制结合获得历史问题的权重，再将获得的历史问题的权重与语义信息向量再次结合，其输出公式为：

其中，其中，q_i为第i句的语义信息向量，p′_i为用户兴趣信息向量，a_i为第i句的历史问题的权值，将语义信息向量q与q′结合得到包含用户兴趣信息的语义向量

进一步，步骤3)中的解码过程为：将显性指导信息指导向量

用户兴趣信息的语义向量

和用户ID输入GRU神经网络，通过GRU的重置门控r重置输入GRU神经网络的数据，再将经过重置的数据与输入向量q′_t合并，并通过最终通过更新单元z得出新的状态向量S^t；

S^t＝z⊙S^t-1+(1-z)⊙S′

其中，W^z为随机初始化并参与训练的矩阵，σ为sigmond函数；

其中，W是随机初始化并参与训练的权重矩阵；

其中，r是重置门控，

是连接运算符。

进一步，将步骤3)中的解码结果与步骤2)中的语义信息向量输入第二注意力机制进行加权注意力处理，得到最终的输出结果y_t，通过tanh函数将输出结果y_t放缩到[-1,1]之间，并通过beam-search算法得到最终的句子。

本发明公开了一种采用PCC对话模型的单用户个性化对话系统，包括：搜索模块，用于在用户的对话历史中寻找与当前问题最为匹配的回复，并将最为匹配的回复作为显性指导向量

编码模块，用于对当前问题和历史回复问题进行编码，从而获得当前问题的语义信息和用户兴趣信息，将语义信息和用户兴趣信息通过第一注意力机制结合，得到包含用户兴趣信息的语义向量

解码模块，用于对显性指导信息指导向量

用户兴趣信息的语义向量

和用户说话风格信息进行解码，再通过第二注意力机制结合当前问题，并通过全连接层生成最终的个性化回复。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明在外部加入了搜索模块搜索相似回答作为显性指导，并通过历史发表问题编码了用户历史特征信息，提升了回复的准确性和多样性。

2、本发明从用户历史记录中提取用户的说话风格，对单用户进行建模，在用户历史的回复中搜寻最匹配回复，并将其作为生成的指导，以此提升对话质量，在解码器端使用说话风格信息以及历史最匹配回复信息指导生成，使得最终生成的回复在个性化方面有所提升。

附图说明

图1是本发明一实施例中对单用户建模的个性化对话方法和系统的示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

实施例一

PCC(Policy and Charging Control)对话模型是3GPP R7阶段定义的IMS承载网络资源与计费策略控制架构，其旨在为用户提供差异化的服务，提供用户业务流承载资源保障以及流计费策略。

本实施例公开了一种采用PCC对话模型的单用户个性化对话方法，如图1所示，包括以下步骤：

1)在用户的对话历史中寻找与当前问题最为匹配的回复，并将最为匹配的回复作为显性指导向量

本步骤中显性指导向量通过以下方法获得：分别对当前问题x和用户历史回复问题hp进行doc2vec编码，生成当前问题向量

以及历史回复问题向量

生成的向量即可以当作句子的语义向量。通过cosine计算当前问题向量

与每个历史回复问题向量

的相似度s＝{s₁,s₂,…,s_N}，其中：

选择其中相似度最高的历史回复问题向量作为显性指导向量：

由于用户的历史回复中可能没有与当前回答类似的问题，如果直接加入该问题的回复可能并不能起到指导的作用，故本实施例设置了一个相似度的阈值，若相似度值大于预设阈值则输出显性指导向量

则其回复对模型回复的生成有指导性的作用，若相似度值小于等于预设阈值，则显性指导向量

为空值，则通过字典寻找到该问题下的用户历史回复。

2)对当前问题和历史回复问题进行编码，从而获得当前问题的语义信息和用户兴趣信息，将语义信息和用户兴趣信息结合，得到包含用户兴趣信息的语义向量

在本步骤中当前问题的语义信息通过对当前问题进行GRU编码得到语义信息向量；用户兴趣信息获取则是通过对用户历史回复问题的特征提取实现的。由于用户在参与对话时会更倾向于回复引起自己兴趣的问题，所以我们搜寻了用户历史回复的问题，并对其建模，将其作为用户的兴趣信息。先将用户历史回复问题转化为词向量，再进行聚合得到用户历史向量，将用户历史向量通过TextCNN将词向量的特征进行提取获得特征提取向量，对特征提取向量进行线性化操作得到单个句子的特征向量，将所有句子的特征向量结合得到用户兴趣向量。

本部分可以分为以下三个步骤。

①语义信息向量的提取：由于用户发表的问题通常长度较长，为了保证句子的信息能够被充分利用，并解决梯度消失和梯度爆炸问题，本实施例使用门控循环单元(GRU)实现问题信息的提取。GRU是循环神经网络的一种，其是长短期记忆(LSTM)的变体，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。其相对于LSTM来说训练效果相当，但训练效率则大大提高。本实施例将当前问题的词向量x输入GRU神经网络中，并取出其最后一层隐藏层向量q代表问题信息。

q＝GRU(embedding(x))

②提取用户兴趣信息：本发明通过编码用户的历史回复提取用户兴趣信息。在多轮对话中，用户的前几轮对话历史是模型的额外信息，并依此给出更符合逻辑的回复。而在对单人建模的个性化模型中，用户的历史信息也是额外信息。两者区别在于前者有着严格的时序结构，所以大部分采用可以附带时序信息的RNN神经网络，此外，前几轮对话历史与当前待回复问题的联系更紧密。而对于个性化模型，用户历史信息与当前待回复问题联系较弱，因此需要提取特征能力更强的模型，其次其时序信息较弱。因此本实施例选用了TextCNN来达成这一目的。TextCNN的结构与CNN类似，但其只在文本的垂直方向做卷积，并且只有一层。

TextCNN的特征提取方法为：首先使用词嵌入将输入的用户历史回复问题hp分别转化为词向量，再进行聚合得到用户历史向量hp′＝(hp′₁,hp′₂,...,hp′_n)。对用户历史回复问题对应的词向量输入TextCNN模型。对其中一个用户历史回复问题hp＝{hp₁,hp₂,…,hp_N}的每句话对应的词向量进行卷积操作，其中t是句子的个数，卷积核大小为h＝{h₁,h₂,…,h_l}，得到第j个卷积核卷积过后的第i个值c^v,j _i，：

其中，c^t,j _i代表第j个卷积核卷积过后的第i个值,h_j为卷积核大小，σ为sigmond函数,w_j为随机初始化并参与训练的矩阵，b_j为偏移量，

为聚合后得到用户历史向量。

随后将c^t,j _i进行聚合起来得到经过第j个卷积核卷积后的向量c^t,j：

再通过一维的最大池化函数1_max_pooling对c^v,j进行池化操作，其只提取c^v,j中最大的一维数值c^v,j′，以此压缩向量维度并提取明显特征。

c^v,j′＝1_max_pooling(c^v,j)

最后将l个卷积核依次进行卷积得到用户兴趣信息的特征提取向量c。该向量被认为是用户兴趣信息的特征提取向量。

c^v＝[c^v,1′,c^v,2′,…,c^v,l′]

对c^v进行线性化操作：

p^v′＝Linear(c^v)

将N个句子的特征向量结合起来得到用户兴趣向量p’：

p′＝[p^1′,p^2′,…,p^N′]

其中，p’中附带了用户兴趣信息。

③使用注意力机制结合两部分信息：注意力机制(Attention)和人类注意力的集中方式是类似的，人类在处理任务的过程中不会对每一部分有同样的注意力，而是更加关注重要的部分，注意力模型其实就是在训练中给每个元素分配权重，代表其重要程度，然后进行加权求和。注意力机制其实是一个查询(query)到一系列键值对(key-value)的映射，其输入即为Q，K，V。计算方式分三步，即首先对Q与K进行相似度计算得到权值，之后对上部权值归一化，再用归一化的权值与V加权求和。

由于用户兴趣信息由多句用户之前回复的问题信息组成，而用户当前回答的问题可能只与其中少量问题相关，因此，本实施例集中注意力于用户历史信息中与当前问题较为相关的部分，通过第一注意力机制实现语义信息和用户兴趣信息的结合，并使用dot_product函数计算并输出最终的语义向量。其计算公式为：

其中，q_i为第i句的语义信息向量，p′_i为用户兴趣信息向量，a_i为第i句的历史问题的权值。

其次，由于在模型的生成中，仍然是待回复的帖子最为重要，并且可能用户历史信息中与当前问题相关的帖子较少，所以本实施例将经过GRU编码的语义信息向量q与q′结合得到包含用户兴趣信息的语义向量

3)对显性指导信息指导向量

用户兴趣信息的语义向量

步骤3)中输入显性指导信息指导向量

用户兴趣信息的语义向量

和用户说话风格信息。其中，用户说话风格信息是通过用户ID向量作为生成的隐形指导来反应的。具体来说，将用户ID作为另一个词嵌入训练模型，由于每个用户有多条不同的回复，所以每一轮训练会存在多条回复共用一用户ID，但每一条回复的内容不同，所以用户ID被训练多次后，其所代表的用户说话风格也会在一次次的训练过程中逐渐变的清晰。

解码端使用GRU神经网络对显性指导信息指导向量

用户兴趣信息的语义向量

和用户ID进行解码，其过程如下：

将显性指导信息指导向量

用户兴趣信息的语义向量

和用户ID输入GRU神经网络获得：

之后再通过GRU的重置门控r对q′_t进行重置得到S^t-1′：

其中，σ为sigmond函数，可以将数据变为0-1范围内的数值，

是连接运算符，即将两个向量连接起来，W^r是随机初始化并参与训练的权重矩阵。

再将S^t-1′与q_t拼接，通过tanh函数将其放缩到-1～1之间：

其中，W是随机初始化并参与训练的权重矩阵。

最终通过更新单元z得出新的状态向量S^t：

S^t＝z⊙S^t-1+(1-z)⊙S′

其中，W^z为随机初始化并参与训练的矩阵。

为了使回答生成的效果更好，将步骤3)中的解码结果与步骤2)中的语义信息向量输入第二注意力机制进行加权注意力处理，得到最终的输出结果y_t，通过tanh函数将输出结果y_t放缩到[-1,1]之间，并通过beam-search算法得到最终的句子。

实施例二

基于相同的发明构思，本实施例公开一种采用PCC对话模型的单用户个性化对话系统，包括：

搜索模块，用于在用户的对话历史中寻找与当前问题最为匹配的回复，并将最为匹配的回复作为显性指导向量

解码模块，用于对显性指导信息指导向量

用户兴趣信息的语义向量

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。上述内容仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种采用PCC对话模型的单用户个性化对话方法，其特征在于，包括以下步骤：

2)对当前问题和历史回复问题进行编码，从而获得当前问题的语义信息和用户兴趣信息，将所述语义信息和用户兴趣信息通过第一注意力机制结合，得到包含用户兴趣信息的语义向量

3)对所述显性指导信息指导向量

所述用户兴趣信息的语义向量

2.如权利要求1所述的采用PCC对话模型的单用户个性化对话方法，其特征在于，所述步骤1)中显性指导向量通过以下方法获得：分别对当前问题x和用户历史回复问题hp进行编码，生成当前问题向量

以及历史回复问题向量

计算当前问题向量

与每个历史回复问题向量

3.如权利要求2所述的采用PCC对话模型的单用户个性化对话方法，其特征在于，若所述相似度值大于预设阈值则输出所述显性指导向量

若所述相似度值小于等于预设阈值，则所述显性指导向量

为空值。

4.如权利要求1所述的采用PCC对话模型的单用户个性化对话方法，其特征在于，所述步骤2)中当前问题的语义信息通过对当前问题进行GRU编码得到语义信息向量；所述用户兴趣信息获取的方法为先将用户历史回复问题转化为词向量，再进行聚合得到用户历史向量，将用户历史向量通过TextCNN将所述词向量的特征进行提取获得特征提取向量，对所述特征提取向量进行线性化操作得到单个句子的特征向量，将所有句子的特征向量结合得到用户兴趣向量。

5.如权利要求4所述的采用PCC对话模型的单用户个性化对话方法，其特征在于，所述TextCNN的特征提取方法为：首先对用户历史回复问题的一句话对应的词向量进行卷积操作，得到第j个卷积核卷积过后的第i个值c^v，j _i，随后将c^v，j _i进行聚合起来得到经过第j个卷积核卷积后的向量c^v，j，再通过一维的最大池化函数1_max_pooling对c^v，j进行池化操作，最后将l个卷积核依次进行卷积得到用户兴趣信息的特征提取向量c。该向量被认为是用户兴趣信息的特征提取向量。

6.如权利要求5所述的采用PCC对话模型的单用户个性化对话方法，其特征在于，所述c^v，j _i的计算公式为：

其中，c^v，j _i代表第j个卷积核卷积过后的第i个值，h_j为卷积核大小，σ为sigmond函数，w_j为随机初始化并参与训练的矩阵，b_j为偏移量，

为聚合后得到用户历史向量。

7.如权利要求1-6任一项所述的采用PCC对话模型的单用户个性化对话方法，其特征在于，所述步骤2)中语义信息和用户兴趣信息通过第一注意力机制结合获得历史问题的权重，再将获得的历史问题的权重与语义信息向量再次结合，其输出公式为：

8.如权利要求4所述的采用PCC对话模型的单用户个性化对话方法，其特征在于，所述步骤3)中的解码过程为：将所述显性指导信息指导向量

用户兴趣信息的语义向量

和用户ID输入GRU神经网络，通过GRU的重置门控r重置输入所述GRU神经网络的数据，再将经过重置的数据与输入向量q′_t合并，并通过最终通过更新单元z得出新的状态向量S^t；

S^t＝z⊙S^t-1+(1-z)⊙S′

其中，W^z为随机初始化并参与训练的矩阵，σ为sigmond函数；

其中，W是随机初始化并参与训练的权重矩阵；

其中，r是重置门控，

是连接运算符。

9.如权利要求8所述的采用PCC对话模型的单用户个性化对话方法，其特征在于，将所述步骤3)中的解码结果与所述步骤2)中的语义信息向量输入第二注意力机制进行加权注意力处理，得到最终的输出结果y_t，通过tanh函数将所述输出结果y_t放缩到[-1，1]之间，并通过beam-search算法得到最终的句子。

10.一种采用PCC对话模型的单用户个性化对话系统，其特征在于，包括：

搜索模块，用于在用户的对话历史中寻找与当前问题最为匹配的回复，并将所述最为匹配的回复作为显性指导向量

编码模块，用于对当前问题和历史回复问题进行编码，从而获得当前问题的语义信息和用户兴趣信息，将所述语义信息和用户兴趣信息通过第一注意力机制结合，得到包含用户兴趣信息的语义向量

解码模块，用于对所述显性指导信息指导向量

所述用户兴趣信息的语义向量