CN111159368A

CN111159368A - 一种个性化对话的回复生成方法

Info

Publication number: CN111159368A
Application number: CN201911270617.4A
Authority: CN
Inventors: 蔡毅; 黎伟钊
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-15
Anticipated expiration: 2039-12-12
Also published as: CN111159368B

Abstract

本发明公开了一种个性化对话的回复生成方法，包括步骤：收集具有人物个性信息的对话语料数据；对收集的数据进行预处理；采用对话上下文以及预处理后的数据作为输入数据对模型进行训练；将对话上下文和人物个性信息输入训练后模型，生成新的回复。本发明通过人物个性信息和数据后处理得到一个有效的人机对话方法，同时考虑了对话中的两个人物个性并进行融合，再使用数据后处理对句子进行修整。本发明在保证回复语法通顺、逻辑连贯的前提下，生成能够体现人物个性的回复。

Description

一种个性化对话的回复生成方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种个性化对话的回复生成方法。

背景技术

通常来说，根据对话系统构建的目的和应用的场景，对话系统框架可以分为任务导向型对话系统和非任务导向型对话系统。任务导向型对话系统是带着明确的目的而设计，旨在能够对用户完成事先设定的服务，例如预定酒店、预订机票、购买商品等。而非任务导向型系统，是没有局限条件的聊天，具体为用户输入自己的话语，系统返回回复这样的一个交互过程，主要起到情感陪伴、建立用户信任、提高用户粘性的作用。对于现有的获得对话系统的回复的方法中，根据构建技术的不同，近年来的方法可以分为基于检索和基于生成两类方法。

检索式的对话系统主要有构造候选回复和评分排序两个模块。在评分排序模块中，系统输出的评估分数一般是考量了输入与回复的两个序列的匹配程度。序列间的匹配程度可以通过比较句子之间的相似度来衡量。在经典的基于信息检索技术的对话系统中，使用神经网络提取出句子的特征，通过对比不同句子的特征表示，计算句子之间的相似度。因此，基于检索的方法给出的回复结果会比较通顺，但有着无法给出对话语料数据库以外的回复结果的缺点。而基于生成的方法，使用深度学习的方法和大数据工具，训练出有效的语言模型，能够生成新的回复结果，灵活应对各种不同的对话场景，然而生成的回复结果有着流畅性不足、不通顺的风险。

上述的两类对话系统技术，往往是基于用户和机器对话的上下文内容，去检索或者生成系统返回的回复。这样得到的回复可能只和对话内容相关，而与对话参与者的个性无关。可是人类之间的对话内容一般来说是和对话者的个性有很大关系的。所以，如果仅只考虑，可能会得到与人物个性无关甚至不符合的回复。

举例说明：在对话情景，用户说话的语句为“你是哪里人？”，而如果考虑人物个性进行限定，得到的回复可能为“我是广州的”、“我是上海的”等。这些回复对于对话上下文“你是哪里人”，是符合人类对话中的逻辑的。但是这两条所反映的人物个性是不同的，其对应的人物所在地域值为广州和上海。这造成针对同一对话上下文，可能每次生成的回复中所反映的人物个性是不同的，反复无常。随着对话过程的延长，该问题会愈加明显，造成用户在使用对话系统时会产生割裂感，降低用户体验。

发明内容

本发明的目的在于克服现有技术的不足，提供一种个性化对话的回复生成方法。本发明考虑了对话过程中的两个对话参与者的人物个性信息，通过注意力机制、门控机制等策略，增强了生成回复与人物个性的关联；同时还定义了若干规则进行数据后处理，对生成的回复中的个别词语进行删改，以保证与人物个性的一致性。本发明使得生成的回复不仅与对话上下文的内容相关，也与对话参与者的个性相关，从而提高生成的回复的质量。

本发明的目的能够通过以下技术方案实现：

一种个性化对话的回复生成方法，包括步骤：

收集具有人物个性信息的对话语料数据；

对收集的数据进行预处理；

采用对话上下文以及预处理后的数据作为输入数据对模型进行训练；

将对话上下文和人物个性信息输入训练后模型，生成新的回复。

在社交网站中，当一个用户发布一条消息后，其他用户会对其进行评论，用户间会持续通过评论的方式进行沟通，这些评论数据形成了以原始消息为根节点的树形结构数据，可以将其中一条从根节点到叶子节点的路径看作是一个对话。

具体地，所述收集具有人物个性信息的对话语料数据的步骤中，包括：

利用爬虫技术，从社交网站上爬真实的对话记录；

爬取对话语句的对应人物信息，包括年龄、地域、性别和兴趣爱好等，并将其存储为键值对形式，如{性别：男}。

具体地，所述对收集数据进行预处理的步骤中，包括：

出于隐私安全性和减少脏数据的考虑，需要对初步得到的数据进行数据过滤；

为了方便后续模型的输入，在经过数据过滤后，需要对原始数据进行序列化处理。

更进一步地，所述过滤数据的处理包括：人名地名替换、筛选去除单轮语句长度过小或者过大的数据、筛选去除单轮语句低频词数量过多的数据。

更进一步地，所述对数据进行序列化操作，包括：

将非根节点的评论看作为回复，根节点到该评论之前的评论语句拼接起来作为对话上下文。根节点指代用户初始发布的消息。每一个评论消息和其之前的语句都能组成一个对话；

人物个性信息以键值对存储，将人物个性值抽取出来并组合为人物表示序列。

具体地，所述采用对话上下文以及预处理后的数据作为输入数据对模型进行训练的步骤中，包括：

根据对话上下文，提取关于对话历史的信息；

根据人物个性信息，计算人物交互表示向量；

输出各个时刻词语生成的概率分布；

根据总体词语生成概率来计算模型的损失函数。

具体地，所述将对话上下文和人物个性信息输入训练后模型，生成新的回复的步骤中，包括：

利用回复生成模型，确定各个时刻对应的词语概率分布；所述概率代表着在对应时刻中，各个词语会被选择生成的可能性。

利用束搜索技术，启发式地生成回复句子序列；

利用预先定义好的规则，对模型生成的初始回复进行合理性的修改。

所述合理性修改具体为：根据初始回复的句式和内容，判断具体使用哪一条规则进行修改。在部分规则中，修改过程需要参考人物个性中的具体值。

本发明相较于现有技术，具有以下的有益效果：

本发明通过人物个性信息和数据后处理得到一个有效的人机对话方法，同时考虑了对话中的两个人物个性并进行融合，再使用数据后处理对句子进行修整。本发明在保证回复语法通顺、逻辑连贯的前提下，生成能够体现人物个性的回复。

附图说明

图1为本申请实施例提供的一种个性化对话回复生成方法的流程示意图；

图2为本申请实施例提供的回复生成模型的结构示意图；

图3为本申请实施例提供的模型执行步骤示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

在本实施例中，将对话过程中当前回复的之前的语句都定义为对话历史内容。需要说明的是，本实施例着重于在回复中的人物个性，而如何对于对话历史的利用方式不在探讨范围内。因此，本实施例不考虑层次结构的编码器，而使用单一的循环神经网络进行编码。

如图1所示为一种个性化对话回复生成方法的流程示意图，所述方法包括步骤：

S1、收集具有人物个性信息的对话语料数据，包括：

S11、利用爬虫技术，从社交网站上爬真实的对话记录；

S12、爬取对话语句对应的人物个性信息，并将其存储为键值对形式；

S2、对收集的具有人物个性信息的对话语料数据进行预处理，包括：

S21、对得到的数据进行数据过滤；

S22、经过数据过滤后，对数据进行序列化处理。

在本实施例中，对于一个对话参与者，其人物个性信息初始是以键值对的形式进行存储。人物个性可以包括人物的性别、年龄、兴趣爱好、生活习惯等反映人物不同方面的信息。人物个性值可以是单一词语表示，或者是若干个词语组成的文本序列。为了方便在后续的计算，采用同一个向量空间表示不同的人物个性值，将人物个性值组合起来，得到人物个性序列。

对于一个对话参与者，其人物个性的对应值会被提取出来，并拼接为一个文本序列，作为该人物个性表示序列，序列的长度为一个固定的正整数，由一个超参数进行指定，超参数在模型训练前设置好。

为了使表示人物的文本序列的对应位置所表示的信息一致，不同样本之间，对应个性值中的长度要保持相同。个性值长度表示组成该人物个性值的词语数目。若对应个性值长度少于对应序列中的表示长度，则使用“<PAD>”作为占位符进行补全；若对应个性值长度大于对应序列中的表示长度，则截断个性值，选取个性值的前面部分，作为人物表示序列中的内容。

举例说明：假设所提供的人物个性有性别、地域、兴趣标签这三个不同的项，对应的长度分别为1、2、2。则序列中第一个词语表示性别，第二、三个词语表示地域，第四、五个词语表示兴趣标签。。其中，性别的值为单一的词语，即“male”或者“female”，在本例子中为“female”；地域由一个或者两个的词语组成，如“上海”、“广东广州”，在本例子中为“上海”；兴趣标签则是不定长的词语序列，如“旅游；美食；摄影；音乐；篮球”，在本例子为“旅游；美食；摄影”。在本实施例中，人物表示序列为“female上海<PAD>旅游美食”。

S3、采用对话上下文以及预处理后的数据作为输入数据对模型进行训练。

为了提高回复与人物个性的关联，通过步骤S1得到的对话上下文和步骤S2得到的对话参与者各自的人物个性序列后，将对话上下文和人物个性序列一同进行相应的编解码处理，进而可以根据解码结果，生成当前对话情景下的初始回复。

一般来说，对话的回复生成，与之前的对话内容是有很大关系的。而在本发明中，为了使回复与对话参与者的人物个性相符合，同时考虑了两个对话参与者的人物个性信息，从而生成个性化对话的回复。对话回复生成模型的结构如图2所示，该模型主体由编码器(Encoder)和解码器(Decoder)所构成，并使用额外的人物处理单元控制人物个性信息在对话中的作用。具体来说，整体模型的执行步骤如图3所示，包括：

S31、根据对话上下文，提取关于对话历史的信息。

在本实施例中，对话上下文包括当前用户输入语句和之前的全部历史对话内容，对话上下文具体形式为由若干个词语组成的文本序列。利用向量生成方法，生成识别文本中各个词对应的词向量，比如，可以通过查询语义词典的方式，查询出识别文本中各个词对应的词向量。

经过词向量转换后，文本序列转换由实数向量组成的序列，即对话上下文X＝x₁x₂...x_n，编码器将模型的输入序列转换为隐状态H＝h₁h₂...h_n，隐状态H可以看作隐含了关于对话历史语句的信息。

S32、根据人物个性信息，计算人物交互表示向量。

在本实施例中，会根据对话参与者的人物个性信息，构建在当前对话情景下的人物交互表示向量，包括：

S321、对于其中一个对话参与者，先对其键值对形式的人物个性信息转变为文本序列后，进而编码得到其对应的人物表示向量。

为了有效利用对话参与者的人物个性信息，对于每一个对话参与者，其人物个性信息以键值对存储，在步骤S2中将人物个性值抽取出来并组合为人物表示序列。该序列中的所有词语共享同一个词表，本实施例使用额外的词嵌入层将序列中各个词语转换成词向量形式。经过词向量转换后，人物表示序列转换为由实数向量组成的序列，当前说话人转换后的人物表示序列词向量为T＝t₁t₂...t_n,而对方对应的序列为T′＝t′₁t′₂...t′_n。转换后得到的词向量表示序列再使用GRU作为编码器对其进行编码得到关于人物个性表示序列的隐层表示向量序列

在将人物个性的各个值进行编码后，使用注意力机制，将上述序列中的各个向量合并为单一向量。具体来说，给定上一时刻的解码器中的隐状态，计算出各个个性隐层表示向量的权重，以加权平均的方式得到人物表示向量v_p，人物表示向量v_p计算方法为：

其中，

和

为可训练的参数。计算出来的权重α′_i表示当前时刻对应人物个性对回复的影响。注意力机制能够让模型能够依据当前对话情景恰当地对人物个性进行选择。

S322、将得到的对话者各自的人物表示向量进行融合得到人物交互表示向量。

在对话场景中，说话人自身的人物个性是不可忽视的因素。自身的人物个性信息，会影响到人物说话的风格与口癖，不同地域或者不同年龄的人物，说话时的语句是有很明显的区分性的。另一方面，根据自身的人物个性信息做出的回复，能够在多轮对话中保持信息的一致性，而不会出现前后语句自相矛盾的情况。

另外，人类说话时不仅与自身人物个性有关，而且还会考虑到对方的人物个性。最常见的场景为在对话过程中，人类往往会根据对方的人物信息，而改动对对方的称呼。

举例说明：当对方的性别为男性时，在正常情况下，说话人在称呼对方时所用到的词语可以是“老弟”、“老哥”、“学长”等能够表征男性的词语，而不会使用“老妹”、“老姐”、“学姐”等表征女性的词语。

在对话过程中，对于说话人A以及聆听者B，分别使用上述的个性注意力层计算得到他们各自的人物个性表示向量，记为

和

在本实施例中通过线性相加，再经过一个激活函数的方式得到关于说话人A对于B的人物交互表示向量：

其中，W₁和W₂为可训练的参数。V_A,B同时依赖于对话中的说话人A和聆听者B的个性信息。因此，具有相同或者相似个性的说话人，对于不同的聆听者，模型也会得到不同的回复。

S33、输出各个时刻词语生成的概率分布。

为了使生成的回复能够符合特定的人物个性，在本实施例中，解码器的输出层计算生成词语概率分布时，会引入得到的人物交互表示向量。在本实施例中，会引入额外的门机制来权衡人物个性在生成回复时所带来的影响。为了保证生成的回复能够在语法通顺、逻辑连贯的前提，与对话参与者的人物个性相符合，在每一时刻，模型会输出当前时刻生成词语的概率分布，使用softmax函数来归一化词语概率，以保证所有词语的生成概率之和为1。假设将解码器中的隐状态向量记为s_t，则计算当前时刻的生成词语y_t的概率分布的相关计算公式为：

其中，

V^T和b_out为可训练的参数。a_t为一个标量，其值为0到1之间。a_t与当前时刻解码器的隐状态相关，作为控制当前时刻应该包含多少人物个性信息的阀门，在一定程度上决定了当前生成词语是人物个性相关词语还是语义生成词语，以此来使得回复句子具有语义一致性。在解码器的输出层中引入人物个性表示，能够使人物个性信息更直接地影响到词语生成分布，提高生成回复与人物个性的相关程度。

S34、根据总体词语生成概率来计算模型的损失函数

模型通过最小化整个序列上的负对数似然损失函数来优化模型网络参数。损失函数具体形式为：

其中，x表示的是用户输入的语句，T表示的是说话人自身的人物个性信息，T′表示的是对方的人物个性信息，y是模型输出的结果。如公式所示，对一个回复序列句子，其损失函数是每个时刻的词语预测概率分布的负对数之和。每个时刻的词语预测概率，受之前时刻的输出词语、用户输入语句以及人物个性信息所影响。在训练过程中，模型根据损失函数得到的损失进行梯度反向传播，从而调整模型中的网络参数。当完成一个轮次的训练之后，模型会在验证集上计算损失。当训练轮数达到最大轮数，或者验证集上的损失，在连续3个轮次中都没有下降，则模型停止训练。

S4、将对话上下文和人物个性信息输入训练后模型，生成新的回复，包括：

S41、利用回复生成模型，确定各个时刻对应的词语概率分布；

S42、利用束搜索技术，启发式地生成回复句子序列；

模型在每一时刻会输出当前时刻的词语生成的概率分布，在本实施例，会选择整体概率最大的回复序列作为模型的生成结果。为了得到整体概率最大的序列，如果遍历所有可能的序列来计算其概率的话，计算开销会很庞大。束搜索是一种启发性搜索算法，其主要的思想为根据每个时刻的输出概率来构建搜索树，搜索树中每一层的节点为词语和当前序列概率。每个时刻模型都会输出各个词语的预测概率，对预测概率按照大小排序，选择概率最大的K个词语作为搜索树这一层的节点。这里的K是一个超参数，表示每个时刻保存的词语数目。换言之，在束搜索中，不会保存所有可能生成的序列作为候选解序列，而是只保存一部分作为候选解序列。

束搜索具体过程为：

S421、生成第一个词的时候，选择并记录预测概率前K个词语；

S422、对上一步得到K个词语，分别输入到模型中，可以得到K个不同预测概率分布，总计有K*K个结果，当前序列的概率更新为当前预测词语概率和与其对应的前序列概率之积。根据序列概率进行排序，选取前K个序列，将当前词语更新到搜索树中对应的位置上；

S423、重复步骤S422操作，直到遇到句子结束符，最终输出整体概率前K个序列。

S43、利用预先定义好的规则，对模型生成的初始回复进行合理性的修改。

为了提高回复句子的流畅性，以及与人物个性的一致性，对模型生成的回复句子进行合理性的修改。在本实施例中定义了若干条规则，所使用的规则描述如下：

a、对于生成的回复句子，如果在该句子末尾处出现多个重复的词语，则减少重复的词语至只出现一到两次。

b、回复中若接邻出现表示不同性别的词语，则只保留符合当前说话人性别的词语。

c、如果回复中出现地域词，而且用户的输入为询问地域的问句，则判断生成的回复中的地域词，与回答人的人物个性中地域值是否一致，若不一致则将其修改为对应的地域值。

d、如果回复句子中只包含一个词语，则根据该词语，选择不同的回复模板来作为最终的回复。

综上所述，本实施例提供了一种同时考虑两个对话参与者的回复生成方法，在获取到记录了对话历史内容的上下文后，可以先根据对话上下文和对话参与者各自的人物个性信息，由模型生成一个初始回复，再使用数据后处理对其进行修整。可见，本申请实施例在生成对话回复时，能够与对话参与者的人物个性信息更加一致和相关，进而提高用户在交互时的体验。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种个性化对话的回复生成方法，其特征在于，包括步骤：

收集具有人物个性信息的对话语料数据；

对收集的数据进行预处理；

2.根据权利要求1所述的方法，其特征在于，所述收集具有人物个性信息的对话语料数据的步骤中，包括：

利用爬虫技术，从社交网站上爬真实的对话记录；

爬取语句对应的人物个性值，存储为键值对形式。

3.根据权利要求1所述的方法，其特征在于，所述对收集数据进行预处理的步骤中，包括：

对收集得到的数据进行数据过滤；

在经过数据过滤后，对原始数据进行序列化处理。

4.根据权利要求3所述的方法，其特征在于，所述过滤数据的处理包括：人名地名替换、筛选去除单轮语句长度过小或者过大的数据、筛选去除单轮语句低频词数量过多的数据。

5.根据权利要求3所述的方法，其特征在于，所述对数据进行序列化操作，包括：

将非根节点的评论看作为回复，根节点到该评论之前的评论语句拼接起来作为对话上下文；根节点指代用户初始发布的消息；每一个评论消息和其之前的语句都能组成一个对话；

6.根据权利要求1所述的方法，其特征在于，所述采用对话上下文以及预处理后的数据作为输入数据对模型进行训练的步骤中，包括：

根据对话上下文，提取关于对话历史的信息；

根据人物个性信息，计算人物交互表示向量；

输出各个时刻词语生成的概率分布；

根据总体词语生成概率来计算模型的损失函数。

7.根据权利要求1所述的方法，其特征在于，所述将对话上下文和人物个性信息输入训练后模型，生成新的回复的步骤中，包括：

利用回复生成模型，确定各个时刻对应的词语概率分布；

利用束搜索技术，生成回复句子序列；

8.根据权利要求6所述的方法，其特征在于，所述根据人物个性信息，计算人物交互表示向量的步骤，具体为：

将人物表示序列中各个词语转换成词向量形式，再使用GRU作为编码器对其进行编码得到关于人物个性表示序列的隐层表示向量序列

在将人物个性的各个值进行编码后，使用注意力机制，将上述隐层表示向量序列中的各个向量合并为单一向量，即给定上一时刻的解码器中的隐状态，计算出各个个性隐层表示向量的权重，以加权平均的方式得到人物表示向量v_p，人物表示向量v_p计算方法为：

其中，

和

为可训练的参数，计算出来的权重α′_i表示当前时刻对应人物个性对回复的影响；

对于说话人A以及聆听者B，分别计算其各自的人物个性表示向量，记为

和

通过线性相加与激活函数处理得到关于说话人A对于B的人物交互表示向量：

其中，W₁和W₂为可训练的参数；V_A,B同时依赖于对话中的说话人A和聆听者B的个性信息。

9.根据权利要求6所述的方法，其特征在于，所述输出各个时刻词语生成的概率分布的步骤具体为：

解码器中的隐状态向量记为s_t，则计算当前时刻的生成词语y_t的概率分布的相关计算公式为：

其中，

V^T和b_out为可训练的参数；a_t为一个标量，其值为0到1之间。

10.根据权利要求6所述的方法，其特征在于，所述根据总体词语生成概率来计算模型的损失函数的步骤中，模型通过最小化整个序列上的负对数似然损失函数来优化模型网络参数，损失函数表示为：

其中，x表示的是用户输入的语句，T表示的是说话人自身的人物个性信息，T′表示的是对方的人物个性信息，y是模型输出的结果；在训练过程中，模型根据损失函数得到的损失进行梯度反向传播，从而调整网络参数；当完成一个轮次的训练之后，模型会在验证集上计算损失；当训练轮数达到最大轮数，或者验证集上的损失，在连续3个轮次中都没有下降，则模型停止训练。