CN113220851A

CN113220851A - 一种基于推理对话模型的人机个性化对话方法及系统

Info

Publication number: CN113220851A
Application number: CN202110467521.8A
Authority: CN
Inventors: 刘培玉; 徐富永; 王元英; 朱振方
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-06

Abstract

本发明属于自然语言处理和强化学习技术领域，提供了一种基于推理对话模型的人机个性化对话方法及系统。其中，该方法包括接收用户的提问信息，基于推理对话模型及训练语料的特征生成候选回复，对候选回复进行表征和抽象表示；检测候选回复与给定角色信息关系，归一化操作判断候选回复所属的类别，将得到的回复所属类别概率分布作为优化的指标，得到动态优化对话生成策略；基于动态优化对话生成策略优化推理对话模型，实现智能体与用户对话过程的动态优化。

Description

一种基于推理对话模型的人机个性化对话方法及系统

技术领域

本发明属于自然语言处理和强化学习技术领域，尤其涉及一种基于推理对话模型的人机个性化对话方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

现有的对话系统分为任务型对话系统和非任务型对话系统。任务型对话系统指的是可以根据用户的指令帮助用户完成指定的任务，例如常见的“小度”和“小爱同学”等。非任务型的对话系统主要侧重于与用户之间的闲聊，问题涉及各个领域，属于开放域的对话系统。根据答案生成的方式也可以将对话系统分成基于检索方式的对话系统和基于生成方式的对话系统。基于检索方式的对话系统生成的答案来源于语料库，有准确率高、个性化程度低等特点；基于生成方式的对话系统答案是由模型生成，回复有较高的个性化程度，但在流畅度和困惑度方面还存在一定的问题。

随着深度学习相关技术的发展，让智能体融入更多的智能元素，而不是仅仅依靠人工定义，成为了研究人员研究的焦点。针对开放域的闲聊机器人，首先要让其有生成多样性回复的能力，并且可以在对话过程中与对话用户建立一定的情感交互，让用户感受到对话机器人的智能。伴随着许多开放域对话式数据集的开源，上述问题得到了一定程度的缓解。序列到序列模型成为了缓解上述问题一个很好的解决方案，序列到序列模型可以充分结合对话的文本信息，有效地缓解了循环神经网络中输出维度固定的问题，有利于提高回复的多样性程度。尽管序列到序列模型已经被广泛应用于对话系统，但智能体还不能做到理解用户的对话意图。序列到序列模型进行序列预测仍存在个性化程度不高、相关程度低等问题，偏向于生成例如“我不知道”的安全回复。将角色信息融入到对话生成过程中可以有效地缓解上述问题，然而如何对角色信息进行表征，并且将特征融入到对话生成过程中仍然是一个亟需解决的问题。

然而发明人发现，现有的对话系统在生成个性化回复时会出现角色信息不一致的问题。角色信息不一致问题如图1所示，对该样本来说，对话机器人的角色信息为“I do notlike waking up early”与对话文本中“I love the morning time And what do you dofor work？”相矛盾。对话系统作为人类与机器之间交互的接口，一个理想的对话系统不仅能针对用户问题生成合适的答案，还需要考虑回复的角色多样性和角色一致性。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于推理对话模型的人机个性化对话方法及系统，其能够更新对话生成的策略，在保证对话个性化的基础上，提高模型生成回复的角色一致性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于推理对话模型的人机个性化对话方法。

一种基于推理对话模型的人机个性化对话方法，其包括：

接收用户的提问信息，基于推理对话模型及训练语料的特征生成候选回复，对候选回复进行表征和抽象表示；

检测候选回复与给定角色信息关系，归一化操作判断候选回复所属的类别，将得到的回复所属类别概率分布作为优化的指标，得到动态优化对话生成策略；

基于动态优化对话生成策略优化推理对话模型，实现智能体与用户对话过程的动态优化。

进一步地，利用角色一致性匹配模型检测生成的回复和角色信息之间的关系。

进一步地，所述角色一致性匹配模型为TrLSTM结构。

进一步地，基于三种注意力检测候选回复与给定角色信息关系，这三种注意力形式分别为对话文本注意力、角色信息注意力和对话-角色注意力。

进一步地，所述推理对话模型为Rollout策略优化对话模型。

进一步地，，所述Rollout策略优化对话模型基于蒙特卡洛算法控制的动态规划算法，规划仅针对于当前的状态，利用蒙特卡洛算法估计当前状态或者行为的值，根据当前状态或动作的奖励进行动作决策。

进一步地，每个动作的奖励期望的均值衡量该策略的优劣，规划算法执行具有最高奖励期望值的动作，动作与环境进行交互，转移到下一个状态。

本发明的第二个方面提供一种基于推理对话模型的人机个性化对话系统。

一种基于推理对话模型的人机个性化对话系统，其包括：

对话生成单元，其用于接收用户的提问信息，基于推理对话模型及训练语料的特征生成候选回复，对候选回复进行表征和抽象表示；

角色一致性检测单元，其用于检测候选回复与给定角色信息关系，归一化操作判断候选回复所属的类别，将得到的回复所属类别概率分布作为优化的指标，得到动态优化对话生成策略；

对话模型优化单元，其用于基于动态优化对话生成策略优化推理对话模型，实现智能体与用户对话过程的动态优化。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于推理对话模型的人机个性化对话方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于推理对话模型的人机个性化对话方法中的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明所述方案通过结合角色信息和对话文本信息的语义表示和结构表示分析两者之间的潜在关系，并将其作为判断生成回复好坏的一个重要标准，使模型在生成个性化回复的基础上，保证其角色一致性的特点。

(2)本发明为了保证对话生成模型更加适应我们的个性化生成任务，将基于Transformer模型设计了一个对话生成模型，在解码端分别对角色信息和对话文本信息进行多头注意力编码；在解码端探索对话上文、角色信息以及目标回复之间的关系，可以在一定程度上缓解生成回复个性化特征不足的问题。

(3)本发明为了对生成模型进行进一步地优化，加快模型在探索过程中的收敛速度，提升模型的性能，将动态优化对话生成策略更新过程融入到模型的学习过程中，对模型进行微调和优化过程。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的角色信息不一致问题；

图2是本发明实施例的推理模型结构；

图3是本发明实施例的对话模型结构；

图4是本发明实施例的基于Rollout策略的优化框架。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在本实施例中，推理对话模型由推理模型和对话模型构成。

一个理想的回复应该在保证其个性化的基础上，并且还要保证回复与给定角色信息一致。针对角色一致性问题，利用自然语言推理的相关方法，推理角色信息和对话文本之间的关系，推理模型结构如图2所示。

为保证对话模型生成回复的个性化特征，设计了一个基于Transformer模型的对话模型，可以有效地捕捉对话人的个性化特征并进行提取，并将其融入到生成的回复中，结构如图3所示。

为了更进一步地优化对话模型，鼓励模型生成更加理想的回复，我们设计了一种基于Rollout策略的优化框架，结合推理模型和生成模型的损失作为强化学习过程中奖励信号，鼓励模型生成具有个性化特征并且与给定角色信息一致的回复，优化框架如图4所示。

本实施例提供了一种基于推理对话模型的人机个性化对话方法，其具体包括如下步骤：

步骤1：接收用户的提问信息，基于推理对话模型及训练语料的特征生成候选回复，对候选回复进行表征和抽象表示。

步骤2：检测候选回复与给定角色信息关系，归一化操作判断候选回复所属的类别，将得到的回复所属类别概率分布作为优化的指标，得到动态优化对话生成策略。

为了可以检测出对话模型生成的回复与角色信息之间的关系，在训练对话生成模型之前会使用预定义的角色信息训练一个角色一致性匹配模型。传统的方法主要采用TD-IDF的方式分析用户角色信息与对话文本之间的关系，仅仅通过词频去分析文本之间的相似程度，该方法不能很好地反映用户角色信息与对话文本之间的关系。基于此我们采用TrLSTM结构去分析角色信息与对话文本之间的关系，该结构不仅可以分析句子的句法结构还考虑了部分语义信息，可以充分地表征角色信息与对话文本之间潜在关系。角色一致性匹配模型目的在于检测生成的回复和角色信息之间的关系。前提和假设在经过嵌入层后，通过双向长短时记忆网络来对文本特征进行表示，其中前向传播的过程是从开始时刻到t时刻计算，输出每个时刻的隐藏层状态；接着从t时刻到开始时刻反向计算，输出每个时刻的隐藏层状态，最后将每个时间步的前向计算的隐藏层输出和反向计算的隐藏层输出结合起来作为当前时间步的最终隐藏层输出，最终的输出如公式(1)所示，

为序列a第i个位置的隐藏层最终输出，表示该网络对对话文本的表征输出。由公式可以明显地看出，当前时间步的输出取决于前边以及后边的若干个输出，故该方法可以充分地结合上下文信息并且可以对角色信息和对话文本进行更深层次的表征。

循环神经网络的基本模块为Tree-LSTM，给定前提和假设的文本信息，对于当前时间步的词采用TrLSTM计算当前时间步的输出，TrLSTM的定义如公式(2)-(9)所示，结合当前节点的左右孩子节点计算当前节点的隐藏层输出。

在对前提和假设之间关系进行推断时，Tree-LSTM可以有效地捕获两个句子之间的特征。在建立前提和假设之间关系时需要采用一些硬对齐和软对对齐的方式对局部的推理过程进行建模。采用软对齐的方式计算前提和假设之间的注意力权重，计算公式如(10)所示。

随着Transformer模型在序列预测任务的广泛应用，针对我们个性化对话生成的任务，我们对Transformer模型进行了一定的修改，让其可以更好地适应我们的任务。生成模型采用基于Transformer结构。

在对角色信息和对话信息编码的过程中，对角色信息和对话文本分别进行自注意力，与传统方法不同的是，掩码操作的目的是为了在对文本进行预测时，不让未来的序列信息影响当前时间步的预测，原因在于对话模型只有在训练的时候是有标准的回复信息来训练对话模型，但在实际预测的过程中是没有标准回复信息，因此在训练的过程中就需要将未来的信息给遮盖住，仅仅通过上文信息去预测对话，故我们只对对话文本进行掩码操作，对角色信息采用的方式是让其尽可能地出现在生成的回复中，不对其进行掩码操作。

对角色信息和对话上文的信息的处理过程是首先是对文本信息进行词嵌入操作，接着将其输入到自注意力层，对角色信息和上文信息分别进行关系建模，其中对角色信息的建模方式公式如(11)所示。对话用户的角色信息P由l条描述性的话语{P₁，P₂，P₃，...，P_l}组成，其中Pl＝{p₁，p₂，p₃，...，p_m}，p_i为用户角色信息中第i个词。使用自注意力层计算用户的角色信息和对话上文各自的抽象表示，将不经掩码操作的多头注意力定义成Unmasked_SelfAttnetion(Q，K，V)，其中Q、K、V分别指Query、Key、Value。模型的编码部分由N个相同的编码器组成，每个编码器之间采用Layer Normalization的方式进行归一化处理，公式说明以其中一个为例。

FFN(x)＝max(0，xW₁+b₁)W₂+b₂(13)

其中E(·)表示对输入进行词嵌入表示的函数，输入最终的嵌入表示为输入文本的词嵌入表示与位置嵌入表示相加。

Context的编码方式与Persona信息的编码方式相同，

分别表示编码器对角色信息和对话文本的最终表示。

为了使模型可以更加生成个性化的回复，解码器需要充分考虑对话上文(Query)、角色信息(Persona)和回复(Target)之间的关系，故我们的工作分别对各个部分之间的关系进行了充分的考虑和研究：

(1)对话生成任务的解决思路来源于机器翻译，现在的很多方法也都借鉴于机器翻译。在翻译任务中，待翻译的文本和目标文本在翻译的过程需要对齐，可以有效地提高翻译的准确率。因此在对话生成任务中对话上文与目标回复之间对齐生成有利于获得更好的结果。

(2)由于对话用户的角色信息由多条组成，但在对话过程中不需要将所有的角色信息融入到回复中，仅需要挑选与当前语境相关程度最高的角色信息辅助对话生成，可以在保证回复多样性的基础上生成与当前语境相关程度最高的个性化回复。因此需要通过角色信息与目标回复之间的关系确定与当前语境相关程度最高的角色信息。

(3)在对话生成过程中，并不是所有的回复都需要融合角色信息，在流利通顺的基础上适当地融入恰当的角色信息才是更符合人类对话习惯的回复，因此在生成对话的过程中还需要确定角色信息是否需要融合到生成的回复中。

考虑到上述的因素，我们设计了三种注意力的形式分别为对话文本注意力(Q_Attn)、角色信息注意力(P_Attn)和对话-角色注意力(PQ_Attn)如图2中的Decoder部分所示。对于解码部分的第一层解码器来说：

其中

表示经过Masked操作后的多头注意力的输出，采用Masked操作保证当前时间步的结果仅仅受序列中的已知部分影响。P_Attn⁽¹⁾、Q_Attn⁽¹⁾和PQ_Attn⁽¹⁾分别表示第一层各个注意力部分的输出。

表示解码部分第一层的输出，对于解码部分的其他解码器：

经过N层的解码处理后，采用SoftMax函数计算词的概率分布：

步骤3：基于动态优化对话生成策略优化推理对话模型，实现智能体与用户对话过程的动态优化。

模型优化策略的关键在于鼓励对话模型生成的回复如公式22所示，与给定角色信息是蕴含关系或中立关系。Rollout算法是一种基于蒙特卡洛算法控制的动态规划算法，规划仅针对于当前的状态，利用蒙特卡洛算法估计当前状态或者行为的值，根据当前状态或动作的奖励进行动作决策。为了估计给定策略的Action-Value函数，Rollout算法利用蒙特卡洛控制算法对假设空间进行采样，当前状态下可以采取多种动作，对于每个动作可以获得一个独有的动作序列，然后用每个动作的奖励期望的均值衡量该策略的优劣，规划算法执行具有最高奖励期望值的动作，动作与环境进行交互，转移到下一个状态，在重复执行上述的步骤规划出下一状态的动作，重复执行，就可以得到一个完整的执行计划，其中某个序列的概率计算方式如公式(22)所示，奖励值的期望如公式(23)所示。

参数θ的更新方式为：

其中R(τ)为探索过程中的实际收益值，优化的目标是最大化收益的期望值，优化的方式采用策略梯度下降的方式对参数θ进行更新优化，其中收益期望值的梯度为：

理想的回复与角色信息之间的关系为蕴含、中立，如公式(25)所示。针对这个特点，我们将奖励设计成公式(26)的形式，其中E^Et为角色一直性匹配模型中蕴含关系的概率期望值，E^N为中立关系的概率期望值。

Y^*＝Entailmentor Natural(25)

R＝E^Et+E^N (26)

本实施例利用预定义的角色信息和对话文本信息训练一个自然语言推理的模型和一个对话生成模型，用自然语言推理模型判断角色信息和对话文本之间的关系，关系包括蕴含、中立和冲突。用对话生成模型负责生成对话。将推理模型和对话模型的优化信号作为强化学习过程中的奖励信号，鼓励对话模型生成的回复与给定角色信息有蕴含和中立关系，并利用Rollout策略优化对话模型，更新对话生成的策略，在保证对话个性化的基础上，提高模型生成回复的角色一致性。

实施例二

本实施例提供了一种基于推理对话模型的人机个性化对话系统，其具体包括：

此处需要说明的是，本实施例的基于推理对话模型的人机个性化对话系统中的各个模块，与实施例一中的基于推理对话模型的人机个性化对话方法中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于推理对话模型的人机个性化对话方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于推理对话模型的人机个性化对话方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于推理对话模型的人机个性化对话方法，其特征在于，包括：

2.如权利要求1所述的基于推理对话模型的人机个性化对话方法，其特征在于，利用角色一致性匹配模型检测生成的回复和角色信息之间的关系。

3.如权利要求2所述的基于推理对话模型的人机个性化对话方法，其特征在于，所述角色一致性匹配模型为TrLSTM结构。

4.如权利要求1所述的基于推理对话模型的人机个性化对话方法，其特征在于，基于三种注意力检测候选回复与给定角色信息关系，这三种注意力形式分别为对话文本注意力、角色信息注意力和对话-角色注意力。

5.如权利要求1所述的基于推理对话模型的人机个性化对话方法，其特征在于，所述推理对话模型为Rollout策略优化对话模型。

6.如权利要求5所述的基于推理对话模型的人机个性化对话方法，其特征在于，所述Rollout策略优化对话模型基于蒙特卡洛算法控制的动态规划算法，规划仅针对于当前的状态，利用蒙特卡洛算法估计当前状态或者行为的值，根据当前状态或动作的奖励进行动作决策。

7.如权利要求6所述的基于推理对话模型的人机个性化对话方法，其特征在于，每个动作的奖励期望的均值衡量该策略的优劣，规划算法执行具有最高奖励期望值的动作，动作与环境进行交互，转移到下一个状态。

8.一种基于推理对话模型的人机个性化对话系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于推理对话模型的人机个性化对话方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于推理对话模型的人机个性化对话方法中的步骤。