CN113761148A

CN113761148A - 对话信息获取方法、装置、设备及存储介质

Info

Publication number: CN113761148A
Application number: CN202110425178.0A
Authority: CN
Inventors: 侯政旭; 刘亚飞; 欧子菁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-12-07

Abstract

本申请是对话信息获取方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：获取第一对话信息；基于第一对话信息，通过第一对话模型进行数据处理，获得第二对话信息；基于第一对话信息以及第二对话信息，通过第一判别器进行数据处理，获得第一置信分数；基于第一置信分数，对第一对话模型进行参数更新。上述方案，训练好的判别器可以对输入第一对话模型的第一对话信息，以及第一对话模型输出的第二对话信息之间的匹配度进行检测，并将匹配分数作为奖励值，且每一轮对话都可以获得该轮对话对应的奖励值，提高了奖励值产生的密度，从而提高了通过强化学习训练得到的第一对话模型的训练效率。

Description

对话信息获取方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种对话信息获取方法、装置、设备及存储介质。

背景技术

智能对话是接收到用户输入的文字信息，并通过人工智能进行处理，以实现对用户输入的文字信息进行回应的一系列相关技术。

在相关技术中，智能对话系统中包含任务导向型的对话系统以及非任务导向型的对话系统(例如聊天机器人)。面向任务导向型的对话系统通常通过强化学习的方式进行训练得到，在通过强化学习的方式对任务导向型的对话系统进行训练的过程中，当每一次对话完成后，可以根据本次对话的对话轮数以及对话成功与否，确定奖励函数，并基于奖励函数对模型进行参数更新。

上述技术方案中，通过强化学习的方法对任务导向型的对话系统进行训练时，当每一次对话完成后才可以根据奖励函数获取对话的奖励，导致训练获得的奖励较为稀疏，训练效率较低。

发明内容

本申请实施例提供了一种对话信息获取方法、装置、设备及存储介质，可以提高对话模型的训练效率，该技术方案如下：

一方面，提供了一种对话信息获取方法，所述方法包括：

获取第一对话信息；

基于所述第一对话信息，通过第一对话模型进行数据处理，获得第二对话信息；所述第一对话信息和所述第二对话信息构成一轮对话；

基于所述第一对话信息以及所述第二对话信息，通过第一判别器进行数据处理，获得第一置信分数；所述第一置信分数用于指示所述第二对话信息与所述第一对话信息之间的匹配程度；所述第一判别器是根据第一训练集中的至少一组样本对话信息以及第一生成器生成的至少一组模拟对话信息，通过对抗学习的方式训练后得到的；

基于所述第一置信分数，对所述第一对话模型进行参数更新；

其中，训练后的所述第一对话模型用于基于输入的第三对话信息，获取第四对话信息。

又一方面，提供了一种对话信息获取方法，所述方法包括：

获取第三对话信息；

基于所述第三对话信息，通过第一对话模型进行数据处理，获得所述第一对话模型输出的第四对话信息；

其中，所述第一对话模型是基于第一置信分数，进行参数更新得到的；所述第一置信分数是基于第一对话信息以及第二对话信息，通过第一判别器进行数据处理得到的；所述第一对话信息和所述第二对话信息构成一轮对话；所述第一置信分数用于指示所述第二对话信息与所述第一对话信息之间的匹配程度；所述第一判别器是根据第一训练集中的至少一组样本对话信息以及第一生成器生成的至少一组模拟对话信息，通过对抗学习的方式训练后得到的。

再一方面，提供了一种对话信息获取装置，所述装置包括：

第一对话获取模块，用于获取第一对话信息；

第二对话获取模块，用于基于所述第一对话信息，通过第一对话模型进行数据处理，获得第二对话信息；所述第一对话信息和所述第二对话信息构成一轮对话；

置信分数获取模块，用于基于所述第一对话信息以及所述第二对话信息，通过第一判别器进行数据处理，获得第一置信分数；所述第一置信分数用于指示所述第二对话信息与所述第一对话信息之间的匹配程度；所述第一判别器是根据第一训练集中的至少一组样本对话信息以及第一生成器生成的至少一组模拟对话信息，通过对抗学习的方式训练后得到的；

模型参数更新模块，用于基于所述第一置信分数，对所述第一对话模型进行参数更新；

在一种可能的实现方式中，所述装置还包括：

第一向量获取模块，用于基于所述第一对话信息，获得所述第一对话信息对应的第一特征向量；

所述第二对话获取模块，包括：

第一向量处理单元，用于通过所述第一对话模型，对所述第一特征向量进行数据处理，获得第二特征向量；

第二对话获取单元，用于基于所述第二特征向量，获得所述第二对话信息；

所述置信分数获取模块，还用于，

通过所述第一判别器，对所述第一特征向量以及所述第二特征向量进行处理，获得所述第一置信分数。

在一种可能的实现方式中，所述装置还包括：

概率分布获取模块，用于基于所述第一对话信息，获取所述第一特征向量对应的第一概率分布；所述第一概率分布用于指示所述第一特征向量中各个向量值对应的信息的置信度；

所述第一向量处理单元，还用于，

基于所述第一概率分布，通过所述第一对话模型对所述第一特征向量进行数据处理，获得所述第二特征向量。

在一种可能的实现方式中，所述模型参数更新模块，包括：

价值函数值获取单元，用于基于所述第一置信分数，获取所述第一对话模型对应的价值函数值；

模型参数更新单元，用于基于所述第一对话模型对应的价值函数值，对所述第一对话模型进行参数更新。

在一种可能的实现方式中，所述第一置信分数是置信分数集合中的置信分数的任意一个；

所述价值函数值获取单元，还用于，

基于所述置信分数集合中的各个置信分数，获取所述第一对话模型对应的价值函数值。

在一种可能的实现方式中，所述装置还包括：

第一训练集获取模块，用于获取所述第一训练集；所述第一训练集中包含至少一组所述样本对话信息；

模拟对话获取模块，用于获取所述第一生成器生成的至少一组所述模拟对话信息；

置信数据获取模块，用于基于所述至少一组所述样本对话信息以及至少一组所述模拟对话信息，通过第一判别器获取第一置信数据；所述第一置信数据包括至少一组所述样本对话信息对应的置信度，以及至少一组所述模拟对话信息对应的置信度；

判别器更新模块，用于基于所述第一置信数据，对所述第一判别器进行参数更新；

生成器更新模块，用于基于至少一组所述模拟对话信息对应的置信度，对所述第一生成器进行参数更新。

在一种可能的实现方式中，所述装置还包括：

第二训练集获取模块，用于获取第二训练集；所述第二训练集中包含至少一组所述样本对话信息；

第一生成器训练模块，用于基于所述第二训练集中的至少一组所述样本对话信息，对所述第一生成器进行训练。

在一种可能的实现方式中，所述第二训练集中的至少一组所述样本对话信息包含第一样本输入信息；

所述第一生成器训练模块，还用于，

将所述第一样本输入信息，输入所述第一生成器中的第一编码网络，获得第一输入特征值；

基于所述第一输入特征值，输入所述第一生成器中的第一解码网络，获得第一预测输入信息；

基于所述第一样本输入信息以及所述第一预测输入信息，对所述第一生成器进行更新。

在一种可能的实现方式中，所述第二训练集中的至少一组所述样本对话信息包含第一样本输出信息；

所述第一生成器训练模块，还用于，

将所述第一样本输出信息，输入所述第一生成器中的第一编码网络，获得第一输出特征值；

基于所述第一输出特征值，输入所述第一生成器中的第一解码网络，获得第一预测输出信息；

基于所述第一样本输出信息以及所述第一预测输出信息，对所述第一生成器进行更新。

又一方面，提供了一种对话信息获取装置，所述装置包括：

第三对话获取模块，用于获取第三对话信息；

第四对话获取模块，用于基于所述第三对话信息，通过第一对话模型进行数据处理，获得所述第一对话模型输出的第四对话信息；

再一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的对话信息获取方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的对话信息获取方法。

又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述对话信息获取方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过对抗学习同时训练生成器与判别器，使得判别器对一组对话信息之间的匹配度具有较高的识别能力，训练好的判别器可以对输入第一对话模型的第一对话信息，以及第一对话模型输出的第二对话信息之间的匹配度进行检测，并将第一对话信息与第二对话信息之间的匹配度，作为强化学习中的奖励值，对第一对话模型进行参数更新，即每一轮对话都可以获得该轮对话对应的奖励值，提高了奖励值产生的密度，从而提高了通过强化学习训练得到的第一对话模型的训练效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种对话信息获取系统的结构示意图；

图2是根据一示例性实施例示出的一种对话信息获取方法的流程示意图；

图3是根据一示例性实施例示出的一种对话信息获取方法的流程示意图；

图4是根据一示例性实施例示出的一种对话信息获取方法的流程示意图；

图5示出了图4所示实施例涉及的一种第一生成器结构示意图；

图6示出了图4所示实施例涉及的一种对抗学习的模型示意图；

图7是根据一示例性实施例示出的一种对话信息获取方法的流程框图；

图8是根据一示例性实施例示出的一种对话信息获取装置的结构方框图；

图9是根据一示例性实施例示出的一种对话信息获取装置的结构方框图；

图10是根据一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍：

1)AI(Artificial Intelligence，人工智能)

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)NLP(Nature Language Processing，自然语言处理)

NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

3)ML(Machine Learning，机器学习)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

4)RL(Reinforcement Learning，强化学习)

强化学习，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的常见模型是标准的马尔可夫决策过程(MarkovDecision Process，MDP)。按给定条件，强化学习可分为基于模式的强化学习(model-basedRL)和无模式强化学习(model-free RL)，以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。深度学习模型可以在强化学习中得到使用，形成深度强化学习。

5)对抗学习

对抗学习一般指的是生成GANs(Generative Adversarial Networks，对抗网络)。对抗网络是通过模拟一种数据概率分布的生成器，使得概率分布与观测数据的概率统计分布一致或者尽可能接近。这个过程设计纳什均衡中的博弈机制，具体包括在训练中，判别模型尽可能提取特征正确率增加的米晓鸥，生成模型尽可能“伪造”让判别模型以为是真的结果。进一步的，对抗学习中包括条件生成对抗网络、深度卷积对抗网络等等，以解决对抗学习稳定性不高、训练数据还原度及质量水平等问题。

图1是根据一示例性实施例示出的一种对话信息获取系统的结构示意图。该系统包括：服务器120以及用户终端140。

服务器120是一台服务器，或者包括若干台服务器，或者是一个虚拟化平台，或者是一个云计算服务中心等，本申请不做限制。

用户终端140可以是具有数据处理功能的终端设备，比如，用户终端可以是手机、平板电脑、膝上型便携计算机和台式计算机等等。用户终端140的数量不做限定。

其中，用户终端140中可以安装有客户端，该客户端可以是办公类客户端、即时通信客户端、浏览器客户端、教育客户端等，具有语音输入功能或文字输入功能的客户端。本申请实施例不限定客户端的软件类型。

可选的，用户可以通过用户终端140中的客户端中的文字输入软件输入文字信息。

可选的，用户还可以通过用户终端140中的语音获取组件，通过语音的方式输入语音信息，用户终端140调用相应的语音识别功能，将用户输入的语音信息转换为文字信息。

可选的，该语音识别功能可以是该用户终端140调用该用户终端140中的语音识别模块实现的。

可选的，该语音识别功能可以是用户终端140调用该客户端对应的服务器中的语音识别模块实现的。

用户终端140与服务器120之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，该系统还可以包括管理设备(图1未示出)，该管理设备与服务器120之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于LAN(Local Area Network，局域网)、MAN(Metropolitan Area Network，城域网)、WAN(Wide Area Network，广域网)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括HTML(Hyper Text Mark-up Language，超文本标记语言)、XML(Extensible Markup Language，可扩展标记语言)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如SSL(Secure Socket Layer，安全套接字层)、TLS(Transport Layer Security，传输层安全)、VPN(Virtual Private Network，虚拟专用网络)、IPsec(Internet ProtocolSecurity，网际协议安全)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

可选的，本申请实施例涉及的系统可以是由客户端、多个节点(接入网络中的任意形式的计算设备，如服务器、终端)通过网络通信的形式连接形成的分布式系统。

可选的，该分布式系统可以是区块链系统。

可选的，如本申请所公开的对话信息获取方法，其中该对话信息获取方法中涉及到的数据均可保存于上述区块链系统上。

图2是根据一示例性实施例示出的一种对话信息获取方法的流程示意图。该方法可以由计算机设备执行，该计算机设备可以是服务器，其中，该服务器可以是上述图1所示的实施例中的服务器120。如图2所示，该对话信息获取方法可以包括如下步骤：

步骤21，获取第一对话信息。

可选的，该第一对话信息是预先存储在服务器中的数据存储组件中的。

可选的，该第一对话信息是通过服务器对应的终端设备上传的文本数据。

可选的，该第一对话信息是通过服务器对应的终端设备直接上传的语言文本信息。

在一种可能的实现方式中，服务器获取该终端设备上传的第一语音信息，通过语音识别模块对该第一语音信息进行识别，获得该第一语音信息对应的第一对话信息。

步骤22，基于该第一对话信息，通过第一对话模型进行数据处理，获得第二对话信息。

其中，该第一对话信息和该第二对话信息构成一轮对话。

可选的，该第一对话信息与该第二对话信息，构成多轮对话中的一轮对话。

在任务导向型对话系统中，当对话模型接收到输入的对话信息后，可以根据输入的对话信息(例如第一对话信息)生成反馈信息(例如第二对话信息)并返回，此时第一对话信息与第二对话信息构成一轮对话，但在任务导向型对话系统中，通常一轮对话并不能达到帮助用户完成具体实际的任务的效果，因此该对话模型可能在完成该一轮对话后接受到新的第一对话信息，此时对话模型再根据输入的新的第一对话信息，生成新的第二对话信息并返回，此时新的第一对话信息与新的第二对话信息也构成一轮对话。即一轮对话是由输入的对话信息，以及对话模型根据该输入的对话信息所生成的对话信息构成的。

可选的，该第一对话模型是用于根据输入的第一对话信息，生成与该第一对话信息对应的第二对话信息的神经网络模型。

可选的，该第一对话模型可以用于根据输入的对话信息生成多轮对话。该多轮对话中的时序靠前的一轮对话，可以对时序靠后的一轮对话造成影响；相应的，时序靠后的一轮对话中，对话模型接收到对话信息后生成的对话信息，可以受到时序靠前的一轮对话的影响。

步骤23，基于该第一对话信息以及该第二对话信息，通过第一判别器进行数据处理，获得第一置信分数。

其中，该第一置信分数用于指示该第二对话信息与该第一对话信息之间的匹配程度；该第一判别器是根据第一训练集中的至少一组样本对话信息以及第一生成器生成的至少一组模拟对话信息，通过对抗学习的方式训练后得到的。

在一种可能的实现方式中，该第一判别器可以是通过对抗学习方式，与第一生成器共同训练得到的。

可选的，该第一判别器可以用于指示该输入的第一对话信息与第二对话信息的置信程度，由于该第二对话信息是第一对话模型接收到第一对话信息后生成的，对应第二对话信息的反馈信息，因此该第一对话信息与该第二对话信息的置信分数即指示该第二对话信息与该第一对话信息的匹配程度。

步骤24，基于该第一置信分数，对该第一对话模型进行参数更新。

其中，训练后的该第一对话模型用于基于输入的第三对话信息，获取第四对话信息。

上述第一对话模型的训练过程中，对于每一个输入的对话信息，第一对话模型根据输入的对话信息生成输出的对话信息时，都会基于该第一判别器，生成该输入对话信息以及输出对话信息之间的置信分数，并根据该置信分数对该第一对话模型进行参数更新，也就是说，在多轮对话场景下，该第一对话模型对于每一轮对话都会生成一个对应的置信分数，因此该第一对话模型的参数更新过程，考虑了多轮对话下的每一轮对话的匹配程度，提高了每一轮对话的正确与否对第一对话模型更新的影响，提高了更新后的第一对话模型的对话信息获取准确性。

并且在多轮对话场景下，由于不同轮数的对话可能涉及到不同领域之间的对话内容，在强化学习过程中，通过完成一次多轮对话后再对模型进行更新时，无法考虑到不同领域的对话之间的差异，而通过本申请实施例所示方案，由于每一轮对话都会生成对应的置信分数，以便对第一对话模型进行更新，因此第一对话模型的更新过程中，可以考虑到不同领域的对话信息的差异，提高了更新后的第一对话模型在多轮对话场景下的对话信息获取准确性。

综上所述，在本申请实施例所示的方案中，通过对抗学习同时训练生成器与判别器，使得判别器对一组对话信息之间的匹配度具有较高的识别能力，训练好的判别器可以对输入第一对话模型的第一对话信息，以及第一对话模型输出的第二对话信息之间的匹配度进行检测，并将第一对话信息与第二对话信息之间的匹配度，作为强化学习中的奖励值，对第一对话模型进行参数更新，即每一轮对话都可以获得该轮对话对应的奖励值，提高了奖励值产生的密度，从而提高了通过强化学习训练得到的第一对话模型的训练效率。

图3是根据一示例性实施例示出的一种对话信息获取方法的流程示意图。该方法可以由计算机设备执行，该计算机设备可以是服务器，其中，该服务器可以是上述图1所示的实施例中的服务器120。如图3所示，该对话信息获取方法可以包括如下步骤：

步骤31，获取第三对话信息。

可选的，该第三对话信息是通过服务器对应的终端设备上传的文本数据。

可选的，该第三对话信息是通过服务器对应的终端设备直接上传的语言文本信息。

在一种可能的实现方式中，服务器获取该终端设备上传的第二语音信息，通过语音识别模块对该第二语音信息进行识别，获得该第二语音信息对应的第三对话信息。

步骤32，基于该第三对话信息，通过第一对话模型进行数据处理，获得该第一对话模型输出的第四对话信息。

其中，该第三对话信息与该第四对话信息构成一轮对话。

可选的，该第三对话信息与该第四对话信息构成多轮对话中的一轮对话。

在任务导向型对话系统中，当对话模型接收到输入的对话信息后，可以根据输入的对话信息(例如第三对话信息)生成反馈信息(例如第四对话信息)并返回，此时第三对话信息与第四对话信息构成一轮对话，但在任务导向型对话系统中，通常一轮对话并不能达到帮助用户完成具体实际的任务的效果，因此该对话模型可能在完成该一轮对话后接受到新的第三对话信息，此时对话模型再根据输入的新的第三对话信息，生成新的第四对话信息并返回，此时新的第一对话信息与新的第四对话信息也构成一轮对话。即一轮对话是由输入的对话信息，以及对话模型根据该输入的对话信息所生成的对话信息构成的。

其中，该第一对话模型是基于第一置信分数，进行参数更新得到的；该第一置信分数是基于第一对话信息以及第二对话信息，通过第一判别器进行数据处理得到的；该第一对话信息和该第二对话信息构成一轮对话；该第一置信分数用于指示该第二对话信息与该第一对话信息之间的匹配程度；该第一判别器是根据第一训练集中的至少一组样本对话信息以及第一生成器生成的至少一组模拟对话信息，通过对抗学习的方式训练后得到的。

综上所述，在本申请实施例提供的技术方案中，通过对抗学习同时训练生成器与判别器，使得判别器对一组对话信息之间的匹配度具有较高的识别能力，训练好的判别器可以对输入第一对话模型的第一对话信息，以及第一对话模型输出的第二对话信息之间的匹配度进行检测，并将第一对话信息与第二对话信息之间的匹配度，作为强化学习中的奖励值，对第一对话模型进行参数更新，即每一轮对话都可以获得该轮对话对应的奖励值，提高了奖励值产生的密度，从而提高了通过强化学习训练得到的第一对话模型的训练效率。

图4是根据一示例性实施例示出的一种对话信息获取方法的流程示意图。该方法可以由计算机设备执行，该计算机设备可以是服务器，其中，该服务器可以是上述图1所示的实施例中的服务器120。如图4所示，该对话信息获取方法的流程可以包括如下步骤：

步骤401，获取第二训练集。

其中，该第二训练集中包含至少一组该样本对话信息。

可选的，第二训练集中的一组对话样本信息中包含样本输入信息以及样本输出信息。该样本输入信息是一轮对话中用户输入的信息；该样本输出信息可以是与该样本输入信息对应的反馈信息。

步骤402，基于该第二训练集中的至少一组该样本对话信息，对该第一生成器进行参数更新。

在一种可能的实现方式中，该第一生成器包含第一编码网络与第一解码网络。

该第一编码网络用于根据输入的样本对话信息，生成对应的特征向量；该第一解码网络用于根据特征向量，输出对应的预测对话信息。

在一种可能的实现方式中红，该第一编码网络与该第一解码网络均为多层神经网络。

在一种可能的实现方式中，该第二训练集中的至少一组该样本对话信息包含第一样本输入信息；将该第一样本输入信息，输入该第一生成器中的第一编码网络，获得第一输入特征值；基于该第一输入特征值，输入该第一生成器中的第一解码网络，获得第一预测输入信息；基于该第一样本输入信息以及该第一预测输入信息，对该第一生成器进行更新。

当第二训练集中的至少一组样本对话信息中包含第一样本输入信息时，可以将该第一样本输入信息输入该第一编码网络，获得第一输入特征值，再通过第一解码网络，将该第一输入特征值解码为对应的第一预测输入信息，再根据第一预测输入信息与第一样本输入信息之间的差值，对第一生成器进行更新，更新后的第一生成器中的第一解码网络，可以通过模拟出的，与第一输入特征值相类似的特征值，实现生成模拟输入信息。

在一种可能的实现方式中，基于该第一样本输入信息，以及该第一预测输入信息，获取第一生成损失函数值；基于该第一生成损失函数值，对该第一生成器进行更新。

例如，当获取到该第一样本输入信息对应的第一预测输入信息时，可以根据该第一样本输入信息的特征值与该第一预测输入信息的特征值，通过损失函数(例如交叉熵损失函数)，确定该第一生成损失函数值，并通过反向传播算法等方式对该第一生成器中的神经网络参数进行更新。

在一种可能的实现方式中，该第二训练集中的至少一组该样本对话信息包含第一样本输出信息；将该第一样本输入信息，输入该第一生成器中的第一编码网络，获得第一输出特征值；基于该第一输出特征值，输入该第一生成器中的第一解码网络，获得第一预测输出信息；基于该第一样本输出信息以及该第一预测输出信息，对该第一生成器进行更新。

当第二训练集中的至少一组样本对话信息中包含第一样本输出信息时，可以将该第一样本输出信息输入该第一编码网络获得第一输出特征值，再通过第一解码网络，将该第一输入特征值解码为对应的第一预测输出信息，再根据第一预测输出信息与该第一样本输出信息之间的差值，对第一生成器进行更新，更新后的第一生成器中的第一解码网络，可以通过模拟出的，与第一输出特征值相类似的特征值，实现生成模拟输出信息。

在一种可能的实现方式中，基于该第一样本输出信息，以及该第一预测输出信息，获取第二生成损失函数值；基于该第二生成损失函数，对该第一生成器进行更新。

例如，当获取到该第一样本信息对应的第一预测输出信息时，可以根据该第一样本输出信息的特征值与该第一预测输出信息的特征值，通过损失函数，确定该第二生成损失函数值，并通过反向传播算法等方式对该第一生成器中的神经网络参数进行更新。

图5示出了本申请实施例涉及的一种第一生成器结构示意图。如图5中501部分所示，第一生成器中包含第一编码网络以及第一解码网络，当将对话信息输入该第一生成器中的第一编码网络时，该第一编码网络可以将该对话信息进行编码，得到该对话信息对应的特征向量；而后该第一生成器中的第一解码网络，再对该特征向量进行解码操作，获得第一生成器最终输出的预测对话，此时通过预测对话与初始的对话信息，可以对该第一生成器进行参数更新。

当第一生成器更新完成后，如图5中502部分所示，可以随机生成与该对话信息对应的特征向量的类型相同的模拟向量，并将该模拟向量输入该第一生成器中的第一解码网络，以获得该模拟向量对应的模拟对话，从而实现了生成模拟对话的过程。

在一种可能的实现方式中，该第一生成器可以是VAE(VariationalAutoEncoder，变分自编码)模型。VAE模型是一种包含隐变量的生成模型，它利用神经网络训练得到两个函数(也称为推断网络(即第一编码网络)和生成网络(即第一解码网络))，进而生成输入数据中不包含的数据。

在VAE模型训练的时候，loss(损失函数)，如下公式所示。

该损失函数主要由两个部分组成，第一个是重组的损失，也即是从decoder(第一解码网络)重新组装的损失，第二个损失是KL(Kullback-Leibler Divergence，相对熵)散度的损失。VAE的模型本质上是一种生成式模型，其输入为源数据，然后中间层会对其进行重参数而导致其投影到正常的高斯函数上面。而KL散度的目的是在缩小中间变量和高斯函数的差距。公式如下表示，中间的变量用Z_vae来表示，损失函数的前半部分是常见的增强学习的loss，用对数似然来代表这种重构的损失，损失函数的后半部分是KL散度的loss，其主要由两个部分组成，第一个部分是通过s重采样得到的这种高斯分布，第二个部分是正常的高斯分布。

KL的计算公式如下所示，p与q分别代表了两种不同的离散分布。

步骤403，获取该第一训练集。

其中，该第一训练集中包含至少一组该样本对话信息。

可选的，该第一训练集中的至少一组该样本对话信息中，包含第二样本输入信息以及第二样本输出信息。

可选的，该第二样本输入信息与该第二样本输出信息，构成多轮对话中的一轮对话。

其中，该第二样本输出信息用于指示，各个样本输出信息中与该第二样本输入信息对应的标注反馈信息，该第一训练集中的至少一组样本对话信息中，该第二样本输出信息可以作为该第二样本输入信息对应的标注信息。

步骤404，获取该第一生成器生成的至少一组该模拟对话信息。

在一种可能的实现方式中，获取模拟特征值；通过该第一生成器的第一解码网络，对该模拟特征值进行处理，获得至少一组该模拟对话信息。

其中，该模拟特征值可以是随机生成的，与该第一输入特征值以及该第一输出特征值之间的至少一者的类型相同的特征值。

在通过第一生成器生成至少一组模拟对话信息之前，可以先通过第二训练集中的至少一组样本对话信息对第一生成器进行训练，使得训练后的第一生成器中的第一解码网络，可以根据输入的模拟特征值，生成与模拟特征值对应的模拟对话信息。

可选的，该模拟对话信息中包含模拟输入信息以及模拟输出信息。

在一种可能的实现方式中，随机生成与该第一输入特征值类型相同的第一模拟特征值，将该第一模拟输入特征值输入第一解码网络，获取第一模拟输入信息；随机生成与该第一输出特征值类型相同的第一模拟输出特征值，将该第一模拟输出特征值输出第一解码网络，获取第一模拟输出信息。

步骤405，基于该第一训练集中的至少一组该样本对话信息以及至少一组该模拟对话信息，通过第一判别器获取第一置信数据。

其中，该第一置信数据包括至少一组该样本对话信息对应的置信度，以及至少一组该模拟对话信息对应的置信度。

在本申请实施例中，可以采用对抗学习的方式实现第一生成器与该第一判别器的共同训练。其中，第一判别器可以用于作为分类器，训练第一判别器的目标是，使得第一判别器尽可能准确地判别输入的数据是真实数据还是模拟数据；该第一生成器作为模拟数据的生成器，训练第一生成器的目标是，使得第一生成器尽可能地生成判别器无法判断真假的模拟数据。因此，在该对抗学习的过程中，即第一判别器与第一生成器的对抗过程中，第一判别器可以更加准确地学习到真实数据中的特征信息，从而提高第一判别器区别真实数据与虚拟数据的能力；第一生成器同样也可以更加准确的学习到真实数据中的特征信息，从而提高第一生成器生成的模拟数据与真实数据的相似程度。因此在对抗学习的过程中，第一生成器的生成能力，以及第一判别器的判别能力，都会得到不断的提升。

在第一判别器的训练过程中，该第一训练集中的至少一组样本对话信息可以作为该第一判别器训练过程中的真实数据，此时将该第一训练集中的至少一组样本对话信息，输入该第一判别器，可以获得该第一训练集中的至少一组样本对话信息对应的置信度，该第一训练集中的至少一组样本对话信息对应的置信度，即用于指示该第一判别器输出的，该至少一组样本对话信息是真实数据的概率。

在该第一判别器的训练过程中，该第一生成器生成的模拟对话信息，可以作为该对抗学习训练过程中的虚拟数据，此时该第一生成器生成的至少一组模拟对话信息，输入该第一判别器，获得该至少一组模拟对话信息对应的置信度，该至少一组模拟对话信息对应的置信度，用于指示该第一判别器输出的，该至少一组模拟对话信息是真实数据的概率。

在一种可能的实现方式中，将该第一生成器生成的模拟对话信息进行自然语言处理，获得该第一生成器对应的第一生成特征向量；以及对第一训练集中的至少一组样本对话信息进行自然语言处理，获得该第一训练集对应的第一样本特征向量；将该第一生成特征向量输入该第一判别器，获得该第一判别器输出的至少一组模拟对话信息的置信度；将该第一样本特征向量输入该第一判别器，获得该第一判别器输出，该第一训练集中的至少一组模拟对话信息的置信度。即输入该第一判别器的，可以是各个对话信息通过自然语言处理后得到的向量数据。

图6示出了本申请实施例涉及的一种对抗学习的模型示意图。如图6所示，。在本模型当中，有判别器601以及VAE模型结构的生成器602两个部分。从判别器601的角度来讲，判别器的首要任务是去判别数据是来自于真实的样本还是虚构的样本，真实的样本来自于数据集的state-action，而假的样本来自于生成器生成的state-action组合。在真实样本的数据中，我们需要对state进行处理，将其处理成为连续的变量，因为之前的离散的变量对于判别器来说难以学习。针对于这种过程，我们用VAE来学习。而生成器会产生两个部分，第一个是s_sim，第二个是a_sim，第一个部分是用来模仿这种state的分布，第二个是用来模仿action数据的分布。而相对应的s，a是来自于真实数据的，a代表了action不进行处理，而s经过了VAE模型的编码操作。生成器是由MLP网络来构成，判别器也是由MLP网络来构成，并且判别器只有一个数字的输出，在判别器网络的输出层，会有一个sigmoid层来控制其输出在0-1之间。Sigmoid的公式如下，x代表着输入sigmoid层的变量。

步骤406，基于该第一置信数据，对该第一判别器进行参数更新。

其中，该第一置信数据包括至少一组该样本对话信息对应的置信度，以及至少一组该模拟对话信息对应的置信度，因此该第一判别器可以根据该至少一组该样本对话信息对应的置信度、该至少一组该样本对话信息对应的标注(例如为1)以及该至少一组模拟对话信息对应的标注(例如为0)，实现第一判别器的更新。

例如，对于判别器来说，损失函数为GAN损失函数，该损失函数的输入有两个部分，公式如下，公式的前半部分是由假的输入构成，

为假的输入对应的期望分布，

为交叉熵损失，第二个部分是由真的输入来构成的，E_(s,a)～data为真的输入对应的期望分布，

为真实的输入对应的交叉熵损失。

步骤407，基于至少一组该模拟对话信息对应的置信度，对该第一生成器进行参数更新。

当判别器获取到该模拟对话信息对应的置信度后，该第一生成器可以根据该模拟对话信息对应的置信度，进行参数更新。

例如，对于生成器，当生成器是VAE时，VAE会根据一个规则的高斯噪声来采样，进而输出一个假的state-action来交给判别器来打分，然后生成器会利用这个打分来进行训练。在生成器与判别器的联合训练当中，我们会设置一个训练轮数的比例，例如训练十轮判别器之后训练一轮生成器，在实际的效果当中需要多多训练生成器，因为本身捕捉到这种原样本的分布就比较困难，生成器的损失函数可以如下所示。

其中，上述步骤403至步骤407可以循环执行，直至第一判别器和第一生成器都训练至收敛。

在上述对抗学习过程中，需要注意的是，训练过程中的第一判别器与第一生成器，是依次进行更新的，其中，在对第一生成器进行更新的过程中，可以保持第一判别器的参数不变，直至第一生成器收敛；相应的，在对第一判别器进行更新的过程中，可以保持第一生成器的参数不变，直至第一判别器收敛；当第一判别器与第一生成器的训练达到结束条件(例如训练一定轮数，或损失函数值小于等)，停止对该第一判别器与该第一生成器的训练。

步骤408，获取第一对话信息。

在一种可能的实现方式中，上述第一生成器与该第一判别器，通过对抗学习共同训练的过程，可以是离线进行的。也就是在通过该第一判别器实现对第一对话网络产生的一轮对话进行判定之前，可以先通过第一训练集，以及基于第二训练集预训练的第一生成器，先通过对抗学习的方式进行训练，训练好的第一判别器再用于对第一对话模型进行处理，此时训练好的第一判别器由于经过了离线的对抗学习，对于对话的真实性已经有了一定的判别能力，尽可能避免对抗学习可能产生的模型坍塌的情况发生。

步骤409，基于该第一对话信息，获得第一对话信息对应的第一特征向量。

在一种可能的实现方式中，对该第一对话信息进行自然语言处理，获得该第一对话信息对应的第一特征向量。

在一种可能的实现方式中，获取该第一特征向量对应的第一概率分布；该第一概率分布用于指示该第一特征向量中各个向量值对应的信息的置信度。

当通过自然语言处理的方式获取到该第一对话信息对应的第一特征向量时，该第一特征向量中的各个向量值可以对应该第一对话信息中的各个词，在生成该第一特征向量时，还可以获取该第一特征向量对应的第一概率分布，该第一概率分布中的各个概率值分别用于指示该第一特征向量中各个向量值对应的信息的置信度。

在一种可能的实现方式中，该向量值在第一概率分布中对应的各个概率值，分别用于指示该向量值在该第一特征向量中的重要程度。

步骤410，通过该第一对话模型，对该第一特征向量进行数据处理，获得第二特征向量。

在一种可能的实现方式中，基于该第一概率分布，通过该第一对话模型对该第一特征向量进行数据处理，获得第二特征向量。

在一种可能的实现方式中，基于该第一概率分布，以及该第一特征向量，获取该第一特征向量对应的第一热点向量值，通过该第一对话模型，对该第一热点向量值进行数据处理，获得第二特征向量。

其中，该第一热点向量值，是该第一概率分布中，最大的概率值对应的特征向量值。

在每一轮对话当中，每一部分实际上都可以由特征向量来表示，而这个特征向量能够概括当前的对话信息，对当前的对话做出合理的嵌入式表达。其主要由两个部分表示，第一个部分是belief states(置信状态，即第一概率分布)，这个部分主要是当前系统对于各个模块的一种置信度预测，里面包含了各个槽值(即各个向量值)对应的概率数值，第二个部分是由系统、用户行为组成的one hot encoding，在用户以及系统的行为当中，由于数目是固定的，所以很容易构建出这种编码形式。对于这种输入的特征向量，我们用states来表示。

步骤411，基于该第二特征向量，获得该第二对话信息。

在一种可能的实现方式中，该第一对话模型中存在预先设置好的各个对话信息，响应于该第一对话模型生成第二特征向量，在该各个对话信息中获取与该第二特征向量对应的第二对话信息。

此时，该第一对话模型即根据该输入的第一对话信息，在预先设置好的各个对话信息中，选择与该第一对话信息内容匹配度最高的，作为该第二对话信息并输出。

步骤412，通过该第一判别器，对该第一特征向量以及该第二特征向量进行处理，获得该第一置信分数。

其中，该第二特征向量，是该第一对话模型根据该第一特征向量生成的，即第一特征向量是与第一对话信息对应的特征向量，该第二特征向量是与该第二对话信息对应的特征向量，将该第一特征向量与该第二特征向量输入该第一判别器，该第一判别器输出的第一置信分数，可以用于指示该第一对话信息与该第二对话信息之间的匹配程度。

步骤413，基于该第一置信分数，对该第一对话模型进行参数更新。

在一种可能的实现方式中，该第一对话模型可以是LSTM(Long Short-TermMemory，长短期记忆网络)模型。

当通过强化学习的方式对该LSTM模型进行训练时，输入的对话信息可以作为LSTM的state(状态)，该LSTM模型可以根据输入的对话信息，生成输出的对话信息作为LSTM的action(动作)，并根据此时的action更新LSTM的environment(环境)，更新环境后的LSTM接收到state信息时，再生成后续的action。当LSTM的对话达到一定条件时，可以触发奖励函数，给予该LSTM之前完成的动作反馈，并根据奖励函数给出的奖励，对LSTM进行更新。

在一种可能的实现方式中，该第一置信分数是置信分数集合中的置信分数的任意一个；基于该置信分数集合中的各个置信分数，获取该第一对话模型对应的价值函数值；基于该第一对话模型对应的价值函数值，对该第一对话模型进行更新。

此时，当第一对话模型根据第一对话信息生成第二对话信息时，可以将该第一对话信息对应的第一特征向量以及第二对话信息对应的第二特征向量输入第一判别器，并获取该第一判别器生成的置信分数，并根据该置信分数，生成该第一对话信息输入对应的奖励函数，生成该第一对话信息对应的奖励值；此时，第一对话模型训练过程中输入的每一个对话信息，都可以生成一个对应的奖励值，给予该第一对话模型根据输入的对话信息，进行对话信息的输出的行为的反馈。

在一种可能的实现方式中，基于该各个置信分数分别对应的对话顺序，获取该第一对话模型对应的价值函数值。

当该第一置信分数是该置信分数集合中的置信分数中的任意一个，即此时在该第一对话模型的训练过程中，通过第一判别器对多组对话信息进行了判别，并获得了多组对话信息分别对应的置信分数，此时当通过该多组对话信息对应的置信分数进行更新时，可以根据该多组对话信息对应的时序，确定各组对话的奖励值的折扣率，即该多组对话信息中，时序越靠前的对话信息的奖励值越小，使得第一对话模型可以更容易考虑到后续多轮对话的影响，提高了在多轮对话场景下的模型训练效果。

在一种可能的实现方式中，获取第三对话信息；基于该第三对话信息，通过第一对话模型进行数据处理，获得该第一对话模型输出的第四对话信息。

当该第一对话模型训练完成之后，可以将该用户输入的第三对话信息，输入该第一对话模型，获得该第一对话模型输出的第四对话信息并返回给用户，以通过该第一对话模型，实现与用户输入的第三对话信息对应的对话信息的获取。

传统方案和本申请实施例提出的方案进行对比，将会用两个指标来衡量模型的成熟度，如表1所示，第一个指标是最终的成功率，第二个指标是模型收敛所需要的数据数目。

表1

算法	成功率	对话数目
			传统奖励	0.63	1200
奖励函数	0.88	477

从表1的实验结果来看，本申请实施例所示的方案能够使得模型收敛的更快，也能够使得模型最终的效果变好，这在实际运用的过程当中是很有意义的事情。

成功率的测试是基于Simulated User(模仿用户)的形式来测试的，用这种方法来测试，既能够省时间，也能够省资源。而且这种训练是相对有效的。而本次的测试平台是convlab平台，由清华对话系统团队以及美国亚马逊对话系统团队开发。

目前，任务导向型对话变得日益流行，其可以运用在电话客服，手机客服，手机助手当中，可以完成订机票，订酒店等基本任务，大大减少了人力资源的使用。而在任务导向性对话中，工业界主要采取的是一种基于模块化的系统，即把系统划分成常见的五个部分：输入语句预处理，自然语言理解，对话状态追踪，对话管理，对话响应。

本申请集中在对话管理方面，主流的模型都是运用强化学习的手段进行学习，但是如何高效学习数据成为一个难题。强化学习主要分成三个部分，第一部分是环境变量，第二部分是奖励函数，第三部分是系统做出的动作。而传统的方法来说，手动控制的奖励函数，在大量的样本数据中学习非常的低效。

但是只要涉及到强化学习，基本上就会有如下的几个训练问题：1.收敛速度很慢。2.局部最优非全局最优，因为强化学习只会根据当前的状态做出一种动作。3.探索空间庞大，对于对话系统来说，可以做的动作超过了三百种以上，所以对于强化学习在对话系统的应用来说，其探索的计算量过大而导致收敛速度缓慢。

本申请采用逆强化学习的方式来学习强化学习的奖励函数，从而能够更好地、更加迅速的学习到对话管理的知识。而对于逆强化学习来说，我们可以进行一种在线的对抗训练，判别器(reward estimator)与强化学习进行对抗学习。但是这种方法会引入对抗学习到强化学习的训练当中，会带来GAN本身存在的训练问题：模型坍塌。本方案以离线的方式进行一种训练，也就是提前训练好判别器，然后直接运用这个固定的判别器去做奖励估计，从而避免了模型坍塌的问题。

通过本申请实施例所示的方案，可以有效的解决对话模型存在的一些问题：

奖励稀疏性，本方案旨在设计一种奖励模型，该模型能够从数据当中学习到正确的奖励机制，然后在每一轮对话的时候都给出具体的奖励。

学习效率问题，该方案旨在解决传统强化学习学习效果低下的问题，能够起到提速的作用。

多领域问题，在传统的奖励函数当中，无法对领域问题作出一种规划，需要解决这种领域依存性问题。如果设计出的模型能够很好地考虑到领域的环境来输出对应的奖励，是非常有效的。

模型效果，在传统的奖励函数当中，由于奖励所包含的信息不够多，会导致最终的学习效果不佳，而通过引入一种更好的奖励函数，最终的训练成果会提升。

图7是根据一示例性实施例示出的一种对话信息获取方法的流程框图。该对话信息获取方法可以由图1中的服务器120执行，该对话信息获取方法包括以下步骤。

如图7中710部分所示，在第一生成器的训练过程中，将对话信息(即第二训练集中的样本对话信息)输入第一生成器中的第一编码网络，经过第一编码网络编码后，生成与该对话信息对应的特征向量。再将编码后的特征向量输入第一解码网络，获得第一解码网络输出的预测对话(即与样本对话信息对应的预测对话信息)。此时再将对话信息与预测对话输入损失函数，获得损失函数值，并对该第一生成器进行训练。

如图7中720部分所示，当该第一生成器训练好之后，该第一生成器可以用于生成模拟对话(即模拟对话信息)，此时可以根据该第一生成器生成的模拟对话以及第一训练集中的样本对话(即样本对话信息)，输入第一判别器中，获取第一判别器输出的置信数据，其中该置信数据中包含模拟对话信息的置信分数以及该样本对话信息的置信分数，此时可以根据该模拟对话信息的置信分数以及该样本对话信息的置信分数对第一判别器进行更新；或者可以根据该模拟对话信息的置信分数以及该样本对话信息的置信分数对第一生成器进行更新。当该对抗学习过程满足指定条件后，获取训练好的第一判别器，此时该第一判别器可以判定输入的对话信息的可信度。

如图7中730部分所示，当第一判别器训练完成后，可以将该第一判别器作为第一对话模型的奖励函数，获取该第一对话模型每一个action对应的奖励值。例如，当该第一对话信息作为state输入第一对话模型后，第一对话模型对应做出action，即生成对应的第二对话信息，此时该第一对话信息与该第二对话信息作为一组对话信息输入该第一判别器，通过该第一判别器确定该第一对话信息与该第二对话信息的置信分数，即该第一对话信息与该第二对话信息的匹配程度，并将该第一对话信息的置信分数与该第二对话信息的置信分数，作为该第一对话模型生成第二对话信息(action)的reward，以对该第一对话模型进行训练。

如图7中740部分所示，当该第一对话模型训练完成后，可以将用户输入的第三对话信息输入该第一对话模型，以便该第一对话模型对该第三对话信息进行处理，获得对应的第四对话信息返回给用户。

图8是根据一示例性实施例示出的一种对话信息获取装置的结构方框图。该人脸图像数据更新装置可以实现由图2、图3和图4中任一所示实施例提供的方法中的全部或部分步骤，该对话信息获取装置包括：

第一对话获取模块801，用于获取第一对话信息；

第二对话获取模块802，用于基于所述第一对话信息，通过第一对话模型进行数据处理，获得第二对话信息；所述第一对话信息和所述第二对话信息构成一轮对话；

置信分数获取模块803，用于基于所述第一对话信息以及所述第二对话信息，通过第一判别器进行数据处理，获得第一置信分数；所述第一置信分数用于指示所述第二对话信息与所述第一对话信息之间的匹配程度；所述第一判别器是根据第一训练集中的至少一组样本对话信息以及第一生成器生成的至少一组模拟对话信息，通过对抗学习的方式训练后得到的；

模型参数更新模块804，用于基于所述第一置信分数，对所述第一对话模型进行参数更新；

在一种可能的实现方式中，所述装置还包括：

第一向量获取模块，用于基于所述第一对话信息，获得第一对话信息对应的第一特征向量；

所述第二对话获取模块802，包括：

所述置信分数获取模块803，还用于，

在一种可能的实现方式中，所述装置还包括：

所述第一向量处理单元，还用于，

在一种可能的实现方式中，所述模型参数更新模块804，包括：

所述价值函数值获取单元，还用于，

在一种可能的实现方式中，所述装置还包括：

所述第一生成器训练模块，还用于，

图9是根据一示例性实施例示出的一种对话信息获取装置的结构方框图。该人脸图像数据更新装置可以实现由图2、图3和图4中任一所示实施例提供的方法中的全部或部分步骤，该对话信息获取装置包括：

第三对话获取模块901，用于获取第三对话信息；

第四对话获取模块902，用于基于所述第三对话信息，通过第一对话模型进行数据处理，获得所述第一对话模型输出的第四对话信息；

图10是根据一示例性实施例示出的一种计算机设备的结构示意图。该计算机设备可以实现为上述各个方法实施例中的模型训练设备和/或信号处理设备。所述计算机设备1000包括中央处理单元(CPU，Central Processing Unit)1001、包括随机存取存储器(Random Access Memory，RAM)1002和只读存储器(Read-Only Memory，ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘或者光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、闪存或其他固态存储其技术，CD-ROM、或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1001通过执行该一个或一个以上程序来实现图2、图3或图4任一所示的方法的全部或者部分步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法。例如，所述非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例所示的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种对话信息获取方法，其特征在于，所述方法包括：

获取第一对话信息；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一对话信息，通过第一对话模型进行数据处理，获得第二对话信息之前，还包括：

基于所述第一对话信息，获得所述第一对话信息对应的第一特征向量；

所述基于所述第一对话信息，通过第一对话模型进行数据处理，获得第二对话信息，包括：

通过所述第一对话模型，对所述第一特征向量进行数据处理，获得第二特征向量；

基于所述第二特征向量，获得所述第二对话信息；

所述基于所述第一对话信息以及所述第二对话信息，通过第一判别器进行数据处理，获得第一置信分数，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于所述第一对话信息，获取所述第一特征向量对应的第一概率分布；所述第一概率分布用于指示所述第一特征向量中各个向量值对应的信息的置信度；

所述通过所述第一对话模型，对所述第一特征向量进行数据处理，获得第二特征向量，包括：

4.根据权利要求1至3任一所述的方法，其特征在于，所述基于所述第一置信分数，对所述第一对话模型进行参数更新，包括：

基于所述第一置信分数，获取所述第一对话模型对应的价值函数值；

基于所述第一对话模型对应的价值函数值，对所述第一对话模型进行参数更新。

5.根据权利要求4所述的方法，其特征在于，所述第一置信分数是置信分数集合中的置信分数的任意一个；

所述基于所述第一置信分数，获取所述第一对话模型对应的价值函数值，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述置信分数集合中的各个置信分数，获取所述第一对话模型对应的价值函数值，包括：

基于所述各个置信分数分别对应的对话顺序，获取所述第一对话模型对应的价值函数值。

7.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

获取所述第一训练集；所述第一训练集中包含至少一组所述样本对话信息；

获取所述第一生成器生成的至少一组所述模拟对话信息；

基于所述至少一组所述样本对话信息以及至少一组所述模拟对话信息，通过第一判别器获取第一置信数据；所述第一置信数据包括至少一组所述样本对话信息对应的置信度，以及至少一组所述模拟对话信息对应的置信度；

基于所述第一置信数据，对所述第一判别器进行参数更新；

基于至少一组所述模拟对话信息对应的置信度，对所述第一生成器进行参数更新。

8.根据权利要求7所述的方法，其特征在于，所述获取所述第一生成器生成的至少一组所述模拟对话信息之前，所述方法还包括：

获取第二训练集；所述第二训练集中包含至少一组所述样本对话信息；

基于所述第二训练集中的至少一组所述样本对话信息，对所述第一生成器进行训练。

9.根据权利要求8所述的方法，其特征在于，所述第二训练集中的至少一组所述样本对话信息包含第一样本输入信息；

所述基于所述第二训练集中的至少一组所述样本对话信息，所述第一生成器进行训练，包括：

10.根据权利要求8所述的方法，其特征在于，所述第二训练集中的至少一组所述样本对话信息包含第一样本输出信息；

11.一种对话信息获取方法，其特征在于，所述方法包括：

获取第三对话信息；

12.一种对话信息获取装置，其特征在于，所述装置包括：

第一对话获取模块，用于获取第一对话信息；

13.一种对话信息获取装置，其特征在于，所述装置包括：

第三对话获取模块，用于获取第三对话信息；

14.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的对话信息获取方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的对话信息获取方法。