CN113535911B

CN113535911B - 奖励模型处理方法、电子设备、介质和计算机程序产品

Info

Publication number: CN113535911B
Application number: CN202011407855.8A
Authority: CN
Inventors: 侯政旭; 刘亚飞; 赵瑞辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2024-04-12
Anticipated expiration: 2040-12-03
Also published as: CN113535911A

Abstract

提供了奖励模型处理方法、电子设备、介质和计算机程序产品。处理方法可以包括：获取多轮次样本对话，每轮次样本对话包括样本问句以及对应的样本答句；利用判别器模型构造奖励模型，基于每轮次样本对话，迭代地对生成器模型和判别器模型进行训练，直至两个模型满足预设平衡条件；其中，每轮次样本对话对应于一次训练回合，在每次训练回合中：利用生成器模型基于当前和先前轮次样本对话生成伪样本对话，伪样本对话包括当前轮次样本对话中的样本问句以及对应的预测答句；利用判别器模型基于当前、先前轮次样本对话和伪样本对话生成判别结果；以及基于判别结果调整生成器模型的参数以及基于生成器模型生成的伪样本对话调整判别器模型的参数。

Description

奖励模型处理方法、电子设备、介质和计算机程序产品

技术领域

本公开涉及人工智能技术领域，具体而言，本公开涉及一种任务型对话系统中的奖励模型的处理方法、电子设备以及计算机可读存储介质。

背景技术

随着信息技术的发展，互联网技术随之发展，用户经常需要通过互联网查询各种信息，以获得相应的答案，因此，任务导向型对话系统(也称为任务型对话系统)变得日益流行，其是一种可以完成人类要求的具体任务的对话系统，在实际当中有着非常广泛的应用，能够完成人类的基本所需，例如订机票、酒店等等，这大大减少了人力资源的使用。

在任务导向型对话中，主要是通过强化学习模型来针对用户输入预测输出，而对于强化学习模型需要根据奖励模型进行训练。当前基于强化学习的对话系统需要人工精心设计的奖励模型，强化学习所需要的训练时间长，训练步数多，并且还存在奖励稀疏的问题。此外，随着对系统处理跨多个领域的复杂目标的需求不断增长，处理现实任务的复杂性对于这种人工设计的奖励模型而言是无法承受的，从而影响强化学习的学习效果以及模型预测的准确率，进而使得基于强化学习的对话系统的用户体验度不佳。

因此，需要一种提升基于强化学习的学习效果以及模型预测的准确率的方法。

发明内容

本公开为了解决现有的用于任务型对话系统的强化学习模型中的上述问题，提出了一种能够提升基于强化学习的学习效果以及模型预测的准确率的方法，更具体地，提供了一种任务型对话系统中的奖励模型的处理方法、电子设备以及计算机可读存储介质。

根据本公开的一方面，提供了一种任务型对话系统中的奖励模型的处理方法，包括：获取多轮次样本对话，每轮次样本对话包括样本问句以及对应的样本答句；以及利用判别器模型构造所述奖励模型，基于所述多轮次样本对话中的每轮次样本对话，迭代地对生成器模型和判别器模型进行训练，直至所述生成器模型和所述判别器模型满足预设平衡条件；其中，每轮次样本对话对应于一次训练回合，在每次训练回合中，利用所述生成器模型基于当前轮次样本对话和当前轮次之前的先前轮次样本对话生成伪样本对话，所述伪样本对话包括所述当前轮次样本对话中的样本问句以及对应的预测答句；利用所述判别器模型基于所述当前轮次样本对话、先前轮次样本对话和所述伪样本对话生成对所述伪样本对话的判别结果；以及基于所述判别结果调整所述生成器模型的参数以及基于生成器模型生成的伪样本对话调整所述判别器模型的参数。

根据本公开的实施例，其中，所述样本对话被编码为具有状态和动作的特征表示，其中状态与指示所述样本问句填充到各个预设语义槽的槽值的概率的置信度相关并且所述动作与所述样本答句所涉及的行为相关。

根据本公开的实施例，其中，利用生成器模型基于当前轮次样本对话和用于先前训练回合的样本对话生成伪样本对话，包括：对于所述先前轮次样本对话中的第一轮次对话，对所述第一轮次对话的特征表示进行特征提取，以得到所述第一轮次对话的特征向量；对于所述先前轮次样本对话中的其他每一轮次对话，对所述轮次对话的特征表示和前一轮次对话的特征向量进行特征提取，以得到综合特征向量，作为所述轮次对话的特征向量；以及基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述当前轮次样本对话的特征表示中的样本问句对应的状态，生成与所述当前轮次样本对话的样本问句的状态对应的预测动作，基于所述预测动作生成第一预测答句，并且将所述样本问句以及所述预测答句作为伪样本对话。

根据本公开的实施例，其中，利用判别器模型基于所述当前轮次样本对话、先前轮次样本对话和所述伪样本对话生成对所述伪样本对话的判别结果，包括：对于所述先前轮次样本对话中的第一轮次对话，对所述第一轮次对话的特征表示进行特征提取，以得到所述第一轮次对话的特征向量；对于所述先前轮次样本对话中的其他每一轮次对话，对所述轮次对话的特征表示和前一轮次对话的特征向量进行特征提取，以得到综合特征向量，作为所述轮次对话的特征向量；以及基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述当前轮次样本对话的特征表示，生成第一特征向量；基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述伪样本对话的特征表示，生成第二特征向量；基于所述第一特征向量和所述第二特征向量确定所述伪样本对话为真的概率，作为判别结果。

根据本公开的实施例，基于所述判别结果调整所述生成器模型的参数包括：在每次训练回合中，固定所述判别器模型的参数；以及迭代地执行以下操作，直至所述伪样本对话满足预设条件：根据所述判别器模型生成的判别结果以及所述当前轮次样本对话与所述伪样本对话的差异，调整所述生成器模型的参数以生成更新生成器模型；利用所述更新生成器模型基于所述当前轮次样本对话和所述先前轮次样本对话生成更新的伪样本对话；利用所述判别器模型基于所述当前轮次样本对话、所述先前轮次样本对话以及所述更新的伪样本对话生成更新的判别结果。

根据本公开的实施例，其中，所述预设条件包括：所述生成器模型生成的伪样本对话与所述当前轮次样本对话的差异在阈值范围内。

根据本公开的实施例，其中，所述当前轮次样本对话与所述伪样本对话的差异通过以下方式获得：基于所述当前样本对话生成第一数据分布；基于所述伪样本对话生成第二数据分布；以及确定所述第一数据分布与所述第二数据分布的差异，作为所述当前轮次样本对话与所述伪样本对话的差异。

根据本公开的实施例，其中，基于所述生成器模型生成的伪样本对话调整所述判别器模型的参数，包括：在每次训练回合中：固定生成器模型的参数；利用所述生成器模型生成多个伪样本对话，并将所述多个伪样本对话加入对话样本集中；利用交叉熵损失函数针对所述对话样本集中的各个样本对话计算所述判别器模型的损失；将针对各个样本对话所述判别器模型的各个损失进行求和；以及基于所述求和调整所述判别器模型的参数，使得所述求和最小。

根据本公开的实施例，其中，所述预设平衡条件包括：基于预设次数的迭代训练后所述生成器模型及所述判别器模型随着训练次数的增加而收敛。

根据本公开的实施例，其中，利用训练后的生成器模型构造强化学习模型，其中，所述强化学习模型接收待回答问句，并且所述强化学习模型基于所述奖励模型提供的奖励来基于待回答问句产生预测动作，以基于所述预测动作生成与待回答问句对应的答句。

根据本公开的实施例，所述方法还包括：在强化学习模型基于待回答问句产生预测动作的过程中，更新用于训练的对话样本集，所述更新包括：获取与所述待回答问句相关的状态对应的专家动作；将所述专家动作与所述预测动作进行比较；在所述专家动作与所述预测动作的接近度大于第一阈值时，基于所述待回答问句以及基于所述预测动作生成的答句生成新的样本对话，以及在所述专家动作与所述预测动作的接近度小于第二阈值时，基于所述待回答问句以及基于所述预测动作生成的答句生成新的伪样本对话，用于奖励模型的训练，其中，所述第二阈值小于第一阈值。

根据本公开的实施例，其中，所述特征表示还具有指示对话的所属领域的信息。

本公开的实施例还提供了一种任务型对话系统中的奖励模型的处理装置，该处理装置包括：获取模块和训练模块。获取模块用于获取多轮次样本对话，每轮次样本对话包括样本问句以及对应的样本答句，训练模块用于利用判别器模型构造奖励模型，基于多轮次样本对话中的每轮次样本对话，迭代地对生成器模型和判别器模型进行训练，直至生成器模型和判别器模型满足预设平衡条件。训练模块可以包括第一生成子模块、第二生成子模块以及调整子模块。第一生成子模块用于利用所述生成器模型基于当前轮次样本对话和用于先前训练回合的样本对话生成伪样本对话，其中所述伪样本对话包括当前轮次样本对话中的样本问句以及对应的预测答句。第二生成子模块用于利用判别器模型基于当前轮次样本对话、先前轮次样本对话和伪样本对话生成对伪样本对话的判别结果。调整子模块用于调整判别器模型的参数以及生成器模型的参数。

根据本公开的实施例，处理装置还可以包括编码模块，用于将样本对话编码为具有状态和动作的特征表示，其中状态与指示样本问句填充到各个预设语义槽的槽值的概率的置信度相关并且动作与样本答句所涉及的行为相关。可选地，特征表示还可以包括指示对话的所属领域的信息，因此该特征表示也可以用于训练奖励模型，从而该奖励模型在向强化学习模型提供奖励的时候还会考虑到领域的信息，因此基于这样的奖励训练得到的强化学习模型的准确性更高。

可选地，处理装置还可以包括更新模块，用于在训练后的强化学习模型基于待回答问句产生预测动作的过程中，更新用于训练的对话样本集，所述更新包括：获取与所述待回答问句相关的状态对应的专家动作；将所述专家动作与所述预测动作进行比较；在所述专家动作与所述预测动作的接近度大于第一阈值时，基于所述待回答问句以及基于所述预测动作生成的答句生成新的样本对话，以及在所述专家动作与所述预测动作的接近度小于第二阈值时，基于所述待回答问句以及基于所述预测动作生成的答句生成新的伪样本对话，用于奖励模型的训练，其中，所述第二阈值小于第一阈值。

本公开的实施例还提供了一种电子设备，包括：处理器；和存储器，其上存储有计算机程序，所述计算机程序在由所述处理器执行时，使得所述处理器执行如上所述的任务型对话系统中的奖励模型的处理方法。

本公开的实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时用于实现如上所述的任务型对话系统中的奖励模型的处理方法。

本公开的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序在由处理器执行时使得所述处理器实现根据本公开实施例的任务型对话系统中的奖励模型的处理方法。

基于本公开的实施例提供的话系统中奖励模型的处理方法、电子设备、计算机可读存储介质、计算机程序产品或计算机程序，可以实现以下的有益效果：

第一，通过基于生成式对抗网络来训练用于强化学习的奖励模型，能够在每一轮次对话的时候都给出具体的奖励，从而解决了现有的奖励稀疏、学习效率低下的问题，提高了训练的速度；

第二，由于训练后的生成器模型作为强化学习模型能够生成与真实的样本对话类似的样本对话，因此可以扩充训练数据库；

第三，每一轮次的训练时，提取的特征向量包括先前的所有轮次的对话，因此使得得到的奖励模型可以融合每一轮次样本对话的特征向量，即可以融合每一轮次对话中针对样本问句选择样本答句的概率，从而得到的奖励模型更具有参考价值，使得最终训练得到的强化学习模型的预测准确率更高；

第四，通过将指示领域的信息包括在对话的特征表示中，从而领域也作为训练模型的一个属性，进而解决领域依存性问题，因此训练后的奖励模型能够很好地考虑到领域的环境来输出对应的奖励，进一步提高奖励模型的适用性，以使训练后的强化学习模型的准确率进一步提高。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。下面描述中的附图仅仅是本公开的示例性实施例。

图1A为一种任务型对话系统的场景示意图；

图1B为本公开实施例提供的一种任务型对话系统中的奖励模型的处理方法的流程示意图；

图2为本公开实施例提供的一种任务型对话系统中的奖励模型的处理方法的部分子步骤的流程示意图；

图3为图2所描述的子步骤的示例图；

图4为本公开实施例提供的一种任务型对话系统中的奖励模型的处理方法的部分子步骤的流程示意图；

图5A-图5B为图4所描述的子步骤的示例图；

图6为本公开实施例提供的一种任务型对话系统中的奖励模型的处理方法的部分子步骤的流程示意图；

图7为本公开实施例提供的一种任务型对话系统中的奖励模型的处理方法的部分子步骤的流程示意图；

图8示出了本公开实施例提供的模型更新的方法的流程示意图；

图9为本公开实施例提供的一种任务型对话系统中的奖励模型的处理装置的示意框图；以及

图10为本公开实施例提供的一种用于对话的电子设备的结构示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

在本说明书和附图中，具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。同时，在本公开的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。强化学习是机器学习的一个领域，它注重的是软件主体在一个环境中应该如何进行行动从而达到最大化累积奖励的想法。强化学习被认为是与监督学习和非监督学习并列的三种机器学习范式之一。

为了使本公开更清楚，首先介绍在本公开使用的部分术语或缩略词的解释。

任务导向型对话：这种对话可以用来完成一定的具体任务。

奖励模型：奖励模型存在于强化学习中，属于强化学习下的一个参量。

对话管理(DM)：用于对话管理部分，模型能够根据当前状态做出相应的动作。

置信度：属于对话系统内部的一个参量，其主要代表了目前的对话状态，属于机器对于目前对话状态的一种概率假设。

GAN：生成式对抗网络。

生成器：GAN网络中的生成器。

判别器：GAN网络中的判别器。

GRU：一种能够捕捉到时序信息的、可用于特征提取的网络结构。

目前，任务导向型对话变得日益流行，其可以运用在电话客服、手机客服、手机助手当中，可以完成订机票、订酒店等基本任务型操作，大大减少了人力资源的使用。任务导向型对话是指由任务驱动的多轮对话，机器需要通过理解、主动询问、澄清等方式来确定用户的目标，经过内部处理后返回正确结果，完成用户需求。通常，任务型对话可以被理解为一个序列决策过程，机器需要在对话过程中，通过理解用户语句更新维护内部的对话状态，再根据当前的对话状态选择下一步的最优动作，从而完成任务。图1A示出的就是一种订餐场景的任务导向型对话。而在任务导向型对话当中，通常主要采取的是一种基于模块化的系统，既可以把系统划分成常见的四个模块，主要包括自然语言理解、对话状态追踪、对话管理、系统输出。对话管理系统起到了核心的作用，它能够对目前的状态进行管理，并且做出相应的动作。

本公开集中在对话管理方面，主流的用于对话管理的模型都是运用强化学习的手段进行学习。强化学习主要包含四个元素，第一个是智能体(Agent)，第二个是环境状态(State)，第三个是智能体做出的动作(Action)，第四个是奖励函数(Reward)。通常可以将计算机认为是智能体，它试图通过采取行动来操纵环境使其从一个环境状态转变到另一个环境状态，当它完成任务时给高分(奖励)，但是当他没完成任务时，给低分(无奖励)。这也是强化学习的核心思想。所以强化学习具有分数导向性。

如前面所述，传统的方法中采用的是人工设计的奖励模型。

例如，目前的使用的人工设计的奖励模型极其自动便捷，也是效果不好的一种。主要机制是根据对话的对话轮次数以及对话状态的成功来设计出奖励的函数。如以下的公式所示，当对话失败的时候，奖励模型是第一个，当任务成功的时候，奖励模型是第二个，Score是人为设定的任务成功后系统给出的分数，N是对话轮次数。

这种奖励函数能够充分的概括当前的对话是否成功，即在该对话回合的所有轮次的对话结束后给予奖励，但是这无法准确地描述在每一轮次的过程中哪些是正确的动作，哪些是错误的动作，从而无法给强化学习提供一个正确的反馈。而这种传统意义上的奖励模型，是具有奖励稀疏性质的，只在最后才给系统提供合适的奖励，因此会让系统学习效率低下。

在另外一个方面，单纯的靠轮次数来进行一种判断也是不够的，因为在正常的对话过程当中，很可能会发生如下的情况，用户已经订完酒店，但是用户还需要对酒店的信息进行一种查询，这个时候机器需要对这种查询做出回应，例如回应详细的地址信息或者是详细的电话信息等等。其实在这个查询的时候也是一种正常的对话，但是传统意义上的奖励模型会把轮次数量也考虑进去，从而对系统造成了不利的影响。

最后一个方面，在涉及到多领域问题的时候，传统的奖励模型是不理想的，因为只要是多领域，用户很可能要问更多的问题，要做更多的事情，如果仅仅根据轮次数来判定他是否是成功的将会影响模型的学习效果。

因此，本公开提供了一种任务型对话系统中的奖励模型的训练方案，其基于GAN的原理，能够提升基于强化学习的学习效果以及模型预测的准确率。

以下将详细描述根据本公开实施例的任务型对话系统中的奖励模型的训练方案。

图1A为本公开实施例的一种任务型对话系统的场景示意图。

图1A中示出了用户102与终端设备104的对话的场景图。在该对话场景中，用户102想要购买一杯拿铁咖啡。

终端设备104接收到用户102输入的语句(120,130)之后，并基于问句确定对应的答句(126,132),从而完成与用户的交互。该终端设备可以设置于商家处用于自助点餐。

此外，终端设备104在接收到用户102输入的语句(120,130)之后，可以将语句转发至服务器(未示出)，以由服务器基于问句确定对应的目标答句(126,132)，并返回至终端以向客户呈现。

终端设备104或服务器在接收到用户输入的语句(134)并且结合对话上下文信息可知该对话已经结束，从而该次点餐任务结束。

可以理解的是，图1A表示的是一个示例中的应用场景，并不对本申请的对话方法的应用场景进行限定。

图1B为本公开实施例提供的一种任务型对话系统中的奖励模型的处理方法100的流程示意图。

如图1B所示，在步骤S110中，获取多轮次样本对话，每轮次样本对话包括样本问句以及对应的样本答句。

可选地，多轮次样本对话可以来自作为专家库的对话样本集。对话样本集中可以包括多个对话样本，一个对话样本对应一个完整的任务型对话回合并且包括多轮次的样本对话。处理方法100可以针对至少一个对话样本。例如，如图1A所示的多轮次对话可以视为一个对话样本。

问句和答句是在对话中形成的对话对，并且问句并不一定是问句的形式，答句也不一定是答复的形式。

例如，多轮次样本对话是一次对话过程/场景中多个依序发生的对话的集合，所述多轮次样本对话包括至少两个轮次的样本对话。再例如，用U(i)表示第i轮次的问句内容，用S(i)表示第i轮次的答句内容，其中i表示轮次序数，i＝1，2，3，…。如U(1)表示第一轮次的问句内容，S(1)表示第一轮次的答句内容，等等。这样，多轮次对话可以表示为：U(1)→S(1)→U(2)→S(2)→U(3)→S(3)→……。

为了便于处理，所述样本对话被编码为具有状态和动作的特征表示，其中状态与指示所述样本问句填充到各个预设语义槽的槽值的概率的置信度相关，并且所述动作与所述样本答句所涉及的行为相关。

例如，可以对样本对话进行编码以用特征向量的形式来表示，作为该样本对话的特征表示。具体的，在每一轮次对话当中，每一部分实际上都可以由特征向量来表示，而这个特征向量能够概括当前轮次的对话信息，对当前的对话做出合理的嵌入式表达。该特征表示主要由两个部分表示，第一个部分是置信度(用状态(s)来指示)，这个部分主要是当前系统对于各个模块(如前面所述的任务导向性系统的四个模块)的一种猜想，该置信度对应于将该样本对话(包括问句和答句)填充到各个预设语义槽的槽值的概率数值，第二个部分是由系统、用户行为(动作(a))组成的独热编码，在用户以及系统的行为当中，由于数目是固定的，所以很容易构建出这种编码形式。基于槽值填充而将样本对话编码为特征表示这个过程是由对话管理中的对话状态跟踪(DST)模块来进行。

在步骤S120中，利用判别器模型构造奖励模型，基于多轮次样本对话中的每轮次样本对话，迭代地对生成器模型和判别器模型进行训练，直至生成器模型和判别器模型满足预设平衡条件；其中，每轮次样本对话对应于一次训练回合，在每次训练回合中：利用生成器模型基于当前轮次样本对话和当前轮次之前的先前轮次样本对话生成伪样本对话，伪样本对话包括当前轮次样本对话中的样本问句以及对应的预测答句；利用判别器模型基于当前轮次样本对话、先前轮次样本对话和伪样本对话生成对伪样本对话的判别结果；以及基于判别结果调整所述生成器模型的参数以及基于生成器模型生成的伪样本对话调整所述判别器模型的参数。

首先，判别器模型和生成器模型为生成式对抗网络(GAN)中的重要组成部分。训练生成器模型生成能够“以假乱真”的伪样本对话，训练判别器模型以使其尽可能地对生成器模型生成的伪样本对话进行判别，因此这是一个对抗的过程。判别器模型和生成器模型可以采用神经网络模型，但是也可以采用其他算法模型，本文以神经网络模型(例如，多层感知器(MLP))为例。

此外，判别器模型和生成器模型在迭代训练之前，需要用现有的对话样本集进行预训练，以得到该判别器模型和生成器模型的初始化参数，以作为将在后文描述的迭代训练的基础。在一些实施例中，在具体训练的时候，对话样本集只有对话成功的对话，这些对话是来自于人与机器的对话，即样本对话。因此，在预训练时，可以先利用对话样本集中的每个对话样本中的多轮次样本对话对生成器模型进行预训练，并且使预训练后的生成器模型生成伪样本对话，然后将对话样本集中的样本对话标记为1，将伪样本对话的对话标记为0，然后将所有对话用来对判别器模型进行有监督训练，从而完成生成器模型和判别器模型的预训练。

在对生成器模型和判别器模型进行迭代训练时，在生成器模型和判别器模型满足预设平衡条件的情况下，可以停止迭代训练。预设平衡条件包括基于预设次数的迭代训练后生成器模型及判别器模型随着训练次数的增加而收敛。例如，经过预设次数的迭代训练后，生成器模型针对各种真样本对话的问句均能够生成与真样本对话的差异在特定阈值内的样本对话，并且判别器模型会有更精确的鉴别真伪数据的能力，例如，最终整个生成式对抗网络(GAN)会达到纳什均衡。并且，由于设置了迭代训练的预设次数，可以保证两个模型经过足够多的训练次数，并且收敛状态的最终确定是可靠的。

下面结合图2对步骤S120中的生成伪样本对话的过程进行进一步的详细介绍。

对于生成器模型，作为强化学习模型基于问句确定对应的反馈动作，每一反馈动作对应设置有答句，从而确定与问句对应的答句。

假设获取了先前进行的多轮次(至少两轮次)对话(称为先前轮次样本对话)，并且将当前轮次的对话称为当前轮次样本对话。步骤S120可以包括以下子步骤。

在步骤S1201，对于先前轮次样本对话中的第一轮次对话，对第一轮次对话的特征表示进行特征提取，以得到第一轮次对话的特征向量。

例如，获取了先前的五轮次的对话，当前第六轮次的对话为所述当前轮次样本对话。对先前的五轮次的对话中的第一轮次的对话进行特征提取，得到该第一轮次对话的特征向量。

在步骤S1202，对于先前轮次样本对话中的其他每一轮次对话，对该轮次对话的特征表示和前一轮次对话的特征向量进行特征提取，以得到综合特征向量，作为该轮次对话的特征向量。

例如，对于前文所述的先前的五轮次的对话，将第二轮次对话的特征表示和第一轮次对话的特征向量进行特征提取，得到综合特征向量，作为第二轮次对话的特征向量，将第三轮次对话的特征表示和第二轮次对话的特征向量进行特征提取，得到综合特征向量，作为第三轮次对话的特征向量，针对第四轮次对话以及第五轮次对话的过程类似。

在步骤S1203，基于当前轮次样本对话的前一个轮次对话的特征向量、当前轮次样本对话的特征表示中的样本问句对应的状态，生成与当前轮次样本对话的样本问句的状态对应的预测动作，基于预测动作生成预测答句，并且将样本问句以及预测答句作为伪样本对话。

例如，对于前文所述的先前的五轮次的对话，基于第五轮次对话的特征向量、第六轮次的对话(当前轮次样本对话)的特征表示中的问句(通过槽值填充转换成状态)，生成与第六轮次的对话的问句相对应的预测动作，基于预测动作生成对应的一个预测答句，并且将该问句以及预测答句作为一个伪样本对话。

下面结合图3对上述图2中的过程进行示例性描述。

例如，可以基于循环神经网络(RNN、LSTM、GRU等)来对对话内容进行特征提取，本文以基于GRU的特征提取网络为例。

如图3所示，获取的对话包括三轮次，每轮次对话用(si，ai)表示，si为问句对应的状态，ai为基于状态生成的动作(基于该动作生成最终的答句)，i为轮次序号，这里为1-3中的一个。

对于第一轮次对话，对第一轮次对话的特征表示(s1，a1)进行特征提取，以得到第一轮次对话的特征向量(V1)。

对于第二轮次对话，对该轮次对话的特征表示(s2，a2)和前一轮次对话的特征向量(V1)进行特征提取，以得到综合特征向量，作为该轮次对话的特征向量(V2)。

然后，基于第二轮次对话的特征向量(V2)、当前轮次的对话的特征表示(s3，a3)中的问句对应的状态s3，生成与问句的状态s3对应的预测动作a3’，基于预测动作a3’生成预测答句，并且将该问句以及预测答句作为伪样本对话。

下面结合图4对步骤S120中的生成判别结果的过程进行进一步的详细介绍。

该过程与生成伪样本对话的过程是对应的，即训练的轮次是相同的。同样地，假设先前已经进行了多轮次(至少两轮次)对话，并且将当前轮次的样本对话称为当前轮次样本对话。

步骤S1211与步骤S1212与图2中的步骤S1201和S1202类似。

在步骤S1211中，对于先前轮次样本对话中的第一轮次对话，对第一轮次对话的特征表示进行特征提取，以得到第一轮次对话的特征向量。

在步骤S1212中，对于先前轮次样本对话中的其他每一轮次对话，对该轮次对话的特征表示和前一轮次对话的特征向量进行特征提取，以得到综合特征向量，作为该轮次对话的特征向量。

在步骤S1213中，基于当前轮次样本对话的前一个轮次对话的特征向量、当前轮次样本对话的特征表示，生成第一特征向量。

例如，对于前文所述的先前的五轮次的对话，基于第五轮次对话的特征向量、第六轮次的对话(当前轮次样本对话)的特征表示，生成第一特征向量。

在步骤S1214中，基于当前轮次样本对话的前一个轮次对话的特征向量、该伪样本对话的特征表示，生成第二特征向量。

例如，对于前文所述的先前的五轮次的对话，基于第五轮次对话的特征向量、基于第六轮次的对话(当前轮次样本对话)的问句生成的伪样本对话的特征表示，生成第二特征向量。

在步骤S1215中，基于第一特征向量和所述第二特征向量确定该伪样本对话为真的概率，作为判别结果。

例如，判别器模型可以根据第一特征向量和所述第二特征向量的接近度确定伪样本对话为真的概率，例如，如果接近度越高，则伪样本对话为真的概率越大，例如，0.75,0.8等，可以输出该概率或者与概率成正比的得分。此外，如果该判别器模型在预训练时是有监督训练的，那么可以基于该有监督训练而得到针对该两个特征向量中至少一个特征向量的真假判断的初步结果，并且如参考图4所描述的，可以进一步通过对第一特征向量(C1)和第二特征向量(C2)的接近度的确定，综合地确定并输出伪样本对话为真的概率(即，有多大可能性为真)。

结合图5A-5B对上述图4中的过程进行详细描述。

例如，同样地，可以基于循环神经网络(RNN、LSTM、GRU等)来对对话内容进行特征提取，本文以基于GRU的特征提取网络为例。

如图5A所示，与图3对应，当前样本对话进行了三轮次，每轮次对话用(si，ai)表示，si为问句对应的状态，ai为基于状态生成的动作(基于该动作生成最终的答句)，i为轮次序号，这里为1-3中的一个。

然后，基于第二轮次对话的特征向量(V2)、当前对话的特征表示(s3，a3)，生成第一特征向量(C1)，基于第二轮次对话的特征向量(V2)、伪样本对话的特征表示(s3，a3’)，生成第二特征向量(C2)，基于第二特征向量确定伪样本对话是否为真，并且基于第一特征向量(C1)和第二特征向量(C2)的接近度，确定伪样本对话为真的概率，作为判别结果。附加地或替代地，如果该判别器模型在预训练时是有监督训练的，那么可以基于有监督的训练得到针对该两个特征向量中至少一个的真假判断的初步结果，并且如参考图4所描述的，可以进一步通过对第一特征向量(C1)和第二特征向量(C2)的接近度的确定，综合地确定并输出伪样本对话为真的概率(即，有多大可能性为真)。

此外，判别结果可以用于生成器模型的训练。如图5B所示，当前为第三轮次对话，生成器模型如前面所述生成伪样本对话(s3，a3’)，并基于该伪样本对话生成第二特征向量(C2)，与基于当前轮次样本对话(第三轮次对话)生成的第一特征向量(C1)一起输入到判别器模型，判别器模型可以输出该伪样本对话是否为真以及该伪样本对话为真的概率，作为判别结果。另一方面，由于判别器模型是作为奖励模型来进行训练的，因此判别器模型的输出(例如，对伪样本对话的打分)应该被用于评价生成器模型，即可以将判别器模型生成的判别结果馈送到生成器模型，使得生成器模型基于该判别结果来调整网络参数。

具体地，在步骤S120中的基于判别结果调整生成器模型的参数的步骤可以包括以下子步骤。调整生成器模型的参数的过程期间要保持判别器模型的参数不变，因此如图6所示，在步骤S1221中，固定判别器模型的参数，在步骤1222中，迭代地执行以下操作，直至伪样本对话满足预设条件：根据判别器模型生成的判别结果以及当前轮次样本对话与伪样本对话的差异，调整生成器模型的参数以生成更新生成器模型；利用更新生成器模型基于当前轮次样本对话和先前轮次样本对话生成更新的伪样本对话；以及利用判别器模型基于当前轮次样本对话、先前轮次样本对话以及更新的伪样本对话生成更新的判别结果。

例如，以图5B中所示的当前进行到第三轮次对话为例，生成器模型如前面所述首先生成第一伪样本对话(s3，a31)，判别器模型生成针对该伪样本对话(s3，a31)的判别结果(J31)，然后该判别结果被用于调整生成器模型(M1)的参数，同时，生成器模型自身通过比较当前轮次样本对话(s3，a3)与第一伪样本对话(s3，a31)的差异也可以调整生成器模型的参数，因此可以利用生成器模型基于当前轮次样本对话(s3，a3)与第一伪样本对话(s3，a31)的差异和判别器模型生成的判别结果来第一次调整生成器模型的参数。然后，将参数被调整后的生成器模型作为更新生成器模型(M2)，利用更新生成器模型再次如前面所述的生成第二伪样本对话(s3，a32)，利用判别器模型针对该第二伪样本对话(s3，a32)生成第二判别结果，然后利用更新生成器模型基于当前轮次样本对话与第二伪样本对话的差异和/或判别器模型生成的第二判别结果(J32)，再次调整生成器模型的参数，作为更新生成器模型(M3)，依次类推，直到在第三轮次对话的训练期间，在固定了判别器模型的参数的情况下，生成器模型被训练到满足预设条件。

可选地，预设条件包括：生成器模型生成的伪样本对话与所述当前样本对话的差异在阈值范围内。

进一步地，当前轮次样本对话与伪样本对话的差异通过以下方式获得：基于当前轮次样本对话生成第一数据分布；基于该伪样本对话生成第二数据分布；以及确定第一数据分布与第二数据分布的差异，作为当前轮次样本对话与该伪样本对话的差异。

其中，当前轮次样本对话和伪样本对话中的状态和动作被抽象到离散域，因此可以用数据分布来表示，能够体现样本对话自身的分布特性。此外，第一数据分布与第二数据分布都是动作基于当前状态的一种条件概率分布。

例如，可以通过下面等式(1)来通过KL散度(KL divergence)算法来计算第一数据分布和第二数据分布的差异。

式中，J_G(θ)表示计算得到的KL散度，KL(·|·)表示计算两个分布的KL散度。P_G表示生成器模型生成的伪样本对话的第二数据分布，P_f表示原始的当前轮次样本对话的第一数据分布，at和bt分别为离散域上的动作和状态，T为离散域上的状态和动作对的数量。

因此，可以基于使得J_G(θ)值最小的目标以及判别器模型的判别结果来调整生成器模型的参数，使得生成器模型能够生成尽可能“以假乱真”的样本对话。

再一方面，在训练过程中，也需要对判别器模型的参数进行调整。在一些实施例中，可以基于生成器模型生成的伪样本对话调整所述判别器模型的参数，例如，利用交叉熵损失函数来基于生成器模型生成的伪样本对话调整判别器模型的参数。例如，这里生成器模型生成的伪样本对话为多个，并且生成器模型可以基于来自对话样本集中的对话样本包括的不同的样本问句而生成不同的对应预测答句(如前面参考图3所述，预测答句可以基于通过特征提取网络而提取的前面轮次对话的信息，即上下文信息)，因此得到多个伪样本对话。

具体地，在步骤120中的基于生成器模型生成的伪样本对话调整所述判别器模型的参数的步骤可以包括以下子步骤。同样的，在调整判别器模型的参数期间需要将生成器模型的参数固定。

在步骤S1231中，固定生成器模型的参数。

在步骤S1232中，获取所述生成器模型生成的多个伪样本对话，并将所述多个伪样本对话加入对话样本集中；

在步骤S1233中，利用交叉熵损失函数针对所述对话样本集中的各个样本对话计算所述判别器模型的损失。例如，交叉熵损失函数中针对每个伪样本对话的标记变量的值为0并且针对每个真样本对话(原始对话样本集中的样本对话)的标记变量的值为1，针对每个样本对话的预测变量的值为所述判别器模型确定的所述样本对话为真的概率。

例如，针对上述10个伪样本对话中的第七个伪样本对话，判别结果指示的概率为0.2，而标记变量应该为0，因此针对该第七个伪样本对话当前判别器模型的损失为0.2。当判别器模型的参数改变时，针对该第七个伪样本对话判别器模型的损失也会改变。

在步骤S1234中，将针对各个样本对话判别器模型的各个损失进行求和。

例如，假设用1000个样本对话对判别器模型的参数进行调整，那么将判别器模型针对这1000个样本对话中的每一个的损失(共1000个损失)进行求和。

在步骤S1235中，基于求和调整判别器模型的参数，使得求和最小。

即，需要找到合适的模型参数，使得针对这多个样本对话计算得到的损失的和最小。

上述求和过程可以用等式(2)来表示。

在上式中，L表示基于当前参数的判别器模型的损失值，N为对话样本集中的样本对话的总数量，i为样本对话的序号，y⁽ⁱ⁾是针对第i个样本对话的标记变量的值，是第i个样本对话的预测变量的值。

基于上述损失值L调整判别器模型的参数，使得损失值能够减小，并且随着损失值减小，说明判别器模型的判别结果越准确，即判别器模型能够极大地区分伪样本对话和真样本对话。

如上面描述可以看到，生成式对抗网络中的生成器模型和判别器模型是相互辅助的，即相互训练的，生成器模型最终被训练为能够生成“以假乱真”的对话，而判别器模型最终被训练为能够准确的对生成器模型生成的对话进行打分，从而可以对生成器生成的对话打出高分以作为奖励提供给生成器模型，因此训练后的生成器模型作为强化学习模型，并基于判别器模型提供的奖励进行学习。

另外，当生成器模型以及判别器模型的迭代训练完毕之后，对其进行使用时，例如用户输入新的问句，此时生成器模型会根据当前的问句(用相关的状态或置信度来表示)生成与当前状态对应的动作(用于生成答句)，并且确定并输出该生成的动作与样本对话里的动作(也称为专家动作)的接近度。判别器模型输出的是当前的对话(用户输入的新问句，以及生成器模型生成的答句)为真的概率。可以理解的是，这里所说的用户也可以为智能体，例如能够模拟用户说话的机器人。

附加地，在实际使用训练完毕后的生成器模型和判别器模型时，也可以对生成器模型和判别器模型的参数进行更新。

图8示出了根据本公开实施例的对样本对话数据集进行更新的流程示意图。

判别器模型的更新和生成器模型的更新是分开的，但是方式大致一样，均可以采用无监督学习的方式。例如，在实际使用训练后的强化学习模型和奖励模型(生成器模型)的过程中基于输入的待回答问句而生成预测动作时，如图8所示，在步骤S810中，可以获取与所述待回答问句相关的状态对应的专家动作，在步骤S820中，将所述专家动作与所述生成器模型生成的预测动作进行比较，在步骤S830中，在所述专家动作与所述预测动作的接近度大于第一阈值时，基于所述待回答问句以及基于所述预测动作生成的答句生成新的样本对话，用于作为负样本对话(只要是生成器模型生成的样本对于判别器模型来说均为负样本)训练判别器模型以及作为正样本对话(说明生成器模型生成的该正样本对话是值得借鉴的)训练生成器模型，以及在步骤S840中，在所述专家动作与所述预测动作的接近度小于第二阈值时，基于所述待回答问句以及基于所述预测动作生成的答句生成新的伪样本对话，用于作为负样本训练判别器模型。第二阈值小于第一阈值。

根据本公开实施例的另一些实施例，为了使奖励模型能够适用于各种领域，因此还可以在获取对话样本集时确定其中的样本对话的所属领域，并在对样本对话进行编码的时候，将所属领域的信息包括在前文所述的样本对话的特征表示中，用于根据如前面参考图1A-1B至图7所述的处理方法来训练奖励模型，从而可以考虑到领域的环境来输出对应的奖励，从而解决领域依存性问题，使得训练后的奖励模型向其提供奖励的强化学习模型针对不同领域对话仍然可以保持较高的预测准确率。

领域可以包括但不限于如下一个或多个领域：订餐；订票；线上购物；预约出租车；预定酒店；以及寻找音乐、电影或某种产品等。

通过参考上文描述的任务型对话系统中的奖励模型处理方法，由于通过基于生成式对抗网络来训练用于强化学习的奖励模型，能够在每一轮次对话的时候都给出具体的奖励，从而解决了现有的奖励稀疏、学习效率低下的问题，提高了训练的速度；由于训练后的生成器模型作为强化学习模型能够生成与真实的样本对话类似的样本对话，因此可以扩充训练数据库；由于在每一轮次的训练时，提取的特征向量包括先前的所有轮次的对话，因此使得得到的奖励模型可以融合每一轮次样本对话的特征向量，即可以融合每一轮次样本对话中针对样本问句选择样本答句的概率，从而得到的奖励模型更具有参考价值，使得最终训练得到的强化学习模型的预测准确率更高；由于通过将指示领域的信息包括在对话的特征表示中，从而领域也作为训练模型的一个环境参数，进而解决领域依存性问题，因此训练后的奖励模型能够很好地考虑到领域的环境来输出对应的奖励，进一步提高奖励模型的适用性，以使训练后的强化学习模型的准确率进一步提高。

以下将结合实验数据对本公开的对话系统的奖励模型的处理方法的效果进行说明。奖励模型用于向强化学习模型提供奖励。

使用传统的人工设计奖励模型的方案和本公开提出的奖励模型的处理方法进行对比，将会用两个指标来衡量模型的成熟度：第一个指标是最终的对话成功率；第二个指标是强化学习模型收敛所需要的数据数目。

表1：本公开和传统方案的试验结果对比

算法	成功率	对话数目
			传统奖励	0.73	1200
奖励模型	0.78	734

从表1中的实验结果来看，本公开的训练强化学习模型过程所采用的样本对话的对话数目更少，训练后的强化学习模型的成功率更高，本公开的提出的方法能够使得强化学习模型收敛的更快，也能够使得强化学习模型最终的效果变好，这在实际运用的过程当中是很有意义的事情。

成功率的测试是基于Simulated User(模仿用户)的形式来测试的，用这种方法来测试，既能够省时间，也能够省资源。而且这种训练是相对有效的。

根据本公开的另一方面，还提供了一种任务型对话系统中的奖励模型的处理装置。图9示出了根据本公开的实施例的任务型对话系统中的奖励模型的处理装置900的示意结构框图。

如图9所示，处理装置900包括获取模块910、训练模块920。获取模块910用于获取至少两轮次样本对话，每轮次样本对话包括样本问句以及对应的样本答句，训练模块920用于利用判别器模型构造奖励模型，基于多轮次样本对话中的每轮次样本对话，迭代地对生成器模型和判别器模型进行训练，直至生成器模型和判别器模型满足预设平衡条件。

更具体地，训练模块920可以包括第一生成子模块9201、第二生成子模块9202、第一调整子模块9203和第二调整模块9204。

第一生成子模块9201用于利用生成器模型基于当前轮次样本对话和当前轮次之前的先前轮次样本对话生成伪样本对话，伪样本对话包括当前轮次样本对话中的样本问句以及对应的预测答句。

第二生成子模块9202用于利用判别器模型基于当前轮次样本对话、先前轮次样本对话和伪样本对话生成对伪样本对话的判别结果。

调整子模块9203用于基于判别结果调整生成器模型的参数、以及基于生成器模型生成的伪样本对话调整判别器模型的参数。

关于第一生成模块9201、第二生成子模块9202和调整子模块9203所实施的操作的更多细节与前面参考图2-7描述的内容类似，因此这里可以省略。

可选地，处理装置900还可以包括编码模块930，用于将样本对话编码为具有状态和动作的特征表示，其中状态与指示样本问句填充到各个预设语义槽的槽值的概率的置信度相关并且动作与样本答句所涉及的行为相关。可选地，特征表示还可以包括指示对话的所属领域的信息，因此该特征表示也可以用于训练奖励模型，从而该奖励模型在向强化学习模型提供奖励的时候还会考虑到领域的信息，因此基于这样的奖励训练得到的强化学习模型的准确性更高。

可选地，处理装置900还可以包括更新模块940，用于在实际使用训练后的强化学习模型过程中基于输入的待回答问句而生成预测动作时，可以获取与所述待回答问句相关的状态对应的专家动作，将所述专家动作与所述生成器模型生成的预测动作进行比较，在所述专家动作与所述预测动作的接近度大于第一阈值时，基于所述待回答问句以及基于所述预测动作生成的答句生成新的样本对话，用于作为负样本对话(只要是生成器模型生成的样本对于判别器模型来说均为负样本)训练判别器模型以及作为正样本对话(说明生成器模型生成的该正样本对话是值得借鉴的)训练生成器模型，以及在所述专家动作与所述预测动作的接近度小于第二阈值时，基于所述待回答问句以及基于所述预测动作生成的答句生成新的伪样本对话，用于作为负样本训练判别器模型。第二阈值小于第一阈值。

应注意，处理装置900中包括的上述各个模块是示例性的，可以根据处理装置所需要的特性而设置更多或更少的模块，或者其中的一个或多个模块可以被合并到其他模块中，或者可以给拆分为更多个模块，本公开对此不做限制。

通过参考上文描述的任务型对话系统中的奖励模型处理装置，由于通过基于生成式对抗网络来训练用于强化学习的奖励模型，能够在每一轮次对话的时候都给出具体的奖励，从而解决了现有的奖励稀疏、学习效率低下的问题，提高了训练的速度；由于训练后的生成器模型作为强化学习模型能够生成与真实的样本对话类似的样本对话，因此可以扩充训练数据库；由于在每一轮次的训练时，提取的特征向量包括先前的所有轮次的对话，因此使得得到的奖励模型可以融合每一轮次样本对话的特征向量，即可以融合每一轮次样本对话中针对样本问句选择样本答句的概率，从而得到的奖励模型更具有参考价值，使得最终训练得到的强化学习模型的预测准确率更高；由于通过将指示领域的信息包括在对话的特征表示中，从而领域也作为训练奖励模型的一个环境参数，进而解决领域依存性问题，因此训练后的奖励模型能够很好地考虑到领域的环境来输出对应的奖励，进一步提高奖励模型的适用性，以使训练后的强化学习模型的准确率进一步提高。

根据本公开的又一方面，还提供了一种电子设备。图10示出了根据本公开的实施例的电子设备1000的示意结构框图。

参见图10，根据本公开的实施例的电子设备1000可以包括处理器501和存储器1002。处理器1001和存储器1002可以通过总线1003相连。

处理器1001可以根据存储在存储器1002中的指令执行各种动作和处理。

处理器1001可以执行指令以执行一种任务型对话系统中的奖励模型的处理方法。该处理方法包括以下步骤：获取多轮次样本对话，每轮次样本对话包括样本问句以及对应的样本答句；以及利用判别器模型构造奖励模型，基于多轮次样本对话中的每轮次样本对话，迭代地对生成器模型和判别器模型进行训练，直至生成器模型和判别器模型满足预设平衡条件；其中，每轮次样本对话对应于一次训练回合，在每次训练回合中，利用生成器模型基于当前轮次样本对话和当前轮次之前的先前轮次样本对话生成伪样本对话，伪样本对话包括当前轮次样本对话中的样本问句以及对应的预测答句；利用判别器模型基于当前轮次样本对话、先前轮次样本对话和伪样本对话生成对伪样本对话的判别结果；以及基于判别结果调整所述生成器模型的参数以及基于生成器模型生成的伪样本对话调整所述判别器模型的参数。

可选地，处理器1002执行利用生成器模型基于当前轮次样本对话和先前轮次样本对话生成伪样本对话的步骤可以包括：对于先前轮次样本对话中的第一轮次对话，对第一轮次对话的特征表示进行特征提取，以得到第一轮次对话的特征向量；对于先前轮次样本对话中的其他每一轮次对话，对轮次对话的特征表示和前一轮次对话的特征向量进行特征提取，以得到综合特征向量，作为轮次对话的特征向量；以及基于当前轮次样本对话的前一个轮次对话的特征向量、当前轮次样本对话的特征表示中的样本问句对应的状态，生成与当前轮次样本对话的样本问句的状态对应的预测动作，基于预测动作生成第一预测答句，并且将样本问句以及预测答句作为伪样本对话。

可选地，处理器1002执行利用判别器模型基于当前轮次样本对话、先前轮次样本对话和伪样本对话生成对伪样本对话的判别结果的步骤可以包括：对于先前轮次样本对话中的第一轮次对话，对第一轮次对话的特征表示进行特征提取，以得到第一轮次对话的特征向量；对于先前轮次样本对话中的其他每一轮次对话，对轮次对话的特征表示和前一轮次对话的特征向量进行特征提取，以得到综合特征向量，作为轮次对话的特征向量；以及基于当前轮次样本对话的前一个轮次对话的特征向量、当前轮次样本对话的特征表示，生成第一特征向量；基于当前轮次样本对话的前一个轮次对话的特征向量、伪样本对话的特征表示，生成第二特征向量；以及确定伪样本对话是否为真，并基于第一特征向量和第二特征向量的接近度确定伪样本对话为真的概率，作为判别结果。

可选地，处理器1001执行基于判别结果调整生成器模型的参数的步骤包括：在每次训练回合中，固定判别器模型的参数；以及迭代地执行以下操作，直至伪样本对话满足预设条件：根据判别器模型生成的判别结果以及当前轮次样本对话与伪样本对话的差异，调整生成器模型的参数以生成更新生成器模型；利用更新生成器模型基于当前轮次样本对话和先前轮次样本对话生成更新的伪样本对话；利用判别器模型基于当前轮次样本对话、先前轮次样本对话以及更新的伪样本对话生成更新的判别结果。

可选地，处理器1001执行基于生成器模型生成的伪样本对话调整判别器模型的参数的步骤可以包括：在每次训练回合中，固定生成器模型的参数；利用所述生成器模型生成多个伪样本对话，并将所述多个伪样本对话加入对话样本集中；利用交叉熵损失函数针对所述对话样本集中的各个样本对话计算所述判别器模型的损失，其中，交叉熵损失函数中针对每个伪样本对话的标记变量的值为0并且针对每个真样本对话(原始对话样本集中的样本对话)的标记变量的值为1，针对每个样本对话的预测变量的值为所述判别器模型确定的所述样本对话为真的概率；将针对各个样本对话判别器模型的各个损失进行求和；以及基于求和调整判别器模型的参数，使得求和最小。

处理器1001可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开的实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X1010架构或ARM架构的。

存储器1002可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器DDRSDRAM)、扩增型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本公开描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

此外，根据本公开实施例的又一方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在由所述处理器执行时，使得所述处理器执行如前面所述的任务型对话系统中的奖励模型的处理方法的步骤。

同时，根据本公开实施例的又一方面，还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令在被处理器执行时实现如前面所述的任务型对话系统中的奖励模型的处理方法的步骤。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

在上面详细描述的本公开的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本公开的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本公开的范围内。

Claims

1.一种任务型对话系统中的奖励模型的处理方法，包括：

获取多轮次样本对话，每轮次样本对话包括样本问句以及对应的样本答句；以及

利用判别器模型构造所述奖励模型，基于所述多轮次样本对话中的每轮次样本对话，迭代地对生成器模型和判别器模型进行训练，直至所述生成器模型和所述判别器模型满足预设平衡条件；

其中，每轮次样本对话对应于一次训练回合，在每次训练回合中，

利用所述生成器模型基于当前轮次样本对话和当前轮次之前的先前轮次样本对话生成伪样本对话，所述伪样本对话包括所述当前轮次样本对话中的样本问句以及对应的预测答句；

利用所述判别器模型基于所述当前轮次样本对话、先前轮次样本对话和所述伪样本对话生成对所述伪样本对话的判别结果；以及

基于所述判别结果调整所述生成器模型的参数以及基于生成器模型生成的伪样本对话调整所述判别器模型的参数，

其中，所述样本对话被编码为具有状态和动作的特征表示，其中状态与指示所述样本问句填充到各个预设语义槽的槽值的概率的置信度相关，并且所述动作与所述样本答句所涉及的行为相关，

其中，利用生成器模型基于当前轮次样本对话和先前轮次样本对话生成伪样本对话，包括：

对于所述先前轮次样本对话中的第一轮次对话，对所述第一轮次对话的特征表示进行特征提取，以得到所述第一轮次对话的特征向量；

对于所述先前轮次样本对话中除第一轮次对话之外的其他每一轮次对话，对所述轮次对话的特征表示和前一轮次对话的特征向量进行特征提取，以得到综合特征向量，作为所述轮次对话的特征向量；以及

基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述当前轮次样本对话的特征表示中的样本问句对应的状态，生成与所述当前轮次样本对话的样本问句的状态对应的预测动作，基于所述预测动作生成第一预测答句，并且将所述样本问句以及所述预测答句作为伪样本对话；以及

其中，利用判别器模型基于所述当前轮次样本对话、先前轮次样本对话和所述伪样本对话生成对所述伪样本对话的判别结果，包括：

对于所述先前轮次样本对话中的其他每一轮次对话，对所述轮次对话的特征表示和前一轮次对话的特征向量进行特征提取，以得到综合特征向量，作为所述轮次对话的特征向量；

基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述当前轮次样本对话的特征表示，生成第一特征向量；

基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述伪样本对话的特征表示，生成第二特征向量；以及

基于所述第一特征向量和所述第二特征向量确定所述伪样本对话为真的概率，作为判别结果。

2.根据权利要求1所述的处理方法，其中，基于所述判别结果调整所述生成器模型的参数包括：在每次训练回合中，

固定所述判别器模型的参数；以及

迭代地执行以下操作，直至所述伪样本对话满足预设条件：

根据所述判别器模型生成的判别结果以及所述当前轮次样本对话与所述伪样本对话的差异，调整所述生成器模型的参数以生成更新生成器模型；

利用所述更新生成器模型基于所述当前轮次样本对话和所述先前轮次样本对话生成更新的伪样本对话；以及

利用所述判别器模型基于所述当前轮次样本对话、所述先前轮次样本对话以及所述更新的伪样本对话生成更新的判别结果。

3.根据权利要求2所述的处理方法，其中，所述预设条件包括：

所述生成器模型生成的伪样本对话与所述当前轮次样本对话的差异在阈值范围内。

4.根据权利要求3所述的处理方法，其中，所述当前轮次样本对话与所述伪样本对话的差异通过以下方式获得：

基于所述当前轮次样本对话生成第一数据分布；

基于所述伪样本对话生成第二数据分布；以及

确定所述第一数据分布与所述第二数据分布的差异，作为所述当前轮次样本对话与所述伪样本对话的差异。

5.根据权利要求3-4任一项所述的处理方法，其中，基于所述生成器模型生成的伪样本对话调整所述判别器模型的参数，包括：在每次训练回合中，

固定生成器模型的参数；

利用所述生成器模型生成多个伪样本对话，并将所述多个伪样本对话加入对话样本集中；

利用交叉熵损失函数针对所述对话样本集中的各个样本对话计算所述判别器模型的损失；

将针对各个样本对话所述判别器模型的各个损失进行求和；以及

基于所述求和调整所述判别器模型的参数，使得所述求和最小。

6.根据权利要求1所述的处理方法，其中，所述预设平衡条件包括：基于预设次数的迭代训练后所述生成器模型及所述判别器模型随着训练次数的增加而收敛。

7.根据权利要求1所述的处理方法，其中，利用训练后的生成器模型构造强化学习模型，

其中，所述强化学习模型接收待回答问句，并且所述强化学习模型基于所述奖励模型提供的奖励来基于待回答问句产生预测动作，以基于所述预测动作生成与待回答问句对应的答句。

8.根据权利要求7所述的处理方法，还包括：在强化学习模型基于待回答问句产生预测动作的过程中，更新用于训练的对话样本集，所述更新包括：

获取与所述待回答问句相关的状态对应的专家动作；

将所述专家动作与所述预测动作进行比较；

在所述专家动作与所述预测动作的接近度大于第一阈值时，基于所述待回答问句以及基于所述预测动作生成的答句生成新的样本对话，以及

在所述专家动作与所述预测动作的接近度小于第二阈值时，基于所述待回答问句以及基于所述预测动作生成的答句生成新的伪样本对话，

其中，所述第二阈值小于第一阈值。

9.根据权利要求1所述的处理方法，其中，所述特征表示还具有指示对话的所属领域的信息。

10.一种电子设备，包括：

处理器；和

存储器，其上存储有计算机程序，所述计算机程序在由所述处理器执行时，使得所述处理器执行如权利要求1-9任一项所述的任务型对话系统中的奖励模型的处理方法。

11.一种计算机可读存储介质，其上存储有计算机程序或指令，所述计算机程序或指令在由处理器执行时实现如权利要求1-9任一项所述的任务型对话系统中的奖励模型的处理方法的步骤。

12.一种计算机程序产品，其包括计算机程序或指令，所述计算机程序或指令在由处理器执行时实现如权利要求1-9任一项所述的任务型对话系统中的奖励模型的处理方法的步骤。