CN116710986A

CN116710986A - 基于无参考鉴别器的对话模型训练

Info

Publication number: CN116710986A
Application number: CN202180088833.6A
Authority: CN
Inventors: 宋林峰
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2021-02-22
Filing date: 2021-12-16
Publication date: 2023-09-05
Also published as: US20220269934A1; US11995542B2; WO2022177630A1; KR20230094193A; JP2023552137A

Abstract

一种生成基于神经网络的开放域对话模型的方法，包括从与对话模型进行谈话的设备接收输入话语，从所述对话模型获得对所述输入话语的多个候选回复，基于无参考鉴别器确定候选回复的多个鉴别器得分，确定与候选回答相关联的多个质量得分，并基于质量得分训练对话模型。

Description

基于无参考鉴别器的对话模型训练

技术领域

本公开涉及生成对话模型，并且更具体地涉及基于无参考鉴别器来训练基于神经网络的对话模型。

背景技术

对话响应生成旨在给定对话历史的情况下生成有趣且连贯的响应。它吸引了越来越多的研究兴趣，主要是由于日益增长的商业需求。已经提出了越来越强大的神经模型，其中令牌级交叉熵损失已用于最大化每个对话上下文的人类注释回复的可能性。然而，在对话响应生成中经常观察到诸如生成无意义或不合逻辑的响应的关键失误。

为了解决这个问题，最初的努力是利用外部知识获得更丰富的特征。然而，对于给定的上下文，它们假设有一个黄金响应(通常由人工选择)，而对于每个对话上下文，可以存在具有不同含义的各种有效响应，因此忽略了任何潜在的错误传播。结果，它们可能面临来自错误知识检索的挑战。最近，基于当模型已经看到足够的(可能数十亿)实例时以上问题可以被大大缓解的假设，已经提出了大规模训练作为解决方案。然而，该解决方案受到了语言日益快速演变的挑战，因为语言不断引入新的主题、单词和标语。此外，大规模训练耗时且资源昂贵，因此可能不是可持续的方向。

发明内容

根据一些可能的实施方式，一种方法(优选地生成基于神经网络的开放域对话模型)可以包括从与对话模型进行谈话的设备，接收输入话语(其中，从其接收输入话语的设备是第一设备，并且在与第一设备的会话通信中，在第二设备上运行/执行对话模型)；从对话模型(即，从运行对话模型的第二设备)获得对输入话语的多个候选回复，所述多个候选回复包括第一候选回复和第二候选回复；确定所述第一候选回复的多个鉴别器得分，所述多个鉴别器得分由多个鉴别器提供，所述多个鉴别器基于与所述第一候选回复对应的信息和与所述谈话的历史的上下文信息，评估所述第一候选回复的质量；确定所述第二候选回复的多个鉴别器得分，所述多个鉴别器得分由所述多个鉴别器提供，所述多个鉴别器基于与所述第二候选回复对应的信息和与所述谈话的历史对应的上下文信息，评估所述第二候选回复的质量；确定与所述第一候选回复相关联的第一质量得分，所述第一质量得分基于与所述第一候选回复对应的多个鉴别器得分的加权和；确定与所述第二候选回复相关联的第二质量得分，所述第二质量得分基于与所述第二候选回复对应的多个鉴别器得分的加权和；以及基于所述第一质量得分或所述第二质量得分中的至少一个，训练所述对话模型。

根据一些可能的实施方式，设备可以包括至少一个存储器，被配置为存储程序代码和基于神经网络的开放域对话模型；至少一个处理器，被配置为读取所述程序代码并按照所述程序代码的指令进行操作，所述程序代码包括：接收代码，被配置为使所述至少一个处理器从与对话模型进行谈话的设备，接收输入话语；获得代码，被配置为使所述至少一个处理器从所述对话模型获得对所述输入话语的多个候选回复，所述多个候选回复包括第一候选回复和第二候选回复；第一确定代码，被配置为使所述至少一个处理器确定所述第一候选回复的多个鉴别器得分，所述多个鉴别器得分由多个鉴别器提供，所述多个鉴别器基于与所述第一候选回复对应的信息和与所述谈话的历史的上下文信息，评估所述第一候选回复的质量；第二确定代码，被配置为使所述至少一个处理器确定所述第二候选回复的多个鉴别器得分，所述多个鉴别器得分由所述多个鉴别器提供，所述多个鉴别器基于与所述第二候选回复对应的信息和与所述谈话的历史对应的上下文信息，评估所述第二候选回复的质量；第三确定代码，被配置为使所述至少一个处理器确定与所述第一候选回复相关联的第一质量得分，所述第一质量得分基于与所述第一候选回复对应的多个鉴别器得分的加权和；第四确定代码，被配置为使所述至少一个处理器确定与所述第二候选回复相关联的第二质量得分，所述第二质量得分基于与所述第二候选回复对应的多个鉴别器得分的加权和；以及训练代码，被配置为使所述至少一个处理器基于所述第一质量得分或所述第二质量得分中的至少一个，训练所述对话模型。

根据一些可能的实施方式，一种非暂时性计算机可读介质，存储有指令，所述指令包括：一个或多个指令，当由移动设备的一个或多个处理器执行时，使所述一个或多个处理器：从与对话模型进行谈话的设备，接收输入话语；从所述对话模型获得对所述输入话语的多个候选回复，所述多个候选回复包括第一候选回复和第二候选回复；确定所述第一候选回复的多个鉴别器得分，所述多个鉴别器得分由多个鉴别器提供，所述多个鉴别器基于与所述第一候选回复对应的信息和与所述谈话的历史的上下文信息，评估所述第一候选回复的质量；确定所述第二候选回复的多个鉴别器得分，所述多个鉴别器得分由所述多个鉴别器提供，所述多个鉴别器基于与所述第二候选回复对应的信息和与所述谈话的历史对应的上下文信息，评估所述第二候选回复的质量；确定与所述第一候选回复相关联的第一质量得分，所述第一质量得分基于与所述第一候选回复对应的多个鉴别器得分的加权和；确定与所述第二候选回复相关联的第二质量得分，所述第二质量得分基于与所述第二候选回复对应的多个鉴别器得分的加权和；以及基于所述第一质量得分或所述第二质量得分中的至少一个，训练所述对话模型。

附图说明

从以下结合附图的描述中，本公开的实施例的以上和其它方面、特征和方面将变得更加明显，其中：

图1是本文中描述的示例实现的概览图；

图2是其中可以实现本文中描述的系统和/或方法的环境的示意图；

图3是图2的一个或多个设备的示例部件图；

图4是用于生成基于神经网络的开放域对话模型的方法的示例过程的流程图。

具体实施方式

示例实施例的以下详细描述参考附图。不同附图中的相同附图标记可以标识相同或相似的元件。

上述公开提供了说明和描述，但并不旨在穷举或将实现限制为所公开的精确形式。根据以上公开，修改和变化是可能的，或者可以从实现的实践中获得修改和变化。

显然，本文中描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不是对实现的限制。因此，在不参考特定软件代码的情况下在本文中描述了系统和/或方法的操作和行为——应当理解，可以基于本文中的描述来设计软件和硬件以实现系统和/或方法。

虽然特征的特定组合在权利要求中陈述和/或在说明书中公开，但是这些组合并不旨在对可能的实现的公开进行限制。实际上，这些特征中的许多特征可以以未在权利要求中具体陈述和/或在说明书中公开的方式组合。虽然下面列出的每个从属权利要求可以直接从属于仅一个权利要求，但是可能的实现的公开包括与权利要求组中的每个其它权利要求的组合的每个从属权利要求。

本文中所使用的元件、动作或指令不应被解释为关键的或必要的，除非明确地这样描述。此外，如本文中所使用的，冠词“一(a)”和“一个(an)”旨在包括一个或多个项，并且可以与“一个或多个”互换使用。在仅意指一个项的情况下，使用术语“一个(one)”或类似语言。此外，如本文中所使用的，术语“具有(has)”、“具有(have)”、“具有(having)”、“包括(include)”、“包括(including)”等旨在是开放式术语。此外，短语“基于”旨在表示“至少部分地基于”，除非另有明确说明。

图1是用于训练基于神经网络的对话模型的方法的实施例的概览图。方法100可以在平台上执行，平台诸如是服务器、台式计算机、手持计算设备或它们的组合。

如图1所示，在操作102处，平台可以从谈话中获得话语。话语可以是文本串，诸如“你想玩游戏吗？”。可以从与平台通信的外部设备接收话语。

在操作104处，基于所获得的话语，对话模型可以产生对所获得的话语的一系列候选回复。如图1所示，可以产生第一到第N个候选回复。根据实施例，对话模型可以使用波束搜索算法。

在操作106处，平台可以确定第一到第N个无参考鉴别器得分。每个无参考鉴别器得分可以对应于不同的无参考鉴别器。无参考鉴别器可以基于候选回复和谈话历史的输入来计算它们对应的无参考鉴别器得分。根据实施例，无参考鉴别器可以仅考虑候选回复和谈话历史，而可以不考虑任何外部知识。

根据实施例，鉴别器中的每一个可以基于补充因素。补充因素可以包括候选回复的特异性、候选回复的一致性、候选回复的流畅性和候选回复的相关性。例如，参考图1，第一无参考鉴别器得分可以指示候选回复的特异性，第二无参考鉴别器可以指示回复与先前回复的一致性，并且附加的无参考鉴别器可以考虑其它补充因素或已经考虑的补充因素的其它方面。

图1示出了仅针对第一候选回复获得的无参考鉴别器得分。然而，可以针对第一到第N候选回复中的每一个获得无参考鉴别器。

在操作108处，可以基于对应于第一候选回复的无参考鉴别器得分中的每一个来产生第一候选回复的加权和。例如，可以基于经验数据给定对应于第一候选回复的每个无参考鉴别器得分某个权重，并且然后可以对加权的无参考鉴别器得分中的每一个进行求和以获得候选回复的加权和。根据实施例，可以为在操作104处产生的每个候选回复产生加权和。

在操作110处，可以基于对应于第一候选回复的加权和来训练对话模型。例如，训练算法可以基于引入第一候选回复的加权和的损失函数。根据实施例，可以基于对应于在操作104处产生的多个候选回复的加权和来训练对话模型。

这样，本文中的一些实现提供了基于较少资源密集的训练来产生更有意义的、有逻辑的和相关的回复的对话模型。

图2是可在其中实现本文所述的系统和/或方法的环境200的示意图。如图2所示，环境200可以包括用户设备210、平台220和网络230。环境200的设备可以通过有线连接、无线连接或有线和无线连接的组合进行互连。

用户设备210包括一个或多个设备，该一个或多个设备能够接收、生成、存储、处理和/或提供与平台220相关的信息。例如，用户设备210可以包括计算设备(例如，台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如，智能电话、无线电话等)、可穿戴设备(例如，智能眼镜或智能手表)或相似设备。在一些实施方式中，用户设备210可以从平台220接收信息和/或向平台220发送信息。

平台220包括如本文中其它地方所描述的能够使用无参考鉴别器训练对话模型的一个或多个设备。在一些实施方式中，平台220可以包括云服务器或云服务器组。在一些实施方式中，平台220可以被设计成模块化，使得软件组件可以根据特定需要被换入或换出。这样，可以容易地和/或快速地重新配置平台220以具有不同的用途。

在一些实施方式中，如图所示，平台220可以被托管(hosted)在云计算环境222中。值得注意的是，虽然本文所述的实施方式将平台220描述为托管在云计算环境222中，但是在一些实施方式中，平台220不是基于云的(即，可以在云计算环境外部实现)或者可以是部分基于云的。

云计算环境222包括托管平台220的环境。云计算环境222可以提供计算、软件、数据访问、存储等服务，这些服务不需要终端用户(例如，用户设备210)了解托管平台220的系统和/或设备的物理位置和配置。如图所示，云计算环境222可以包括一组计算资源224(统称为“计算资源(computing resources)224”并分别称为“计算资源(computing resource)224”)。

计算资源224包括一个或多个个人计算机、工作站计算机、服务器设备或其它类型的计算和/或通信设备。在一些实施方式中，计算资源224可以托管平台220。云资源可以包括在计算资源224中执行的计算实例、在计算资源224中提供的存储设备、由计算资源224提供的数据传输设备等。在一些实施方式中，计算资源224可以通过有线连接、无线连接或有线和无线连接的组合与其它计算资源224通信。

进一步如图2所示，计算资源224包括一组云资源，例如一个或多个应用程序(“APP”)224-1、一个或多个虚拟机(“VM”)224-2、虚拟化存储(“VS”)224-3、一个或多个管理程序(“HYP”)224-4等。

应用程序224-1包括一个或多个软件应用程序，其可以提供给用户设备210和/或平台220，或由用户设备210和/或平台220访问。应用程序224-1无需在用户设备210上安装和执行软件应用程序。例如，应用程序224-1可以包括与平台220相关的软件，和/或，能够通过云计算环境222提供的任何其它软件。在一些实施方式中，一个应用程序224-1可以通过虚拟机224-2向或从一个或多个其它应用程序224-1发送/接收信息。

虚拟机224-2包括机器(例如，计算机)的软件实现，该机器执行程序，类似于物理机。虚拟机224-2可以是系统虚拟机，也可以是进程虚拟机，这取决于虚拟机224-2对任何真实机的使用和对应程度。系统虚拟机可以提供完整系统平台，其支持完整操作系统(“OS”)的执行。进程虚拟机可以执行单个程序，并且可以支持单个进程。在一些实施方式中，虚拟机224-2可以代表用户(例如，用户设备210)执行，并且可以管理云计算环境222的基础架构，例如数据管理、同步或长期数据传输。

虚拟化存储224-3包括一个或多个存储系统和/或一个或多个设备，该一个或多个设备在计算资源224的存储系统或设备内使用虚拟化技术。在一些实施方式中，在存储系统的上下文内，虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指逻辑存储从物理存储的抽象(或分离)，以便可以在不考虑物理存储或异构结构的情况下访问存储系统。分离可以允许存储系统的管理员灵活地管理终端用户的存储。文件虚拟化可以消除在文件级别存取的数据与物理存储文件的位置之间的依赖性。这可以优化存储使用、服务器整合和/或无中断文件迁移的性能。

管理程序(Hypervisor)224-4可以提供硬件虚拟化技术，其允许多个操作系统(例如，“客户操作系统”)在诸如计算资源224的主计算机上同时执行。管理程序224-4可以向客户操作系统提供虚拟操作平台，并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化硬件资源。

网络230包括一个或多个有线和/或无线网络。例如，网络230可以包括蜂窝网络(例如，第五代(fifth generation,5G)网络、长期演进(Long-Term Evolution,LTE)网络、第三代(third generation,3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PublicLand Mobile Network,PLMN)、局域网(Local Area Network,LAN)、广域网(Wide AreaNetwork,WAN)、城域网(Metropolitan Area Network,MAN)、电话网络(例如，公共交换电话网络(Public Switched Telephone Network,PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络等，和/或这些或其它类型的网络的组合。

图2所示的设备和网络的数量和排列被作为示例来提供。实际上，与图2所示的设备和/或网络相比，可以有更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或排列不同的设备和/或网络。此外，图2所示的两个或更多个设备可以在单个设备内实现，或者图2所示的单个设备可以实现为多个分布式设备。另外或可替代地，环境200的一组设备(例如，一个或多个设备)可以执行被描述为由环境200的另一组设备执行的一个或多个功能。

图3是设备300的示例组件图。设备300可以对应于用户设备210和/或平台220。如图3所示，设备300可以包括总线310、处理器320、存储器330、存储组件340、输入组件350、输出组件360和通信接口370。

总线310包括允许设备300的组件之间进行通信的组件。处理器320以硬件、固件或硬件和软件的组合来实现。处理器320是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理组件。在一些实施方式中，处理器320包括一个或多个能够被编程以执行功能的处理器。存储器330包括随机存取存储器(RAM)、只读存储器(ROM)和/或另一类型的动态或静态存储设备(例如，闪存、磁存储器和/或光存储器)，其存储供处理器320使用的信息和/或指令。

存储组件340存储与设备300的操作和使用相关的信息和/或软件。例如，存储组件340可以包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘)、光盘(CD)、数字通用盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非易失性计算机可读介质，以及相应的驱动器。

输入组件350包括允许设备300例如通过用户输入接收信息的组件，例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风。另外或可替代地，输入组件350可以包括用于感测信息的传感器(例如，全球定位系统(GPS)组件、加速计、陀螺仪和/或致动器)。输出组件360包括提供来自设备300的输出信息的组件，例如，显示器、扬声器和/或一个或多个发光二极管(LED)。

通信接口370包括类似收发器的组件(例如，收发器和/或单独的接收器和发送器)，该组件使设备300能够例如通过有线连接、无线连接或有线和无线连接的组合与其它设备通信。通信接口370可以允许设备300从另一设备接收信息和/或向另一设备提供信息。例如，通信接口370可以包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。

设备300可以执行本文中所描述的一个或多个过程。设备300可以响应于处理器320执行由非易失性计算机可读介质(例如存储器330和/或存储组件340)存储的软件指令来执行这些过程。计算机可读介质在本文中被定义为非易失性存储器设备。存储器设备包括单个物理存储设备内的存储空间或分布在多个物理存储设备上的存储空间。

软件指令可以通过通信接口370从另一计算机可读介质或从另一设备读入存储器330和/或存储组件340。当被执行时，存储在存储器330和/或存储组件340中的软件指令可以使处理器320执行本文中所描述的一个或多个过程。另外或可替代地，可以使用硬件连线电路来代替软件指令或与软件指令结合以执行本文中所描述的一个或多个过程。因此，本文中所描述的实施方式不限于硬件电路和软件的任何特定组合。

图3所示的组件的数量和排列被作为示例来提供。实际上，与图3所示的组件相比，设备300可能包括更多的组件、更少的组件、不同的组件或排列不同的组件。另外或可替代地，设备300的一组组件(例如，一个或多个组件)可以执行被描述为由设备300的另一组组件执行的一个或多个功能。

图4是用于基于无参考鉴别器生成对话模型的示例方法400的流程图。在一些实现中，图4的一个或多个处理框可以由平台220执行。在一些实现中，图4的一个或多个过程框可以由与平台220分离或包括平台220的另一设备或一组设备(诸如用户设备210)执行。

如图4所示，方法400可以包括接收输入话语(框410)。输入话语可以是文本串的形式。

例如，平台220可以从用户或训练集接收输入话语“你想玩游戏吗？”。输入话语可以是对话或谈话的一部分。

如图4中进一步所示，方法400可以包括确定候选回复中的每一个的鉴别器得分(框420)。

平台220可以基于量化良好回复的补充因素的鉴别器来确定鉴别器得分。良好回复可以是有意义的、有逻辑的和相关的回复。鉴别器可以是无参考的，这意味着它们不考虑外部知识，而是考虑当前谈话或对话历史的候选回复和上下文信息。

可以选择用于良好回复的补充因素以最小化重叠，这可以最小化计算浪费。例如，因素可以包括候选回复的特异性、候选回复与先前输出回复的一致性、候选回复的流畅性和候选回复的相关性。鉴别器可以对应于用于良好回复的补充因素之一。

根据实施例，鉴别器spec_u可以用于计算候选回复u的特异性得分，作为单词归一化逆文档频率(NIDF)值的平均值。

单词w的NIDF值可以基于单词w的逆文档频率(IDF)。单词w的IDF被定义为IDF(w)＝log(||/|_w|)，其中|U|是所生成的候选回复集中的候选回复的数量，并且|_w|是包含w的候选回复的数量。

可以基于以下等式1确定NDIF：

在等式1中，min_idf表示候选回复的最小IDF值，并且max_idf表示候选回复中的最大IDF值。

可以使用以下等式2确定鉴别器spec_u：

包括自变量c(上下文信息)是为了与其它鉴别器一致，但在确定spec_u时不考虑。即，spec_u(u,c)考虑候选回复而不考虑上下文信息(例如谈话或对话历史)。

根据实施例，鉴别器spec_c可以用于通过考虑上下文信息c来计算候选回复u的特异性得分。可以使用以下等式3确定鉴别器spec_c：

如等式3所示，spec_c仅考虑在候选回复u和上下文信息c中都出现的单词w。

鉴别器spec_u和spec_c可以鼓励对话模型生成详细的和有趣的回复。例如，响应于话语“去打保龄球怎么样？”鉴别器spec_u和spec_c可以阻止对话模型使用普通和无意义的候选回复，诸如“我不知道”。

根据实施例，鉴别器cons可以评估候选回复是否与对话模型在谈话期间输出的先前回复相矛盾。这样，鉴别器cons基于一致性补充因素。

鉴别器cons可以基于用于语言理解的深度双向变换的预训练。例如，鉴别器cons可以基于优化的BERT预训练方法，诸如RoBRETa模型。可以在数据集上微调RoBRETa模型，该数据集诸如为多基因自然语言推理(MNLI)数据集。MNLI数据集考虑了每个句子对之间的以下三种可能的关系：矛盾性、必然性和中性。

例如，如果在谈话中的人陈述“我爱狗”，则该人不可能陈述“我害怕狗并且我通常远离他们”。因此，鉴别器cons考虑候选回复u和上下文信息c，以通过计算概率产生一致性鉴别器得分，该概率为候选回复u与对话模型在谈话或当前对话会话期间的先前回复不矛盾的概率。

根据实施例，鉴别器flu判断候选回复是否流畅和自然。这样，鉴别器flu基于流畅性补充因素。

鉴别器flu可以基于可调的神经谈话生成模型。例如，鉴别器flu可以基于可调的千兆词范围神经网络模型，用于生成谈话响应，诸如对话生成预训练变换器DialoGPT。

鉴别器flu可以在给定上下文信息c的每个生成的回合u的困惑度(perplexity)来产生流畅性鉴别器得分。

根据实施例，鉴别器rel_s测量所生成的回复与对话模型的相关性。这样，鉴别器rel_s基于相关性补充因素。

鉴别器rel_s可以专注于句子级语义相似性。例如，鉴别器rel_s可以基于候选回复u的表示矢量与上下文c的表示矢量之间的余弦相似性，该余弦相似性由语言表示模型产生，该语言表示模型通过在所有层中联合地调节左上下文和右上下文，来预先训练来自未标记文本的深度双向表示。例如，候选回复u的表示矢量与上下文c的表示矢量之间的余弦相似性，可以由诸如BERT(来自变换的双向编码器表示)的模型来产生，该模型被设计为通过在所有层中联合地调节左上下文和右上下文来预训练来自未标记文本的深度双向表示。

如图4中进一步所示，方法400可以进一步包括基于鉴别器得分确定候选回复中的每一个的质量得分(框440)。候选回复u的质量得分可以基于候选回复u的鉴别器得分的加权和。例如，平台220可以基于以下奖励函数等式[4]确定上下文c中的候选回复u的质量得分r(u,c)：

在等式4中，d_j(,c)表示鉴别器得分，|d|表示鉴别器的数量，并且φ_j表示给定鉴别器的权重。可以基于经验证据确定给定鉴别器得分的权重φ。例如，可以给定每个鉴别器得分特定权重φ，该特定权重φ是通过实验确定的。每个鉴别器的权重φ可以只针对该鉴别器确定。因此，每个鉴别器对应不同的权重φ。根据实施例，可以针对不同情况优化权重φ。

如图4进一步所示，方法400可以进一步包括基于质量得分训练对话模型(框450)。

例如，平台220可以使用自批判训练算法来训练对话模型。该算法可以是策略梯度强化学习(reinforcement learning,RL)算法。用于训练的损失函数在等式5中示出：

在等式5中，是通过贪婪解码生成的基线候选回复。根据实施例，/>是具有最高鉴别器得分的候选回复。在等式5中，u^s是根据当前模型分布的样本话语。根据实施例，u^s是从所生成的候选回复列表中随机选择的候选回复。因此，r(·,·)表示基于等式4中所示的奖励函数的质量得分。

在等式5中，|u^s|表示采样话语u^s的长度。如上所述，w表示候选回复中的单词，并且c表示诸如谈话或对话历史的上下文信息。

根据实施例，自临界批判训练算法可以是具有基线算法的强化的特殊情况。

根据实施例，以上基于RL的目标l_rl可以与基于交叉熵的目标l_ce组合以产生等式6中所示的最终训练目标：

l_final＝λ_rl+(1-λ)l_ce[等式6]

在等式6中，可以凭经验确定λ。根据实施例，可以根据经验设置λ为0.7。

基于交叉熵的目标l_ce可以基于人类注释回复来确定令牌级(token-level)交叉熵损失。

虽然图4示出了方法400的示例框，但是在一些实现中，方法400可以包括与图4中描绘的那些框相比附加的框、更少的框、不同的框或不同布置的框。附加地或可选地，可以并行地执行方法400的两个或更多个框。

如本文中所使用的，术语“部件”旨在被广泛地解释为硬件、固件或硬件和软件的组合。

本文中所使用的元件、动作或指令不应被解释为关键的或必要的，除非明确地这样描述。此外，如本文中所使用的，冠词“一(a)”和“一个(an)”旨在包括一个或多个项，并且可以与“一个或多个”互换使用。此外，如本文中所使用的，术语“集”旨在包括一个或多个项(例如，相关项、不相关项、相关项和不相关项的组合等)，并且可以与“一个或多个”互换使用。在仅意指一个项的情况下，使用术语“一个(one)”或类似语言。此外，如本文中所使用的，术语“具有(has)”、“具有(have)”、“具有(having)”等旨在是开放式术语。此外，短语“基于”旨在表示“至少部分地基于”，除非另有明确说明。

Claims

1.一种计算机实现的方法，其特征在于，包括：

从与对话模型进行谈话的设备，接收输入话语；

从所述对话模型获得对所述输入话语的多个候选回复，所述多个候选回复包括第一候选回复和第二候选回复；

确定所述第一候选回复的多个鉴别器得分，所述多个鉴别器得分由多个鉴别器提供，所述多个鉴别器基于与所述第一候选回复对应的信息和与所述谈话的历史的上下文信息，评估所述第一候选回复的质量；

确定所述第二候选回复的多个鉴别器得分，所述多个鉴别器得分由所述多个鉴别器提供，所述多个鉴别器基于与所述第二候选回复对应的信息和与所述谈话的历史对应的上下文信息，评估所述第二候选回复的质量；

确定与所述第一候选回复相关联的第一质量得分，所述第一质量得分基于与所述第一候选回复对应的多个鉴别器得分的加权和；

确定与所述第二候选回复相关联的第二质量得分，所述第二质量得分基于与所述第二候选回复对应的多个鉴别器得分的加权和；以及

基于所述第一质量得分或所述第二质量得分中的至少一个，训练所述对话模型。

2.根据权利要求1所述的方法，其特征在于，所述多个鉴别器仅基于与所述第一候选回复对应的信息和与所述谈话的历史对应的上下文信息，评估所述候选回复。

3.根据权利要求1所述的方法，其特征在于，所述多个鉴别器中的至少一个，通过确定所述候选回复的归一化逆函数文档频率，评估所述候选回复的特异性。

4.根据权利要求1所述的方法，其特征在于，所述多个鉴别器中的至少一个，通过计算概率评估候选回复的一致性，所述概率为所述候选回复与所述对话模型在所述谈话期间输出的先前候选回复相矛盾的概率。

5.根据权利要求1所述的方法，其特征在于，所述多个鉴别器中的至少一个，通过基于所述上下文信息确定所述候选回复的困惑度，评估所述候选回复的流畅性。

6.根据权利要求1所述的方法，其特征在于，所述多个鉴别器中的至少一个，通过计算所述候选回复的表示矢量与所述上下文信息的表示矢量之间的余弦相似性，评估所述候选回复是否与所述谈话相关。

7.根据权利要求1所述的方法，其特征在于，所述对话模型是基于所述多个候选回复中具有最高质量得分的一个候选回复的质量得分，和所述多个候选回复中随机选择的一个候选回复的质量得分来进行训练的。

8.根据权利要求1所述的方法，其特征在于，训练所述对话模型包括：

基于所述第一质量得分或所述第二质量得分中的所述至少一个确定基于强化学习的目标；

确定基于令牌级交叉熵损失，评估所述多个候选回复的基于交叉熵的目标；以及

基于所述基于强化学习的目标和所述基于交叉熵的目标的组合，确定最终训练目标。

9.一种设备，其特征在于，包括：

至少一个存储器，被配置为存储程序代码和基于神经网络的开放域对话模型；

至少一个处理器，被配置为读取所述程序代码并按照所述程序代码的指令进行操作，所述程序代码包括：

接收代码，被配置为使所述至少一个处理器从与对话模型进行谈话的设备，接收输入话语；

获得代码，被配置为使所述至少一个处理器从所述对话模型获得对所述输入话语的多个候选回复，所述多个候选回复包括第一候选回复和第二候选回复；

第一确定代码，被配置为使所述至少一个处理器确定所述第一候选回复的多个鉴别器得分，所述多个鉴别器得分由多个鉴别器提供，所述多个鉴别器基于与所述第一候选回复对应的信息和与所述谈话的历史的上下文信息，评估所述第一候选回复的质量；

第二确定代码，被配置为使所述至少一个处理器确定所述第二候选回复的多个鉴别器得分，所述多个鉴别器得分由所述多个鉴别器提供，所述多个鉴别器基于与所述第二候选回复对应的信息和与所述谈话的历史对应的上下文信息，评估所述第二候选回复的质量；

第三确定代码，被配置为使所述至少一个处理器确定与所述第一候选回复相关联的第一质量得分，所述第一质量得分基于与所述第一候选回复对应的多个鉴别器得分的加权和；

第四确定代码，被配置为使所述至少一个处理器确定与所述第二候选回复相关联的第二质量得分，所述第二质量得分基于与所述第二候选回复对应的多个鉴别器得分的加权和；以及

训练代码，被配置为使所述至少一个处理器基于所述第一质量得分或所述第二质量得分中的至少一个，训练所述对话模型。

10.根据权利要求9所述的设备，其特征在于，所述多个鉴别器仅基于与所述第一候选回复对应的信息和与所述谈话的历史对应的上下文信息，评估所述候选回复。

11.根据权利要求9所述的设备，其特征在于，所述训练代码还被配置为使所述至少一个处理器所述多个鉴别器中的至少一个，通过确定所述候选回复的归一化逆函数文档频率，评估所述候选回复的特异性。

12.根据权利要求9所述的设备，其特征在于，所述训练代码还被配置为使所述至少一个处理器：

13.根据权利要求9所述的设备，其特征在于，所述多个鉴别器中的至少一个，通过确定所述候选回复的归一化逆函数文档频率，评估所述候选回复的特异性，

其中所述多个鉴别器中的至少一个，通过计算概率评估候选回复的一致性，所述概率为所述候选回复与所述对话模型在所述谈话期间输出的先前候选回复相矛盾的概率，

其中所述多个鉴别器中的至少一个，通过基于所述上下文信息确定所述候选回复的困惑度，评估所述候选回复的流畅性，以及

其中所述多个鉴别器中的至少一个，通过计算所述候选回复的表示矢量与所述上下文信息的表示矢量之间的余弦相似性，评估所述候选回复是否与所述谈话相关。

14.一种非暂时性计算机可读介质，其特征在于，存储有指令，所述指令包括：一个或多个指令，当由移动设备的一个或多个处理器执行时，使所述一个或多个处理器：

从与对话模型进行谈话的设备，接收输入话语；

15.根据权利要求14所述的非暂时性计算机可读介质，其特征在于，所述多个鉴别器仅基于与所述第一候选回复对应的信息和与所述谈话的历史对应的上下文信息，评估所述候选回复。

16.根据权利要求14所述的非暂时性计算机可读介质，其特征在于，所述对话模型是基于所述多个候选回复中具有最高质量得分的一个候选回复的质量得分，和所述多个候选回复中随机选择的一个候选回复的质量得分来进行训练的。

17.根据权利要求14所述的非暂时性计算机可读介质，其特征在于，所述一个或多个指令使得所述一个或多个处理器：

18.根据权利要求14所述的非暂时性计算机可读介质，其特征在于，所述多个鉴别器中的至少一个，通过确定所述候选回复的归一化逆函数文档频率，评估所述候选回复的特异性；

其中所述多个鉴别器中的至少一个，通过计算概率评估候选回复的一致性，所述概率为所述候选回复与所述对话模型在所述谈话期间输出的先前候选回复相矛盾的概率；

其中所述多个鉴别器中的至少一个，通过基于所述上下文信息确定所述候选回复的困惑度，评估所述候选回复的流畅性；以及