CN113821615A

CN113821615A - 自助对话方法、装置、设备及存储介质

Info

Publication number: CN113821615A
Application number: CN202110864729.3A
Authority: CN
Inventors: 王慧敏; 张云燕; 杨奕凡
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-12-21

Abstract

本申请公开了一种自助对话方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：获取自助对话代理的对话策略数据，对话策略数据包括至少一组环境状态和对话动作；通过自助对话代理，基于环境的目标状态，得到与目标状态对应的目标动作；基于目标状态和目标动作与对话策略数据的一致性，以及目标动作的环境奖励，得到代理对话奖励；基于代理对话奖励，调整自助对话代理的参数，得到完成训练的自助对话代理，完成训练的自助对话代理用于进行自助对话。本申请实施例在一定程度上缓解了自助对话代理在强化学习过程中的稀疏奖励问题，提升了自助对话代理的收敛速度。

Description

自助对话方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种自助对话方法、装置、设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)技术已在多个领域展开了研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等。

机器学习(Machine Learning，ML)是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。而强化学习(Reinforcement Learning，RL)是机器学习的一个重要分支，考虑的是代理(Agent)与环境之间的交互问题。在自助对话这一典型的强化学习应用场景中，对话代理处在一个环境中，能够对环境的状态进行感知且能够通过对话动作来影响环境，在对话代理执行了一个对话动作之后，环境的状态会发生变化，并且，环境会给予对话代理一个奖励。在应用过程中，为了使得对话代理满足应用的需求，还人为设计了奖励，如与对话代理进行对话的用户的总体使用评价，从而，在对话代理的学习过程中，除了需要考虑来自于环境的奖励之外，还需要考虑人为设计的奖励，以使得整体的奖励达到最大。

然而，为对话代理设计的人为奖励通常只在对话结束时提供，由于对话过程通常会持续很长时间，从而，对话代理在学习过程中获得奖励非常稀疏，导致对话代理需要大量的交互才能获得较好的性能。

发明内容

本申请实施例提供了一种自助对话方法、装置、设备及存储介质，在一定程度上缓解了自助对话代理在强化学习过程中的稀疏奖励问题，提升了自助对话代理的收敛速度。所述技术方案如下：

一方面，本申请实施例提供了一种自助对话方法，所述方法包括：

获取自助对话代理的对话策略数据，所述对话策略数据包括至少一组环境状态和对话动作；

通过所述自助对话代理，基于环境的目标状态，得到与所述目标状态对应的目标动作；

基于所述目标状态和所述目标动作与所述对话策略数据的一致性，以及所述目标动作的环境奖励，得到代理对话奖励，所述代理对话奖励用于指示所述自助对话代理训练的目标；

基于所述代理对话奖励，调整所述自助对话代理的参数，得到完成训练的自助对话代理，所述完成训练的自助对话代理用于进行自助对话。

另一方面，本申请实施例提供了一种自助对话装置，所述装置包括：

策略数据获取模块，用于获取自助对话代理的对话策略数据，所述对话策略数据包括至少一组环境状态和对话动作；

对话动作确定模块，用于通过所述自助对话代理，基于环境的目标状态，得到与所述目标状态对应的目标动作；

对话奖励确定模块，用于基于所述目标状态和所述目标动作与所述对话策略数据的一致性，以及所述目标动作的环境奖励，得到代理对话奖励，所述代理对话奖励用于指示所述自助对话代理训练的目标；

第一参数调整模块，用于基于所述代理对话奖励，调整所述自助对话代理的参数，得到完成训练的自助对话代理，所述完成训练的自助对话代理用于进行自助对话。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述自助对话方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述自助对话方法。

还一方面，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述自助对话方法。

本申请实施例提供的技术方案至少包括如下有益效果：

通过在自助对话代理的学习和训练过程中，利用对话策略数据这一先验专家知识进行奖励塑造，将对话策略数据转化为额外的中间奖励嵌入到稀疏的环境奖励中，在一定程度上缓解了自助对话代理在强化学习过程中的稀疏奖励问题，提升了自助对话代理的收敛速度。并且，本申请实施例中，由于嵌入了额外的中间奖励，利用专业决策来奖励自助对话代理做出的类似于专业决策的动作，与人类定义的奖励相比，这个额外的中间奖励更具有示范性和参考性，能够为自助对话代理的强化学习提供有效的引导。另外，本申请实施例中，由于自助对话代理学习和训练的目标结合了先验专家知识，能够使得自助对话代理在强化学习过程中得到持续不断地有效引导，避免了大量的无效探索，有助于提升自助对话代理的学习效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的强化学习的模型示意图；

图2是本申请一个实施例提供的自助对话系统的示意图；

图3是本申请一个实施例提供的自助对话方法的流程图；

图4是本申请一个实施例提供的自助对话方法的示意图；

图5是本申请一个实施例提供的自助对话装置的框图；

图6是本申请另一个实施例提供的自助对话装置的框图；

图7是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能够以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术，也有软件层面的技术。人工智能基础技术一般包括例如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括：人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的技术方案涉及人工智能的自然语言处理、机器学习/强化学习等技术，具体通过如下实施例进行说明。

在对本申请提供的技术方案进行介绍之前，对本申请实施例中涉及的一些技术名词进行简单介绍。

辅助诊断对话系统(Diagnostic Dialog System)：是一种用来与患者对话的计算机系统。辅助诊断对话系统在输入和输出通道上采用文本、语音、图形和其他通信模式中的一种或多种，其目标包括在最少的对话轮数内解决患者的疑问和提供疾病决策等。

对话状态和对话动作(Dialogue State and Dialogue Action)：对话状态包含了当前对话(环境)的所有信息，例如，在辅助诊断对话系统中，对话状态至少包括患者输入对话的语义解析等。对话动作包括对话代理针对输入对话的输出回复的语义解析。

对话策略(Dialog Policy)：是对话系统(如辅助诊断对话系统)的学习核心。对话策略协调所有组件的活动，控制对话框流，并与外部应用程序等进行通信。对话策略扮演许多角色，包括对话分析、知识库查询和基于对话语境的系统行为预测等。例如，对话策略向查询数据库的用户提供信息，提示用户确认系统不确定的单词，并提示用户重新表述句子。

强化学习：是机器学习的一个重要分支，关注的是代理如何在环境中采取行动，以最大化累积奖励。强化学习是机器学习的三种基本模式之一，与有监督学习和无监督学习并列。如图1所示，其示出了一种强化学习的模型，在图1所示的强化学习过程中，代理110处在一个环境120中，能够对环境120的状态S_t进行感知且能够通过动作A_t来影响环境，在代理110执行了一个动作A_t之后，环境120的状态会发生变化(如从S_t变化为S_t+1)，并且，环境120会给予代理110奖励R_t。

奖励塑造(Reward Shaping)：利用先验知识，在除了来自于环境的奖赏R之外，还为代理提供额外的中间奖赏F，使系统基于复合奖赏R+F来进行强化学习。

行为克隆(Behavior Clone)：是一种在计算机系统中捕获和复制人类技能的方法。当人类主体执行技能时，他的动作与引起动作的状态会一起被代理记录下来。

请参考图2，其示出了本申请一个实施例提供的自助对话系统的实施例。该自助对话系统可以包括：计算机设备210和服务器220。

计算机设备210是指具备数据分析处理功能的设备，如可以是具备数据分析处理能力的PC(Personal Computer，个人计算机)、手机、平板电脑、多媒体播放设备、可穿戴设备、车载设备、自助终端、智能终端等设备，还可以是服务器等。如图2所示，本申请实施例中，计算机设备210可以通过自助对话代理实现与用户之间的对话交互。可选地，该对话交互的内容包括以下至少一种类型：文本、图片、数据、影像、视频等。其中，自助对话代理是一种通过强化学习技术进行训练的机器学习模型，该自助对话代理的训练过程可以由计算机设备210执行，也可以由服务器220执行，还可以由计算机设备210和服务器220分工协作执行，本申请实施例对此不作限定。

服务器220用于为在计算机设备210中运行的自助对话代理提供后台服务，示例性地，服务器220为自助对话代理的后台服务器。本申请实施例中，服务器220可以为自助对话代理提供对话策略数据这一先验知识，以在自助对话代理的学习过程中加入中间奖励。在一些示例中，服务器220还可以对自助对话代理进行训练或预训练等，例如，服务器220对自助对话代理进行预训练，并将完成预训练的自助对话代理发送至计算机设备210，以由计算机设备210继续完成对自助对话代理的学习和训练过程；或者，服务器220对自助对话代理进行训练，并将完成训练的自助对话代理发送至计算机设备210。可选地，服务器220可以是一台服务器，也可以是由多台服务器组成的服务器集群，还可以是一个云计算服务中心。可选地，服务器220与计算机设备210之间通过网络进行通信，该网络可以是有线网络，也可以是无线网络。

在一个示例中，服务器220采用行为克隆的方式，基于对话策略数据对自助对话代理进行预训练，并将对话策略数据和完成预训练的自助对话代理发送至计算机设备210；计算机设备210在自助对话代理与用户进行自助对话的过程中，不断进行自助对话代理的学习和训练，并且，在自助对话代理的学习过程中，计算机设备210结合对话策略数据设计奖励塑造机制，以将对话策略数据转化为中间奖励，来引导自助对话代理进行高效探索以提升学习效率。可选地，计算机设备210在自助对话代理与用户进行自助对话的过程中，不断收集对话数据等，并可以将学习探索过程中的成功数据(如成功的自助对话相关的数据)发送至服务器220，由服务器220基于成功数据更新对话策略数据，以不断累积和丰富对话策略数据。

需要说明的一点是，在应用过程中，可以仅通过计算机设备210实现自助对话代理的学习训练和使用过程。例如，计算机设备210可以从云端获取对话策略数据和自助对话代理，并对自助对话代理进行学习训练，以通过完成训练的自助对话代理实现与用户之间的自助对话。为了方便描述，图1以计算机设备210和服务器220这两个执行主体，对自助对话系统进行了介绍说明，应理解，这并不构成对本申请的限定。

需要说明的另一点是，本申请实施例提供的自助对话系统(自助对话代理)可以应用于多个领域，如智能医疗、智能营销、网络教学、智能客服、智能家居、自动驾驶、表单推荐等领域。例如，在应用于智能医疗领域的情况下，自助对话系统可以实现为上述辅助诊断对话系统，通过自助对话代理实现与患者的交互，为患者提供挂号科室建议、疾病诊断预测、住院时长预测、死亡风险评估、治疗方案预测、医疗知识搜索等。又例如，在应用于智能客服领域的情况下，通过自助对话代理实现与顾客的交互，为顾客提供产品推荐、产品查询、运输时长预测、产品售后服务、会员管理等。还例如，在应用于网络教学领域的情况下，通过自助对话代理实现与学生的交互，为学生提供疑惑解答、题目搜索、知识搜索、分数预测、学习时长评估、学习方案建议等。在下述实施例所涉及的示例中，仅以智能医疗领域为例进行说明，应理解，这并不构成对本申请提供的技术方案的限定。

请参考图3，其示出了本申请一个实施例提供的自助对话方法的流程图。该自助对话方法可应用于图2所示的自助对话系统中，如应用于图2所示的自助对话系统中的计算机设备210。如图3所示，该自助对话方法包括如下步骤(步骤310～步骤340)中的至少部分步骤。

步骤310，获取自助对话代理的对话策略数据，对话策略数据包括至少一组环境状态和对话动作。

对话策略数据是自助对话代理进行学习和训练过程中使用的专家数据(或称为专家策略)，其可以从真实人工对话中提取。示例性地，自助对话代理应用于智能医疗领域，对话策略数据可以从医生与患者的对话中提取。本申请实施例中，提取出的对话策略数据包括至少一组环境状态和对话动作，也即，环境状态和对话动作是成对从真实人工对话中提取的。

由于可供参考的真实人工对话可能有多条，且每一条真实人工对话又可能包括多轮对话，基于此，为了区分不同的对话过程，可选地，本申请实施例中，对话策略数据包括至少一个序列，每个序列包括至少一组环境状态和对话动作，从而，对话策略数据中的一个序列对应于一条真实人工对话，序列中的一组环境状态和对话动作则对应于真实人工对话中的一轮对话。示例性地，对话策略数据

其中，M为正整数，表示序列的个数(对应于真实人工对话的条数)；τⁱ即为对话策略数据中的第i个序列(或称为“轨迹”)，i为小于或等于M的正整数；

即为基于序列τⁱ对应的真实人工对话中的第n轮对话提取出的一组环境状态和对话动作。

本申请实施例对提取对话策略数据的执行主体不作限定，可选地，对话策略数据的提取可以由实现与用户进行自助对话交互的计算机设备执行，如由图2所示的自助对话系统中的计算机设备210执行；也可以由服务器执行并发送至计算机设备，如由图2所示的自助对话系统中的服务器220提取对话策略数据，并发送至实现与用户进行自助对话交互的计算机设备210。可选地，真实对话数据经过状态跟踪器和解析器可以提取出一系列由环境状态和对话动作对组成的序列集合，即对话策略数据。

步骤320，通过自助对话代理，基于环境的目标状态，得到与目标状态对应的目标动作。

自助对话代理是用于实现与用户进行自助对话交互的强化学习模型，可选地，自助对话代理与用户进行自助对话交互的内容包括但不限于以下几种类型：文本、图片、影响、数值、视频等。该自助对话代理能够捕捉与用户进行自助对话交互的过程中环境的状态，并基于环境的环境进行动作的决策。本申请实施例中，自助对话代理基于环境的目标状态，可以决策出与目标状态对应的目标动作。

本申请实施例中，自助对话代理可以通过贪心探索(如ε-greedy算法)来决策与目标状态对应的目标动作，该贪心探索可以选择一个概率为ε的随机动作作为目标动作，也可以采用贪心策略a＝argmax_aQ(s，a：θ)来确定目标动作，其中，a为目标动作，s为目标状态，Q(s，a：θ)为近似值函数，实现为由θ参数化的多层感知器(Multi-Layer Perceptron，MLP)。

步骤330，基于目标状态和目标动作与对话策略数据的一致性，以及目标动作的环境奖励，得到代理对话奖励。

在真实人工对话过程中，每一轮对话动作均可能影响对话过程的走向以及对话的成功率。基于此，本申请实施例中，自助对话代理针对目标状态做出目标动作的决策其实是一个贯序列决策问题，而贯序列决策问题并不是独立同分布(Independent AndIdentically Distributed)，在贯序列决策问题中，自助对话代理所做出的每一个动作都会影响环境的下一个状态，如果有一轮动作的决策有错误，这个错误就会被累积起来。另外，提取对话策略数据的真实人工对话有限，从而，对话策略数据通常不可能覆盖整个状态空间，对环境的状态概括可能远远不准确。此外，提取对话策略数据的真实人工对话的质量可能是次优的，这样也会限制自助对话代理所做出的测量的质量。

为了解决上述技术问题，本申请实施例中，利用对话策略数据进行奖励塑造，将对话策略数据转换为自助对话代理学习过程中额外的中间奖励，这种额外的中间奖励可以丰富稀疏的环境奖励(例如，自助对话代理应用于智能医疗，自助对话代理与患者的对话通常只有在对话结束时才能获得反馈的奖励，由于对话过程通常较长，从而该奖励是稀疏的环境奖励)，为自助对话代理提供有用的梯度信息。

本申请实施例中，利用对话策略数据塑造的奖励机制奖励那些与对话策略数据一致的决策，也就是说，在自助对话代理基于环境的目标状态做出目标动作的决策之后，除了考虑目标动作对应的稀疏的环境奖励(基本奖励信号)之外，还考虑目标状态和目标动作(自助对话代理所做出的决策)与对话策略数据的一致性，以引入中间奖励来丰富稀疏的环境奖励。基于此，本申请实施例中，基于目标状态和目标动作与对话策略数据的一致性，以及目标动作的环境奖励，得到自助对话代理的代理对话奖励，该代理对话奖励用于指示自助对话代理训练的目标。有关确定目标状态和目标动作与对话策略数据的一致性、代理对话奖励的计算方式等其它介绍说明，请参见下述实施例，此处不多赘述。

步骤340，基于代理对话奖励，调整自助对话代理的参数，得到完成训练的自助对话代理，完成训练的自助对话代理用于进行自助对话。

自助对话代理在实现与用户进行自助对话的过程中，以代理对话奖励为学习和训练的目标，从而，计算机设备不断调整自助对话代理的参数，以优化自助对话代理，得到完成训练的自助对话代理。也就是说，本申请实施例在自助对话代理的实际自助对话过程中，逐步扩展自助对话代理覆盖的场景和知识空间，不断地完善和优化自助对话代理，最终可以得到一个覆盖面广、精确度高的自助对话代理。

在一个示例中，上述步骤340，包括：基于代理对话奖励，确定代理对话价值，代理对话价值用于指示目标动作在自助对话代理的当前对话过程和未来对话过程中的价值；基于代理对话价值，确定代理对话损失，代理对话损失用于指示自助对话代理的准确性；采用随机梯度下降方法，基于代理对话损失，调整自助对话代理的参数，得到完成训练的自助对话代理。本申请实施例中，代理对话损失可以基于平方损失函数来得到，示例性地，代理对话损失L(θ)可以表示为：

其中，R_f是代理对话奖励；

是基于代理对话奖励得到的代理对话价值；Q为定期更新的目标值函数；γ为折扣因子，取值为[0，1]。

综上所述，本申请实施例提供的技术方案，通过在自助对话代理的学习和训练过程中，利用对话策略数据这一先验专家知识进行奖励塑造，将对话策略数据转化为额外的中间奖励嵌入到稀疏的环境奖励中，在一定程度上缓解了自助对话代理在强化学习过程中的稀疏奖励问题，提升了自助对话代理的收敛速度。并且，本申请实施例中，由于嵌入了额外的中间奖励，利用专业决策来奖励自助对话代理做出的类似于专业决策的动作，与人类定义的奖励相比，这个额外的中间奖励更具有示范性和参考性，能够为自助对话代理的强化学习提供有效的引导。另外，本申请实施例中，由于自助对话代理学习和训练的目标结合了先验专家知识，能够使得自助对话代理在强化学习过程中得到持续不断地有效引导，避免了大量的无效探索，有助于提升自助对话代理的学习效率。

在一个示例中，上述步骤310之后，还包括如下步骤(步骤350～步骤360)中的至少部分步骤。

步骤350，通过自助对话代理，基于对话策略数据，得到行为克隆损失。

行为克隆损失是指采用行为克隆的方式对自助对话代理进行预训练得到的损失。本申请实施例中，为了给自助对话代理提供较好的初始化参数，在获得对话策略数据后，采用行为克隆的方式基于对话策略数据，对自助对话代理进行预训练。对自助对话代理进行预训练的目标是使得自助对话代理生成的环境状态和对话动作的轨迹分布，与对话策略数据所指示的环境状态和对话动作的轨迹分布相匹配。在理想情况下，预训练的目标是使得上述两个轨迹分布相同，而应用过程中由于误差等影响，预训练的目标是使得上述两个轨迹分布尽可能地相似。

由上述介绍可知，本申请实施例中，行为克隆是从对话策略数据中进行学习，基于此，在一个示例中，上述步骤350，包括：以对话策略数据中环境状态为特征(Feature)、以对话策略数据中对话动作为标签(Label)，对自助对话代理进行预训练，得到行为克隆损失。也就是说，行为克隆将对话策略数据中的环境状态作为特征，将对话策略数据中的对话动作作为标签，进行动作分类从而得到最优策略模型。

本申请实施例对计算行为克隆损失时考虑的损失函数的类型不作限定，在一个示例中，计算行为克隆损失时考虑的损失函数包括但不限于以下至少一项：最大熵损失函数、交叉熵损失函数、平方损失函数等。示例性地，在计算行为克隆损失时考虑了最大熵损失函数，则针对自助对话代理的预训练的优化目标如下所示：

其中，L是行为克隆的最大熵损失函数；Q_θ是自助对话代理，θ为自助对话代理的参数；π_θ(a_t|s_t)为自助对话代理所做决策的条件概率分布；(s_t，a_t)对应于对话策略数据D^e中轨迹τ的第t轮对话。

步骤360，基于行为克隆损失，调整自助对话代理的参数，得到完成预训练的自助对话代理。

基于行为克隆损失，可以调整自助对话代理的参数，使得自助对话代理收敛，得到完成预训练的自助对话代理。其中，完成预训练的自助对话代理用于执行通过自助对话代理，基于环境的目标状态，得到与目标状态对应的目标动作的步骤。也即，在通过行为克隆完成自助对话代理的预训练之后，进一步在自助对话代理与用户进行自助对话交互的过程中，执行自助对话代理的学习和训练。

需要说明的一点是，本申请实施例对自助对话代理的预训练轮数不做限定，为了寻求自助对话代理更好的初始化参数，可以考虑进行多次行为克隆。并且，本申请实施例中，在对自助对话代理进行预训练的过程中，可以引入一些初始化的先验知识来入住行为克隆。

综上所述，本申请实施例提供的技术方案，通过在对自助对话代理进行强化学习之前，采用行为克隆的方法基于对话策略数据对自助对话代理进行预训练，使得自助对话代理快速地熟悉自助对话任务，为自助对话代理实现与用户之间的自助对话积累一定的经验。并且，本申请实施例中，通过行为克隆的方式对自助对话代理进行预训练，实现了为自助对话代理提供较好的初始化参数，以辅助自助对话代理在强化学习过程中更好地探索迭代，提升了学习效率。

由上述实施例可知，在自助对话代理的学习过程中，可以利用对话策略数据进行奖励塑造，以缓解稀疏的环境奖励。在奖励塑造时，通过对话策略数据转化得到的中间奖励F可以添加至稀疏的环境奖励R中，以创建一个新的奖励信号(代理对话奖励R_f)。从而，自助对话代理可以学习如下代理对话奖励：

R_f(s，a，s′)＝R(s，a，s′)+F(s，a，s′)。

然而，由于代理对话奖励定义了自助对话代理学习的任务，从而，修改代理对话奖励可能会修改策略的总顺序，并使得自助对话代理收敛到次优策略(仅针对稀疏的环境奖励)。基于此，可以定义状态势函数φ：s→R，并确保中间奖励F是状态势函数之差，则策略的总顺序不变，收敛也保证不变。其中，中间奖励F可以表示为：

F(s，a，s′)＝γφ(s′)-φ(s)。

其中，s是环境的状态，a是自助对话代理针对环境的状态s时决策的动作，s′是自助对话代理做出动作a的决策后环境变化后的状态，γ是折扣因子。

为了进一步在中间奖励中反映动作的质量，可以纳入动作知识，从而，中间奖励F可以表示为：

F(s，a，s′，a′)＝γφ(s′，a′)-φ(s，a)。

其中，φ(s，a)是状态和动作势函数，a′是自助对话代理针对环境的状态s′时决策的动作。

基于此，在一个示例中，上述步骤330包括如下步骤(步骤332～步骤338)中的至少部分步骤。

步骤332，从对话策略数据中，确定与目标状态和目标动作一致的目标环境状态和目标对话动作。

由上述实施例可知，利用对话策略数据塑造的奖励机制奖励那些与对话策略数据一致的决策。因此，需要从对话策略数据中，确定与自助对话代理做出的决策(基于目标状态做出目标动作的决策)相一致的先验决策(真实人工对话过程中，人工基于环境状态做出对话动作的决策)。

基于此，需要确定对话策略数据中与目标状态和目标动作一致的目标环境状态和目标对话动作，可选地，上述步骤332，包括：从对话策略数据包括的对话动作中，确定与目标动作一致的目标对话动作；将对话策略数据包括的环境状态中，与目标对话动作对应的环境状态，确定为目标环境状态。也即，本申请实施例中，可以优先寻找对话策略数据中与自助对话代理决策的目标动作相一致的对话动作(目标对话动作)，再进一步基于目标对话动作确定对应的目标环境状态。应理解，本申请实施例中的“一致”，包括相同或者相似。

步骤334，基于目标状态和目标动作与目标环境状态和目标对话动作之间的相似度，确定代理中间奖励。

由于利用对话策略数据塑造的奖励机制奖励那些与对话策略数据一致的决策，因此，在确定出与自助对话代理做出的决策相一致的先验决策之后，即可基于这两个决策之间的相似度，确定代理中间奖励(或称为中间奖励)，该代理中间奖励用于指示目标状态和目标动作与对话策略数据的一致性。

可选地，上述确定两个决策之间的相似度，包括：基于目标状态和目标环境状态，确定状态向量差，状态向量差用于指示目标状态和目标环境状态之间的偏差；基于状态向量差和状态向量差的转置，确定目标状态和目标动作与目标环境状态和目标对话动作之间的相似度。也即，可以采用多变量高斯来计算自助对话代理做出的决策与先验决策之间的相似度。示例性地，这两个决策之间的相似度G(s，a，s^d，a^d)表示为：

其中，s为环境目标状态，a为自助对话代理针对环境的目标状态时做出的目标动作，a^d为对话策略数据中存在的与目标动作a一致的目标对话动作，s^d是对话策略数据中与目标对话动作a^d对应的目标环境状态，T是向量的转置运算。应理解，若对话策略数据中不存在与目标动作a一致的对话动作，则自助对话代理做出的决策与对话策略数据之间的相似度为G(s，a，s^d，a^d)一0。当然，在应用过程中，除了采用多变量高斯来计算决策之间的相似度，也可以考虑采用其它相似度的奖励塑造函数，本申请实施例对此不作限定。

通过自助对话代理做出的决策与对话策略数据之间的相似度，可以获得具有最高相似度的样本，从而状态和动作势函数φ(s，a)可以为：

之后，将基于最高相似度的样本得到的状态和动作势函数φ(s，a)代入上述代理中间奖励F(s，a，s′，a′)＝γφ(s′，a′)-φ(s，a)，就可以确定代理中间奖励值。

步骤336，获取代理稀疏奖励，代理稀疏奖励用于指示目标动作的环境奖励。

由上述实施例可知，本申请实施例是在稀疏的环境奖励的基础上，结合利用对话策略数据转化得到的中间奖励，进行奖励塑造。从而，在确定自助对话代理学习和训练的目标时，仍然需要获取稀疏的环境奖励(或称为代理稀疏奖励)这一基本奖励信号。其中，代理稀疏奖励可以为上述R(s，a，s′)。

本申请实施例中，稀疏的环境奖励可以基于人类设定的学习目标得到。在一个示例中，可以通过成功率等测试指标来对自助对话代理的学习目标进行评估，可选地，通过对话成功率(自助对话代理解答完用户所有的问题以及做出正确的动作)、对话成功率的动态变化(或称为学习速率)、收敛成功率(自助对话代理收敛成功)、对话轮数(自助对话代理在多少轮对话中完成与用户之间的自助对话过程，通常，轮数越少越好)等中的一个或多个测试指标的平均值，来评估并更新自助对话代理的学习目标。

步骤338，基于代理中间奖励和代理稀疏奖励，确定代理对话奖励。

在分别获取代理中间奖励和代理稀疏奖励之后，即可基于这两方面的奖励创建复合奖励信号，即代理对话奖励。之后，在自助对话代理实现与用户进行自助对话交互的过程中，自助对话代理将该代理对话奖励作为学习和训练的目标，不断优化自助对话代理的参数，以使得自助对话代理收敛。

综上所述，本申请实施例提供的技术方案，通过将对话策略数据转化为额外的中间奖励，利用专业决策来奖励自助对话代理做出的类似于专业决策的动作，与人类定义的奖励相比，这个额外的中间奖励更具有示范性和参考性，能够为自助对话代理的强化学习提供有效的引导。另外，本申请实施例中，由于自助对话代理学习和训练的目标结合了先验专家知识，能够使得自助对话代理在强化学习过程中得到持续不断地有效引导，避免了大量的无效探索，有助于提升自助对话代理的学习效率。

在一个示例中，基于上述实施例，自助对话代理的强化学习过程可以表示为如下流程。

Input(输入)：N，M，∈，θ，C，D^a，D^e，γ，Z

Output(输出)：Q_θ(s，a)

下面，以自助对话代理应用于智能医疗领域为例，对本申请的技术方案进行介绍说明。

请参考图4，其示出了本申请一个实施例提供的自助对话方法的示意图。如图4所示，首先，可以从医生与患者的对话中提取对话策略数据存储在专家数据库中，该对话策略数据包括至少一组环境状态和对话动作。然后，自助对话代理的更新分为两部分。

如图4所示，自助对话代理的第一部分更新是采用行为克隆的方式进行预训练。以对话策略数据中环境状态为特征、以对话策略数据中对话动作为标签，进行动作分类从而得到最优策略模型。行为克隆的目标是使得自助对话代理生成的环境状态和对话动作的轨迹分布，与对话策略数据所指示的环境状态和对话动作的轨迹分布相匹配。通过行为克隆可以使得自助对话代理快速地学会一部分知识，然后，可以将完成预训练的自助对话代理投放至医院或线上医院等场景，使其实现与患者进行自助对话，并不断地在线学习。

如图4所示，自助对话代理的第二部分更新是结合奖励塑造在强化学习框架下进行训练，在奖励塑造机制的支持下，自助对话代理不断探索更优质的回复策略，不断地进行自我探索和更新。在奖励塑造过程中，结合专家数据库中的对话策略数据，并将对话策略数据转化为额外的中间奖励嵌入到基本奖励信号中，使得自助对话代理在强化学习过程中得到持续不断地有效引导，避免了大量的无效探索。

随着自助对话代理接触越来越多的患者，自助对话代理逐渐学到越来越丰富的策略，逐渐能做出越来越接近专家的决策和回复。另外，随着真实对话数据的不断积累，专家数据库中的对话策略数据不断丰富，从而，奖励塑造机制能给出越来越丰富的中间奖励，使得自助对话代理能覆盖更大的动作空间。在理想情况下，自助对话代理能够最终实现为一名“全科医生”。

请参考图5，其示出了本申请一个实施例提供的自助对话装置的框图。该装置具有实现上述图3实施例所述的自助对话方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置500可以包括：策略数据获取模块510、对话动作确定模块520、对话奖励确定模块530和第一参数调整模块540。

策略数据获取模块510，用于获取自助对话代理的对话策略数据，所述对话策略数据包括至少一组环境状态和对话动作。

对话动作确定模块520，用于通过所述自助对话代理，基于环境的目标状态，得到与所述目标状态对应的目标动作。

对话奖励确定模块530，用于基于所述目标状态和所述目标动作与所述对话策略数据的一致性，以及所述目标动作的环境奖励，得到代理对话奖励，所述代理对话奖励用于指示所述自助对话代理训练的目标。

第一参数调整模块540，用于基于所述代理对话奖励，调整所述自助对话代理的参数，得到完成训练的自助对话代理，所述完成训练的自助对话代理用于进行自助对话。

在一个示例中，如图6所示，所述对话奖励确定模块530，包括：对话策略匹配单元531，用于从所述对话策略数据中，确定与所述目标状态和所述目标动作一致的目标环境状态和目标对话动作；中间奖励确定单元533，用于基于所述目标状态和所述目标动作与所述目标环境状态和所述目标对话动作之间的相似度，确定代理中间奖励；所述代理中间奖励用于指示所述目标状态和所述目标动作与所述对话策略数据的一致性；稀疏奖励获取单元535，用于获取代理稀疏奖励，所述代理稀疏奖励用于指示所述目标动作的环境奖励；对话奖励确定单元537，用于基于所述代理中间奖励和所述代理稀疏奖励，确定所述代理对话奖励。

在一个示例中，如图6所示，所述对话策略匹配单元531，用于：从所述对话策略数据包括的对话动作中，确定与所述目标动作一致的目标对话动作；将所述对话策略数据包括的环境状态中，与所述目标对话动作对应的环境状态，确定为目标环境状态。

在一个示例中，如图6所示，所述对话奖励确定模块530还包括相似度确定单元539，用于：基于所述目标状态和所述目标环境状态，确定状态向量差，所述状态向量差用于指示所述目标状态和所述目标环境状态之间的偏差；基于所述状态向量差和所述状态向量差的转置，确定所述目标状态和所述目标动作与所述目标环境状态和所述目标对话动作之间的相似度。

在一个示例中，所述第一参数调整模块540，用于：基于所述代理对话奖励，确定代理对话价值，所述代理对话价值用于指示所述目标动作在所述自助对话代理的当前对话过程和未来对话过程中的价值；基于所述代理对话价值，确定代理对话损失，所述代理对话损失用于指示所述自助对话代理的准确性；采用随机梯度下降方法，基于所述代理对话损失，调整所述自助对话代理的参数，得到所述完成训练的自助对话代理。

在一个示例中，如图6所示，所述装置500还包括：克隆损失确定模块550，用于通过所述自助对话代理，基于所述对话策略数据，得到行为克隆损失，所述行为克隆损失是指采用行为克隆的方式对所述自助对话代理进行预训练得到的损失；第二参数调整模块560，用于基于所述行为克隆损失，调整所述自助对话代理的参数，得到完成预训练的自助对话代理；其中，所述完成预训练的自助对话代理用于执行通过所述自助对话代理，基于环境的目标状态，得到与所述目标状态对应的目标动作的步骤。

在一个示例中，如图6所示，所述克隆损失确定模块550，用于：以所述对话策略数据中所述环境状态为特征、以所述对话策略数据中所述对话动作为标签，对所述自助对话代理进行预训练，得到所述行为克隆损失。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图7，其示出了本申请实施例提供的计算机设备的结构框图，该计算机设备可用于实现上述自助对话方法示例的功能。具体来讲：

该计算机设备700包括处理单元(如CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图形处理器)和FPGA(Field Programmable GateArray，现场可编程逻辑门阵列)等)701、包括RAM(Random-Access Memory，随机存储器)702和ROM(Read-Only Memory，只读存储器)703的系统存储器704，以及连接系统存储器704和中央处理单元701的系统总线705。该计算机设备700还包括帮助计算计算机设备内的各个器件之间传输信息的I/O系统(Input Output System，基本输入/输出系统)706，和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

该基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中，该显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。该基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

该大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。该大容量存储设备707及其相关联的计算机可读介质为计算机设备700提供非易失性存储。也就是说，该大容量存储设备707可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦写可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

根据本申请实施例，该计算机设备700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备700可以通过连接在该系统总线705上的网络接口单元711连接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。

该存储器还包括至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述自助对话方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述自助对话方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述自助对话方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种自助对话方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标状态和所述目标动作与所述对话策略数据的一致性，以及所述目标动作的环境奖励，得到代理对话奖励，包括：

从所述对话策略数据中，确定与所述目标状态和所述目标动作一致的目标环境状态和目标对话动作；

基于所述目标状态和所述目标动作与所述目标环境状态和所述目标对话动作之间的相似度，确定代理中间奖励；所述代理中间奖励用于指示所述目标状态和所述目标动作与所述对话策略数据的一致性；

获取代理稀疏奖励，所述代理稀疏奖励用于指示所述目标动作的环境奖励；

基于所述代理中间奖励和所述代理稀疏奖励，确定所述代理对话奖励。

3.根据权利要求2所述的方法，其特征在于，所述从所述对话策略数据中，确定与所述目标状态和所述目标动作一致的目标环境状态和目标对话动作，包括：

从所述对话策略数据包括的对话动作中，确定与所述目标动作一致的目标对话动作；

将所述对话策略数据包括的环境状态中，与所述目标对话动作对应的环境状态，确定为目标环境状态。

4.根据权利要求2所述的方法，其特征在于，所述基于所述目标状态和所述目标动作与所述目标环境状态和所述目标对话动作之间的相似度，确定代理中间奖励之前，还包括：

基于所述目标状态和所述目标环境状态，确定状态向量差，所述状态向量差用于指示所述目标状态和所述目标环境状态之间的偏差；

基于所述状态向量差和所述状态向量差的转置，确定所述目标状态和所述目标动作与所述目标环境状态和所述目标对话动作之间的相似度。

5.根据权利要求1所述的方法，其特征在于，所述基于所述代理对话奖励，调整所述自助对话代理的参数，得到完成训练的自助对话代理，包括：

基于所述代理对话奖励，确定代理对话价值，所述代理对话价值用于指示所述目标动作在所述自助对话代理的当前对话过程和未来对话过程中的价值；

基于所述代理对话价值，确定代理对话损失，所述代理对话损失用于指示所述自助对话代理的准确性；

采用随机梯度下降方法，基于所述代理对话损失，调整所述自助对话代理的参数，得到所述完成训练的自助对话代理。

6.根据权利要求1所述的方法，其特征在于，所述获取自助对话代理的对话策略数据之后，还包括：

通过所述自助对话代理，基于所述对话策略数据，得到行为克隆损失，所述行为克隆损失是指采用行为克隆的方式对所述自助对话代理进行预训练得到的损失；

基于所述行为克隆损失，调整所述自助对话代理的参数，得到完成预训练的自助对话代理；

其中，所述完成预训练的自助对话代理用于执行通过所述自助对话代理，基于环境的目标状态，得到与所述目标状态对应的目标动作的步骤。

7.根据权利要求6所述的方法，其特征在于，所述通过所述自助对话代理，基于所述对话策略数据，得到行为克隆损失，包括：

以所述对话策略数据中所述环境状态为特征、以所述对话策略数据中所述对话动作为标签，对所述自助对话代理进行预训练，得到所述行为克隆损失。

8.一种自助对话装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述对话奖励确定模块，包括：

对话策略匹配单元，用于从所述对话策略数据中，确定与所述目标状态和所述目标动作一致的目标环境状态和目标对话动作；

中间奖励确定单元，用于基于所述目标状态和所述目标动作与所述目标环境状态和所述目标对话动作之间的相似度，确定代理中间奖励；所述代理中间奖励用于指示所述目标状态和所述目标动作与所述对话策略数据的一致性；

稀疏奖励获取单元，用于获取代理稀疏奖励，所述代理稀疏奖励用于指示所述目标动作的环境奖励；

对话奖励确定单元，用于基于所述代理中间奖励和所述代理稀疏奖励，确定所述代理对话奖励。

10.根据权利要求8所述的装置，其特征在于，所述第一参数调整模块，用于：

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

克隆损失确定模块，用于通过所述自助对话代理，基于所述对话策略数据，得到行为克隆损失，所述行为克隆损失是指采用行为克隆的方式对所述自助对话代理进行预训练得到的损失；

第二参数调整模块，用于基于所述行为克隆损失，调整所述自助对话代理的参数，得到完成预训练的自助对话代理；

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的自助对话方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的自助对话方法。