CN112131362A

CN112131362A - 对话语句生成方法和装置、存储介质及电子设备

Info

Publication number: CN112131362A
Application number: CN202011003604.3A
Authority: CN
Inventors: 张金超; 刘思宏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-25
Anticipated expiration: 2040-09-22
Also published as: CN112131362B

Abstract

本申请实施例公开了一种人工智能的对话语句生成方法和装置、存储介质及电子设备。其中，该方法包括：获取第一帐号的目标语句，其中，目标语句为第一帐号发起的交互语句；将目标语句输入到目标交互模型中，其中，目标交互模型为在获取到对话样本集合中的对话样本的复杂度参数后，按照复杂度参数所表示的运算复杂度从低到高的顺序，使用对话样本对神经网络模型进行训练后的到的模型；获取目标交互模型输出的回复语句，回复语句为用于与交互语句进行交互的语句。本申请实施例解决了回复语句准确度差的技术问题。

Description

对话语句生成方法和装置、存储介质及电子设备

技术领域

本申请实施例涉及人工智能领域，具体而言，涉及一种对话语句生成方法和装置、存储介质及电子设备。

背景技术

相关技术中，在使用机器与人进行问答交互的过程中，可以由机器获取人的交互语句，然后对于人所提出的交互语句进行回答，将回复语句展示给发起问答交互的人类。其中，机器人回答的内容通常可以采用神经网络模型进行获取。即，预训练神经网络模型来回答人所提出的问题。

然而，现有技术中，由于训练的样本数据彼此之间差异较大，进一步不同的样本之间存在较大的难度差异，造成对模型的训练效果差，进一步造成问答交互过程中，机器输出的回复语句准确度差的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种对话语句生成方法和装置、存储介质及电子设备，以至少解决回复语句准确度差的技术问题。

根据本申请实施例的一个方面，提供了一种对话语句生成方法，包括：获取第一帐号的目标语句，其中，上述目标语句为上述第一帐号发起的交互语句；将上述目标语句输入到目标交互模型中，其中，上述目标交互模型为在获取到对话样本集合中的对话样本的复杂度参数后，按照上述复杂度参数所表示的运算复杂度从低到高的顺序，使用上述对话样本对神经网络模型进行训练后的到的模型，上述复杂度参数为使用上述对话样本的当前对话动作a_t与当前对话状态s_t的实际特征φ(s_t)确定出的上述对话样本的特征误差所确定出的参数；获取上述目标交互模型输出的回复语句，其中，上述回复语句为用于与上述交互语句进行交互的语句上述上述。

根据本申请实施例的另一方面，还提供了一种对话语句生成装置，包括：第一获取单元，用于获取第一帐号的目标语句，其中，上述目标语句为上述第一帐号发起的交互语句；输入单元，用于将上述目标语句输入到目标交互模型中，其中，上述目标交互模型为在获取到对话样本集合中的对话样本的复杂度参数后，按照上述复杂度参数所表示的运算复杂度从低到高的顺序，使用上述对话样本对神经网络模型进行训练后的到的模型，上述复杂度参数为使用上述对话样本的当前对话动作a_t与当前对话状态s_t的实际特征φ(s_t)确定出的上述对话样本的特征误差所确定出的参数；第二获取单元，用于获取上述目标交互模型输出的回复语句，其中，上述回复语句为用于与上述交互语句进行交互的语句上述上述。

作为一种可选的实施方式，上述装置还包括：第三获取单元，用于在将上述目标语句输入到上述目标交互模型中之前，获取上述对话样本集合中的上述对话样本的当前对话动作a_t以及上述当前对话状态s_t的实际特征φ(s_t)；第一确定单元，用于根据上述当前对话动作a_t以及上述当前对话状态s_t的实际特征φ(s_t)，确定上述对话样本的下一个对话状态s_t+1的预估特征

第二确定单元，用于根据上述下一个对话状态s_t+1的实际特征φ(s_t+1)和上述下一个对话状态的预估特征

确定上述对话样本的第t+1个特征误差m(t+1)；第三确定单元，用于根据上述对话样本的N个特征误差，确定上述对话样本的复杂度参数，其中，上述N个特征误差包括上述第t+1个特征误差m(t+1)，0≤t≤N-1，N为自然数，上述复杂度参数用于表示上述对话样本的运算复杂度，训练单元，用于使用上述对话样本训练上述神经网络模型。

作为一种可选的实施方式，上述第一确定单元包括：处理模块，用于通过预设的特征预测网络模型以及上述特征预测网络模型中的网络学习参数θ，对上述当前对话动作a_t以及上述当前对话状态s_t的实际特征φ(s_t)进行处理，得到上述对话样本的下一个对话状态s_t+1的预估特征

作为一种可选的实施方式，上述处理模块包括：第一确定子模块，用于将上述预估特征

确定为：

其中，g(·)为上述特征预测网络模型。

作为一种可选的实施方式，上述第二确定单元包括：第一确定模块，用于根据上述实际特征φ(s_t+1)和上述预估特征

之间的均方误差，确定上述对话样本的第t+1个特征误差m(t+1)。

作为一种可选的实施方式，上述第一确定模块包括：第二确定子模块，用于将上述第t+1个特征误差m(t+1)确定为：

其中，η为预设的比例因子。

作为一种可选的实施方式，上述第三确定单元包括：第二确定模块，用于将上述对话样本的复杂度参数f_score确定为：

作为一种可选的实施方式，上述第二确定模块包括：生成子模块，用于对于用户目标G_i，基于用户目标生成K组不同的对话u_K；计算子模块，用于计算上述用户目标生成对话的平均难度，作为上述用户目标的难度评估：

作为一种可选的实施方式，上述训练单元包括：第三确定模块，用于在根据上述对话样本的N个特征误差，确定上述对话样本的复杂度参数之后，根据预设的超参数，上述t和上述N，确定第t个采样参数；采样模块，用于按照上述第t个采样参数，对上述对话样本集合进行采样，得到第t组对话样本，其中，上述对话样本集合中的对话样本按照上述复杂度参数所表示的运算复杂度从低到高的顺利排列；训练模块，用于使用上述第t组对话样本训练上述。

作为一种可选的实施方式，上述采样模块包括：第三确定子模块，用于将上述第t个采样参数f_pace确定为：

其中，上述c₀为上述预设的超参数。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述对话语句生成方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的对话语句生成方法。

在本申请实施例中，采用获取第一帐号的目标语句，其中，上述目标语句为上述第一帐号发起的交互语句；将上述目标语句输入到目标交互模型中，其中，上述目标交互模型为在获取到对话样本集合中的对话样本的复杂度参数后，按照上述复杂度参数所表示的运算复杂度从低到高的顺序，使用上述对话样本对神经网络模型进行训练后的到的模型，上述复杂度参数为使用上述对话样本的当前对话动作a_t与当前对话状态s_t的实际特征φ(s_t)确定出的上述对话样本的特征误差所确定出的参数；获取上述目标交互模型输出的回复语句，其中，上述回复语句为用于与上述交互语句进行交互的语句上述上述的方法。在上述方法中，由于可以获取对话样本集合中的对话样本的对话状态的实际特征与对话动作，从而可以通过确定特征误差的方法来确定每一个对话样本的复杂度参数，进一步按照复杂度参数进行排序，以及从排序后的对话样本集合中获取对话样本对模型进行训练，提高了模型的训练效果，进一步提高了获取到的回复语句的准确度，解决了回复语句准确度差的技术问题。

附图说明

此处所说明的附图用来提供对本申请实施例的进一步理解，构成本申请实施例的一部分，本申请实施例的示意性实施例及其说明用于解释本申请实施例，并不构成对本申请实施例的不当限定。在附图中：

图1是根据本申请实施例的一种可选的对话语句生成方法的应用环境的示意图；

图2是根据本申请实施例的另一种可选的对话语句生成方法的应用环境的示意图；

图3是根据本申请实施例的一种可选的对话语句生成方法的流程示意图；

图4是根据本申请实施例的一种可选的对话语句生成方法的对话样本示意图；

图5是根据本申请实施例的一种可选的对话语句生成方法的数据走向与处理示意图；

图6是根据本申请实施例的一种可选的对话语句生成方法的模型使用场景示意图；

图7是根据本申请实施例的另一种可选的对话语句生成方法的模型使用场景示意图；

图8是根据本申请实施例的又一种可选的对话语句生成方法的模型使用场景示意图；

图9是根据本申请实施例的一种可选的对话语句生成方法的流程示意图；

图10是根据本申请实施例的一种可选的对话语句生成装置的结构示意图；

图11是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请实施例一部分的实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

需要说明的是，本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence，简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，简称ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

根据本申请实施例的一个方面，提供了一种基于人工智能与机器学习的对话语句生成方法，可选地，作为一种可选的实施方式，上述对话语句生成方法可以但不限于应用于如图1所示的环境中。

终端设备102包括存储器104，用于存储数据，处理器106，用于处理数据，显示器108，用于显示数据。终端设备102可以为第一帐号使用的终端。终端设备102可以用于获取目标语句，并将目标语句通过步骤S102通过网络110发送给服务器112，服务器112包括数据库114，用于存储数据，处理引擎116，用于处理数据。服务器上可以布置目标交互模型。服务器可以执行步骤S104，将目标语句输入目标交互模型，并通过S106，将回复语句返回给终端设备102。

作为一种可选的实施方式，上述对话语句生成方法可以但不限于应用于如图2所示的环境中。与图1的区别在于，本实施例中目标交互模型可以布置在终端设备102上。终端设备102可以通过S202获取第一帐号的目标语句，然后将目标语句输入到目标交互模型中，在得到回复语句后，通过S204将回复语句返回给第一帐号，可以通过显示的方式使第一帐号查看回复语句。

可选地，在本实施例中，上述终端设备102可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile InternetDevices，移动互联网设备)、PAD、台式电脑、智能电视等。上述网络110可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器112可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。

服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图3所示，上述对话语句生成方法包括：

S302，获取第一帐号的目标语句，其中，目标语句为第一帐号发起的交互语句；

S304，将目标语句输入到目标交互模型中，其中，目标交互模型为在获取到对话样本集合中的对话样本的复杂度参数后，按照复杂度参数所表示的运算复杂度从低到高的顺序，使用对话样本对神经网络模型进行训练后的到的模型，复杂度参数为使用对话样本的当前对话动作a_t与当前对话状态s_t的实际特征φ(s_t)确定出的对话样本的特征误差所确定出的参数；

S306，获取目标交互模型输出的回复语句，其中，回复语句为用于与交互语句进行交互的语句。

可选地，本申请实施例中的上述对话语句的生成方法，可以应用在人机交互的过程中。例如，语音人机交互或者文本人机交互。如果为语音人机交互，则可以获取人的语音信息，然后模型分析语音信息，给出对应的回答。如果是文本人机交互，则模型可以获取输入的文本信息，并基于该文本信息，返回对应的回答，从而实现模拟人来与用户进行问答交互的效果。

可选地，本申请实施例中的目标交互模型可以但不限于布置在终端或者服务器上。如果模型被布置在终端上，则终端可以直接获取用户的语音或者输入的内容，并对该内容进行分析，以及对用户的内容进行回答。如果模型被布置在服务器上，则可以通过服务器与终端的交互，获取用户的语音或者输入的内容，并给出相应的回答。

例如，以模型应用在终端上为例，用户可以通过终端上的麦克风来收集用户的语音。例如，用户发起语音“你是谁”，则终端获取语音，然后，模型识别语音，并给出对应的交互结果。例如，“你猜”，或者“我是你的贴心助手”等。具体回复的内容可以根据模型的训练结果进行自动反馈。

本申请实施例中模型可以应用在多种场景中。例如，应用在游戏中，可以作为游戏语音助手与用户进行问答交互，用户可以在游戏的过程中随时与游戏语音助手进行问答交互。本申请实施例还可以应用在多轮对话系统或者文本生成的过程中等。以及，还可以应用在机器翻译系统、文本摘要、文本分类系统中。

可选地，由于在上述方法中，由于可以获取对话样本集合中的对话样本的对话状态的实际特征与对话动作，从而可以通过确定特征误差的方法来确定每一个对话样本的复杂度参数，进一步按照复杂度参数进行排序，以及从排序后的对话样本集合中获取对话样本对模型进行训练，提高了模型的训练效果。由于模型的训练效果更好，因此模型输出的回复语句的准确度更高。

可选的，本申请中的目标交互模型需要使用对话样本进行训练，对话样本按照运算复杂度由低到高的顺序对目标交互模型进行训练，实现模型由易到难的学习样本的效果。

在确定对话样本的复杂度参数之前，需要获取对话样本。可选地，本申请实施例中可以预先获取对话样本集合，对话样本集合中包括多个或者多组对话样本。对话样本可以为一问一答的形式，多问多答的对话样本为一个或者为一组对话样本。例如，甲：“你吃了吗？”乙：“吃了”。甲：“吃的什么？”乙：“瞎吃了点”。上述内容涉及到两个人的问答，多问多答为一个对话样本。

当然，上述内容仅为示例，本申请实施例并不是对问答的内容进行限定。语句并不一定为问题或者回答，只要属于两者交互的内容均可。例如，甲：“天气真好啊！”乙：“是啊，难得。”另外，本申请实施例并不是一定要一问一答的形式才能组成对话样本，也可以为多问一答或者多答一问的形式均可。例如，多问一答的形式可以为：甲：“天气真好啊！”。甲：“有兴趣爬山吗”乙：“去哪。”本申请实施例中只需要两者之间的交互语句即可作为对话样本。

本申请实施例中的对话样本包括多个问答，多个问答组成一个对话样本。处于当前时刻的问答可以为当前对话样本，下一阶段或者下一时刻的问答可以为下一对话样本等。例如，如图4所示，图4是一个对话样本的示意图，该对话样本中，分为三个对话状态402，每一个时间t对应一个对话状态402。

可选地，本申请实施例中的对话样本的对话状态可以为对话样本的内容。对话动作a_t可以根据对话状态s_t来确定决策。具体可以通过策略π(S_t,a_t；θ_Q)来确定对话动作a_t。上述内容中，θ为一个网络学习参数。

本申请实施例中可以使用时间t来约束对话样本。一个对话样本在一个时间t可能有不同的状态。当前t的对话状态可以为当前对话状态，下一个时间t的状态可以为下一对话状态。

在确定对话复杂度参数时，本申请实施例可以根据当前对话动作a_t以及当前对话状态s_t的实际特征φ(s_t)，确定对话样本的下一个对话状态s_t+1的预估特征

具体可以通过预设的特征预测网络模型以及特征预测网络模型中的网络学习参数θ，对当前对话动作a_t以及当前对话状态s_t的实际特征φ(s_t)进行处理，得到对话样本的下一个对话状态s_t+1的预估特征

可选地，本申请实施例中可以根据实际特征φ(s_t+1)和预估特征

之间的均方误差，确定对话样本的第t+1个特征误差m(t+1)。当然，均方误差只是本申请实施例所采用的一种方式，本申请实施例还可以采用其他误差公式计算特征误差。

可选地，本申请实施例中在计算出每一个对话状态的实际特征与预估特征的特征误差之后，可以将一个对话样本的每一个对话状态的特征误差进行求和，得到对话样本的复杂度参数。上述复杂度参数用于表示对话样本的运算复杂度。

通过上述方法，可以计算得到每一个对话样本的复杂度参数，可以按照复杂度参数对对话样本由易到难进行排序。排序之后，位于排序队列前边的对话样本运算复杂度比较简单，位于队列后的对话样本运算复杂度高。

在排序之后，本申请实施例可以由易到难从对话样本的排序队列中获取一组对话样本，然后对模型进行训练，在训练之后，可以获取稍难的一组对话样本，对模型进行训练。从而，使用由易到难的对话样本逐步对模型进行训练，从而提高模型的训练效果。

本申请实施例的具体过程结合图5进行说明。图5中的502为对话样本，对话样本的标号1-7表示复杂度参数(数字仅为示例)，数字越大，复杂度越高。

对于对话样本集合，在训练模型之前需要预先获取。然后，对于对话样本集合中的每一个对话样本，首先进行对话复杂度评估(Dialogue Complexity Evaluation)过程，得到每一个对话样本的复杂度参数。然后，将评估好的对话样本，通过策略学习课程(PolicyLearning Curriculum)进行规划，可以由易到难进行排序或者由难到易进行排序或者使用其他排序方法进行对话样本的排序。最后将课程学习课程规划后的对话样本提供给策略学习(Policy learning)模块进行学习，以提高策略学习模块的学习效果。

在对话复杂度评估(Dialogue Complexity Evaluation)模块中，通过自动打分函数(Automatic Scoring Function)将对话样本(Original samples)进行难度评分，并按照得分排序得到排序后的对话样本(Ordered samples)。由策略学习课程(Policy LearningCurriculum)模块在每一个时间步骤t,通过一个步骤函数(Pacing Function)将按照难度评估分数排序后的样本，通过步骤函数输出的抽样比例从易到难抽出一组对话样本投入到策略学习(policy learning)中进行训练。

本申请实施例主要通过上述对话复杂度评估模块(Dialogue ComplexityEvaluation)，策略学习课程模块(Policy Learning Curriculum)来实现。首先，在基于强化学习的对话策略学习过程中，在每一个时间步t(时间步t可以为一个时间段，每一个时间步对应一段时间)，系统观察到当前的对话状态S_t，输入当前的对话状态，通过策略π(S_t,a_t；θ_Q)决策当前的对话动作a_t，其中网络学习的参数为θ_Q。

环境会根据当前的对话动作反馈给系统相应的奖励r_t，系统接收到当前奖励后会转移到下一状态，系统的优化目标为最大化累积的期望奖励：

在将课程学习应用到对话策略的过程中，对话复杂度评估模块的功能是对用于训练的对话数据进行难度的评估。本申请实施例可以使用状态差分空间对对话进行难度评估，使用状态特征编码网络φ(·)对策略学习过程中的对话状态进行编码，再应用特征预测网络g(.)，输入当前的对话动作a_t以及当前状态的特征编码φ(s_t)，得到下一状态的特征预测

预测过程如下：

在得到下一状态的状态特征预测时候，可以计算预测的对话状态特征

和实际对话状态特征φ(s_t+1)之间的均方误差作为当前对话状态的难度评估，表示结果如下：

公式中的η为比例因子，上述公式计算了潜在特征空间中实际的状态特征与预测的状态特征之间状态的特征编码差异，表示了系统需要探索的状态差分空间。状态差分空间越小，真实状态特征和预测状态特征之间的误差越小，表明系统学习掌握了当前的对话策略，进而表征当前的对话状态是容易学习的。因此，本申请实施例可以应用状态特征差异函数m(t)，网络学习的参数为θ_m，来评估当前的训练样本对于当前系统进行训练学习的难度。因此联合优化强化学习过程以及难度评估过程如下：

因此对于当前对话的难度评分f_score定义为整个对话中的状态评估的累加。也就是说，对于N个状态，则对应N个难度评分，将N个难度评分进行累加，可以得到对话样本的复杂度参数。

其中u_k为第k个对话进程(或对话状态)，

为第k个对话进程的难度评估。

此外，在另一方面，在基于强化学习的对话策略学习过程中，用户和系统的交互是围绕用户目标进行的，因此除了评估对话难度之外，本申请实施例可以同时对用户目标进行了难度评估。对于给定的用户目标G_i，可以基于该目标生成K组不同的对话u_k，本申请实施例可以计算该用户目标生成对话的平均难度，作为该目标的难度评估：

至此，本申请实施例中的所有的对话样本的复杂度参数均已经得到，之后，可以按照复杂度参数对对话样本进行排序。

对于按照难度评估后从易到难排序的对话样本，本申请实施例从简单样本开始，按照步骤函数f_pace对样本进行采样，在训练的初始阶段策略学习模型学习简单的样本(对话样本)，即从难度评估分数较低的简单样本开始学习策略，随着学习的进行，更多难度评估分数较高，即较难的样本被加入到训练当中，进而实现课程学习中从易到难的学习。

其中，N为总体训练进程，t为当前训练的时间步，C₀为超参数。超参数为预设的参数。

具体IDE算法可以如下：将每一个对话目标G_i存储在集合D_total中，初始化对话策略π(S_t,a_t；θ_Q,θ_m)，在从n＝1到N的训练进程中，每次用户基于用户目标G_i与系统进行交互生成多组对话u₁...u_k，来更新对话策略π(S_t,a_t；θ_Q,θ_m)，然后存储更新对话的训练元组S_t,a_t；r_t,S_t+1，进而对于G_i每一组对话τ_k以及每一个对话目标G_i计算难度分数f_score，得到按照分数排序后的对话目标集合D_order。再应用步骤函数f_score来抽样D_order集合中的样本，训练和更新对话策略π(S_t,a_t；θ_Q,θ_m)。

Algorithm 1Scheduled Dialogue Policy Learning

Require:Dialog user goal set D_total with each user goal{G_i},N

Ensure:Dialog policyπ(S_t,a_t；θ_Q,θ_m)

1:initialize S_t,a_t；r_t,S_t+1

2:for n＝1:N do

3:#Dialogue Complexity Evaluation starts

4:user starts dialogues u₁...u_k based onG_i

5：update the dialogue process byπ(S_t,a_t；θ_Q,θ_m)

6：store training tuples{S_t,a_t；r_t,S_t+1}for each dialog u_k

7：compute complexity score for u_k and G_i by f_score in Sec.3.2

8：sort D_totalwith the complexity score to obtainD_total

9：#policy Learning Curriculum starts

10：sample batches from D_total by f_pace in Eq.7.

11：user starts dialogues D_order based onG_i

12：agent updatesπ(S_t,a_t；θ_Q,θ_m)by interacting with the user

13:end for

通过本实施例，通过上述方法，从而在训练模型的过程中，可以准确计算出对话样本的复杂度参数，提高了模型的训练效果。

本申请实施例的模型训练后可以应用在多种场景。例如，可以将模型应用在与用户进行问答交互的场景。使用终端运行的客户端可以实现用户与模型的问答交互。如图6所示，用户可以通过客户端显示界面中的输入框602输入内容604，则模型可以根据用户输入的内容给予回复606。

或者，如图7所示，用户可以在游戏的过程中，通过按下客户端显示界面的录音按钮702，并开始说话，模型可以获取用户的语音内容，并分析，给出回复。回复可以通过终端的扬声器进行播放。如图8所示，终端可以在客户端的显示界面上显示模型回复的内容802。

结合图9对本申请的使用与模型的训练进行说明。如图9所示，将本申请中的对话样本生成方法应用在与用户进行文本交互的过程中。终端设备902可以通过步骤S902获取用户输入的交互语句，然后，通过终端设备902内的目标交互模型904通过S906给出回复语句，回复语句可以回复用户，从而实现人机进行文本交互的目的。而目标交互模型904是使用对话样本集合预先对神经网络模型906进行训练后得到的模型。对话样本集合中的对话样本按照复杂度参数从小到大的顺序排列，训练神经网络模型906时，先使用复杂度参数小的对话样本训练，再使用复杂度参数大的对话样本训练。对话样本的复杂度参数，可以获取对话样本的当前对话动作与当前对话状态的实际特征，用对话样本的当前对话动作与当前对话状态的实际特征来确定对话样本的下一个对话状态的预估特征，将下一个对话状态的预估特征与下一个对话状态的实际特征进行比对，得到特征误差，将对话样本的多个特征误差的和确定为对话样本的复杂度参数。在获取对话样本对神经网络模型906进行训练的过程中，可以直接按照复杂度参数从小到大的顺序，依次使用对话样本训练神经网络模型。或者，可以每一个训练周期从对话样本中获取一组对话样本，使用一组对话样本对模型进行训练。一组对话样本可以为对话样本中的前t个对话样本，随着t的增大，用于训练的一组对话样本中包括的对话样本的难度越大，从而实现由易到难对模型进行训练的目的。

作为一种可选的实施方式，在将目标语句输入到目标交互模型中之前，上述方法还包括：

获取对话样本集合中的对话样本的当前对话动作a_t以及当前对话状态s_t的实际特征φ(s_t)；

根据当前对话动作a_t以及当前对话状态s_t的实际特征φ(s_t)，确定对话样本的下一个对话状态s_t+1的预估特征

根据下一个对话状态s_t+1的实际特征φ(s_t+1)和下一个对话状态的预估特征

确定对话样本的第t+1个特征误差m(t+1)；

根据对话样本的N个特征误差，确定对话样本的复杂度参数，其中，N个特征误差包括第t+1个特征误差m(t+1)，0≤t≤N-1，N为自然数，复杂度参数用于表示对话样本的运算复杂度；

使用对话样本训练神经网络模型。

也就是说，在使用目标交互模型之前，需要对目标交互模型进行训练。而训练过程中，需要使用对话样本对模型进行训练。由于可以通过上述方法确定对话样本的运算复杂度，获取到的运算复杂度的准确度与效率更高，进一步在对模型进行训练时，可以有选择的从易到难训练模型，提高模型的训练准确度。

作为一种可选的实施方式，根据当前对话动作a_t以及当前对话状态s_t的实际特征φ(s_t)，确定对话样本的下一个对话状态s_t+1的预估特征

包括：

通过预设的特征预测网络模型以及特征预测网络模型中的网络学习参数θ，对当前对话动作a_t以及当前对话状态s_t的实际特征φ(s_t)进行处理，得到对话样本的下一个对话状态s_t+1的预估特征

也就是说，本申请实施例中在训练模型的过程中，可以根据特征预测网络模型来预测下一个对话状态的的预估特征

通过特征预测网络模型来预测下一个对话状态的的预估特征

可以有效提高估计特征的预估准确度。

通过本实施例，通过上述方法，从而在确定预估特征的过程中，可以通过特征预测网络模型来预测下一个对话状态的的预估特征，有效提高了预估特征的准确度。

作为一种可选的实施方式，通过预设的特征预测网络模型以及特征预测网络模型中的网络学习参数θ，对当前对话动作a_t以及当前对话状态s_t的实际特征φ(s_t)进行处理，得到对话样本的下一个对话状态s_t+1的预估特征

包括：

将预估特征

确定为：

其中，g(·)为特征预测网络模型。

也就是说，本申请实施例中可以通过如上公式来确定预估特征。在确定预估特征的过程中，可以使用特征预测网络模型有效的提高预估特征的准确度。

作为一种可选的实施方式，根据下一个对话状态s_t+1的实际特征φ(s_t+1)和下一个对话状态的预估特征

确定对话样本的第t+1个特征误差m(t+1)，包括：

根据实际特征φ(s_t+1)和预估特征

之间的均方误差，确定对话样本的第t+1个特征误差m(t+1)。

可选地，本申请实施例中可以使用上述均方误差公式，还可以使用相对误差公式或者标准误差公式等来计算特征误差。

本申请实施例通过上述方法，通过计算实际特征与预估特征之间的差异作为特征误差，从而可以提高确定的特征误差的准确性。

作为一种可选的实施方式，根据实际特征φ(s_t+1)和预估特征

之间的均方误差，确定对话样本的第t+1个特征误差m(t+1)，包括：

将第t+1个特征误差m(t+1)确定为：

其中，η为预设的比例因子。

可选地，本申请实施例上述公式中，还可以删除比例因子，删除比例因子同样可以实现特征误差的计算。而加入比例因子，可以使用比例因子对特征误差进行调整，进一步保证特征误差的准确性。

作为一种可选的实施方式，根据对话样本的N个特征误差，确定对话样本的复杂度参数，包括：

将对话样本的复杂度参数f_score确定为：

可选地，本申请实施例中，在计算出一个对话状态的特征误差之后，可以确定对话样本的每一个对话状态的特征误差进行求和，从而得到对话样本的复杂度参数。复杂度参数用于表示对话样本的运算复杂度。

通过本实施例，通过上述方法，可以提高确定的对话样本的复杂度参数的准确性。

对于用户目标G_i，基于用户目标生成K组不同的对话u_K；

计算用户目标生成对话的平均难度，作为用户目标的难度评估：

也就是说，本实施例中在确定复杂度参数时不仅考虑对话样本，还考虑了产生对话样本的用户，通过将用户的对话样本进行平均难度，从而可以提高复杂度参数的准确度。

作为一种可选的实施方式，上述使用对话样本训练神经网络模型包括：

根据预设的超参数，t和N，确定第t个采样参数；

按照第t个采样参数，对对话样本集合进行采样，得到第t组对话样本，其中，对话样本集合中的对话样本按照复杂度参数所表示的运算复杂度从低到高的顺利排列；

使用第t组对话样本训练神经网络模型。

也就是说，本申请实施例在获取到复杂度参数之后，可以对对话样本进行复杂度的排序，排序顺序可以按照复杂度由低到高或者按照复杂度由高到低等。然后，按照t采样参数对对话样本进行采样，采样可以为按照比例进行采样或者按照顺序进行采样。

通过本实施例，从而可以在获取对话样本时，可以按照由易到难的标准获取对话样本，实现了使用由易到难的样本训练模型的效果。

作为一种可选的实施方式，根据预设的超参数，t和N，确定第t个采样参数，包括：

将第t个采样参数f_pace确定为：

其中，c₀为预设的超参数。

通过本实施例，通过上述公式对对话样本进行采样，实现了提高采样由易到难且提高采样效率的效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请实施例所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述对话语句生成方法的对话语句生成装置。如图10所示，该装置包括：

第一获取单元1002，用于获取第一帐号的目标语句，其中，目标语句为第一帐号发起的交互语句；

输入单元1004，用于将目标语句输入到目标交互模型中，其中，目标交互模型为在获取到对话样本集合中的对话样本的复杂度参数后，按照复杂度参数所表示的运算复杂度从低到高的顺序，使用对话样本对神经网络模型进行训练后的到的模型，复杂度参数为使用对话样本的当前对话动作a_t与当前对话状态s_t的实际特征φ(s_t)确定出的对话样本的特征误差所确定出的参数；

第二获取单元1006，用于获取目标交互模型输出的回复语句，其中，回复语句为用于与交互语句进行交互的语句。

本实施例的其他示例，请参见上述示例，在此不再赘述。

作为一种可选的示例，上述装置还包括：

第三获取单元，用于在将目标语句输入到目标交互模型中之前，获取对话样本集合中的对话样本的当前对话动作a_t以及当前对话状态s_t的实际特征φ(s_t)；

第一确定单元，用于根据当前对话动作a_t以及当前对话状态s_t的实际特征φ(s_t)，确定对话样本的下一个对话状态s_t+1的预估特征

第二确定单元，用于根据下一个对话状态s_t+1的实际特征φ(s_t+1)和下一个对话状态的预估特征

确定对话样本的第t+1个特征误差m(t+1)；

第三确定单元，用于根据对话样本的N个特征误差，确定对话样本的复杂度参数，其中，N个特征误差包括第t+1个特征误差m(t+1)，0≤t≤N-1，N为自然数，复杂度参数用于表示对话样本的运算复杂度；

训练单元，用于使用对话样本训练神经网络模型。

作为一种可选的示例，上述第一确定单元包括：

处理模块，用于通过预设的特征预测网络模型以及特征预测网络模型中的网络学习参数θ，对当前对话动作a_t以及当前对话状态s_t的实际特征φ(s_t)进行处理，得到对话样本的下一个对话状态s_t+1的预估特征

通过特征预测网络模型来预测下一个对话状态的的预估特征

可以有效提高估计特征的预估准确度。

作为一种可选的示例，上述处理模块包括：

第一确定子模块，用于将预估特征

确定为：

其中，g(·)为特征预测网络模型。

作为一种可选的示例，上述第二确定单元包括：

第一确定模块，用于根据实际特征φ(s_t+1)和预估特征

之间的均方误差，确定对话样本的第t+1个特征误差m(t+1)。

作为一种可选的示例，上述第一确定模块包括：

第二确定子模块，用于将第t+1个特征误差m(t+1)确定为：

其中，η为预设的比例因子。

作为一种可选的示例，上述第三确定单元包括：

第二确定模块，用于将对话样本的复杂度参数f_score确定为：

作为一种可选的示例，上述第三确定单元包括：

生成模块，用于对于用户目标G_i，基于用户目标生成K组不同的对话u_K；

计算模块，用于计算用户目标生成对话的平均难度，作为用户目标的难度评估：

作为一种可选的示例，上述训练单元包括：

第三确定模块，用于在根据对话样本的N个特征误差，确定对话样本的复杂度参数之后，根据预设的超参数，t和N，确定第t个采样参数；

采样模块，用于按照第t个采样参数，对对话样本集合进行采样，得到第t组对话样本，其中，对话样本集合中的对话样本按照复杂度参数所表示的运算复杂度从低到高的顺利排列；

训练模块，用于使用第t组对话样本训练神经网络模型。

作为一种可选的示例，上述采样模块包括：

第三确定子模块，用于将第t个采样参数f_pace确定为：

其中，c₀为预设的超参数。

根据本申请实施例的又一个方面，还提供了一种用于实施上述对话语句生成方法的电子设备，该电子设备可以是图11所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图11所示，该电子设备包括存储器1102和处理器1104，该存储器1102中存储有计算机程序，该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

获取第一帐号的目标语句，其中，目标语句为第一帐号发起的交互语句；

将目标语句输入到目标交互模型中，其中，目标交互模型为在获取到对话样本集合中的对话样本的复杂度参数后，按照复杂度参数所表示的运算复杂度从低到高的顺序，使用对话样本对神经网络模型进行训练后的到的模型，复杂度参数为使用对话样本的当前对话动作a_t与当前对话状态s_t的实际特征φ(s_t)确定出的对话样本的特征误差所确定出的参数；

获取目标交互模型输出的回复语句，其中，回复语句为用于与交互语句进行交互的语句。

可选地，本领域普通技术人员可以理解，图11所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图11其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图11中所示更多或者更少的组件(如网络接口等)，或者具有与图11所示不同的配置。

其中，存储器1102可用于存储软件程序以及模块，如本申请实施例中的对话语句生成方法和装置对应的程序指令/模块，处理器1104通过运行存储在存储器1102内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的对话语句生成方法。存储器1102可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1102可进一步包括相对于处理器1104远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1102具体可以但不限于用于存储媒体信息与关键词等信息。作为一种示例，如图11所示，上述存储器1102中可以但不限于包括上述对话语句生成装置中的第一获取单元1002、输入单元1004、第二获取单元1006与发送单元1008。此外，还可以包括但不限于上述对话语句生成装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1106包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1106为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：连接总线1108，用于连接上述电子设备中的各个模块部件，显示器1110，用于显示训练进度或者显示模型的输出结果。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请实施例各个实施例方法的全部或部分步骤。

在本申请实施例的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请实施例的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请实施例的保护范围。

Claims

1.一种对话语句生成方法，其特征在于，包括：

获取第一帐号的目标语句，其中，所述目标语句为所述第一帐号发起的交互语句；

将所述目标语句输入到目标交互模型中，其中，所述目标交互模型为在获取到对话样本集合中的对话样本的复杂度参数后，按照所述复杂度参数所表示的运算复杂度从低到高的顺序，使用所述对话样本对神经网络模型进行训练后的到的模型，所述复杂度参数为使用所述对话样本的当前对话动作a_t与当前对话状态s_t的实际特征φ(s_t)确定出的所述对话样本的特征误差所确定出的参数；

获取所述目标交互模型输出的回复语句，其中，所述回复语句为用于与所述交互语句进行交互的语句。

2.根据权利要求1所述的方法，其特征在于，在将所述目标语句输入到所述目标交互模型中之前，所述方法还包括：

获取所述对话样本集合中的所述对话样本的当前对话动作a_t以及所述当前对话状态s_t的实际特征φ(s_t)；

根据所述当前对话动作a_t以及所述当前对话状态s_t的实际特征φ(s_t)，确定所述对话样本的下一个对话状态s_t+1的预估特征

根据所述下一个对话状态s_t+1的实际特征φ(s_t+1)和所述下一个对话状态的预估特征

确定所述对话样本的第t+1个特征误差m(t+1)；

根据所述对话样本的N个特征误差，确定所述对话样本的复杂度参数，其中，所述N个特征误差包括所述第t+1个特征误差m(t+1)，0≤t≤N-1，N为自然数，所述复杂度参数用于表示所述对话样本的运算复杂度；

使用所述对话样本训练所述神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述当前对话动作a_t以及所述当前对话状态s_t的实际特征φ(s_t)，确定所述对话样本的下一个对话状态s_t+1的预估特征

包括：

通过预设的特征预测网络模型以及所述特征预测网络模型中的网络学习参数θ，对所述当前对话动作a_t以及所述当前对话状态s_t的实际特征φ(s_t)进行处理，得到所述对话样本的下一个对话状态s_t+1的预估特征

4.根据权利要求3所述的方法，其特征在于，所述通过预设的特征预测网络模型以及所述特征预测网络模型中的网络学习参数θ，对所述当前对话动作a_t以及所述当前对话状态s_t的实际特征φ(s_t)进行处理，得到所述对话样本的下一个对话状态s_t+1的预估特征

包括：

将所述预估特征

确定为：

其中，g(·)为所述特征预测网络模型。

5.根据权利要求2所述的方法，其特征在于，所述根据所述下一个对话状态s_t+1的实际特征φ(s_t+1)和所述下一个对话状态的预估特征

确定所述对话样本的第t+1个特征误差m(t+1)，包括：

根据所述实际特征φ(s_t+1)和所述预估特征

之间的均方误差，确定所述对话样本的第t+1个特征误差m(t+1)。

6.根据权利要求5所述的方法，其特征在于，所述根据所述实际特征φ(s_t+1)和所述预估特征

之间的均方误差，确定所述对话样本的第t+1个特征误差m(t+1)，包括：

将所述第t+1个特征误差m(t+1)确定为：

其中，η为预设的比例因子。

7.根据权利要求2所述的方法，其特征在于，所述根据所述对话样本的N个特征误差，确定所述对话样本的复杂度参数，包括：

将所述对话样本的复杂度参数f_score确定为：

8.根据权利要求2所述的方法，其特征在于，所述根据所述对话样本的N个特征误差，确定所述对话样本的复杂度参数，包括：

对于用户目标G_i，基于用户目标生成K组不同的对话u_K；

计算所述用户目标生成对话的平均难度，作为所述用户目标的难度评估：

9.根据权利要求2至8中任一项所述的方法，其特征在于，所述使用所述对话样本训练所述神经网络模型包括：

根据预设的超参数，所述t和所述N，确定第t个采样参数；

按照所述第t个采样参数，对所述对话样本集合进行采样，得到第t组对话样本，其中，所述对话样本集合中的对话样本按照所述复杂度参数所表示的运算复杂度从低到高的顺利排列；

使用所述第t组对话样本训练所述神经网络模型。

10.根据权利要求9所述的方法，其特征在于，所述根据预设的超参数，所述t和所述N，确定第t个采样参数，包括：

将所述第t个采样参数f_pace确定为：

其中，所述c₀为所述预设的超参数。

11.一种对话语句生成装置，其特征在于，包括：

第一获取单元，用于获取第一帐号的目标语句，其中，所述目标语句为所述第一帐号发起的交互语句；

输入单元，用于将所述目标语句输入到目标交互模型中，其中，所述目标交互模型为在获取到对话样本集合中的对话样本的复杂度参数后，按照所述复杂度参数所表示的运算复杂度从低到高的顺序，使用所述对话样本对神经网络模型进行训练后的到的模型，所述复杂度参数为使用所述对话样本的当前对话动作a_t与当前对话状态s_t的实际特征φ(s_t)确定出的所述对话样本的特征误差所确定出的参数；

第二获取单元，用于获取所述目标交互模型输出的回复语句，其中，所述回复语句为用于与所述交互语句进行交互的语句。

12.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至10任一项中所述的方法。

13.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。