CN112860869A

CN112860869A - 基于分层强化学习网络的对话方法、装置及存储介质

Info

Publication number: CN112860869A
Application number: CN202110267687.5A
Authority: CN
Inventors: 王思瀚
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-05-28
Anticipated expiration: 2041-03-11
Also published as: CN112860869B

Abstract

本发明涉及人工智能技术领域，揭露一种基于分层强化学习网络的对话方法，包括：构建分层强化学习网络结构，包括采用价值导向算法进行训练的管理层、采用策略导向算法进行训练的执行层以及管理层、执行层之间的反馈机制；对分层强化学习网络结构重复多次问答行为进行训练得到问答模型；当接收到客户端发送的提问请求时，从问答模型获取对应的回复信息并返回发送提问请求的客户端。本发明的基于分层强化学习网络的对话方法降低了问答行为强化学习的复杂度，提升了管理层的学习效率、执行层的学习性能以及分层强化学习网络结构的决策准确性。

Description

基于分层强化学习网络的对话方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于分层强化学习网络的对话方法、电子装置及计算机可读存储介质。

背景技术

在智能问答系统中，对话策略决定了系统如何根据用户的提问，从预先定义完备的系统动作集合中选取最为合适的回复。为了提高系统的问答能力覆盖范围，例如多领域的任务型机器人，系统动作集合往往被设计过于庞大和复杂，这直接导致对话策略学习的两大难点：学习任务难度大和学习效率低。其背后的根本原因都是因为问答模型无法在如此庞大的动作空间中进行高效的探索和学习。

目前针对大规模系统动作集合的对话策略学习，并没有成熟的算法训练方案。实验结果表明，一些在小规模系统动作集合设定下可行的算法，并不能直接扩展到大规模系统动作集合。即使是在小规模系统动作集合设定下，基于现有算法所训练的问答模型在任务成功率这一指标上，平均任务成功率约为80％，性能较差。

发明内容

鉴于以上内容，有必要提供一种基于分层强化学习网络的对话方法，用于降低问答模型的学习任务难度和提高问答模型的学习效率，以提升问答模型的性能。

本发明提供的基于分层强化学习网络的对话方法，包括：

构建分层强化学习网络结构，所述分层强化学习网络结构包括采用价值导向算法进行训练的管理层、采用策略导向算法进行训练的执行层以及所述管理层、执行层之间的反馈机制；

获取提问信息，所述管理层根据所述提问信息获取问答行为的第一对话状态，并根据所述对话状态采用对应的对话行为策略决定对话行为，所述执行层根据对话行为选择第二对话状态，并根据所述第二对话状态采用对应的槽位策略决定槽位，将所述槽位作为所述提问信息对应的回复信息输出，将所述分层强化学习网络结构获取提问信息并得到输出的回复信息作为一次问答行为，通过多次问答行为对所述分层强化学习网络结构进行训练得到问答模型；

当接收到客户端发送的提问请求时，从所述问答模型获取对应的回复信息，并将所述回复信息返回发送所述提问请求的客户端。

可选地，所述价值导向算法为深度Q网络算法，所述深度Q网络算法的损失函数为：

L^M(θ)＝E_e～D[(y-Q(s,a；θ))²]

其中，y是拟合目标参数，r为当前问答行为的奖励信号，γ为防止模型训练时不收敛的常数，e为训练样本，D为训练数据集，E()为期望值函数，用于从训练集D中批量采样训练样本e来计算期望值，θ为均方误差损失参数，θ^-为θ更新前的数值，Q()为状态动作值函数，用于表示由参数θ或θ^-表征的模型，s是当前问答行为的第一对话状态，a是当前问答行为的对话行为，s’是下一次问答行为的第一对话状态，a’是下一次问答行为的对话行为。

可选地，所述深度Q网络的更新算法为随机梯度下降法。

可选地，所述策略导向算法为近端策略优化算法，所述近端策略优化算法的损失函数为：

L^W＝L_clip+c₁L_V+c₂L_ent

其中，L_clip是执行层的槽位策略对应的反馈信号的值，L_V是执行层中状态评估模块选择第二对话状态的操作对应的反馈信号的值，L_ent是对执行层的正则化规约算法值，c₁和c₂是用于调整所述近端策略优化算法的权重偏向的预设参数。

可选地，所述反馈机制通过置入的预设表格设定，所述预设表格包括多种问答行为的策略以及与所述策略对应的管理层的反馈信号和执行层的反馈信号。

可选地，所述对话状态包括“询问”和“回复”，所述对话行为是对话状态“询问”对应的具体内容，所述槽位是对话状态“回复”对应的具体内容。

可选地，所述当接收到客户端发送的提问请求时，从所述问答模型获取对应的回复信息包括：

当接收到客户端发送的提问请求时，所述问答模型的管理层对所述提问请求进行处理得到第一对话状态和对话行为；

所述问答模型的执行层根据所述第一对话状态和对话行为选择第二对话状态，并选择所述第二对话状态对应的槽位作为回复信息。

此外，为实现上述目的，本发明还提供一种电子装置，该电子装置包括：存储器、处理器，所述存储器上存储有可在所述处理器上运行的基于分层强化学习网络的对话程序，所述基于分层强化学习网络的对话程序被所述处理器执行时实现如权利要求1-7任意一项所述的基于分层强化学习网络的对话方法。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于分层强化学习网络的对话程序，所述基于分层强化学习网络的对话程序可被一个或者多个处理器执行，以实现如权利要求1-7任意一项所述的基于分层强化学习网络的对话方法。

此外，为实现上述目的，本发明还提供一种基于分层强化学习网络的对话装置，该装置包括：

网络构建模块：用于构建分层强化学习网络结构，所述分层强化学习网络结构包括采用价值导向算法进行训练的管理层、采用策略导向算法进行训练的执行层以及所述管理层、执行层之间的反馈机制；

模型训练模块：用于获取提问信息，所述管理层根据所述提问信息获取问答行为的第一对话状态，并根据所述对话状态采用对应的对话行为策略决定对话行为，所述执行层根据对话行为选择第二对话状态，并根据所述第二对话状态采用对应的槽位策略决定槽位，将所述槽位作为所述提问信息对应的回复信息输出，将所述分层强化学习网络结构获取提问信息并得到输出的回复信息作为一次问答行为，通过多次问答行为对所述分层强化学习网络结构进行训练得到问答模型；

问答模块：用于当接收到客户端发送的提问请求时，从所述问答模型获取对应的回复信息，并将所述回复信息返回发送所述提问请求的客户端。

相较现有技术，本发明通过构建分层强化学习网络结构对问答行为进行训练，降低了问答行为强化学习的复杂度；采用价值导向算法训练所述分层强化学习网络结构的管理层，提升了管理层的学习效率；采用策略导向算法训练所述分层强化学习网络结构的执行层，提升了执行层的学习性能；对分层强化学习网络结构的反馈机制进行优化，提升了分层强化学习网络结构的决策准确性。

附图说明

图1为本发明基于分层强化学习网络的对话方法一实施例的流程图；

图2为本发明电子装置一实施例的示意图；

图3为本发明基于分层强化学习网络的对话装置一实施例的模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1所示，为本发明基于分层强化学习网络的对话方法一实施例的流程图，该基于分层强化学习网络的对话方法，包括步骤S1－S3。

S1、构建分层强化学习网络结构，所述分层强化学习网络结构包括采用价值导向算法进行训练的管理层、采用策略导向算法进行训练的执行层以及所述管理层、执行层之间的反馈机制。

本实施例中，所述管理层用于根据所述提问信息获取问答行为的第一对话状态，并根据所述对话状态采用对应的对话行为策略决定对话行为。在一实施例中，所述价值导向算法为深度Q网络算法。所述深度Q网络算法的损失函数为：

L^M(θ)＝E_e～D[(y-Q(s,a；θ))²]

在一实施例中，所述深度Q网络的更新算法为随机梯度下降法，所述随机梯度下降法根据当前的损失函数值对所有参数计算梯度，将梯度乘以预设的超参数学习率得到参数的更新值，并通过参数更新值对参数进行更新以优化所述深度Q网络。

本实施例中，所述执行层用于根据对话行为选择第二对话状态，并根据所述第二对话状态采用对应的槽位策略决定槽位。在一实施例中，所述策略导向算法为近端策略优化算法，所述近端策略优化算法的损失函数为：

L^W＝L_clip+c₁L_V+c₂L_ent

具体地，所述执行层通过状态评估模块选择第二对话状态(“询问”或“回复”)，然后根据管理层发送的对话行为和第二对话状态决定槽位策略(从槽位列表选择对应的槽位)。所述执行层根据反馈机制获取槽位策略对应的反馈信号的值以及状态评估模块选择第二对话状态的操作对应的反馈信号的值。

具体地，所述对话状态包括“询问”和“回复”，所述对话行为是对话状态“询问”对应的具体内容。例如，所述分层强化学习网络结构获取用户输入的提问信息“询问-观影人数”，其中，对话状态为“询问”，对话行为为“观影人数”。在一实施例中，通过关键词匹配将所述对话状态或对话行为采用提取模型转换成信息编码，并将所述信息编码通过独热编码(One-Hot Encoding)转换成向量，将转换后的向量作为计算公式的参数。

S2、获取提问信息，所述管理层根据所述提问信息获取问答行为的第一对话状态，并根据所述对话状态采用对应的对话行为策略决定对话行为，所述执行层根据对话行为选择第二对话状态，并根据所述第二对话状态采用对应的槽位策略决定槽位，将所述槽位作为所述提问信息对应的回复信息输出，将所述分层强化学习网络结构获取提问信息并得到输出的回复信息作为一次问答行为，通过多次问答行为对所述分层强化学习网络结构进行训练得到问答模型。

具体地，所述对话状态包括“询问”和“回复”，所述对话行为是对话状态“询问”对应的具体内容，所述槽位是对话状态“回复”对应的具体内容。例如：执行层根据第一对话状态“询问”和对话行为“观影人数”决定“回复-观影人数的数值”，其中“回复”为第二对话状态，“观影人数的数值”为槽位。所述对话行为策略为根据提问信息从预设的对话行为列表中选择对应的对话行为，所述槽位策略为根据对话行为从预设的槽位列表中选择对应的槽位。

在一实施例中，将所述提问信息与对应的回复信息作为经验数据存储在所述分层强化学习网络结构的经验池中，根据所述经验数据在所述反馈机制中对应的反馈信号对所述问答模型进行优化。

具体地，所述反馈机制通过置入的预设表格设定。具体地，所述预设表格包括多种问答行为的策略以及与所述策略对应的管理层的反馈信号和执行层的反馈信号，所述反馈信号包括正信号和负信号。管理层和执行层根据所述反馈机制进行更新，以增加反馈信号为正信号的策略出现的概率，减小反馈信号为负信号的策略出现的概率。例如：

上述表格为反馈机制的预设表格，第一列为问答行为中的策略，第二列为管理层的反馈信号，第三列为执行层的反馈信号。

S3、当接收到客户端发送的提问请求时，从所述问答模型获取对应的回复信息，并将所述回复信息返回发送所述提问请求的客户端。

在一实施例中，当接收到客户端发送的提问请求时，所述问答模型的管理层对所述提问请求进行处理得到第一对话状态和对话行为；所述问答模型的执行层根据所述第一对话状态和对话行为选择第二对话状态，并选择所述第二对话状态对应的槽位作为回复信息。

由上述实施例可知，本发明提出的基于分层强化学习网络的对话方法，通过构建分层强化学习网络结构对问答行为进行训练，降低了问答行为强化学习的复杂度；采用价值导向算法训练所述分层强化学习网络结构的管理层，提升了管理层的学习效率；采用策略导向算法训练所述分层强化学习网络结构的执行层，提升了执行层的学习性能；对分层强化学习网络结构的反馈机制进行优化，提升了分层强化学习网络结构的决策准确性。

如图2所示，为本发明电子装置1一实施例的示意图。电子装置1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，电子装置1包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12、网络接口13，该存储器11中存储有基于分层强化学习网络的对话程序10，所述基于分层强化学习网络的对话程序10可被所述处理器12执行。图1仅示出了具有组件11-13以及基于分层强化学习网络的对话程序10的电子装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对电子装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

其中，存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存；可读存储介质可以是易失性的，也可以是非易失性的。具体的，可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的存储介质。在一些实施例中，可读存储介质可以是电子装置1的内部存储单元，例如该电子装置1的硬盘；在另一些实施例中，该存储介质也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)等。本实施例中，存储器11的可读存储介质主要包括存储程序区和存储数据区，其中，存储程序区通常用于存储安装于电子装置1的操作系统和各类应用软件，例如存储本发明一实施例中的基于分层强化学习网络的对话程序10的代码等；存储数据区可存储根据区块链节点的使用所创建的数据等，例如已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(CentralProcessingUnit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作，例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行基于分层强化学习网络的对话程序10等。

网络接口13可包括无线网络接口或有线网络接口，该网络接口13用于在所述电子装置1与客户端(图中未画出)之间建立通信连接。

可选的，所述电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选的，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(OrganicLight-EmittingDiode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

在本发明的一实施例中，所述基于分层强化学习网络的对话程序10被所述处理器12执行时实现如下步骤S1-S3。

L^M(θ)＝E_e～D[(y-Q(s,a；θ))²]

L^W＝L_clip+c₁L_V+c₂L_ent

由上述实施例可知，本发明提出的电子装置1，通过构建分层强化学习网络结构对问答行为进行训练，降低了问答行为强化学习的复杂度；采用价值导向算法训练所述分层强化学习网络结构的管理层，提升了管理层的学习效率；采用策略导向算法训练所述分层强化学习网络结构的执行层，提升了执行层的学习性能；对分层强化学习网络结构的反馈机制进行优化，提升了分层强化学习网络结构的决策准确性。

在其他实施例中，基于分层强化学习网络的对话程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述基于分层强化学习网络的对话程序10在电子装置1中的执行过程。

如图3所示，为本发明基于分层强化学习网络的对话装置10一实施例的模块示意图。

在本发明的一实施例中，基于分层强化学习网络的对话装置10，包括网络构建模块110、模型训练模块120及问答模块130，示例性地：

所述网络构建模块110，用于构建分层强化学习网络结构，所述分层强化学习网络结构包括采用价值导向算法进行训练的管理层、采用策略导向算法进行训练的执行层以及所述管理层、执行层之间的反馈机制；

所述模型训练模块120，用于获取提问信息，所述管理层根据所述提问信息获取问答行为的第一对话状态，并根据所述对话状态采用对应的对话行为策略决定对话行为，所述执行层根据对话行为选择第二对话状态，并根据所述第二对话状态采用对应的槽位策略决定槽位，将所述槽位作为所述提问信息对应的回复信息输出，将所述分层强化学习网络结构获取提问信息并得到输出的回复信息作为一次问答行为，通过多次问答行为对所述分层强化学习网络结构进行训练得到问答模型；

所述问答模块130，用于当接收到客户端发送的提问请求时，从所述问答模型获取对应的回复信息，并将所述回复信息返回发送所述提问请求的客户端。

上述网络构建模块110、模型训练模块120及问答模块130等模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，可读存储介质可以是易失性的，也可以是非易失性的。具体的，计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括基于分层强化学习网络的对话程序10，所述基于分层强化学习网络的对话程序10被处理器执行时实现如下操作：

A1、构建分层强化学习网络结构，所述分层强化学习网络结构包括采用价值导向算法进行训练的管理层、采用策略导向算法进行训练的执行层以及所述管理层、执行层之间的反馈机制；

A2、获取提问信息，所述管理层根据所述提问信息获取问答行为的第一对话状态，并根据所述对话状态采用对应的对话行为策略决定对话行为，所述执行层根据对话行为选择第二对话状态，并根据所述第二对话状态采用对应的槽位策略决定槽位，将所述槽位作为所述提问信息对应的回复信息输出，将所述分层强化学习网络结构获取提问信息并得到输出的回复信息作为一次问答行为，通过多次问答行为对所述分层强化学习网络结构进行训练得到问答模型；

A3、当接收到客户端发送的提问请求时，从所述问答模型获取对应的回复信息，并将所述回复信息返回发送所述提问请求的客户端。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于分层强化学习网络的对话方法，其特征在于，包括：

2.如权利要求1所述的基于分层强化学习网络的对话方法，其特征在于，所述价值导向算法为深度Q网络算法，所述深度Q网络算法的损失函数为：

L^M(θ)＝E_e～D[(y-Q(s,a；θ))²]

3.如权利要求2所述的基于分层强化学习网络的对话方法，其特征在于，所述深度Q网络的更新算法为随机梯度下降法。

4.如权利要求1所述的基于分层强化学习网络的对话方法，其特征在于，所述策略导向算法为近端策略优化算法，所述近端策略优化算法的损失函数为：

L^W＝L_clip+c₁L_V+c₂L_ent

5.如权利要求1所述的基于分层强化学习网络的对话方法，其特征在于，所述反馈机制通过置入的预设表格设定，所述预设表格包括多种问答行为的策略以及与所述策略对应的管理层的反馈信号和执行层的反馈信号。

6.如权利要求1所述的基于分层强化学习网络的对话方法，其特征在于，所述对话状态包括“询问”和“回复”，所述对话行为是对话状态“询问”对应的具体内容，所述槽位是对话状态“回复”对应的具体内容。

7.如权利要求1所述的基于分层强化学习网络的对话方法，其特征在于，所述当接收到客户端发送的提问请求时，从所述问答模型获取对应的回复信息包括：

8.一种电子装置，其特征在于，该电子装置包括：存储器、处理器，所述存储器上存储有可在所述处理器上运行的基于分层强化学习网络的对话程序，所述基于分层强化学习网络的对话程序被所述处理器执行时实现如权利要求1-7任意一项所述的基于分层强化学习网络的对话方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于分层强化学习网络的对话程序，所述基于分层强化学习网络的对话程序可被一个或者多个处理器执行，以实现如权利要求1-7任意一项所述的基于分层强化学习网络的对话方法。

10.一种基于分层强化学习网络的对话装置，其特征在于，该装置包括：