CN113704425A

CN113704425A - 一种结合知识增强和深度强化学习的对话策略优化方法

Info

Publication number: CN113704425A
Application number: CN202110997386.8A
Authority: CN
Inventors: 陈颖璇; 吴广财; 叶杭; 刘佳木; 林嘉鑫; 周昉昉; 郑颖龙; 朱泰鹏; 黄彬系
Original assignee: Guangdong Electric Power Information Technology Co Ltd
Current assignee: Guangdong Electric Power Information Technology Co Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-26

Abstract

本发明提供的一种结合知识增强和深度强化学习的对话策略优化方法，所述优化方法包括：获取用户给出的语言描述信息；将所述语言描述信息进行增强，获得增强数据集；根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法，所述Q网络参数为对话状态的空间和对话状态的输入过程中建立的对应关系。首先对用户的问题进行主题知识增强，然后使用深度强化学习方法应用于DPL学习对话的动作决策中，最后加权选择最终的决策。这种方式泛化能力强，极大地减少了人工成本，并且提高了人机对话系统的灵活性。

Description

一种结合知识增强和深度强化学习的对话策略优化方法

技术领域

本发明涉及对话策略领域，尤其涉及一种结合知识增强和深度强化学习的对话策略优化方法。

背景技术

对话系统一般分为目标导向型对话系统和闲聊型对话系统，其中目标导向型的对话系统具有明确需要完成的任务目标。对话系统的最新进展绝大多数是由深度学习技术所贡献的，深度学习技术通过利用大规模数据来学习有意义的特征表示和回复生成策略，同时只需要少量人工特征，这个发展使得对话系统在工业界越来越广泛地被应用。

深度强化学习是深度学习与强化学习相结合的产物，集成了深度学习的理解能力和强化学习的决策能力，使得强化学习技术真正走向实用，得以解决现实场景中的复杂问题。

目前，工业界普遍使用的对话策略都是基于规则的，但是这种方式只能在比较小的任务上效果比较好。基于规则的对话策略动作状态序列固定，必须规规矩矩按照系统提示问答，否则无法响应需求。人力成本高，泛化能力差。

发明内容

鉴于上述问题，提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种结合知识增强和深度强化学习的对话策略优化方法。

根据本发明的一个方面，提供了一种结合知识增强和深度强化学习的对话策略优化方法，所述优化方法包括：

获取用户给出的语言描述信息；

将所述语言描述信息进行增强，获得增强数据集；

根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法，所述Q网络参数为对话状态的空间和对话状态的输入过程中建立的对应关系。

可选的，所述将所述语言描述信息进行增强，获得增强数据集具体包括：

对所述语言描述信息进行主题知识增强，采用LDA主题模型、卷积神经网络进行主题知识扩充，采用关键词抽取技术抽取所述语言描述信息中的关键词；

基于所述关键词进行文本增强，采用语言学如词性等特征进行文本数据增强，获得增强文本信息；

将所述增强文本信息进行对话管理，策略加权后选择最终的决策结果。

可选的，所述根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法具体包括：

所述对话策略为以对话的状态作为输入，通过一个π函数来产生一个动作；

对话开始的状态到结束的状态是一个状态序列，根据可枚举的动作集合，在对话状态的空间和对话状态的输入过程中，建立起一个对应关系；

根据所述对应关系估计出多轮对话的过程中，每个自然语言的背后与之对应的动作，获得Q网络参数。

可选的，所述获得Q网络参数具体包括：

随机初始化Q网络的所有参数ω，基于ω初始化所有的状态和动作对应的价值Q，经验回放集合D；

从1到T，进行迭代：

初始化S为当前状态序列的第一个状态，获得特征向量φ(S)

在Q网络中所述特征向量φ(S)作为输入，得到Q网络的所有动作对应的Q值输出；

用∈贪婪法在当前Q值输出中选择对应的动作A；

在状态S执行当前动作A，得到新状态S'对应的特征向量φ(S')和奖励R_$，是否终止状态is_end；

将{φ(S),A，R，φ(S'),is_end}这个五元组存入所述经验回放集合D，将S'赋值给S，从所述经验回放集合D中采样m个样本{φ(S_j),A_j,R_j,φ(S'_j),is_end_j},j＝1,2,...m，计算当前目标Q值y_j：

使用均方差损失函数，通过神经网络的梯度方向传播来更新Q网络的所有参数ω；

如果S'是终止状态，当前轮迭代完毕，否则转到步骤在Q网络中所述特征向量φ(S)作为输入。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种结合知识增强和深度强化学习的对话策略优化方法的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。

下面结合附图和实施例，对本发明的技术方案做进一步的详细描述。

如图1所示，一种结合知识增强和深度强化学习的对话策略优化方法，所述优化方法包括：

获取用户给出的语言描述信息；

将所述语言描述信息进行增强，获得增强数据集；

将所述语言描述信息进行增强，获得增强数据集具体包括：

根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法具体包括：

获得Q网络参数具体包括：

从1到T，进行迭代：

初始化S为当前状态序列的第一个状态，获得特征向量φ(S)

用∈贪婪法在当前Q值输出中选择对应的动作A；

将{φ(S),A,R,φ(S'),is_end}这个五元组存入所述经验回放集合D，将S'赋值给S，从所述经验回放集合D中采样m个样本{φ(S_j),A_j,R_j,φ(S'_j),is_end_j},j＝1,2,...m，计算当前目标Q值y_j：

有益效果：

首先对用户的问题进行主题知识增强，然后使用深度强化学习方法应用于DPL学习对话的动作决策中，最后加权选择最终的决策。这种方式泛化能力强，极大地减少了人工成本，并且提高了人机对话系统的灵活性。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合知识增强和深度强化学习的对话策略优化方法，其特征在于，所述优化方法包括：

获取用户给出的语言描述信息；

将所述语言描述信息进行增强，获得增强数据集；

2.根据权利要求1所述的一种结合知识增强和深度强化学习的对话策略优化方法，其特征在于，所述将所述语言描述信息进行增强，获得增强数据集具体包括：

3.根据权利要求1所述的一种结合知识增强和深度强化学习的对话策略优化方法，其特征在于，所述根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法具体包括：

4.根据权利要求3所述的一种结合知识增强和深度强化学习的对话策略优化方法，其特征在于，所述获得Q网络参数具体包括：

从1到T，进行迭代：

初始化S为当前状态序列的第一个状态，获得特征向量φ(S)

用∈贪婪法在当前Q值输出中选择对应的动作A；

将{φ(S),A,R,φ(S'),is_end}这个五元组存入所述经验回放集合D，将S'赋值给S，从所述经验回放集合D中采样m个样本{φ(S_j),A_j,R_j,φ(S_j'),is_end_j},j＝1,2,...m，计算当前目标Q值y_j：