CN107342078B

CN107342078B - 对话策略优化的冷启动系统和方法

Info

Publication number: CN107342078B
Application number: CN201710483731.XA
Authority: CN
Inventors: 俞凯; 陈露; 周翔; 常成; 杨闰哲
Original assignee: Shanghai Jiaotong University; AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2020-05-05
Anticipated expiration: 2037-06-23
Also published as: CN107342078A

Abstract

一种对话策略优化的冷启动系统和方法，包括：用户输入模块、对话状态跟踪模块、教师决策模块、学生决策模块、从教师决策模块和学生决策模块产生的回复动作中随机选择一个最终的回复动作的动作选择模块、将最终的回复动作转换成更自然的表达并展现给用户的输出模块、将对话经验(transition)存储到经验池中并采样固定数量的经验，根据深度Q网络(DQN)算法进行网络参数更新的策略训练模块以及在对话的每一个轮回计算对话的奖励回报(Reward)并输出至策略训练模块的奖励函数模块。本发明能够显著提高对话策略在强化学习在线训练初期的性能；提高对话策略的学习速度，即减少其达到一定性能所用的对话数量。

Description

对话策略优化的冷启动系统和方法

技术领域

本发明涉及的是一种智能人机对话领域的技术，具体是一种对话策略优化的冷启动系统和方法。

背景技术

智能人机对话系统是能与用户进行对话交互的智能系统。其中，对话策略是整个系统中决定如何回复用户的模块。对话策略的最早设计方法是设计者根据不同的用户输入设计不同的逻辑规则。这种方法的缺点是对话策略不能随着用户的反馈不断进行优化，增强对用户和环境的自适应能力。

近年来，深度强化学习方法逐渐被用于对话策略的优化中。在此方法中，对话策略用一个神经网络来表示，并利用奖励信号(reward)进行强化训练，此方法的好处是随着用户的不断使用，系统的性能(例如对话成功率)会不断提高。但是也有两大缺点：一是，在训练的初期，系统的性能很差，会导致用户流失；二是，如果要使系统达到一定的性能，需要大量的对话数据进行训练。

发明内容

本发明针对现有技术在训练初期，系统性能很差，且需要大量的对话数据进行训练以提高性能的缺陷，提出一种对话策略优化的冷启动系统和方法，能够显著提高对话策略在强化学习在线训练初期的性能；提高对话策略的学习速度，即减少其达到一定性能所用的对话数量。

本发明是通过以下技术方案实现的：

本发明涉及一种对话策略优化的冷启动系统，包括：用于接收用户输入的用户输入模块、用于解析当前用户输入的语义并根据对话上下文进行对话状态跟踪，即理解用户的意图的对话状态跟踪模块、根据设计好的基于规则的对话策略决策出在当前状态下的回复动作的教师决策模块、根据策略网络决策出当前状态的回复动作并估计当前决策的确定度的学生决策模块、从教师决策模块和学生决策模块产生的回复动作中随机选择一个最终的回复动作的动作选择模块、将最终的回复动作转换成更自然的表达并展现给用户的输出模块、将对话经验(transition)存储到经验池中并采样固定数量的经验，根据深度Q网络(DQN)算法进行网络参数更新的策略训练模块以及在对话的每一个轮回计算对话的奖励回报(Reward)并输出至策略训练模块的奖励函数模块。

所述的用户输入包括但不限于语音、图像或者文本。

所述的策略网络采用但不限于Q-网络。

所述的随机选择中，选择学生决策模块产生的回复动作的确定度由Q-网络Dropout(在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃)带来的不确定性定义，具体为：Q-网络的每一个隐层后设有一Dropout层，在决策时，由于Dropout层每次将隐层节点置0的位置不同，对于同一对话状态输入，网络的输出也会不同，重复输入N次，得到N个动作，其中占比最大的动作为最终的决策动作a^stu，同时对应的占比即为决策的确定度c_t。

所述在第e个对话时，动作选择模块的具体选择步骤如下：

1)根据如下公式计算当前对话前连续W个对话决策的平均确定度

其中：T_i表示第i个对话的总的对话轮数；

2)根据单调递增函数P_tea(ΔC_e)计算选择教师决策模块产生的回复动作a^tea作为最终决策动作的概率p_tea，其中：ΔC_e＝max(0,C_th-C_e)，C_th是确定度界限，例如0.7；

3)依概率p_tea进行伯努利采样，如果为1，则选择教师决策模块产生的回复动作a^tea，否则选择学生决策模块产生的回复动作a^stu；

4)当连续K个对话下平均确定度C_e都大于C_th，则从此时开始最终的决策动作a_t都选择a^stu，此时刻即为干预结束点。

所述的单调递增函数可以但不限于

其中：

a是小于C_th的常数。

所述的奖励回报，通过以下方式得到：

①在每一个对话轮回产生一个负数奖励；当对话结束时，如果输出模块回复的内容满足用户要求，则视为成功完成了用户任务，则产生一个正奖励；

②在干预结束点之前，在每一轮对话，如果a_t与a^tea不同，则产生一个负数奖励，否则产生一个正奖励。

所述的输出模块进行的更自然的表达，其包括但不限于：声音、图像或文本。

所述的对话经验(transition)包括：当前轮对话状态s_t、对话动作a_t、下一个对话状态s_t+1及当前轮奖励r_t。

所述的经验池包括：教师经验池和学生经验池，当动作选择模块取自教师决策模块产生的回复动作a^tea，则当前的对话经验放入教师经验池中，否则放入学生经验池中。

所述的网络参数更新是指：首先依概率p_tea进行伯努利采样，如果为1，则选择教师经验池，否则选择学生经验池，然后从选择的经验池中采样固定数量的经验用于Q-网络参数的更新。

技术效果

与现有技术相比，本发明将基于逻辑规则的对话策略与基于强化学习的对话策略结合起来，提高了整个对话策略在训练初期的性能，避免了传统的基于强化学习的对话策略在训练初期因性能较差而导致用户流失；同时，随着用户的不断使用，即训练数据的增多，本发明系统的性能能够比基于传统方法的系统性能更快地收敛到较高水平。

附图说明

图1为本发明系统示意图；

图2为实施例效果示意图。

具体实施方式

本实施例涉及对话策略优化的冷启动系统，包括：

用户输入模块101：用于接收用户的输入，用户的输入可以是语音、图像或者文本。

对话状态跟踪模块102：用于解析当前用户输入的语义，同时根据对话上下文进行对话状态跟踪，即理解用户的意图。

教师决策模块103：根据设计好的基于规则的对话策略决策出在当前状态s_t下的回复动作a^tea。

学生决策模块104：根据策略网络(Q-网络)决策出当前状态s_t的回复动作a^stu，同时估计当前决策的确定度。

动作选择模块105：根据一个随机函数从上述两个决策模块产生的回复动作中选择一个最终的回复动作a_t。

输出模块106：将最终的回复动作转换成更自然的表达并展现给用户。

奖励函数模块107：在对话的每一个轮回计算对话的奖励回报(Reward)，并提供给策略训练模块。

策略训练模块108：存储对话经验(transition)到经验池中，同时采样固定数量的经验并根据深度Q-网络(DQN)算法进行网络参数更新。

本实施例涉及上述系统的对话策略优化的冷启动实现方法，包括以下步骤：

步骤1)接收用户的输入信息o_t，包括输入的文本、语音或图像信息。

步骤2)根据当前的输入信息o_t以及上一轮对话状态s_t-1，将对话状态更新到s_t。

步骤3)根据设计好的基于规则的对话策略决策出在当前状态s_t下的回复动作a^tea。

步骤4)根据策略网络(Q-网络)决策出当前状态s_t的备选回复动作a^stu，同时估计当前决策的确定度c_t。

具体地，Q-网络中每一个隐层后设有一Dropout层，Dropout的丢失隐层比例可以设为0.2；在决策时，由于Dropout层每次将隐层中节点置为0的位置不同，对于同一对话状态输入s_t，网络的输出决策结果aⁱ也会不同，重复输入N次，得到N个候选动作{a¹,…,a^N}，其中占比最大的动作为最终的决策动作aⁱ，同时对应的占比即为决策的确定度c_t。

步骤5)根据一个随机函数从上述两个决策模块产生的回复动作中选择一个最终的回复动作a_t：

子步骤5-1)根据如下公式计算当前对话前连续W个对话决策的平均确定度

其中：T_i表示第i个对话的总的对话轮数；

子步骤5-2)根据单调递增函数P_tea(ΔC_e)计算选择回复动作a^tea作为最终决策动作的概率p_tea，其中：ΔC_e＝max(0,C_th-C_e)，C_th是确定度界限，例如0.7；

具体地，所述的单调递增函数可以是

其中：

a是小于C_th的常数；

子步骤5-3)依概率p_tea进行伯努利采样，如果为1，则选择回复动作a^tea，否则选择备选回复动作a^stu；

子步骤5-4)当连续K个对话下平均确定度C_e都大于C_th，则从此时开始最终的决策动作a_t都选择a^stu，此时刻即为干预结束点。

步骤6)将最终的回复动作a_t转换成更自然的表达并展现给用户。

步骤7)奖励函数模块计算当前轮的奖励(Reward)r_t：

子步骤7-1)产生一个负数奖励，例如-0.05；

子步骤7-2)如果当前对话为最后一个对话轮回，且输出模块回复的内容满足用户要求，即系统成功完成了用户任务，则产生一个正奖励，例如1.0，否则奖励为0.0；

子步骤7-3)在干预结束点之前，在每一轮对话，如果a_t与a^tea不同，则产生一个负数奖励，例如-0.05，否则产生一个正奖励，例如0.05；

子步骤7-4)将上述三种奖励加起来作为当前轮的奖励r_t。

步骤8)强化学习训练模块存储对话经验(transition)到经验池中，同时采样固定数量的经验并根据深度Q-网络(DQN)算法进行网络参数更新：

子步骤8-1)按回复动作或备选回复动作分类存储对话经验(s_t-1,a_t-1,s_t,r_t-1)；

子步骤8-2)首先依概率p_tea行伯努利采样，当采样值为1，则选择回复动作，否则选择备选回复动作，然后从选择的回复动作中采样固定数量的经验用于Q-网络参数的更新。

步骤9)回到步骤1)，直到整个对话结束。

按上述具体实施方式进行实验，结果如图2所示。横轴表示强化学习训练所用的对话数量，纵轴表示对话成功率。Sys1代表我们的系统，Sys2代表传统的基于深度强化学习的系统，Rule代表完全基于逻辑规则的系统。结果表明，Sys1在训练数据较少时，能够拥有接近Rule系统的性能，而Sys2在训练数据较少时，对话成功率很低；同时随着训练数据的增多，Sys1的性能能够逐渐超过Rule的性能，且相较于Sys2，能够更块地收敛到较高的成功率。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种对话策略优化的冷启动系统，其特征在于，包括：

用于接收用户输入的用户输入模块；

用于解析当前用户输入的语义并根据对话上下文进行对话状态跟踪，即理解用户的意图的对话状态跟踪模块；

根据设计好的基于规则的对话策略决策出在当前状态下的回复动作的教师决策模块；

根据策略网络决策出当前状态的回复动作并估计当前决策的确定度的学生决策模块；

从教师决策模块和学生决策模块产生的回复动作中随机选择一个最终的回复动作的动作选择模块；

将最终的回复动作转换成更自然的表达并展现给用户的输出模块；

将对话经验存储到经验池中并采样固定数量的经验，根据深度Q网络算法进行网络参数更新的策略训练模块；

在对话的每一个轮回计算对话的奖励回报并输出至策略训练模块的奖励函数模块；

所述的随机选择中，选择学生决策模块产生的回复动作的确定度由Q-网络Dropout带来的不确定性定义，具体为：Q-网络的每一个隐层后设有一Dropout层，在决策时，由于Dropout层每次将隐层节点置0的位置不同，对于同一对话状态输入，网络的输出也会不同，重复输入N次，得到N个动作，其中占比最大的动作为最终的决策动作a^stu，同时对应的占比即为决策的确定度c_t；

所述的动作选择模块在第e个对话时；

1)计算当前对话前连续W个对话决策的平均确定度

其中：T_i表示第i个对话的总的对话轮数；

2)根据单调递增函数P_tea(ΔC_e)计算选择教师决策模块产生的回复动作a^tea作为最终决策动作的概率p_tea，其中：ΔC_e＝max(0，C_th-C_e)，C_th是确定度界限；

3)依概率p_tea进行伯努利采样，当采样值为1，则选择教师决策模块产生的回复动作a^tea，否则选择学生决策模块产生的回复动作a^stu；

2.根据权利要求1所述的系统，其特征是，所述的单调递增函数

其中：

a是小于C_th的常数。

3.根据权利要求1所述的系统，其特征是，所述的奖励回报，通过以下方式得到；

①在每一个对话轮回产生一个负数奖励；当对话结束时，当输出模块回复的内容满足用户要求，则视为成功完成了用户任务，则产生一个正奖励；

②在干预结束点之前，在每一轮对话，当a_t与a^tea不同，则产生一个负数奖励，否则产生一个正奖励。

4.根据权利要求1所述的系统，其特征是，所述的对话经验包括：当前轮对话状态s_t、对话动作a_t、下一个对话状态s_t+1及当前轮奖励r_t。

5.根据权利要求1所述的系统，其特征是，所述的经验池包括：教师经验池和学生经验池，当动作选择模块取自教师决策模块产生的回复动作a^tea，则当前的对话经验放入教师经验池中，否则放入学生经验池中。

6.根据权利要求1所述的系统，其特征是，所述的网络参数更新是指：首先依概率p_tea进行伯努利采样，当采样值为1，则选择教师经验池，否则选择学生经验池，然后从选择的经验池中采样固定数量的经验用于Q-网络参数的更新。

7.一种对话策略优化的冷启动实现方法，其特征在于，包括以下步骤：

步骤1)接收用户的输入信息o_t；

步骤2)根据当前的输入信息o_t以及上一轮对话状态s_t-1，将对话状态更新到s_t；

步骤3)根据设计好的基于规则的对话策略决策出在当前状态s_t下的回复动作a^tea；

步骤4)根据策略网络决策出当前状态s_t的备选回复动作a^stu，同时估计当前决策的确定度c_t；

步骤5)根据一个随机函数从步骤3)和步骤4)的回复动作中选择一个最终的回复动作a_t；

步骤6)将最终的回复动作a_t转换成更自然的表达并展现给用户；

步骤7)计算当前轮的奖励r_t；

步骤8)将对话经验存储到经验池中，同时采样固定数量的经验并根据深度Q-网络算法进行网络参数更新；

步骤9)回到步骤1)，直到整个对话结束；

所述的步骤4)，具体包括：Q-网络中每一个隐层后设有一Dropout层，并在决策时对于同一对话状态输入s_t，得到不同的决策结果作为候选动作，其中占比最大的动作为最终的决策动作，同时对应的占比即为决策的确定度c_t；

所述的步骤5)，具体包括：

子步骤5-1)计算当前第e个对话前连续W个对话决策的平均确定度

其中：T_i表示第i个对话的总的对话轮数；

子步骤5-2)根据单调递增函数P_tea(ΔC_e)计算选择回复动作a^tea作为最终决策动作的概率p_tea，其中：ΔC_e＝max(0，C_th-C_e)，C_th是确定度界限；

子步骤5-3)依概率p_tea进行伯努利采样，当采样值为1，则选择回复动作a^tea，否则选择备选回复动作a^stu；

8.根据权利要求7所述的方法，其特征是，所述的步骤7)，具体包括：

子步骤7-1)产生一个负数奖励；

子步骤7-2)当当前对话为最后一个对话轮回，且输出模块回复的内容满足用户要求，即系统成功完成了用户任务，则产生一个正奖励，否则奖励为0.0；

子步骤7-3)在干预结束点之前，在每一轮对话，当a_t与a^tea不同，则产生一个负数奖励，否则产生一个正奖励；

子步骤7-4)将上述三种奖励加起来作为当前轮的奖励r_t。

9.根据权利要求7所述的方法，其特征是，所述的步骤8)，具体包括：

子步骤8-1)按回复动作或备选回复动作分类存储对话经验(s_t-1，a_t-1，s_t，r_t-1)；