CN108282587A

CN108282587A - 基于状态跟踪与策略导向下的移动客服对话管理方法

Info

Publication number: CN108282587A
Application number: CN201810055021.1A
Authority: CN
Inventors: 李鹏华; 米怡; 王欢; 秦石磊
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2018-07-13
Anticipated expiration: 2038-01-19
Also published as: CN108282587B

Abstract

本发明涉及一种基于状态跟踪与策略导向下的移动客服对话管理方法，属于隐马尔科夫模型与神经网络对自然语言处理的领域。该方法通过构建POMDP模型，结合设计深度增强学习的问题引导策略优化算法，实现对话状态实时跟踪，对下一对话结果及时预测，给出预测对话策略，并根据策略优化算法，得出最佳对话策略方法，推导出最优对话预测结果。本发明不仅节约了大量的人工成本提高了客服对话的工作效率，同时还为用户提供了更为便捷的服务体验，提升服务质量。

Description

基于状态跟踪与策略导向下的移动客服对话管理方法

技术领域

本发明属于隐马尔科夫模型与神经网络对自然语言处理的领域，涉及基于状态跟踪与策略导向下的移动客服对话管理方法。

背景技术

中国移动通信公司作为中国通信领域掌舵者，其通信服务种类涉及广泛。但在拓展业务的同时，其客服服务也经受着严峻的考验。目前，移动客服使用机械的自主式服务方式或仍延用传统人工语音服务方式，不仅无法实现用户与客户间友好的交互体验、耗费大量人力物力，还无法保障24小时全天候正常在线客服服务。该问题的解决与否直接决定移动客服对话服务的效果。由于部分隐马尔科夫模型具有感知、适应、追踪对话环境变化的功能，通过POMDP模型的内部作用器给用户对话环境状态施加动作，使对话环境状态发生变化，获得一定回报，并根据所获得的累计回报来衡量所执行一系列策略的可能性，进而将问题转换成策略选择问题。深度增强学习策略优化方法具有追溯对话过程、学习对话导向策略、选择最佳行动策略等功能。

因此，为了能够为中国移动通信公司节约成本，同时还为用户提供更方便快捷的客服服务，提升用户体验。需要通过建立POMDP模型，实现移动客服对话状态的跟踪及对话策略导向，设计深度增强学习算法，完成移动客服对话策略优化，并选择最佳对话策略。

发明内容

有鉴于此，本发明的目的在于提供一种基于状态跟踪与策略导向下的移动客服对话管理方法，为用户提供更方便快捷的客服服务，提升用户体验。

为达到上述目的，本发明提供如下技术方案：

一种基于状态跟踪与策略导向下的移动客服对话管理方法，该方法包括以下步骤：

S1：建立基于POMDP模型的对话问题引导策略，通过POMDP模型的内部作用器给用户对话环境状态施加动作，使对话环境状态发生变化，获得一定回报，并根据所获得的累计回报来衡量所执行一系列策略的可能性，将问题转换成策略选择问题；

S2：构建深度增强学习的问题引导策略优化算法，根据POMDP模型得到的对话问题引导策略，采用基于深度增强学习DQN的策略优化方法来选择最佳行动策略。

进一步，在所述步骤S1中，所述的建立基于POMDP模型的对话问题引导策略具体包括以下步骤：

S11：将POMDP模型描述为S,A,T,O,Q,β，其中S＝{s_i|i＝1,...,m}表示对话环境状态集，其中m表示对话环境状态数量；A＝{a_k|k＝1,...,n}表示动作集，其中n表示对话环境中执行动作数量；当模型执行动作a_k时，引起对话环境状态从s_i转移到s_j；T＝{p(s_j|s_i,a)|s_j,s_i∈S,a∈A}表示状态转移概率集；p(s_j|s_i,a)表示在对话环境状态s_i执行动作a后对话环境状态转移为j的概率；O＝{o_i|i＝1,...,n}表示对话观察集；R＝{r_ij(a)|a∈A}表示回报集，r_ij(a)表示模型执行动作a，对话环境状态从s_i转移到s_j后所获得的回报；β表示回报折扣因子，其中0＜β＜1；Q＝{p(o_j|s_i,a)|o_j∈O,s_i∈S,a∈A}表示对话观察概率，p(o_j|s_i,a)表示执行动作a后，在结果状态s_i观察到o_j的概率；b₀表示初始对话环境状态的概率分布；

S12：对话置信状态推导：对话环境状态在POMDP模型概率分布中的置信状态表示为B＝{b_t}，t时刻的概率分布为b_t＝{b_t(s₁),...,b_t(s_m)}，其中b_t(s_i)表示t时刻环境状态为si的概率；通过对当前时刻对话环境的观察与动作的选择，POMDP模型推导出下一时刻环境状态的置信值；假设起始时刻的置信状态为b₀，执行动作a与观察o，获得下一时刻置信状态b₁。当处于状态s₁，模型获得的观察为o₁，模型内部状态为i₁；通过计算，根据问题引导策略选择相应的动作a₁，导致环境状态从s₁转移到s₂，模型获得回报r₁与观察o₂，此时模型内部状态从i₁(b₁)转移到i₂(b₂)，然后模型依此继续运行；

S13：构建问题引导策略：构建问题的引导策略估计函数来实现对话状态跟踪，该函数表示为：

其中，是对应节点l的动作向量状态s的值，ψ(l)表示输出的与节点l相关的动作，η(l,o)表示在收到观察o后节点l的后继，s`表示当前对话环境状态，Z(s`,ψ(l),o)表示当前回报函数，R(s,ψ(l))表示节点l处的状态回报，γ表示每个时间步长的因子，γ∈[0，1]；通过策略演化，得到下一时刻的问题引导策略函数：

其中表示最优策略，表示上一时刻的策略函数，β表示回报折扣因子，r(b,a)表示当前执行动作a,在概率分布b下的回报，B`表示下一时刻置信状态，b`表示下一时刻的概率分布。

进一步，在所述步骤S2中，所述的构建深度增强学习的问题引导策略优化算法具体包括以下步骤：

S21：构建Q网络(Q(s,a；θ))定义行为策略，利用目标Q网络(Q(s,a；θ^-))生成DQN丢失项的目标Q值，以及重新记忆POMDP模型用于训练Q网络的随机采样状态值；

S22：通过增强学习定义POMDP模型的预期总回报：

其中，回报r_t由每个时间步长的因子γ∈[0，1]折算，T是终止步骤；采用动作值函数Q^π(s,a)观察状态s_t的预期回报，并利用神经网络Q(s,a)＝(Q(s,a；θ))近似动作值函数；对于基于动作a下的引导策略π，最优动作值函数Q^π(s,a)＝E[R_t|s_t＝a,a₁＝a,π]通过策略实现；构建含有动作值a的贝尔曼Bellman方程：

其中，Q^*(s,a)表示下一状态最优值函数、Q*(s`,a`)表示当前状态最优值函数；通过调整Q网络对迭代的Bellman目标参数进行求解；

S23：DQN使用记忆重构，在POMDP模型的每个时间步长t内，将记忆元组e_t＝(s_t,a_t,r_t,s_t+1)存放到记忆存储器D_t＝{e₁,,e_t}中；

S24：DQN分别维持两个独立的Q网络(Q(s,a；θ))和(Q(s,a；θ^-))，当前参数θ在每个时间步长内进行多次更新，并在N次迭代之后被复制到旧参数θ^-中；在更新迭代时，为了最小化相对于旧参数θ^-的均方Bellman误差，优化损失函数：

更新当前参数θ；对于每次更新i，从记忆存储器D中单独采样获取记忆元组(s,a,r,s`)～U(D)；对于每个样本，通过随机梯度下降算法更新当前参数θ；下降的梯度g_i通过θ相对于θ^-的损失样本梯度为：

其中，表示梯度下降函数符号；

S25：在每个时间步长t内，选择相对于当前Q网络(Q(s,a；θ))的偏好行为动作；使用中心参数服务器来维护Q网络(Q(s,a；θ^-))的分布式表示；同时，该参数服务器接收强化学习到的渐变信息，并在异步随机梯度下降算法的驱动下，应用这些渐变信息来修改参数向量θ^-。

本发明的有益效果在于：本发明通过构建POMDP模型结合设计深度增强学习的问题引导策略优化算法。完成实时跟踪对话状态，对下一对话结果进行预测，给出预测策略，并根据策略优化算法，得出最佳对话策略方法，推导出最优对话预测结果。本发明不仅节约了大量的人工成本提高了客服对话的工作效率，同时还为用户提供了更为便捷的服务体验，提升了服务质量。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为基于POMDP模型的问题引导策略结构图。

图2为深度增强学习策略优化模型框架。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

如图1所示，建立基于POMDP模型的对话问题引导策略。该过程包含以下3个步骤：

(1)建立移动客服对话POMDP模型的描述；

(2)移动客服对话置信状态推导；

(3)构建问题的引导策略估计函数实现对话状态跟踪。

如图2所示，构建深度增强学习的问题引导策略优化算法。该过程包含以下5个步骤：

(1)搭建Q网络定义对话行为策略；

(2)通过增强学习定义步骤1)中POMDP模型对话策略的预期总回报；

(3)深度增强学习使用记忆重构，存储步骤1)POMDP模型对话状态；

(4)深度增强学习分别维持两个独立的Q网络，对参数迭代更新，获得下一时刻对话状态策略；

(5)在每个特定时间步长内，选择相对于当前Q网络的偏好对话状态，获得该时长内最佳对话策略。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于状态跟踪与策略导向下的移动客服对话管理方法，其特征在于，该方法包括以下步骤：

S1：建立基于部分隐马尔科夫(partially observable markov desicion process,POMDP)模型的对话问题引导策略，通过POMDP模型的内部作用器给用户对话环境状态施加动作，使对话环境状态发生变化，获得一定回报，并根据所获得的累计回报来衡量所执行一系列策略的可能性，将问题转换成策略选择问题；

S2：构建深度增强学习的问题引导策略优化算法，根据POMDP模型得到的对话问题引导策略，采用基于深度增强学习(Deep Q Network,DQN)的策略优化方法来选择最佳行动策略。

2.根据权利要求1所述的一种基于状态跟踪与策略导向下的移动客服对话管理方法，其特征在于，在所述步骤S1中，所述的建立基于POMDP模型的对话问题引导策略具体包括以下步骤：

S11：将POMDP模型描述为<S,A,T,O,Q,β>，其中S＝{s_i|i＝1,...,m}表示对话环境状态集，其中m表示对话环境状态数量；A＝{a_k|k＝1,...,n}表示动作集，其中n表示对话环境中执行动作数量；当模型执行动作a_k时，引起对话环境状态从s_i转移到s_j；T＝{p(s_j|s_i,a)|s_j,s_i∈S,a∈A}表示状态转移概率集；p(s_j|s_i,a)表示在对话环境状态s_i执行动作a后对话环境状态转移为j的概率；O＝{o_i|i＝1,...,n}表示对话观察集；R＝{r_ij(a)|a∈A}表示回报集，r_ij(a)表示模型执行动作a，对话环境状态从s_i转移到s_j后所获得的回报；β表示回报折扣因子，其中0＜β＜1；Q＝{p(o_j|s_i,a)|o_j∈O,s_i∈S,a∈A}表示对话观察概率，p(o_j|s_i,a)表示执行动作a后，在结果状态si观察到o_j的概率；b0表示初始对话环境状态的概率分布；

S12：对话置信状态推导：对话环境状态在POMDP模型概率分布中的置信状态表示为B＝{b_t}，t时刻的概率分布为b_t＝{b_t(s₁),...,b_t(s_m)}，其中b_t(s_i)表示t时刻环境状态为s_i的概率；通过对当前时刻对话环境的观察与动作的选择，POMDP模型推导出下一时刻环境状态的置信值；假设起始时刻的置信状态为b₀，执行动作a与观察o，获得下一时刻置信状态b₁。当处于状态s₁，模型获得的观察为o₁，模型内部状态为i₁；通过计算，根据问题引导策略选择相应的动作a₁，导致环境状态从s₁转移到s₂，模型获得回报r₁与观察o₂，此时模型内部状态从i₁(b₁)转移到i₂(b₂)，然后模型依此继续运行；

其中表示最优策略，V_t ^*表示上一时刻的策略函数，β表示回报折扣因子，r(b,a)表示当前执行动作a,在概率分布b下的回报，B`表示下一时刻置信状态，b`表示下一时刻的概率分布。

3.根据权利要求1所述的一种基于状态跟踪与策略导向下的移动客服对话管理方法，其特征在于，在所述步骤S2中，所述的构建深度增强学习的问题引导策略优化算法具体包括以下步骤：

S21：构建Q网络(Q(s,a；θ))定义行为策略，利用目标Q网络(Q(s,a；θ-))生成DQN丢失项的目标Q值，以及重新记忆POMDP模型用于训练Q网络的随机采样状态值；

S22：通过增强学习定义POMDP模型的预期总回报：

S23：DQN使用记忆重构，在POMDP模型的每个时间步长t内，将记忆元组e_t＝(s_t,a_t,r_t,s_t+1)存放到记忆存储器D_t＝{e₁,…,e_t}中；

S24：DQN分别维持两个独立的Q网络(Q(s,a；θ))和(Q(s,a；θ-))，当前参数θ在每个时间步长内进行多次更新，并在N次迭代之后被复制到旧参数θ-中；在更新迭代时，为了最小化相对于旧参数θ-的均方Bellman误差，优化损失函数：

更新当前参数θ；对于每次更新i，从记忆存储器D中单独采样获取记忆元组(s,a,r,s`)～U(D)；对于每个样本，通过随机梯度下降算法更新当前参数θ；下降的梯度g_i通过θ相对于θ-的损失样本梯度为：

其中，表示梯度下降函数符号；