CN107357838B

CN107357838B - 基于多任务学习的对话策略在线实现方法

Info

Publication number: CN107357838B
Application number: CN201710483734.3A
Authority: CN
Inventors: 俞凯; 常成; 杨闰哲; 陈露; 周翔
Original assignee: Shanghai Jiaotong University Intellectual Property Management Co ltd; AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2020-09-01
Anticipated expiration: 2037-06-23
Also published as: CN107357838A

Abstract

一种基于多任务学习的对话策略在线实现方法，通过实时获取人机对话的语料信息，提取当前用户状态特征和用户动作特征并构造得到训练输入；然后将对话策略学习过程中的单一累积奖赏值拆分成对话轮数奖赏值和对话成功奖赏值作为训练标注，并在线训练过程中通过多任务学习技术对两种不同的值模型同时进行优化，最后合并两项奖赏值，并更新对话策略。本发明采用强化学习的框架，通过在线学习进行对话策略优化，无需根据领域人工设计规则策略，能够适应不同复杂度的领域信息结构、不同规模的数据；本发明将原始优化单一累积奖赏值的任务进行分解，利用多任务学习同时优化从而学到更好的网络结构，降低训练过程的方差。

Description

基于多任务学习的对话策略在线实现方法

技术领域

本发明涉及的是一种语音输入领域的技术，具体是一种针对任务型对话系统类型的基于多任务学习的对话策略在线实现方法。

背景技术

随着人工智能技术的发展，对话系统作为一种能够与人类自然交流的系统，以其良好的应用前景逐渐成为研究热点。目前，该技术已被广泛应用于自动客服、语音助手、聊天机器人等场景，极大的改善了人机交互体验。一个典型的对话系统包括五个模块：语音识别、语义理解、对话管理、自然语言生成和语音合成。就功能而言，对话系统可以分为聊天型对话系统和任务型对话系统。前者以不间断的与用户聊天为目的，没有明确的领域限制；后者以完成一个特定的领域任务为目的，围绕某个领域开展对话，若最终完成对话目标则认为对话成功，否则对话失败。

发明内容

本发明针对现有技术存在的耗费人力且设计好的规则难以拓展、不能广泛适用于信息结构复杂的领域、训练过程初期不稳定且学习速率难以保证等缺陷，提出一种基于多任务学习的对话策略在线实现方法，采用强化学习的框架，通过在线学习进行对话策略优化，无需根据领域人工设计规则策略，能够适应不同复杂度的领域信息结构、不同规模的数据；本发明为了提高训练过程的稳定性，将原始优化单一累积奖赏值的任务进行分解，利用多任务学习同时优化从而学到更好的网络结构，降低训练过程的方差。

本发明是通过以下技术方案实现的：

本发明涉及一种基于多任务学习的在线对话系统，包括：语音识别模块、语义理解模块、对话管理模块、自然语言生成模块和语音合成模块，其中：语音识别模块与语义理解模块相连并传输用户语音识别之后的文本信息，语义理解模块与对话管理模块相连并传输用户语义信息，对话管理模块与自然语言生成模块相连并传输机器语义信息，自然语言生成模块与语音合成模块相连并传输机器语义信息。

所述的对话管理模块中进一步包括：对话状态跟踪子模块和与之相连并传输当前对话状态信息的对话策略子模块。

本发明涉及一种基于上述系统的对话策略在线实现方法，通过实时获取人机对话的语料信息，提取当前用户状态特征和用户动作特征并构造得到训练输入；然后将对话策略学习过程中的单一累积奖赏值拆分成对话轮数奖赏值和对话成功奖赏值作为训练标注，并在线训练过程中通过多任务学习技术对两种不同的值模型同时进行优化，最后合并两项奖赏值，并更新对话策略。

所述的语料信息包括但不限于：当前对话的轮数、对话成功或失败的标识、用户语义信息、系统语义信息。

优选地，根据不同的对话领域和应用需求，策略学习可能需要大量语料，在训练过程中可采用虚拟用户等虚拟环境代替真实用户和场景进行策略学习。

所述的当前用户状态特征，由对话管理模块中的对话状态跟踪子模块根据历史用户语义和系统语义、当前用户语义和系统语义信息生成。

所述的用户动作特征，从当前用户语义信息中提取，其表示形式采用但不限于为“槽值对”(slot-value pair)，所谓“槽”即是语义属性的名称，“值”对应该语义属性的值，一个典型的用户动作格式为：“槽＝值”。

用户动作特征从用户语义中提取，用于表示用户语义的格式不限于“槽值对”的形式，也可以是其他表示语义的格式。

所述的构造训练输入，具体包括：对提取得到的用户状态和用户动作要进行向量化，从而构造出训练样本的输入：用户状态特征s_t和用户动作特征a_t，其中：t是当前对话轮数。

所述的拆分是指：将当前累积奖赏值拆分为对话轮数奖赏值和对话成功奖赏值，即：

其中：t是对话轮数，r_t是第t轮的累积奖赏值，

是第t轮的对话轮数奖赏值，

是第t轮的对话成功奖赏值。

所述的拆分，具体为对累积奖赏值的拆分可根据应用需求进行差异性划分，若总的累积奖赏的计算包含除了“对话轮数”及“对话是否成功”之外的其他信息，也可以将其他信息拆分出来建模。

所述的训练标注，即对话轮数奖赏值和对话成功奖赏值。

优选地，第t轮的对话轮数奖赏值

的大小根据当前对话轮数t和每轮对话惩罚值确定，即：

其中：t是对话轮数，plt是对话轮数立即惩罚值(小于0)。

优选地，第t轮的对话成功奖赏值

的大小根据当前对话是否结束，以及对话是否成功来确定，即：

其中：δ是对话成功标识(当且仅当对话结束且成功时值为1，否则为0)，rwd是对话成功立即奖赏值。

所述的优化是指：建立一个多任务学习模型同时优化对话轮数奖赏值和对话成功奖赏值，该多任务学习模型的输入是训练输入，模型的标注为训练标注。

所述的多任务学习模型采用但不限于：强化学习的“深度动作学习网络”算法(Deep Q-Learning Network,DQN)，每一轮对话迭代更新动作网络Q(s_t，a_t；θ)，其中：第t轮的用户状态s_t和用户动作a_t是动作网络Q的输入参数，θ是动作网络Q的网络结构参数。

所述的强化学习也可以是其他基于动作学习的强化学习算法，比如：双深度动作学习网络算法(Double DQN)，优先深度动作学习网络算法(Prioritied DQN)等。

所述的多任务学习模型的动作学习目标(Q-Learning target)Q_e在每轮对话后更新为：

其中：r是立即奖赏值，γ是衰减因子，Q是动作网络，a_t+1是第t+1轮的用户动作，s_t+1是第t+1轮的用户状态，θ^-是上次迭代得到的动作网络的参数。对于优化对话轮数奖赏值和对话成功奖赏值这两个不同任务的模型网络，r的值分别对应于各自的

和

训练网络模型的参数时损失函数L(θ)的定义为：

其中：

是求期望运算，Q是动作网络，s_t是第t轮的用户状态，a_t是第t轮的用户动作，θ是当前迭代的动作网络的参数。

所述的更新对话策略是指：利用训练得到的两个奖赏值模型对每一轮对话输出：预测的对话轮数累积奖赏值Q^turn(s_t，a_t)和预测的对话成功累积奖赏值Q^succ(s_t，a_t)，再利用公式Q(s_t，a_t)＝Q^turn(s_t，a_t)+Q^succ(s_t，a_t)将两种奖赏值合并，得到当前总累积奖赏值Q(s_t，a_t)，从而更新对话策略为：π(s_t，a_t)＝argmax_a Q(s_t，a_t)，其中：π是策略函数。

技术效果

与现有技术相比，本发明避免了显式的由领域专家进行人工设计规则，节省了人力、便于领域拓展、提高了系统的可维护性；本发明应用强化学习，有较强的建模能力，在数据充足的情况下能够适应不同的领域环境，包括简单领域和复杂领域；本发明利用多任务学习，将两个任务同时优化从而学到更好的网络结构，使训练过程更稳定、方差更小、学习速率更高；本发明利用多任务学习，使动作网络的学习对噪声更鲁棒，相比传统方法能够收敛到更好的值，从而得到更优的对话策略；本发明有效利用了对话数据的轮数信息和最终对话成功或失败的反馈信息，能够额外预测距离对话结束还有几轮对话，以及预测当前对话的成功率，提供更丰富的信息帮助系统进行决策。

附图说明

图1本发明流程图；

图2是实施例中实时获取人机对话语料的在线口语对话系统流程图；

图3是实施例中用多任务学习方法对动作网络进行迭代训练的流程图；

图4是实施例中在线对话系统的结构示意图；

图5是实施例采用本发明的方法与现有技术的对比结果图。

具体实施方式

如图1所示，本实施例如下步骤：

步骤101、从在线对话系统中实时获取人机对话的语料。

在本实施例中，用于实时获取人机对话语料的在线口语对话系统流程如图2所示，一次完整的对话流程步骤包括：

步骤201：语音识别，将用户的语音转换成文本格式；

步骤202：语义理解，将用户语音文本解析成“槽值对”形式的语义；

步骤203：对话状态跟踪，根据当前信息和历史信息更新当前用户状态；

步骤204：对话策略生成回复动作，以用户当前状态和用户动作为输入，根据对话策略生成系统回复动作；

步骤205：自然语言生成，将系统回复动作转换成自然语言；

步骤206：语音合成，将系统回复自然语言转换成语音，播放给用户，完成一轮对话。

每一轮对话，获取的人机对话的实时语料信息包括：当前对话的轮数、对话成功或失败的标识、用户语义信息、系统语义信息等，即对话策略训练所需的原始输入信息。

步骤102、提取当前用户状态特征和用户动作特征，构造训练输入：从步骤202得到用户语义信息，从中提取用户动作，格式为“槽＝值”；从步骤203直接得到用户状态信息。将当前用户状态和用户动作向量化，从而构造出训练样本的输入：用户状态特征s_t和用户动作特征a_t，其中：t是当前对话轮数。

步骤103、对当前累积奖赏值进行拆分，构造训练标注：将当前累积奖赏值被拆分为：对话轮数奖赏值和对话成功奖赏值两项，即：

其中：t是对话轮数，r_t是第t轮的累积奖赏值，

是第t轮的对话轮数奖赏值，

是第t轮的对话成功奖赏值。

其中，

值的大小根据当前对话轮数t和每轮对话惩罚值确定，即：

本实施例中，设定plt＝-1；

值的大小根据当前对话是否结束，以及对话是否成功来确定，即：

其中：δ是对话成功标识，本实施例中设定rwd＝+20。

由此构造出两个不同奖赏值的训练标注。

步骤104、用多任务学习同时优化两种奖赏值模型：建立一个多任务学习模型同时优化对话轮数奖赏值和对话成功奖赏值，模型的输入是步骤102得到的训练输入，模型的标注来自步骤103得到的

和

两种奖赏值。

对两个任务的优化学习采用强化学习的“深度动作学习网络”算法(Deep Q-Learning Network,DQN)，每一轮对话迭代更新动作网络Q(s_t，a_t；θ)，其中：第t轮的用户状态st和用户动作a_t是动作网络Q的输入参数，θ是动作网络Q的网络结构参数。

所述的动作网络Q(s_t，a_t；θ)的实现在本实施例中采用深度神经网络(Deep NeuralNetwork,DNN)模型，网络的层数设定为3层，每一层设定300个神经元节点，神经网络的训练方式采用经典的随机梯度下降(Stochastic Gradient Descent,SGD)算法。

更具体地，在第t轮对话，用多任务学习方法对动作网络Q(s_t，a_t；θ)的迭代训练流程如图3所示，其步骤包括：

步骤301：输入用户状态特征s_t和用户动作特征a_t，即102中提取的输入特征向量；

步骤302：将累积奖赏值r_t拆分成

和

两项，对应两个任务，即训练对话轮数奖赏值模型和训练对话成功奖赏值模型；

步骤303：更新轮数奖赏值网络的动作学习目标(Q-Learning target)，动作学习目标Q_e在每轮对话后更新为：

其中：r是立即奖赏值，γ是衰减因子，Q是动作网络，a_t+1是第t+1轮的用户动作，s_t+1是第t+1轮的用户状态，θ-是上次迭代得到的动作网络的参数。对于优化对话轮数奖赏值模型网络，r的值即

步骤304：根据轮数奖赏值网络损失函数更新网络参数，损失函数L(θ)的定义为：

其中：

是求期望运算，Q是轮数奖赏值动作网络，s_t是第t轮的用户状态，a_t是第t轮的用户动作，θ是当前迭代的动作网络的参数。

步骤305：更新对话成功奖赏值网络的动作学习目标(Q-Learning target)，类似步骤303，不同的是，对于优化对话成功奖赏值模型网络，r的值即

步骤306：根据对话成功奖赏值网络损失函数更新网络参数，类似步骤305，不同的是，Q是对话成功奖赏值动作网络。

步骤307：合并两项奖赏值，更新对话策略，即如图1中步骤105所示：

利用步骤104训练得到的两个奖赏值模型对每一轮对话，输出：预测的对话轮数累积奖赏值Q^turn(s_t,a_t)和预测的对话成功累积奖赏值Q^succ(s_t,a_t)，再利用公式Q(s_t,a_t)＝Q^turn(s_t,a_t)+Q^succ(s_t,a_t)将两种奖赏值合并，得到当前总累积奖赏值Q(s_t,a_t)。

从而策略函数π的更新公式为：π(s_t,a_t)＝argmax_a Q(s_t,a_t)。

由此，每一轮对话都可以将对话策略进行一次迭代更新，直至收敛。

本实施例通过多任务学习的对话策略学习方法，与传统方法对比结果图如图5所示，本发明所述的方法训练过程更稳定、方差更小，且学习速率更快、收敛更好。最终，在充分进行对话策略学习之后，本发明所述的方法收敛达到0.73的对话成功率，优于传统方法收敛达到的0.70的对话成功率。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于多任务学习的对话策略在线实现方法，其特征在于，通过实时获取人机对话的语料信息，提取当前用户状态特征和用户动作特征并构造得到训练输入；然后将对话策略学习过程中的单一累积奖赏值拆分成对话轮数奖赏值和对话成功奖赏值作为训练标注，并在线训练过程中通过多任务学习技术对两种不同的值模型同时进行优化，最后合并两项奖赏值，并更新对话策略；

所述的语料信息包括：当前对话的轮数、对话成功或失败的标识、用户语义信息和/或系统语义信息；

所述的当前用户状态特征，由对话管理模块中的对话状态跟踪子模块根据历史用户语义和系统语义、当前用户语义和系统语义信息生成；

所述的拆分是指：将当前累积奖赏值拆分为对话轮数奖赏值和对话成功奖赏值，即：r_t＝r_t ^turn+r_t ^succ，其中：t是对话轮数，r_t是第t轮的累积奖赏值，r_t ^turn是第t轮的对话轮数奖赏值，r_t ^succ是第t轮的对话成功奖赏值；

第t轮的对话轮数奖赏值r_t ^turn的大小根据当前对话轮数t和每轮对话惩罚值确定，即：r_t ^turn＝t*plt，其中：t是对话轮数，plt是对话轮数立即惩罚值；

第t轮的对话成功奖赏值r_t ^succ的大小根据当前对话是否结束，以及对话是否成功来确定，即：r_t ^succ＝δ*rwd，其中：δ是对话成功标识，当且仅当对话结束且成功时值为1，否则为0，rwd是对话成功立即奖赏值。

2.根据权利要求1所述的方法，其特征是，根据不同的对话领域和应用需求，策略学习可能需要大量语料，在训练过程中可采用虚拟用户等虚拟环境代替真实用户和场景进行策略学习。

3.根据权利要求1所述的方法，其特征是，所述的用户动作特征，从当前用户语义信息中提取，其表示形式采用：“槽值对”，其中：“槽”即是语义属性的名称，“值”对应该语义属性的值。

4.根据权利要求1所述的方法，其特征是，所述的训练输入，通过以下方式得到：对提取得到的用户状态和用户动作要进行向量化，从而构造出训练样本的输入：用户状态特征S_t和用户动作特征a_t，其中：t是当前对话轮数。

5.根据权利要求1所述的方法，其特征是，所述的优化是指：建立一个多任务学习模型同时优化对话轮数奖赏值和对话成功奖赏值，该多任务学习模型的输入是训练输入，模型的标注为训练标注；

所述的多任务学习模型采用：强化学习的深度动作学习网络算法、双深度动作学习网络算法或优先深度动作学习网络算法。

6.根据权利要求5所述的方法，其特征是，所述的强化学习的深度动作学习网络算法中，每一轮对话迭代更新动作网络Q(S_t,a_t；θ)，其中：第t轮的用户状态S_t和用户动作a_t是动作网络Q的输入参数，θ是动作网络Q的网络结构参数。

7.根据权利要求6所述的方法，其特征是，所述的多任务学习模型的动作学习目标Q_e在每轮对话后更新为：

其中：r是立即奖赏值，γ是衰减因子，Q是动作网络，a_t+1是第t+1轮的用户动作，S_t+1是第t+1轮的用户状态，

是上次迭代得到的动作网络的参数，对于优化对话轮数奖赏值和对话成功奖赏值这两个不同任务的模型网络，r的值分别对应于各自的r_t ^turn和r_t ^succ；

训练网络模型的参数时损失函数L(θ)的定义为：L(θ)＝Ε[(Q_e-Q(S_t,a_t；θ))²]，其中：Ε是求期望运算，Q是动作网络，S_t是第t轮的用户状态，a_t是第t轮的用户动作，θ是当前迭代的动作网络的参数。

8.根据权利要求6所述的方法，其特征是，所述的更新对话策略是指：利用训练得到的两个奖赏值模型对每一轮对话输出：预测的对话轮数累积奖赏值Q^turn(S_t,a_t)和预测的对话成功累积奖赏值Q^succ(S_t,a_t)，再利用公式Q(S_t,a_t)＝Q^turn(S_t,a_t)+Q^succ(S_t,a_t)将两种奖赏值合并，得到当前总累积奖赏值Q(S_t,a_t)，从而更新对话策略为：

其中：π是策略函数。