CN112989017A - 用于生成对话策略学习用高质量模拟经验的方法 - Google Patents

用于生成对话策略学习用高质量模拟经验的方法 Download PDF

Info

Publication number
CN112989017A
CN112989017A CN202110532471.7A CN202110532471A CN112989017A CN 112989017 A CN112989017 A CN 112989017A CN 202110532471 A CN202110532471 A CN 202110532471A CN 112989017 A CN112989017 A CN 112989017A
Authority
CN
China
Prior art keywords
simulation experience
experience
quality
model
dialogue strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110532471.7A
Other languages
English (en)
Other versions
CN112989017B (zh
Inventor
平洋
曹江
方文其
吴冠霖
栾绍童
闫顼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanhu Laboratory
Original Assignee
Nanhu Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanhu Laboratory filed Critical Nanhu Laboratory
Priority to CN202110532471.7A priority Critical patent/CN112989017B/zh
Publication of CN112989017A publication Critical patent/CN112989017A/zh
Application granted granted Critical
Publication of CN112989017B publication Critical patent/CN112989017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Robotics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用于生成对话策略学习用高质量模拟经验的方法,属于机器学习技术领域,包括以下步骤:S1.由基于GP的世界模型预测产生模拟经验;S2.将模拟经验存储至缓冲器以用于对话策略模型训练。本方案基于高斯过程的世界模型能够避免传统DNN模型生成的模拟经验质量需要依赖训练数据量的问题,能够生成高质量的模拟经验,以补充有限的实际用户经验,有效避免初始阶段因为真实经验较少而导致学习效果不佳,学习效率低等问题。

Description

用于生成对话策略学习用高质量模拟经验的方法
技术领域
本发明属于机器学习技术领域,尤其是涉及一种用于生成对话策略学习用高质量模拟经验的方法。
背景技术
任务完成型对话策略学习旨在构建一个以完成任务为目标的对话系统,该系统可以通过几轮自然语言交互来帮助用户完成特定的单个任务或多域任务。它已广泛应用于聊天机器人和个人语音助手,例如苹果的Siri和微软的Cortana。
近年来,强化学习逐渐成为了对话策略学习的主流方法。基于强化学习,对话系统可以通过与用户进行自然语言交互来逐步调整、优化策略,以提高性能。但是,原始强化学习方法在获得可用的对话策略之前需要进行大量人机对话交互,这不仅增加了训练成本,而且还恶化了早期训练阶段的用户体验。
为了解决上述问题并加速对话策略的学习过程,研究者们在Dyna-Q框架的基础上,提出了Deep Dyna-Q(DDQ)框架。DDQ框架引入了世界模型,为了使其与真实用户更相似,该模型使用真实用户经验进行训练,用以在动态环境中生成模拟经验。在对话策略学习过程中,使用从实际交互中收集的真实经验和从与世界模型交互中收集的模拟经验共同训练对话智能体。借助引进世界模型,只需要使用少量的真实用户交互,能够显著提升对话策略的学习效率,然而,DDQ在进一步优化基于有限对话交互的对话策略学习方面还面临着一些难题,例如DDQ中的世界模型被构建为深度神经网络(DNN),其性能在很大程度上取决于训练所用的数据量。在真实经验相对较少的初始训练阶段,DNN对数据的高度依赖问题可能会使世界模型生成低质量的模拟经验,若要该模型生成高质量的模拟经验,则需要大量的真实经验。也就是说,由DNN等数据需求量大的模型实现的世界模型将削弱Dyna-Q框架带来的优势,并使得DDQ在现实中的效率很低。
发明内容
本发明的目的是针对上述问题,提供一种用于生成对话策略学习用高质量模拟经验的方法。
为达到上述目的,本发明采用了下列技术方案:
一种用于生成对话策略学习用高质量模拟经验的方法,包括以下步骤:
S1.由基于GP的世界模型预测产生模拟经验;
S2.将模拟经验存储至缓冲器以用于对话策略模型训练。
在上述的用于生成对话策略学习用高质量模拟经验的方法中,在步骤步骤S2之前,先由质量检测器对所述模拟经验进行质量检测,且在步骤S2中将质量检测合格的模拟经验存储至缓冲器。
在上述的用于生成对话策略学习用高质量模拟经验的方法中,基于GP的世界模型包括多个GP模型,且所述的世界模型由W(s, a;θw)表示,s为当前对话状态,a为最后一个响应动作,θw表示各个GP模型的参数。
在上述的用于生成对话策略学习用高质量模拟经验的方法中,在步骤S1中,通过多个GP模型预测生成至少一组模拟经验,且每组模拟经验包括响应动作au、奖励r和变量t。
在上述的用于生成对话策略学习用高质量模拟经验的方法中,所述的世界模型包括三个GP模型,且三个GP模型分别用于生成响应动作au、奖励r和变量t。
在上述的用于生成对话策略学习用高质量模拟经验的方法中,在步骤S1的模拟经验预测阶段通过三个GP模型生成元模拟经验ei=(au i, ri, ti)。
在上述的用于生成对话策略学习用高质量模拟经验的方法中,获取元模拟经验中响应动作au i、奖励ri 和变量 ti的50%置信区间,并依此得到上限模拟经验el =(au l, rl,tl)和下限模拟经验eb =(au b, rb, tb)。
在上述的用于生成对话策略学习用高质量模拟经验的方法中,在步骤S1中,当预测的响应动作au不是整数时,将au近似到最接近的整数;
当预测的响应动作au超出了定义的动作域时,直接选取动作域的上限或下限。
在上述的用于生成对话策略学习用高质量模拟经验的方法中,所述GP模型的模型如下:
Figure 262493DEST_PATH_IMAGE001
其中,
Figure 445213DEST_PATH_IMAGE002
Figure 756109DEST_PATH_IMAGE003
表示均值;
Figure 433209DEST_PATH_IMAGE004
为核函数;
Figure 513160DEST_PATH_IMAGE005
为高斯噪声,
Figure 866781DEST_PATH_IMAGE006
为方差,
Figure 399394DEST_PATH_IMAGE007
为单位矩阵。
在上述的用于生成对话策略学习用高质量模拟经验的方法中,所述的核函数采用如下形式:
Figure 129452DEST_PATH_IMAGE008
其中,
Figure 814643DEST_PATH_IMAGE009
Figure 339165DEST_PATH_IMAGE010
分别是幅度和长度标度参数;
Figure 359073DEST_PATH_IMAGE011
是伽马函数;
Figure 627244DEST_PATH_IMAGE012
是第二类型的修正贝塞尔函数;
Figure 416208DEST_PATH_IMAGE013
是协方差的正参数;
Figure 127943DEST_PATH_IMAGE014
表示观测目标值之间的距离。
本发明的优点在于:基于高斯过程的世界模型能够避免传统DNN模型生成的模拟经验质量需要依赖训练数据量的问题,能够生成高质量的模拟经验,以补充有限的实际用户经验,避免初始阶段因为真实经验较少而导致学习效果不佳,学习效率低等问题。
附图说明
图1为本发明实施例一中对话学习方法的架构图;
图2为本发明实施例一中对话学习方法中世界模型的训练阶段流程图;
图3为本发明实施例一中对话学习方法中世界模型的预判阶段流程图;
图4为本发明实施例二中对话学习方法中KL散度计算流程图;
图5为DDQ和GPDDQ在不同参数设定下的学习曲线,其中,
(a)为DDQ在M=5000;N=16;K=0, 2, 5, 10, 20时的学习曲线;
(b)为GPDDQ在M=5000;N=16;K=0, 2, 5, 10, 20时的学习曲线;
(c)为DDQ在M=5000;N=4;K=0, 2, 5, 10, 20时的学习曲线;
(d)为GPDDQ在M=5000;N=4;K=0, 2, 5, 10, 20时的学习曲线;
图6为DDQ/DQN和GPDDQ/GPDQN在M=5000,K=10,N=16时的学习曲线,其中,
(a)为DDQ/DQN的学习曲线;
(b)为GPDDQ/GPDQN的学习曲线;
图7为DDQ和KL-GPDDQ在不同参数设定下的学习曲线,其中,
(a)为DDQ在M=5000, 3500, 2000, 1000;K=20;N=4时的学习曲线;
(b)为KL-GPDDQ在M=5000, 3500, 2000, 1000;K=20;N=4时的学习曲线;
(c)为DDQ在M=5000, 3500, 2000, 1000;K=30;N=4时的学习曲线;;
(d)为KL-GPDDQ在M=5000, 3500, 2000, 1000;K=30;N=4时的学习曲线;
图8为D3Q,DDQ,GPDDQ,UN-GPDDQ,KL-GPDDQ在不同参数设定下的学习曲线,其中,
(a)为M=5000,K=20,N=4时的学习曲线;
(b)为M=5000,K=30,N=4时的学习曲线;
图9是本发明实施例二中对话学习方法的架构图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步详细的说明。
实施例一
如图1所示,本方案提出一种用于对话策略学习的基于GP的深度Dyna-Q方法,其基本方法与现有技术一致,如使用人类会话数据来初始化对话策略模型和世界模型,并依此来启动对话策略学习。对话策略模型的对话策略学习主要包括直接强化学习和间接强化学习(也叫规划)两部分。直接强化学习,采用Deep Q-Network(DQN)根据真实经验改进对话策略,对话策略模型与用户User交互,在每一步中,对话策略模型根据观察到的对话状态s,通过最大化价值函数Q,选择要执行的动作a。然后,对话策略模型接收奖励r,真实用户的动作ar u,并更新当前状态到s’,然后将真实经验(s, a, r, ar u , t)存储至真实用户经验库,t用于指示对话是否终止。
最大化价值函数
Figure 635148DEST_PATH_IMAGE015
由DNN近似而成,通过优化
Figure 441430DEST_PATH_IMAGE016
不断迭代更新,以减少 均方损失。其函数如下:
Figure 350480DEST_PATH_IMAGE017
其中,
Figure 216805DEST_PATH_IMAGE018
,是一个折现系数,
Figure 227618DEST_PATH_IMAGE019
是一个独立的网络,在每次迭代中,都用 小批次深度学习对
Figure 572011DEST_PATH_IMAGE020
进行改进。可以使用Adam算法,随机梯度下降和RMSprop等几种优 化算法来训练深度
Figure 601147DEST_PATH_IMAGE020
网络。
间接强化学习期间,对话策略模型通过与世界模型进行交互来改善其对话策略,以减少训练成本,规划的频率由参数K控制,这意味着计划在直接强化学习的每一步中执行K步。当世界模型能够准确捕获真实环境的特征时,K的值往往会很大。在规划的每个步骤中,世界模型都会根据当前状态s来响应动作aw u,在规划过程中生成模拟经验(s,a,r,aw u,t’)。
特别地,本方案在上述现有技术的基础上,提出将世界模型构造成高斯过程模型,提供能够高效进行对话策略学习的世界模型。
具体地,本方法由基于GP的世界模型预测产生模拟经验,然后将模拟经验存储至缓冲器以用于对话策略模型训练。
具体地,本实施例的世界模型由W(s, a;θw)表示,s为当前状态,a为最后一个响应动作,θw表示各个GP模型的参数。且如图2和图3所示,该世界模型由三个GP模型GP1、GP2、GP3组成,并用不同的θw参数化。使用三个GP模型分别用于生成响应动作au、奖励r和变量t,并将模拟经验表示为e =(au, r, t)。
进一步地,本实施例通过三个GP模型生成元模拟经验ei=(au i, ri, ti),并获取响应动作au i、奖励ri和变量ti的50%置信区间,得到上限模拟经验el =(au l, rl, tl)和下限模拟经验eb =(au b, rb, tb)。即每个预测有三个模拟经验ei、el、eb。
与DDQ不同,在该模型中,世界模型本质上是一个用于生成用户动作au的分类模型,考虑到用户操作应为整数并具有有限的动作域,因此本方案对世界模型生成的动作进行进一步处理:
首先,当预测的响应动作au不是整数时(本方案基于GP的世界模型是一个回归模型,而响应动作不是整数在回归情况下比较常见),将au近似到最接近的整数,用比au l大的最近的整数替换au l,并用比au b小的最近的整数替换au b;当预测的响应动作au超出了定义的动作域时,直接选取动作域的上限或下限。
具体地,在世界模型的GP回归问题中,通过添加独立的高斯噪声从函数
Figure 638373DEST_PATH_IMAGE021
生 成观测目标
Figure 120170DEST_PATH_IMAGE022
Figure 268255DEST_PATH_IMAGE001
其中,
Figure 896770DEST_PATH_IMAGE023
Figure 104898DEST_PATH_IMAGE024
表示均值;
Figure 73991DEST_PATH_IMAGE025
为核函数;
Figure 760187DEST_PATH_IMAGE026
为独立的高斯噪声,均值为0,方差为
Figure 763915DEST_PATH_IMAGE027
Figure 159255DEST_PATH_IMAGE028
,I为单位矩阵。根据 贝叶斯原理
Figure 881224DEST_PATH_IMAGE029
以及其测试输入值x*,后验分布的条件均值和协方差如下:
Figure 371111DEST_PATH_IMAGE030
Figure 963766DEST_PATH_IMAGE031
其中,
Figure 264429DEST_PATH_IMAGE032
GP1通过该模型生成动作au,此时动作au便是观测目标y,GP2通过该模型生成奖励r,此时奖励r便是观测目标y,GP3通过该模型生成变量t,此时t便是观测目标y。
优选地,核函数采用Matern:
Figure 208114DEST_PATH_IMAGE033
其中,
Figure 767271DEST_PATH_IMAGE009
Figure 214433DEST_PATH_IMAGE010
分别是幅度和长度标度参数;
Figure 935264DEST_PATH_IMAGE011
是伽马函数;
Figure 116978DEST_PATH_IMAGE012
是第二类型的修正贝塞尔函数;
Figure 948668DEST_PATH_IMAGE013
是协方差的正参数;
Figure 781495DEST_PATH_IMAGE014
表示观测目标值之间的距离。对于多维输入案例,可以引入其相关性自动判定 (ARD)版本来处理这种情况。
在每轮世界模型的学习中,当前状态s和最后一个主体动作a被串联起来作为世界模型的输入。这里用均值和Matern核函数设置所有GP先验,训练世界模型W(s, a;θw)以模仿真实的对话环境。具体地,如图2,这里的损失函数设置为三个GP模型的负对数边际似然(NLL)的总和,在图2中被表示为“trained with summation of Three NLL”,由于具有共轭性质,每个NLL都可以解析解决,其通式可以写为:
Figure 673227DEST_PATH_IMAGE034
其中,
Figure 325926DEST_PATH_IMAGE035
表示矩阵的行列式,n是训练数据的数量。在训练阶段,世界模型W(s, a; θw)可以在每次迭代结束时通过L-BFGS-B算法使用真实经验进行精炼。
本方案提供了一种新的基于高斯过程的DDQ,能够生成高质量的模拟经验以补充有限的实际用户经验。
实施例二
如图9所示,本实施例与实施例一类似,不同之处在于,本实施例在将模拟经验存储至缓冲器之前先由质量检测器对所述模拟经验进行质量检测,并将质量检测合格的模拟经验存储至缓冲器。
具体地,由质量检测器分别检测上限模拟经验el、下限模拟经验eb和元模拟经验ei的质量。这里的质量检测器可以使用传统的GAN(生成式对抗网络)质量检测器,也可以采用本申请人自主研发的KL散度(Kullback-Leibler divergence)质量检测器。
下面对KL散度质量检测器进行简单介绍,如图4所示,其主要通过对比模拟经验与真实经验来进行模拟经验的质量检测,具体方法如下:
将世界模型生成的模拟经验存储至词库world-dict中,将真实用户生成的真实经验存储至词库real-dict中,词库world-dict和词库real-dict的主键均为用户动作au w、au r,主键对应值均为用户动作对应的频率。
词库real-dict与词库world-dict的交集主键在两个词库中的频率值被存储在事先建立的词库same-dict中,并由KL散度衡量词库world-dict与词库real-dict的相似度以进行模拟经验的质量检测;
衡量相似度的方式为事先定义一个变量KLpre,变量KLpre的初始值被设置为一个较大的值,用来跟踪词库real-dict与词库world-dict之间的KL散度。基于词库same-dict计算当前的KL散度,若当前KL散度小于或等于KLpre,则表示由于当前经验使得世界模型与真实用户更相似了,所以将当前经验检测为合格经验,将合格的经验推入至缓冲器Mp用于训练对话策略模型。
为了展示本方案的有效性和优越性,将它放在电影票购买任务中进行多组实验测试:
1.1 数据集
使用与传统DDQ方法相同的原始数据,其通过Amazon Mechanical Turk收集,该数据集已根据领域专家定义的模式手动标记,该模式包含11个对话行为和16个空位,该数据集总共包含280个带注释的对话,平均长度约为11次。
1.2 用作参照物的对话智能体
提供不同版本的任务完成型对话智能体,以作为本方案的性能标杆:
•GPDDQ(M, K, N)是通过本方案的GPDDQ方法学习的智能体,M是缓冲器大小,K是规划步数,N是批次大小。最初的世界模型用人类对话数据预训练。这里不使用不确定性属性(即不进行置信区间的计算),也不使用质量检测;
•UN-GPDDQ(M, K, N)与GPDDQ(M, K, N)相似,但是不确定性在此被纳入考量,在世界模型的预判阶段返回el, ei, eb
•KL-GPDDQ(M, K, N)在UN-GPDDQ(M, K, N)的基础上再纳入KL散度检查;
•GPDDQ(M, K, N, rand-init θ W )是通过GPDDQ方法学习的智能体,但是其世界模型的初始化是随机的。r和t是从对应的GP模型中随机取样的,而对于动作au,统一从其定义的动作域中取样;
•GPDDQ(M, K, N, fixed θ w )只在预热阶段借助人类对话数据进行修正,之后世界模型便不再改动;
•GPDQN(M, K, N)通过直接强化学习而得,在假设其世界模型与真实用户完美匹配的前提下,其性能可以看作GPDDQ(M, K, N)的上限。
1.3 参数分析
为了展示本方案的模型在对超参数变化敏感度方面的优势,本方案做了一系列实验,不断改变对应的参数,例如批次大小,规划步数,参数更新策略,缓冲器大小等。
1.3.1 批次大小和规划步骤
在这组实验中,设定批次大小为16和4,以不同规划步数K来训练智能体,主要结果如图5所示,看一看到,从统计学的角度讲,GPDDQ全面超越了DDQ的性能。从图5(a)和5(b)可以清晰地看出,在同样K值情况下,GPDDQ的成功率收敛值远远优于DDQ。GPDDQ的成功率在0.8附近收敛摆动,而DDQ则是0.74。随着规划步骤增加,学习速度基本都变快了,这个现象符合直观认知,也即大量的规划步骤能够带来更快的学习速度。尽管如此,还是可以看到在k=20和k=10时,学习曲线并没有特别的差异,这是由于K值过大导致模拟经验质量下降。
由于GP方法在超参数的影响方面的鲁棒性更强,可以推测它在小批次情况下有更好的性能,故本组实验中,还进一步进行小批次试验,如图5(c),5(d),将批次大小缩小为4,其他参数不变,在K=0的情况下,GPDDQ的性能仍然超出DDQ。更重要的是,在与批次大小为16时的结果进行比对时,其性能没有明显衰减。相反,DDQ方法只有在K=10时,学习曲线才会在成功率方面强过k=0时,K提升至20时,其性能大幅降低,这是由于DNN在批次大小过小的时候的训练不足导致的。
1.3.2 参数更新策略
在这组实验中,设定M=5000,K=10,N=16,并对其参数更新策略进行一定的改变,结果如图6所示,实验结果表明世界模型的质量对智能体的性能有极大影响。DQN和GPDQN方法是完全不考虑模型的方法,其训练数据量是其他方法的K倍,如图6所示。由于二者的随机性,其曲线虽然略有差别,但本质是一样的,很明显,在预热阶段后就被固定下来的世界模型产生了最坏的结果。DDQ学习曲线在250次迭代后的大跌是由于缺乏训练数据造成的,而GPDDQ方法的每一条学习曲线的最高值都基本和DQN的最高值一样,哪怕是使用不同的参数更新策略,其最终的成功率并不会有多大的浮动。
1.3.3 缓冲器大小
在这组实验中,通过变化缓冲器的大小来评估KL-GPDDQ方法。如图7,从全局性能的角度讲,本方案提出的方法在不同条件下都是更稳定的,包括但不限于不同的缓冲器大小和规划步数情况下。将缓冲器大小从5000减小到1000后,本方案方法的学习曲线并没有明显变化,然而DDQ方法的性能变化却比较明显。出现这个现象是因为DDQ中用DNN构建的世界模型会在规划过程中生成低质量经验,但是由于缓冲器容量变小导致高质量经验意外地成为了缓冲器中的主导者,才使性能有所提升。
而有关收敛的问题,KL-DPDDQ方法在K=20时的成功率在200次迭代后就收敛在了0.8附近,与此形成鲜明对比的是DDQ方法在200次迭代后还没有收敛,且其成功率的浮动范围也基本在本方案方法之下,最后收敛时也低于本方案方法的成功率。这个实验结果充分证明了本方案的方法能够在使用相对小的缓冲器时仍然有更好的性能,且鲁棒性更强。
1.4 性能比对
为了展示本方案方法的性能,将其与其他算法进行比对,如表1,可以发现DDQ方法在全部5个当中仍是性能最差的。从GPDDQ,UN-GPDDQ,和KL-GPDDQ智能体的运行结果中,可以很明显地看出,本方案KL散度检查对性能提升很有帮助,并且其对于成功率和奖励都有显著提升。与DDQ对比,本方案方法能够在与用户交互更少的情况下,还提升20%的成功率
Figure 977618DEST_PATH_IMAGE036
表1:缓冲器大小为5000的不同智能体训练迭代{100,200,300}次,K=20时的实验结果;
上表中,Su(Success,成功率),Tu(Turns,对话回合),Re(Reward,奖励)。
另外,由图8还可以看出,本方案提出的方法的学习速度远远高于DDQ和D3Q。需要注意的是D3Q的曲线起伏很大,很不稳定,尤其是当K=30时,D3Q甚至不能收敛到最优值,所以即使D3Q能够剔除低质量经验,其仍然很难在现实中实现,因为GAN太不稳定了。
由上述多个实验,我们能够看到相对于现有技术基于DDQ框架的方法,本方案具有明显的优越性,能够在提高系统效率的同时提高鲁棒性。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了模拟经验、真实经验、质量检测器、人类会话数据、GP模型、世界模型、缓冲器、对话策略模型、真实用户经验库等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims (10)

1.一种用于生成对话策略学习用高质量模拟经验的方法,其特征在于,包括以下步骤:
S1.由基于GP的世界模型预测产生模拟经验;
S2.将模拟经验存储至缓冲器以用于对话策略模型训练。
2.根据权利要求1所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,在步骤S2之前,先由质量检测器对所述模拟经验进行质量检测,且在步骤S2中将质量检测合格的模拟经验存储至缓冲器。
3.根据权利要求1或2所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,基于GP的世界模型包括多个GP模型,且所述的世界模型由W(s, a;θw)表示,s为当前对话状态,a为最后一个响应动作,θw表示各个GP模型的参数。
4.根据权利要求3所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,在步骤S1中,通过多个GP模型预测生成至少一组模拟经验组,且每组模拟经验组包括响应动作au、奖励r和变量t。
5.根据权利要求4所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,所述的世界模型包括三个GP模型,且三个GP模型分别用于生成响应动作au、奖励r和变量t。
6.根据权利要求5所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,在步骤S1的模拟经验预测阶段通过三个GP模型生成元模拟经验ei=(au i, ri, ti)。
7.根据权利要求6所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,获取元模拟经验中响应动作au i、奖励ri 和变量 ti的50%置信区间,并依此得到上限模拟经验el =(au l, rl, tl)和下限模拟经验eb =(au b, rb, tb)。
8.根据权利要求7所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,在步骤S1中,当预测的响应动作au不是整数时,将au近似到最接近的整数;
当预测的响应动作au超出了定义的动作域时,直接选取动作域的上限或下限。
9.根据权利要求8所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,所述GP模型的模型如下:
Figure 343235DEST_PATH_IMAGE001
其中,
Figure 405869DEST_PATH_IMAGE002
Figure 545863DEST_PATH_IMAGE003
表示均值;
Figure 984935DEST_PATH_IMAGE004
为核函数;
Figure 526775DEST_PATH_IMAGE005
为高斯噪声,
Figure 760310DEST_PATH_IMAGE006
),
Figure 138333DEST_PATH_IMAGE007
为方差,
Figure 115516DEST_PATH_IMAGE008
为单位矩阵。
10.根据权利要求9所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,所述的核函数采用如下形式:
Figure 511862DEST_PATH_IMAGE009
其中,
Figure 181878DEST_PATH_IMAGE010
Figure 30885DEST_PATH_IMAGE011
分别是幅度和长度标度参数;
Figure 562492DEST_PATH_IMAGE012
是伽马函数;
Figure 813345DEST_PATH_IMAGE013
是第二类型的修正贝塞尔函数;
Figure 654262DEST_PATH_IMAGE014
是协方差的正参数;
Figure 990565DEST_PATH_IMAGE015
表示观测目标值之间的距离。
CN202110532471.7A 2021-05-17 2021-05-17 用于生成对话策略学习用高质量模拟经验的方法 Active CN112989017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110532471.7A CN112989017B (zh) 2021-05-17 2021-05-17 用于生成对话策略学习用高质量模拟经验的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110532471.7A CN112989017B (zh) 2021-05-17 2021-05-17 用于生成对话策略学习用高质量模拟经验的方法

Publications (2)

Publication Number Publication Date
CN112989017A true CN112989017A (zh) 2021-06-18
CN112989017B CN112989017B (zh) 2021-08-10

Family

ID=76336627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110532471.7A Active CN112989017B (zh) 2021-05-17 2021-05-17 用于生成对话策略学习用高质量模拟经验的方法

Country Status (1)

Country Link
CN (1) CN112989017B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492215A (zh) * 2022-04-18 2022-05-13 南湖实验室 利用策略模型辅助训练的gp世界模型及其训练方法
CN114647986A (zh) * 2022-04-18 2022-06-21 南湖实验室 基于gp与ppo实现连续性动作决策的智能决策方法和系统
CN117863948A (zh) * 2024-01-17 2024-04-12 广东工业大学 一种辅助调频的分散电动汽车充电控制方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175227A (zh) * 2019-05-10 2019-08-27 神思电子技术股份有限公司 一种基于组队学习和层级推理的对话辅助系统
US20190318648A1 (en) * 2018-04-12 2019-10-17 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
CN111241952A (zh) * 2020-01-03 2020-06-05 广东工业大学 一种离散制造场景中的强化学习奖励自学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318648A1 (en) * 2018-04-12 2019-10-17 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
CN110175227A (zh) * 2019-05-10 2019-08-27 神思电子技术股份有限公司 一种基于组队学习和层级推理的对话辅助系统
CN111241952A (zh) * 2020-01-03 2020-06-05 广东工业大学 一种离散制造场景中的强化学习奖励自学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAVI KUMAR PANDIT等: "Comparative analysis of Gaussian Process power curve models based on different stationary covariance functions for the purpose of improving model accuracy", 《RENEWABLE ENERGY》 *
张文灿: "无线指纹定位系统中的数据采集与重构方法", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492215A (zh) * 2022-04-18 2022-05-13 南湖实验室 利用策略模型辅助训练的gp世界模型及其训练方法
CN114647986A (zh) * 2022-04-18 2022-06-21 南湖实验室 基于gp与ppo实现连续性动作决策的智能决策方法和系统
CN114647986B (zh) * 2022-04-18 2023-08-08 南湖实验室 基于gp与ppo实现连续性动作决策的智能决策方法和系统
CN117863948A (zh) * 2024-01-17 2024-04-12 广东工业大学 一种辅助调频的分散电动汽车充电控制方法及装置
CN117863948B (zh) * 2024-01-17 2024-06-11 广东工业大学 一种辅助调频的分散电动汽车充电控制方法及装置

Also Published As

Publication number Publication date
CN112989017B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN112989017B (zh) 用于生成对话策略学习用高质量模拟经验的方法
US11790238B2 (en) Multi-task neural networks with task-specific paths
JP6824382B2 (ja) 複数の機械学習タスクに関する機械学習モデルのトレーニング
CN109523029B (zh) 自适应双自驱动深度确定性策略梯度强化学习方法
Gasic et al. Gaussian processes for fast policy optimisation of pomdp-based dialogue managers
CN108724182B (zh) 基于多类别模仿学习的端到端游戏机器人生成方法及系统
CN113392956B (zh) 用于对话策略学习的基于GP的深度Dyna-Q方法
WO2015103964A1 (en) Method, apparatus, and device for determining target user
CN107729999A (zh) 考虑矩阵相关性的深度神经网络压缩方法
US10515312B1 (en) Neural network model compaction using selective unit removal
KR102037279B1 (ko) 딥러닝 시스템 및 그 최적 학습 모델 결정 방법
CN107392973A (zh) 像素级手写体汉字自动生成方法、存储设备、处理装置
CN110866101B (zh) 一种基于近端策略优化与对抗学习的对话生成方法
CN113487039B (zh) 基于深度强化学习的智能体自适应决策生成方法及系统
Rad et al. GP-RVM: Genetic programing-based symbolic regression using relevance vector machine
Baioletti et al. Smart multi-objective evolutionary GAN
Wang et al. DiffAIL: Diffusion Adversarial Imitation Learning
CN107798384A (zh) 可进化脉冲神经网络构建方法和装置
CN115757749A (zh) 一种对话处理方法、装置、电子设备及存储介质
CN116451557A (zh) 用于控制机器狗行进的智能体强化学习方法与装置
CN113485107B (zh) 基于一致性约束建模的强化学习机器人控制方法及系统
US20220391687A1 (en) Reinforcement learning algorithm search
CN112989016B (zh) 用于检测对话策略学习中模拟用户经验质量的方法和系统
CN109815323B (zh) 一种人机交互训练问答生成算法
CN110991712B (zh) 一种空间碎片清除任务的规划方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant