CN108304489A - 一种基于强化学习网络的目标引导型个性化对话方法与系统 - Google Patents
一种基于强化学习网络的目标引导型个性化对话方法与系统 Download PDFInfo
- Publication number
- CN108304489A CN108304489A CN201810009636.0A CN201810009636A CN108304489A CN 108304489 A CN108304489 A CN 108304489A CN 201810009636 A CN201810009636 A CN 201810009636A CN 108304489 A CN108304489 A CN 108304489A
- Authority
- CN
- China
- Prior art keywords
- dialogue
- intensified learning
- learning network
- personalization
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于强化学习网络的目标引导型个性化对话方法与系统,包括用于协调控制整个对话过程的控制器、对话训练以及对话识别;其中,所述控制器用于控制整个对话流程;所述对话训练用于训练迭代优化强化学习网络;所述对话识别利用强化学习网络识别输出相对应的对话策略动作。本发明利用强化学习网络形成策略梯度神经网络系统,在对话训练过程中根据模拟用户建立个性属性模型并迭代优化强化学习网络,在对话识别中获取对话信息以及用户个性化属性后输入到强化学习网络,然后强化学习网络能够结合用户的个性化属性搭建统一输出模型,解决了传统方法模型不能有效的对个性化进行建模的缺陷,提高了该对话系统的智能化效率。
Description
技术领域
本发明涉及智能对话技术领域,更具体地说,涉及一种基于强化学习网络的目标引导型个性化对话方法与系统。
背景技术
随着深度学习在近几年的发展,端到端的目标引导型的对话系统的效果慢慢提高,在我们的工作中也是一个端到端的对话系统模型,在端到端的模型中,输入用户的对话直接可以输出系统的回复,而不用经过不同模块之间的显式的转换,同事,因非端到端的模型的需要大量特征领域的人工干预,及其迁移和鲁棒性的缺陷,也使得对端到端模型的研究非常的有必要。
在现有技术端到端对话模型中,都是采用机械化问答模式,也就是说用户给出问题,然后对话模型根据用户的问题给出答复,这种机械化的问答模式基本上都是要依靠用户的问题来检索相应的答复,不能有效的对对话的状态对应做出下一步的决策,需要用户一一引导对话模型给出最合适的答复,例如用户需要寻找一个适合档次适合年龄段的个性化餐厅,则需要用户一一给出相应的问答后才可以得到相应的个性化餐厅;如此一来,这种机械化问答模式因不能建立完整的个性书属性对话模型而降低对话效率,影响用户的个性化体验。
发明内容
有鉴于此,本发明提供了一种基于强化学习网络的目标引导型个性化对话方法与系统,解决现有技术中缺少高效个性化端到端对话模型的缺陷。
一种基于强化学习网络的目标引导型个性化对话方法,包括用于协调控制整个对话过程的控制器;还包括对话训练和对话识别;其中,所述对话训练步骤包括有:S1、所述控制器先收集模拟用户对话样本;S2、所述控制器理解诠释对话样本的语义;S3、所述控制器获取模拟用户的个性化属性,根据对话样本中的语义信息,结合属性知识库组合成个性化属性组,并将个性化属性组统一输出为个性化属性向量;S4、所述控制器根据上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中,然后根据奖赏函数的判断输出相应的策略并更新迭代优化强化学习网络参数,不断循环重复步骤S1、S2、S3以及S4直至达到预定对话训练结果;
所述对话识别步骤包括有:所述控制器收集实际用户的对话信息并理解对话信息的语义;然后调取强化学习网络,生成输出相应的动作策略。
优选地,该对话识别步骤具体为:A1、收集实际用户的对话信息;
A2、理解诠释对话样本的语义;A3、获取模拟用户的个性化属性,根据对话样本中的语义信息,结合属性知识库组合成个性化属性组,并将个性化属性组统一输出为个性化属性向量;并调取强化学习网络,根据对话样本的语义输出动作策略;A4、查询获取用户的个性化信息,并根据对话动作策略以及个性化信息得到相对应的回复信息;A5、判断对话是否结束;若否,则循环运行步骤A1、A2、A3、A4以及A5;若是,则运行步骤A6;A6、输出系统对话信息;A7、对话结束。
优选地,该步骤S1具体为:S11、模拟用户先给出特定目标;所述特定目标包括有本次对话的主题和本次对话的测试标准;S12、判断对话是否属于第一轮对话;所述控制器判断对话是否属于第一轮;若属于第一轮对话,则执行步骤S13;若不属于第一轮对话,则执行步骤S14;S13、模拟用户根据特定目标随机给出对话动作;S14、获取当前对话状态;S15、生成对话样本;所述控制器将获取的当前对话状态作为当前对话样本;S16、收集对话样本;所述控制器将对话样本收集整理,使得各个对话样本分开管理,避免混杂。
优选地,该步骤S2具体为所述控制器将对话样本中的自然语言转换为相应的机器语言;然后对机器语言进行拆分识别出相对应的语义。
优选地,该步骤S4具体为S41、制定奖赏函数,并初始化强化学习网络参数;S42、将步骤S2和步骤S3获取的上一轮对话动作、对话状态以及个性化属性向量作为参数输出强化学习网络中,经过神经网络的运算后的对话策略作为待拟合的输出;S43、根据奖赏函数,通过判断对话策略对整体对话任务的有力程度,输出相应奖赏值;将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练,继而更新强化学习网络参数;S44、判断迭代结果是否达标;将迭代结果与步骤S1中的目标相对比,然后判断迭代结果是否达到步骤S1中的目标要求;若是,则实行步骤S45;若否,则循环依续运行步骤S42、步骤S43以及步骤S44;S45、强化学习网络本次迭代更新结束,已完成网络参数的迭代更新。
优选地,在步骤S43中,所述奖赏函数的判断过程是当每一轮对话中,若控制器给出的动作符合了模拟用户的目标,给出正奖励,若给出的动作不符合用户的要求,给出负奖励,也就是惩罚,然后控制器将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练,继而更新强化学习网络参数。
优选地,在步骤S43中,当奖赏函数给出奖赏值后,控制器使用如下的公式来对参进行更新,其中θ表示需要更新的参数,表示在t时刻对应的策略,νt表示t时刻对应策略的奖励,从而将强化学习网络中的参数迭代更新。
一种基于强化学习网络的目标引导型个性化对话系统,包括有控制模块,还包括有分别与所述控制模块的控制端电性连接的自然语言获取模块、自然语言理解模块、个性化属性整合模块、强化学习模块、自然语言合成模块、自然语言输出模块以及个性化查询信息模块;其中,所述控制模块控制所述自然语言获取模块获取对话状态、对话信息以及个性属性;然后控制所述自然语言理解模块将对话状态、对话信息以及个性属性转换为相应的机器语言并对机器语言进行拆分识别出相对应的语义;然后控制所述个性化属性整合模块根据语义信息,结合属性知识库组合成个性化属性组,并将个性化属性组统一输出为个性化属性向量;然后控制所述强化学习模块将上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中,然后输出相应的对话动作策略;然后控制个性化查询信息模块查询获取用户的个性化信息;然后控制模块根据对话动作策略以及个性化信息得到相对应的回复信息;然后控制所述自然语言合成模块将回复信息合成自然语言;最后控制所述自然语言输出模块输出相应的自然语言对话信息。
优选地,该自然语言获取模块用于:模拟用户先给出特定目标,所述特定目标包括有本次对话的主题和本次对话的测试标准;判断对话是否属于第一轮对话;所述控制模块判断对话是否属于第一轮,若属于第一轮对话,则模拟用户根据特定目标随机给出对话动作,再获取当前对话状态;若不属于第一轮对话,则直接获取当前对话状态;生成对话样本,所述控制模块将获取的当前对话状态作为当前对话样本;收集对话样本,所述控制模块将对话样本收集整理,使得各个对话样本分开管理,避免混杂。
优选地,该强化学习模块用于:制定奖赏函数,并初始化强化学习网络参数;将上一轮对话动作、对话状态以及个性化属性向量作为参数输出强化学习网络中,经过神经网络的运算后的对话策略作为待拟合的输出;根据奖赏函数,通过判断对话策略对整体对话任务的有力程度,输出相应奖赏值,将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练,继而更新强化学习网络参数。
从上述的技术方案可以看出,本发明的有益效果为:
本发明将对话状态作为观测状态进而使用强化学习决定系统下一步的对话动作策略,然后应用基于模板或基于生成的自然语言模块生成回复的方式,应用强化学习的策略梯度(policy gradient)算法对模型进行训练,使得系统决策更加的准确;在训练的过程中,先给出用户的目标,结合这个目标进行用户和系统之间的交互,而因为用户目标较对话预料是较为抽象的,我们只需从预先提供的一部分对话预料中抽出用户的最终目标,便可以应用于全部任务中,使得我们可以应用较少的个性化数据来测试多个不同的任务。显然,本发明利用强化学习网络形成策略梯度神经网络系统,在对话训练过程中根据模拟用户建立个性属性模型并迭代优化强化学习网络,在对话识别中获取对话信息以及用户个性化属性后输入到强化学习网络,然后强化学习网络能够结合用户的个性化属性搭建统一输出模型,解决了传统方法模型不能有效的对个性化进行建模的缺陷,使得本发明形成了高效的个性化端到端对话模型,实现了提高目标引导型个性化对话效率的目的。
附图说明
图1为本发明实施例提供的一种基于强化学习网络的目标引导型个性化对话方法与系统的步骤流程图。
图2为收集模拟用户对话样本的具体步骤流程图。
图3为个性化建模的具体步骤流程图。
图4为强化学习网络迭代优化的具体步骤流程图。
图5为本发明实施例提供的一种基于强化学习网络的目标引导型个性化对话系统的结构框图。
1-自然语言获取模块;2-自然语言理解模块;3-个性化属性整合模块;4-强化学习模块;5-自然语言合成模块;6-自然语言输出模块;7-控制模块;8-个性化查询信息模块。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所述的附图作简单地介绍,显而易见,下面的描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
本发明实施例提供了一种基于强化学习网络的目标引导型个性化对话方法与系统。
如图1-4所示,本发明实施例所提供的一种基于强化学习网络的目标引导型个性化对话方法,包括用于协调控制整个对话过程的控制器;还包括对话训练和对话识别;
其中,所述对话训练步骤包括有:
S1、所述控制器先收集模拟用户对话样本;具体地,S11、模拟用户先给出特定目标;所述特定目标包括有本次对话的主题和本次对话的测试标准;S12、判断对话是否属于第一轮对话;所述控制器判断对话是否属于第一轮;若属于第一轮对话,则执行步骤S13;若不属于第一轮对话,则执行步骤S14;S13、模拟用户根据特定目标随机给出对话动作;S14、获取当前对话状态;S15、生成对话样本;所述控制器将获取的当前对话状态作为当前对话样本;S16、收集对话样本;所述控制器将对话样本收集整理,使得各个对话样本分开管理,避免混杂。
S2、所述控制器理解诠释对话样本的语义;该步骤S2具体为所述控制器将对话样本中的自然语言转换为相应的机器语言;然后对机器语言进行拆分识别出相对应的语义。
S3、所述控制器获取模拟用户的个性化属性,根据对话样本中的语义信息,结合属性知识库组合成个性化属性组,并将个性化属性组统一输出为个性化属性向量;
S4、所述控制器根据上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中,然后根据奖赏函数的判断输出相应的策略并更新迭代优化强化学习网络参数,不断循环重复步骤S1、S2、S3以及S4直至达到预定对话训练结果;具体地,该步骤S4具体为S41、制定奖赏函数,并初始化强化学习网络参数;S42、将步骤S2和步骤S3获取的上一轮对话动作、对话状态以及个性化属性向量作为参数输出强化学习网络中,经过神经网络的运算后的对话策略作为待拟合的输出;S43、根据奖赏函数,通过判断对话策略对整体对话任务的有力程度,输出相应奖赏值;将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练,继而更新强化学习网络参数;在步骤S43中,所述奖赏函数的判断过程是当每一轮对话中,若控制器给出的动作符合了模拟用户的目标,给出正奖励,若给出的动作不符合用户的要求,给出负奖励,也就是惩罚,然后控制器将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练,继而更新强化学习网络参数;当奖赏函数给出奖赏值后,控制器使用如下的公式来对参进行更新,其中θ表示需要更新的参数,表示在t时刻对应的策略,νt表示t时刻对应策略的奖励,从而将强化学习网络中的参数迭代更新;S44、判断迭代结果是否达标;将迭代结果与步骤S1中的目标相对比,然后判断迭代结果是否达到步骤S1中的目标要求;若是,则实行步骤S45;若否,则循环依续运行步骤S42、步骤S43以及步骤S44;S45、强化学习网络本次迭代更新结束,已完成网络参数的迭代更新。
所述对话识别步骤包括有:所述控制器收集实际用户的对话信息并理解对话信息的语义;然后调取强化学习网络,生成输出相应的动作策略。该对话识别步骤具体为:A1、收集实际用户的对话信息;A2、理解诠释对话样本的语义;A3、获取模拟用户的个性化属性,根据对话样本中的语义信息,结合属性知识库组合成个性化属性组,并将个性化属性组统一输出为个性化属性向量;并调取强化学习网络,根据对话样本的语义输出动作策略;A4、查询获取用户的个性化信息,并根据对话动作策略以及个性化信息得到相对应的回复信息;A5、判断对话是否结束;若否,则循环运行步骤A1、A2、A3、A4以及A5;若是,则运行步骤A6;A6、输出系统对话信息;A7、对话结束。
在本发明实施例中,该强化学习网络的操作过程为:该强化学习网络的目标函数为:U(θ)=E(∑t=0HR(st,ut);πθ)=∑τP(τ;θ)R(τ),其中,τ={s0,u0,...,sH,uH},为一组状态与行为序列;R(τ)=∑t=0HR(st,ut),为序列τ的reward之和;P(τ;θ),为序列τ出现的概率;∑τP(τ;θ)R(τ),为同时拥有多组轨迹,取均值;强化学习的目的就是找到最优参数θ,使得maxU(θ)=max∑τP(τ;θ)R(τ),寻找最优参数θ的过程就是在寻找最优策略或者说最优路径,上述问题本质是一个优化问题,解决的方法为梯度下降法,即关键问题是计算目标函数的梯度
梯度的计算转换为求解的期望,此时可以利用蒙特卡洛法近似估算,即根据当前策略π采样得到m条轨迹
接下来需要求解假设在m个轨迹集合中,第i次轨迹为τi={si0,ui0,...,siH,uiH},似然概率为
P(τi;θ)=∏t=0HP(sit+1|sit,uit)πθ(uit|sit);
其中,P(sit+1|sit,uit),为状态转移概;πθ(uit|sit),为动作选择概率。在本发明实施例中,该强化学习网络是基于直接策略搜索的方法。它把策略参数化,并且估算优化指标相对于策略参数的梯度,然后利用该梯度来调整这些参数,最后可以获得局部最优策略,然后迭代更新对话动作策略,最终获得完善的强化学习网络;本发明利用强化学习网络形成策略梯度神经网络系统,在对话训练过程中根据模拟用户建立个性属性模型并迭代优化强化学习网络,在对话识别中获取对话信息以及用户个性化属性后输入到强化学习网络,然后强化学习网络能够结合用户的个性化属性搭建统一输出模型,解决了传统方法模型不能有效的对个性化进行建模的缺陷,提高了该对话系统的智能化效率。
如图5所示,一种基于强化学习网络的目标引导型个性化对话系统,包括有控制模块7,还包括有分别与所述控制模块7的控制端电性连接的自然语言获取模块1、自然语言理解模块2、个性化属性整合模块3、强化学习模块4、自然语言合成模块5、自然语言输出模块6以及个性化查询信息模块8;其中,所述控制模块7控制所述自然语言获取模块1获取对话状态、对话信息以及个性属性;然后控制所述自然语言理解模块2将对话状态、对话信息以及个性属性转换为相应的机器语言并对机器语言进行拆分识别出相对应的语义;然后控制所述个性化属性整合模块3根据语义信息,结合属性知识库组合成个性化属性组,并将个性化属性组统一输出为个性化属性向量;然后控制所述强化学习模块4将上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中,然后输出相应的对话动作策略;然后控制个性化查询信息模块8查询获取用户的个性化信息;然后控制模块根据对话动作策略以及个性化信息得到相对应的回复信息;然后控制所述自然语言合成模块5将回复信息合成自然语言;最后控制所述自然语言输出模块6输出相应的自然语言对话信息。在本发明实施例中,所述控制模块7以及分别与所述控制模块7的控制端电性连接的自然语言获取模块1、自然语言理解模块2、个性化属性整合模块3、强化学习模块4、自然语言合成模块5以及自然语言输出模块6均为模块化的硬件构造,通过硬件构造中的相应软件控制硬件,从而达到实现模块相对应功能的目的。
具体地,该自然语言获取模块1用于:模拟用户先给出特定目标,所述特定目标包括有本次对话的主题和本次对话的测试标准;判断对话是否属于第一轮对话;所述控制模块1判断对话是否属于第一轮,若属于第一轮对话,则模拟用户根据特定目标随机给出对话动作,再获取当前对话状态;若不属于第一轮对话,则直接获取当前对话状态;生成对话样本,所述控制模块1将获取的当前对话状态作为当前对话样本;收集对话样本,所述控制模块1将对话样本收集整理,使得各个对话样本分开管理,避免混杂。并且,该强化学习模块4用于:制定奖赏函数,并初始化强化学习网络参数;将上一轮对话动作、对话状态以及个性化属性向量作为参数输出强化学习网络中,经过神经网络的运算后的对话策略作为待拟合的输出;根据奖赏函数,通过判断对话策略对整体对话任务的有力程度,输出相应奖赏值,将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练,继而更新强化学习网络参数。
在训练过程中,本发明实施例所提供的目标引导型个性化对话系统是要先根据模拟用户给出的对话目标随机给出对话动作;然后控制模块7通过控制自然语言获取模块1获取对话动作、对话状态以及模拟用户的个性化属性;然后控制模块7通过控制自然语言理解模块2诠释分解识别对话动作、对话状态以及模拟用户的个性化属性;然后控制所述个性化属性整合模块3根据语义信息,结合属性知识库组合成个性化属性组,并将个性化属性组统一输出为个性化属性向量;然后控制所述强化学习模块4将上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中,然后输出相应的对话动作策略,并且更新迭代优化强化学习网络参数;然后控制个性化查询信息模块8查询获取用户的个性化信息;然后控制模块根据对话动作策略以及个性化信息得到相对应的回复信息;然后控制所述自然语言合成模块5将回复信息合成自然语言;最后控制所述自然语言输出模块6输出相应的自然语言对话信息。
在识别过程中,本发明实施例所提供的目标引导型个性化对话系统是要先根据模拟用户给出的对话目标随机给出对话动作;然后控制模块7通过控制自然语言获取模块1获取对话动作、对话状态以及模拟用户的个性化属性;然后控制模块7通过控制自然语言理解模块2诠释分解识别对话动作、对话状态以及模拟用户的个性化属性信息;然后控制模块7将对话动作、对话状态以及模拟用户的个性化属性信息输入到已更新迭代优化的强化学习网络中;然后强化学习网络根据输入的信息参数直接调取在训练过程中形成的个性化属性以及相应的网络参数,通过核查对比,得到最佳的对话动作策略;然后控制个性化查询信息模块8查询获取用户的个性化信息;然后控制模块根据对话动作策略以及个性化信息得到相对应的回复信息;然后控制所述自然语言合成模块5将回复信息合成自然语言;最后控制所述自然语言输出模块6输出相应的自然语言对话信息。
本发明将对话状态作为观测状态进而使用强化学习决定系统下一步的对话动作策略,然后应用基于模板或基于生成的自然语言模块生成回复的方式,应用强化学习的策略梯度(policy gradient)算法对模型进行训练,使得系统决策更加的准确;在训练的过程中,先给出用户的目标,结合这个目标进行用户和系统之间的交互,而因为用户目标较对话预料是较为抽象的,我们只需从预先提供的一部分对话预料中抽出用户的最终目标,便可以应用于全部任务中,使得我们可以应用较少的个性化数据来测试多个不同的任务。显然,本发明利用强化学习网络形成策略梯度神经网络系统,在对话训练过程中根据模拟用户建立个性属性模型并迭代优化强化学习网络,在对话识别中获取对话信息以及用户个性化属性后输入到强化学习网络,然后强化学习网络能够结合用户的个性化属性搭建统一输出模型,解决了传统方法模型不能有效的对个性化进行建模的缺陷,提高了该对话系统的智能化效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分相互参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于强化学习网络的目标引导型个性化对话方法,包括用于协调控制整个对话过程的控制器;其特征在于,还包括对话训练和对话识别;其中,所述对话训练步骤包括有:
S1、所述控制器先收集模拟用户对话样本;
S2、所述控制器理解诠释对话样本的语义;
S3、所述控制器获取模拟用户的个性化属性,根据对话样本中的语义信息,结合属性知识库组合成个性化属性组,并将个性化属性组统一输出为个性化属性向量;
S4、所述控制器根据上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中,然后根据奖赏函数的判断输出相应的策略并更新迭代优化强化学习网络参数;不断循环重复步骤S1、S2、S3以及S4直至达到预定对话训练结果;
所述对话识别步骤包括有:所述控制器收集实际用户的对话信息并理解对话信息的语义;然后调取强化学习网络,生成输出相应的动作策略。
2.如权利要求1所述的一种基于强化学习网络的目标引导型个性化对话方法,其特征在于,所述对话识别步骤具体为:
A1、收集实际用户的对话信息;
A2、理解诠释对话样本的语义;
A3、获取模拟用户的个性化属性,根据对话样本中的语义信息,结合属性知识库组合成个性化属性组,并将个性化属性组统一输出为个性化属性向量;
并调取强化学习网络,根据对话样本的语义输出动作策略;
A4、查询获取用户的个性化信息,并根据对话动作策略以及个性化信息得到相对应的回复信息;
A5、判断对话是否结束;若否,则循环运行步骤A1、A2、A3、A4以及A5;
若是,则运行步骤A6;
A6、输出系统对话信息;
A7、对话结束。
3.如权利要求1所述的一种基于强化学习网络的目标引导型个性化对话方法,其特征在于,所述步骤S1具体为:
S11、模拟用户先给出特定目标;所述特定目标包括有本次对话的主题和本次对话的测试标准;
S12、判断对话是否属于第一轮对话;所述控制器判断对话是否属于第一轮;
若属于第一轮对话,则执行步骤S13;若不属于第一轮对话,则执行步骤S14;
S13、模拟用户根据特定目标随机给出对话动作;
S14、获取当前对话状态;
S15、生成对话样本;所述控制器将获取的当前对话状态作为当前对话样本;
S16、收集对话样本;所述控制器将对话样本收集整理,使得各个对话样本分开管理,避免混杂。
4.如权利要求1所述的一种基于强化学习网络的目标引导型个性化对话方法,其特征在于,所述步骤S2具体为所述控制器将对话样本中的自然语言转换为相应的机器语言;然后对机器语言进行拆分识别出相对应的语义。
5.如权利要求1所述的一种基于强化学习网络的目标引导型个性化对话方法,其特征在于,所述步骤S4具体为
S41、制定奖赏函数,并初始化强化学习网络参数;
S42、将步骤S2和步骤S3获取的上一轮对话动作、对话状态以及个性化属性向量作为参数输出强化学习网络中,经过神经网络的运算后的对话策略作为待拟合的输出;
S43、根据奖赏函数,通过判断对话策略对整体对话任务的有力程度,输出相应奖赏值;将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练,继而更新强化学习网络参数;
S44、判断迭代结果是否达标;将迭代结果与步骤S1中的目标相对比,然后判断迭代结果是否达到步骤S1中的目标要求;若是,则实行步骤S45;若否,则循环依续运行步骤S42、步骤S43以及步骤S44;
S45、强化学习网络本次迭代更新结束,已完成网络参数的迭代更新。
6.如权利要求5所述的一种基于强化学习网络的目标引导型个性化对话方法,其特征在于,在步骤S43中,所述奖赏函数的判断过程是当每一轮对话中,若控制器给出的动作符合了模拟用户的目标,给出正奖励,若给出的动作不符合用户的要求,给出负奖励,也就是惩罚,然后控制器将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练,继而更新强化学习网络参数。
7.如权利要求6所述的一种基于强化学习网络的目标引导型个性化对话方法,其特征在于,在步骤S43中,当奖赏函数给出奖赏值后,控制器使用如下的公式来对参进行更新,其中θ表示需要更新的参数,表示在t时刻对应的策略,νt表示t时刻对应策略的奖励,从而将强化学习网络中的参数迭代更新。
8.一种基于强化学习网络的目标引导型个性化对话系统,包括有控制模块(1),其特征在于,还包括有分别与所述控制模块(1)的控制端电性连接的自然语言获取模块(2)、自然语言理解模块(3)、个性化属性整合模块(4)、强化学习模块(5)、自然语言合成模块(6)、自然语言输出模块(7)以及个性化查询信息模块(8);其中,所述控制模块(1)控制所述自然语言获取模块(2)获取对话状态、对话信息以及个性属性;然后控制所述自然语言理解模块(3)将对话状态、对话信息以及个性属性转换为相应的机器语言并对机器语言进行拆分识别出相对应的语义;然后控制所述个性化属性整合模块(4)根据语义信息,结合属性知识库组合成个性化属性组,并将个性化属性组统一输出为个性化属性向量;然后控制所述强化学习模块(5)将上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中,然后输出相应的对话动作策略;然后控制个性化查询信息模块(8)查询获取用户的个性化信息;然后控制模块(1)根据对话动作策略以及个性化信息得到相对应的回复信息;然后控制所述自然语言合成模块(6)将回复信息合成自然语言;最后控制所述自然语言输出模块(7)输出相应的自然语言对话信息。
9.如权利要求8所述的一种基于强化学习网络的目标引导型个性化对话方法,其特征在于,所述自然语言获取模块(2)用于:模拟用户先给出特定目标,所述特定目标包括有本次对话的主题和本次对话的测试标准;判断对话是否属于第一轮对话;所述控制模块(1)判断对话是否属于第一轮,若属于第一轮对话,则模拟用户根据特定目标随机给出对话动作,再获取当前对话状态;若不属于第一轮对话,则直接获取当前对话状态;生成对话样本,所述控制模块(1)将获取的当前对话状态作为当前对话样本;收集对话样本,所述控制模块(1)将对话样本收集整理,使得各个对话样本分开管理,避免混杂。
10.如权利要求8所述的一种基于强化学习网络的目标引导型个性化对话方法,其特征在于,所述强化学习模块(5)用于:制定奖赏函数,并初始化强化学习网络参数;将上一轮对话动作、对话状态以及个性化属性向量作为参数输出强化学习网络中,经过神经网络的运算后的对话策略作为待拟合的输出;根据奖赏函数,通过判断对话策略对整体对话任务的有力程度,输出相应奖赏值,将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练,继而更新强化学习网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810009636.0A CN108304489B (zh) | 2018-01-05 | 2018-01-05 | 一种基于强化学习网络的目标引导型个性化对话方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810009636.0A CN108304489B (zh) | 2018-01-05 | 2018-01-05 | 一种基于强化学习网络的目标引导型个性化对话方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304489A true CN108304489A (zh) | 2018-07-20 |
CN108304489B CN108304489B (zh) | 2021-12-28 |
Family
ID=62868695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810009636.0A Active CN108304489B (zh) | 2018-01-05 | 2018-01-05 | 一种基于强化学习网络的目标引导型个性化对话方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304489B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460463A (zh) * | 2018-11-15 | 2019-03-12 | 平安科技(深圳)有限公司 | 基于数据处理的模型训练方法、装置、终端及存储介质 |
CN109635093A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 用于生成回复语句的方法和装置 |
CN109710772A (zh) * | 2018-11-13 | 2019-05-03 | 国云科技股份有限公司 | 一种基于深度学习的问答库知识管理系统及其实现方法 |
CN110162608A (zh) * | 2019-02-26 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 计算机实现的对话管理的方法、用于对话管理的设备以及计算机可读存储介质 |
CN110211572A (zh) * | 2019-05-14 | 2019-09-06 | 北京来也网络科技有限公司 | 基于强化学习的对话控制方法及装置 |
CN110334352A (zh) * | 2019-07-08 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 引导信息显示方法、装置、终端及存储介质 |
CN110648049A (zh) * | 2019-08-21 | 2020-01-03 | 北京大学 | 一种基于多智能体的资源分配方法与系统 |
CN110830560A (zh) * | 2019-10-25 | 2020-02-21 | 东华大学 | 一种基于强化学习的多用户移动边缘计算迁移方法 |
CN110851581A (zh) * | 2019-11-19 | 2020-02-28 | 东软集团股份有限公司 | 一种模型参数确定方法、装置、设备及存储介质 |
CN111104502A (zh) * | 2019-12-24 | 2020-05-05 | 携程计算机技术(上海)有限公司 | 外呼系统的对话管理方法、系统、电子设备和存储介质 |
CN111309893A (zh) * | 2020-05-15 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 基于源问题生成相似问题的方法和装置 |
WO2020151017A1 (zh) * | 2019-01-25 | 2020-07-30 | 中译语通科技股份有限公司 | 一种可扩展的领域人机对话系统状态跟踪方法及设备 |
CN112035633A (zh) * | 2020-08-21 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、对话设备及存储介质 |
CN112860869A (zh) * | 2021-03-11 | 2021-05-28 | 中国平安人寿保险股份有限公司 | 基于分层强化学习网络的对话方法、装置及存储介质 |
CN117235239A (zh) * | 2023-11-13 | 2023-12-15 | 智慧眼科技股份有限公司 | 一种主动式对话大模型构建装置、方法、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462024A (zh) * | 2014-10-29 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 生成对话动作策略模型的方法和装置 |
US20150179170A1 (en) * | 2013-12-20 | 2015-06-25 | Microsoft Corporation | Discriminative Policy Training for Dialog Systems |
CN105788593A (zh) * | 2016-02-29 | 2016-07-20 | 中国科学院声学研究所 | 生成对话策略的方法及系统 |
CN106448670A (zh) * | 2016-10-21 | 2017-02-22 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
CN106844378A (zh) * | 2015-12-04 | 2017-06-13 | 中国移动通信集团公司 | 一种应答方式确定方法和装置 |
CN107342078A (zh) * | 2017-06-23 | 2017-11-10 | 上海交通大学 | 对话策略优化的冷启动系统和方法 |
CN107357838A (zh) * | 2017-06-23 | 2017-11-17 | 上海交通大学 | 基于多任务学习的对话策略在线实现方法 |
US20170337478A1 (en) * | 2016-05-22 | 2017-11-23 | Microsoft Technology Licensing, Llc | Self-Learning Technique for Training a PDA Component and a Simulated User Component |
US20170359233A1 (en) * | 2016-06-13 | 2017-12-14 | International Business Machines Corporation | Monitoring resource consumption based on fixed cost for threshold use and additional cost for use above the threshold |
-
2018
- 2018-01-05 CN CN201810009636.0A patent/CN108304489B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150179170A1 (en) * | 2013-12-20 | 2015-06-25 | Microsoft Corporation | Discriminative Policy Training for Dialog Systems |
CN104462024A (zh) * | 2014-10-29 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 生成对话动作策略模型的方法和装置 |
CN106844378A (zh) * | 2015-12-04 | 2017-06-13 | 中国移动通信集团公司 | 一种应答方式确定方法和装置 |
CN105788593A (zh) * | 2016-02-29 | 2016-07-20 | 中国科学院声学研究所 | 生成对话策略的方法及系统 |
US20170337478A1 (en) * | 2016-05-22 | 2017-11-23 | Microsoft Technology Licensing, Llc | Self-Learning Technique for Training a PDA Component and a Simulated User Component |
US20170359233A1 (en) * | 2016-06-13 | 2017-12-14 | International Business Machines Corporation | Monitoring resource consumption based on fixed cost for threshold use and additional cost for use above the threshold |
CN106448670A (zh) * | 2016-10-21 | 2017-02-22 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
CN107342078A (zh) * | 2017-06-23 | 2017-11-10 | 上海交通大学 | 对话策略优化的冷启动系统和方法 |
CN107357838A (zh) * | 2017-06-23 | 2017-11-17 | 上海交通大学 | 基于多任务学习的对话策略在线实现方法 |
Non-Patent Citations (1)
Title |
---|
高凡: "英语自主阅读与单词背诵软件的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710772A (zh) * | 2018-11-13 | 2019-05-03 | 国云科技股份有限公司 | 一种基于深度学习的问答库知识管理系统及其实现方法 |
CN109460463A (zh) * | 2018-11-15 | 2019-03-12 | 平安科技(深圳)有限公司 | 基于数据处理的模型训练方法、装置、终端及存储介质 |
CN109460463B (zh) * | 2018-11-15 | 2023-06-20 | 平安科技(深圳)有限公司 | 基于数据处理的模型训练方法、装置、终端及存储介质 |
CN109635093B (zh) * | 2018-12-17 | 2022-05-27 | 北京百度网讯科技有限公司 | 用于生成回复语句的方法和装置 |
CN109635093A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 用于生成回复语句的方法和装置 |
WO2020151017A1 (zh) * | 2019-01-25 | 2020-07-30 | 中译语通科技股份有限公司 | 一种可扩展的领域人机对话系统状态跟踪方法及设备 |
CN110162608A (zh) * | 2019-02-26 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 计算机实现的对话管理的方法、用于对话管理的设备以及计算机可读存储介质 |
CN110211572A (zh) * | 2019-05-14 | 2019-09-06 | 北京来也网络科技有限公司 | 基于强化学习的对话控制方法及装置 |
CN110334352A (zh) * | 2019-07-08 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 引导信息显示方法、装置、终端及存储介质 |
CN110648049A (zh) * | 2019-08-21 | 2020-01-03 | 北京大学 | 一种基于多智能体的资源分配方法与系统 |
CN110648049B (zh) * | 2019-08-21 | 2022-06-03 | 北京大学 | 一种基于多智能体的资源分配方法与系统 |
CN110830560A (zh) * | 2019-10-25 | 2020-02-21 | 东华大学 | 一种基于强化学习的多用户移动边缘计算迁移方法 |
CN110851581A (zh) * | 2019-11-19 | 2020-02-28 | 东软集团股份有限公司 | 一种模型参数确定方法、装置、设备及存储介质 |
CN111104502A (zh) * | 2019-12-24 | 2020-05-05 | 携程计算机技术(上海)有限公司 | 外呼系统的对话管理方法、系统、电子设备和存储介质 |
CN111309893A (zh) * | 2020-05-15 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 基于源问题生成相似问题的方法和装置 |
CN112035633A (zh) * | 2020-08-21 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、对话设备及存储介质 |
CN112860869A (zh) * | 2021-03-11 | 2021-05-28 | 中国平安人寿保险股份有限公司 | 基于分层强化学习网络的对话方法、装置及存储介质 |
CN117235239A (zh) * | 2023-11-13 | 2023-12-15 | 智慧眼科技股份有限公司 | 一种主动式对话大模型构建装置、方法、设备及存储介质 |
CN117235239B (zh) * | 2023-11-13 | 2024-02-20 | 智慧眼科技股份有限公司 | 一种主动式对话大模型构建装置、方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108304489B (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304489A (zh) | 一种基于强化学习网络的目标引导型个性化对话方法与系统 | |
Sumathi et al. | Evolutionary intelligence: an introduction to theory and applications with Matlab | |
CN106021990B (zh) | 一种将生物基因以特定的性状进行分类与自我识别的方法 | |
CN110852448A (zh) | 一种基于多智能体强化学习的合作型智能体的学习方法 | |
Compton et al. | Ripple down rules: possibilities and limitations | |
CN107944410B (zh) | 一种基于卷积神经网络的跨领域面部特征解析方法 | |
CN107730003A (zh) | 一种支持多电器类型高精度的nilm实现方法 | |
CN106709565A (zh) | 一种神经网络的优化方法及装置 | |
CN107451230A (zh) | 一种问答方法以及问答系统 | |
CN111933127A (zh) | 一种具备自学习能力的意图识别方法及意图识别系统 | |
CN111352419B (zh) | 基于时序差分更新经验回放缓存的路径规划方法及系统 | |
CN111047085A (zh) | 一种基于元学习的混合动力车辆工况预测方法 | |
CN113871020B (zh) | 一种基于ai机器学习的急危重症诊后健康管理方法及系统 | |
CN101482876A (zh) | 基于权重的链接多属性的实体识别方法 | |
CN114818703B (zh) | 基于BERT语言模型和TextCNN模型的多意图识别方法及系统 | |
Zhang et al. | A hybrid bird mating optimizer algorithm with teaching-learning-based optimization for global numerical optimization | |
CN110377881A (zh) | 文本处理服务的集成方法、装置以及系统 | |
CN107368707A (zh) | 基于us‑elm的基因芯片表达数据分析系统及方法 | |
CN111681755A (zh) | 一种生猪疾病诊疗系统及方法 | |
CN111445024B (zh) | 一种医学影像识别训练方法 | |
CN109740221B (zh) | 一种基于搜索树的智能工业设计算法 | |
CN112000793A (zh) | 一种面向人机交互的对话目标规划方法 | |
CN114120367B (zh) | 元学习框架下基于圆损失度量的行人重识别方法及系统 | |
WO2022247151A1 (zh) | 一种基于大脑机理的认知学习方法 | |
CN111339646A (zh) | 一种用于全自动控制的温度数据增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |