CN108304489A

CN108304489A - 一种基于强化学习网络的目标引导型个性化对话方法与系统

Info

Publication number: CN108304489A
Application number: CN201810009636.0A
Authority: CN
Inventors: 叶志豪; 蔡瑞初; 廖朝辉
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2018-07-20
Anticipated expiration: 2038-01-05
Also published as: CN108304489B

Abstract

本发明公开了一种基于强化学习网络的目标引导型个性化对话方法与系统，包括用于协调控制整个对话过程的控制器、对话训练以及对话识别；其中，所述控制器用于控制整个对话流程；所述对话训练用于训练迭代优化强化学习网络；所述对话识别利用强化学习网络识别输出相对应的对话策略动作。本发明利用强化学习网络形成策略梯度神经网络系统，在对话训练过程中根据模拟用户建立个性属性模型并迭代优化强化学习网络，在对话识别中获取对话信息以及用户个性化属性后输入到强化学习网络，然后强化学习网络能够结合用户的个性化属性搭建统一输出模型，解决了传统方法模型不能有效的对个性化进行建模的缺陷，提高了该对话系统的智能化效率。

Description

一种基于强化学习网络的目标引导型个性化对话方法与系统

技术领域

本发明涉及智能对话技术领域，更具体地说，涉及一种基于强化学习网络的目标引导型个性化对话方法与系统。

背景技术

随着深度学习在近几年的发展,端到端的目标引导型的对话系统的效果慢慢提高,在我们的工作中也是一个端到端的对话系统模型，在端到端的模型中,输入用户的对话直接可以输出系统的回复,而不用经过不同模块之间的显式的转换,同事,因非端到端的模型的需要大量特征领域的人工干预,及其迁移和鲁棒性的缺陷,也使得对端到端模型的研究非常的有必要。

在现有技术端到端对话模型中，都是采用机械化问答模式，也就是说用户给出问题，然后对话模型根据用户的问题给出答复，这种机械化的问答模式基本上都是要依靠用户的问题来检索相应的答复，不能有效的对对话的状态对应做出下一步的决策，需要用户一一引导对话模型给出最合适的答复，例如用户需要寻找一个适合档次适合年龄段的个性化餐厅，则需要用户一一给出相应的问答后才可以得到相应的个性化餐厅；如此一来，这种机械化问答模式因不能建立完整的个性书属性对话模型而降低对话效率，影响用户的个性化体验。

发明内容

有鉴于此，本发明提供了一种基于强化学习网络的目标引导型个性化对话方法与系统，解决现有技术中缺少高效个性化端到端对话模型的缺陷。

一种基于强化学习网络的目标引导型个性化对话方法，包括用于协调控制整个对话过程的控制器；还包括对话训练和对话识别；其中，所述对话训练步骤包括有：S1、所述控制器先收集模拟用户对话样本；S2、所述控制器理解诠释对话样本的语义；S3、所述控制器获取模拟用户的个性化属性，根据对话样本中的语义信息，结合属性知识库组合成个性化属性组，并将个性化属性组统一输出为个性化属性向量；S4、所述控制器根据上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中，然后根据奖赏函数的判断输出相应的策略并更新迭代优化强化学习网络参数，不断循环重复步骤S1、S2、S3以及S4直至达到预定对话训练结果；

所述对话识别步骤包括有：所述控制器收集实际用户的对话信息并理解对话信息的语义；然后调取强化学习网络，生成输出相应的动作策略。

优选地，该对话识别步骤具体为：A1、收集实际用户的对话信息；

A2、理解诠释对话样本的语义；A3、获取模拟用户的个性化属性，根据对话样本中的语义信息，结合属性知识库组合成个性化属性组，并将个性化属性组统一输出为个性化属性向量；并调取强化学习网络，根据对话样本的语义输出动作策略；A4、查询获取用户的个性化信息，并根据对话动作策略以及个性化信息得到相对应的回复信息；A5、判断对话是否结束；若否，则循环运行步骤A1、A2、A3、A4以及A5；若是，则运行步骤A6；A6、输出系统对话信息；A7、对话结束。

优选地，该步骤S1具体为：S11、模拟用户先给出特定目标；所述特定目标包括有本次对话的主题和本次对话的测试标准；S12、判断对话是否属于第一轮对话；所述控制器判断对话是否属于第一轮；若属于第一轮对话，则执行步骤S13；若不属于第一轮对话，则执行步骤S14；S13、模拟用户根据特定目标随机给出对话动作；S14、获取当前对话状态；S15、生成对话样本；所述控制器将获取的当前对话状态作为当前对话样本；S16、收集对话样本；所述控制器将对话样本收集整理，使得各个对话样本分开管理，避免混杂。

优选地，该步骤S2具体为所述控制器将对话样本中的自然语言转换为相应的机器语言；然后对机器语言进行拆分识别出相对应的语义。

优选地，该步骤S4具体为S41、制定奖赏函数，并初始化强化学习网络参数；S42、将步骤S2和步骤S3获取的上一轮对话动作、对话状态以及个性化属性向量作为参数输出强化学习网络中，经过神经网络的运算后的对话策略作为待拟合的输出；S43、根据奖赏函数，通过判断对话策略对整体对话任务的有力程度，输出相应奖赏值；将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练，继而更新强化学习网络参数；S44、判断迭代结果是否达标；将迭代结果与步骤S1中的目标相对比，然后判断迭代结果是否达到步骤S1中的目标要求；若是，则实行步骤S45；若否，则循环依续运行步骤S42、步骤S43以及步骤S44；S45、强化学习网络本次迭代更新结束，已完成网络参数的迭代更新。

优选地，在步骤S43中，所述奖赏函数的判断过程是当每一轮对话中，若控制器给出的动作符合了模拟用户的目标，给出正奖励，若给出的动作不符合用户的要求，给出负奖励，也就是惩罚，然后控制器将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练，继而更新强化学习网络参数。

优选地，在步骤S43中，当奖赏函数给出奖赏值后，控制器使用如下的公式来对参进行更新，其中θ表示需要更新的参数，表示在t时刻对应的策略，ν_t表示t时刻对应策略的奖励，从而将强化学习网络中的参数迭代更新。

一种基于强化学习网络的目标引导型个性化对话系统，包括有控制模块，还包括有分别与所述控制模块的控制端电性连接的自然语言获取模块、自然语言理解模块、个性化属性整合模块、强化学习模块、自然语言合成模块、自然语言输出模块以及个性化查询信息模块；其中，所述控制模块控制所述自然语言获取模块获取对话状态、对话信息以及个性属性；然后控制所述自然语言理解模块将对话状态、对话信息以及个性属性转换为相应的机器语言并对机器语言进行拆分识别出相对应的语义；然后控制所述个性化属性整合模块根据语义信息，结合属性知识库组合成个性化属性组，并将个性化属性组统一输出为个性化属性向量；然后控制所述强化学习模块将上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中，然后输出相应的对话动作策略；然后控制个性化查询信息模块查询获取用户的个性化信息；然后控制模块根据对话动作策略以及个性化信息得到相对应的回复信息；然后控制所述自然语言合成模块将回复信息合成自然语言；最后控制所述自然语言输出模块输出相应的自然语言对话信息。

优选地，该自然语言获取模块用于：模拟用户先给出特定目标，所述特定目标包括有本次对话的主题和本次对话的测试标准；判断对话是否属于第一轮对话；所述控制模块判断对话是否属于第一轮，若属于第一轮对话，则模拟用户根据特定目标随机给出对话动作，再获取当前对话状态；若不属于第一轮对话，则直接获取当前对话状态；生成对话样本，所述控制模块将获取的当前对话状态作为当前对话样本；收集对话样本，所述控制模块将对话样本收集整理，使得各个对话样本分开管理，避免混杂。

优选地，该强化学习模块用于：制定奖赏函数，并初始化强化学习网络参数；将上一轮对话动作、对话状态以及个性化属性向量作为参数输出强化学习网络中，经过神经网络的运算后的对话策略作为待拟合的输出；根据奖赏函数，通过判断对话策略对整体对话任务的有力程度，输出相应奖赏值，将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练，继而更新强化学习网络参数。

从上述的技术方案可以看出，本发明的有益效果为：

本发明将对话状态作为观测状态进而使用强化学习决定系统下一步的对话动作策略,然后应用基于模板或基于生成的自然语言模块生成回复的方式，应用强化学习的策略梯度(policy gradient)算法对模型进行训练，使得系统决策更加的准确；在训练的过程中,先给出用户的目标,结合这个目标进行用户和系统之间的交互,而因为用户目标较对话预料是较为抽象的,我们只需从预先提供的一部分对话预料中抽出用户的最终目标,便可以应用于全部任务中,使得我们可以应用较少的个性化数据来测试多个不同的任务。显然，本发明利用强化学习网络形成策略梯度神经网络系统，在对话训练过程中根据模拟用户建立个性属性模型并迭代优化强化学习网络，在对话识别中获取对话信息以及用户个性化属性后输入到强化学习网络，然后强化学习网络能够结合用户的个性化属性搭建统一输出模型，解决了传统方法模型不能有效的对个性化进行建模的缺陷，使得本发明形成了高效的个性化端到端对话模型，实现了提高目标引导型个性化对话效率的目的。

附图说明

图1为本发明实施例提供的一种基于强化学习网络的目标引导型个性化对话方法与系统的步骤流程图。

图2为收集模拟用户对话样本的具体步骤流程图。

图3为个性化建模的具体步骤流程图。

图4为强化学习网络迭代优化的具体步骤流程图。

图5为本发明实施例提供的一种基于强化学习网络的目标引导型个性化对话系统的结构框图。

1-自然语言获取模块；2-自然语言理解模块；3-个性化属性整合模块；4-强化学习模块；5-自然语言合成模块；6-自然语言输出模块；7-控制模块；8-个性化查询信息模块。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所述的附图作简单地介绍，显而易见，下面的描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

具体实施方式

本发明实施例提供了一种基于强化学习网络的目标引导型个性化对话方法与系统。

如图1-4所示，本发明实施例所提供的一种基于强化学习网络的目标引导型个性化对话方法，包括用于协调控制整个对话过程的控制器；还包括对话训练和对话识别；

其中，所述对话训练步骤包括有：

S1、所述控制器先收集模拟用户对话样本；具体地，S11、模拟用户先给出特定目标；所述特定目标包括有本次对话的主题和本次对话的测试标准；S12、判断对话是否属于第一轮对话；所述控制器判断对话是否属于第一轮；若属于第一轮对话，则执行步骤S13；若不属于第一轮对话，则执行步骤S14；S13、模拟用户根据特定目标随机给出对话动作；S14、获取当前对话状态；S15、生成对话样本；所述控制器将获取的当前对话状态作为当前对话样本；S16、收集对话样本；所述控制器将对话样本收集整理，使得各个对话样本分开管理，避免混杂。

S2、所述控制器理解诠释对话样本的语义；该步骤S2具体为所述控制器将对话样本中的自然语言转换为相应的机器语言；然后对机器语言进行拆分识别出相对应的语义。

S3、所述控制器获取模拟用户的个性化属性，根据对话样本中的语义信息，结合属性知识库组合成个性化属性组，并将个性化属性组统一输出为个性化属性向量；

S4、所述控制器根据上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中，然后根据奖赏函数的判断输出相应的策略并更新迭代优化强化学习网络参数，不断循环重复步骤S1、S2、S3以及S4直至达到预定对话训练结果；具体地，该步骤S4具体为S41、制定奖赏函数，并初始化强化学习网络参数；S42、将步骤S2和步骤S3获取的上一轮对话动作、对话状态以及个性化属性向量作为参数输出强化学习网络中，经过神经网络的运算后的对话策略作为待拟合的输出；S43、根据奖赏函数，通过判断对话策略对整体对话任务的有力程度，输出相应奖赏值；将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练，继而更新强化学习网络参数；在步骤S43中，所述奖赏函数的判断过程是当每一轮对话中，若控制器给出的动作符合了模拟用户的目标，给出正奖励，若给出的动作不符合用户的要求，给出负奖励，也就是惩罚，然后控制器将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练，继而更新强化学习网络参数；当奖赏函数给出奖赏值后，控制器使用如下的公式来对参进行更新，其中θ表示需要更新的参数，表示在t时刻对应的策略，ν_t表示t时刻对应策略的奖励，从而将强化学习网络中的参数迭代更新；S44、判断迭代结果是否达标；将迭代结果与步骤S1中的目标相对比，然后判断迭代结果是否达到步骤S1中的目标要求；若是，则实行步骤S45；若否，则循环依续运行步骤S42、步骤S43以及步骤S44；S45、强化学习网络本次迭代更新结束，已完成网络参数的迭代更新。

所述对话识别步骤包括有：所述控制器收集实际用户的对话信息并理解对话信息的语义；然后调取强化学习网络，生成输出相应的动作策略。该对话识别步骤具体为：A1、收集实际用户的对话信息；A2、理解诠释对话样本的语义；A3、获取模拟用户的个性化属性，根据对话样本中的语义信息，结合属性知识库组合成个性化属性组，并将个性化属性组统一输出为个性化属性向量；并调取强化学习网络，根据对话样本的语义输出动作策略；A4、查询获取用户的个性化信息，并根据对话动作策略以及个性化信息得到相对应的回复信息；A5、判断对话是否结束；若否，则循环运行步骤A1、A2、A3、A4以及A5；若是，则运行步骤A6；A6、输出系统对话信息；A7、对话结束。

在本发明实施例中，该强化学习网络的操作过程为：该强化学习网络的目标函数为：U(θ)＝E(∑t＝0HR(st,ut)；πθ)＝∑τP(τ；θ)R(τ)，其中，τ＝{s0,u0,...,sH,uH}，为一组状态与行为序列；R(τ)＝∑t＝0HR(st,ut)，为序列τ的reward之和；P(τ；θ)，为序列τ出现的概率；∑τP(τ；θ)R(τ)，为同时拥有多组轨迹，取均值；强化学习的目的就是找到最优参数θ，使得maxU(θ)＝max∑τP(τ；θ)R(τ)，寻找最优参数θ的过程就是在寻找最优策略或者说最优路径，上述问题本质是一个优化问题，解决的方法为梯度下降法，即关键问题是计算目标函数的梯度

梯度的计算转换为求解的期望，此时可以利用蒙特卡洛法近似估算，即根据当前策略π采样得到m条轨迹

接下来需要求解假设在m个轨迹集合中，第i次轨迹为τi＝{si0,ui0,...,siH,uiH}，似然概率为

P(τi；θ)＝∏t＝0HP(sit+1|sit,uit)πθ(uit|sit)；

其中，P(sit+1|sit,uit)，为状态转移概；πθ(uit|sit)，为动作选择概率。在本发明实施例中，该强化学习网络是基于直接策略搜索的方法。它把策略参数化，并且估算优化指标相对于策略参数的梯度，然后利用该梯度来调整这些参数，最后可以获得局部最优策略，然后迭代更新对话动作策略，最终获得完善的强化学习网络；本发明利用强化学习网络形成策略梯度神经网络系统，在对话训练过程中根据模拟用户建立个性属性模型并迭代优化强化学习网络，在对话识别中获取对话信息以及用户个性化属性后输入到强化学习网络，然后强化学习网络能够结合用户的个性化属性搭建统一输出模型，解决了传统方法模型不能有效的对个性化进行建模的缺陷，提高了该对话系统的智能化效率。

如图5所示，一种基于强化学习网络的目标引导型个性化对话系统，包括有控制模块7，还包括有分别与所述控制模块7的控制端电性连接的自然语言获取模块1、自然语言理解模块2、个性化属性整合模块3、强化学习模块4、自然语言合成模块5、自然语言输出模块6以及个性化查询信息模块8；其中，所述控制模块7控制所述自然语言获取模块1获取对话状态、对话信息以及个性属性；然后控制所述自然语言理解模块2将对话状态、对话信息以及个性属性转换为相应的机器语言并对机器语言进行拆分识别出相对应的语义；然后控制所述个性化属性整合模块3根据语义信息，结合属性知识库组合成个性化属性组，并将个性化属性组统一输出为个性化属性向量；然后控制所述强化学习模块4将上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中，然后输出相应的对话动作策略；然后控制个性化查询信息模块8查询获取用户的个性化信息；然后控制模块根据对话动作策略以及个性化信息得到相对应的回复信息；然后控制所述自然语言合成模块5将回复信息合成自然语言；最后控制所述自然语言输出模块6输出相应的自然语言对话信息。在本发明实施例中，所述控制模块7以及分别与所述控制模块7的控制端电性连接的自然语言获取模块1、自然语言理解模块2、个性化属性整合模块3、强化学习模块4、自然语言合成模块5以及自然语言输出模块6均为模块化的硬件构造，通过硬件构造中的相应软件控制硬件，从而达到实现模块相对应功能的目的。

具体地，该自然语言获取模块1用于：模拟用户先给出特定目标，所述特定目标包括有本次对话的主题和本次对话的测试标准；判断对话是否属于第一轮对话；所述控制模块1判断对话是否属于第一轮，若属于第一轮对话，则模拟用户根据特定目标随机给出对话动作，再获取当前对话状态；若不属于第一轮对话，则直接获取当前对话状态；生成对话样本，所述控制模块1将获取的当前对话状态作为当前对话样本；收集对话样本，所述控制模块1将对话样本收集整理，使得各个对话样本分开管理，避免混杂。并且，该强化学习模块4用于：制定奖赏函数，并初始化强化学习网络参数；将上一轮对话动作、对话状态以及个性化属性向量作为参数输出强化学习网络中，经过神经网络的运算后的对话策略作为待拟合的输出；根据奖赏函数，通过判断对话策略对整体对话任务的有力程度，输出相应奖赏值，将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练，继而更新强化学习网络参数。

在训练过程中，本发明实施例所提供的目标引导型个性化对话系统是要先根据模拟用户给出的对话目标随机给出对话动作；然后控制模块7通过控制自然语言获取模块1获取对话动作、对话状态以及模拟用户的个性化属性；然后控制模块7通过控制自然语言理解模块2诠释分解识别对话动作、对话状态以及模拟用户的个性化属性；然后控制所述个性化属性整合模块3根据语义信息，结合属性知识库组合成个性化属性组，并将个性化属性组统一输出为个性化属性向量；然后控制所述强化学习模块4将上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中，然后输出相应的对话动作策略，并且更新迭代优化强化学习网络参数；然后控制个性化查询信息模块8查询获取用户的个性化信息；然后控制模块根据对话动作策略以及个性化信息得到相对应的回复信息；然后控制所述自然语言合成模块5将回复信息合成自然语言；最后控制所述自然语言输出模块6输出相应的自然语言对话信息。

在识别过程中，本发明实施例所提供的目标引导型个性化对话系统是要先根据模拟用户给出的对话目标随机给出对话动作；然后控制模块7通过控制自然语言获取模块1获取对话动作、对话状态以及模拟用户的个性化属性；然后控制模块7通过控制自然语言理解模块2诠释分解识别对话动作、对话状态以及模拟用户的个性化属性信息；然后控制模块7将对话动作、对话状态以及模拟用户的个性化属性信息输入到已更新迭代优化的强化学习网络中；然后强化学习网络根据输入的信息参数直接调取在训练过程中形成的个性化属性以及相应的网络参数，通过核查对比，得到最佳的对话动作策略；然后控制个性化查询信息模块8查询获取用户的个性化信息；然后控制模块根据对话动作策略以及个性化信息得到相对应的回复信息；然后控制所述自然语言合成模块5将回复信息合成自然语言；最后控制所述自然语言输出模块6输出相应的自然语言对话信息。

本发明将对话状态作为观测状态进而使用强化学习决定系统下一步的对话动作策略,然后应用基于模板或基于生成的自然语言模块生成回复的方式，应用强化学习的策略梯度(policy gradient)算法对模型进行训练，使得系统决策更加的准确；在训练的过程中,先给出用户的目标,结合这个目标进行用户和系统之间的交互,而因为用户目标较对话预料是较为抽象的,我们只需从预先提供的一部分对话预料中抽出用户的最终目标,便可以应用于全部任务中,使得我们可以应用较少的个性化数据来测试多个不同的任务。显然，本发明利用强化学习网络形成策略梯度神经网络系统，在对话训练过程中根据模拟用户建立个性属性模型并迭代优化强化学习网络，在对话识别中获取对话信息以及用户个性化属性后输入到强化学习网络，然后强化学习网络能够结合用户的个性化属性搭建统一输出模型，解决了传统方法模型不能有效的对个性化进行建模的缺陷，提高了该对话系统的智能化效率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分相互参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于强化学习网络的目标引导型个性化对话方法，包括用于协调控制整个对话过程的控制器；其特征在于，还包括对话训练和对话识别；其中，所述对话训练步骤包括有：

S1、所述控制器先收集模拟用户对话样本；

S2、所述控制器理解诠释对话样本的语义；

S4、所述控制器根据上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中，然后根据奖赏函数的判断输出相应的策略并更新迭代优化强化学习网络参数；不断循环重复步骤S1、S2、S3以及S4直至达到预定对话训练结果；

2.如权利要求1所述的一种基于强化学习网络的目标引导型个性化对话方法，其特征在于，所述对话识别步骤具体为：

A1、收集实际用户的对话信息；

A2、理解诠释对话样本的语义；

A3、获取模拟用户的个性化属性，根据对话样本中的语义信息，结合属性知识库组合成个性化属性组，并将个性化属性组统一输出为个性化属性向量；

并调取强化学习网络，根据对话样本的语义输出动作策略；

A4、查询获取用户的个性化信息，并根据对话动作策略以及个性化信息得到相对应的回复信息；

A5、判断对话是否结束；若否，则循环运行步骤A1、A2、A3、A4以及A5；

若是，则运行步骤A6；

A6、输出系统对话信息；

A7、对话结束。

3.如权利要求1所述的一种基于强化学习网络的目标引导型个性化对话方法，其特征在于，所述步骤S1具体为：

S11、模拟用户先给出特定目标；所述特定目标包括有本次对话的主题和本次对话的测试标准；

S12、判断对话是否属于第一轮对话；所述控制器判断对话是否属于第一轮；

若属于第一轮对话，则执行步骤S13；若不属于第一轮对话，则执行步骤S14；

S13、模拟用户根据特定目标随机给出对话动作；

S14、获取当前对话状态；

S15、生成对话样本；所述控制器将获取的当前对话状态作为当前对话样本；

S16、收集对话样本；所述控制器将对话样本收集整理，使得各个对话样本分开管理，避免混杂。

4.如权利要求1所述的一种基于强化学习网络的目标引导型个性化对话方法，其特征在于，所述步骤S2具体为所述控制器将对话样本中的自然语言转换为相应的机器语言；然后对机器语言进行拆分识别出相对应的语义。

5.如权利要求1所述的一种基于强化学习网络的目标引导型个性化对话方法，其特征在于，所述步骤S4具体为

S41、制定奖赏函数，并初始化强化学习网络参数；

S42、将步骤S2和步骤S3获取的上一轮对话动作、对话状态以及个性化属性向量作为参数输出强化学习网络中，经过神经网络的运算后的对话策略作为待拟合的输出；

S43、根据奖赏函数，通过判断对话策略对整体对话任务的有力程度，输出相应奖赏值；将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练，继而更新强化学习网络参数；

S44、判断迭代结果是否达标；将迭代结果与步骤S1中的目标相对比，然后判断迭代结果是否达到步骤S1中的目标要求；若是，则实行步骤S45；若否，则循环依续运行步骤S42、步骤S43以及步骤S44；

S45、强化学习网络本次迭代更新结束，已完成网络参数的迭代更新。

6.如权利要求5所述的一种基于强化学习网络的目标引导型个性化对话方法，其特征在于，在步骤S43中，所述奖赏函数的判断过程是当每一轮对话中，若控制器给出的动作符合了模拟用户的目标，给出正奖励，若给出的动作不符合用户的要求，给出负奖励，也就是惩罚，然后控制器将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练，继而更新强化学习网络参数。

7.如权利要求6所述的一种基于强化学习网络的目标引导型个性化对话方法，其特征在于，在步骤S43中，当奖赏函数给出奖赏值后，控制器使用如下的公式来对参进行更新，其中θ表示需要更新的参数，表示在t时刻对应的策略，ν_t表示t时刻对应策略的奖励，从而将强化学习网络中的参数迭代更新。

8.一种基于强化学习网络的目标引导型个性化对话系统，包括有控制模块(1)，其特征在于，还包括有分别与所述控制模块(1)的控制端电性连接的自然语言获取模块(2)、自然语言理解模块(3)、个性化属性整合模块(4)、强化学习模块(5)、自然语言合成模块(6)、自然语言输出模块(7)以及个性化查询信息模块(8)；其中，所述控制模块(1)控制所述自然语言获取模块(2)获取对话状态、对话信息以及个性属性；然后控制所述自然语言理解模块(3)将对话状态、对话信息以及个性属性转换为相应的机器语言并对机器语言进行拆分识别出相对应的语义；然后控制所述个性化属性整合模块(4)根据语义信息，结合属性知识库组合成个性化属性组，并将个性化属性组统一输出为个性化属性向量；然后控制所述强化学习模块(5)将上一轮对话动作、对话状态以及个性化属性向量输出到强化学习网络中，然后输出相应的对话动作策略；然后控制个性化查询信息模块(8)查询获取用户的个性化信息；然后控制模块(1)根据对话动作策略以及个性化信息得到相对应的回复信息；然后控制所述自然语言合成模块(6)将回复信息合成自然语言；最后控制所述自然语言输出模块(7)输出相应的自然语言对话信息。

9.如权利要求8所述的一种基于强化学习网络的目标引导型个性化对话方法，其特征在于，所述自然语言获取模块(2)用于：模拟用户先给出特定目标，所述特定目标包括有本次对话的主题和本次对话的测试标准；判断对话是否属于第一轮对话；所述控制模块(1)判断对话是否属于第一轮，若属于第一轮对话，则模拟用户根据特定目标随机给出对话动作，再获取当前对话状态；若不属于第一轮对话，则直接获取当前对话状态；生成对话样本，所述控制模块(1)将获取的当前对话状态作为当前对话样本；收集对话样本，所述控制模块(1)将对话样本收集整理，使得各个对话样本分开管理，避免混杂。

10.如权利要求8所述的一种基于强化学习网络的目标引导型个性化对话方法，其特征在于，所述强化学习模块(5)用于：制定奖赏函数，并初始化强化学习网络参数；将上一轮对话动作、对话状态以及个性化属性向量作为参数输出强化学习网络中，经过神经网络的运算后的对话策略作为待拟合的输出；根据奖赏函数，通过判断对话策略对整体对话任务的有力程度，输出相应奖赏值，将输出的奖赏值结合每次对话的对话策略组成批量式拟合目标进行训练，继而更新强化学习网络参数。