CN112085524B

CN112085524B - 一种基于q学习模型的结果推送方法和系统

Info

Publication number: CN112085524B
Application number: CN202010896316.9A
Authority: CN
Inventors: 徐君; 贾浩男; 张骁; 蒋昊; 文继荣
Original assignee: Huawei Technologies Co Ltd; Renmin University of China
Current assignee: Huawei Technologies Co Ltd; Renmin University of China
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-11-15
Anticipated expiration: 2040-08-31
Also published as: CN112085524A

Abstract

本发明涉及一种基于Q学习模型的结果推送方法和系统，包括以下步骤：将状态s_t、推送结果a_t，下一状态s_t+1和奖励值r_t+1组成一个数据组，并将其存储至经验池D中；从经验池D中提取若干数据组，计算网络参数

下的全梯度均值，此时的网络参数为锚点网络参数；随机提取上一步骤中的数据组，并计算其在当前网络参数下和锚点网络参数下的目标Q值和梯度值，将梯度值和全梯度均值带入方差缩减公式实现梯度更新；重复上述步骤直至训练结束，获得最终的Q学习模型，将待测状态输入最终的Q学习模型获得最佳推送结果。其通过将方差缩减技术引入到随机梯度下降的Q学习模型中，提高了强化学习的训练过程的稳定性。

Description

一种基于Q学习模型的结果推送方法和系统

技术领域

本发明是关于一种基于Q学习模型的结果推送方法及系统，属于互联网技术领域。

背景技术

在信息检索中，采用结果推送方法或者按照结果与检索信息的相关度进行排序可以大大降低检索者的工作量，提高信息获取效率。目前已经有很多将强化学习模型，例如深度Q学习模型，应用到检索结果推送中，通过使用检索者的历史检索记录对强化学习模型进行训练，可以是推送出的结果更加符合检索者的要求，进一步提高检索效率。但现有的利用深度Q学习模型生成的结果推送的方法还存在以下问题：

一方面，由于深度Q学习模型(DQN)在基于值函数的深度强化学习方面起着绝对的引领作用，导致对DQN算法的改进多注重于改进DQN算法的网络结构以提升其效率；另一方面，由于强化学习算法有着“试错”的训练特点，导致其在训练过程通常很不稳定，而其不稳定性主要是由奖励值、Q值等的方差过高而引起的。

发明内容

针对上述现有技术的不足，本发明的目的是提供了一种基于Q学习模型的结果推送方法及系统，其通过将方差缩减技术引入到随机梯度下降的Q学习模型中，降低了奖励值或Q值的方差，提高了强化学习的训练过程的稳定性。

为实现上述目的，本发明提供了一种基于Q学习模型的结果推送方法，包括以下步骤：S1确定当前状态s_t，将当前状态s_t带入初始Q学习模型获得Q值，根据Q值获得原始推送结果a_t；S2将原始推送结果推送给用户，并通过记录用户浏览，获得奖励值r_t+1；S3将状态s_t、推送结果a_t，下一状态s_t+1和奖励值r_t+1组成一个数据组，并将其存储至经验池D中；S4从经验池D中提取若干数据组，并根据提取的数据组计算网络参数

下的全梯度均值，此时的网络参数为锚点网络参数；S5随机提取一步骤S4中的数据组，并计算其在当前网络参数下和锚点网络参数下的目标Q值和梯度值，将梯度值和全梯度均值带入方差缩减公式实现梯度更新；S6重复步骤S4-S5直至训练结束，获得最终的Q学习模型，将待测状态输入最终的Q学习模型获得最佳推送结果。

进一步，步骤S5中的方差缩减公式：

其中，

是下一个网络参数；

是当前网络参数；α是学习率；

是梯度值；g是全梯度均值。

进一步，梯度值的计算公式为：

当前网络参数下的梯度值：

锚点网络参数下的梯度值：

其中，s，a分别为步骤S5中随机提取的一数据组中的状态和状态对应的推送结果，q_m是当前网络参数下的目标Q值，q₀是锚点网络参数下的目标Q值，

是锚点网络参数，Q()为Q网络。

进一步，目标Q值的计算公式为：

当前网络参数下的目标Q值：

锚点网络参数下的目标Q值：

其中，s′，a′分别为步骤S5中随机提取的一数据组中的下一个状态和下一个状态对应的推送结果，r是奖励值，γ是折扣系数。

进一步，全梯度均值的计算公式为：

其中，N为数据组的数量，l()为损失函数。

本发明还公开了另一种基于Q学习模型的结果推送方法，包括以下步骤：S1确定当前状态s₁，将当前状态s_t带入初始Q学习模型获得Q值，根据Q值获得原始推送结果a_t；S2将原始推送结果推送给用户，并通过记录用户浏览，获得奖励值r_t+1；S3将状态s_t、推送结果a_t，下一状态s_t+1和奖励值r_t+1组成一个数据组，并将其存储至经验池D中；S4从经验池D中提取若干数据组，并根据提取的数据组计算网络参数

下的全梯度均值，对全梯度均值进行梯度优化：

其中，

是下一个网络参数；

是当前网络参数；

是当前网络参数下的全梯度均值；S5随机提取一步骤S4中的数据组，并计算其在当前网络参数下和上一个网络参数下的目标Q值和梯度值，将梯度值和全梯度均值带入方差缩减公式实现梯度更新；S6重复步骤S4-S5直至训练结束，获得最终的Q学习模型，将待测状态输入最终的Q学习模型获得最佳推送结果。

进一步，步骤S5中的方差缩减公式：

其中，l()为损失函数，

是上一个网络参数；

是当前网络参数；

是上一个网络参数下的全梯度均值；

是当前网络参数下的全梯度均值。

进一步，梯度值的计算公式为：

当前网络参数下的梯度值：

上一个网络参数下的梯度值：

是锚点网络参数，Q()为Q网络。

进一步，目标Q值的计算公式为：

当前网络参数下的目标Q值：

上一个网络参数下的目标Q值：

本发明还公开了一种基于Q学习模型的结果推送系统，包括：原始推送结果生成模块，用于确定当前状态s_t，将当前状态s_t带入初始Q学习模型获得Q值，根据Q值获得原始推送结果a_t；奖励值生成模块，用于将原始推送结果推送给用户，并通过记录用户浏览，获得奖励值r_t+1；存储模块，用于将状态s_t、推送结果a_t，下一状态s_t+1和奖励值r_t+1组成一个数据组，并将其存储至经验池D中；全梯度均值计算模块，用于从经验池D中提取若干数据组，并根据提取的数据组计算网络参数

下的全梯度均值，此时的网络参数为锚点网络参数；梯度更新模块，用于随机提取一步骤S4中的数据组，并计算其在当前网络参数下和锚点网络参数下的目标Q值和梯度值，将梯度值和全梯度均值带入方差缩减公式实现梯度更新；输出模块，用于重复步骤S4-S5直至训练结束，获得最终的Q学习模型，将待测状态输入最终的Q学习模型获得最佳推送结果。

本发明由于采取以上技术方案，其具有以下优点：

1、通过将方差缩减技术引入到随机梯度下降的Q学习模型中，降低了奖励值或Q值的方差，提高了强化学习的训练过程的精度、稳定性。

2、采用随机递归梯度算法(Stochastic recursive gradient algorithm，SARAH)解决了随机方差缩减梯度下降技术(Stochastic Variance Reduced Gradient Descent，SVRG)在训练时网络的参数不固定的且可能会逐渐偏移采样时的参数，从而造成信息差越来越大的问题，使模型计算更加准确。

附图说明

图1是本发明一实施例中基于深度学习模型的地震数据不连续性检测方法的示意图；

图2是本发明一实施例中梯度优化算法的示意图，图2(a)是传统的梯度优化算法的示意图，图2(b)是随机梯度下降的梯度优化算法的示意图；

图3是本发明一实施例中基于方差缩减的的深度Q学习模型训练框架的逻辑示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

实施例一

本实施例公开了一种基于Q学习模型的结果推送方法，如图1所示，包括以下步骤：

S1首先，设定初始Q学习模型，确定当前状态s_t，其中，初始化状态s₀通过用户当前浏览记录活动；随后的状况通过用户上一次交互后的浏览历史获得；将当前状态s_t带入初始Q学习模型获得Q值，根据Q值获得原始推送结果a_t；其中，推送结果包括推送内容和推送内容的位置。

S2将原始推送结果推送给用户，并通过记录用户浏览，获得奖励值r_t+1；

S3将状态s_t、推送结果a_t，下一状态s_t+1和奖励值r_t+1组成一个数据组，并将其存储至经验池D中；

S4从经验池D中提取若干数据组，并根据提取的数据组计算网络参数

下的全梯度均值，此时的网络参数为锚点网络参数；

全梯度均值的计算公式为：

其中，N为数据组的数量，l()为损失函数。

S5随机提取一步骤S4中的数据组，并计算其在当前网络参数下和锚点网络参数下的目标Q值和梯度值，将梯度值和全梯度均值带入方差缩减公式实现梯度更新；

其中，目标Q值的计算公式为：

当前网络参数下的目标Q值：

锚点网络参数下的目标Q值：

若引入目标网络Q`(s，a；θ)，目标Q值的计算公式为：

当前网络参数下的目标Q值：

q_m←r+γmax_a′Q`(s′，a′；θ^-)

锚点网络参数下的目标Q值：

q₀←r+γmax_a′Q`(s′，a′；θ^-)

其中，参数θ^-代表上一次训练网络Q(s，a；θ)向目标网络Q`(s，a；θ)的参数值，而目标网络Q`是与训练网络Q结构相同但网络参数不同的网络。

梯度值的计算公式为：

当前网络参数下的梯度值：

锚点网络参数下的梯度值：

是锚点网络参数，Q()为Q网络。

方差缩减公式为：

其中，

是下一个网络参数；

是当前网络参数；α是学习率；

是梯度值；g是全梯度均值。

S6重复步骤S4-S5直至训练结束，获得最终的Q学习模型，将待测状态输入最终的Q学习模型获得最佳推送结果。

本实施例主要采用基于随机方差缩减梯度下降技术(Stochastic VarianceReduced Gradient Descent，SVRG)的Q学习模型实现。如图2所示，在传统的梯度优化算法中，以梯度下降(GD)为主体的算法能保证待优化参数达到一个全局最优点，但由于其每一步都涉及到全梯度的计算，这在数据量过大的问题背景下通常会造成大计算量消耗，从而使训练过程变得迟缓。随机梯度下降(SGD)算法为避免每一步训练的大计算量消耗，其放弃了全梯度的计算，通过每一步采样一个(或一小批)数据来训练模型，虽然同样能保证优化目标的收敛，但由于其随机采样的特点，在优化层面上仍然有着因梯度方差过高引起收敛速度慢的局限性。

为解决上述问题，通过在随机梯度下降的过程中引入方差缩减技术进行优化。方差缩减的数学定义为：

Z_α＝α(X-Y)+E[Y]

其中，X代表需要被缩减方差的随机变量，Y代表另一个与X有正相关关系的随机变量，E[Y]代表随机变量Y的数学期望，Z_α代表被方差缩减优化后的随机变量。

随机方差缩减梯度下降技术将原始的参数更新步骤改为了形如上Z_α的方差缩减形式，通过定期采样批量训练数据充当方差缩减定义中的Y，其梯度更新公式为：

其中θ^t为训练至第t步时的待优化参数，θ^old代表计算全梯度时的参数值，

代表批量数据损失函数的全梯度值的期望，

代表单个数据样本损失函数的梯度值，η代表学习率。

本发明将损失函数l(s，a；θ)对网络各层参数的梯度

作为待缩减方差的随机变量X。如图3所示，基于方差缩减的深度Q-learning训练框架，其中当前网络Q代表学习模型，环境代表与网络Q交互的对象，网络Q接受环境的当前状态s作为输入，并且根据当前的网络参数θ_m评估在状态s下执行各个动作的Q值，根据Q值选出最优动作a输出至环境，环境接收该动作并转入下一状态s′。该框架以当前网络Q作为输入，以方差优化后的网络作为输出，具体而言，输入该网络的参数θ₀，输出经过方差缩减训练过的优化网络参数

在训练过程中，环境与当前网络不断交互产生转移数据组(s，a，r，s′)，容量有限的经验池D负责存储这些产生的数据并定期送入网络进行训练。由SVRG算法的特性可知，首先需要在经验池中采样一批数据，同时需要根据采样批数据时的网络

计算出这批数据的全梯度均值g，用于充当SVRG优化过程中的期望E[Y]。批数据中的单个样本在采样批数据时的网络

下的梯度值则充当了优化过程中的辅助变量Y。

实施例二

基于相同的发明构思，本实施例公开了另一种基于Q学习模型的结果推送方法，包括以下步骤：

S3将状态s_t、推送结果a_t，下一状态s_t+1和奖励值r_t+1组成一个数据组，并将其存储至经验池D中；S4从经验池D中提取若干数据组，并根据提取的数据组计算网络参数

下的全梯度均值，对全梯度均值进行梯度优化：

其中，

是下一个网络参数；

是当前网络参数；

是当前网络参数下的全梯度均值；

S5随机提取一步骤S4中的数据组，并计算其在当前网络参数下和上一个网络参数下的目标Q值和梯度值，将梯度值和全梯度均值带入方差缩减公式实现梯度更新；

其中，目标Q值的计算公式为：

当前网络参数下的目标Q值：

上一个网络参数下的目标Q值：

步骤S5中的方差缩减公式：

其中，l()为损失函数，

是上一个网络参数；

是当前网络参数；

是上一个网络参数下的全梯度均值；

是当前网络参数下的全梯度均值。

梯度值的计算公式为：

当前网络参数下的梯度值：

上一个网络参数下的梯度值：

是锚点网络参数，Q()为Q网络。

步骤S5中的方差缩减公式：

其中，l()为损失函数，

是上一个网络参数；

是当前网络参数；

是上一个网络参数下的全梯度均值。

本实施例主要采用基于随机递归梯度算法(Stochastic recursive gradientalgorithm，SARAH)的Q学习模型实现。SVRG算法中使用一个固定的批数据全梯度均值g作为修正量E[Y]，并且使用固定的网络(批数据采样时网络)

去计算单个样本的梯度值来充当Y，而在训练时网络的参数是不固定的且可能会逐渐偏移采样时的参数θ₀，从而造成信息差越来越大的问题。

为了解决这一问题，SARAH提出使用循环更新或适应性更新的方法来处理梯度和全梯度的估计值，放弃使用固定的批数据全梯度均值g和固定的采样参数θ^old，而在训练过程中对全梯度均值g进行逐步更新，并且使用上一步的参数θ^t-1来代替θ^old，综上可以得出，在SARAH算法中，带有方差缩减效用梯度更新步骤如下：

θ^t+1＝θ^t-ηg^t

相对图3中SVRG算法，本实施例中将SVRG操作单元替换为上述的SARAH更新单元，并且在更新参数的同时保持对全梯度均值g的更新，此外本实施例采用固定的采样时网络替换为上一步训练时的网络、即

实施例三

基于相同的发明构思，本实施例公开了一种基于Q学习模型的结果推送系统，包括：

原始推送结果生成模块，用于确定当前状态s_t，将当前状态s_t带入初始Q学习模型获得Q值，根据Q值获得原始推送结果a_t；

奖励值生成模块，用于将原始推送结果推送给用户，并通过记录用户浏览，获得奖励值r_t+1；

存储模块，用于将状态s_t、推送结果a_t，下一状态s_t+1和奖励值r_t+1组成一个数据组，并将其存储至经验池D中；

全梯度均值计算模块，用于从经验池D中提取若干数据组，并根据提取的数据组计算网络参数

下的全梯度均值，此时的网络参数为锚点网络参数；

梯度更新模块，用于随机提取一步骤S4中的数据组，并计算其在当前网络参数下和锚点网络参数下的目标Q值和梯度值，将梯度值和全梯度均值带入方差缩减公式实现梯度更新；

输出模块，用于重复步骤S4-S5直至训练结束，获得最终的Q学习模型，将待测状态输入最终的Q学习模型获得最佳推送结果。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。上述内容仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围。