CN112712385B

CN112712385B - 广告推荐方法、装置、电子设备及存储介质

Info

Publication number: CN112712385B
Application number: CN201911024907.0A
Authority: CN
Inventors: 舒承椿
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2024-01-12
Anticipated expiration: 2039-10-25
Also published as: CN112712385A

Abstract

本公开的实施例提供的广告推荐方法、装置及电子设备，涉及计算机技术领域，通过获取待训练广告推荐模型历史训练过程中的历史训练数据，强化学习模型在训练过程中自动收集历史训练数据中学习率调整和待训练广告推荐模型的训练效果指标的数据，自动学习到学习率的调整规律，利用所述训练好的强化学习模型调整所述待训练广告推荐模型的学习率，以完成所述待训练广告推荐模型的训练，从而减少所述待训练广告推荐模型的收敛时间，提高模型训练精度，通过训练后的待训练广告推荐模型，进行广告推荐，从而实现广告的精准推荐。

Description

广告推荐方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及广告推荐方法、装置、电子设备及存储介质。

背景技术

随着互联网、搜索引擎和社交网络的普及，用户数据呈爆炸式增长，利用机器学习在海量数据中挖掘有价值的信息，已经成为近年来学界与业界关注的焦点。互联网广告为针对用户的个性化向其投放感兴趣的广告，同时真正满足用户对产品需求的信息，实现广告的精准投放。互联网广告推荐模型通过机器学习算法提取到用户的行为特征数据，然后深入挖掘用户的特征数据，然后采用合适的分类算法对用户分类，进而针对用户的特征投放广告，目前机器学习算法分为三个阶段：

前向计算过程：使用模型参数的当前值计算各层的激活函数结果值，包括目标损失函数的值；

后向梯度计算：计算模型的参数相对于目标损失函数的梯度；

参数更新：把模型参数的当前值减去梯度乘以学习率得到新的参数值。

学习率是基于梯度的机器学习算法中的一个重要参数。学习率的调整方法不仅跟模型训练的轮数相关，而且跟模型的参数设置，模型变量的初始化，模型的类型都相关，合理的学习率可以提高模型的训练精度和速度，可以获得更好的参数值，让模型具有更好地预测能力，相反不合理的学习率可能减缓模型的收敛速度，甚至导致模型训练过程最终不收敛，模型训练失败。

当前的学习率调整方法基于一些学习率对优化问题的直觉理解，缺乏对训练数据的差异，训练的状况的比较分析，另外，当前的学习率调整方法需要手动设置一些重要的参数，例如指数减缓方法中的衰减系数等，不合理的设置参数，将影响模型的收敛速度和精度。

发明内容

本公开提供一种广告推荐方法、装置、电子设备、存储介质及包含指令的计算机程序产品，以实现自动学习出广告推荐模型学习率的调整规律，自动调整广告推荐模型学习率，从而减少模型训练的收敛时间，提高模型训练精度。

本公开的技术方案如下：

根据本公开实施例的第一方面，本公开提供一种广告推荐方法，包括：

获取待训练广告推荐模型历史训练过程中的历史训练数据、待训练广告推荐模型及预设强化学习模型组成的级联模型，其中，所述广告推荐模型用于进行广告推荐，所述历史训练数据包括学习率参数集合、学习率调整系数集合、训练效果指标集合；

获取当前学习率参数，目标学习率调整系数、下一学习率参数、当前学习率的训练效果指标、下一学习率的训练效果指标；

根据所述当前学习率参数、所述目标学习率调整系数、所述下一学习率参数，所述当前学习率的训练效果指标、下一学习率的训练效果指标设置预设变量；

根据所述预设变量，通过预设损失函数更新所述预设强化学习模型的参数；判断所述预设强化学习模型是否收敛，在所述预设强化学习模型收敛时，得到训练好的强化学习模型；

将所述待训练广告推荐模型的当前训练数据输入所述训练好的强化学习模型中，根据所述训练好的强化学习模型输出值的大小确定所述待训练广告推荐模型的最终学习率系数；

根据所述最终学习率调整系数确定所述待训练广告推荐模型的学习率，以完成所述待训练广告推荐模型的训练；

通过训练后的待训练广告推荐模型，进行广告推荐。

可选的，所述获取当前学习率参数，目标学习率调整系数、下一学习率参数、当前学习率的训练效果指标、下一学习率的训练效果指标，包括：

获取当前学习率，将所述当前学习率输入到所述待训练广告推荐模型中，基于所述当前学习率，通过预设广告推荐样本对所述待训练广告推荐模型进行训练，得到所述当前学习率的训练效果指标，并得到当前学习率参数；

根据所述当前学习率及所述学习率调整系数集合，确定目标学习率调整系数；

按照所述当前学习率及所述目标学习率调整系数，确定下一学习率；

将所述下一学习率输入到所述待训练广告推荐模型中，基于所述下一学习率，通过预设广告推荐样本对所述待训练广告推荐模型进行训练，得到所述下一学习率的训练效果指标，并得到下一学习率参数。

可选的，所述获取当前学习率参数、目标学习率调整系数、下一学习率参数，当前学习率的训练效果指标、下一学习率的训练效果指标的步骤之前，所述方法还包括：将所述历史训练数据进行量化，得到量化样本数据。

可选的，所述将所述历史训练数据进行量化，得到量化样本数据，包括：

基于所述历史训练数据及所述待训练广告推荐模型的训练过程，对马尔科夫决策过程的五元组进行建模，得到马尔科夫模型；

所述马尔科夫决策过程的五元组，包括：

状态集合S、动作集合A、动作转移概率P、回报函数R及折扣因子r；

所述状态集合S包括所述待训练广告推荐模型在历史训练过程中的学习率参数集合；

所述动作集合A包括所述待训练广告推荐模型在所述状态集合S中的各状态的学习率调整系数集合；

所述动作转移概率P包括所述待训练广告推荐模型在历史训练过程中从当前学习率到下一学习率的学习率调整的概率集合；

所述回报函数R包括所述待训练广告推荐模型在历史训练过程中当前学习率的训练效果指标对下一学习率的训练效果指标的变化值集合；

所述折扣因子r包括所述待训练广告推荐模型在历史训练过程中下一学习率的训练效果指标对当前学习率的训练效果指标的折扣率集合。

可选的，所述学习率参数集合包括，所述学习率参数包括：当前学习率，历史步骤学习率相对所述当前学习率的变化，预设次数的训练效果指标变化值，最后一次的训练效果指标，当前训练轮数和步数，所述步数占每一轮总步数的比值。

可选的，所述强化学习模型包括两个不同网络参数的深度强化学习Double DQN网络。

可选的，所述Double DQN网络包括动作-价值神经网络和目标动作-价值神经网络，所述根据所述当前学习率参数、所述目标学习率调整系数、所述下一学习率参数，所述当前学习率的训练效果指标、下一学习率的训练效果指标设置预设变量，包括：

根据所述当前学习率的训练效果指标及所述下一学习率的训练效果指标计算所述训练效果指标变化值，并将所述训练效果指标变化值、所述当前学习率参数、所述目标学习率调整系数、所述下一学习率参数作为一条记录项存储到预设数据库中；

从所述预设数据库中选取目标记录项；

根据所述目标记录项设置变量。

可选的，所述根据所述目标记录项设置变量，包括：

如果所述待训练广告推荐模型训练结束，则所述变量等于所述目标记录的训练效果指标变化值。

可选的，所述根据所述目标记录项设置变量，包括：

如果所述待训练广告推荐模型训练没有结束，则根据预设函数设置所述变量。

可选的，所述将所述待训练广告推荐模型的当前训练数据输入所述训练好的强化学习模型中，根据所述训练好的强化学习模型输出值的大小确定所述待训练广告推荐模型的最终学习率系数，包括：

获取所述待训练广告推荐模型的当前训练数据；

将所述当前训练数据输入所述训练好的强化学习模型中，所述训练好的强化学习模型中输出值中的最大值对应的学习率调整系数为所述待训练广告推荐模型的最终学习率调整系数。

根据本公开实施例的第二方面，本公开提供一种广告推荐装置，包括：

第一采集模块，被配置为获取待训练广告推荐模型历史训练过程中的历史训练数据、待训练广告推荐模型及预设强化学习模型组成的级联模型，其中，所述广告推荐模型用于进行广告推荐，所述历史训练数据包括学习率参数集合、学习率调整系数集合、训练效果指标集合；

第二采集模块，被配置为获取当前学习率参数，目标学习率调整系数、下一学习率参数、当前学习率的训练效果指标、下一学习率的训练效果指标；

设置模块，被配置为根据所述当前学习率参数、所述目标学习率调整系数、所述下一学习率参数，所述当前学习率的训练效果指标、下一学习率的训练效果指标设置预设变量；

更新模块，被配置为根据所述预设变量，通过预设损失函数更新所述预设强化学习模型的参数；判断所述预设强化学习模型是否收敛，在所述预设强化学习模型收敛时，得到训练好的强化学习模型；

第一确定模块，被配置为将所述待训练广告推荐模型的当前训练数据输入所述训练好的强化学习模型中，根据所述训练好的强化学习模型输出值的大小确定所述待训练广告推荐模型的最终学习率系数；

第二确定模块，被配置为根据所述最终学习率调整系数确定所述待训练广告推荐模型的学习率，以完成所述待训练广告推荐模型的训练；

推荐模块，被配置为通过训练后的待训练广告推荐模型，进行广告推荐。

可选的，所述第二采集模块具体用于：

可选的，所述装置还包括：量化模块，被配置为将所述历史训练数据进行量化，得到量化样本数据。

可选的，所述量化模块具体用于：

所述马尔科夫决策过程的五元组，包括：

可选的，所述Double DQN网络包括动作-价值神经网络和目标动作-价值神经网络，所述设置模块具体用于：

从所述预设数据库中选取目标记录项；

根据所述目标记录项设置变量。

可选的，所述设置模块具体用于：

可选的，所述第一确定模块具体用于：

获取所述待训练广告推荐模型的当前训练数据；

根据本公开实施例的第三方面，本公开提供一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，

所述处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，被配置为存放计算机程序；

处理器，被配置为执行存储器上所存放的程序时，实现上述第一方面任一项所述的广告推荐方法。

根据本公开实施例的第四方面，提供一种存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一项所述的广告推荐方法。

根据本公开实施例的第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面任一所述的广告推荐方法。

本公开的实施例提供的广告推荐方法、装置、电子设备、存储介质及包含指令的计算机程序产品，至少带来以下有益效果：

通过获取待训练广告推荐模型历史训练过程中的历史训练数据，获取当前学习率参数，目标学习率调整系数、下一学习率参数、当前学习率的训练效果指标、下一学习率的训练效果指标，根据所述当前学习率参数、所述目标学习率调整系数、所述下一学习率参数，所述当前学习率的训练效果指标、下一学习率的训练效果指标设置预设变量，根据所述预设变量通过预设损失函数更新所述预设强化学习模型的参数，判断所述预设强化学习模型是否收敛，在所述预设强化学习模型收敛时，得到训练好的强化学习模型，强化学习模型在训练过程中自动收集历史训练数据中学习率调整和待训练广告推荐模型的训练效果指标的数据，自动学习到学习率的调整规律，根据所述训练好的强化学习模型输出值的大小确定所述待训练广告推荐模型的最终学习率系数，以完成所述待训练广告推荐模型的训练，从而减少所述待训练广告推荐模型的收敛时间，提高模型训练精度，通过训练后的待训练广告推荐模型，进行广告推荐，从而实现广告的精准推荐。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种广告推荐方法的示意图；

图2是根据一示例性实施例示出的一种广告推荐装置的示意图；

图3是根据一示例性实施例示出的第一种电子设备的示意图；

图4是根据一示例性实施例示出的第二种电子设备的示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。本公开实施例公开了一种广告推荐方法、装置、电子设备、存储介质及包含指令的计算机程序产品，以下分别进行说明。

图1是根据一示例性实施例示出的一种广告推荐方法的示意图，如图1所示，广告推荐方法包括以下步骤：

在步骤110中，获取待训练广告推荐模型历史训练过程中的历史训练数据、待训练广告推荐模型及预设强化学习模型组成的级联模型，其中，上述广告推荐模型用于进行广告推荐，上述历史训练数据包括学习率参数集合、学习率调整系数集合、训练效果指标集合。

本公开实施例的广告推荐方法可以通过电子设备实现，具体的，该电子设备可以是服务器。

广告推荐应用场景中使用机器学习算法，比如采用随机森林模型、支持向量机模型、递归神经网络模型等广告推荐模型实现对广告的推荐。广告推荐应用场景中涉及到广告的文本信息，广告的图像信息。为实现对广告的推荐，提取文本的特征数据或图像的特征数据，然后深入挖掘深层的特征数据，然后采用合适的分类算法对广告分类，上述广告推荐模型基于广告推荐样本对广告推荐模型进行训练，广告推荐样本可以为广告的文本样本，广告的图像样本。

上述广告推荐模型为机器学习模型，上述广告推荐模型在训练过程中，学习率是影响上述广告推荐模型训练效果的参数，学习率的调整方法不仅跟模型训练的轮数相关，而且跟模型的参数设置，模型变量的初始化，模型的类型都相关。为使上述广告推荐模型在训练过程中设置的学习率最优，使用预设强化学习模型学习上述学习率的调整规律。上述预设强化学习模型可以为DQN(Deep Q-learning network，基于价值网络的强化学习算法)模型、Q-Learning(强化学习算法)模型或者Double DQN(Double Deep Q-learningnetwork，两个不同网络参数的深度强化学习模型)模型，例如，上述预设强化学习模型为Double DQN模型。

电子设备获取上述待训练广告推荐模型的历史训练数据。上述待训练广告推荐模型的在训练过程中的得到历史训练数据，其中，历史训练数据包括学习率参数集合、学习率调整系数集合、训练效果指标集合，例如，学习率参数包括学习率，各学习率相对变化，学习率调整系数，历史步骤学习率相对上述当前学习率的变化，预设次数的训练效果指标变化值，最后一次的训练效果指标，当前训练轮数和步数，上述步数占每一轮总步数的比值，学习率调整的概率，训练效果指标以及训练过程中下一步训练效果指标对当前训练效果指标的变化值等。

在一种可能的实施方式中，上述获取当前学习率参数、目标学习率调整系数、下一学习率参数，当前学习率的训练效果指标、下一学习率的训练效果指标的步骤之前，上述方法还包括：将上述历史训练数据进行量化，得到量化样本数据。

为了解决学习率调整问题，将复杂的学习率调整问题进行量化，得到量化样本数据，这样复杂的学习率调整问题可以简单地被表述、以此得到解决。将上述历史训练数据进行量化，得到量化样本数据。

在一种可能的实施方式中，上述将上述历史训练数据进行量化，得到量化样本数据，包括：

基于上述历史训练数据及上述待训练广告推荐模型的训练过程，对马尔科夫决策过程的五元组进行建模，得到马尔科夫模型；

上述马尔科夫决策过程的五元组，包括：

状态集合S、动作集合A、动作转移概率P、回报函数R及折扣引子r；

上述状态集合S包括上述待训练广告推荐模型在历史训练过程中的学习率参数集合；

上述动作集合A包括上述待训练广告推荐模型在上述状态集合S中的各状态的学习率调整系数集合；

上述动作转移概率P包括上述待训练广告推荐模型在历史训练过程中从上述状态中前一状态到下一状态的学习率调整的概率集合；

上述回报函数R包括上述待训练广告推荐模型在历史训练过程中当前学习率的训练效果指标对下一学习率的训练效果指标的变化值集合；

上述折扣引子r包括上述待训练广告推荐模型在历史训练过程中下一学习率的训练效果指标对当前学习率的训练效果指标的折扣率集合。

具体的，可以基于上述历史训练数据及上述待训练模型的训练过程，对马尔科夫模型的五元组进行建模，得到马尔科夫模型。使用马尔科夫模型可以使复杂的学习率调整问题通过马尔可夫模型简单地被表述、以此得到解决。

待训练广告推荐模型的在训练过程中的会得到相关数据，例如，学习率，各学习率相对变化，学习率调整系数，历史步骤学习率相对上述当前学习率的变化，预设次数的训练效果指标变化值，最后一次的训练效果指标，当前训练轮数和步数，上述步数占每一轮总步数的比值，学习率调整的概率，训练效果指标以及训练过程中下一步训练效果指标对当前训练效果指标的变化值等等。将待训练广告推荐模型的在训练过程中的会得到相关数据形式化赋予马尔科夫模型的五元组{S，A，P，R，r}。

其中，定义状态集合S＝{S_t|t＝1，2...T}，状态集合S包括上述待训练广告推荐模型在历史训练过程中的学习率参数集合，状态集合S包括的学习率参数可以为但不限制于以下几个方面：

(a)当前学习率，定义当前学习率为lr_t；

(b)历史步骤的学习率相对当前学习率的变化，定义历史步骤的学习率为lr_t-i，i∈{1，...，n}，其中t-i表示相对当前训练的前i步训练，历史步骤的学习率相对当前学习率的变化表示为lr_t-i/lr_t，例如{lr_t-20/lr_t，lr_t-15/lr_t，lr_t-10/lr_t，lr_t-5/lr_t，lr_t-4/lr_t，lr_t-3/lr_t，lr_t-2/lr_t，lr_t-1/lr_t；

(c)待训练广告推荐模型在之前训练的训练效果指标，比如AUC(Area UnderCurve，曲线下面积)变化值，定义auc_t为当前的预测AUC，auc_t-i为表示相对当前训练的前i步训练的预测AUC，例如待训练广告推荐模型前5步的预测AUC变化值，例如

auc_t-auc_t-1，auc_t-1-auc_t-2，auc_t-2-auc_t-3，auc_t-3-auc_t-4，auc_t-4-auc_t-5}；

(d)最近一次待训练广告推荐模型的训练效果指标；

(e)当前训练的轮数和步数t绝对值，以及步数t占每一轮的总步数T的比值，即t/T。

比如当前学习率为lr₅，历史步骤的学习率相对当前学习率的变化表示为lr₁/lr₅，lr₂/lr₅，lr₃/lr₅，lr₄/lr₅，待训练广告推荐模型前5步的预测AUC变化值为auc₅-aic₄，auc₄-auc₃，auc₃-auc₂，auc₂-auc₁，最近一次待训练广告推荐模型的预测指标值为auc₄，

则S₅＝{lr₅，lr₁/lr₅，lr₂/lr₅，lr₃/lr₅，lr₄/lr₅，auc₅-auc₄，auc₄-auc₃，auc₃-auc₂，auc₂-auc₁，auc₄}

上述动作集合A包括上述待训练广告推荐模型在上述状态集合S中的各状态的学习率调整系数集合，定义当前动作为A_t，即当前选中的目标学习率调整系数为A_t。

可以定义动作集合A为学习率调整系数的有限集合，例如定义五种由小到大的学习率调整系数：{0.7，0.8，0.9，1.0，1.1}。

上述动作转移概率P包括上述待训练广告推荐模型在历史训练过程中从上述状态中前一状态到下一状态的学习率调整的概率集合。

动作转移概率P定义了选择动作A_t从当前状态S_t到下一状态S_t+1的概率，即P＝{S_t+1|S_t，A_t}。在学习率调整问题方面，动作转移概率是未知的，动作转移概率可以通过与历史训练过程获取到状态的变化，即通过状态集合S的定义方法，确定使用动作A_t之后当前状态S_t转移到的新状态是什么。

上述回报函数R包括上述待训练广告推荐模型在历史训练过程中当前学习率的训练效果指标对下一学习率的训练效果指标的变化值集合。

例如，定义回报函数R为待训练广告推荐模型的AUC指标的变化值，即auc_t-auc_t-1。

通常折扣引子定义为0.9。

使用马尔科夫模型可以使复杂的学习率调整问题通过马尔可夫模型简单地被表述、以此得到解决。

另外，将{S_t，A_t，R_t，S_t+1}作为记录项存入预设数据库中，可以设置预设数据库的容量为一定数目N，例如N＝5000，当预设数据库的容量满时，可以按照一定比例淘汰旧记录。强化学习模型直接从预设数据库中随机抽取若干条记录。强化学习模型从预设数据库随机抽取一条目标记录项{S_j，A_j，R_j，S_j+1}，把它们作为强化学习模型的输入，用于学习调整学习率的策略。

将历史训练数据存入预设数据库，从预设数据库随机抽取若干条记录作为强化学习模型的输入，这种方法可以让强化学习模型的输入满足独立同分布，还能打破收集数据之间的前后关联性。

在步骤120中，获取当前学习率参数，目标学习率调整系数、下一学习率参数、当前学习率的训练效果指标、下一学习率的训练效果指标。

在广告推荐模型最开始训练时，根据经验值指定一个学习率为初始学习率或者根据预设公式设定初始学习率，比如，根据经验值指定初始学习率为0.01，根据初始学习率为0.01对广告推荐模型进行训练，广告推荐模型经过训练后，得出初始学习率的训练效果指标，比如初始学习率为0.01时的训练效果指标为0.8。

假如上述初始学习率0.01为当前学习率，以一定概率，例如0.2从历史训练数据中的学习率调整系数集合{0.7，0.8，0.9，1.0，1.1}中选择目标学习率调整系数，比如0.8，根据当前学习率0.01和目标学习率调整系数确定下一学习率，比如下一学习率＝0.01*0.8＝0.008。

或者预设公式设定目标学习率调整系数，比如A_t＝argmaxQ(S_t，A_t)，其中Q(S_t，A_t)为Double DQN模型输出的Q值，选择Double DQN模型输出的Q值中的最大值对应的学习率调整系数为目标学习率调整系数。

根据下一学习率0.008对广告推荐模型进行训练，广告推荐模型经过训练后，得出下一学习率的训练效果指标，比如学习率为0.008时的训练效果指标为0.9。由此得到下一学习率参数，历史步骤的学习率相对当前学习率的变化表示为0.01/0.008，待训练广告推荐模型预测AUC变化值为0.9-0.8＝0.1，最近一次待训练广告推荐模型的预测指标值为0.8等。

在步骤130中，根据上述当前学习率参数、上述目标学习率调整系数、上述下一学习率参数，上述当前学习率的训练效果指标、下一学习率的训练效果指标设置预设变量。

因为各学习率参数包括学习率的相关因素，包括：当前学习率，历史步骤学习率相对上述当前学习率的变化，预设次数的训练效果指标变化值，最后一次的训练效果指标，当前训练轮数和步数，上述步数占每一轮总步数的比值，则根据上述广告推荐模型在训练过程中的训练数据以及训练效果，设置预设变量，然后利用预设变量用来训练上述强化学习模型，以此更新上述预设强化学习模型的参数值，可以使得上述预设强化学习模型学习到广告推荐模型在训练过程中学习率的调整规律。

例如，上述强化学习模型为Double DQN模型,，初始化动作-价值神经网络Q，初始化目标动作-价值神经网络Q’，动作-价值神经网络Q以一定概率随机从动作集合A中选择一个动作A_j，或者让A_j＝argmaxQ(S_j，A_j)，根据上述当前学习率参数、上述目标学习率调整系数、上述下一学习率参数，上述当前学习率的训练效果指标、下一学习率的训练效果设置变量Y_j。如果本次广告推荐模型训练结束，则Y_j＝R_j，如果广告推荐模型没有结束，则根据预设函数设置上述变量，比如设置Y_j＝R_j+r*maxaQ’(S_j，A_j)。

在一种可能的实施方式中，上述获取当前学习率参数，目标学习率调整系数、下一学习率参数、当前学习率的训练效果指标、下一学习率的训练效果指标，包括：

获取当前学习率，将上述当前学习率输入到上述待训练广告推荐模型中，基于上述当前学习率，通过预设广告推荐样本对上述待训练广告推荐模型进行训练，得到上述当前学习率的训练效果指标，并得到当前学习率参数；

根据上述当前学习率及上述学习率调整系数集合，确定目标学习率调整系数；

按照上述当前学习率及上述目标学习率调整系数，确定下一学习率；

将上述下一学习率输入到上述待训练广告推荐模型中，基于上述下一学习率，通过预设广告推荐样本对上述待训练广告推荐模型进行训练，得到上述下一学习率的训练效果指标，并得到下一学习率参数。

假如上述初始学习率0.01为当前学习率，以一定概率，例如0.2的概率从历史训练数据中的学习率调整系数集合{0.7，0.8，0.9，1.0，1.1}中选择目标学习率调整系数，比如0.8，根据当前学习率0.01和目标学习率调整系数确定下一学习率，比如下一学习率＝0.01*0.8＝0.008。

在一种可能的实施方式中，上述学习率参数集合包括，上述学习率参数包括：当前学习率，历史步骤学习率相对上述当前学习率的变化，预设次数的训练效果指标变化值，最后一次的训练效果指标，当前训练轮数和步数，上述步数占每一轮总步数的比值。

通过搜集当前学习率，历史步骤学习率相对上述当前学习率的变化，预设次数的训练效果指标变化值，最后一次的训练效果指标，当前训练轮数和步数，上述步数占每一轮总步数的比值，可以使得上述预设强化学习模型学习学习率调整系数和训练效果指标之间的相互影响，从而使得预设强化学习模型学习到学习率的调整规律。

在一种可能的实施方式中，上述强化学习模型包括两个不同网络参数的深度强化学习Double DQN网络。

Double DQN模型使用两个神经网络可以缓解DQN模型以及Q-Learning的过估计问题，使得学习到的学习率调整规律更加准确。

在一种可能的实施方式中，上述Double DQN网络包括动作-价值神经网络和目标动作-价值神经网络，上述根据上述当前学习率参数、上述目标学习率调整系数、上述下一学习率参数，上述当前学习率的训练效果指标、下一学习率的训练效果指标设置预设变量，包括：

根据上述当前学习率的训练效果指标及上述下一学习率的训练效果指标计算上述训练效果指标变化值，并将上述训练效果指标变化值、上述当前学习率参数、上述目标学习率调整系数、上述下一学习率参数作为一条记录项存储到预设数据库中；

从上述预设数据库中选取目标记录项；

根据上述目标记录项设置变量。

根据历史训练数据，将{S_t，A_t，R_t，S_t+1}作为记录项存入预设数据库中，可以设置预设数据库的容量为一定数目N，例如N＝5000，当预设数据库的容量满时，可以按照一定比例淘汰旧记录。强化学习模型直接从预设数据库中随机抽取若干条记录。强化学习模型从预设数据库随机抽取一条目标记录项{S_j，A_j，R_j，S_j+1}，把它们作为强化学习模型的输入，用于学习调整学习率的策略。例如，初始化动作-价值神经网络Q，初始化目标动作-价值神经网络Q’，动作-价值神经网络Q从预设数据库随机抽取一条目标记录项{S_j，A_j，R_j，S_j+1}，根据上述目标记录项设置变量Y_j，例如，如果本次广告推荐模型训练结束，则Y_j＝R_j，如果广告推荐模型没有结束，则根据预设函数设置上述变量，比如设置Y_j＝R_j+r*maxaQ’(S_j，A_j)。

在步骤140中，根据上述预设变量，通过预设损失函数更新上述预设强化学习模型的参数；判断上述预设强化学习模型是否收敛，在上述预设强化学习模型收敛时，得到训练好的强化学习模型。

根据上述目标记录项设置变量Y_j，通过预设最小化目标函数更新上述动作-价值神经网络Q，例如最小化目标函数为：

(Y_j-Q(S_j，A_j))²

重复预设次数，将上述动作-价值神经网络Q的参数赋予上述目标动作-价值神经网络Q’，比如重复5次，将上述动作-价值神经网络Q的参数赋予上述目标动作-价值神经网络Q’。当预设强化学习模型执行了指定的轮数，例如1000轮，判定预设强化学习模型收敛，或者设定预设强化学习模型的损失函数为(Y_j-Q(S_j，A_j))²，当(Y_j-Q(S_j，A_j))²小于一定值，例如，(Y_j-Q(S_j，A_j))²小于0.01时，判定预设强化学习模型收敛。

当上述预设强化学习模型未达到收敛条件，则预设强化学习模型使用上述方法继续训练，直到模型收敛。预设强化学习模型收敛时，强化学习模型学习到学习率的调整规律，根据强化学习模型可以指导待训练广告推荐模型进行训练。

在步骤150中，将上述待训练广告推荐模型的当前训练数据输入上述训练好的强化学习模型中，根据上述训练好的强化学习模型输出值的大小确定上述待训练广告推荐模型的最终学习率系数。

训练好的强化学习模型可以指导待训练广告推荐模型进行训练。

例如，当Double DQN算法收敛时，强化学习模型学习到了一个动作-价值网络Q，给定当前状态S_t，它能够从动作集合A中学习各个动作对应的Q值，从中选择一个最大的Q值对应的动作，得到当前状态下的最佳学习率调整系数。

在步骤160中，根据上述最终学习率调整系数确定上述待训练广告推荐模型的学习率，以完成上述待训练广告推荐模型的训练。

从上述训练好的强化学习模型中选择上述训练好的强化学习模型值函数对应的最大值，上述最大值对应的学习率调整动作为上述待训练广告推荐模型的当前学习率调整系数，从而根据上述最终学习率调整系数确定上述待训练广告推荐模型的学习率，以完成上述待训练广告推荐模型的训练。

在步骤170中，通过训练后的待训练广告推荐模型，进行广告推荐。

待训练广告推荐模型训练完成后，将广告文本或者广告图像输入训练好的广告推荐模型中，通过提取广告文本或者广告图像的特征，从而实现广告推荐。

在一种可能的实施方式中，上述根据上述目标记录项设置变量，包括：

如果上述待训练广告推荐模型训练结束，则上述变量等于上述目标记录的训练效果指标变化值。

如果广告推荐模型训练结束，则上述变量Y_j等于上述目标记录的训练效果指标变化值R_j，根据设置的变量可以用来更新上述预设强化学习模型的参数。在一种可能的实施方式中，上述根据上述目标记录项设置变量，包括：

如果上述待训练广告推荐模型训练没有结束，则根据预设函数设置上述变量。

如果待训练广告推荐模型训练没有结束，则根据预设函数设置上述变量，比如设置Y_j＝0.1+0.9*max_aQ’(S_j，A_j)。

根据设置的变量可以用来更新上述预设强化学习模型的参数。

在一种可能的实施方式中，上述将上述待训练广告推荐模型的当前训练数据输入上述训练好的强化学习模型中，根据上述训练好的强化学习模型输出值的大小确定上述待训练广告推荐模型的最终学习率系数，包括：

获取上述待训练广告推荐模型的当前训练数据；

将上述当前训练数据输入上述训练好的强化学习模型中，上述训练好的强化学习模型中输出值中的最大值对应的学习率调整系数为上述待训练广告推荐模型的最终学习率调整系数。

例如，上述待训练广告推荐模型的当前训练状态为S₃，其中当前训练状态包括，当前学习率lr₃，第一步及第二步学习率相对当前学习率的变化，lr₁/lr₃，lr₂/lr₃，第一步及第二步的预测AUC变化值，auc₃-auc₂，auc₂-auc₁，第二步的预测训练效果指标auc₂，

利用上述训练好的强化学习模型当前学习率lr₃进行分析，确定针对上述当前训练数据的当前学习率调整策略，因为动作集合A中包括多个学习率调整系数，上述训练好的强化学习模型中基于当前训练状态，从上述训练好的强化学习模型中选择上述训练好的强化学习模型的输出值中的最大值对应的学习率调整系数，上述最大值对应的学习率调整系数为上述当前训练数据的当前学习率调整策略。

选中最大的对应的学习率调整系数，使得待训练广告推荐模型训练收敛时间减少，训练效果更好。

图2为是根据一示例性实施例示出的一种广告推荐装置的示意图，参见图2，该装置包括：第一采集模块310，第二采集模块320，设置模块330，更新模块340，第一确定模块350，第二确定模块360，推荐模块370。

第一采集模块310，被配置为获取待训练广告推荐模型历史训练过程中的历史训练数据、待训练广告推荐模型及预设强化学习模型组成的级联模型，其中，上述广告推荐模型用于进行广告推荐，上述历史训练数据包括学习率参数集合、学习率调整系数集合、训练效果指标集合；

第二采集模块320，被配置为获取当前学习率参数，目标学习率调整系数、下一学习率参数、当前学习率的训练效果指标、下一学习率的训练效果指标；

设置模块330，被配置为根据上述当前学习率参数、上述目标学习率调整系数、上述下一学习率参数，上述当前学习率的训练效果指标、下一学习率的训练效果指标设置预设变量；

更新模块340，被配置为根据上述预设变量，通过预设损失函数更新上述预设强化学习模型的参数；判断上述预设强化学习模型是否收敛，在上述预设强化学习模型收敛时，得到训练好的强化学习模型；

第一确定模块350，被配置为将上述待训练广告推荐模型的当前训练数据输入上述训练好的强化学习模型中，根据上述训练好的强化学习模型输出值的大小确定上述待训练广告推荐模型的最终学习率系数；

第二确定模块360，被配置为根据上述最终学习率调整系数确定上述待训练广告推荐模型的学习率，以完成上述待训练广告推荐模型的训练；

推荐模块370，被配置为通过训练后的待训练广告推荐模型，进行广告推荐。

在一种可能的实施方式中，上述第二采集模块320具体用于：

在一种可能的实施方式中，上述装置还包括：量化模块，被配置为将上述历史训练数据进行量化，得到量化样本数据。

在一种可能的实施方式中，上述量化模块具体用于：

上述马尔科夫决策过程的五元组，包括：

上述动作转移概率P包括上述待训练广告推荐模型在历史训练过程中从当前学习率到下一学习率的学习率调整的概率集合；

上述折扣因子r包括上述待训练广告推荐模型在历史训练过程中下一学习率的训练效果指标对当前学习率的训练效果指标的折扣率集合。

在一种可能的实施方式中，上述Double DQN网络包括动作-价值神经网络和目标动作-价值神经网络，上述设置模块330具体用于：

从上述预设数据库中选取目标记录项；

根据上述目标记录项设置变量。

在一种可能的实施方式中，上述设置模块330具体用于：

在一种可能的实施方式中，上述第一确定模块350具体用于：

获取上述待训练广告推荐模型的当前训练数据；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例还提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信，

上述存储器，用于存放计算机程序；

上述处理器，用于执行上述存储器存放的计算机程序时，实现如下步骤：

获取待训练广告推荐模型历史训练过程中的历史训练数据、待训练广告推荐模型及预设强化学习模型组成的级联模型，其中，上述广告推荐模型用于进行广告推荐，上述历史训练数据包括学习率参数集合、学习率调整系数集合、训练效果指标集合；

根据上述当前学习率参数、上述目标学习率调整系数、上述下一学习率参数，上述当前学习率的训练效果指标、下一学习率的训练效果指标设置预设变量；

根据上述预设变量，通过预设损失函数更新上述预设强化学习模型的参数；判断上述预设强化学习模型是否收敛，在上述预设强化学习模型收敛时，得到训练好的强化学习模型；

将上述待训练广告推荐模型的当前训练数据输入上述训练好的强化学习模型中，根据上述训练好的强化学习模型输出值的大小确定上述待训练广告推荐模型的最终学习率系数；

根据上述最终学习率调整系数确定上述待训练广告推荐模型的学习率，以完成上述待训练广告推荐模型的训练；

通过训练后的待训练广告推荐模型，进行广告推荐。

可选的，处理器，用于执行存储器上所存放的程序时，还可以实现上述任一广告推荐方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

图3是根据一示例性实施例示出的第一种电子设备的示意图，参见图3，例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在上述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。上述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与上述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如上述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，上述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例中任一上述的广告推荐方法。

图4是根据一示例性实施例示出的第二种电子设备的示意图。例如，电子设备900可以被提供为一服务器。参照图4，电子设备900包括处理组件922，其进一步包括一个或多个处理器，以及由存储器932所代表的存储器资源，用于存储可由处理组件922的执行的指令，例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件922被配置为执行指令，以执行上述实施例中任一上述的广告推荐方法。

电子设备900还可以包括一个电源组件926被配置为执行电子设备900的电源管理，一个有线或无线网络接口950被配置为将电子设备900连接到网络，和一个输入输出(I/O)接口958。电子设备900可以操作基于存储在存储器932的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似操作系统。

在本公开实施例中，还提供了一种存储介质，该存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一上述的广告推荐方法。在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。可选地，例如，存储介质可以是非临时性计算机可读存储介质，例如，上述存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一上述的广告推荐方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种广告推荐方法，其特征在于，包括：

从所述预设数据库中选取目标记录项；

如果所述待训练广告推荐模型训练结束，则变量等于所述目标记录的训练效果指标变化值，如果所述待训练广告推荐模型训练结束，则所述变量等于所述目标记录的训练效果指标变化值；

根据预设变量，通过预设损失函数更新所述预设强化学习模型的参数；判断所述预设强化学习模型是否收敛，在所述预设强化学习模型收敛时，得到训练好的强化学习模型；

通过训练后的待训练广告推荐模型，进行广告推荐；

所述获取当前学习率参数，目标学习率调整系数、下一学习率参数、当前学习率的训练效果指标、下一学习率的训练效果指标，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取当前学习率参数、目标学习率调整系数、下一学习率参数、当前学习率的训练效果指标、下一学习率的训练效果指标的步骤之前，所述方法还包括：将所述历史训练数据进行量化，得到量化样本数据。

3.根据权利要求2所述的方法，其特征在于，所述将所述历史训练数据进行量化，得到量化样本数据，包括：

所述马尔科夫决策过程的五元组，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述学习率参数集合包括，所述学习率参数包括：当前学习率，历史步骤学习率相对所述当前学习率的变化，预设次数的训练效果指标变化值，最后一次的训练效果指标，当前训练轮数和步数，所述步数占每一轮总步数的比值。

5.根据权利要求4所述的方法，其特征在于，所述强化学习模型包括两个不同网络参数的深度强化学习Double DQN网络。

6.根据权利要求5所述的方法，其特征在于，所述Double DQN网络包括动作-价值神经网络和目标动作-价值神经网。

7.根据权利要求1所述的方法，其特征在于，所述将所述待训练广告推荐模型的当前训练数据输入所述训练好的强化学习模型中，根据所述训练好的强化学习模型输出值的大小确定所述待训练广告推荐模型的最终学习率系数，包括：

获取所述待训练广告推荐模型的当前训练数据；

8.一种广告推荐装置，其特征在于，包括：

推荐模块，被配置为通过训练后的待训练广告推荐模型，进行广告推荐；

所述第二采集模块具体用于：

将所述下一学习率输入到所述待训练广告推荐模型中，基于所述下一学习率，通过预设广告推荐样本对所述待训练广告推荐模型进行训练，得到所述下一学习率的训练效果指标，并得到下一学习率参数；

所述设置模块具体用于：

从所述预设数据库中选取目标记录项；

根据所述目标记录项设置变量；

所述设置模块具体用于：

如果所述待训练广告推荐模型训练结束，则所述变量等于所述目标记录的训练效果指标变化值；

所述设置模块具体用于：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：量化模块，被配置为将所述历史训练数据进行量化，得到量化样本数据。

10.根据权利要求9所述的装置，其特征在于，所述量化模块具体用于：

所述马尔科夫决策过程的五元组，包括：

11.根据权利要求8-10任一所述的装置，其特征在于，所述学习率参数集合包括，所述学习率参数包括：当前学习率，历史步骤学习率相对所述当前学习率的变化，预设次数的训练效果指标变化值，最后一次的训练效果指标，当前训练轮数和步数，所述步数占每一轮总步数的比值。

12.根据权利要求11所述的装置，其特征在于，所述强化学习模型包括两个不同网络参数的深度强化学习Double DQN网络。

13.根据权利要求12所述的装置，其特征在于，所述Double DQN网络包括动作-价值神经网络和目标动作-价值神经网络。

14.根据权利要求8所述的装置，其特征在于，所述第一确定模块具体用于：

获取所述待训练广告推荐模型的当前训练数据；

15.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，

存储器，被配置为存放计算机程序；

处理器，被配置为执行存储器上所存放的程序时，实现权利要求1-7中任一项所述的广告推荐方法。

16.一种存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的广告推荐方法。