CN113641905B - 模型训练方法、信息推送方法、装置、设备及存储介质 - Google Patents
模型训练方法、信息推送方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113641905B CN113641905B CN202110938146.0A CN202110938146A CN113641905B CN 113641905 B CN113641905 B CN 113641905B CN 202110938146 A CN202110938146 A CN 202110938146A CN 113641905 B CN113641905 B CN 113641905B
- Authority
- CN
- China
- Prior art keywords
- gradient
- information
- pushed
- model
- adaptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 212
- 238000012549 training Methods 0.000 title claims abstract description 166
- 230000003044 adaptive effect Effects 0.000 claims abstract description 128
- 238000012804 iterative process Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims description 128
- 230000002787 reinforcement Effects 0.000 claims description 89
- 230000006870 function Effects 0.000 claims description 36
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 description 11
- 230000001174 ascending effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Feedback Control In General (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种模型训练方法、信息推送方法、装置、设备及存储介质。该模型训练方法包括:接收在预设时间段内各预设时刻下采集的训练样本;根据各训练样本确定与最小化点关联的第一梯度估计和与最大化点关联的第二梯度估计,并且获取与最小化点关联的第一学习率和第一自适应梯度、和与最大化点关联的第二学习率和第二自适应梯度;根据第一梯度估计、第一学习率和第一自适应梯度对与最小化点关联的第一参数进行梯度下降式的更新,并且根据第二梯度估计、第二学习率第二自适应梯度对与最大化点关联的第二参数进行梯度上升式的更新;在各次迭代过程结束后,得到信息推送模型。本发明实施例的技术方案,可以加快收敛速度且提高操作便捷性。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种模型训练方法、信息推送方法、装置、设备及存储介质。
背景技术
随着互联网的快速发展,各大应用程序(Application,APP)被相继开发。为了持续吸引并留住用户,很多APP会通过对某用户在APP中的操作信息进行分析的方式为该用户推送其可能会感兴趣的信息。
示例性的,以某用户操作过的新闻类型的APP为例,可以将该用户在该APP中的操作信息输入至已训练完成的用于确定该用户可能感兴趣的新闻信息的新闻信息推送模型中,并根据该新闻信息推送模型的输出结果确定为该用户推送什么样的新闻信息,该新闻信息推送模型可以是对原始强化学习模型(即未训练完成的强化学习模型)进行训练后得到的模型。
在实现本发明的过程中,发明人发现现有技术中存在以下技术问题:在对原始强化学习模型进行训练时存在收敛速率较慢和因为需要手动调整学习率而带来的操作繁琐的问题。
发明内容
本发明实施例提供了一种模型训练方法、信息推送方法、装置、设备及存储介质,解决了在对原始强化学习模型进行训练时存在的收敛速率较慢和因为需要手动调整学习率而带来的操作繁琐的问题。
第一方面,本发明实施例提供了一种模型训练方法,可以包括:
在对原始强化学习模型进行训练的当次迭代过程中,接收在预设时间段内各预设时刻下采集到的训练样本,其中每个训练样本包括样本对象在预设时刻下的操作信息、根据操作信息确定的已推送给样本对象的已推送信息、以及在推送已推送信息后得到的反馈信息;
根据各训练样本确定与最小化点关联的第一梯度估计以及与最大化点关联的第二梯度估计,并且获取与最小化点关联的第一学习率和第一自适应梯度、以及与最大化点关联的第二学习率和第二自适应梯度,其中,第一自适应梯度和第二自适应梯度是在上一次迭代过程中根据在上一次迭代过程中接收到的各训练样本更新得到的自适应梯度;
根据第一梯度估计、第一学习率以及第一自适应梯度,对与最小化点关联的第一参数进行梯度下降式的更新,并且根据第二梯度估计、第二学习率以及第二自适应梯度,对与最大化点关联的第二参数进行梯度上升式的更新;
在各次迭代过程结束后,得到信息推送模型。
第二方面,本发明实施例提供了一种信息推送方法,可以包括:
获取目标对象在目标时间段内各目标时刻下的操作信息、以及按照本发明任意实施例所提供的模型训练方法得到的已训练完成的信息推送模型;
将各操作信息输入至信息推送模型中,根据信息推送模型的输出结果确定出待推送给目标对象的待推送信息。
第三方面,本发明实施例还提供了一种模型训练装置,可以包括:
样本接收模块,用于在对原始强化学习模型进行训练的当次迭代过程中,接收在预设时间段内各预设时刻下采集到的训练样本,其中每个训练样本包括样本对象在预设时刻下的操作信息、根据操作信息确定的已推送给样本对象的已推送信息、以及在推送已推送信息后得到的反馈信息;
自适应梯度获取模块,用于根据各训练样本确定出与最小化点关联的第一梯度估计以及与最大化点关联的第二梯度估计,且获取与最小化点关联的第一学习率和第一自适应梯度、及与最大化点关联的第二学习率和第二自适应梯度,其中,第一自适应梯度和第二自适应梯度是在上一次迭代过程中根据在上一次迭代过程中接收到的各训练样本更新得到的自适应梯度;
参数更新模块,用于根据第一梯度估计、第一学习率和第一自适应梯度,对与最小化点关联的第一参数进行梯度下降式的更新,并且根据第二梯度估计、第二学习率以及第二自适应梯度,对与最大化点关联的第二参数进行梯度上升式的更新;
模型得到模块,用于在各次迭代过程结束后,得到信息推送模型。
第四方面,本发明实施例还提供了一种信息推送装置,可以包括:
模型获取模块,用于获取目标对象在目标时间段内的各目标时刻下的操作信息、以及按照本发明任意实施例所提供的模型训练方法得到的已训练完成的信息推送模型;
信息推送模块,用于将各操作信息输入至信息推送模型中,根据信息推送模型的输出结果确定出待推送给目标对象的待推送信息。
第五方面,本发明实施例还提供了一种电子设备,可以包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明任意实施例所提供的模型训练方法或是信息推送方法。
第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明任意实施例所提供的模型训练方法或是信息推送方法。
本发明实施例的技术方案,在模型训练的当次迭代过程中,原始强化学习模型根据接收到的在预设时间段内各预设时刻下采集到的训练样本,可以确定与最小化点关联的第一梯度估计和与最大化点关联的第二梯度估计,并且获取与最小化点关联的第一学习率和第一自适应梯度、以及与最大化点关联的第二学习率和第二自适应梯度,进而根据第一梯度估计、第一学习率和第一自适应梯度对与最小化点关联的第一参数进行梯度下降式的更新,并且根据第二梯度估计、第二学习和第二自适应梯度对与最大化点关联的第二参数进行梯度上升式的更新;然后,在各次迭代过程结束后,得到信息推送模型。上述技术方案,将自适应梯度与梯度上升下降结合,此时在模型训练开始前无需手动调整学习率,操作便捷性较好;而且,将自适应梯度应用到最大化最小化的损失函数的优化过程中,此时可以基于同一数量级上的学习率对两个参数进行同等效率的更新,由此保证了模型训练过程中的收率速度。
附图说明
图1是本发明实施例一中的一种模型训练方法的流程图;
图2是本发明实施例二中的一种模型训练方法的流程图;
图3是本发明实施例三中的一种模型训练方法的流程图;
图4是本发明实施例四中的一种信息推送方法的流程图;
图5是本发明实施例五中的一种模型训练装置的结构框图;
图6是本发明实施例六中的一种信息推送装置的结构框图;
图7是本发明实施例七中的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中提供的一种模型训练方法的流程图。本实施例可适用于对原始强化学习模型进行训练的情况,尤其适用于通过将自适应梯度与梯度上升下降、及最大化最小化相结合的方式对原始强化学习模型进行训练的情况。该方法可以由本发明实施例提供的模型训练装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在电子设备上,该电子设备可以是各种用户终端或服务器。
参见图1,本发明实施例的方法具体包括如下步骤:
S110、在对原始强化学习模型进行训练的当次迭代过程中,接收在预设时间段内各预设时刻下采集到的训练样本,其中每个训练样本包括样本对象在预设时刻下的操作信息、根据操作信息确定的已推送给样本对象的已推送信息、以及在推送已推送信息后得到的反馈信息。
其中,原始强化学习模型可以是未训练完成的强化学习模型(ReinforcementLearning,RL),其是与监督学习模型和非监督学习模型并列的三种机器学习模型中的一个。在实际应用中,可选的,原始强化学习模型可以包括基于策略的算法构建出的强化学习模型如策略梯度(Policy Gradient)模型等、基于值的算法构建出的强化学习模型如Q-Learning等、或是基于策略的算法和基于值的算法构建出的强化学习模型如演员评论家(Actor-Critic Algorithm)模型等,在此未做具体限定。其中演员评论家模型具有一个用于学习通过与环境的顺序交互来最大化长期预期回报的最佳策略参与者、以及用于学习近似评估策略性能的价值函数的评论家,其有效地结合了基于策略的算法和基于值的算法的优点,是比较成功的强化学习模型之一。
在对原始强化学习模型进行训练时可能涉及到多次迭代过程,以多次迭代过程中正在进行的当次迭代过程为例,在执行当次迭代过程时,原始强化学习模型可以接收到在预设时间段内各预设时刻下采集到的训练样本,即采集预设时间段内各预设时刻下的训练样本,并将各训练样本输入到原始强化学习模型中,以使原始强化学习模型接收到这些训练样本。由上可知,训练样本在每次迭代过程中是需要重新采集的,而且在一次迭代过程中采集到的各训练样本是预设时间段内连续的多个预设时刻下(即带有时间序列)的样本,这样的训练样本是可以适用于设置在原始强化学习模型中的损失函数的样本。
针对每个训练样本,其可以包括操作信息、已推送信息和反馈信息,其中操作信息可以是样本对象在预设时刻下已经操作过的信息或可进行操作的信息,示例性的,在信息推荐场景中,其可以是样本对象在预设时刻下已经点击过的链接信息(即已点击链接信息),在游戏人机对抗场景中,以纸牌游戏为例,其可以是样本对象在预设时刻下可打出的纸牌的信息;已推送信息可以是根据操作信息确定的已推送给样本对象的信息,示例性的,在信息推荐场景中,其可以是已经推送给样本对象的链接信息,在游戏人机对抗场景中,其可以是已推送给样本对象的纸牌的信息,以使样本对象根据该纸牌的信息打出这个纸牌;反馈信息可以是在将已推送信息推送给样本对象后得到的反馈信息,示例性的,在信息推荐场景中,其可以是与样本对象是否点击了推送出的链接信息有关的信息,在游戏人机对抗场景中,其可以是与样本对象在打出这个纸牌后,赢面更大还是输面更大有关的信息。在实际应用中,可选的,以在t时刻下采集到的训练样本为例,操作信息可以反映出样本对象在t时刻下的状态st,已推送信息可以反映出在t时刻下为样本对象采取的动作at,而反馈信息可以反映出在st下执行at后获得的奖励rt。在此基础上,可选的,训练样本还可以包括在执行上述一系列操作后得到的在t+1时刻下的状态st+1。
S120、根据各训练样本确定与最小化点关联的第一梯度估计以及与最大化点关联的第二梯度估计,并且获取与最小化点关联的第一学习率和第一自适应梯度、以及与最大化点关联的第二学习率和第二自适应梯度,其中第一自适应梯度和第二自适应梯度是在上一次迭代过程中根据在上一次迭代过程中接收到的各训练样本更新得到的自适应梯度。
其中,原始强化学习模型的训练过程可以归结为一个优化过程,具体来说可以是如何对设置在原始强化学习模型中的损失函数进行优化的过程。可选的,为了训练出信息推送精度较高的信息推送模型,可以将上述优化过程(或是说优化问题)等价为最大化最小化问题,由此在优化过程中涉及到了寻找最大化点和最小化点的过程。在对损失函数进行优化的过程中可能涉及到梯度估计、自适应梯度和学习率这三方面因素,当然,因为损失函数的优化过程同时涉及到最大化点的寻找过程和最小化点的寻找过程,因此这三方面因素在最大化点和最小化点的寻找过程中均有所体现,比如与最小化点关联的第一梯度估计、第一自适应梯度和第一学习率、以及与最大化点关联的第二梯度估计、第二自适应梯度和第二学习率。在此基础上,为了简化表述,后文将直接以梯度估计、自适应梯度和学习率进行阐述,但是本领域技术人员应当理解的是,它们在最大化点的寻找过程和最小化点的寻找过程中是有所区分的。
具体的,梯度估计可以是原始强化学习模型根据接收到的各训练样本计算得到的,或是说先将各训练样本输入到预先设置在原始强化学习模型中的损失函数中,然后对该损失函数进行求导后得到的。学习率可以是预先设置的用于表示参数更新的步长,实际应用中,可选的,在每次迭代过程中的学习率可以是同一数值;和/或第一学习率和第二学习率可以是同一数量级上的学习率,即可以基于一个学习时间尺度完成模型训练过程,由此有效保证了模型训练过程中的收敛速率;和/或,第一学习率和/或第二学习率可以是目标学习率范围内的学习率,目标学习率范围可以是根据损失函数的函数性质确定的与学习率有关的数值范围,该函数性质可以包括损失函数的光滑性和/或收敛性。自适应梯度可以是用于表示参数更新方向的梯度,该梯度可以是随机梯度、确定梯度(如批量梯度、小批量梯度)等,需要说明的是,一方面,自适应梯度的应用加快了模型收敛速度,由此降低了模型训练时间并且降低了样本数量,进而降低了样本复杂度;另一方面,自适应梯度可以是在上一次迭代过程中根据在上一次迭代过程中接收到的各训练样本更新得到的自适应梯度,即可以根据在上一次迭代过程中更新得到的自适应梯度进行当次迭代过程中的参数更新(S130执行的步骤),然后再在当次迭代过程中进行自适应梯度的更新。
在此基础上,可选的,有些原始强化学习模型中损失函数的优化过程可能是基于时间差分法(TD-learning)学习的极小化极大化的优化过程,为此可以基于原始对偶法获得与这样的优化过程等价的最小最大化问题,然后采用上述步骤中的自适应梯度完成参数更新。实际上,最小最大化模型是强化学习模型中的一种,各最小最大化模型的共性可以是都由原始对偶法推导而成的,因此最小最大化可以体现在强化学习模型的损失函数上。
S130、根据第一梯度估计、第一学习率以及第一自适应梯度,对与最小化点关联的第一参数进行梯度下降式的更新,并且根据第二梯度估计、第二学习率以及第二自适应梯度,对与最大化点关联的第二参数进行梯度上升式的更新。
其中,第一参数可以是损失函数中与最小化点关联的参数,第二参数可以是损失函数中与最大化点关联的参数,在对第一参数进行梯度下降(即减)式的更新的同时,对第二参数进行梯度上升(即加)式的更新,换言之,在一次迭代过程中可以同时实现两个参数的更新,而无需通过内外循环的方式(如以第一参数ω和第二参数z为例,在k=1时更新1次ω后更新多次z,k=2时更新1次ω后更新多次z,即给定一个最小化点,在此基础上找到精度足够高的最大化点,然后再找到精度更高的最小化点,在此基础上再找精度更高的最大化点,以此类推)实现两个参数的更新,由此保证了模型训练过程中的收敛速率。
在实际应用中,可选的,第一参数和第二参数可以是在当次迭代过程之前的某一次迭代过程中更新得到的参数,也可以是初始设置的参数,等等,在此未做具体限定。
S140、在各次迭代过程结束后,得到信息推送模型。
其中,在一次迭代过程中,原始强化学习模型的执行过程如上述3个步骤所示。当各次迭代过程结束后,模型训练完成,得到信息推送模型,此时可以输出训练完成的第一参数和第二参数,此时的二者可以是在最后一次迭代过程中更新得到的参数。需要说明的是,第一参数主要是应用在模型训练阶段中,通过第一参数的更新对损失函数造成影响,进而影响到损失函数中的第二参数;第二参数可以应用在模型应用阶段中,这是因为第二参数可以包括与强化学习策略关联的用于对强化学习策略进行参数化的策略参数,其中,强化学习策略是确定已推送信息的重要因素之一,而且强化学习模型的最终目标也是学习到一个比较好的强化学习策略。
下面将从不同方面具体阐述上述各步骤相互配合后带来的技术效果:
第一,如果在模型训练过程中单纯的应用梯度上升、梯度下降或梯度上升下降,那么需要手动调整学习率。上述步骤将自适应梯度与梯度上升下降结合,由此在模型训练开始前无需手动调整学习率或在迭代过程中更新学习率,只需在模型训练开始前将学习率设置在可收敛的目标学习率范围内即可,由此解决了因为需要手动调整学习率而带来的操作繁琐的问题。
第二,损失函数的优化过程同时涉及到最大化点的寻找过程和最小化点的寻找过程,在未采用自适应梯度时,需要基于两个学习时间尺度进行参数更新。由于学习时间尺度可以表示出两个学习率之间的数量级,因此在未采用自适应梯度时需要设置两个学习率中一个显著快于另一个,然后通过内外循环的方式进行参数更新,此时的收敛效率是难以保证的。然而,上述步骤将自适应梯度应用到最大化最小化的损失函数中,此时只需一个学习时间尺度进行参数更新。一个学习时间尺度意味着两个学习率的数量级是一致的,由此两个参数可以在同等效率更新时也可以收敛,由此保证了模型训练过程中的收敛速率。而且,自适应梯度因为自身的下降方式达到了降低样本复杂度和模型训练时间的效果。
在此基础上,经实验验证,在采用上述步骤进行模型训练时,在Markovian采样下能够达到的收敛速度,其中O是收敛速度,N是总迭代次数,d是梯度的维数,G是梯度的元素最大值。这意味着上述模型训练方法几乎可达到最优的收敛速度O(ε-2),即在N次迭代后能够收敛到ε-2的精度,其中ε是误差。同时,因上述模型训练方法不依赖于局部凸化技术,其计算成本被大大降低。
第三,上述模型训练方法可以只需要一个恒定的批量处理大小M(batch),即在每次迭代过程中采集得到的训练样本的样本数量均可以是M,其不会随着时间的推移而增加,而且可以独立于数N和ε,由此在对原始强化学习模型进行训练无需确定ε(在实际应用中是很难确定一个准确的ε的),而且可以被应用在计算资源受限的情况下,实际应用价值较高。需要说明的是,M的具体取值通常不会影响到最后找到的最大化点和最小化点的质量,只是会影响寻找速度。
本发明实施例的技术方案,在模型训练的当次迭代过程中,原始强化学习模型根据接收到的在预设时间段内各预设时刻下采集到的训练样本,可以确定与最小化点关联的第一梯度估计和与最大化点关联的第二梯度估计,并且获取与最小化点关联的第一学习率和第一自适应梯度、以及与最大化点关联的第二学习率和第二自适应梯度,进而根据第一梯度估计、第一学习率和第一自适应梯度对与最小化点关联的第一参数进行梯度下降式的更新,并且根据第二梯度估计、第二学习和第二自适应梯度对与最大化点关联的第二参数进行梯度上升式的更新;然后,在各次迭代过程结束后,得到信息推送模型。上述技术方案,将自适应梯度与梯度上升下降结合,此时在模型训练开始前无需手动调整学习率,操作便捷性较好;而且,将自适应梯度应用到最大化最小化的损失函数的优化过程中,此时可以基于同一数量级上的学习率对两个参数进行同等效率的更新,由此保证了模型训练过程中的收率速度。
一种可选的技术方案,在对与最大化点关联的第二参数进行梯度上升式的更新之后,上述模型训练方法,还可包括:根据在当次迭代过程和在当次迭代过程之前的各次迭代过程中确定出的第一梯度估计间的拼接结果对第一自适应梯度进行更新,并且根据在当次迭代过程和在当次迭代过程之前的各次迭代过程中确定出的第二梯度估计间的拼接结果对第二自适应梯度进行更新。其中,限定了自适应梯度的更新过程。其中,以首次迭代过程到当次迭代过程中分别计算出的梯度估计为参考依据,根据各梯度估计的拼接结果确定自适应梯度,即在当次迭代过程中进行自适应梯度更新时,同时参考了历史梯度估计(即在当次迭代过程之前的各次迭代过程中确定出的梯度估计)和当前梯度估计(即在当次迭代过程中确定出的梯度估计),由此可以防止出现因为梯度陡然过大的下降或是上升而带来的模型不稳定(如无法收敛、收敛过慢)的情况。即,在进行自适应梯度更新时参考了历史梯度估计,进而在基于这样得到的自适应梯度进行参数更新时,可以保证模型能够更快的收敛。
实施例二
图2是本发明实施例二中提供的一种模型训练方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,根据第一梯度估计、第一学习率以及第一自适应梯度,对与最小化点关联的第一参数进行梯度下降式的更新,且根据第二梯度估计、第二学习率以及第二自适应梯度,对与最大化点关联的第二参数进行梯度上升式的更新,可以包括:根据第一梯度估计、第一学习率和第一自适应梯度,对与最小化点关联的在上一次迭代过程中更新后得到的第一参数进行梯度下降式的更新,并且根据第二梯度估计、第二学习率以及第二自适应梯度,对与最大化点关联的在上一次迭代过程中更新后得到的第二参数进行梯度上升式的更新。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图2,本实施例的方法具体可以包括如下步骤:
S210、在对原始强化学习模型进行训练的当次迭代过程中,接收在预设时间段内各预设时刻下采集到的训练样本,其中每个训练样本包括样本对象在预设时刻下的操作信息、根据操作信息确定的已推送给样本对象的已推送信息、以及在推送已推送信息后得到的反馈信息。
S220、根据各训练样本确定与最小化点关联的第一梯度估计以及与最大化点关联的第二梯度估计,并且获取与最小化点关联的第一学习率和第一自适应梯度、以及与最大化点关联的第二学习率和第二自适应梯度,其中第一自适应梯度和第二自适应梯度是在上一次迭代过程中根据在上一次迭代过程中接收到的各训练样本更新得到的自适应梯度。
S230、根据第一梯度估计、第一学习率以及第一自适应梯度,对与最小化点关联的在上一次迭代过程中更新后得到的第一参数进行梯度下降式的更新,并且根据第二梯度估计、第二学习率以及第二自适应梯度,对与最大化点关联的在上一次迭代过程中更新后得到的第二参数进行梯度上升式的更新。
其中,在当次迭代过程中待进行更新的参数是在上一次迭代过程中更新后得到的参数,即每次迭代过程均是对上一次迭代过程中更新后得到的参数进行再次更新,由此,随着迭代次数的增加,更新后得到的参数可以让最大化点和最小化点的精度越来越高。
在此基础上,可选的,通过如下公式实现第一参数和第二参数的更新过程:
其中,ωk是当次迭代过程中更新后得到的第一参数,ωk-1是第一参数,ηω是第一学习率,I是在首次迭代过程中的第一自适应梯度或第二自适应梯度,是第一自适应梯度,是第一梯度估计;zk是当次迭代过程中更新后得到的第二参数,zk-1是第二参数,ηz是第二学习率,是第二自适应梯度,且是第二梯度估计。上述公式可以反映出自适应梯度和梯度上升下降的结合过程,其中的减号“-”表示梯度下降式的更新,加号“+”表示梯度上升式的更新。
S240、在各次迭代过程结束后,得到信息推送模型。
本发明实施例的技术方案,在当次迭代过程中,通过对上一次迭代过程中更新后得到的参数进行再次更新,由此随着迭代次数的增加,基于更新后得到的参数达到了让最大化点和最小化点的精度越来越高的效果。
实施例三
图3是本发明实施例三中提供的一种模型训练方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,预设时刻下的训练样本通过如下步骤采集得到:获取样本对象在预设时刻下的操作信息;基于在上一次迭代过程中更新得到的第二参数中与强化学习策略关联的策略参数对强化学习策略进行参数化,并基于参数化后的强化学习策略和操作信息确定出待推送给样本对象的已推送信息;将已推送信息推送给样本对象,得到样本对象在接收到已推送信息后给出的反馈信息;将操作信息、已推送信息和反馈信息作为在预设时刻下采集到的训练样本。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图3,本实施例的方法具体可以包括如下步骤:
S310、在对原始强化学习模型进行训练的当次迭代过程中,获取样本对象在预设时刻下的操作信息;基于在上一次迭代过程中更新得到的第二参数中与强化学习策略关联的策略参数对强化学习策略进行参数化,并基于参数化后的强化学习策略和操作信息确定待推送给样本对象的已推送信息;将已推送信息推送给样本对象,得到样本对象在接收到已推送信息后给出的反馈信息。
其中,原始强化学习模型的一个重要的训练目标是学习到一个较好的强化学习策略,即强化学习策略在模型训练过程中也是在不断得到更新的,其更新过程可以是基于上一次迭代过程中更新得到的第二参数中与强化学习策略关联的策略参数对上一次迭代过程中更新得到的强化学习策略进行参数化,参数化后的强化学习策略即为在当次迭代过程中更新后的强化学习策略,其和在当次迭代过程中采集到的操作信息相结合,可以确定向样本对象推送什么样的信息,即基于更新后的强化学习策略确定为处在这一状态下的样本对象采取什么样的动作。
S320、将操作信息、已推送信息和反馈信息作为在预设时刻下采集得到的训练样本,并将在预设时间段内各预设时刻下采集得到的训练样本输入至原始强化学习模型中,以使原始强化学习模型执行S330-S340。
S330、根据各训练样本确定与最小化点关联的第一梯度估计以及与最大化点关联的第二梯度估计,并且获取与最小化点关联的第一学习率和第一自适应梯度、以及与最大化点关联的第二学习率和第二自适应梯度,其中第一自适应梯度和第二自适应梯度是在上一次迭代过程中根据在上一次迭代过程中接收到的各训练样本更新得到的自适应梯度。
S340、根据第一梯度估计、第一学习率以及第一自适应梯度,对与最小化点关联的第一参数进行梯度下降式的更新,并且根据第二梯度估计、第二学习率以及第二自适应梯度,对与最大化点关联的第二参数进行梯度上升式的更新。
S350、在各次迭代过程结束后,得到信息推送模型。
本发明实施例的技术方案,在获取到样本对象在预设时刻下的操作信息后,可以基于在上一次迭代过程中更新得到的第二参数中的与强化学习策略关联的策略参数对强化学习策略进行参数化,然后基于参数化后的强化学习策略确定为具有这样的操作信息的样本对象推送什么样的已推送信息,由此,随着迭代次数的增加,已推送信息的确定精度也是随之提高。
一种可选的技术方案,结合到信息推荐场景中,上述S310可以包括:在对原始强化学习模型进行训练的当次迭代过程中,获取样本对象在预设时刻下已点击链接信息,并根据已点击链接信息确定样本对象在预设时刻下的兴趣信息;基于在上一次迭代过程中更新得到的第二参数中与强化学习策略关联的策略参数对强化学习策略进行参数化,并基于参数化后的强化学习策略以及兴趣信息确定待推送给样本对象的已推送链接信息;将已推送链接信息推送给样本对象,根据样本对象是否对接收到的已推送链接信息进行点击操作得到链接点击信息;将兴趣信息、已推送链接信息和链接点击信息作为在预设时刻下采集到的训练样本。其中,已点击链接信息可以是样本对象在预设时刻下已经点击过的链接信息,由于样本对象的兴趣信息可能随时发生变化,因此可以根据已点击链接信息确定样本对象在预设时刻下的兴趣信息。已推送链接信息可以是根据参数化后的强化学习策略和兴趣信息确定出的样本对象可能会因为感兴趣而点击的链接信息,其是根据实时的兴趣信息和强化学习策略确定的。在实际应用中,可选的,可以根据获取到的链接点击信息确定链接点击率,并且将链接点击率设置为奖励函数(比如点击则为1,未点击则为0),由此在将这样的训练样本输入到原始强化学习模型中进行模型训练时,可以在给定的预设时间段内最大化值函数,这意味着目标是最大化链接点击率,由此可以对于值函数进行拟合,极大降低训练时间并且优化到最优点,这对于要求算力较高的信息推荐系统在性能上是一个较好的提高。
为了更好地理解上述步骤的具体实现过程,下面结合具体示例,对上述各实施例的模型训练方法进行示例性的说明。示例性的,以原始强化学习模型是自适应性随机梯度下降上升演员-评论家模型为例,其训练过程如下述7个步骤:
步骤1:在实际应用中是对参数u和θ分别进行更新,这里为了简化表述,将u和θ组合为z,其中z是第二参数,u是z中的用于参数化动作的动作参数,θ是上文中提及到的策略参数。在此基础上,ηω是第一学习率,ηu和ηθ(即ηz)是第二学习率。
步骤2:开始迭代过程,k表示当前正在进行的当次迭代过程是第几次
步骤3:执行参数化的策略,获得一组训练样本st,at,rt,st+1的含义均已在上文中阐述,在此不再赘述。这组训练样本中包括M个训练样本。在实际应用中,可选的,值函数可以被ω参数化,ω可以表示拟合值函数的网络参数,开始采样的起点函数α被u参数化。
步骤4:基于损失函数L和各训练样本τk获得第一梯度估计和第二梯度估计其中是第一参数的估计值,是第二参数的估计值。需要说明的是,在采用不同的原始强化学习模型时,损失函数本身可能存在差异,但是梯度估计的计算方案是相同的,只是在一些计算细节上可能存在差异。
步骤5:利用梯度估计、自适应梯度和学习率完成参数更新,其中是在上一次迭代过程(即第k-1次迭代过程)中计算出的第一梯度估计,是在上一次迭代过程计算出的第二梯度估计。
步骤6:利用历史梯度估计和当前梯度估计更新自适应性梯度
步骤7:将最后一次迭代过程(即第N次迭代过程)中更新后得到的参数ωN,zN进行输出。
经实验验证,当为时,上述示例的收敛效率为
其中d为梯度的维数,N为总迭代次数,ξ,ρ为强化学习马尔科夫链的收敛速度常数,标注为D的皆为常数,G是梯度中单独元素可取的最大值,μ为问题所符合的PL不等式常数(符合PL不等式属于本示例对于问题的假设的一部分),β和C是预先设置的常数。
实施例四
图4是本发明实施例四中提供的一种信息推送方法的流程图。本实施例可适用于信息推送情况,尤其适用于基于通过将自适应梯度与梯度上升下降、及最大化最小化结合的方式对原始强化学习模型进行训练后得到的信息推送模型进行信息推送的情况。该方法可以由本发明实施例提供的信息推送装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在电子设备,该电子设备可以是各种用户终端或服务器。
参见图4,本发明实施例的方法具体包括如下步骤:
S410、获取目标对象在目标时间段内各目标时刻下的操作信息、以及按照本发明任意实施例所提供的模型训练方法得到的已训练完成的信息推送模型。
S420、将各操作信息输入至信息推送模型中,并根据信息推送模型的输出结果确定出待推送给目标对象的待推送信息。
示例性的,在信息推荐场景中,将目标对象在各目标时刻下的已点击链接信息输入至信息推送模型中,并根据该信息推送模型的输出结果确定待推送给目标对象的待推送链接信息;再示例性的,游戏人机对抗场景中,将目标对象在各目标时刻下可以打出的纸牌的信息(即已具有纸牌信息)输入至信息推送模型中,并根据信息推送模型的输出结果确定待推送给目标对象的待推送纸牌信息(即目标对象需要打出的纸牌的信息)。
本发明实施例的技术方案,通过将获取得到的目标对象在目标时间段内各目标时刻下的操作信息输入至信息推送模型中,然后根据信息推送模型的输出结果确定出待推送给目标对象的待推送信息,由此达到了信息准确推送的效果。
实施例五
图5为本发明实施例五提供的模型训练装置的结构框图,该装置用于执行上述任意实施例所提供的模型训练方法。该装置与上述各实施例的模型训练方法属于同一个发明构思,在模型训练装置的实施例中未详尽描述的细节内容,可以参考上述模型训练方法的实施例。参见图5,该装置具体可以包括:样本接收模块510、自适应梯度获取模块520、参数更新模块530和模型得到模块540。其中,
样本接收模块510,用于对原始强化学习模型进行训练的当次迭代过程中,接收在预设时间段内各预设时刻下采集到的训练样本,其中每个训练样本包括样本对象在预设时刻下的操作信息、根据操作信息确定的已推送给样本对象的已推送信息、以及在推送已推送信息后得到的反馈信息;
自适应梯度获取模块520,用于根据各训练样本确定出与最小化点关联的第一梯度估计以及与最大化点关联的第二梯度估计,并且获取与最小化点关联的第一学习率和第一自适应梯度、以及与最大化点关联的第二学习率和第二自适应梯度,其中第一自适应梯度和第二自适应梯度是在上一次迭代过程中根据在上一次迭代过程中接收到的各训练样本更新得到的自适应梯度;
参数更新模块530,用于根据第一梯度估计、第一学习率以及第一自适应梯度,对与最小化点关联的第一参数进行梯度下降式的更新,且根据第二梯度估计、第二学习率和第二自适应梯度,对与最大化点关联的第二参数进行梯度上升式的更新;
模型得到模块540,用于在各次迭代过程结束后,得到信息推送模型。
在此基础上,可选的,参数更新模块530,可以包括:
参数更新单元,用于根据第一梯度估计、第一学习率以及第一自适应梯度,对与最小化点关联的在上一次迭代过程中更新后得到的第一参数进行梯度下降式的更新,且根据第二梯度估计、第二学习率以及第二自适应梯度,对与最大化点关联的在上一次迭代过程中更新后得到的第二参数进行梯度上升式的更新。
在此基础上,可选的,参数更新单元,具体可以用于:
通过如下公式实现第一参数和第二参数的更新过程:
其中,ωk是当次迭代过程中更新后得到的第一参数,ωk-1是第一参数,ηω是第一学习率,I是在首次迭代过程中的第一自适应梯度或第二自适应梯度,是第一自适应梯度,是第一梯度估计;zk是当次迭代过程中更新后得到的第二参数,zk-1是第二参数,ηz是第二学习率,是第二自适应梯度,且是第二梯度估计。
可选的,上述模型训练装置,还可以包括:
自适应梯度更新模块,用于在对与最大化点关联的第二参数进行梯度上升式的更新之后,根据在当次迭代过程和在当次迭代过程之前的各次迭代过程中确定出的第一梯度估计间的拼接结果对第一自适应梯度进行更新,并且根据在当次迭代过程和在当次迭代过程之前的各次迭代过程中确定出的第二梯度估计间的拼接结果对第二自适应梯度进行更新。
可选的,上述模型训练装置,还可以包括:
操作信息获取模块,用于获取样本对象在预设时刻下的操作信息;
已推送信息确定模块,用于基于在上一次迭代过程中更新得到的第二参数中与强化学习策略关联的策略参数对强化学习策略进行参数化,并基于参数化后的强化学习策略和操作信息确定出待推送给样本对象的已推送信息;
反馈信息得到模块,用于将已推送信息推送给样本对象,得到样本对象在接收到已推送信息后给出的反馈信息;
训练样本得到模块,用于将操作信息、已推送信息和反馈信息作为在预设时刻下采集到的训练样本。
在此基础上,可选的,操作信息获取模块,可用于:获取样本对象在预设时刻下的已点击链接信息,根据已点击链接信息确定样本对象在预设时刻下的兴趣信息;
已推送信息确定模块,可包括:已推送链接信息确定单元,用于基于参数化后的强化学习策略以及兴趣信息确定出待推送给样本对象的已推送链接信息;
反馈信息得到模块,可用于:将已推送链接信息推送给样本对象,并根据样本对象是否对接收到的已推送链接信息进行点击操作得到链接点击信息;
训练样本得到模块,可以用于:将兴趣信息、已推送链接信息和链接点击信息作为在预设时刻下采集到的训练样本。
可选的,在各次迭代过程中采集到的训练样本的样本数量均是预先设置的批量处理大小;和/或,
第一学习率和第二学习率是同一数量级上的学习率;和/或,
第一学习率和/或第二学习率是目标学习率范围内的学习率,目标学习率范围是根据预先设置在原始强化学习模型中的损失函数的函数性质确定的与学习率有关的数值范围,函数性质包括损失函数的光滑性和/或收敛性;
原始强化学习模型包括未训练完成的基于策略的算法和基于值的算法构建出的强化学习模型。
本发明实施例五所提供的模型训练装置,通过样本接收模块、自适应梯度获取模块和参数更新模块相互配合,在模型训练的当次迭代过程中,原始强化学习模型根据接收到的在预设时间段内各预设时刻下采集到的训练样本,可以确定与最小化点关联的第一梯度估计和与最大化点关联的第二梯度估计,并且获取与最小化点关联的第一学习率和第一自适应梯度、以及与最大化点关联的第二学习率和第二自适应梯度,进而根据第一梯度估计、第一学习率和第一自适应梯度对与最小化点关联的第一参数进行梯度下降式的更新,并且根据第二梯度估计、第二学习和第二自适应梯度对与最大化点关联的第二参数进行梯度上升式的更新;然后,通过模型得到模块在各次迭代过程结束之后,得到信息推送模型。上述装置,将自适应梯度与梯度上升下降相结合,此时在模型训练开始前无需手动调整学习率,操作便捷性较好;而且,其将自适应梯度应用到最大化最小化的损失函数的优化过程中,此时可以基于同一数量级上的学习率对两个参数进行同等效率的更新,由此保证了模型训练过程中的收率速度。
本发明实施例所提供的模型训练装置可执行本发明任意实施例所提供的模型训练方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述模型训练装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例六
图6为本发明实施例六提供的信息推送装置的结构框图,该装置用于执行上述任意实施例所提供的信息推送方法。该装置与上述各实施例的信息推送方法属于同一个发明构思,在信息推送装置的实施例中未详尽描述的细节内容,可以参考上述信息推送方法的实施例。参见图6,该装置具体可以包括:模型获取模块610和信息推送模块620。
其中,模型获取模块610,用于获取目标对象在目标时间段内的各目标时刻下的操作信息、以及按照本发明任意实施例所提供的模型训练方法得到的已训练完成的信息推送模型;
信息推送模块620,用于将各操作信息输入至信息推送模型中,根据信息推送模型的输出结果确定出待推送给目标对象的待推送信息。
本发明实施例六提供的信息推送装置,通过模型获取模块和信息推送模块相互配合,将获取到的目标对象在目标时间段内各目标时刻下的操作信息输入至信息推送模型中,并根据信息推送模型的输出结果确定出待推送给目标对象的待推送信息。上述装置,达到了信息准确推送的效果。
本发明实施例所提供的信息推送装置可执行本发明任意实施例所提供的信息推送方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述信息推送装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例七
图7为本发明实施例七提供的一种电子设备的结构示意图,如图7所示,该电子设备包括存储器710、处理器720、输入装置730和输出装置740。电子设备中的处理器720的数量可以是一个或多个,图7中以一个处理器720为例;电子设备中的存储器710、处理器720、输入装置730和输出装置740可以通过总线或其它方式连接,图7中以通过总线750连接为例。
存储器710作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的模型训练方法对应的程序指令/模块(例如,模型训练装置中的样本接收模块510、自适应梯度获取模块520、参数更新模块530和模型得到模块540)、或是本发明实施例中的信息推送方法对应的程序指令/模块(例如,信息推送装置中的模型获取模块610和信息推送模块620)。处理器720通过运行存储在存储器710中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的模型训练方法或是信息推送方法。
存储器710可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器710可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器710可进一步包括相对于处理器720远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可用于接收输入的数字或字符信息,以及产生与装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
实施例八
本发明实施例八提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种模型训练方法,该方法包括:
在对原始强化学习模型进行训练的当次迭代过程中,接收在预设时间段内各预设时刻下采集到的训练样本,其中每个训练样本包括样本对象在预设时刻下的操作信息、根据操作信息确定的已推送给样本对象的已推送信息、以及在推送已推送信息后得到的反馈信息;
根据各训练样本确定与最小化点关联的第一梯度估计以及与最大化点关联的第二梯度估计,并且获取与最小化点关联的第一学习率和第一自适应梯度、以及与最大化点关联的第二学习率和第二自适应梯度,其中,第一自适应梯度和第二自适应梯度是在上一次迭代过程中根据在上一次迭代过程中接收到的各训练样本更新得到的自适应梯度;
根据第一梯度估计、第一学习率以及第一自适应梯度,对与最小化点关联的第一参数进行梯度下降式的更新,并且根据第二梯度估计、第二学习率以及第二自适应梯度,对与最大化点关联的第二参数进行梯度上升式的更新;
在各次迭代过程结束后,得到信息推送模型。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的模型训练方法中的相关操作。
实施例九
本发明实施例九提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种信息推送方法,该方法包括:
获取目标对象在目标时间段内各目标时刻下的操作信息、以及按照本发明任意实施例所提供的模型训练方法得到的已训练完成的信息推送模型;
将各操作信息输入至信息推送模型中,根据信息推送模型的输出结果确定出待推送给目标对象的待推送信息。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的信息推送方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。依据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (12)
1.一种模型训练方法,其特征在于,包括:
在对原始强化学习模型进行训练的当次迭代过程中,接收在预设时间段内各预设时刻下采集到的训练样本,其中每个所述训练样本包括样本对象在所述预设时刻下的操作信息、根据所述操作信息确定的已推送给所述样本对象的已推送信息、以及在推送所述已推送信息后得到的反馈信息;
根据各所述训练样本确定与最小化点关联的第一梯度估计以及与最大化点关联的第二梯度估计,并且获取与所述最小化点关联的第一学习率和第一自适应梯度、以及与所述最大化点关联的第二学习率和第二自适应梯度,其中所述第一自适应梯度和所述第二自适应梯度是在上一次所述迭代过程中根据所述在上一次所述迭代过程中接收到的各所述训练样本更新得到的自适应梯度;
根据所述第一梯度估计、所述第一学习率以及所述第一自适应梯度,对与所述最小化点关联的第一参数进行梯度下降式的更新,并且根据所述第二梯度估计、所述第二学习率以及所述第二自适应梯度,对与所述最大化点关联的第二参数进行梯度上升式的更新;
在各次所述迭代过程结束后,得到信息推送模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一梯度估计、所述第一学习率以及所述第一自适应梯度,对与所述最小化点关联的第一参数进行梯度下降式的更新,且根据所述第二梯度估计、所述第二学习率以及所述第二自适应梯度,对与所述最大化点关联的第二参数进行梯度上升式的更新,包括:
根据所述第一梯度估计、所述第一学习率以及所述第一自适应梯度,对与所述最小化点关联的在上一次所述迭代过程中更新后得到的第一参数进行梯度下降式的更新,并且根据所述第二梯度估计、所述第二学习率以及所述第二自适应梯度,对与所述最大化点关联的在所述上一次所述迭代过程中更新后得到的第二参数进行梯度上升式的更新。
3.根据权利要求2所述的方法,其特征在于,通过如下公式实现所述第一参数和所述第二参数的更新过程:
其中,ωk是当次所述迭代过程中更新后得到的所述第一参数,ωk-1是所述第一参数,ηω是所述第一学习率,I是在首次所述迭代过程中的所述第一自适应梯度或所述第二自适应梯度,是所述第一自适应梯度,是所述第一梯度估计;zk是当次所述迭代过程中更新后得到的所述第二参数,zk-1是所述第二参数,ηz是所述第二学习率,是所述第二自适应梯度,且是所述第二梯度估计。
4.根据权利要求1所述的方法,其特征在于,在所述对与所述最大化点关联的第二参数进行梯度上升式的更新之后,还包括:
根据在当次所述迭代过程和在当次所述迭代过程之前的各次所述迭代过程中确定出的所述第一梯度估计间的拼接结果对所述第一自适应梯度进行更新,并且根据在当次所述迭代过程和在当次所述迭代过程之前的各次所述迭代过程中确定出的所述第二梯度估计间的拼接结果对所述第二自适应梯度进行更新。
5.根据权利要求1所述的方法,其特征在于,所述预设时刻下的所述训练样本通过如下步骤采集得到:
获取所述样本对象在所述预设时刻下的所述操作信息;
基于在上一次所述迭代过程中更新得到的所述第二参数中与强化学习策略关联的策略参数对所述强化学习策略进行参数化,并基于参数化后的所述强化学习策略和所述操作信息确定出待推送给所述样本对象的所述已推送信息;
将所述已推送信息推送给所述样本对象,得到所述样本对象在接收到所述已推送信息后给出的所述反馈信息;
将所述操作信息、所述已推送信息和所述反馈信息作为在所述预设时刻下采集到的所述训练样本。
6.根据权利要求5所述的方法,其特征在于,所述获取所述样本对象在所述预设时刻下的所述操作信息,包括:获取所述样本对象在所述预设时刻下的已点击链接信息,根据所述已点击链接信息确定所述样本对象在所述预设时刻下的兴趣信息;
所述基于参数化后的所述强化学习策略和所述操作信息确定出待推送给所述样本对象的所述已推送信息,包括:基于参数化后的所述强化学习策略以及所述兴趣信息确定出待推送给所述样本对象的已推送链接信息;
所述将所述已推送信息推送给所述样本对象,得到所述样本对象在接收到所述已推送信息后给出的所述反馈信息,包括:将所述已推送链接信息推送给所述样本对象,并根据所述样本对象是否对接收到的所述已推送链接信息进行点击操作得到链接点击信息;
所述将所述操作信息、所述已推送信息和所述反馈信息作为在所述预设时刻下采集到的所述训练样本,包括:将所述兴趣信息、所述已推送链接信息和所述链接点击信息作为在所述预设时刻下采集到的所述训练样本。
7.根据权利要求1所述的方法,其特征在于,在各次所述迭代过程中采集到的所述训练样本的样本数量均是预先设置的批量处理大小;和/或,
所述第一学习率和所述第二学习率是同一数量级上的学习率;和/或,
所述第一学习率和/或所述第二学习率是目标学习率范围内的学习率,所述目标学习率范围是根据预先设置在所述原始强化学习模型中的损失函数的函数性质确定的与所述学习率有关的数值范围,所述函数性质包括所述损失函数的光滑性和/或收敛性;
所述原始强化学习模型包括未训练完成的基于策略的算法和基于值的算法构建出的强化学习模型。
8.一种信息推送方法,其特征在于,包括:
获取目标对象在目标时间段内各目标时刻下的操作信息、及按照权利要求1-7中任一项的方法得到的已训练完成的信息推送模型;
将各所述操作信息输入至所述信息推送模型中,并根据所述信息推送模型的输出结果确定出待推送给所述目标对象的待推送信息。
9.一种模型训练装置,其特征在于,包括:
样本接收模块,用于在对原始强化学习模型进行训练的当次迭代过程中,接收在预设时间段内各预设时刻下采集到的训练样本,其中每个所述训练样本包括样本对象在所述预设时刻下的操作信息、根据所述操作信息确定的已推送给所述样本对象的已推送信息、以及在推送所述已推送信息后得到的反馈信息;
自适应梯度获取模块,用于根据各所述训练样本确定出与最小化点关联的第一梯度估计以及与最大化点关联的第二梯度估计,并且获取与所述最小化点关联的第一学习率和第一自适应梯度、以及与所述最大化点关联的第二学习率和第二自适应梯度,其中所述第一自适应梯度和所述第二自适应梯度是在上一次所述迭代过程中根据所述在上一次所述迭代过程中接收到的各所述训练样本更新得到的自适应梯度;
参数更新模块,用于根据所述第一梯度估计、所述第一学习率和所述第一自适应梯度,对与所述最小化点关联的第一参数进行梯度下降式的更新,并且根据所述第二梯度估计、所述第二学习率以及所述第二自适应梯度,对与所述最大化点关联的第二参数进行梯度上升式的更新;
模型得到模块,用于在各次所述迭代过程结束后,得到信息推送模型。
10.一种信息推送装置,其特征在于,包括:
模型获取模块,用于获取目标对象在目标时间段内的各目标时刻下的操作信息、及按照权利要求1-7中任一项的方法得到的已训练完成的信息推送模型;
信息推送模块,用于将各所述操作信息输入至所述信息推送模型中,根据所述信息推送模型的输出结果确定出待推送给所述目标对象的待推送信息。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的模型训练方法、或者如权利要求8中所述的信息推送方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的模型训练方法、或者如权利要求8中所述的信息推送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110938146.0A CN113641905B (zh) | 2021-08-16 | 2021-08-16 | 模型训练方法、信息推送方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110938146.0A CN113641905B (zh) | 2021-08-16 | 2021-08-16 | 模型训练方法、信息推送方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113641905A CN113641905A (zh) | 2021-11-12 |
CN113641905B true CN113641905B (zh) | 2023-10-03 |
Family
ID=78422079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110938146.0A Active CN113641905B (zh) | 2021-08-16 | 2021-08-16 | 模型训练方法、信息推送方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641905B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109799533A (zh) * | 2018-12-28 | 2019-05-24 | 中国石油化工股份有限公司 | 一种基于双向循环神经网络的储层预测方法 |
WO2019235551A1 (en) * | 2018-06-05 | 2019-12-12 | Okinawa Institute Of Science And Technology School Corporation | Total stochastic gradient estimation method, device and computer program |
CN112052958A (zh) * | 2020-09-04 | 2020-12-08 | 京东数字科技控股股份有限公司 | 模型训练的方法、装置、设备及计算机可读存储介质 |
CN112717415A (zh) * | 2021-01-22 | 2021-04-30 | 上海交通大学 | 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法 |
CN113033098A (zh) * | 2021-03-26 | 2021-06-25 | 山东科技大学 | 一种基于AdaRW算法的海洋目标检测深度学习模型训练方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11922323B2 (en) * | 2019-01-17 | 2024-03-05 | Salesforce, Inc. | Meta-reinforcement learning gradient estimation with variance reduction |
CN114207626A (zh) * | 2019-08-02 | 2022-03-18 | 谷歌有限责任公司 | 用于学习迁移学习的框架 |
US11615293B2 (en) * | 2019-09-23 | 2023-03-28 | Adobe Inc. | Reinforcement learning with a stochastic action set |
-
2021
- 2021-08-16 CN CN202110938146.0A patent/CN113641905B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019235551A1 (en) * | 2018-06-05 | 2019-12-12 | Okinawa Institute Of Science And Technology School Corporation | Total stochastic gradient estimation method, device and computer program |
CN109799533A (zh) * | 2018-12-28 | 2019-05-24 | 中国石油化工股份有限公司 | 一种基于双向循环神经网络的储层预测方法 |
CN112052958A (zh) * | 2020-09-04 | 2020-12-08 | 京东数字科技控股股份有限公司 | 模型训练的方法、装置、设备及计算机可读存储介质 |
CN112717415A (zh) * | 2021-01-22 | 2021-04-30 | 上海交通大学 | 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法 |
CN113033098A (zh) * | 2021-03-26 | 2021-06-25 | 山东科技大学 | 一种基于AdaRW算法的海洋目标检测深度学习模型训练方法 |
Non-Patent Citations (1)
Title |
---|
一种带自适应学习率的综合随机梯度下降Q-学习方法;金海东等;计算机学报;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113641905A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10958748B2 (en) | Resource push method and apparatus | |
CN109508584B (zh) | 视频分类的方法、信息处理的方法以及服务器 | |
CN108875916B (zh) | 一种基于gru神经网络的广告点击率预测方法 | |
CN111639710A (zh) | 图像识别模型训练方法、装置、设备以及存储介质 | |
CN110832509B (zh) | 使用神经网络的黑盒优化 | |
US11164093B1 (en) | Artificial intelligence system incorporating automatic model switching based on model parameter confidence sets | |
JP7222040B2 (ja) | モデル訓練、画像処理方法及びデバイス、記憶媒体、プログラム製品 | |
CN112766497B (zh) | 深度强化学习模型的训练方法、装置、介质及设备 | |
CN110663049A (zh) | 神经网络优化器搜索 | |
CN111460384B (zh) | 策略的评估方法、装置和设备 | |
US20240265251A1 (en) | Network Model Training Method and Apparatus, Electronic Apparatus and Computer-readable Storage Medium | |
CN112925926B (zh) | 多媒体推荐模型的训练方法、装置、服务器以及存储介质 | |
CN111461345A (zh) | 深度学习模型训练方法及装置 | |
US20240193520A1 (en) | Decision flowchart-based environmental modeling method and apparatus, and electronic device | |
CN109032630B (zh) | 一种参数服务器中全局参数的更新方法 | |
CN110782016A (zh) | 用于优化神经网络架构搜索的方法和装置 | |
CN112926628B (zh) | 动作价值的确定方法、装置、学习框架、介质及设备 | |
CN113641905B (zh) | 模型训练方法、信息推送方法、装置、设备及存储介质 | |
JP2016126596A (ja) | 差分学習管理プログラム、差分学習管理装置及び差分学習管理方法 | |
CN117351299A (zh) | 图像生成及模型训练方法、装置、设备和存储介质 | |
US12050979B2 (en) | Budgeted neural network architecture search system and method | |
CN116385059A (zh) | 行为数据预测模型的更新方法、装置、设备及存储介质 | |
CN116776969A (zh) | 联邦学习方法及装置、计算机可读存储介质 | |
CN113591398B (zh) | 基于深度强化学习的智能作业分批方法、装置及电子设备 | |
CN115081630A (zh) | 多任务模型的训练方法、信息推荐方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |