CN115658962A

CN115658962A - 用于获取视频推荐模型的方法及装置、电子设备、存储介质

Info

Publication number: CN115658962A
Application number: CN202211227171.9A
Authority: CN
Inventors: 王同乐; 李霞; 杨康; 孙泽懿; 李采彧; 李莹莹
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-01-31

Abstract

本申请涉及视频推荐技术领域，公开一种用于获取视频推荐模型的方法，包括：获取多个历史视频观看数据；按照预设格式对各历史视频观看数据进行整理，获得离线训练数据集；根据离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型；利用备选推荐模型对用户进行视频推荐；在利用备选推荐模型对用户进行视频推荐达到预设次数后，对预设次数的视频推荐产生的数据进行采集，获得在线训练数据集；根据在线训练数据集对备选推荐模型进行更新，获得目标推荐模型。通过对预设的强化学习模型分别进行离线训练和在线训练，这样获得的目标推荐模型在进行视频推荐时准确率更高。本申请还公开一种用于获取视频推荐模型的装置及电子设备、存储介质。

Description

用于获取视频推荐模型的方法及装置、电子设备、存储介质

技术领域

本申请涉及视频推荐技术领域，例如涉及一种用于获取视频推荐模型的方法及装置、电子设备、存储介质。

背景技术

随着互联网技术的蓬勃发展，多媒体短视频成为当今最热的娱乐方式。当下有众多的短视频应用占据着互联网的半壁江山，如抖音、快手、西瓜等。这些短视频应用本身的核心业务是依靠超大的用户流量和用户留存实现用户变现，因此需要提高用户留存率，而提高用户留存率需要提高视频推荐的准确率，这样才能使得推荐给用户的视频更符合用户的喜好，从而使得用户尽可能留存较长的时间。

在实现本公开实施例的过程中，发现相关技术中至少存在如下问题：

相关技术中在对用户进行视频推荐时，由于没有考虑用户的喜好可能存在实时变化的情况，导致推荐的视频难以满足用户的喜好，使得视频推荐的准确率较低。

发明内容

为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

本公开实施例提供了一种用于获取视频推荐模型的方法及装置、电子设备、存储介质，以能够提高视频推荐的准确率。

在一些实施例中，用于获取视频推荐模型的方法，包括：获取多个历史视频观看数据；历史视频观看数据为预设时间段内的视频推荐所产生的数据；按照预设格式对各历史视频观看数据进行整理，获得离线训练数据集；根据离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型；利用备选推荐模型对用户进行视频推荐；在利用备选推荐模型对用户进行视频推荐达到预设次数后，对预设次数的视频推荐产生的数据进行采集，获得在线训练数据集；根据在线训练数据集对备选推荐模型进行更新，获得目标推荐模型。

在一些实施例中，所述用于获取视频推荐模型的装置，包括：第一获取模块，被配置为获取多个历史视频观看数据；所述历史视频观看数据为预设时间段内的视频推荐所产生的数据；数据整理模块，被配置为按照预设格式对各所述历史视频观看数据进行整理，获得离线训练数据集；训练模块，被配置为根据所述离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型；第一推荐模块，被配置为利用所述备选推荐模型对用户进行视频推荐；第二获取模块，被配置为在利用所述备选推荐模型对用户进行视频推荐达到预设次数后，对所述预设次数的视频推荐产生的数据进行采集，获得在线训练数据集；更新模块，被配置为根据所述在线训练数据集对所述备选推荐模型进行更新，获得目标推荐模型。

在一些实施例中，所述电子设备包括处理器和存储有程序指令的存储器，所述处理器被配置为在运行所述程序指令时，执行如上述的用于获取视频推荐模型的方法。

在一些实施例中，所述存储介质存储有程序指令，所述程序指令在运行时，执行上述的用于获取视频推荐模型的方法。

本公开实施例提供的用于获取视频推荐模型的方法及装置、电子设备、存储介质，可以实现以下技术效果：获取多个历史视频观看数据；按照预设格式对各历史视频观看数据进行整理，获得离线训练数据集；根据离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型；利用备选推荐模型对用户进行视频推荐；在利用备选推荐模型对用户进行视频推荐达到预设次数后，对预设次数的视频推荐产生的数据进行采集，获得在线训练数据集；根据在线训练数据集对备选推荐模型进行更新，获得目标推荐模型。通过对预设的强化学习模型分别进行离线训练和在线训练获得目标推荐模型，这样获得的目标推荐模型在对用户进行视频推荐时能够将更符合用户喜好的视频推荐给用户，从而能够提高视频推荐的准确率。

以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件示为类似的元件，附图不构成比例限制，并且其中：

图1是本公开实施例提供的一个用于获取视频推荐模型的方法的示意图；

图2是本公开实施例的一个第一奖励值随用户观看时长变化的示意图；

图3是本公开实施例提供的一个用于视频推荐的方法的示意图；

图4是本公开实施例提供的另一个用于视频推荐的方法的示意图；

图5是本公开实施例提供的另一个用于获取视频推荐模型的方法的示意图；

图6是本公开实施例提供的一个用于获取视频推荐模型的装置的示意图；

图7是本公开实施例提供的一个电子设备的示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或多个实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开实施例的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

除非另有说明，术语“多个”表示两个或两个以上。

本公开实施例中，字符“/”表示前后对象是一种“或”的关系。例如，A/B表示：A或B。

术语“和/或”是一种描述对象的关联关系，表示可以存在三种关系。例如，A和/或B，表示：A或B，或，A和B这三种关系。

术语“对应”可以指的是一种关联关系或绑定关系，A与B相对应指的是A与B之间是一种关联关系或绑定关系。

结合图1所示，本公开实施例提供一种用于获取视频推荐模型的方法，包括：

步骤S101，电子设备获取多个历史视频观看数据；历史视频观看数据为预设时间段内的视频推荐所产生的数据。

步骤S102，电子设备按照预设格式对各历史视频观看数据进行整理，获得离线训练数据集。

步骤S103，电子设备根据离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型。

步骤S104，电子设备利用备选推荐模型对用户进行视频推荐。

步骤S105，电子设备在利用备选推荐模型对用户进行视频推荐达到预设次数后，对预设次数的视频推荐产生的数据进行采集，获得在线训练数据集。

步骤S106，电子设备根据在线训练数据集对备选推荐模型进行更新，获得目标推荐模型。

采用本公开实施例提供的用于获取视频推荐模型的方法，通过获取多个历史视频观看数据；按照预设格式对各历史视频观看数据进行整理，获得离线训练数据集；根据离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型；利用备选推荐模型对用户进行视频推荐；在利用备选推荐模型对用户进行视频推荐达到预设次数后，对预设次数的视频推荐产生的数据进行采集，获得在线训练数据集；根据在线训练数据集对备选推荐模型进行更新，获得目标推荐模型。通过对预设的强化学习模型分别进行离线训练和在线训练获得目标推荐模型，这样获得的目标推荐模型在对用户进行视频推荐时能够将更符合用户喜好的视频推荐给用户，从而能够提高视频推荐的准确率。

可选地，历史视频观看数据包括第一状态、动作、奖励和第二状态；其中，第一状态用于表征用户观看的第一历史视频，动作用于表征在第一状态下将预设类型的第二历史视频推送给用户，奖励用于表征在动作完成后用户对推送的第二历史视频的喜爱程度，第二状态用于表征用户观看的第二历史视频。

在一些实施例中，在对预设的强化学习模型进行离线训练的情况下，通过离线策略(off-policy)的Q-Learning(Q强化学习)算法对强化学习模型进行训练。

可选地，预设格式为：<s_i,a_i,r_i,s_i+1>；其中，s_i为第i个第一状态，a_i为在状态s_i下作出的第i个动作，r_i为在动作a_i完成后的奖励，s_i+1为第i+1个第二状态。

可选地，历史视频观看数据包括第一状态和第二状态，第一状态用于表征用户观看的第一历史视频，第二状态用于表征用户观看的第二历史视频；获取多个历史视频观看数据，包括：对用户观看过的各历史视频进行特征向量提取，获得第一状态和第二状态。

可选地，第一状态和第二状态均用描述视频内容的特征向量表示。

可选地，通过图像识别的方法从视频中提取出状态对应的特征向量。

在一些实施例中，第一状态和第二状态均包括：视频题材、视频内容、视频人物、视频情感、视频长度、视频创作时间、视频作者、作者受欢迎度、作者领域、作者年龄等；其中，视频题材包括搞笑、知识、生活、戏曲等；视频内容包括教育、文化、商业等；视频人物包括：动漫、电影、真人等；视频情感包括喜剧、悲剧等；视频长度以秒为单位。

可选地，历史视频观看数据包括动作，动作用于表征在第一状态下将预设类型的第二历史视频推送给用户；获取多个历史视频观看数据，包括：从预设的动作数据库中匹配出与各动作对应的编号；动作数据库中存储有动作与编号之间的对应关系，通过编号表征各动作。

在一些实施例中，如表1所示，表1是一个动作与编号之间的对应关系示例表。

表1

在一些实施例中，如表1所示，动作“在状态Si下将恐怖类型的视频推送给用户”对应的编号为“1”，动作“在状态Si下将战争类型的视频推送给用户”对应的编号为“2”，动作“在状态Si下将悲剧类型的视频推送给用户”对应的编号为“3”，动作“在状态Si下将喜剧类型的视频推送给用户”对应的编号为“4”，动作“在状态Si下将恋爱类型的视频推送给用户”对应的编号为“5”。

在一些实施例中，视频池中各类型的视频均包含了大量的视频，通过预设的智能推荐算法确定出具体应该选取该类型中哪一个视频推荐给用户。

可选地，预设的智能推荐算法包括基于因子分解的推荐方法。

可选地，历史视频观看数据包括奖励，奖励用于表征在动作完成后用户对推送的第二历史视频的喜爱程度；获取多个历史视频观看数据，包括：获取用户观看第二历史视频的时长和反馈信息；反馈信息包括用户对第二历史视频的转发行为信息、评论行为信息或点赞行为信息中的一种或多种；获取时长对应的第一奖励值和反馈信息对应的第二奖励值；对第一奖励值和第二奖励值进行求和处理，获得奖励。

可选地，转发行为信息包括用户转发了该视频、用户未转发该视频；评论行为信息包括用户评论了该视频、用户未评论该视频；点赞行为信息包括用户点赞了该视频、用户未点赞该视频。

可选地，对第一奖励值和第二奖励值进行求和处理，获得奖励，包括：根据第一预设算法第一奖励值和第二奖励值进行计算，获得奖励。

可选地，根据第一预设算法第一奖励值和第二奖励值进行计算，获得奖励，包括：通过计算

获得奖励；其中，

为第一奖励值，

为第二奖励值，r_i为奖励，e为自然常数，可选地，e≈2.71828；t为用户观看第二历史视频的时长，I₁用于表征转发行为信息，可选地，

I₂用于表征评论行为信息，可选地，

I₃用于表征点赞行为信息，可选地，

在一些实施例中，第一奖励值为隐性奖励，第一奖励值为用户在不知觉的情况下对推荐视频的反馈，即用户对推荐视频的观看时长；第二奖励值为显性奖励，是用户主动的对推荐视频的反馈，即用户主动的转评赞行为；由于该预设算法不仅考虑了显性反馈，还考虑了隐性反馈，通过协调隐性反馈和显性反馈的重要程度，使得显性反馈占较大的贡献比重，这样计算获得的奖励更能表征用户对视频的实际评价，从而能够提高视频推荐的准确率，将符合用户喜好的视频推荐给用户。

结合图2所示，图2是本公开实施例提供的一个第一奖励值随用户观看时长变化的示意图；在一些实施例中，第一奖励值为隐性奖励，第二奖励值为显性奖励，图2中横轴表示视频观看时长t，纵轴表示隐性奖励，即第一奖励值。短视频时长一般在30s左右，时间小于5s时，隐形奖励很小，且缓慢增大；由于在0-5s这个时间段难以分辨用户是否真的喜欢正在观看的视频，有可能下一秒他就会划走，也有可能会继续观看，所以在0-5s这个时间段奖励值较小，并且随观看时长的增加而缓慢增加；时间在5-20s这个时间段内时，确定用户比较喜欢这个视频，选择继续观看的概率较大，则隐性奖励快速增加，观看时长大于20s时，确定用户喜欢该视频，隐形奖励比较大，且缓慢增大。

这样，由于目标推荐模型的应用场景是短视频推荐领域，短视频一般都在30s以内，因此用户对视频的观看时长很大程度上反馈了用户对该视频的主观评价，即观看时长越长，表示越喜爱，因此将奖励中的一半权重分给了观看时长，另外一半权重分给了用户观看视频后的反馈信息，这样能够更准确的获取用户对推荐视频的反馈，从而实现更准确的视频推荐。

可选地，根据离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型，包括：将离线训练数据集输入强化学习模型中进行训练，对强化学习模型的网络结构参数进行调整；在强化学习模型的训练回合数达到预设次数的情况下停止训练，获得备选推荐模型。

在一些实施例中，将第一状态和动作输入到预设的强化学习模型中，通过强化学习模型预测第一状态对应的奖励期望值得Q’(s_i，a_i)，在完成动作a_i后，获取第一状态对应的奖励r_i，并通过计算Q(s_i，a_i)＝r_i+Q(s_i+1，a_i)获得实际值，根据数据对Q(s_i，a_i)＝▽Q(s_i，a_i；w)+α[r_i+(Q(s_i+1，a_i)-Q(s_i，a_i))]利用梯度下降的方法更新强化学习模型的网络结构参数；其中，w用于表示DQN(Deep Q-Network，深度强化学习网络)中的待训练参数，α为学习率，学习率用于表征每次对待训练参数w的更新步长。

在一些实施例中，由于离线训练数据集中的状态非常的多，因此训练模型就不太适合选择传统的强化学习算法，因为它们一般都针对的是动作和状态个数比较固定的场景。通过采用DQN(Deep Q-Network，深度强化学习网络)，这类网络可以对无穷的状态输入进行编码，并可以根据场景输出指定个数动作的奖励期望值。

在一些实施例中，在对预设的强化学习模型进行离线训练的情况下，利用离线训练数据集训练DQN网络。在一些实施例中，DQN网络的网络结构包括一个输入层、两个隐藏层和一个输出层；其中，输入层的神经元个数和第一状态对应的特征向量的个数相同，输出层神经元个数与视频类型的个数相同。

可选地，将离线训练数据集输入强化学习模型中进行训练，对强化学习模型的网络结构参数进行调整。

可选地，预设次数为一万次。

可选地，强化学习模型的网络结构参数包括：学习率和探索因子。

在一些实施例中，强化学习模型的网络结构参数还包括训练回合数和折扣因子；可选地，训练回合数为1万次，折扣因子γ为0.1。

在一些实施例中，学习率α＝e^-x；其中，x为训练回合数，e为自然常数，可选地，e≈2.71828；学习率α＝e^-x的初始值为0.01，对学习率的调整为从大到小逐渐降低。

在一些实施例中，探索因子为ε，通过设置一个初始探索因子ε₀为0.90，因子增速v为0.002，最大探索因子ε_max为0.95，每进行一次模型训练则ε＝ε₀+v，直到ε≥ε_max。通过这样对探索因子进行更新，有利于在初始训练阶段有更大的探索空间，在模型训练到后期稳定的时候，能够缩小探索空间，然后趋于稳定，从而使得训练获得推荐模型在进行视频推荐时准确率更高。

可选地，利用备选推荐模型对用户进行视频推荐；在利用备选推荐模型对用户进行视频推荐达到预设次数后，对预设次数的视频推荐产生的数据进行采集，获得在线训练数据集。

可选地，对预设次数的视频推荐产生的数据进行采集，获得在线训练数据集，包括：按照预设格式对预设次数的视频推荐产生的数据进行整理，获得在线训练数据集。这样，在进行每一次推荐之后，将用户的反馈数据按照预设格式整理成序列存放到缓冲队列，即在线训练数据集，进行固定次数的推荐之后，通过在线训练数据集中的最新缓存的数据训练一次强化学习模型。这样的实时训练能够保证模型及时得到更新，使得视频推荐模型在进行视频推荐时更加准确。

可选地，根据在线训练数据集对备选推荐模型进行更新，获得目标推荐模型。这样，通过用户在线的实时反馈数据进行模型训练，在备选推荐模型部署到线上后继续进行在线学习，能够提高视频推荐模型推荐视频的准率；同时，由于对预设的强化学习模型分别进行在线训练和离线训练，提高了模型推荐视频的准确率，能够提高用户的使用体验，从而提高用户的留存时长，增加用户留存率。

可选地，获得目标推荐模型后，还包括：利用目标推荐模型对用户进行视频推荐。

可选地，利用目标推荐模型对用户进行视频推荐，包括：获取用户的状态；状态用于表征用户观看的视频。根据目标推荐模型利用状态获取目标动作，目标动作用于表征在状态下将预设类型的视频推送给用户。执行目标动作。

可选地，根据目标推荐模型利用状态获取目标动作，包括：将状态输入预设的目标推荐模型中进行计算，获得在状态下各预设的动作分别对应的奖励期望值，动作用于表征在状态下将预设类型的视频推送给用户。将奖励期望值最大的动作确定为目标动作。

结合图3所示，本公开实施例提供一种用于视频推荐的方法，包括：

步骤S301，电子设备获取多个历史视频观看数据；历史视频观看数据为预设时间段内的视频推荐所产生的数据。

步骤S302，电子设备按照预设格式对各历史视频观看数据进行整理，获得离线训练数据集。

步骤S303，电子设备根据离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型。

步骤S304，电子设备利用备选推荐模型对用户进行视频推荐。

步骤S305，电子设备在利用备选推荐模型对用户进行视频推荐达到预设次数后，对预设次数的视频推荐产生的数据进行采集，获得在线训练数据集。

步骤S306，电子设备根据在线训练数据集对备选推荐模型进行更新，获得目标推荐模型。

步骤S307，电子设备利用目标推荐模型对用户进行视频推荐。

采用本公开实施例提供的用于视频推荐的方法，通过采用目标推荐模型对用户进行视频推荐，由于目标推荐模型是通过对强化学习模型进行离线训练和在线训练获得的，这样在通过目标推荐模型对用户进行视频推荐时能够将更符合用户喜好的视频推荐给用户，通过推荐算法对用户进行了视频推荐，通过运用推荐技术能够提高视频推荐的准确率。

结合图4所示，本公开实施例提供一种用于视频推荐的方法，包括：

步骤S401，电子设备获取用户的状态；状态用于表征用户观看的视频。

步骤S402，电子设备将状态输入预设的目标推荐模型中进行计算，获得在状态下各预设的动作分别对应的奖励期望值；动作用于表征在该状态下将预设类型的视频推送给用户。

步骤S403，电子设备将奖励期望值最大的动作确定为目标动作。

步骤S404，电子设备执行目标动作。

采用本公开实施例提供的用于视频推荐的方法，通过获取用户的状态，将状态输入预设的目标推荐模型中进行计算，获得在状态下各预设的动作分别对应的奖励期望值，将奖励期望值最大的动作确定为目标动作，并执行目标动作。这样能够将更符合用户喜好的视频推荐给用户，提高了视频推荐的准确率，从而提高用户的留存时长，使得用户留存率增加。

可选地，电子设备利用目标推荐模型对用户进行视频推荐后，还包括：采用预设的评价方法对目标推荐模型进行评价。

可选地，预设的评价方法为A/Btest实验。

结合图5所示，本公开实施例提供一种用于获取视频推荐模型的方法，包括：

步骤S501，电子设备获取多个历史视频观看数据；历史视频观看数据为预设时间段内的视频推荐所产生的数据。

步骤S502，电子设备按照预设格式对各历史视频观看数据进行整理，获得离线训练数据集。

步骤S503，电子设备根据离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型。

步骤S504，电子设备利用备选推荐模型对用户进行视频推荐。

步骤S505，电子设备在利用备选推荐模型对用户进行视频推荐达到预设次数后，对预设次数的视频推荐产生的数据进行采集，获得在线训练数据集。

步骤S506，电子设备根据在线训练数据集对备选推荐模型进行更新，获得目标推荐模型。

步骤S507，电子设备利用目标推荐模型对用户进行视频推荐。

步骤S508，电子设备采用预设的评价方法对目标推荐模型进行评价。

采用本公开实施例提供的用于获取视频推荐模型的方法，通过在利用目标推荐模型对用户进行视频推荐后对目标推荐模型进行评价，能够统计出使用该目标推荐模型和未使用该模型的情况下，预设时间段内用户平均每天在预设视频应用内的停留时长，通过对比能够验证目标推荐模型的视频推荐效果。

结合图6所示，本公开实施例提供一种用于获取视频推荐模型的装置，包括：第一获取模块601、数据整理模块602、训练模块603、第一推荐模块604、第二获取模块605和更新模块606；第一获取模块601被配置为获取多个历史视频观看数据，并将历史视频观看数据发送给数据整理模块；历史视频观看数据为预设时间段内的视频推荐所产生的数据；数据整理模块602被配置为接收第一获取模块发送的历史视频观看数据，按照预设格式对各历史视频观看数据进行整理，获得离线训练数据集，并将离线训练数据集发送给训练模块；训练模块603被配置为接收数据整理模块发送的离线训练数据集，根据离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型，并将备选推荐模型发送给第一推荐模块；第一推荐模块604被配置为训练模块发送的备选推荐模型，利用备选推荐模型对用户进行视频推荐；第二获取模块605被配置为对备选推荐模型对用户进行视频推荐的推荐次数进行统计，在利用备选推荐模型对用户进行视频推荐达到预设次数后，对预设次数的视频推荐产生的数据进行采集，获得在线训练数据集，并将在线训练数据集发送给更新模块；更新模块606被配置为接收第二获取模块发送的在线训练数据集，并根据在线训练数据集对备选推荐模型进行更新，获得目标推荐模型。

采用本公开实施例提供的用于获取视频推荐模型的装置，通过第一获取模块获取多个历史视频观看数据；历史视频观看数据为预设时间段内的视频推荐所产生的数据；数据整理模块按照预设格式对各历史视频观看数据进行整理，获得离线训练数据集；训练模块根据离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型；第一推荐模块利用备选推荐模型对用户进行视频推荐；第二获取模块在利用备选推荐模型对用户进行视频推荐达到预设次数后，对预设次数的视频推荐产生的数据进行采集，获得在线训练数据集；更新模块根据在线训练数据集对备选推荐模型进行更新，获得目标推荐模型。通过对预设的强化学习模型分别进行离线训练和在线训练获得目标推荐模型，这样获得的目标推荐模型在对用户进行视频推荐时能够将更符合用户喜好的视频推荐给用户，从而能够提高视频推荐的准确率。

可选地，历史视频观看数据包括第一状态和第二状态，第一状态用于表征用户观看的第一历史视频，第二状态用于表征用户观看的第二历史视频；第一获取模块被配置为通过以下方式获取多个历史视频观看数据：对用户观看过的各历史视频进行特征向量提取，获得第一状态和第二状态。

可选地，历史视频观看数据包括动作，动作用于表征在第一状态下将预设类型的第二历史视频推送给用户；第一获取模块被配置为通过以下方式获取多个历史视频观看数据：从预设的动作数据库中匹配出与各动作对应的编号；动作数据库中存储有动作与编号之间的对应关系，通过编号表征各动作。

可选地，历史视频观看数据包括奖励，奖励用于表征在动作完成后用户对推送的第二历史视频的喜爱程度；第一获取模块被配置为通过以下方式获取多个历史视频观看数据：获取用户观看第二历史视频的时长和反馈信息；反馈信息包括用户对第二历史视频的转发行为信息、评论行为信息或点赞行为信息中的一种或多种；获取时长对应的第一奖励值和反馈信息对应的第二奖励值；对第一奖励值和第二奖励值进行求和处理，获得奖励。

可选地，训练模块被配置为通过以下方式根据离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型：将离线训练数据集输入强化学习模型中进行训练，对强化学习模型的网络结构参数进行调整；在强化学习模型的训练回合数达到预设次数的情况下停止训练，获得备选推荐模型。

可选地，用于获取视频推荐模型的装置还包括推荐模块，推荐模块被配置为获得目标推荐模型后，利用目标推荐模型对用户进行视频推荐。

可选地，利用目标推荐模型对用户进行视频推荐，包括：获取用户的状态；状态用于表征用户观看的视频；将状态输入预设的目标推荐模型中进行计算，获得在状态下各预设的动作分别对应的奖励期望值；动作用于表征在状态下将预设类型的视频推送给用户；将奖励期望值最大的动作确定为目标动作；执行目标动作。

结合图7所示，本公开实施例提供一种电子设备，包括处理器(processor)700和存储器(memory)701。可选地，该电子设备还可以包括通信接口(Communication Interface)702和总线703。其中，处理器700、通信接口702、存储器701可以通过总线703完成相互间的通信。通信接口702可以用于信息传输。处理器700可以调用存储器701中的逻辑指令，以执行上述实施例的用于获取视频推荐模型的方法。

采用本公开实施例提供的电子设备，通过获取多个历史视频观看数据；按照预设格式对各历史视频观看数据进行整理，获得离线训练数据集；根据离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型；利用备选推荐模型对用户进行视频推荐；在利用备选推荐模型对用户进行视频推荐达到预设次数后，对预设次数的视频推荐产生的数据进行采集，获得在线训练数据集；根据在线训练数据集对备选推荐模型进行更新，获得目标推荐模型。通过对预设的强化学习模型分别进行离线训练和在线训练获得目标推荐模型，这样获得的目标推荐模型在对用户进行视频推荐时能够将更符合用户喜好的视频推荐给用户，从而能够提高视频推荐的准确率。

可选地，电子设备包括智能手机、计算机、服务器或平板电脑等。

此外，上述的存储器701中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器701作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令/模块。处理器700通过运行存储在存储器701中的程序指令/模块，从而执行功能应用以及数据处理，即实现上述实施例中用于获取视频推荐模型的方法。

存储器701可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器701可以包括高速随机存取存储器，还可以包括非易失性存储器。

本公开实施例提供了一种存储介质，存储有程序指令，程序指令在运行时，执行上述用于获取视频推荐模型的方法。

本公开实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述用于获取视频推荐模型的方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。

本公开实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

以上描述和附图充分地示出了本公开的实施例，以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且，本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中，每个实施例重点说明的可以是与其他实施例的不同之处，各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言，如果其与实施例公开的方法部分相对应，那么相关之处可以参见方法部分的描述。

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本文所披露的实施例中，所揭露的方法、产品(包括但不限于装置、设备等)，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，可以仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外，在本公开实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中，不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生，有时不同的操作或步骤之间不存在特定的顺序。例如，两个连续的操作或步骤实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种用于获取视频推荐模型的方法，其特征在于，包括：

获取多个历史视频观看数据；所述历史视频观看数据为预设时间段内的视频推荐所产生的数据；

按照预设格式对各所述历史视频观看数据进行整理，获得离线训练数据集；

根据所述离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型；

利用所述备选推荐模型对用户进行视频推荐；

在利用所述备选推荐模型对用户进行视频推荐达到预设次数后，对所述预设次数的视频推荐产生的数据进行采集，获得在线训练数据集；

根据所述在线训练数据集对所述备选推荐模型进行更新，获得目标推荐模型。

2.根据权利要求1所述的方法，其特征在于，所述历史视频观看数据包括第一状态和第二状态，所述第一状态用于表征用户观看的第一历史视频，所述第二状态用于表征用户观看的第二历史视频；获取多个历史视频观看数据，包括：

对用户观看过的各历史视频进行特征向量提取，获得所述第一状态和所述第二状态。

3.根据权利要求1所述的方法，其特征在于，所述历史视频观看数据包括动作，所述动作用于表征在所述第一状态下将预设类型的第二历史视频推送给用户；获取多个历史视频观看数据，包括：

从预设的动作数据库中匹配出与各动作对应的编号；所述动作数据库中存储有动作与编号之间的对应关系，通过所述编号表征各所述动作。

4.根据权利要求1所述的方法，其特征在于，所述历史视频观看数据包括奖励，所述奖励用于表征在所述动作完成后用户对推送的第二历史视频的喜爱程度；获取多个历史视频观看数据，包括：

获取用户观看所述第二历史视频的时长和反馈信息；所述反馈信息包括用户对所述第二历史视频的转发行为信息、评论行为信息或点赞行为信息中的一种或多种；

获取所述时长对应的第一奖励值和所述反馈信息对应的第二奖励值；

对所述第一奖励值和所述第二奖励值进行求和处理，获得所述奖励。

5.根据权利要求1至4任一项所述的方法，其特征在于，根据所述离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型，包括：

将所述离线训练数据集输入所述强化学习模型中进行训练，对所述强化学习模型的网络结构参数进行调整；

在所述强化学习模型的训练回合数达到预设次数的情况下停止训练，获得备选推荐模型。

6.根据权利要求1所述的方法，其特征在于，所述获得目标推荐模型后，还包括：

获取用户的状态；所述状态用于表征用户观看的视频；

根据目标推荐模型利用所述状态获取目标动作；所述目标动作用于表征在所述状态下将预设类型的视频推送给所述用户；

执行所述目标动作。

7.根据权利要求6所述的方法，其特征在于，根据目标推荐模型利用所述状态获取目标动作，包括：

将所述状态输入预设的目标推荐模型中进行计算，获得在所述状态下各预设的动作分别对应的奖励期望值；所述动作用于表征在所述状态下将预设类型的视频推送给所述用户；

将奖励期望值最大的动作确定为目标动作。

8.一种用于获取视频推荐模型的装置，其特征在于，包括：

第一获取模块，被配置为获取多个历史视频观看数据；所述历史视频观看数据为预设时间段内的视频推荐所产生的数据；

数据整理模块，被配置为按照预设格式对各所述历史视频观看数据进行整理，获得离线训练数据集；

训练模块，被配置为根据所述离线训练数据集对预设的强化学习模型进行训练，获得备选推荐模型；

第一推荐模块，被配置为利用所述备选推荐模型对用户进行视频推荐；

第二获取模块，被配置为在利用所述备选推荐模型对用户进行视频推荐达到预设次数后，对所述预设次数的视频推荐产生的数据进行采集，获得在线训练数据集；

更新模块，被配置为根据所述在线训练数据集对所述备选推荐模型进行更新，获得目标推荐模型。

9.一种电子设备，包括处理器和存储有程序指令的存储器，其特征在于，所述处理器被配置为在运行所述程序指令时，执行如权利要求1至7任一项所述的用于获取视频推荐模型方法。

10.一种存储介质，存储有程序指令，其特征在于，所述程序指令在运行时，执行如权利要求1至7任一项所述的用于获取视频推荐模型的方法。