CN112822526A

CN112822526A - 视频推荐方法、服务器和可读存储介质

Info

Publication number: CN112822526A
Application number: CN202011612924.9A
Authority: CN
Inventors: 曹跃
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-18
Anticipated expiration: 2040-12-30
Also published as: CN112822526B

Abstract

本发明实施例涉及视频推荐领域，公开了一种视频推荐方法、服务器和可读存储介质。本发明中，视频推荐方法，包括：获取输入向量；输入向量用于表征目标用户的用户特征和待推荐的各视频的视频特征，用户特征至少包括目标用户对观看过的若干视频的观看时长；根据输入向量和预先训练的点击概率预测模型，确定目标用户对待推荐的各视频的点击概率；其中，点击概率预测模型根据各视频样本的样本特征训练得到，样本特征至少包括视频样本中的视频被观看的观看时长；根据目标用户对所述待推荐的各视频的点击概率，对用户推荐待推荐的各视频，使得可以降低训练复杂度、缩短训练周期、降低资源消耗量，提高了预测的点击概率的准确性和合理性。

Description

视频推荐方法、服务器和可读存储介质

技术领域

本发明实施例涉及视频推荐领域，特别涉及一种视频推荐方法、服务器和可读存储介质。

背景技术

对于视频网站而言，推荐系统扮演者举足轻重的角色。一个优秀的推荐系统能够增加用户的粘性，为网站带来丰厚的收益。推荐系统在收到用户请求后，会利用排序算法对候选视频进行打分，然后将这些视频按照分值由高到低进行排序，最后将得分最高的N条视频作为推荐结果返回。对于视频推荐领域，通常使用点击率和观看时长共同评价推荐算法。为了同时提升这两个指标，当前业内多采用融合点击概率预估模型和观看时长预估模型，需要对两种模型分别进行训练，然后，再基于单独训练好的两种模型进行线性融合或是函数融合。

然而，发明人发现，相关技术种至少存在如下技术问题：无论是线性融合还是函数融合，均需要先训练至少两个独立的模型，再进行融合，但训练复杂，训练周期长，消耗资源大。

发明内容

本发明实施方式的目的在于提供一种视频推荐方法、服务器和可读存储介质，使得可以降低训练复杂度、缩短训练周期、降低资源消耗量，提高了预测的点击概率的准确性和合理性。

为解决上述技术问题，本发明的实施方式提供了一种视频推荐方法，包括：获取输入向量；其中，所述输入向量用于表征目标用户的用户特征和待推荐的各视频的视频特征，所述用户特征至少包括所述目标用户对观看过的若干视频的观看时长；根据所述输入向量和预先训练的点击概率预测模型，确定所述目标用户对所述待推荐的各视频的点击概率；其中，所述点击概率预测模型根据各视频样本的样本特征训练得到，所述样本特征至少包括所述视频样本中的视频被观看的观看时长；根据所述目标用户对所述待推荐的各视频的点击概率，对所述用户推荐所述待推荐的各视频。

本发明的实施方式还提供了一种服务器，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的视频推荐方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的视频推荐方法。

本发明实施方式，获取输入向量；其中，输入向量用于表征目标用户的用户特征和待推荐的各视频的视频特征，用户特征至少包括目标用户对观看过的若干视频的观看时长；根据输入向量和预先训练的点击概率预测模型，确定目标用户对待推荐的各视频的点击概率。考虑到，在实际场景下，用户对某个视频是否点击，不仅取决于该视频本身，还取决于与该视频同时展现的其它视频，因此，本发明实施方式中点击概率预测模型输入了目标用户的用户特征和待推荐的所有视频的视频特征，可以同时预测目标用户对待推荐的所有视频的点击概率，使得预测更符合实际。另外，点击概率预测模型根据各视频样本的样本特征训练得到，样本特征至少包括视频样本中的视频被观看的观看时长，即本发明实施方式中以点击概率预测模型为基础，将观看时长作为样本特征融入训练过程，从而实现通过训练一个模型同时优化点击概率和观看时长两种指标，与相关技术中分别训练两个模型相比训练效率和资源使用率至少提升50％。，即降低了训练复杂度、缩短了训练周期、降低了资源消耗量，还提高了预测的点击概率的准确性和合理性。根据目标用户对待推荐的各视频的点击概率，对用户推荐待推荐的各视频，有利于提高用户对所推荐的视频的点击率，提高对用户的推荐体验。

另外，所述视频样本对应有样本权重，所述样本权重基于所述视频样本中的视频被观看的观看时长确定。考虑到相关技术中，通常不为视频样本设置权重，或者可以理解为每个样本权重固定设置为1.0，相当于认为每个视频样本对最终训练的模型贡献相等。而本发明实施方式中，基于视频样本中的视频被观看的观看时长确定视频样本的样本权重，即将对于视频的观看时长融入到模型的训练过程中，区分了不同视频样本对模型的贡献度，有利于更加合理的完成点击概率预测模型的训练。

另外，样本权重通过如下公式确定：

其中，所述w为所述样本权重，所述Δt为预设的固定时间间隔，所述T为预设的观看时长上限，所述t为所述视频样本被观看的观看时长。也就是说，对于用户点击后观看不超过T秒的样本，样本权重随着观看时长的增长呈对数增长。即，w与t之间不是线性关系，而是以Δt为底的对数关系。Δt负责调节w随t的变化趋势，Δt变化越大，w随t的变化越明显。可以理解的是，当t＜Δt时，w＜1，这意味着即使视频被点击，如果播放时间很短即用户的观看时长很短，生成的视频样本可信度比较低，对应的样本权重也比较低，在训练重要程度可能会低于其它视频样本。而观看时长超过T秒的样本，样本权重一律设置为log_Δt(T+1)，有利于限制w的最大值，避免造成视频样本间样本权重差异过大的情况。因此，通过上述公式可以更加合理的得到不同视频样本的样本权重，从而更加合理的完成对于点击概率预测模型的训练，以进一步提高利用点击概率预测模型预测的目标用户对待推荐的各视频的点击概率的合理性的准确性。

另外，所述点击概率预测模型的损失函数的表达式如下：

其中，L为通过所述损失函数计算的损失值，S为所述视频样本的总数，y_k,i为第k个视频样本的标签向量的第i维分量，p_i(x_k)为基于所述第k个视频样本预测的第i个视频的点击概率，w_k为所述第k个视频样本对应的样本权重，N为需要预测点击概率的视频的数量。考虑到，目前传统的损失计算方式认为每个视频样本的损失对整体样本集的损失的“贡献”是相同的。然而，在真实场景下，不同视频样本的损失其实对整体样本集损失的影响应该是有差别的。因此，本发明实施方式中，在损失函数中增加了样本权重，以区分每个视频样本的损失对整体样本集的损失的“贡献”，提高了利用损失函数计算得到的损失值的合理性。通过训练使模型损失L达到最小值，能够使得此刻样本集内每个视频样本的观看时长(对数)*点击率(对数)的和达到最大值，进一步方便了实现同时优化观看时长和点击概率两个指标的目的。

另外，所述视频样本标注的标签为所述视频样本中的视频的ID标签，所述用户特征还包括所述目标用户观看过的若干视频的视频ID，所述样本特征还包括所述视频样本中的用户观看过的若干视频的视频ID。考虑到，传统的点击概率预估模型通常将推荐问题抽象为一个二分类模型，即视频样本的标签为{0,1}，标签为0的样本称为负样本，表示用户不会点击某个视频；反之，称为正样本例，表示用户会点击某个视频。而本发明实施方式中，模型将推荐问题抽象为多分类模型，直接将视频样本的视频ID作为样本标签，因此，训练时只需要正样本，无需负样本，能够在训练过程中显著减少视频样本数量，大幅度提升训练效率。而且，由于用户特征还包括目标用户观看过的若干视频的视频ID，样本特征还包括视频样本中的用户观看过的若干视频的视频ID，因此，训练得到的点击概率预测模型在预测目标用户对待推荐的各视频的点击概率时，还可以结合目标用户观看过的若干视频的视频ID，从而对目标用户喜欢看的视频进行推测，以更合理的预测得到目标用户对待推荐的各视频的点击概率。

另外，所述视频样本标注的标签为所述视频样本的视频ID标签，所述点击概率预测模型通过以下方式训练得到：对所述各视频样本进行分批，确定用于对所述点击概率预测模型进行分批训练的若干训练批次；根据每个所述训练批次中的视频样本的视频ID标签，构造用于表征所述每个训练批次中的视频样本的视频ID标签的标签向量；根据所述标签向量和所述每个所述训练批次中的视频样本的样本特征，训练所述点击概率预测模型。考虑到，按照本发明实施方式构造模型，可能面临标签维度过高的情况，因此，通过分批训练，在每个批次训练时，根据本批次中的视频样本的视频ID标签，构造标签向量，而不会针对全部视频样本中的视频ID构造标签向量，有利于解决标签向量维度过多的问题，从而提高对模型的训练速度。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本发明第一实施方式提到的视频推荐方法的流程图；

图2是根据本发明第一实施方式提到的点击概率预测模型的训练方式的示意图；

图3是根据本发明第一实施方式提到的从输入向量给点击概率预测模型，到输出目标用户对待推荐的各视频的点击概率的过程的示意图；

图4是根据本发明第二实施方式提到的对点击概率预估模型进行训练的流程图；

图5是根据本发明第三实施方式提到的服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本申请的发明人发现，当前业内的推荐模型通常基于深度神经网络构造，具有以下特点：训练周期长(一个模型使用几百个CPU可能需要训练几周)、资源消耗大(训练一个模型，可能需要占用成百上千GB内存和磁盘，几百个CPU等等)、预测时间长(每次使用模型进行预测可能需要几十毫秒才能返回)。因此，每增加一个模型，上面提到的消耗都要增加一倍。因此，相关技术中融合点击概率预估模型和观看时长预估模型的线性融合的方式，训练复杂，周期长，消耗资源大，并且线性融合时需要人工确定一些经验参数，这本身就是一个相对困难的操作。此外，由于时间和环境的变化，原本表现良好的参数可能在未来表现变差，就需要经常调整这些参数值，而这一切工作都必须靠人工完成。而对于函数融合的方式，根据点击概率预估模型和观看时长预估模型，再次构造新的模型函数F，通过再次训练F最终实现模型融合。训练更复杂，训练周期更长，消耗资源更大，在线预测时间也更长。

为了解决相关技术中训练复杂，训练周期长，消耗资源大的技术问题，本发明的第一实施方式涉及一种视频推荐方法，应用于服务器。下面对本实施方式的视频推荐方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的视频推荐方法的流程图，如图1所示，包括：

步骤101：获取输入向量；其中，输入向量用于表征目标用户的用户特征和待推荐的各视频的视频特征，用户特征至少包括目标用户对观看过的若干视频的观看时长。

其中，输入向量用于表征目标用户的用户特征和待推荐的各视频的视频特征，用户特征至少包括目标用户对观看过的若干视频的观看时长。其中，目标用户可以为当前具有推荐视频需求的用户，目标用户观看过的若干视频可以为目标用户在过去预设时间段内观看过的n个视频，比如，目标用户最近观看过的10个视频。

在一个例子中，用户特征还可以包括：目标用户ID、目标用户观看过的若干视频的视频ID，比如，目标用户最近观看过的10个视频的视频ID：[vID1,vID2…vID10]。可选的，用户特征还可以包括：性别，年龄，学历，喜爱的视频类型等等。

在具体实现中，待推荐的各视频可以为服务器准备给目标用户推荐的所有视频，或者还可以为服务器准备给目标用户推荐的所有视频中的M个视频，M可以为目标用户观看的终端上一个显示界面上能够显示的最多视频数量，或者为最多视频数量的倍数，使得服务器无需预测目标用户对过多的视频的点击概率，从而可以减少服务器的预测负担，加快服务器的预测速度，从而加快对目标用户进行视频推荐的速度。在一个例子中，视频特征可以包括：视频ID、视频类型、视频内的演员、视频的播放量、观看人数等等。

在一个例子中，服务器可以先获取目标用户的用户特征和待推荐的各视频的视频特征，然后，根据用户特征和视频特征生成输入向量。可选的，服务器还可以获取目标用户所处的当前场景特征，然后将目标用户的用户特征、当前场景特征以及待推荐的各视频的视频特征进行融合，生成输入向量。其中，场景特征可以包括：目标用户当前所使用的终端型号，当前时间，当前地点等等。上述生成输入向量的过程，可以理解为将特征转化为数值或向量的过程。

在具体实现中，用户特征、视频特征、场景特征等特征，可以分为离散型特征和连续型特征。其中，离散型特征为：特征取值为有限个的特征，比如：性别：男/女；喜爱的视频类型：电影/电视剧/体育赛事……；当前地点：北京/上海/广州……。连续型特征为：特征取值无限多个，通常指数值型特征，例如：视频的播放量、观看人数、展现次数、用户观看视频数等等。

在一个例子中，离散型特征转化为向量的方式可以为：采用one-hot编码进行转换。one-hot编码是指如果某个特征可能的取值有N个，那么就用N维向量表示。向量的每一维对应一个特征可能的取值，除了特征取值对应的那一维度为1以外，其余维度都是0。例如：

对于性别这个特征有男、女两个可能的取值，则可以用2维向量表示性别这个特征：

性别男：[1，0]

性别女：[0，0]

对于星期这个特征，可以用一个7维向量表示：

星期一：[1，0，0，0，0，0，0]

星期二：[0，1，0，0，0，0，0]

星期日：[0，0，0，0，0，0，1]

也就是说，离散型特征经过one-hot处理后通常得到一个向量。

在一个例子中，连续型特征转化为数值的方式可以为：对特征取值本身进行归一化，即特征取值范围变换到[0,1]，通常可采取的方法包括：除以最大值法，统计概率法等方法。例如：某视频的一个特征为：该视频的播放量＝5000，如果该网站播放量最高的视频是播放量＝20000，该网站视频播放总量＝1000000，则可以采用下述a)或b)，得到一个数值。

a)除以最大值方法

归一化之后的特征值＝5000/20000＝0.25

b)统计概率法

归一化后的特征值＝5000/1000000＝0.005

也就是说，连续型特征经过处理后通常得到一个数值。

然后，将离散型特征转化后的向量与连续型特征转化后的数值，进行连接就生成了输入向量。例如：男[1，0]、周三[0，0，1，0，0，0，0]、观看了一条播放量为5000[0.25]的视频，那么生成的输入向量就是：[1，0，0，0，1，0，0，0，0，0.25]。

步骤102：根据输入向量和预先训练的点击概率预测模型，确定目标用户对待推荐的各视频的点击概率；其中，点击概率预测模型根据各视频样本的样本特征训练得到，样本特征至少包括视频样本被观看的观看时长。

其中，点击概率预测模型根据各视频样本的样本特征训练得到，样本特征至少包括视频样本中的视频被观看的观看时长。每个视频样本标注有标签，本实施方式中，该标签可以为视频样本的视频ID标签。标签表示训练样本对应的真实结果，可以对视频样本的ID做One-hot编码，如果待推荐的视频总数为N，那么视频ID标签就是一个N维向量。

可以理解的是，在模型训练之前首先要生成视频样本，全部视频样本组成视频样本集。本实施方式中，视频样本的样本特征可以包括以下内容：视频样本被观看的观看时长、观看视频样本的用户的用户特征，比如用户ID、用户最近观看过的10个视频ID、观看过的10个视频各自的观看时长、性别、年龄、学历等。

在一个例子中，可以通过kafka将客户端日志(客户端日志包含上述样本特征)上传到分布式文件系统(Hadoop Distributed File System，简称：hdfs)上，然后使用spark对这些日志进行处理生成视频样本，即根据每一条日志生成一个视频样本。其中，spark是专为大规模数据处理而设计的快速通用的计算引擎。比如，视频样本产生于某一条用户观看记录，也就是用户在某个时间点观看了一个视频，则可以将当前视频作为视频样本，将当前视频ID作为视频样本的标签y，将此时此刻用户的特征作为视频样本的用户特征x，视频样本对应的观看时长就是y对应的真实观看时长。

在一个例子中，每个视频样本均对应有样本权重，样本权重基于视频样本被观看的观看时长确定。比如，视频样本被观看的观看时长越长，样本权重越大。

在一个例子中，样本权重可以通过如下公式确定：

其中，w为样本权重，Δt为预设的固定时间间隔，T为预设的观看时长上限，t为视频样本被观看的观看时长。通过上述公式可以看出，对于用户点击后观看不超过T秒的样本，样本权重随着观看时长的增长呈对数增长。即，w与t之间不是线性关系，而是以Δt为底的对数关系。Δt负责调节w随t的变化趋势，Δt变化越大，w随t的变化越明显。可以理解的是，当t＜Δt时，w＜1，这意味着即使视频被点击，如果播放时间很短即用户的观看时长很短，生成的视频样本可信度比较低，对应的样本权重也比较低，在训练重要程度可能会低于其它视频样本。而观看时长超过T秒的样本，样本权重一律设置为log_Δt(T+1)，有利于限制w的最大值，避免造成视频样本间样本权重差异过大的情况。上述公式中的T和Δt可以根据实际需要进行设置，例如在短视频推荐场景下，T可以设置为300s，Δt可以设置为10s。由此可计算，被点击的样本权重的取值范围w处于0到2.47属于比较合理的范围。

由此可见，通过上述公式可以更加合理的得到不同视频样本的样本权重，从而更加合理的完成对于点击概率预测模型的训练，以进一步提高利用点击概率预测模型预测的目标用户对待推荐的各视频的点击概率的合理性的准确性。

通过上面的方式，取得视频样本集后，进入模型训练阶段。点击概率预估模型可以简单地理解为是一个打分函数，输入是特征向量，输出是预估的点击概率。函数内部包含一组待定的参数，模型训练的过程就是确定待定参数最优值的过程。本实施方式中，模型训练包括构建模型结构和构造损失函数，下面进行分别介绍：

1)构建模型结构

a)模型输入：M维输入向量x；也就是说，将样本特征转化为输入向量x后，将输入向量x输入模型。其中，将特征转化为向量的方式可以参考步骤101中的相关描述，为避免重复，在此不再赘述。

b)构造M*K维特征权重矩阵；该特征权重矩阵可以理解为模型的待定参数，比如可以用E表示：

其中，矩阵E由M个K维行向量{e₁,e₂......e_M}组成，每个行向量e_i被称为特征向量。K可以指定任意整数，通常取值在32～128之间。

c)输入向量x和特征权重矩阵E做矩阵乘法得到输入特征权重向量f:

其中，x_i表示输入向量x第i维的值。

d)将向量f通过深度神经网络(Deep Neural Networks，简称DNN，得到K维用户向量u＝DNN(f)；其中，神经网络DNN可以为2层的神经网络DNN，然而，本实施方式对此不做具体限定。

e)在矩阵E中包含N个视频ID对应的特征权重向量子集：{e_v1,e_v2.......e_vN},使用向量u分别与这些视频ID对应的特征权重向量做内积，得到N维向量v，表示用户对每个视频的喜好得分。

v＝(<u,e_v1>,<u,e_v2>......<u,e_vN>)

f)使用softmax函数对向量v做概率化，得到N维点击概率向量p＝(p₁,p₂......p_N)；其中,

v_i：表示用户对视频i的喜爱得分，对应向量v的第i维分量，p_i：表示用户对视频i的点击概率，对应向量p的第i维分量。

由此构造的点击概率向量，具有各维度点击概率求和等于1的特点。也就是说，通过本实施方式中的点击概率预测模型可以预测得到目标用户对待推荐的各视频的点击概率，且目标用户对待推荐的各视频的点击概率之和等于1。因此，可认为点击率最高的维度对应的视频ID就是用户最有可能点击的视频。因此本实施方式中的点击概率预测模型可以直接预测用户最可能点击视频，而非目前传统的模型只能预测用户对某个视频的点击概率。

可以理解为，传统的点击概率预测模型训练时采用一对一的方式，即每一个样本仅用来构建一个用户和一个视频之间的点击概率预测值。若想构建一个用户对N个视频的点击概率预测值，则需要使用N个样本。此外，构建每个点击概率预测值的过程完全独立，即同一个用户对于不同视频的点击概率预测值之间不存在任何联系。本实施方式中点击概率预测模型训练时采用一对全部的方式，即使用一个样本也能同时构建一个用户与全部视频(假设N个)点击概率向量(N个点击概率预测值)，且这些点击概率预测值的和为1。

为便于理解可以参考如下示例：

假设总共有5个待推荐的视频，当前有一个样本表明用户u点击了视频1。对于传统的模型，根据此样本仅会构建用户u对视频1的预测点击概率。然而，本实施方式中的模型，会直接构建用户u对视频1，视频2……视频5的点击概率预测向量。事实上，针对传统的模型最合适的应用场景是：当某个用户看到某个视频时，预测其点击该视频的概率。而本实施方式中对应的场景是：当某个用户同时看到多个视频时，分别预测每个视频多大可能被点击。显然后者更贴近实际的场景，因为一个用户最终是否点击一个视频不仅取决于用户和该视频本身，还取决于同时展现的其它视频。

例如：视频1是电影《囧妈》的片花、视频2是电影《疯狂的外星人》的片花，假设用户u恰好喜欢喜剧电影，则传统的模型与本实施方式中的模型的区别在于：

若采用传统的模型，可能预测u对视频1的点击概率是0.6，对视频2的点击概率是0.59。这说明用户当看到视频1时有60％的概率点击，当用户看到视频2时有59％的概率点击。然而，这并不能说明用户更喜欢视频1。因为在模型训练过程中，当输入一个样本后，模型只会优化当前样本对应视频的点击概率，而不会同时优化该用户对其它视频的点击概率。由此可以认为，传统模型对每个视频点击概率的优化都是在不同条件(样本)下各自进行的。如果使用预估点击概率的绝对数值来衡量用户u与不同视频之间的差异可能会出现偏差，因为无法确定这种差异到底是由于用户真实兴趣的差别带来的还是由于模型对不同视频点击概率的优化是在不同条件下进行的从而带来的误差造成的。

若采用本实施方式中的模型，可能预测当u同时看到视频1和视频2时点击率分别为0.49和0.51。这表示当同时看到两个视频的时候，用户u更倾向于点击后者。与传统模型不同的是，使用本实施方式中的模型时，并不关注预测点击概率本身的绝对数值，可以按照点击概率预测值的相对大小对各视频进行排序即可。由于在训练此模型的过程中，输入每个样本后，都会同时预测当前用户对全部视频的点击概率并且要求这些概率和为1，因此在优化这些点击概率时，彼此之间存在较强的相互约束关系。当样本数量足够多，训练足够充分的情况下，各个视频点击概率预测值相对大小趋势更稳定。所以，用户对视频1和视频2的预测点击概率之间的差异更可能是用户自身兴趣差别带来的。

2)构造损失函数

对于同一个样本，若模型的预测值与样本标签有一定概率不一致，则认为模型预测产生了损失。针对本实施方式中的模型，预测值为点击概率向量p(N维)，样本标签为用户当前观看的视频ID向量y(N维)，适合使用交叉熵损失作为模型的损失函数。本实施方式中，构建的损失函数可以如下：

其中，L为通过损失函数计算的损失值，S为视频样本的总数，y_k,i为第k个视频样本的标签向量的第i维分量，p_i(x_k)为基于第k个视频样本预测的第i个视频的点击概率，w_k为第k个视频样本对应的样本权重，N为需要预测点击概率的视频的数量。w_k的值由第k个视频样本的观看时长确定，具体可以参考上述的关于样本权重的计算公式。

在一个例子中，上述容易损失函数可以化简得到：

可以理解为，模型的损失L与样本集的点击概率(对数)的加权和呈负相关。对于传统的模型，样本权重均为1，通过训练令模型损失L达到最小值，使得此刻样本集的每个样本点击率(对数)的和达到最大值，实现优化点击概率指标的目的。而本实施方式中的模型，样本权重为w_k，通过训练使模型损失L达到最小值，能够使得此刻样本集内每个样本的观看时长(对数)*点击概率(对数)的和达到最大值，实现同时优化观看时长和点击概率两个指标的目的。其中，观看时长(对数)是指：样本权重的计算公式中log_Δt(t+1)，即对观看时长取了对数；点击概率(对数)是指：损失函数的公式中logp_i(x_k)，即对点击概率取了对数。

换言之，传统的模型中样本点击概率(对数)越高，推荐得分越高，而本实施方式的模型中样本点击概率(对数)*观看时长(对数)越高，推荐得分越高。相比于传统的模型，使用本实施方式中的模型进行推荐时，当点击概率相差不大的情况下，曾经被用户观看更长时间的视频必然会被优先推荐出来；同理，当历史播放时长相差不多的情况下，预测点击概率更高的视频必定会被优先推荐出来；如果两个视频的预测点击概率和历史播放时长相差较大，综合收益更大的视频会被推荐出来，综合收益的评价指标就是点击概率(对数)*观看时长(对数)。

为便于理解，本实施方式中的训练过程，可以参考图2。图2中展示了上述构建模型的a)至f)以及构建的损失函数的过程示意。

在训练完点击概率预测模型后，可以利用该点击概率预测模型预测目标用户对待推荐的各视频的点击概率。也就是说，将步骤101中得到的输入向量输入点击概率预测模型，从而可以输出目标用户对待推荐的各视频的点击概率。

为便于理解，从输入向量给点击概率预测模型，到输出目标用户对待推荐的各视频的点击概率的过程，可以参考图3，包括：

步骤301：根据输入向量和点击概率预测模型中的特征权重矩阵，获取输入特征权重向量。

其中，点击概率预测模型中的特征权重矩阵为通过上述的模型训练所训练得到的模型参数。在具体实现中，可以将输入向量和特征权重矩阵的乘积，作为输入特征权重向量。假设，将输入向量记为x，特征权重矩阵记为E，输入特征权重向量记为向量f，则可以得到：

f＝x*E

步骤302：将输入特征权重向量输入点击概率预测模型中的神经网络，得到目标用户向量。

其中，神经网络中包括：通过上述的模型训练所训练得到的模型参数。在具体实现中，该神经网络可以为DNN，可选的该DNN可以为两层的DNN。将向量f通过该两层的DNN后，可以得到目标用户向量u＝DNN(f)。

步骤303：根据特征权重矩阵和目标用户向量，得到用于表征目标用户对待推荐的各视频的喜好得分的评分向量。

在一个例子中，可以根据特征权重矩阵，获取待推荐的各视频对应的特征权重向量子集，然后分别对待推荐的各视频对应的特征权重向量子集与目标用户向量求内积，得到用于表征目标用户对待推荐的各视频的喜好得分的评分向量。

在具体实现中，特征权重矩阵E，可以包含待推荐的各视频对应的特征权重向量子集，比如待推荐的各视频有N个，则特征权重矩阵E中可以包含N个视频ID对应的特征权重向量组成的集合，该集合可以表示为：

{e_v1,e_v2.......e_vN}

然后，使用向量u分别与N个视频ID对应的特征权重向量做内积，得到N维向量v，表示用户对每个视频的喜好得分，即得到用于表征目标用户对待推荐的N个视频的喜好得分的评分向量v：

v＝(<u,e_v1>,<u,e_v2>......<u,e_vN>)

步骤304：根据评分向量，确定目标用户对待推荐的各视频的点击概率。

在一个例子中，可以使用softmax函数对向量v做概率化，得到N维点击概率向量p＝(p₁,p₂......p_N)；其中,

v_i：表示用户对视频i的喜爱得分，对应向量v的第i维分量，p_i：表示用户对视频i的点击概率，对应向量p的第i维分量。由此可以看出，目标用户对待推荐的各视频的点击概率之和为1。

步骤103：根据目标用户对待推荐的各视频的点击概率，对目标用户推荐待推荐的各视频。

在一个例子中，可以根据目标用户对待推荐的各视频的点击概率，对待推荐的各视频进行排序，点击概率越高排序越靠前，点击概率越低排序越靠后，然后按照点击概率从高到低的顺序对目标用户推荐待推荐的各视频。也就是说，服务器可以按照点击概率从高到低的顺序向目标用户的终端推送待推荐的各视频。

需要说明的是，本实施方式中的上述各示例均为为方便理解进行的举例说明，并不对本发明的技术方案构成限定。

本实施方式，考虑到，在实际场景下，用户对某个视频是否点击，不仅取决于该视频本身，还取决于与该视频同时展现的其它视频，因此，本发明实施方式中点击概率预测模型输入了目标用户的用户特征和待推荐的所有视频的视频特征，可以同时预测目标用户对待推荐的所有视频的点击概率，使得预测更符合实际。另外，点击概率预测模型根据各视频样本的样本特征训练得到，样本特征至少包括视频样本中的视频被观看的观看时长，即本发明实施方式中以点击概率预测模型为基础，将观看时长作为样本特征融入训练过程，从而实现通过训练一个模型同时优化点击概率和观看时长两种指标，与相关技术中分别训练两个模型相比训练效率和资源使用率至少提升50％。，即降低了训练复杂度、缩短了训练周期、降低了资源消耗量，还提高了预测的点击概率的准确性和合理性。根据目标用户对待推荐的各视频的点击概率，对用户推荐待推荐的各视频，有利于提高用户对所推荐的视频的点击率，提高对用户的推荐体验。

本发明的第二实施方式涉及一种视频推荐方法。本实施方式与第一实施方式大致相同，不同之处在于，第一实施方式中在对点击概率预估模型进行训练时，采用视频样本集中的所有视频样本进行依次训练，而本实施方式中，对视频样本集中的所有视频样本进行分批，然后进行分批训练。下面对本实施方式的视频推荐方法中涉及的训练点击概率预估模型的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的对点击概率预估模型进行训练的流程图可以参考图4，包括：

步骤401：对各视频样本进行分批，确定用于对点击概率预测模型进行分批训练的若干训练批次。

其中，视频样本标注的标签为视频ID标签。例如：有1000万个视频样本，即1000万个候选视频，每个视频样本均具有一个视频ID标签，那么用于表征视频样本的标签的标签向量的维度和预测的点击概率向量的维度N＝1000万。由此可见，在本实施方式采用视频ID作为样本标签的前提下，可能面临标签向量的维度过高的情况。因此，本实施方式中，对各视频样本进行分批，确定用于对点击概率预测模型进行分批训练的若干训练批次；其中，每个训练批次包括少部分的视频样本。也就是说，将所有的视频样本划分进不同的训练批次中，使得每个训练批次中的视频样本的数量不至于过多。

步骤402：根据每个训练批次中的视频样本的视频ID标签，构造用于表征每个训练批次中的视频样本的视频ID标签的标签向量。

比如，在某个训练批次中，有5个视频样本，5个视频样本的视频ID分别为：1，9，100，3000，100000，那么构造的用于表征该训练批次中的视频样本的视频ID标签的标签向量可以为一个5维向量：

视频1:[1,0,0,0,0]

视频9:[0,1,0,0,0]

视频100:[0,0,1,0,0]

视频3000:[0,0,0,1,0]

视频100000:[0,0,0,0,1]

也就是说，在每个批次训练时，构造的标签向量时，不会针对全部候选视频，取而代之的是仅针对本批次中出现的视频构造标签向量，避免了标签向量的维度过高的情况。

可以理解的是，如果一个训练批次中，有5个视频样本，那么最终生成的评分向量v以及点击率预测向量的维度也为5。

步骤403：根据标签向量和每个训练批次中的视频样本的样本特征，训练点击概率预测模型。

具体的说，可以根据每个训练批次的视频ID标签向量和每个训练批次中的视频样本的样本特征，对点击概率预测模型训练一次，每个训练批次的训练完成后，进行一次模型参数的更新，然后再进行下一个训练批次的训练。

在一个例子中，本实施方式中点击概率预测模型的损失函数，可以如下：

其中，B表示一个训练批次中的视频样本的样本数量，通常取值在128～1024之间，其余各字母的含义可以参考第一实施方式中的相关描述，未避免重复，在此不再赘述。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种服务器，如图5所示，包括至少一个处理器501；以及，与至少一个处理器501通信连接的存储器502；其中，存储器502存储有可被至少一个处理器501执行的指令，指令被至少一个处理器501执行，以使至少一个处理器501能够执行第一、或第二实施方式中的视频推荐方法。

其中，存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器501。

处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。

本发明第四实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种视频推荐方法，其特征在于，包括：

获取输入向量；其中，所述输入向量用于表征目标用户的用户特征和待推荐的各视频的视频特征，所述用户特征至少包括所述目标用户对观看过的若干视频的观看时长；

根据所述输入向量和预先训练的点击概率预测模型，确定所述目标用户对所述待推荐的各视频的点击概率；其中，所述点击概率预测模型根据各视频样本的样本特征训练得到，所述样本特征至少包括所述视频样本被观看的观看时长；

根据所述目标用户对所述待推荐的各视频的点击概率，对所述目标用户推荐所述待推荐的各视频。

2.根据权利要求1所述的视频推荐方法，其特征在于，所述视频样本对应有样本权重，所述样本权重基于所述视频样本被观看的观看时长确定。

3.根据权利要求2所述的视频推荐方法，其特征在于，所述样本权重通过如下公式确定：

其中，所述w为所述样本权重，所述Δt为预设的固定时间间隔，所述T为预设的观看时长上限，所述t为所述视频样本被观看的观看时长。

4.根据权利要求2或3所述的视频推荐方法，其特征在于，所述点击概率预测模型的损失函数的表达式如下：

其中，L为通过所述损失函数计算的损失值，S为所述视频样本的总数，y_k,i为第k个视频样本的标签向量的第i维分量，p_i(x_k)为基于所述第k个视频样本预测的第i个视频的点击概率，w_k为所述第k个视频样本对应的样本权重，N为需要预测点击概率的视频的数量。

5.根据权利要求1所述的视频推荐方法，其特征在于，所述根据所述输入向量和预先训练的点击概率预测模型，确定所述目标用户对所述待推荐的各视频的点击概率，包括：

根据所述输入向量和所述点击概率预测模型中的特征权重矩阵，获取输入特征权重向量；

将所述输入特征权重向量输入所述点击概率预测模型中的神经网络，得到目标用户向量；

根据所述特征权重矩阵和所述目标用户向量，得到用于表征所述目标用户对所述待推荐的各视频的喜好得分的评分向量；

根据所述评分向量，确定所述目标用户对所述待推荐的各视频的点击概率。

6.根据权利要求5所述的视频推荐方法，其特征在于，所述根据所述特征权重向量和所述目标用户向量，得到用于表征所述目标用户对所述待推荐的各视频的喜好得分的评分向量，包括：

根据所述特征权重矩阵，获取所述待推荐的各视频对应的特征权重向量子集；

分别对所述待推荐的各视频对应的特征权重向量子集与所述目标用户向量求内积，得到用于表征所述目标用户对所述待推荐的各视频的喜好得分的评分向量。

7.根据权利要求1所述的视频推荐方法，其特征在于，所述视频样本标注的标签为视频ID标签，所述用户特征还包括所述目标用户观看过的若干视频的视频ID，所述样本特征还包括所述视频样本中的用户观看过的若干视频的视频ID。

8.根据权利要求1所述的视频推荐方法，其特征在于，所述视频样本标注的标签为视频ID标签，所述点击概率预测模型通过以下方式训练得到：

对所述各视频样本进行分批，确定用于对所述点击概率预测模型进行分批训练的若干训练批次；

根据每个所述训练批次中的视频样本的视频ID标签，构造用于表征所述每个训练批次中的视频样本的视频ID标签的标签向量；

根据所述标签向量和所述每个所述训练批次中的视频样本的样本特征，训练所述点击概率预测模型。

9.一种服务器，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一所述的视频推荐方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的视频推荐方法。