CN110147464B

CN110147464B - 视频推荐方法、装置、电子设备及可读存储介质

Info

Publication number: CN110147464B
Application number: CN201910295537.8A
Authority: CN
Inventors: 左凯
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2020-11-10
Anticipated expiration: 2039-04-12
Also published as: CN110147464A

Abstract

本公开的实施例提供了一种视频推荐方法、装置、电子设备及可读存储介质，所述方法包括：通过第一模型，提取目标视频的高层语义特征；其中，所述第一模型包括用于提取高层语义特征的至少一个卷积层；将所述目标视频的高层语义特征、所述目标视频的视频特征、以及目标用户的用户特征，输入第二模型；通过所述第二模型输出分类结果；其中，所述分类结果包括：是否向所述目标用户推荐所述目标视频。本公开的实施例可以提高视频推荐的准确率。

Description

视频推荐方法、装置、电子设备及可读存储介质

技术领域

本公开的实施例涉及计算机技术领域，尤其涉及一种视频推荐方法、装置、电子设备及可读存储介质。

背景技术

随着计算机技术和网络技术的发展，视频已经成为人们日常生活中获取信息和享受娱乐的主要载体，通过互联网搜索并观看视频已成为人们获取信息的主流方式。

视频推荐是视频网站帮助用户查找所需视频的方法和工具。相对于传统的视频目录浏览方式或者视频搜索方式，视频推荐能够在用户不确定合适的搜索词的情况下，主动向用户推荐其可能感兴趣的视频，可以减少用户的搜索次数。

例如，可以通过协同过滤计算与用户A最相似的用户群，并且选择与用户A最相似的用户群观看的视频，推荐给用户A，然而，这种方法容易向用户A推荐其完全不感兴趣的内容，导致视频推荐的准确率较低。

或者，还可以根据用户特征和视频特征训练用户的兴趣偏好模型，根据用户兴趣偏好模型，可以向用户推荐符合其兴趣偏好的视频。然而，这种方法需要人工提取用户特征和视频特征，不仅需要花费大量的人力成本，而且人工提取的特征难以覆盖海量的用户数据，拟合能力不足，进而影响视频推荐的准确率。

发明内容

本公开的实施例提供一种视频推荐方法、装置、电子设备及可读存储介质，用以提高视频推荐的准确率。

根据本公开的实施例的第一方面，提供了一种视频推荐方法，所述方法包括：

通过第一模型，提取目标视频的高层语义特征；其中，所述第一模型包括用于提取高层语义特征的至少一个卷积层；

将所述目标视频的高层语义特征、所述目标视频的视频特征、以及目标用户的用户特征，输入第二模型；

通过所述第二模型输出分类结果；其中，所述分类结果包括：是否向所述目标用户推荐所述目标视频。

根据本公开的实施例的第二方面，提供了一种视频推荐装置，所述装置包括：

特征提取模块，用于通过第一模型，提取目标视频的高层语义特征；其中，所述第一模型包括用于提取高层语义特征的至少一个卷积层；

特征输入模块，用于将所述目标视频的高层语义特征、所述目标视频的视频特征、以及目标用户的用户特征，输入第二模型；

分类输出模块，用于通过所述第二模型输出分类结果；其中，所述分类结果包括：是否向所述目标用户推荐所述目标视频。

根据本公开的实施例的第三方面，提供了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现前述视频推荐方法。

根据本公开的实施例的第四方面，提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述视频推荐方法。

本公开的实施例提供了一种视频推荐方法、装置、电子设备及可读存储介质，所述方法包括：

通过第一模型，提取目标视频的高层语义特征；其中，所述第一模型包括用于提取高层语义特征的至少一个卷积层；将所述目标视频的高层语义特征、所述目标视频的视频特征、以及目标用户的用户特征，输入第二模型；通过所述第二模型输出分类结果；其中，所述分类结果包括：是否向所述目标用户推荐所述目标视频。

本公开的实施例在对目标视频进行分类的过程中，在具体特征的基础上，结合目标视频的高层语义特征，由于所述高层语义特征为通过第一模型的卷积层提取得到，能够体现语义或者意图等抽象特征，因此，相对于仅基于人工获取的具体特征，本公开的实施例得到的分类结果更加符合语义或者意图等抽象特征，可以提高分类结果的准确性，进而可以提高视频推荐的准确率。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开的一个实施例中的视频推荐方法的步骤流程图；

图2示出了在本公开的一个实施例中的视频推荐装置的结构图；

图3示出了本公开的一个实施例提供的电子设备的结构图。

具体实施方式

下面将结合本公开的实施例中的附图，对本公开的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的实施例一部分实施例，而不是全部的实施例。基于本公开的实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开的实施例保护的范围。

实施例一

参照图1，其示出了本公开的一个实施例中的视频推荐方法的步骤流程图，包括：

步骤101、通过第一模型，提取目标视频的高层语义特征；其中，所述第一模型包括用于提取高层语义特征的至少一个卷积层；

步骤102、将所述目标视频的高层语义特征、所述目标视频的视频特征、以及目标用户的用户特征，输入第二模型；

步骤103、通过所述第二模型输出分类结果；其中，所述分类结果包括：是否向所述目标用户推荐所述目标视频。

本公开的视频推荐方法可应用于终端中，所述终端具体包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving PictureExperts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，MovingPicture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

所述第一模型和/或所述第二模型可以为包含多层神经网络的深层神经网络模型。所述神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套：CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-Term Memory，长短时记忆)网络、RNN(Simple Recurrent Neural Network，循环神经网络)、注意力神经网络等。

需要说明的是，本公开实施例中涉及的目标视频可以为任意的待推荐的视频，目标用户可以为待推荐视频的任一用户，在实际应用中，可以针对每个目标用户执行本公开实施例提供的视频推荐方法，以确定是否向目标用户推荐目标视频。

所述第一模型包括用于提取高层语义特征的至少一个卷积层，因此，所述第一模型可用于提取目标视频的高层语义特征，所述高层语义特征是指区别于视频的具体特征(如标题)的抽象特征，所述高层语义特征属于人工无法具体化的特征，可以根据事件、场景、类别等其他监督信息学习得到。

在本公开的实施例中，所述第一模型可以为多层卷积神经网络，所述多层卷积神经网络中的高层网络可用于提取视频的高层语义特征，所述多层卷积神经网络的低层网络可用于提取视频的具体特征。

在通过第一模型提取目标视频的高层语义特征之后，可以将目标视频的高层语义特征、目标视频的视频特征、以及目标用户的用户特征，输入第二模型，所述第二模型可用于对目标视频进行分类并输出分类结果，也即输出是否向所述目标用户推荐所述目标视频的结果。

在本公开的一种可选实施例中，所述视频特征具体可以包括：视频标题、视频类型、视频内容中的至少一项。例如，目标视频可以具有如下视频特征：目标视频的视频类型为娱乐类型，且目标视频的视频内容中包含明星A。

在本公开的一种可选实施例中，所述用户特征具体可以包括：基本用户特征和/或扩展用户特征；其中，所述基本用户特征具体可以包括：年龄、性别、所在地区中的至少一项；所述扩展用户特征具体可以包括：婚姻状况、子女状况、擅长领域中的至少一项。

其中，所述基本用户特征指可以直接获取得到的用户特征，比如用户的年龄、性别等，所述扩展用户特征指通过对用户的行为数据进行收集和分析进一步得到的用户特征。在本公开的一种可选实施例中，所述扩展用户特征可以为根据用户的历史用户原创内容进行分析所得到。例如，通过对用户发表的评论等数据进行收集并分析，可以得知用户是否结婚、是否有小孩等扩展用户特征。

在具体应用中，可以通过人工分析的方式，获取目标视频的视频特征以及目标用户的用户特征，或者，也可以通过模型学习的方式，获取目标视频的视频特征以及目标用户的用户特征。例如，可以通过视频特征提取模型提取目标视频的视频特征，以及通过用户特征提取模型提取目标用户的用户特征，所述视频特征提取模型和用户特征提取模型可以为区别于所述第一模型和第二模型的其它模型，可以理解，本公开的实施例对所述视频特征和用户特征的获取方式不加以限制。

可以看出，本公开的实施例在对目标视频进行分类的过程中，在具体特征的基础上，结合目标视频的高层语义特征，相对于仅基于人工获取的具体特征，本公开的实施例可以解决人工提取的特征难以覆盖海量的用户数据，拟合能力不足的问题，此外，由于所述高层语义特征为通过第一模型的卷积网络提取得到，能够体现语义或者意图等抽象特征，因此，相对于仅基于人工获取的具体特征，本公开的实施例得到的分类结果更加符合语义或者意图等抽象特征，可以提高分类结果的准确性，进而可以提高视频推荐的准确率。

在本公开的一种可选实施例中，所述通过第一模型，提取目标视频的高层语义特征，具体可以包括：

步骤S11、对所述目标视频进行分帧处理，以得到所述目标视频对应的视频图像序列；

步骤S12、将所述视频图像序列中的视频图像调整为预置尺寸并依次输入所述第一模型，通过所述第一模型中的至少一个卷积层对所述视频图像执行卷积操作，得到所述视频图像序列的卷积特征；

步骤S13、对最后一个卷积层输出的卷积特征在时序方向上执行全局最大池化操作，得到所述视频图像序列的池化特征；

步骤S14、将所述池化特征输入全连接层，以通过所述全连接层输出所述目标视频的高层语义特征。

在具体应用中，视频是由一帧帧的图像组成的，因此，本公开的实施例首先对所述目标视频进行分帧处理，以得到所述目标视频对应的视频图像序列；视频图像可以用向量(w，h，c)表示，其中w表示视频图像的宽度，h表示视频图像的高度，c表示视频图像的维度，比如RGB视频图像的维度为3，分别表示图像3基色(红绿蓝)，则目标视频可表示为(t，w，h，c)，其中，t表示目标视频的长度(如视频图像序列的帧数)。

由于不同的目标视频可能具有不同的尺寸以及长度，而长度方向的调整会破坏视频的语义特征，因此，本公开的实施例在将所述视频图像序列输入第一模型之前，对所述视频图像序列中的视频图像进行尺寸缩放，调整为预置尺寸，使得输入第一模型的视频图像尺寸相同，也即具有相同的宽度和高度。

所述第一模型中的至少一个卷积层对所述视频图像执行卷积操作，得到所述视频图像序列的卷积特征。在本公开的实施例中，所述第一模型的三维卷积核可以表示为(tc，wc，hc，c)，在不考虑pad(填充)的情况下，卷积特征的维度计算公式可以如下：

t_f＝(t-tc)/stride_t+1 (1)

w_f＝(w-wc)/stride_w+1 (2)

h_f＝(h-hc)/stride_h+1 (3)

其中，t_f、w_f、h_f表示卷积特征的维度，stride_t、stride_w、stride_h表示三维卷积核移动的步长。

最后一个卷积层输出的卷积特征再经过全连接层的全连接操作后，即可通过全连接层输出所述目标视频的高层语义特征。全连接层要求输入的参数具有相同的维度，而在本公开的实施例中，视频图像在经过尺寸调整(宽度w和高度h的缩放调整)之后，对于不同的目标视频，唯一不同的就是t了。因此，本公开的实施例对最后一个卷积层输出的卷积特征在时序方向上执行全局最大池化操作，得到所述视频图像序列的池化特征，由此可以使得具有不同长度t的目标视频的池化特征具有相同的维度。将所述池化特征输入全连接层，即可通过所述全连接层输出所述目标视频的高层语义特征。

在本公开的一种可选实施例中，所述第一模型和第二模型可以为两个独立的模型，或者，所述第一模型和第二模型可以为同一个模型中的两个子模型。

如果第一模型和第二模型是两个独立的模型，则可以对第一模型和第二模型分别进行训练；如果第一模型和第二模型是同一个模型中的两个子模型，则需要同时训练第一模型和第二模型。

假设已收集得到用于训练第一模型和第二模型的视频样本数据和用户样本数据，其中，视频样本数据中包括：视频样本特征；所述用户样本数据中包括：用户样本特征。下面分别说明本公开的第一模型和第二模型的两种训练方式。

训练方式一

第一模型和第二模型是同一个模型中的两个子模型，则可以将第一模型和第二模型作为一个端到端的模型，同时训练第一模型和第二模型。

具体地，可以将视频样本数据输入第一模型，第一模型通过至少一个卷积层提取视频样本数据的高层语义特征，并且将第一模型的全连接层输出的高层语义特征，以及视频样本特征和用户样本特征，输入第二模型，通过第二模型输出分类结果(是否推荐)，再将第二模型输出的分类结果回传至第一模型，第一模型将第二模型回传的分类结果作为监督信息，指导第一模型学习视频样本数据的高层语义特征，并且根据所述监督信息调整第一模型的模型参数以及第二模型的模型参数。

在训练方式一中，可以实现第二模型对第一模型的梯度回传，即将第一模型和第二模型作为一个端到端的模型。可选地，第二模型的DNN(Deep Neural Network，深度神经网络)可以简化为一层全连接，全连接公式具体可以表示为：

y＝w2×concat(f1,f2,f3)+b (4)

其中，w2和b是全连接的参数，假设concat(f1,f2,f3)是一个长度为3的一维向量，y输出也是一个长度为3的一维向量。f1、f2、f3分别表示用户特征、视频特征、高层语义特征，高层语义特征f3可以简化为：f3＝w1×f0+b，其中f0表示输入，(w1，b)表示第一模型。

当第二模型的模型参数w2更新时，需要计算w2的梯度，也就是grad2。因为第二模型(简化模型)公式为y＝w2×concat(f1,f2,f3)+b，因此w2的梯度是y对w2求导，也就是concat(f1,f2,f3)，可写为微分形式：

另外，根据链式法则，梯度还需要乘以topdiff(即上一层传回来的梯度)，而在第二模型中，上一层是loss(损失计算)层，loss层传递回来的梯度为

因此第二模型的梯度回传公式可以表示为：

同样地，利用链式法则，第二模型向第一模型传递梯度经过的是f3(即高层语义特征)，因此，在第一模型中，上一层传递回来的梯度

再加上w1本身的梯度

第一模型的梯度回传公式可以为：

训练方式一通过端到端地训练整个模型(第一模型和第二模型)，第一模型的监督信息也是第二模型的监督信息，即利用是否推荐这个分类结果作为监督信息来更新第一模型和第二模型的模型参数。第一模型的最后一层输出就是高层语义特征(在训练方式一的情况下，第一模型没有最后的分类层)，且高层语义特征是在是否推荐这个监督信息的指导下学习得到的，由此，使得第一模型学习得到的高层语义特征更加符合分类结果，可以提高第一模型提取高层语义特征的准确性以及提高第二模型分类的准确性。

训练方式二

第一模型和第二模型是两个独立的模型，则对第一模型和第二模型单独分别进行训练。

在本公开的一种可选实施例中，所述第一模型可以为根据收集的视频样本数据对应的视频特征、以及所述视频样本数据对应视频特征的标注结果进行训练所得到；其中，所述标注结果至少包括：视频类型和/或视频内容。

具体地，可以将视频样本数据输入第一模型，利用视频样本数据中的其他监督信息(如事件、场景、类型等)训练第一模型，第一模型的最后一层可以是分类层，输出的是分类结果，比如输出视频类型、是否包含明星等，分类层是根据倒数第二层提取得到的高层语义特征，对视频进行分类得到分类结果，因此，在训练方式二中，可以提取第一模型的倒数第二层输出的特征作为高层语义特征。

在第一模型训练完成之后，可以将第一模型提取的高层语义特征和收集的视频样本特征、用户样本特征相结合，训练第二模型，在训练第二模型的过程中，第一模型的参数不再进行调整。

在本公开的一种可选实施例中，所述第二模型可以为根据收集的用户的正样本数据、负样本数据、以及通过所述第一模型提取的所述正样本数据的高层语义特征和所述负样本数据的高层语义特征进行训练所得到；

其中，所述正样本数据具体可以包括：所述用户的用户特征、所述用户参与视频的视频特征、以及所述用户参与视频的高层语义特征；所述负样本数据包括：所述用户的用户特征、所述用户未参与视频的视频特征、以及所述用户未参与视频的高层语义特征。

在本公开的实施例中，所述用户参与视频可以理解为与用户有关系的视频，例如用户观看、收藏或者下载过的视频。所述用户未参与视频可以理解为与用户没有关系的视频，例如用户未观看、收藏且未下载过的视频。

由此，所述正样本数据可以表示用户特征与用户感兴趣的视频的视频特征以及高层语义特征之间的关联关系，负样本数据可以表示用户特征与用户不感兴趣的视频的视频特征以及高层语义特征之间的关联关系。通过对大量的正样本数据和负样本数据进行训练，可以预测用户对某个视频的感兴趣程度，进而可以得到更加准确的分类结果，向用户更有针对性的推荐视频。

在本公开的一种可选实施例中，在通过所述第二模型输出分类结果之后，所述方法还可以包括：

根据所述分类结果，更新所述第一模型、以及所述第二模型的模型参数；和/或

根据所述目标用户针对所述分类结果的参与情况，更新所述第一模型、以及所述第二模型的模型参数。

在第一模型和第二模型训练完成之后，根据第一模型和第二模型进行视频推荐的过程中，还可以根据第二模型输出的分类结果，更新所述第一模型、以及所述第二模型的模型参数。例如，可以判断第二模型输出的分类结果是否准确，如果分类结果准确，则可以将当前的目标视频和目标用户加入正样本数据，如果分类结果不准确，则可以将当前的目标视频和目标用户加入负样本数据。

此外，还可以获取目标用户针对所述分类结果的参与情况，例如，如果第二模型输出的分类结果为：向目标用户推荐目标视频，且在向该目标用户推荐该目标视频之后，该目标用户点击并观看了该目标视频，则可以将该目标用户和目标视频加入正样本数据；如果在向该目标用户推荐该目标视频之后，该目标用户并未点击该目标视频，则可以将该目标用户和目标视频加入负样本数据等。

由此，可以根据分类结果的准确性以及用户对分类结果的参与情况，更新训练数据，以进一步训练并更新第一模型和第二模型的模型参数，得到更优的第一模型和第二模型，以进一步提高视频推荐的准确率。

综上，本公开的实施例通过第一模型的至少一个卷积层，提取目标视频的高层语义特征，并且将所述目标视频的高层语义特征、所述目标视频的视频特征、以及目标用户的用户特征，输入第二模型，以通过所述第二模型输出分类结果；其中，所述分类结果包括：是否向所述目标用户推荐所述目标视频。本公开的实施例在对目标视频进行分类的过程中，在具体特征的基础上，结合目标视频的高层语义特征，由于所述高层语义特征为通过第一模型的卷积层提取得到，能够体现语义或者意图等抽象特征，因此，相对于仅基于人工获取的具体特征，本公开的实施例得到的分类结果更加符合语义或者意图等抽象特征，可以提高分类结果的准确性，进而可以提高视频推荐的准确率。

实施例二

参照图2，其示出了在本公开的一个实施例中的视频推荐装置的结构图，具体如下。

特征提取模块201，用于通过第一模型，提取目标视频的高层语义特征；其中，所述第一模型包括用于提取高层语义特征的至少一个卷积层；

特征输入模块202，用于将所述目标视频的高层语义特征、所述目标视频的视频特征、以及目标用户的用户特征，输入第二模型；

分类输出模块203，用于通过所述第二模型输出分类结果；其中，所述分类结果包括：是否向所述目标用户推荐所述目标视频。

可选地，所述特征提取模块201，包括：

分帧子模块，用于对所述目标视频进行分帧处理，以得到所述目标视频对应的视频图像序列；

卷积子模块，用于将所述视频图像序列中的视频图像调整为预置尺寸并依次输入所述第一模型，通过所述第一模型中的至少一个卷积层对所述视频图像执行卷积操作，得到所述视频图像序列的卷积特征；

池化子模块，用于对最后一个卷积层输出的卷积特征在时序方向上执行全局最大池化操作，得到所述视频图像序列的池化特征；

全连接子模块，用于将所述池化特征输入全连接层，以通过所述全连接层输出所述目标视频的高层语义特征。

可选地，所述第一模型为根据收集的视频样本数据对应的视频特征、以及所述视频样本数据对应视频特征的标注结果进行训练所得到；其中，所述标注结果至少包括：视频类型和/或视频内容。

可选地，所述第二模型为根据收集的用户的正样本数据、负样本数据、以及通过所述第一模型提取的所述正样本数据的高层语义特征和所述负样本数据的高层语义特征进行训练所得到；

其中，所述正样本数据包括：所述用户的用户特征、所述用户参与视频的视频特征、以及所述用户参与视频的高层语义特征；所述负样本数据包括：所述用户的用户特征、所述用户未参与视频的视频特征、以及所述用户未参与视频的高层语义特征。

可选地，所述装置还包括：

第一更新模块，用于根据所述分类结果，更新所述第一模型、以及所述第二模型的模型参数；和/或

第二更新模块，用于根据所述目标用户针对所述分类结果的参与情况，更新所述第一模型、以及所述第二模型的模型参数。

可选地，所述用户特征包括：基本用户特征和/或扩展用户特征；其中，所述基本用户特征包括：年龄、性别、所在地区中的至少一项；所述扩展用户特征包括：婚姻状况、子女状况、擅长领域中的至少一项；所述视频特征包括：视频标题、视频类型、视频内容中的至少一项。

可选地，所述扩展用户特征为根据用户的历史用户原创内容进行分析所得到。

综上所述，本公开的实施例提供了一种视频推荐装置，所述装置包括：特征提取模块，用于通过第一模型，提取目标视频的高层语义特征；其中，所述第一模型包括用于提取高层语义特征的至少一个卷积层；视频分类模块，用于将所述目标视频的高层语义特征、所述目标视频的视频特征、以及目标用户的用户特征，输入第二模型，以通过所述第二模型输出分类结果；其中，所述分类结果包括：是否向所述目标用户推荐所述目标视频。本公开的实施例提供的视频推荐装置能够提高分类结果的准确性。

本公开的实施例还提供了一种电子设备，参见图3，包括：处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的计算机程序3021，所述处理器执行所述程序时实现前述实施例的视频推荐方法。

本公开的实施例还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述实施例的视频推荐方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开的实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的实施例的内容，并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本公开的实施例的示例性实施例的描述中，本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的实施例的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本公开的实施例的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的排序设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本公开的实施例的较佳实施例而已，并不用以限制本公开的实施例，凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本公开的实施例的保护范围之内。

以上所述，仅为本公开的实施例的具体实施方式，但本公开的实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的实施例的保护范围之内。因此，本公开的实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频推荐方法，其特征在于，所述方法包括：

通过所述第二模型输出分类结果；其中，所述分类结果包括：是否向所述目标用户推荐所述目标视频；

所述第二模型为根据收集的用户的正样本数据、负样本数据、以及通过所述第一模型提取的所述正样本数据的高层语义特征和所述负样本数据的高层语义特征进行训练所得到；

其中，所述正样本数据包括：所述用户的用户特征、所述用户参与视频的视频特征、以及所述用户参与视频的高层语义特征；所述负样本数据包括：所述用户的用户特征、所述用户未参与视频的视频特征、以及所述用户未参与视频的高层语义特征；

所述高层语义特征根据监督信息学习得到，所述监督信息包括事件、场景、以及类别。

2.根据权利要求1所述的方法，其特征在于，所述通过第一模型，提取目标视频的高层语义特征，包括：

对所述目标视频进行分帧处理，以得到所述目标视频对应的视频图像序列；

将所述视频图像序列中的视频图像调整为预置尺寸并依次输入所述第一模型，通过所述第一模型中的至少一个卷积层对所述视频图像执行卷积操作，得到所述视频图像序列的卷积特征；

对最后一个卷积层输出的卷积特征在时序方向上执行全局最大池化操作，得到所述视频图像序列的池化特征；

将所述池化特征输入全连接层，以通过所述全连接层输出所述目标视频的高层语义特征。

3.根据权利要求1所述的方法，其特征在于，所述第一模型为根据收集的视频样本数据对应的视频特征、以及所述视频样本数据对应视频特征的标注结果进行训练所得到；其中，所述标注结果至少包括：视频类型和/或视频内容。

4.根据权利要求1所述的方法，其特征在于，在通过所述第二模型输出分类结果之后，所述方法还包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述用户特征包括：基本用户特征和/或扩展用户特征；其中，所述基本用户特征包括：年龄、性别、所在地区中的至少一项；所述扩展用户特征包括：婚姻状况、子女状况、擅长领域中的至少一项；所述视频特征包括：视频标题、视频类型、视频内容中的至少一项。

6.根据权利要求5所述的方法，其特征在于，所述扩展用户特征为根据用户的历史用户原创内容进行分析所得到。

7.一种视频推荐装置，其特征在于，所述装置包括：

分类输出模块，用于通过所述第二模型输出分类结果；其中，所述分类结果包括：是否向所述目标用户推荐所述目标视频；

8.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的视频推荐方法。

9.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-6中任一项所述的视频推荐方法。