CN111491187A

CN111491187A - 视频的推荐方法、装置、设备及存储介质

Info

Publication number: CN111491187A
Application number: CN202010308832.5A
Authority: CN
Inventors: 张新雯; 马连洋; 孙鑫龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-04
Anticipated expiration: 2040-04-15
Also published as: CN111491187B

Abstract

本申请公开了一种视频的推荐方法、装置、设备及存储介质，所述方法应用于人工智能的机器学习领域，所述方法包括：获取与用户帐号相关的目标视频；调用画风识别模型获取目标视频的画风类别，画风识别模型是用于提取目标视频的视频风格特征、根据视频风格特征确定目标视频的画风类别的机器学习模型；根据画风类别确定用户帐号的推荐视频，推荐视频与目标视频的画风类别相同；向客户端发送推荐视频。该方法可以准确识别视频的画风、风格，从而使服务器可以更好地向用户推荐用户感兴趣的视频。

Description

视频的推荐方法、装置、设备及存储介质

技术领域

本申请涉及人工智能的机器学习领域，特别涉及一种视频的推荐方法、装置、设备及存储介质。

背景技术

feed(饲养)流是一种持续更新并将内容呈现给用户的信息流。例如，Timeline(时间线)是一种feed流的展示方式，Timeline按照feed流内容更新的时间先后顺序将内容展示给用户，微博、朋友圈等都是Timeline形式的feed流。

在一种小视频播放的feed流中，会根据用户的兴趣点，向用户推荐内容。相关技术中，服务器根据用户历史播放的小视频的标题、小视频内容、小视频标签等信息向用户推荐相关视频。

小视频标题、小视频内容、小视频标签等都是对小视频的实际内容进行的标记或分类，但相同内容使用不同的拍摄手法进行拍摄，得到的小视频的视觉效果是完全不同的，只根据小视频的实际内容向用户推荐相关的小视频，无法准确获取到用户的实际兴趣点。例如，用户喜欢观看美食家的美食品鉴视频，服务器实际向用户推荐的却是土味吃播视频。

发明内容

本申请实施例提供了一种视频的推荐方法、装置、设备及存储介质，可以准确识别视频的画风，从而使服务器可以更好地向用户推荐用户感兴趣的视频。

所述技术方案如下：

根据本申请的一个方面，提供了一种视频的推荐方法，所述方法包括：

获取与用户帐号相关的目标视频；

调用画风识别模型获取所述目标视频的画风类别，所述画风识别模型是用于提取所述目标视频的视频风格特征、根据所述视频风格特征确定所述目标视频的所述画风类别的机器学习模型；

根据所述画风类别确定所述用户帐号的推荐视频，所述推荐视频与所述目标视频的所述画风类别相同；

向客户端发送所述推荐视频。

根据本申请的另一个方面，提供了一种视频的推荐方法，所述方法包括：

显示第一用户界面，所述第一用户界面是用于视频浏览的用户界面，所述第一用户界面包括目标视频；

根据接收到的人机交互操作，生成推荐视频浏览指令，所述推荐视频浏览指令用于浏览推荐视频；

显示第二用户界面，所述第二用户界面是用于视频浏览的用户界面，所述第二用户界面包括推荐视频，所述推荐视频与所述目标视频的画风类别相同。

根据本申请的另一方面，提供了一种视频的推荐装置，所述装置包括：

获取模块，用于获取与用户帐号相关的目标视频；

模型模块，用于调用画风识别模型获取所述目标视频的画风类别，所述画风识别模型是用于提取所述目标视频的视频风格特征、根据所述视频风格特征确定所述目标视频的所述画风类别的机器学习模型；

确定模块，用于根据所述画风类别确定所述用户帐号的推荐视频，所述推荐视频与所述目标视频的所述画风类别相同；

发送模块，用于向客户端发送所述推荐视频。

显示模块，用于显示第一用户界面，所述第一用户界面是用于视频浏览的用户界面，所述第一用户界面包括目标视频；

交互模块，用于接收通过用户操作生成的推荐视频浏览指令，所述推荐视频浏览指令用于浏览推荐视频，所述推荐视频是服务器调用画风识别模型获取所述目标视频的画风类别后，根据所述目标视频的所述画风类别确定的，所述画风识别模型是用于提取所述目标视频的视频风格特征、根据所述视频风格特征确定所述目标视频的所述画风类别的机器学习模型；

所述显示模块，还用于显示第二用户界面，所述第二用户界面是用于视频浏览的用户界面，所述第二用户界面包括推荐视频，所述推荐视频与所述目标视频的画风类别相同。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的由服务器执行的视频的推荐方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的由服务器执行的视频的推荐方法。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的由终端执行的视频的推荐方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的由终端执行的视频的推荐方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过根据用户帐号相关的目标视频的画风类别，向用户帐号推荐视频。根据视频的风格对视频进行画风上的分类，根据视频的画风类别确定用户帐号喜欢的视频风格，例如，用户对视频拍摄手法、人物服装、人物妆容、道具类型等视觉感受上的偏好，使推荐视频更符合用户的实际兴趣点，提高服务器向用户推荐视频的准确率，提高用户粘性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的视频的推荐方法的界面示意图；

图2是本申请一个示例性实施例提供的画风识别模型的结构图；

图3是本申请一个示例性实施例提供的服务器的实施环境框图；

图4是本申请一个示例性实施例提供的视频的推荐方法的流程图；

图5是本申请另一个示例性实施例提供的视频的推荐方法的流程图；

图6是本申请另一个示例性实施例提供的视频的推荐方法的流程图；

图7是本申请另一个示例性实施例提供的视频的推荐方法的流程图；

图8是本申请另一个示例性实施例提供的视频的推荐方法的示意图；

图9是本申请另一个示例性实施例提供的视频的推荐方法的流程图；

图10是本申请另一个示例性实施例提供的视频的推荐方法的示意图；

图11是本申请另一个示例性实施例提供的视频的推荐方法的流程图；

图12是本申请另一个示例性实施例提供的视频的推荐方法的流程图；

图13是本申请另一个示例性实施例提供的视频的推荐方法的流程图；

图14是本申请另一个示例性实施例提供的视频的推荐方法的界面示意图；

图15是本申请另一个示例性实施例提供的视频的推荐方法的界面示意图；

图16是本申请另一个示例性实施例提供的视频的推荐装置的框图；

图17是本申请另一个示例性实施例提供的视频的推荐装置的框图；

图18是本申请另一个示例性实施例提供的服务器的结构示意图；

图19是本申请另一个示例性实施例提供的终端的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请实施例涉及的若干个名词进行简介：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请提供的一种视频分类方法：是根据视频的内容对视频进行分类。服务器可以根据视频信息来识别视频内容，视频信息包括：视频标题、视频评论、视频作者对视频标注的分类标签、视频平台维护人员给视频添加的分类标签、其他用户对视频标注的分类标签、其他视频平台中与该视频相关的信息中的至少一种。示例性的，一种根据视频内容对视频进行分类的方法将视频分为如表一所示的多个类别。

表一

表一所示的分类为一级分类，在一级分类下还可以包括二级分类和三级分类，例如，一级分类：娱乐(ent)之下设置有二级分类：内地明星、港台明星等。

使用这种视频分类方法可以从视频内容上对视频进行较好的属性刻画，但只根据视频内容对视频进行分类，在用户体验上却存在问题，具有相同内容的视频，给用户带来的用户体验却不同。例如，如图1中的(1)所示，是用户C上传的美食类视频，视频是以第三人称视角拍摄的吃播视频，视频画面包括人物101，和装满各类食物的碗102，碗102中装有包子、饺子、烤鸡、螃蟹、虾等，且排列杂乱给人一种杂乱无章的感受。而图1中的(2)，是用户D上传的美食类视频，视频是以第一人称视角拍摄的吃播视频，视频画面包括面条103、甜品104和烛台105，且排放有序给人一种精致优雅的感受。两个视频的内容都为美食类视频，但如果用户喜欢如图1中的(2)所示的视频风格，服务器根据该视频的分类：美食类，为用户推荐如图1中的(1)所示的视频，该视频的风格与用户喜欢的视频风格完全不同，根本不符合用户的兴趣。因此，只根据视频内容对视频进行分类，不能准确根据用户的兴趣点为用户推荐视频。

因此，本申请根据视频的画风对视频进行分类。本申请的实施例提供了一种画风识别模型，用于识别视频的画风。示例性的，该画风识别模型用于将输入的视频分为八种画风：三农画风、校园画风、中老年画风、治愈画风、创业励志风、养眼画风、潮酷画风、重口味画风。如表二所示，每种画风分别包括至少一种类型的视频。

表二

画风识别模型通过提取视频在人物、环境、背景音乐、对白、评论等多个方面的画风特征来识别视频的画风。其中，人物特征包括：颜值、性别、年龄、中外名人识别中的至少一种，颜值是对人物的颜值进行连续值打分，例如，颜值打分是0-10分中的任意一个数值。环境特征包括：著名地标建筑、农村、城市、学校、工厂、家庭、汽车内等多种特殊环境、场景的识别。背景音乐特征包括：音乐名称、风格、类型中的至少一种。对白、评论包括：关键词识别、意图识别中的至少一种。

使用本实施例提供的画风识别模型可以根据视频的画风特征确定视频的画风分类，然后根据用户历史观看视频的画风分类确定用户的兴趣点，根据用户的画风偏好为用户匹配类似的视频，提高服务器推荐视频的精准度，提升用户的视频推荐体验。

示例性的，如图2所示，给出了一种画风识别模型的结构图，画风识别模型包括三个部分：数据预处理层707、主干网络特征提取层708、头部frame(视频帧)特征融合层709。

数据预处理层707用于对输入的目标视频进行视频抽帧分段，获取目标视频的原始图像，经过缩放和剪裁获取目标视频的目标图像。示例性的，数据预处理层707用于对视频数据进行预处理，将预处理后的视频数据输入到主干网络特征提取层。预处理的方式包括：将每个视频平分为6段，取每一段视频的中间帧图像组成6帧图像，来代表该视频。将每一帧图像等比缩放(resize)到最小边为256像素的尺度。并将等比缩放后的图像进行剪裁得到224像素×224像素大小的图像。剪裁采用10次剪裁(crop)的策略，将等比缩放后得到的图像从中心位置剪裁出224像素×224像素大小的图像，然后分别从图像的左上角、右上角、左下角、右下角开始剪裁出224像素×224像素大小的图像，得到五种剪裁方式剪裁得到的五个图像，再将等比缩放后得到的图像镜像翻转，继续采用上述的五种剪裁方式剪裁得到五个图像，共得到10个图像。采用10次剪裁的策略可以提高识别准确率。

主干网络特征提取层708采用Inception系列模型、ResNet系列模型或EfficientNet模型中的一种神经网络模型进行特征提取。示例性的，主干网络特征提取层708采用BN-Inception模型对每一帧图像提取256维的帧级别特征向量。

Inception模型又叫Googlenet模型是Google(谷歌)于2014年为参加ILSVRC(ImageNet大规模视觉识别挑战赛)大赛而提出的CNN(Convolutional Neural Networks，卷积神经网络)分类模型。Inception模型包括Inception-v1模型、Inception-v2模型(BN-Inception模型)、Inception-v3模型和Inception-v4模型。Inception-v1模型出自于论文《Going deeper with convolutions(深度卷积)》，Inception-v2模型出自于论文《BatchNormalization(批量规范化)》，Inception-v3模型出自于论文《Rethinking theInception Architecture for Computer Vision(对计算机视觉初始体系结构的再思考)》，Inception-v4模型出自于论文《Inception-v4,Inception-ResNet》。

Residual Network，简称：ResNet(残差网络)，是何凯明团队设计的一种网络架构，在2015年的ILSVRC上获得多项冠军。ResNet模型可以参考论文《Deep ResidualLearning for Image Recognition(基于深度残差学习的图像识别)》，该论文是CVPR(IEEEConference on Computer Vision and Pattern Recognition，IEEE国际计算机视觉与模式识别会议)2016年度的最佳论文。

EfficientNet模型出自Google在2019年5月发布的论文《EfficientNet：Rethinking Model Scaling for Convolutional Neural Networks(卷积神经网络模型尺度的再思考)》。

头部frame特征融合层709将帧级别特征向量融合为视频级特征向量，对视频级特征向量进行下采样，在分类节点得到目标视频的属于各个画风类别的概率值(分类计算值)。头部frame特征融合层可以采用TSN(Temporal Segment Network，时域分割网络)、TRN(Temporal Relation Network，时域关系网络)、NetVLAD(Net Vector of LocallyAggregated Descriptors，局部特征聚合网络)中任意一种算法来实现。示例性的，采用多时间尺度的TRN作为融合策略，通过融合不同尺度的时间信息来提供更加精准的识别结果。对于一个视频级特征向量，将融合得到的视频级特征向量经过全连接层下采样后，在分类节点输出目标视频属于8种画风的一组概率值(分类计算值)。示例性的，头部frame特征融合层709会根据目标视频在多个时间尺度上的多个视频级特征向量，计算得到多组概率值，画风识别模型将多组概率值求和得到一组概率值，画风识别模型最终只输出一组概率值。例如，当帧级别特征向量有6个时，头部frame特征融合层709在6、5、4、3、2五种时间尺度上对帧级别特征向量进行拼接，每种时间尺度(除6时间尺度以外)以三种方式从6个帧级别特征向量中选出对应数量的帧级别特征向量进行拼接，每个时间尺度得到3个视频级特征向量，五种时间尺度共可以得到13个视频级特征向量，在分类节点得到13组概率值，将13组概率值求和得到一组概率值，并将其输出。

TSN模型出自2016年发表在ECCV(European Conference on Computer Vision，欧洲计算机视觉国际会议)的论文《Temporal Segment Networks:Towards Good Practicesfor Deep Action Recognition(时间段网络：走向深度动作识别的良好实践)》。TRN模型出自2018年发表在ECCV的论文《Temporal Relational Reasoning in Videos(视频中的时间关系推理)》。NetVLAD模型出自2016年发表在CVPR的论文《CNN architecture for weaklysupervised place recognition(弱监督位置识别的卷积神经网络体系结构)》，文中提出一种卷积神经网络结构，可以实现端到端的识别，将传统的VLAD(Vector of LocallyAggregated Descriptors，局部聚合向量)结构嵌入到CNN网络结构中去，得到一个新的VLAD层。NetVLAD可以很容易的运用到任何的CNN结构中，并且可以使用反向传播进行优化。

示例性的，画风识别模型还引入了non-local(非局部)插件710的全局响应模块提供注意力机制，将其插入主干网络特征提取层和头部frame特征融合层中，以弥补卷积操作天然的局部响应缺陷。示例性的，对于头部frame特征融合层709和主干网络特征提取层708中的特征向量(帧级别特征向量和视频级特征向量)，首先计算特征图中每个像素与其他所有位置像素的归一化相关性，得到相似矩阵，然后将相似矩阵乘到特征图响应上，从而避免卷积操作局部感受野的弊端，可以在全图范围上，产生特征响应。

non-local模型出自2018年发表在CVPR的论文《Non-local Neural Networks(非局部神经网络)》。

对于画风识别模型的训练，本实施例首先采用了大规模视频弱监督训练的方法得到预训练权重，利用预训练权重对画风识别模型进行初始化。大规模视频弱监督训练，是利用数据库中已有的大量视频，以及这些视频已有的分类标签，例如，分类标签包括：根据视频内容对视频标注的标签、视频作者给视频标注的标签等等，经过弱监督训练来训练出一个视频分类模型，该视频分类模型具有初步的识别视频特征的能力。然后利用该视频分类模型中的权重信息，对画风识别模型进行初始化，使初始化后的画风识别模型具有初步的提取视频特征并对视频进行分类的能力。然后，采用多标签训练的策略，使用sigmoid函数为激活函数的二值交叉熵作为损失函数来训练网络，使画风识别模型可以基于视频的画风特征对视频进行画风分类。基于大规模视频弱监督训练得到的预训练权重对画风识别模型进行初始化，降低画风识别模型在训练过程中的收敛时间。与传统的采用ImageNet数据集作为预训练的方法相比，在构建小规模业务数据的情况下，大规模视频弱监督初始化能够得到更高的准确率，在三农画风上的实验显示能够提高5.38％的精确率。最终三农画风在验证集上的识别效果为精确率98.53％，召回率90.51％。

综上所述，本实施例提供的方法，首先，通过对用户需求的分析与调研，结合视频类型的特点，定义了新的视频理解维度。其次，根据新的视频理解维度，用画风识别模型辅助进行视频的识别与聚类，准确率达到90％以上，召回在80％左右。最后，该特征首先在浏览器中进行了实验，并取得了正向收益。二级分类效率增加0.32％，一级分类效率增加0.49％，feeds小视频分类效率增加0.68％，feeds小视频的用户消费概率增加1.59％，用户消费时长增加0.26％。

参考图3，示出了本申请一个示例性实施例提供的计算机系统的结构示意图，该计算机系统包括终端120和服务器140。

终端120与服务器140之间通过有线或者无线网络相互连接。

可选地，终端120可以包括笔记本电脑、台式电脑、智能手机、平板电脑、智能音箱、智能机器人中的至少一种。

终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序；上述第一程序被第一处理器调用执行以实现视频的推荐方法。第一存储器可以包括但不限于以下几种：随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)。

第一处理器可以是一个或者多个集成电路芯片组成。可选地，第一处理器可以是通用处理器，比如，中央处理器(Central Processing Unit，CPU)或者网络处理器(NetworkProcessor，NP)。可选地，第一处理器可以通过调用服务器140提供的画风识别模型144来实现本申请提供的视频的推荐方法。

可选地，终端120中包括显示器；显示器用于显示视频的推荐结果，或，显示用户感兴趣的画风的视频。

可选地，终端120中包括扬声器；扬声器用于播放视频中的音频。

服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序，上述第二程序被第二处理器调用来实现本申请提供的视频的推荐方法。示例性的，第二存储器中存储有画风识别模型144，上述画风识别模型144被第二处理器调用以实现视频的推荐方法中服务器侧执行的步骤。可选地，第二存储器可以包括但不限于以下几种：RAM、ROM、PROM、EPROM、EEPROM。可选地，第二处理器可以是通用处理器，比如，CPU或者NP。

示意性的，本申请提供的视频的推荐方法可以应用于视频分类、视频推荐、视频识别中。

图4示出了本申请一个示例性实施例提供的视频的推荐方法的流程图。该方法可以由图1所示的服务器来执行。所述方法包括：

步骤201，获取与用户帐号相关的目标视频。

用户帐号是客户端上登录的用户帐号。当客户端上没有进行登录时，用户帐号也可以替换为终端的IP(Internet Protocol Address，互联网协议地址)地址，该终端上运行有客户端。即，用户帐号被服务器用于确定进行信息传输的客户端。

目标视频是视频文件。目标视频是与用户帐号或客户端相关的视频。本申请对视频的格式不加以限定。示例性的，目标视频是：客户端上正在播放的视频、用户帐号历史观看的视频、客户端上传的视频中的至少一种。示例性的，目标视频可以是一个或多个。

例如，当该方法应用在feed流视频推荐场景中时，目标视频可以是客户端上当前播放的视频，或用户帐号历史观看的视频。当该方法应用在视频识别、视频分类场景中时，目标视频可以是客户端上传的需要进行识别或分类的视频。

步骤202，调用画风识别模型获取目标视频的画风类别，画风识别模型是用于提取目标视频的视频风格特征、根据视频风格特征确定目标视频的画风类别的机器学习模型。

服务器在获取到目标视频后，调用画风识别模型来确定目标视频的画风类别。

画风识别模型是一种基于机器学习的分类模型。将目标视频输入画风识别模型，画风识别模型可以根据目标视频的特征确定目标视频所属的画风类别。示例性的，该画风类别是训练画风识别模型时预设的输出类别。例如，画风识别模型被训练为可以识别八种画风类别，则画风识别模型根据输入的目标视频的特征，确定目标视频属于八种画风类别中的至少一种画风类别。

示例性的，画风识别模型根据目标视频在风格上的特征来对目标视频进行分类。视频风格特征包括：视频的拍摄手法、视频的滤镜、视频中的服化道(服饰、妆容、造型、道具)、剧本、背景音乐、人物的动作、物品的位置变化中的至少一种。

画风原指作画的风格，在本实施例中指视频的风格，视频的画风与视频中：作者选择的人物、环境、服装、道具、化妆、造型、剧本、背景音乐、拍摄手法中的至少一种因素有关。画风是指观看视频给人形成一种整体视听感受，在观众心目中形成的一种视觉风格。

步骤203，根据画风类别确定用户帐号的推荐视频，推荐视频与目标视频的画风类别相同。

服务器根据目标视频的画风类别，为用户帐号推荐相同画风类别的推荐视频。示例性的，推荐视频是服务器的视频数据库中存储的视频，服务器根据目标视频的画风类别从视频数据库中查找相同或相似画风类别的视频，并将该视频确定为推荐视频。示例性的，推荐视频可以是一个或多个。

示例性的，服务器至少根据视频的画风类别这一个因素确定推荐视频。服务器也可以综合地根据目标视频的画风类别、视频内容、视频作者、视频发布时间等多个因素来确定推荐视频，从而向用户推荐与目标视频内容相似且风格相似的视频。

步骤204，向客户端发送推荐视频。

服务器将推荐视频发送给客户端，使客户端在用户界面上播放推荐视频，或，显示推荐视频的封面。示例性的，服务器可以先向客户端发送推荐视频的链接，当用户点击观看推荐视频时，客户端再从服务器加载推荐视频的文件。示例性的，服务器也可以直接向客户端发送推荐视频的文件。

示例性的，客户端将推荐视频应用在feed流中，当用户在feed流中浏览目标视频时，服务器根据目标视频确定推荐视频，并将推荐视频发送给客户端，客户端在feed流中显示推荐视频的信息(封面、链接、标题等)，当用户播放推荐视频时，在客户端上播放推荐视频。

综上所述，本实施例提供的方法，通过根据用户帐号相关的目标视频的画风类别，向用户帐号推荐视频。根据视频的风格对视频进行画风上的分类，根据视频的画风类别确定用户帐号喜欢的视频风格，例如，用户对视频拍摄手法、人物服装、人物妆容、道具类型等视觉感受上的偏好，使推荐视频更符合用户的实际兴趣点，提高服务器向用户推荐视频的准确率，提高用户粘性。

示例性的，给出一个使用画风识别模型确定目标视频的画风类别的方法，画风识别模型包括特征提取层和特征融合层。图5示出了本申请一个示例性实施例提供的视频的推荐方法的流程图。该方法可以由图1所示的服务器来执行。基于图4所示的方法，步骤202还包括步骤2022和步骤2024。

步骤2022，将目标视频输入特征提取层，提取目标视频的帧级别特征向量，帧级别特征向量用于表示目标视频的至少一帧图像的特征。

示例性的，画风识别模型包括特征提取层和特征融合层，特征提取层用于对目标视频的多帧图像进行特征提取，特征融合层用于拼接目标视频的多帧图像的帧级别特征向量、提取目标视频在时间维度上的特征。

帧级别特征向量是对目标视频的一帧图像提取的特征向量。示例性的，目标视频包括至少两个帧级别特征向量。

示例性的，特征提取层可以采用Inception系列模型、ResNet系列模型或EfficientNet模型进行特征提取。示例性的，为了兼顾算法的速度和准确率，本实施例采用了Inception系列模型中的BN-Inception模型对目标图像的每一帧图像提取256维的帧级别特征向量。

示例性的，画风识别模型还包括数据预处理层，在将目标视频输入特征提取层之前，还会对目标视频进行数据预处理。如图6所示，在步骤2022之前还包括步骤2021，步骤2022还包括步骤2022-1。

步骤2021，将目标视频输入数据预处理层得到目标视频的至少两帧目标图像，数据预处理层用于对目标视频进行预处理得到归一化的图像。

示例性的，数据预处理层用于对目标视频进行采样，得到目标视频的至少两帧图像，然后对图像进行归一化处理，使处理后的图像能够输入特征提取层进行特征提取。归一化的图像是指经过归一化处理后得到的预设大小的图像。示例性的，归一化的图像是指大小符合特征提取层的图像输入要求的目标图像。示例性的，归一化的图像是大小为224像素×224像素大小的图像。

示例性的，给出一种数据预处理层处理目标视频的示例性实施例，如图7所示，步骤2021包括步骤2021-1至步骤2021-3。

步骤2021-1，将目标视频分为至少两个片段。

示例性的，将目标视频平均分为至少两个片段。比如，当目标视频是较短的小视频时，服务器将目标视频平分为六个片段。

示例性的，也可以根据目标视频的视频内容或根据用户需求，以任意方式将目标视频分为至少两个片段。例如，当目标视频是电视剧时，可以将目标视频的片头分为一段，片尾分为一段，中间部分平分为四段。例如，可以在用户自定义位置(指定位置)将目标视频分为至少两个片段。

步骤2021-2，从至少两个片段中提取至少两帧图像得到目标视频的至少两帧原始图像。

示例性的，服务器以任意方式从一个片段的若干帧图像中采样出至少一帧原始图像。示例性的，服务器从每个片段中提取一帧图像，或，从每个片段中提取若干帧图像。示例性的，服务器从每个片段中提取数量相同的多帧图像，或，服务器从每个片段中提取数量不同的多帧图像，例如，服务器根据片段的时长确定从该片段中提取图像的帧数。原始图像是没有经过图像处理、直接从目标视频中截取的图像。

示例性的，服务器抽取每个片段的中间一帧图像，将其确定为采样到的原始图像。示例性的，服务器还可以将每个片段中，像素值的总和最高的一帧图像确定为采样到的原始图像。

示例性的，当目标视频是较短的小视频时，服务器将目标视频平分为6个片段，取各个片段的中间一帧图像组成6帧原始图像来代表目标视频。

步骤2021-3，对至少两帧原始图像进行预处理得到至少两帧目标图像，预处理包括缩放、剪裁中的至少一种。

示例性的，由于各类视频的拍摄设备不同、存储方式不同，视频的大小、形状也不相同。因此需要对采样到的原始图像进行归一化处理(预处理)，使之形状、大小相同。

示例性的，预处理的方式包括两个步骤：缩放(resize)和剪裁(crop)。

首先，服务器将原始图像的大小进行放大或缩小，使原始图像至少一个边与预设图像大小相等。例如，预设图像大小是图像的最短边为256像素，则，当原始图像是2048像素×1536像素大小的图像时，服务器将原始图像缩小，使1536像素的边缩小为256像素，得到缩小后的图片大小为341像素×256像素。

然后，服务器对缩放后的图像进行剪裁，得到目标大小的目标图像。目标大小是目标图像的大小。例如，目标大小是224像素×224像素，则，当缩放后的图像大小为341像素×256像素时，需要对缩放后的图像进行剪裁得到224像素×224像素大小的目标图像。剪裁的方式可以有多种，例如，用1crop策略对缩放后图像进行剪裁，从图像中间位置剪裁一个224像素×224像素大小的目标图像。例如，用3crop策略对缩放后图像进行剪裁，分别从图像的顶部位置、中间位置、下部位置剪裁三个224像素×224像素大小的目标图像，顶部位置是指以图像上边线的中点为目标图像上边线的中点，剪裁得到目标图像；下部位置是指以图像下边线的中点为目标图像下边线的中点，剪裁得到目标图像。例如，用10crop策略对缩放后图像进行剪裁，先从图像中间位置裁一个224像素×224像素的目标图像，然后从图像左上角开始，横着数224个像素，竖着数224个像素进行裁剪得到一个目标图像，同样的方法在右上，左下，右下各裁剪一次，共得到了5个224像素×224像素大小的目标图像；然后对图像进行镜像反转后，再重复上述步骤剪裁得到5个224像素×224像素大小的目标图像，总共得到10个目标图像。

示例性的，当目标视频是较短的小视频时，由于小视频的宽高比通常接近1/2，因此，采用3crop策略进行剪裁，在保证图像不形变失真的情况下，保留全部信息，来提升画风识别模型的识别准确率。

示例性的，响应于原始图像的大小与目标大小相同，服务器不对原始图像进行缩放和剪裁，将原始图像直接确定为目标图像。示例性的，响应于原始图像经过缩放后的大小与目标大小相等，服务器不对缩放后的图像进行剪裁，将缩放后的图像确定为目标图像。

例如，如图8所示，目标视频106包括1到9共9帧图像，数据预处理层先将目标视频106平分为三段，然后从每一段中取中间一帧图像作为原始图像108，原始图像分别为目标视频106的第2帧、第5帧和第8帧，然后对原始图像进行缩放和剪裁得到目标大小的目标图像110。

步骤2022-1，将至少两帧目标图像输入特征提取层提取目标视频的帧级别特征向量。

示例性的，服务器将归一化的目标图像输入特征提取层进行特征提取，得到目标视频的帧级别特征向量。

步骤2024，将帧级别特征向量输入特征融合层得到目标视频的画风类别，特征融合层用于提取目标视频在时间维度上的视频级特征向量，根据视频级特征向量得到画风类别。

示例性的，特征融合层用于融合目标视频的多个帧级别特征向量，得到目标视频的视频级特征向量，再根据视频级特征向量得到目标视频的画风类别。

示例性的，特征融合层包括动作识别层、全连接层和分类节点，如图6所示，步骤2024还包括步骤2024-1至步骤2024-3。

步骤2024-1，将帧级别特征向量输入动作识别层得到目标视频在至少两个时间尺度上的视频级特征向量。

示例性的，动作识别层采用动作识别算法实现，动作识别算法包括：TSN算法、TRN算法、NetVLAD算法中的任意一种。示例性的，为了更好地利用目标视频的时域信息，实现更精准的识别结果，服务器采用多时间尺度的TRN算法作为特征融合层的融合策略。

时间尺度是指视频级特征向量所拼接的帧级别特征向量的数量。时间尺度2的视频级特征向量拼接了2个帧级别特征向量。时间尺度3的视频级特征向量拼接了3个帧级别特征向量。以此类推。

示例性的，若服务器从特征提取层提取了目标视频的6个帧级别特征向量，则在特征融合层，服务器可以分别得到目标视频在五个时间尺度的视频级特征向量，五个时间尺度分别为：时间尺度2、时间尺度3、时间尺度4、时间尺度5、时间尺度6(全时间尺度)。

示例性的，帧级别特征向量包括目标视频的m帧图像对应的m个帧级别特征向量，m是大于1的整数(比如m＝6)，如图7所示，步骤2024-1还包括步骤2024-11。

步骤2024-11，对于第j个时间尺度，从m个帧级别特征向量中选出j个帧级别特征向量，顺序拼接j个帧级别特征向量，进行特征提取后得到第j个时间尺度的视频级特征向量，j是大于1小于等于m的整数。

示例性的，当目标视频具有m个帧级别特征向量时，服务器在特征融合层可以获取到目标视频在m-1个时间尺度上的视频级特征向量。示例性的，服务器会获取目标视频在至少两个时间尺度上的视频级特征向量。

以第j个时间尺度为例，首先，服务器从m个帧级别特征向量中先选出j个帧级别特征向量，然后将这j个帧级别特征向量顺序连接，就得到了目标视频的一个j时间尺度的视频级特征向量。顺序连接是指，按照帧级别特征向量所对应的图像，在目标视频中的时间顺序，顺序连接多个帧级别特征向量，得到一个拼接特征向量，然后对拼接特征向量进行特征提取得到视频级特征向量。

示例性的，由于服务器有多种方式从m个帧级别特征向量中选出j个帧级别特征向量，因此，在一个时间尺度上，服务器可以获取到多个视频级特征向量。

示例性的，在一个时间尺度有多种方式获得该时间尺度的视频级特征向量，如图9所示，步骤2024-11还包括步骤301至步骤302。

步骤301，对于第j个时间尺度，以x种方式从m个帧级别特征向量中选出x组帧级别特征向量，每组帧级别特征向量包括j个帧级别特征向量，顺序拼接每组帧级别特征向量中的j个帧级别特征向量，得到x个拼接特征向量。

例如，目标视频具有6个帧级别特征向量，分别对应了第1帧图像、第2帧图像、第3帧图像、第4帧图像、第5帧图像、第6帧图像。则，对于时间尺度5，服务器可以将第1帧图像、第2帧图像、第3帧图像、第4帧图像、第5帧图像对应的帧级别特征向量顺序连接得到一个时间尺度5的拼接特征向量，也可以将第2帧图像、第3帧图像、第4帧图像、第5帧图像、第6帧图像对应的帧级别特征向量顺序连接得到一个时间尺度5的拼接特征向量。因此，对于时间尺度5，服务器一共有6种方式可以从6个帧级别特征向量中选出5个帧级别特征向量进行拼接得到拼接特征向量。

示例性的，服务器在除全时间尺度之外的每个时间尺度上，随机采样三组帧级别特征向量，每组帧级别特征向量分别进行拼接，得到一个时间尺度上的3个拼接特征向量，再对三个拼接特征向量进行特征提取得到3个视频级特征向量。

例如，目标视频的帧级别特征向量有6个，则服务器会获取目标视频在5个时间尺度上的共13个视频级特征向量，分别是：时间尺度6有1个视频级特征向量、时间尺度5有3个视频级特征向量、时间尺度4有3个视频级特征向量、时间尺度3有3个视频级特征向量、时间尺度2有3个视频级特征向量。

示例性的，如图10所示，服务器在数据预处理层提取了目标视频的三个目标图像110，将目标图像输入特征提取层得到三个目标图像110对应的三个帧级别特征向量111，分别是第2帧图像、第5帧图像和第8帧图像对应的帧级别特征向量111，将三个帧级别特征向量111输入特征融合层经过顺序拼接和特征提取，得到目标视频在时间尺度3上的一个视频级特征向量112，在时间尺度2上的三个视频级特征向量112，时间尺度2上的三个视频级特征向量112分别是：第2帧、第5帧图像的帧级别特征向量111顺序拼接得到的，第2帧、第8帧图像的帧级别特征向量111顺序拼接得到的，第5帧、第8帧图像的帧级别特征向量111顺序拼接得到的。

步骤302，对x个拼接特征向量分别进行特征提取，得到第j个时间尺度的x个视频级特征向量。

其中，m是大于1的整数，j是大于1小于等于m的整数，x是大于0的整数。

示例性的，动作识别层还会对拼接后的拼接特征向量进行特征提取，得到目标视频的视频级特征向量。

步骤2024-2，将至少两个时间尺度上的视频级特征向量输入全连接层进行下采样得到下采样特征向量。

全连接层(fully connected layers，FC)在神经网络模型中起到“分类器”的作用。全连接层则起到将学到特征向量映射到样本标记空间的作用。全连接层用于对视频级特征向量进行下采样，得到下采样特征向量。

步骤2024-3，将下采样特征向量输入分类节点输出目标视频的画风类别。

分类节点用于根据下采样特征向量确定目标视频的画风类别。分类节点用于输出目标视频属于某个画风类别的概率值。

示例性的，画风识别模型用于将输入的视频分为n种画风类别中的至少一种，分类节点包括n种画风类别分别对应的n个分类节点，n是大于1的整数，如图7所示，步骤2024-3还包括步骤2024-31。

步骤2024-31，将下采样特征向量输入n个分类节点分别输出目标视频的n个概率值，第i个概率值用于表示目标视频属于第i个画风类别的概率，i是大于0且不大于n的整数。

示例性的，画风识别模型可以识别n种画风类别，则画风识别模型具有n个分类节点，每个分类节点对应一个画风类别，分类节点输出目标视频属于画风类别的概率值。

例如，画风识别模型可以识别8种画风，则画风识别模型具有8个分类节点，8个分类节点分别对应了8种画风类别，第1个分类节点负责输出目标视频属于第1个画风类别的概率值。

例如，将目标视频输入画风识别模型，在分类节点最终得到一个八维向量(一组概率值)(1,1,0,0,0,0,0,0)，八维向量所代表的意义是：目标视频属于第一、二类画风类别的概率为1，属于第三、四、五、六、七、八类画风类别的概率为0。

示例性的，目标视频包括y个视频级特征向量，y是大于1的整数，如图9所示，步骤2024-2还包括步骤2024-21，步骤2024-31还包括步骤401至步骤402。

步骤2024-21，将y个视频级特征向量输入全连接层进行下采样得到y个下采样特征向量。

示例性的，目标视频具有多个视频级特征向量，一个视频级特征向量经过下采样到分类节点就可以得到一组概率值(一个多维向量)，多个视频级特征向量既可以得到多组概率值(多个多维向量)。

示例性的，当目标视频具有多个视频级特征向量时，服务器分别对每个视频级特征向量进行下采样，得到多个下采样特征向量。然后分别将每个下采样向量输入分类节点得到一组概率值，多个下采样特征向量可以得到多组概率值。

步骤401，对于第k个下采样特征向量，将第k个下采样特征向量输入n个分类节点，输出第k组概率值，每组概率值包括n个概率值，k是大于0不大于y的整数，经过上述步骤得到y个下采样特征向量对应的y组概率值。

步骤402，将y组概率值相加得到目标视频的一组概率值。

将多组概率值相加，得到目标视频最终的一组概率值。示例性的，将每组概率值中的位置相同的概率值相加，得到一组新的概率值。例如，目标视频有两个视频级特征向量，根据第一个视频级特征向量得到的一组概率值为(0.1,0,0.5)，根据第二个视频级特征向量得到的一组概率值为(0.8,0.3,0)，则两组概率值相加为(0.9,0.3,0.5)，则画风识别模型最终输出的一组概率值为(0.9,0.3,0.5)。

示例性的，分类节点在将多组概率值相加后，还会进行数据归一化处理，使最终输出的概率值取值在0到1之间。

示例性的，画风识别模型还设置有Non-Local(非局部)插件。

特征提取层和特征融合层中的至少一层中包括非局部插件，非局部插件用于根据图像中单个像素点与图像的全部像素点的相似度，计算单个像素点在特征向量中的数值。示例性的，Non-Local插件首先计算特征图中每个像素与其他所有位置像素的归一化相关性，得到相似矩阵，然后将相似矩阵乘到特征图响应上得到特征向量。从而避免卷积操作局部感受野的弊端，可以在全图范围上，产生特征响应。

综上所述，本实施例提供的方法，通过提取目标视频的帧级别特征向量和视频级特征向量，来获取目标视频在二维图像和时间上的特征，从而确定目标视频的画风。利用神经网络模型来识别视频画风，使视频的推荐标签不局限于视频内容，而是从图像和时间的多个维度上综合视频特征，提高视频分类的准确度。

本实施例提供的方法，通过融合不同尺度的时间信息来提供更加精确的识别结果，便于神经网络模型精确识别视频画风，提高视频分类的准确度。

本实施例提供的方法，通过对视频级特征向量进行下采样得到下采样特征向量，根据下采样特征向量得到目标视频的概率值，根据目标视频在多个时间尺度上的多个概率值之和，确定目标视频的画风，使视频的推荐标签不局限于视频内容，而是从图像和时间的多个维度上综合视频特征，提高视频分类的准确度。

本实施例提供的方法，通过将目标视频输入特征提取层前，输入数据预处理层对目标视频进行数据预处理，对不同视频的数据进行归一化处理，使输入特征提取层的数据具有统一的格式，便于进行特征提取后和识别。

本实施例提供的方法，通过将目标视频均分为若干段，从每一段视频中提取至少一个采样的原始图像，从而完成对目标视频的采样，使采样结果在目标视频中均匀分布，采样结果更能代表目标视频。

示例性的，本申请还给出了一种训练画风识别模型的示例性实施例。图11示出了本申请一个示例性实施例提供的画风识别模型的训练方法的流程图。该方法可以由图1所示的服务器来执行。该方法包括以下步骤。

步骤501，根据预训练视频集经过弱监督训练得到第一模型，第一模型具有预训练权重，预训练视频集包括预训练视频的内容分类标签，内容分类标签是根据视频内容对预训练视频进行分类的标签。

示例性的，预训练视频集中对预训练视频标注的内容分类标签，是数据库中已有的标签，并不是按照画风类别对视频标注的标签。示例性的，预训练利用了数据库中存有的大量的视频资源、以及其对应的分类标签，经过弱监督训练得到一个分类模型(第一模型)，利用该分类模型中的权重信息，对画风识别模型进行初始化，可以大大减少画风识别模型的收敛时间，提高画风识别模型的识别准确率。

预训练权重是第一模型中特征提取层、特征融合层的权重信息。

示例性的，如图12所示，使用大规模视频弱监督预训练权重701对画风识别模型702进行初始化。画风识别模型702将输入的小视频703分割为6个片段，每个片段经过卷积神经网络(Convolutional Neural Networks，CNN)提取帧级别特征向量，然后输入多时间尺度TRN特征融合层，进行特征融合和分类，最终输出小视频703的画风标签704。

步骤502，根据第一模型的预训练权重对画风识别模型进行初始化。

示例性的，初始化是指根据第一模型的预训练权重设置画风识别模型中的各个权重。以使画风识别模型能够根据输入的视频输出分类结果。

示例性的，利用经过大规模视频弱监督训练得到的预训练权重对画风识别模型进行初始化，可以使初始化后的画风识别模型具备较好的视频分类能力，从而减少模型训练过程的收敛时间，提高画风识别的准确率。

步骤503，根据训练视频集对初始化后的画风识别模型进行训练，训练视频集包括训练视频和画风类别标签，画风类别标签是根据视频画风对训练视频进行分类的标签，存在至少一个训练视频对应有多个画风类别标签。

示例性的，对画风识别模型进行初始化后，根训练视频集来训练画风识别模型。示例性的，由于一个视频往往可以具有多个画风类别，因此，本实施例采用了多标签训练的策略，使用sigmoid为激活函数的二值交叉熵作为损失函数训练网络。

l_n,c＝-w_n,c[p_cy_n,c·log(x_n,c)+(1-y_n,c)·log(1-σ(x_n,c))]

其中，l_n,c为损失函数，n为样本个数，c为画风类别个数，x_n,c为节点网络计算值，y_n,c为标签值，p_c为该类别正样本的权重，w_n,c为该样本权重，σ为激活函数。

综上所述，本实施例提供的方法，基于大规模视频弱监督预训练得到的预训练权重，对画风识别模型进行初始化，减少画风识别模型在训练过程中的收敛时间，同时提高画风识别模型的识别准确率。在三农画风上的实验显示能够提高5.38％的精确率。最终三农画风在验证集上的识别效果为精确率98.53％，召回率90.51％。

示例性的，本申请还给出了一种在终端侧使用本申请提供的视频的推荐方法的示例性实施例。图13示出了本申请一个示例性实施例提供的视频的推荐方法的流程图。该方法可以由图1所示的终端上运行的客户端来执行，该客户端是支持视频播放或视频识别的客户端。该方法包括以下步骤。

步骤601，显示第一用户界面，第一用户界面是用于视频浏览的用户界面，第一用户界面包括目标视频。

示例性的，当用户在客户端上浏览视频时，客户端显示为第一用户界面，第一用户界面上包括正在播放的目标视频，或，第一用户界面包括目标视频的封面、链接、标题中的至少一种。

示例性的，在一种feed流视频浏览客户端中，显示有如图14中的(1)所示的用户界面，是一种第一用户界面，在第一用户界面上显示有目标视频的封面705。当用户点击目标视频的封面705后，进入如图14中的(2)所示的用户界面，是另一种第一用户界面，在第一用户界面上显示正在播放的目标视频706。示例性的，在如图14中的(2)所示的用户界面中，用户可以通过点击、双击、滑动中的任意一种操作，来控制客户端播放下一个视频。示例性的，下一个视频是服务器根据目标视频确定的推荐视频。

步骤602，根据接收到的人机交互操作，生成推荐视频浏览指令，推荐视频浏览指令用于浏览推荐视频。

示例性的，推荐视频是服务器调用画风识别模型获取目标视频的画风类别后，根据目标视频的画风类别确定的，画风识别模型是用于提取目标视频的视频风格特征、根据视频风格特征确定目标视频的画风类别的机器学习模型。

示例性的，客户端接收用户浏览推荐视频的操作，生成推荐视频浏览指令。用户浏览推荐视频的操作包括：用户浏览推荐视频的封面的操作、用户播放推荐视频的操作中的至少一种。

示例性的，在步骤602之前，客户端还需要接收服务器发送的推荐视频。或，在步骤602之后，客户端接收服务器发送的推荐视频。即，客户端既可以在接收用户操作之前就已经预加载了推荐视频，也可以在接收到用户操作之后再加载推荐视频。

示例性的，推荐视频是服务器使用上述任一所述的视频的推荐方法，确定出来的与目标视频具有相同或相似画风类别的视频。示例性的，服务器调用画风识别模型来识别目标视频的画风类别。

例如，第一用户界面是如图14中的(2)所示的用户界面，则客户端接收用户的上滑操作，在用户界面上播放下一个视频(推荐视频)。

示例性的，使用画风识别模型对视频进行分类，定义了一种新的视频分类的维度。例如，如图15所示的视频711，根据视频内容进行分类，其类别为“生活类”，但根据画风识别模型对视频711进行画风上的分类，其类别为“三农画风”。由此，即使视频711在内容上的类别为“生活”，画风识别模型依旧可以在风格上将其识别为“三农画风”，从而更精准的定位了视频711带给用户的直观感受，便于服务器根据用户的喜好更准确地向用户推荐视频。

步骤603，显示第二用户界面，第二用户界面是用于视频浏览的用户界面，第二用户界面包括推荐视频，推荐视频与目标视频的画风类别相同。

示例性的，客户端根据推荐视频浏览指令，显示第二用户界面。示例性的，第二用户界面上包括推荐视频的封面、链接、标题中的至少一种，或，第二用户界面包括正在播放的推荐视频。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。

图16示出了本申请的一个示例性实施例提供的视频的推荐装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为服务器的全部或一部分，该装置包括：

获取模块801，用于获取与用户帐号相关的目标视频；

模型模块802，用于调用画风识别模型获取所述目标视频的画风类别，所述画风识别模型是用于提取所述目标视频的视频风格特征、根据所述视频风格特征确定所述目标视频的所述画风类别的机器学习模型；

确定模块803，用于根据所述画风类别确定所述用户帐号的推荐视频，所述推荐视频与所述目标视频的所述画风类别相同；

发送模块804，用于向客户端发送所述推荐视频。

在一个可选的实施例中，所述画风识别模型包括特征提取层和特征融合层；所述模型模块802包括：特征提取子模块806、特征融合子模块807；

所述特征提取子模块806，用于将所述目标视频输入所述特征提取层，提取所述目标视频的帧级别特征向量，所述帧级别特征向量用于表示所述目标视频的至少一帧图像的特征；

所述特征融合子模块807，用于将所述帧级别特征向量输入所述特征融合层得到所述目标视频的所述画风类别，所述特征融合层用于提取所述目标视频在时间维度上的视频级特征向量，根据所述视频级特征向量得到所述画风类别。

在一个可选的实施例中，所述特征融合层包括动作识别层、全连接层和分类节点；所述特征融合子模块807包括：动作识别单元808、全连接单元809和分类节点单元810；

所述动作识别单元808，用于将所述帧级别特征向量输入所述动作识别层得到所述目标视频在至少两个时间尺度上的视频级特征向量；

所述全连接单元809，用于将至少两个时间尺度上的所述视频级特征向量输入所述全连接层进行下采样得到下采样特征向量；

所述分类节点单元810，用于将所述下采样特征向量输入所述分类节点输出所述目标视频的所述画风类别。

在一个可选的实施例中，所述帧级别特征向量包括所述目标视频的m帧图像对应的m个所述帧级别特征向量，所述m是大于1的整数；

所述动作识别单元808，还用于对于第j个时间尺度，从m个所述帧级别特征向量中选出j个所述帧级别特征向量，顺序拼接所述j个所述帧级别特征向量，进行特征提取后得到所述第j个时间尺度的所述视频级特征向量，所述j是大于1小于等于所述m的整数。

在一个可选的实施例中，所述动作识别单元808，还用于对于所述第j个时间尺度，以x种方式从m个所述帧级别特征向量中选出x组所述帧级别特征向量，每组所述帧级别特征向量包括j个所述帧级别特征向量，顺序拼接每组所述帧级别特征向量中的j个所述帧级别特征向量，得到x个拼接特征向量；

所述动作识别单元808，还用于对x个所述拼接特征向量分别进行特征提取，得到所述第j个时间尺度的x个视频级特征向量；

其中，所述m是大于1的整数，所述j是大于1小于等于所述m的整数，所述x是大于0的整数。

在一个可选的实施例中，所述画风识别模型用于将输入的视频分为n种所述画风类别中的至少一种，所述分类节点包括n种所述画风类别分别对应的n个所述分类节点，所述n是大于1的整数；

所述分类节点单元810，还用于将所述下采样特征向量输入所述n个所述分类节点分别输出所述目标视频的n个概率值，第i个所述概率值用于表示所述目标视频属于第i个画风类别的概率，所述i是大于0且不大于n的整数。

在一个可选的实施例中，所述目标视频包括y个所述视频级特征向量，所述y是大于1的整数；

所述全连接单元809，还用于将所述y个所述视频级特征向量输入所述全连接层进行下采样得到y个所述下采样特征向量；

所述分类节点单元810，还用于对于第k个所述下采样特征向量，将所述第k个所述下采样特征向量输入所述n个所述分类节点，输出第k组概率值，每组概率值包括n个概率值，所述k是大于0不大于y的整数；经过上述步骤得到所述y个所述下采样特征向量对应的y组概率值；将所述y组概率值相加得到所述目标视频的一组概率值。

在一个可选的实施例中，所述画风识别模型还包括数据预处理层；所述模型模块802还包括数据预处理子模块805；

所述数据预处理子模块805，用于将所述目标视频输入所述数据预处理层得到所述目标视频的至少两帧目标图像，所述数据预处理层用于对所述目标视频进行预处理得到归一化的图像；

所述特征提取子模块806，还用于将至少两帧所述目标图像输入所述特征提取层提取所述目标视频的所述帧级别特征向量。

在一个可选的实施例中，所述数据预处理子模805块包括分段单元811、采样单元812和预处理单元813；

所述分段单元811，用于将所述目标视频分为至少两个片段；

所述采样单元812，用于从至少两个所述片段中提取至少两帧图像得到所述目标视频的至少两帧原始图像；

所述预处理单元813，用于对至少两帧所述原始图像进行预处理得到至少两帧所述目标图像，所述预处理包括缩放、剪裁中的至少一种。

在一个可选的实施例中，所述特征提取层和所述特征融合层中的至少一层中包括所述非局部插件，所述非局部插件用于根据图像中单个像素点与所述图像的全部像素点的相似度，计算所述单个像素点在特征向量中的数值。

在一个可选的实施例中，所述装置还包括：

预训练模块814，用于根据预训练视频集经过弱监督训练得到第一模型，所述第一模型具有预训练权重，所述预训练视频集包括预训练视频的内容分类标签，所述内容分类标签是根据视频内容对所述预训练视频进行分类的标签；

初始化模块815，用于根据所述第一模型的所述预训练权重对所述画风识别模型进行初始化；

训练模块816，用于根据训练视频集对初始化后的所述画风识别模型进行训练，所述训练视频集包括训练视频和画风类别标签，所述画风类别标签是根据视频画风对所述训练视频进行分类的标签，存在至少一个所述训练视频对应有多个所述画风类别标签。

图17示出了本申请的一个示例性实施例提供的视频的推荐装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分，该装置包括：

显示模块902，用于显示第一用户界面，所述第一用户界面是用于视频浏览的用户界面，所述第一用户界面包括目标视频；

交互模块903，用于根据接收到的人机交互操作，生成推荐视频浏览指令；

所述显示模块902，还用于显示第二用户界面，所述第二用户界面是用于视频浏览的用户界面，所述第二用户界面包括推荐视频，所述推荐视频与所述目标视频的画风类别相同。

在一个可选的实施例中，所述装置还包括接收模块901，所述接收模块901，用于接收服务器发送的所述推荐视频。

图18是本申请一个实施例提供的服务器的结构示意图。具体来讲：服务器1600包括中央处理单元(英文：Central Processing Unit，简称：CPU)1601、包括随机存取存储器(英文：Random Access Memory，简称：RAM)1602和只读存储器(英文：Read-Only Memory，简称：ROM)1603的系统存储器1604，以及连接系统存储器1604和中央处理单元1601的系统总线1605。服务器1600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1606，和用于存储操作系统1613、应用程序1614和其他程序模块1615的大容量存储设备1607。

基本输入/输出系统1606包括有用于显示信息的显示器1608和用于用户输入信息的诸如鼠标、键盘之类的输入设备1609。其中显示器1608和输入设备1609都通过连接到系统总线1605的输入/输出控制器1610连接到中央处理单元1601。基本输入/输出系统1606还可以包括输入/输出控制器1610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器1610还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1607通过连接到系统总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。大容量存储设备1607及其相关联的计算机可读介质为服务器1600提供非易失性存储。也就是说，大容量存储设备1607可以包括诸如硬盘或者只读光盘(英文：Compact Disc Read-Only Memory，简称：CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文：Erasable Programmable Read-Only Memory，简称：EPROM)、电可擦除可编程只读存储器(英文：Electrically Erasable Programmable Read-Only Memory，简称：EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(英文：Digital Versatile Disc，简称：DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1604和大容量存储设备1607可以统称为存储器。

根据本申请的各种实施例，服务器1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1600可以通过连接在系统总线1605上的网络接口单元1611连接到网络1612，或者说，也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机系统(未示出)。

本申请还提供了一种终端，该终端包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的视频的推荐方法。需要说明的是，该终端可以是如下图19所提供的终端。

图19示出了本申请一个示例性实施例提供的终端1700的结构框图。该终端1700可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1700包括有：处理器1701和存储器1702。

处理器1701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1701所执行以实现本申请中方法实施例提供的视频的推荐方法。

在一些实施例中，终端1700还可选包括有：外围设备接口1703和至少一个外围设备。处理器1701、存储器1702和外围设备接口1703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1703相连。具体地，外围设备包括：射频电路1704、触摸显示屏1705、摄像头1706、音频电路1707、定位组件1708和电源1709中的至少一种。

外围设备接口1703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1701和存储器1702。在一些实施例中，处理器1701、存储器1702和外围设备接口1703被集成在同一芯片或电路板上；在一些其他实施例中，处理器1701、存储器1702和外围设备接口1703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1705是触摸显示屏时，显示屏1705还具有采集在显示屏1705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1701进行处理。此时，显示屏1705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1705可以为一个，设置终端1700的前面板；在另一些实施例中，显示屏1705可以为至少两个，分别设置在终端1700的不同表面或呈折叠设计；在再一些实施例中，显示屏1705可以是柔性显示屏，设置在终端1700的弯曲表面上或折叠面上。甚至，显示屏1705还可以设置成非矩形的不规则图形，也即异形屏。显示屏1705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1706用于采集图像或视频。可选地，摄像头组件1706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1701进行处理，或者输入至射频电路1704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1701或射频电路1704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1707还可以包括耳机插孔。

定位组件1708用于定位终端1700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1709用于为终端1700中的各个组件进行供电。电源1709可以是交流电、直流电、一次性电池或可充电电池。当电源1709包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1700还包括有一个或多个传感器1710。该一个或多个传感器1710包括但不限于：加速度传感器1711、陀螺仪传感器1712、压力传感器1713、指纹传感器1714、光学传感器1715以及接近传感器1716。

加速度传感器1711可以检测以终端1700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1711可以用于检测重力加速度在三个坐标轴上的分量。处理器1701可以根据加速度传感器1711采集的重力加速度信号，控制触摸显示屏1705以横向视图或纵向视图进行用户界面的显示。加速度传感器1711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1712可以检测终端1700的机体方向及转动角度，陀螺仪传感器1712可以与加速度传感器1711协同采集用户对终端1700的3D动作。处理器1701根据陀螺仪传感器1712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1713可以设置在终端1700的侧边框和/或触摸显示屏1705的下层。当压力传感器1713设置在终端1700的侧边框时，可以检测用户对终端1700的握持信号，由处理器1701根据压力传感器1713采集的握持信号进行左右手识别或快捷操作。当压力传感器1713设置在触摸显示屏1705的下层时，由处理器1701根据用户对触摸显示屏1705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1714用于采集用户的指纹，由处理器1701根据指纹传感器1714采集到的指纹识别用户的身份，或者，由指纹传感器1714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1714可以被设置终端1700的正面、背面或侧面。当终端1700上设置有物理按键或厂商Logo时，指纹传感器1714可以与物理按键或厂商Logo集成在一起。

光学传感器1715用于采集环境光强度。在一个实施例中，处理器1701可以根据光学传感器1715采集的环境光强度，控制触摸显示屏1705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1705的显示亮度；当环境光强度较低时，调低触摸显示屏1705的显示亮度。在另一个实施例中，处理器1701还可以根据光学传感器1715采集的环境光强度，动态调整摄像头组件1706的拍摄参数。

接近传感器1716，也称距离传感器，通常设置在终端1700的前面板。接近传感器1716用于采集用户与终端1700的正面之间的距离。在一个实施例中，当接近传感器1716检测到用户与终端1700的正面之间的距离逐渐变小时，由处理器1701控制触摸显示屏1705从亮屏状态切换为息屏状态；当接近传感器1716检测到用户与终端1700的正面之间的距离逐渐变大时，由处理器1701控制触摸显示屏1705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图19中示出的结构并不构成对终端1700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的视频的推荐方法。

本申请还提供一种计算机设备，该计算机设备包括：处理器和存储器，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的由服务器执行的视频的推荐方法。

本申请还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的由服务器执行的视频的推荐方法。

本申请还提供一种计算机设备，该计算机设备包括：处理器和存储器，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的由终端执行的视频的推荐方法。

本申请还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的由终端执行的视频的推荐方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频的推荐方法，其特征在于，所述方法包括：

获取与用户帐号相关的目标视频；

向客户端发送所述推荐视频。

2.根据权利要求1所述的方法，其特征在于，所述画风识别模型包括特征提取层和特征融合层；

所述调用画风识别模型获取所述目标视频的画风类别，包括：

将所述目标视频输入所述特征提取层，提取所述目标视频的帧级别特征向量，所述帧级别特征向量用于表示所述目标视频的至少一帧图像的特征；

将所述帧级别特征向量输入所述特征融合层得到所述目标视频的所述画风类别，所述特征融合层用于提取所述目标视频在时间维度上的视频级特征向量，根据所述视频级特征向量得到所述画风类别。

3.根据权利要求2所述的方法，其特征在于，所述特征融合层包括动作识别层、全连接层和分类节点；

所述将所述帧级别特征向量输入所述特征融合层得到所述目标视频的所述画风类别，包括：

将所述帧级别特征向量输入所述动作识别层得到所述目标视频在至少两个时间尺度上的视频级特征向量；

将至少两个时间尺度上的所述视频级特征向量输入所述全连接层进行下采样得到下采样特征向量；

将所述下采样特征向量输入所述分类节点输出所述目标视频的所述画风类别。

4.根据权利要求3所述的方法，其特征在于，所述帧级别特征向量包括所述目标视频的m帧图像对应的m个所述帧级别特征向量，所述m是大于1的整数；

所述将所述帧级别特征向量输入所述动作识别层得到所述目标视频在至少两个时间尺度上的视频级特征向量，包括：

对于第j个时间尺度，从m个所述帧级别特征向量中选出j个所述帧级别特征向量，顺序拼接所述j个所述帧级别特征向量，进行特征提取后得到所述第j个时间尺度的所述视频级特征向量，所述j是大于1小于等于所述m的整数。

5.根据权利要求4所述的方法，其特征在于，所述对于第j个时间尺度，从m个所述帧级别特征向量中选出j个所述帧级别特征向量，顺序拼接j个所述帧级别特征向量，进行特征提取后得到所述第j个时间尺度的所述视频级特征向量，包括：

对于所述第j个时间尺度，以x种方式从m个所述帧级别特征向量中选出x组所述帧级别特征向量，每组所述帧级别特征向量包括j个所述帧级别特征向量，顺序拼接每组所述帧级别特征向量中的j个所述帧级别特征向量，得到x个拼接特征向量；

对x个所述拼接特征向量分别进行特征提取，得到所述第j个时间尺度的x个视频级特征向量；

6.根据权利要求3至5任一所述的方法，其特征在于，所述画风识别模型用于将输入的视频分为n种所述画风类别中的至少一种，所述分类节点包括n种所述画风类别分别对应的n个所述分类节点，所述n是大于1的整数；

所述将所述下采样特征向量输入所述分类节点输出所述目标视频的所述画风类别，包括：

将所述下采样特征向量输入所述n个所述分类节点分别输出所述目标视频的n个概率值，第i个所述概率值用于表示所述目标视频属于第i个画风类别的概率，所述i是大于0且不大于n的整数。

7.根据权利要求6所述的方法，其特征在于，所述目标视频包括y个所述视频级特征向量，所述y是大于1的整数；

所述将至少两个时间尺度上的所述视频级特征向量输入所述全连接层进行下采样得到下采样特征向量，包括：

将所述y个所述视频级特征向量输入所述全连接层进行下采样得到y个所述下采样特征向量；

所述将所述下采样特征向量输入所述n个所述分类节点分别输出所述目标视频的n个概率值，包括：

对于第k个所述下采样特征向量，将所述第k个所述下采样特征向量输入所述n个所述分类节点，输出第k组概率值，每组概率值包括n个概率值，所述k是大于0不大于y的整数；

经过上述步骤得到所述y个所述下采样特征向量对应的y组概率值；

将所述y组概率值相加得到所述目标视频的一组概率值。

8.根据权利要求2至5任一所述的方法，其特征在于，所述画风识别模型还包括数据预处理层；所述方法还包括：

将所述目标视频输入所述数据预处理层得到所述目标视频的至少两帧目标图像，所述数据预处理层用于对所述目标视频进行预处理得到归一化的图像；

所述将所述目标视频输入所述特征提取层，提取所述目标视频的帧级别特征向量，包括：

将至少两帧所述目标图像输入所述特征提取层提取所述目标视频的所述帧级别特征向量。

9.根据权利要求2至5任一所述的方法，其特征在于，所述特征提取层和所述特征融合层中的至少一层中包括非局部插件，所述非局部插件用于根据图像中单个像素点与所述图像的全部像素点的相似度，计算所述单个像素点在特征向量中的数值。

10.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

根据预训练视频集经过弱监督训练得到第一模型，所述第一模型具有预训练权重，所述预训练视频集包括预训练视频的内容分类标签，所述内容分类标签是根据视频内容对所述预训练视频进行分类的标签；

根据所述第一模型的所述预训练权重对所述画风识别模型进行初始化；

根据训练视频集对初始化后的所述画风识别模型进行训练，所述训练视频集包括训练视频和画风类别标签，所述画风类别标签是根据视频画风对所述训练视频进行分类的标签。

11.一种视频的推荐方法，其特征在于，所述方法包括：

12.一种视频的推荐装置，其特征在于，所述装置包括：

获取模块，用于获取与用户帐号相关的目标视频；

发送模块，用于向客户端发送所述推荐视频。

13.一种视频的推荐装置，其特征在于，所述装置包括：

交互模块，用于根据接收到的人机交互操作，生成推荐视频浏览指令，所述推荐视频浏览指令用于浏览推荐视频；

14.一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行，以实现如权利要求1至11任一项所述的视频的推荐方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行，以实现如权利要求1至11任一项所述的视频的推荐方法。