CN109214374B

CN109214374B - 视频分类方法、装置、服务器及计算机可读存储介质

Info

Publication number: CN109214374B
Application number: CN201811314078.5A
Authority: CN
Inventors: 杨光旭; 林涛
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2020-12-18
Anticipated expiration: 2038-11-06
Also published as: CN109214374A

Abstract

本公开是关于一种视频分类方法、装置、服务器及计算机可读存储介质，属于信息推荐领域。该方法包括：基于图像数据以及对应的用户行为数据，对第一图像特征提取模块进行训练，得到第二图像特征提取模块，第二图像特征提取模块用于基于输入的图像数据输出包含用户行为的信息的图像特征数据；获取包含第二图像特征提取模块的第一视频分类模型，基于图像数据以及对应的预设类别，对第一视频分类模型进行训练，得到第二视频分类模型，第二视频样本的图像数据在第一视频样本中存在相似的图像数据；在对目标视频进行分类时，获取目标视频的图像数据，将目标视频的图像数据输入第二视频分类模型，输出目标视频的分类结果。

Description

视频分类方法、装置、服务器及计算机可读存储介质

技术领域

本公开涉及视频推荐领域，尤其涉及一种视频分类方法、装置、服务器及计算机可读存储介质。

背景技术

在视频推荐领域中，推荐符合用户兴趣的视频是各个运营人员的目标。视频的分类是实现上述目标的重要支撑，只有在对视频的分类足够准确的情况下，才能准确地将推荐的视频匹配用户兴趣。

相关技术中以视频的图像数据以及对应的类别作为训练样本，对机器学习模型进行训练，得到分类模型。在对视频进行分类时，可以将该视频的图像数据输入该分类模型，输出视频的类别。

一般来说，通过上述训练方法得到的分类模型中的特征提取模型，其提取的特征中包含有图像数据中的信息。但是，图像数据中的信息局限于图像中客观包含的信息，使得特征的代表性也比较局限，进而视频分类的准确性较低。

发明内容

本公开提供一种视频分类方法、装置、服务器及计算机可读存储介质，可以解决视频分类的准确性较低的问题。

根据本公开实施例的第一方面，提供一种视频分类方法，包括：

基于第一视频样本的图像数据以及所述第一视频样本对应的用户行为数据，对第一图像特征提取模块进行训练，得到第二图像特征提取模块，所述第一图像特征提取模块用于基于输入的图像数据输出对应的图像特征数据，所述第二图像特征提取模块用于基于输入的图像数据输出包含用户行为的信息的图像特征数据；

获取包含所述第二图像特征提取模块的第一视频分类模型，基于第二视频样本的图像数据以及所述第二视频样本的预设类别，对所述第一视频分类模型进行训练，得到第二视频分类模型，所述第二视频样本的图像数据在所述第一视频样本中存在相似的图像数据；

在对目标视频进行分类时，获取所述目标视频的图像数据，将所述目标视频的图像数据输入所述第二视频分类模型，输出所述目标视频的分类结果。

可选的，所述基于第一视频样本的图像信息以及所述第一视频样本对应的用户信息，对第一图像特征提取模块进行训练，得到第二图像特征提取模块，包括：

获取所述第一视频样本的图像数据以及所述第一视频样本对应的用户行为数据；

获取初始的点击率预测模型，所述初始的点击率预测模型包括第一图像特征提取模块；

基于所述第一视频样本的图像数据以及所述第一视频样本对应的用户行为数据，对所述初始的点击率预测模型进行训练，得到训练后的点击率预测模型，所述训练后的点击率预测模型包括第二图像特征提取模块，所述第二图像特征提取模块由所述第一图像特征提取模块训练得到；

获取所述第二图像特征提取模块。

可选的，所述初始的点击率预测模型还包括用户特征提取模块，所述用户特征提取模块用于基于输入的用户行为数据输出用户特征数据；

所述第一图像特征提取模块中包括非线性降维模块，所述非线性降维模块用于令所述第一图像特征提取模块输出的图像特征数据的维度，等于所述用户特征提取模块输出的用户特征数据的维度。

可选的，所述点击率预测模型用于基于输入的图像数据和用户行为数据输出预测点击率；

所述点击率预测模型确定预测点击率的方法，包括：

获取所述第一图像特征提取模块输出的图像特征数据与所述用户特征提取模块输出的用户特征数据之间的关联数据；

基于所述关联数据，确定对应的预测点击率。

根据本公开实施例的第二方面，提供一种视频分类装置，包括：

第一训练单元，被配置为基于第一视频样本的图像数据以及所述第一视频样本对应的用户行为数据，对第一图像特征提取模块进行训练，得到第二图像特征提取模块，所述第一图像特征提取模块用于基于输入的图像数据输出对应的图像特征数据，所述第二图像特征提取模块用于基于输入的图像数据输出包含用户行为的信息的图像特征数据；

第二训练单元，被配置为获取包含所述第二图像特征提取模块的第一视频分类模型，基于第二视频样本的图像数据以及所述第二视频样本的预设类别，对所述第一视频分类模型进行训练，得到第二视频分类模型，所述第二视频样本的图像数据在所述第一视频样本中存在相似的图像数据；

预测单元，被配置为在对目标视频进行分类时，获取所述目标视频的图像数据，将所述目标视频的图像数据输入所述第二视频分类模型，输出所述目标视频的分类结果。

可选的，所述第一训练单元，被配置为：

获取所述第二图像特征提取模块。

所述第一训练单元，被配置为：

基于所述关联数据，确定对应的预测点击率。

根据本公开实施例的第三方面，提供一种服务器，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行一种视频分类方法，所述方法包括：

根据本公开实施例的第五方面，提供一种应用程序/计算机程序产品，当所述应用程序/计算机程序产品由服务器的处理器执行时，使得所述服务器能够执行一种视频分类方法，所述方法包括：

本公开的实施例提供的技术方案可以包括以下有益效果：本实施例中，服务器可以利用图像数据和用户行为数据对图像特征提取模块进行预训练，训练过程中图像特征提取模块的模型参数可以由图像数据和用户行为数据共同决定，因此输出的图像特征数据可以包含有用户行为的信息。然后，服务器可以利用包含有预训练的图像特征提取模块的视频分类模型，并且可以基于预先标注类别的视频样本对视频分类模型进行训练。由于经过预训练的图像特征提取模型包含有用户行为的信息，对视频的不同类别，特别是主观性的类别具有一定的区分度，因此可以提高视频分类模型对视频分类的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种视频分类方法的实施环境图。

图2是根据一示例性实施例示出的一种视频分类方法流程图。

图3是根据一示例性实施例示出的一种视频分类方法流程图。

图4是根据一示例性实施例示出的一种视频展示示意图。

图5是根据一示例性实施例示出的一种点击率预测模型示意图。

图6是根据一示例性实施例示出的一种视频分类模型示意图。

图7是根据一示例性实施例示出的一种视频分类装置框图。

图8是根据一示例性实施例示出的一种用于视频分类的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本实施例提供了一种视频分类方法的实施环境图，该实施环境图如图1所示。该实施环境可以包括多个终端101、用于为该多个终端101提供服务的服务器102。多个终端101通过无线或者有线网络和服务器102连接，该多个终端101可以为能够访问服务器102的计算机设备或智能终端等。终端101中可以安装有用于观看或上传视频的应用程序，用户可以登陆上述应用程序。服务器102可以为上述应用程序提供后台服务。服务器102中还可以具有至少一种数据库，用以存储视频分类模型、视频以及对应的类别、模型训练数据等等。

本实施例提供了一种视频分类方法，该方法可以由服务器实现，如图2所示的视频分类方法流程图，该方法的处理流程可以包括如下的步骤：

在步骤201中，服务器基于第一视频样本的图像数据以及第一视频样本对应的用户行为数据，对第一图像特征提取模块进行训练，得到第二图像特征提取模块。

其中，第一图像特征提取模块可以用于基于输入的图像数据输出对应的图像特征数据，第二图像特征提取模块可以用于基于输入的图像数据输出包含用户行为的信息的图像特征数据。

获取所述第二图像特征提取模块。

所述点击率预测模型确定预测点击率的方法，包括：

基于所述关联数据，确定对应的预测点击率。

在步骤202中，服务器获取包含第二图像特征提取模块的第一视频分类模型，基于第二视频样本的图像数据以及第二视频样本的预设类别，对第一视频分类模型进行训练，得到第二视频分类模型。

其中，第二视频样本的图像数据在第一视频样本中存在相似的图像数据。

在步骤203中，服务器在对目标视频进行分类时，获取目标视频的图像信息，将目标视频的图像信息输入第二视频分类模型，输出目标视频的分类结果。

本实施例中，服务器可以利用图像数据和用户行为数据对图像特征提取模块进行预训练，训练过程中图像特征提取模块的模型参数可以由图像数据和用户行为数据共同决定，因此输出的图像特征数据可以包含有用户行为的信息。然后，服务器可以利用包含有预训练的图像特征提取模块的视频分类模型，并且可以基于预先标注类别的视频样本对视频分类模型进行训练。由于经过预训练的图像特征提取模型包含有用户行为的信息，对视频的不同类别，特别是主观性的类别具有一定的区分度，因此可以提高视频分类模型对视频分类的准确性。

本实施例将结合具体的实施方式，对视频分类方法进行介绍。该方法可以由服务器实现，如图3所示的视频分类方法流程图，该方法的处理流程可以如下。

本实施例中模型训练过程可以分为两个阶段，第一阶段是指对图像特征提取模块进行预训练，第二阶段是指在预训练的图像特征提取模块的基础上，对视频分类模型进行训练。下面将在步骤301-303中对第一阶段的模型训练过程进行介绍：

在步骤301中，服务器获取第一视频样本的图像数据以及第一视频样本对应的用户行为数据。

其中，用户行为数据可以是指用户的历史点击视频数据、喜爱视频数据、关注作者数据等。

历史点击视频数据可以用于表示用户历史点击过的视频标识。当用户点击观看视频时，终端可以向服务器获取该视频的数据，进而，服务器可以将该视频的视频标识记录在该用户的历史点击视频数据中。

喜爱视频数据可以用于表示用户喜爱的视频标识。如图4所示的视频展示示意图，终端在展示视频时，还可以显示有对该视频的喜爱选项。用户在观看视频时，可以点击喜爱选项，将该视频添加到喜爱列表中。此时，服务器可以接收到终端发送的喜爱添加请求，该请求中可以携带有对应的视频标识和用户标识。服务器可以根据请求中的用户标识，将视频标识记录在该用户的喜爱视频数据中。

关注作者数据可以用于表示用户关注的作者标识。如图4所示的视频展示示意图，终端还可以显示有对该视频的关注选项。用户在观看视频时，可以点击关注选项，添加对视频的作者的关注。此时，服务器可以接收到终端发送的关注添加请求，该请求中可以携带有视频的作者标识和用户标识。与上述同理，服务器可以将作者标识记录在该用户的关注作者数据中。

当然，用户行为数据还可以是其它行为的数据，例如历史分享视频数据等，本实施例对用户行为数据的具体形式不做限定。

当用户浏览视频列表时，可能会点击或不点击视频列表中的视频。服务器可以记录向用户展示过的各个视频，并且还可以对应地记录用户对视频的点击情况(即已点击或未点击)，以及用户当时的用户行为数据。服务器可以将上述数据存储为模型训练数据，用于预训练阶段。

当服务器触发预训练的流程时，可以获取上述记录的展示过的视频，并将这些视频作为第一视频样本，同时获取第一视频样本对应的用户行为数据。可选的，服务器还可以对各个第一视频样本获取对应的点击情况。

在步骤302中，服务器获取初始的点击率预测模型。

其中，如图5所示的点击率预测模型示意图，初始的点击率预测模型可以包括第一图像特征提取模块。第一图像特征提取模块可以用于基于输入的图像数据输出对应的图像特征数据，例如，第一图像特征提取模块可以是Inception V4网络。视频的图像数据可以是首帧的图像数据，也可以是多帧的图像数据，本实施例对此不作限定。

可选的，初始的点击率预测模型还可以包括用户特征提取模块和点击率预测模块。用户特征提取模块可以用于基于输入的用户行为数据输出用户特征数据。点击率预测模块可以将第一图像特征提取模块以及用户特征提取模块的输出作为输入，输出对视频的预测点击率。第一图像特征提取模块的部分可以称为视频侧，用户特征提取模块可以称为用户侧。

可选的，第一图像特征提取模块中，除了用于提取图像特征的基本网络结构之外，还可以包括非线性降维模块，非线性降维模块可以用于令第一图像特征提取模块输出的图像特征数据的维度，等于用户特征提取模块输出的用户特征数据的维度。例如，一般来说，非线性降维模块之前的网络输出维度是2048维，则可以将非线性降维模块设置为一层2048*128的网络，使得输出的图像特征数据的维度为128维。

可选的，用户特征提取模块中可以包括预设数目个全连接网络，激活函数可以采用ReLU(Rectified Linear Units，线性修正单元激励函数)，作用与上述非线性降维模块同理。例如，用户特征提取模块可以包括4个全连接网络，网络大小可以分别为256*512、512*512、512*512、512*128，使得输出的用户特征数据的维度为128维，与上述图像特征数据相等。全连接网络可以由技术人员根据实际需求进行设计，本实施例中对此不作限定。

当然，初始的点击率模型中还可以包括其它模块，以便适应机器学习模型的处理，本实施例对具体的网络结构不作限定。

当服务器触发预训练的流程时，可以获取上述初始的点击率预测模型。该初始的点击率预测模型可以是技术人员设计的用于确定预估点击率的机器学习模型，上面介绍的网络结构为一种可能的实施方式。由于其中的模型参数均为预设的初始值，预测的点击率准确性较低，因此需要对初始的点击率预测模型进行训练。

在步骤303中，服务器基于第一视频样本的图像数据以及第一视频样本对应的用户行为数据，对初始的点击率预测模型进行训练，得到训练后的点击率预测模型。

其中，训练后的点击率预测模型可以包括第二图像特征提取模块，第二图像特征提取模块由第一图像特征提取模块训练得到。第二图像特征提取模块可以用于基于输入的图像数据输出包含用户行为的信息的图像特征数据。

下面对视频侧的处理进行介绍：

可选的，对于第一视频样本中的各个视频，服务器在将对应的图像数据输入初始的点击率模型之前，可以对图像数据进行切分，减少输入的图像数据的像素尺寸，以便减少服务器的计算开销。例如，服务器可以将图像数据切分为多个224*224的图像块的数据，并将各个图像块的数据通过不同的图像通道进行输入。

可选的，服务器在将图像数据输入初始的点击率模型之前，还可以对图像数据进行数据增强处理(data augmentation)，例如缩放变换、旋转变换等。数据增强可以用于增大训练过程可使用的数据量，当然，当数据量充足时，可以不进行数据增强的处理。

如图5所示的点击率预测模型示意图，对于视频侧，服务器将视频的图像数据输入后，通过第一图像特征提取模块中的各个模型参数，对输入的图像数据进行数据处理，得到视频侧的图像特征数据。

下面对用户侧的处理进行介绍：

在一种可能的实施方式中，用户侧的输入还可以包括用户标识。如图5所示的点击率预测模型示意图，对于用户侧，服务器可以分别对各个类型的输入进行嵌入(embedding)处理，得到嵌入向量，也即，分别对用户标识、历史点击视频数据、喜爱视频数据、关注作者数据等进行嵌入处理。

对于历史点击视频数据、喜爱视频数据、关注作者数据等，其中可能包括多项数据，则服务器可以对同一类型的嵌入向量进行合并，并且合并后的嵌入向量的维度可以不大于原嵌入向量的维度，在保留原有信息的同时，不增加处理复杂度。例如，嵌入向量的维度可以是64维，服务器可以通过求和池化层(sum pooling)对同一类型的嵌入向量进行求和，分别得到历史点击的视频标识之和(sum(click_item_id_embedding))、喜爱的视频标识之和(sum(like_item_id_embedding))和关注的作者标识之和(sum(follow_author_id_embedding))，求和之后的嵌入向量维度仍然为64维。

然后，服务器可以对各个类型的嵌入向量进行第一关联处理，得到关联向量(concatenation)。例如，服务器可以对各个类型的嵌入向量进行拼接，对于4个64维的嵌入向量，拼接后得到256维的关联向量。

服务器可以将关联向量通过上述预设数目个全连接网络进行数据处理，其中可以同时对全连接网络进行批量归一化处理(batch normalization)，输出用户特征数据。例如，256维的关联向量通过上述4个全连接网络，可以输出128维的用户特征数据。

下面对预测目标以及参数调整过程进行介绍：

点击率预测模型确定预测点击率的处理可以是，服务器获取第一图像特征提取模块输出的图像特征数据与用户特征提取模块输出的用户特征数据之间的关联数据；基于关联数据，确定对应的预测点击率。

服务器可以将图像特征数据与用户特征数据进行第二关联处理，得到两者之间的关联数据。然后，服务器通过点击率模块中的模型参数对关联数据进行数据处理，得到视频对应的预测点击率。通过上述处理，预测点击率可以由图像特征数据和用户特征数据共同决定，利用用户行为的信息提高对各个视频的区分度。

点击率预测模块中，预测目标可以是点击率，也即使得输出的预测点击率，尽可能符合第一视频样本中用户对视频实际的点击情况。服务器可以将第一视频样本中用户对视频实际的点击情况，以及点击率预测模块中输出的点击率，通过初始的点击率模型的损失函数，分别确定各个模型参数的修正值，对各个模型参数进行调整。

在一种可能的实施方式中，在图像特征数据与用户特征数据的维度相等的基础上，上述第二关联处理可以是点积处理。服务器在对图像特征数据和用户特征数据进行点积处理后，将点积之后的结果通过损失函数进行参数调整。例如，损失函数可以是logloss(graph_embedding*user_embedding)，其中，graph_embedding是指图像特征数据，user_embedding是指用户特征数据。

对于第一视频样本中的各个视频，服务器均可通过上面介绍的过程对点击率预测模型进行训练。当达到第一训练结束条件(如达到预设的训练次数)时，可以结束预训练的过程，得到训练后的点击率预测模型。

其中的第一图像特征模块经过训练后得到第二图像特征模块。由于预测点击率由图像特征数据与用户特征数据共同决定，因此在参数调整时，对第一图像特征模型的调整可以使得图像特征数据配合用户特征数据，确定符合实际情况的预测点击率。因此，训练完成后，第二图像特征模块输出的图像特征数据可以包含有用户行为的信息。

上面介绍的对图像特征提取模块的预训练过程中，结合点击率预测模型对图像特征提取模块进行预训练。当然，服务器也可以是结合其它包含有图像特征提取模块的模型，对图像特征提取模块进行预训练，这些模型的共性在于，利用图像数据以及用户行为数据共同实现一个目标，以便在训练过程中，图像特征提取模型的参数可以根据用户行为数据进行调整，使得训练后输出的图像特征数据包含有用户行为的信息。

下面将在步骤304-305中对第二阶段的模型训练过程进行介绍：

在步骤304中，服务器获取训练后的点击率预测模型中的第二图像特征提取模块。

第一阶段的预训练完成后，服务器可以获取第二图像提取模块中的各个模型参数。可选的，如果第二图像提取模块包括非线性降维模块，则在获取第二图像提取模块的模型参数时，可以删除非线性降维模块的模型参数，得到基本网络结构的模型参数。

在步骤305中，服务器获取包含第二图像特征提取模块的第一视频分类模型，基于第二视频样本的图像数据以及第二视频样本的预设类别，对第一视频分类模型进行训练，得到第二视频分类模型。

其中，第一视频样本和第二视频样本的来源可以是相同的视频库，第二视频样本的图像数据在第一视频样本中可以存在相似的图像数据。如图6所示的视频分类模型示意图，第一视频分类模型可以包括第二图像特征提取模块和视频分类模块。视频分类模块可以基于第二图像特征模块输出的图像特征数据，输出视频的分类结果。分类结果可以是对预设数目个类别的预测概率。

技术人员可以对视频的类别进行预先标注，得到各个视频的预设类别。当服务器触发对视频分类模型的训练流程时，可以获取具有预设类别的视频，并将上述视频作为第二视频样本，同时获取第二视频样本对应的预设类别。

服务器中可以存储有预设的视频分类模型，在触发对视频分类模型的训练流程时，可以获取上述视频分类模型，并且可以将其中图像特征提取模块的模型参数，设置为第二图像特征提取模块的模型参数，得到第一视频分类模型。由于除了第二图像特征提取模块外，第一视频分类模型的模型参数可以是预设的初始值，分类的准确性较低，因此需要对第一视频分类模型进行训练。

服务器将视频的图像数据输入第二图像特征提取模型的处理，与上述预训练过程中视频侧的处理同理，此处不再赘述。

服务器可以将第二图像特征提取模块输出的图像特征数据，输入视频分类模块，通过视频分类模块中各个模型参数进行数据处理，得到视频的分类结果。例如，视频分类模块可以是网络大小为2048*610的柔性最大值(softmax)函数，输出的分类结果的维度可以是610维，也即预设类别的数目为610种。

然后，服务器可以根据视频的预设类别，以及视频分类模块输出的分类结果，通过视频分类模型的损失函数，分别确定各个模型参数的修正值，对各个模型参数进行调整，使得输出的分类结果尽可能符合实际的分类情况。例如，损失函数可以是sum(y_i*log(p_i))，其中，设预设类别的数目为610种，则i为[1,610]之间的任一整数取值，y_i是任一预设类别的编码(如独热编码)，p_i是预测为类别i的概率。

对于第二视频样本中的各个视频，服务器均可通过上面介绍的过程对视频分类模型进行训练。当达到第二训练结束条件时，可以结束训练过程，得到训练后的第一视频分类模型，也即第二视频分类模型，并对第二视频分类模型进行存储。

由于第一视频样本与第二视频样本存在相似的图像数据，也即存在相同类别的视频，因此，对第一视频分类模型进行训练时，相同类别的视频的图像数据可以通过第二图像提取模型得到相似的图像特征数据，然后根据第二视频样本中对应的预设类别对该类别的视频的进行标定。由于第二图像特征提取模块输出的图像特征数据可以包含有用户行为的信息，可以提高对不同类别的视频的区分度，因此，基于第二图像特征提取模块输出的图像特征数据进行分类时，可以提高视频分类的准确性。

并且，由于人工标注的成本较高，第二视频样本的数据量可能较少，如果直接对预设的视频分类模型进行训练，可以会使得视频分类模型学习不充分。但是，本实施例中可以在第一阶段的预训练过程中，利用图像数据以及用户行为数据进行预训练，对于视频投放的应用程序而言，图像数据以及用户行为数据的数据量较多，因此可以使得图像特征提取模型得到充分的训练，得到较为具有代表性的图像特征数据。因此，在第二阶段的训练过程中，由于图像特征提取模型学习得较为充分，可以相当于是对图像特征数据与预设类别的匹配过程进行学习，相比于直接对预设的视频分类模型进行训练时，训练难度降低，利用较少的数据量可以达到较优的训练效果。

在步骤306中，服务器在对目标视频进行分类时，获取目标视频的图像信息，将目标视频的图像信息输入第二视频分类模型，输出目标视频的分类结果。

服务器可以周期性地对已存储的视频进行分类，或当用户通过终端上传视频时，服务器可以对上传的视频进行分类，本实施例对服务器触发分类处理的具体方式不作限定。

将待分类的视频称为目标视频，则服务器可以获取目标视频的图像数据，例如目标视频的首帧数据，或者对目标视频进行采样，得到多帧数据。服务器将目标视频的图像数据图像数据输入第二视频分类模型，确定分类结果的处理，与上述步骤305中确定视频的分类结果的处理同理，此处不再赘述。

服务器确定目标视频的分类结果后，可以将分类结果中预测概率大于预设阈值的类别，确定为目标视频的目标类别，并且可以根据目标类别对目标视频进行标注。在此之后，服务器在向用户推荐视频时，可以根据各个视频的目标类别，推荐符合用户兴趣的视频。

由于对目标视频进行分类时，利用的是目标视频的图像数据，是每个视频均具有的数据，因此，本实施例提供的视频分类方法可以适用于各个视频，也即适用范围较广。并且，由于不需要利用其它历史数据(如历史过程中各个用户对目标视频的行为数据)，对于新上传的视频进行分类时也可以具有较高的准确性，可以解决冷启动的问题。

图7是根据一示例性实施例示出的一种视频分类装置框图。参照图7，该装置包括第一训练单元710，第二训练单元720和预测单元730。

第一训练单元710，被配置为基于第一视频样本的图像数据以及所述第一视频样本对应的用户行为数据，对第一图像特征提取模块进行训练，得到第二图像特征提取模块，所述第一图像特征提取模块用于基于输入的图像数据输出对应的图像特征数据，所述第二图像特征提取模块用于基于输入的图像数据输出包含用户行为的信息的图像特征数据；

第二训练单元720，被配置为获取包含所述第二图像特征提取模块的第一视频分类模型，基于第二视频样本的图像数据以及所述第二视频样本的预设类别，对所述第一视频分类模型进行训练，得到第二视频分类模型，所述第二视频样本的图像数据在所述第一视频样本中存在相似的图像数据；

预测单元730，被配置为在对目标视频进行分类时，获取所述目标视频的图像数据，将所述目标视频的图像数据输入所述第二视频分类模型，输出所述目标视频的分类结果。

可选的，所述第一训练单元710，被配置为：

获取所述第二图像特征提取模块。

所述第一训练单元710，被配置为：

基于所述关联数据，确定对应的预测点击率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于视频分类的装置800的框图。例如，装置800可以被提供为一服务器。参照图8，装置800包括处理组件822，其进一步包括一个或多个处理器，以及由存储器832所代表的存储器资源，用于存储可由处理组件822的执行的指令，例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件822被配置为执行指令，以执行上述视频分类方法。

装置800还可以包括一个电源组件826被配置为执行装置800的电源管理，一个有线或无线网络接口850被配置为将装置800连接到网络，和一个输入输出(I/O)接口858。装置800可以操作基于存储在存储器832的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由服务器中的处理器执行以完成上述视频分类方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序/计算机程序产品，包括一条或多条指令，该一条或多条指令可以由服务器的处理器执行，以完成上述视频分类方法。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频分类方法，其特征在于，包括：

基于第一视频样本的图像数据以及所述第一视频样本对应的用户行为数据，对第一图像特征提取模块进行训练，得到第二图像特征提取模块，所述第一图像特征提取模块用于基于输入的图像数据输出对应的图像特征数据，且所述第一图像特征提取模块为点击率预测模型中的特征提取模块，所述第二图像特征提取模块用于基于输入的图像数据输出包含用户行为的信息的图像特征数据；

在对目标视频进行分类时，获取所述目标视频的图像数据，将所述目标视频的图像数据输入所述第二视频分类模型，基于所述第二视频分类模型中的所述第二图像特征提取模块输出的包含用户行为的信息的图像特征数据，输出所述目标视频的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述基于第一视频样本的图像信息以及所述第一视频样本对应的用户信息，对第一图像特征提取模块进行训练，得到第二图像特征提取模块，包括：

获取所述第二图像特征提取模块。

3.根据权利要求2所述的方法，其特征在于，所述初始的点击率预测模型还包括用户特征提取模块，所述用户特征提取模块用于基于输入的用户行为数据输出用户特征数据；

4.根据权利要求3所述的方法，其特征在于，所述点击率预测模型用于基于输入的图像数据和用户行为数据输出预测点击率；

所述点击率预测模型确定预测点击率的方法，包括：

基于所述关联数据，确定对应的预测点击率。

5.一种视频分类装置，其特征在于，包括：

第一训练单元，被配置为基于第一视频样本的图像数据以及所述第一视频样本对应的用户行为数据，对第一图像特征提取模块进行训练，得到第二图像特征提取模块，所述第一图像特征提取模块用于基于输入的图像数据输出对应的图像特征数据，且所述第一图像特征提取模块为点击率预测模型中的特征提取模块，所述第二图像特征提取模块用于基于输入的图像数据输出包含用户行为的信息的图像特征数据；

预测单元，被配置为在对目标视频进行分类时，获取所述目标视频的图像数据，将所述目标视频的图像数据输入所述第二视频分类模型，基于所述第二视频分类模型中的所述第二图像特征提取模块输出的包含用户行为的信息的图像特征数据，输出所述目标视频的分类结果。

6.根据权利要求5所述的装置，其特征在于，所述第一训练单元，被配置为：

获取所述第二图像特征提取模块。

7.根据权利要求6所述的装置，其特征在于，所述初始的点击率预测模型还包括用户特征提取模块，所述用户特征提取模块用于基于输入的用户行为数据输出用户特征数据；

8.根据权利要求7所述的装置，其特征在于，所述点击率预测模型用于基于输入的图像数据和用户行为数据输出预测点击率；

所述第一训练单元，被配置为：

基于所述关联数据，确定对应的预测点击率。

9.一种服务器，其特征在于，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的存储器；

其中，所述一个或多个处理器被配置为：

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行一种视频分类方法，所述方法包括：