CN112948631A

CN112948631A - 视频标签生成方法、装置及电子终端

Info

Publication number: CN112948631A
Application number: CN201911277514.0A
Authority: CN
Inventors: 张海斌; 陈熊; 汪贤; 樊鸿飞
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2021-06-11

Abstract

本发明提供了一种视频标签生成方法、装置及电子终端，涉及视频处理技术领域，该方法通过利用一级神经网络模型对视频文件进行识别，确定视频文件的一级视频标签，然后对生成的一级视频标签进行分类，得到第一标签的所述类别，根据一级视频标签的所属类别，利用对应的二级神经网络模型对视频文件进行识别，生成视频文件的二级视频标签。其中，二级视频标签的所属类别是一级视频标签的所属类别的子类别。该方法对视频中的标签集合进行了分类，再根据分类结果完成标签预测，实现了每一级视频标签的预测只考虑该标签下的子标签的集合，大幅度减少待预测标签集合的大小，提高标签预测的准确性。

Description

视频标签生成方法、装置及电子终端

技术领域

本发明涉及视频处理技术领域，尤其是涉及一种视频标签生成方法、装置及电子终端。

背景技术

视频标签作为描述视频的特征和类型，可将视频进行层次化分类，通常用于视频检索和视频推荐。视频标签的获取是通过对视频进行场景分类、人物识别、语音识别、文字识别等多维度分析，形成层次化分类标签的过程。现有技术对同一层次的标签作为集合进行标签分类的过程中，当标签数量较多时，预测的速度以及精度会降低。

发明内容

本发明的目的在于提供一种视频标签生成方法、装置及电子终端，通过减少标签分类时待预测标签集合的大小，提高了标签预测的准确性。

第一方面，本发明实施例提供的一种视频标签生成方法，该方法包括：

利用一级神经网络模型对视频文件进行识别，确定视频文件的一级视频标签；

根据一级视频标签的所属类别，利用对应的二级神经网络模型对视频文件进行识别，生成视频文件的二级视频标签；

其中，二级视频标签的所属类别是一级视频标签的所属类别的子类别。

进一步的，上述利用一级神经网络模型对视频文件进行识别，确定视频文件的一级视频标签的步骤，包括：

将视频文件输入一级三维卷积层，对视频文件进行三维卷积处理，获得经三维卷积处理后的视频文件；

将经三维卷积处理后的视频文件输入连续的若干个阶段的卷积层，对视频文件进行卷积处理，获得经卷积处理后的视频文件；

将经卷积处理后的视频文件输入全连接层，对视频文件进行全连接操作，经过softmax函数输出一级视频标签。

进一步的，每个阶段的卷积层包括若干个瓶颈层或密集块层。

进一步的，上述根据一级视频标签的所属类别，利用对应的二级神经网络模型对视频文件进行识别，生成视频文件的二级视频标签的步骤，包括：

根据一级视频标签的所属类别，选择对应的二级神经网络模型；

将视频文件输入二级三维卷积层，对视频文件进行三维卷积处理，获得经三维卷积处理后的视频文件；

将经卷积处理后的视频文件输入全连接层，对视频文件进行全连接操作，经过softmax函数输出二级视频标签。

进一步的，一级视频标签包括CG视频和非CG视频。

进一步的，上述二级视频标签包括属于CG视频的子类别的游戏、动漫，以及属于非CG视频的子类别的体育、秀场、综艺。

进一步的，上述方法还包括：

根据二级视频标签的类别，利用对应的三级神经网络模型对视频文件进行识别，生成视频文件的三级视频标签；

其中，三级视频标签的所属类别是二级视频标签的所属类别的子类别。

第二方面，本发明还提供一种视频标签生成装置，该装置包括：

一级视频标签生成模块，用于利用一级神经网络模型对视频文件进行识别，确定视频文件的一级视频标签；

二级视频标签生成模块，用于根据一级视频标签的所属类别，利用对应的二级神经网络对视频文件进行识别，生成视频文件的二级视频标签；其中，二级视频标签的所属类别是一级视频标签的所属类别的子类别。

第三方面，本发明实施例提供一种电子终端，包括存储器、处理器，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述视频标签生成方法的步骤。

第四方面，本发明实施例提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述视频标签生成方法。

本发明提供了一种视频标签生成方法、装置及电子终端，在视频标签生成方法中，通过利用一级神经网络模型对视频文件进行识别，确定视频文件的一级视频标签，然后对生成的一级视频标签进行分类，得到第一标签的所属类别。根据一级视频标签的所属类别，利用对应的二级神经网络模型对视频文件进行识别，生成视频文件的二级视频标签。其中，二级视频标签的所属类别是一级视频标签的所属类别的子类别。该视频标签生成方法对视频中的标签集合进行了分类，再根据分类结果完成标签预测，实现了每一级视频标签的预测只考虑该标签下的子标签的集合，大幅度减少待预测标签集合的大小，提高标签预测的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频标签生成方法的流程图；

图2为本发明实施例提供的视频标签生成方法中步骤S101的流程图；

图3为本发明实施例提供的另一种视频标签生成方法的流程图；

图4为本发明实施例提供的视频标签生成方法中步骤S102的流程图；

图5为本发明实施例提供的一级神经网络模型的训练流程图；

图6为本发明实施例提供的二级神经网络模型的训练流程图；

图7为本发明实施例提供的视频标签生成装置的结构示意图；

图8为本发明实施例提供的一种电子终端结构示意图。

图标：301-视频文件；302-3D矩阵；303-卷积层；304-卷积层；305-卷积层；306-全连接层；307-一级视频标签的结果；308-第一二级神经网络、309-第二二级神经网络；310-第一全连接层；311-第二全连接层；312-第一二级视频标签结果；313-第二二级视频标签结果；701-一级视频标签生成模块；702-二级视频标签生成模块；11-处理器；12-总线；13-通信接口；14-存储器。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如今的视频播放已深入到生活各个层面，例如通过网络进行视频播放，在家庭生活中通过电视的视频播放，户外的视频广告播放等。由于视频的播放形式及内容多种多样，如何将视频进行准确描述，有利于对有该需求的用户进行查找。现有技术中通过视频标签作为视频的描述，通过视频标签中的文字描述，可对视频进行分类，有利于通过视频标签对该视频进行推荐，因此视频标签通常用于视频检索和视频推荐中。

视频标签的设置具有多种类型，可从视频内容里包含的多个预测种类中预测一个标签；也可从视频内容里包含的多个预测种类中预测多个标签；也可以通过对视频标签进行分级，每级标签中包含各自对应的子集标签。

传统的视频标签的设置，通过人工进行填写获得。由于每个人对视频的理解不同，所设置的标签也各不相同，尤其是对视频设置多个视频标签时，更容易出现偏差。随着深度学习技术的发展，基于图像分析的视频处理技术应用越来越多广泛，其中视频标签的预测及获取，已在视频推荐、视频搜索和视频广告上得到广泛的应用。例如，用户通过搜索引擎对所需视频进行搜索时，搜索引擎服务器根据用户搜索的文字，对保存的视频中的标签进行比对，将比对结果满足条件的视频作为结果返回给用户，从而实现了视频搜索的过程。网站服务器也可根据用户进行搜索的内容进行分析，得到用户潜在的视频喜好，并根据服务器中保存的视频标签进行对比，将满足条件的视频推荐至网站首页或者其它醒目区域，用于向用户进行推荐。

目前，视频标签预测主要对多标签的预测过程中，现有的多标签预测的方法主要有三类：第一类是一阶策略，即忽略和其它标签的相关性，比如把多标签分解成多个独立的二分类问题；第二类是二阶策略，考虑标签之间的成对关联，比如为相关标签和不相关标签排序；第三类是高阶策略：考虑多个标签之间的关联，比如对每个标签考虑所有其它标签的影响。

在现有技术中，当标签总数或者同级标签数目较多时，会造成视频标签预测速度的降低，同时预测的结果也会受到影响。

针对上述视频标签生成的过程中存在的问题，本发明实施例针对此类一种视频标签生成方法、装置及电子终端以解决上述问题，该技术可应用与视频标签生成的使用场景中，采用相关的软件或硬件实现，下面通过实施例进行详细描述。首先对本发明实施例所公开的一种视频标签生成方法进行详细介绍，如图1所示，该方法包括以下步骤：

步骤S101，利用一级神经网络模型对视频文件进行识别，确定视频文件的一级视频标签。

由于视频文件是多帧静态图片的组合，因此对视频文件进行识别的过程是选取视频中所需要识别的视频帧进行。

卷积神经网络是深度学习的代表算法之一，具有表征学习的能力。卷积神经网络一般由输入层、卷积层、激活函数层、池化层以及全连接层构成。输入至卷积神经网络模型的数据一般是输入图像的像素矩阵，是二维的，该输入图像由输入层进行输入后，通过卷积层进行卷积操作。卷积操作的过程通过内置的卷积核进行卷积运算，再通过步长进行滑动，相关的重叠区域进行填充计算。激励函数层与激活函数相关，实现了对数据的去线性化。池化层对输入矩阵进行进一步的特征提取，减少了数据量，防止过渡拟合，提高了泛化性。池化层并非是卷积神经网络所必须的，一些新型的卷积神经网络并没有使用池化层。卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层，全连接层位于卷积神经网络隐含层的最后部分，并只向其它全连接层传递信号。对于视频帧进行图像分类问题，通过对全连接层使用逻辑函数或归一化指数函数(softmax function)输出最终的分类标签。

神经网络模型可选择三维卷积神经网络模型，三维卷积神经网络是针对于传统单帧二维图像的卷积神经网络而言的，在卷积核中添加时间维度而延伸了第三个维度，从而使得视频可以看做是多帧图像在时序上的表现。

该步骤生成的一级视频标签内容，描述的是视频内容所处的大类，例如：可根据视频内容是否属于CG(Computer Animation，计算机动画)类视频，将一级视频标签设定为CG视频和非CG视频。这些大类中包含有各自的小分类，例如体育、娱乐、新闻、科技、动漫、游戏等。上述小分类中还可继续分类，例如体育类可包含足球、篮球、排球等分类；娱乐类可包含歌曲、相声、舞蹈等分类；新闻可包含国内新闻、国外新闻等分类；科技可包含手机、电脑、数码等分类；动漫可分为国产动漫、日系动漫等分类；游戏可分为手游、桌游等分类。

对于视频文件而言，一级视频标签并不限于只有一个，可以有多个。例如该视频文件是体育类新闻，因此该视频文件的一级视频标签可为两个，分别是：新闻和体育。

步骤S102，根据一级视频标签的所属类别，利用对应的二级神经网络对视频文件进行识别，生成视频文件的二级视频标签。

二级视频标签的所属类别是一级视频标签的所属类别的子类别，对应步骤S101中提到的小分类。一级视频标签的所属类别是从一级视频标签中获得，例如所属类别可为体育、娱乐、新闻、科技、动漫、游戏等。获取到该视频的所述一级视频标签所属类别后，再利用对应的二级神经网络对视频文件进行识别。

例如视频文件通过步骤S101，生成的视频文件的一级视频标签为A，再将视频文件输入至对应A的已完成训练的二级神经网络中，生成该视频文件的二级视频标签。由于二级视频标签是建立在一级视频标签的前提下获取的，因此二者保持着从属关系。

当视频文件生成的一级视频标签为多个时，例如生成的一级视频标签为A和B，此时需要将视频文件分别输入至对应A和B的已完成训练的二级神经网络中，分别生成两个该视频文件的二级视频标签。上述执行过程优先采用异步的方式分别执行，使得二级视频标签的获取分两路进行，相互之间不会影响。

本发明实施例提供的视频标签生成方法对视频文件的标签进行分级分类，通过预先完成训练的一级神经网络模型生成视频文件的一级视频标签，该标签为分类的大类，再根据每一种大类对应的二级神经网络模型对视频文件进行识别，该二级神经网络模型根据一级视频标签所处的不同大类预先完成了训练，得到的二级视频标签的过程只需考虑该一级视频标签下的标签数据。可见，该视频标签生成方法使得每一级视频标签的预测过程只需考虑该级标签下的子标签的集合，减少了待预测标签集合的大小，有利于提高标签预测的准确性和预测的速度。

下面对预先完成训练的一级三维卷积层的工作机制进行介绍，在上述步骤S101，如图2所示，还包括以下步骤：

步骤S201，将视频文件输入一级三维卷积层，对视频文件进行三维卷积处理，获得经三维卷积处理后的视频文件。

在对视频文件进行处理之前，首先需要对视频标签的格式进行确定。由于本实施例中的视频标签之间具有从属关系，因此可将具有从属关系的视频标签进行组合。例如，一个视频对应的标签记为如下格式：{{A1,A21}，{A1,A22}，{B1,B21}，{B1,B22}，{B1,B23}}。其中的A1和B1表示2个一级视频标签，其中的A、B表示不同的一级视频标签类型，后面的1表示1级标签。A21、A22、B21、B22、B23表示二级视频标签，由三位数构成，其中的第一位为从属的一级视频标签的类型；第二位均是2，表示是2级标签；第三位数字在所处一级视频标签下是不同的，表示不同的二级视频标签。通过上述描述可见，该视频对应2个一级视频标签，所有标签类别共有5种。

视频标签的表述并不限定上述的描述形式，在遵循上述表示思想的前提下可选用其它分割符、括号、字母以及数字进行描述。获得的视频标签保存至视频文件中，形成经三维卷积处理后的视频文件。

视频文件输入至该一级神经网络模型进行卷积处理，该三维网络模型可选用诸如AlexNet、ZF Net、DeConvNet、VGG Net、GoogLeNet、ResNet、Faster R-CNN上述任意一种神经网络进行构建。本实施例中选用的一级神经网络模型是基于ResNet-50神经网络改进神经网络模型，与其它卷积神经网络类似，本实施例中的一级神经网络模型包括多个三维卷积层，视频文件输入至神经网络模型后首先输入至三维卷积层，进行初步卷积处理。

步骤S202，将经三维卷积处理后的视频文件输入连续的若干个阶段的卷积层，对视频文件进行卷积处理，获得经卷积处理后的视频文件。

一级神经网络模型中需要多个卷积层进行卷积运算，卷积层的数量根据实际情况而具体确定，通过步骤S201后得到的经三维卷积处理后的视频文件输入至卷积层中开始进行训练。具体的，从图3所示的另一种视频标签生成方法的流程图可知，该一级神经网络模型中的包含3个卷积层，分别对应303-305。视频文件301经过步骤S201后得到初步卷积处理的3D矩阵302，然后依次输入至卷积层303-305中。卷积层303中的通过1×1卷积核将输入矩阵转化为64维通道的矩阵，再将矩阵通过3×3卷积核进行卷积，得到一个64维通道的矩阵，最后再通过1×1卷积核进行卷积，得到256维通道的矩阵。

卷积层304中的通过1×1卷积核将输入矩阵转化为128维通道的矩阵，再将矩阵通过3×3卷积核进行卷积，得到一个128维通道的矩阵，最后再通过1×1卷积核进行卷积，得到512维通道的矩阵。

卷积层305中的通过1×1卷积核将输入矩阵转化为256维通道的矩阵，再将矩阵通过3×3卷积核进行卷积，得到一个256维通道的矩阵，最后再通过1×1卷积核进行卷积，得到1024维通道的矩阵。

每个阶段的卷积层包括若干个瓶颈层(BottleNeck)或密集块层(DenseBlock)，BottleNeck瓶颈层常出现在ResNet神经网络模型中；DenseBlock密集块层常出现在DenseNet神经网络模型中，二者均可降低参数的数量。图3中的卷积层303由3个BottleNeck层组成；卷积层304由4个BottleNeck层组成；卷积层305由6个BottleNeck层组成。

步骤S203，将经卷积处理后的视频文件输入全连接层，对视频文件进行全连接操作，经过softmax函数输出一级视频标签。

在卷积层305中输出的结果包含所需的视频标签特征，将输出的结果通过全连接层操作后，经过softmax函数后输出一级视频标签的结果。

softmax函数在机器学习和深度学习中有着广泛的应用，主要用于多分类问题。在本实施例中的全连接层306位于全连接层后，通过内置的softmax函数对视频中的一级视频标签进行分类，最终输出一级视频标签的结果307。

根据输出的一级视频标签的结果307后，利用对应的二级神经网络模型对视频文件进行识别，生成视频文件的二级视频标签，因此上述步骤S102，包括(如图4所示)：

步骤S401，根据一级视频标签的所属类别，选择对应的二级神经网络模型。

根据一级视频标签的结果307所述的类别，首先选择与之对应的二级神经网络模型，上述二级神经网络模型如图中308和309所示，事先均完成训练，该模型训练的过程稍后描述。

如果一级视频标签为A1，则控制数据流向A1对应的第一二级神经网络308中；如果一级视频标签为B，则控制数据流向B1对应的第二二级神经网络309中。

步骤S402，将视频文件输入二级三维卷积层，对视频文件进行三维卷积处理，获得经三维卷积处理后的视频文件。

该步骤与步骤S201类似，均将视频文件进行初步处理，将视频文件转化为卷积的形式，用于后续的三维卷积处理。

步骤S403，将经三维卷积处理后的视频文件输入连续的若干个阶段的卷积层，对视频文件进行卷积处理，获得经卷积处理后的视频文件。

二级三维卷积层与一级三维卷积层类似，均的通过1×1卷积核将输入矩阵转化为512维通道的矩阵，再将矩阵通过3×3卷积核进行卷积，得到一个512通道的矩阵，最后再通过1×1卷积核进行卷积，得到2048维通道的矩阵。

二级三维卷积层也可包括若干个瓶颈层(BottleNeck)或密集块层(DenseBlock)，例如卷积层均由3个BottleNeck层组成。经三维卷积处理后的视频文件通过上述卷积层后，最终得到经卷积处理后的视频文件。

步骤S404，将经卷积处理后的视频文件输入全连接层，对视频文件进行全连接操作，经过softmax函数输出二级视频标签。

通过卷积层后的输出结果包含所需的二级视频标签特征，该输出结果通过第一二级神经网络308以及第二二级神经网络309对应的第一全连接层310、第二全连接层311后，经过softmax函数输出二级视频标签的结果。

如果一级视频标签得到的结果为A1，则经过第一二级神经网络308的卷积层再通过第一全连接层310后输出第一二级视频标签结果312，该二级视频标签记为{A21，A22}共有2个。

如果一级视频标签得到的结果为B1，则经过第二二级神经网络309的卷积层再通过第二全连接层311后输出第二二级视频标签结果313，该二级视频标签记为{B21，B22，B23}共有3个。

由图3可知，A1方向和B1方向的模型结构是相同的，但由于二者所处不同的一级分类中，因此所用到的网络在训练阶段会运用各自的参数，也就是说二者的训练所用的数据是不同的，这些训练数据均属于各自所处的一级分类中。

例如，一级视频标签包括CG视频和非CG视频。CG(Computer Animation，计算机动画)视频主要以动漫游戏为主题，与CG视频为一级视频标签对应的从属二级视频标签，包括属于CG视频的子类别的游戏、动漫，以及属于非CG视频的子类别的体育、秀场、综艺。

上述实施例中描述了二级从属关系，对于多级从属关系的视频标签的获取也可以再次基础上进行。如果对二级视频标签中包含的三级标签进行视频标签的获取，可采用如下步骤得以实现：

根据二级视频标签的类别，利用对应的三级神经网络模型对视频文件进行识别，生成视频文件的三级标签。其中，三级标签的所属类别是二级视频标签的所属类别的子类别。

三级标签的获取方式与前述二级视频标签的实现原理及产生的技术效果相同，为简要描述，该部分未提及之处，可参考前述方法实施例中相应内容。

下面对上述一级神经网络模型以及二级神经网络模型的训练过程进行介绍。由于网络结构所需要的数据量较大，并且视频文件的文件大小相比于图片文件而言更大，所需的存储空间更多，训练所用的文件数量不宜过多，否则会带来较大的存储压力；同时，训练所用的文件数量也不能过少，过少会对降低模型的识别精度。因此本实施例在公开数据集Kinetics上进行预训练，再使用训练好的模型来初始化本方法的模型，具体过程如下：

对一级三维网络模型的训练时，所用的模型结构如图5所示，该模型结构与图3中利用一级神经网络模型对视频文件进行识别所用到的模型组件相同。该模型只输出视频的一级视频标签数据集合，即输出结果是A1还是B1。模型训练时所用到的数据为视频文件以及对应的一级视频标签，为了方便描述，将该模型记为Model_1，损失函数记为Loss_1。

对二级神经网络模型进行训练时，所用的模型结构如图6所示，该模型结构与图3中的利用二级视频标签的二级神经网络模型对视频文件进行识别所用到的模型组件相同。模型训练时所用到的数据为视频文件以及对应二级视频标签数据集合。为了方便描述，将该模型分别记为Model_21和Model_22，损失函数记为Loss_21和Loss_22，其中Model_21对应A21和A22的二级视频标签；Model_22对应B21、B22和B23的二级视频标签。

如果需要同时得到一级视频标签和二级视频标签，所需的模型结构是上述两个卷积神经网络的组合。此时，Model_1模型的训练过程与前述步骤相同，获得的一级视频标签作为输入数据输入至对应的Model_21或Model_22中。可见，二级神经网络模型的训练过程中只对应真实的一级视频标签数据。此时的网络的损失函数是上述三个模型的损失函数累加的结果，这三个损失函数的权重相同。

对应于上述视频标签生成方法的实施例，参见图7所述的视频标签生成装置，该装置包括以下模块：

一级视频标签生成模块701，用于利用一级神经网络模型对视频文件进行识别，确定视频文件的一级视频标签；

二级视频标签生成模块702，用于根据一级视频标签的所属类别，利用对应的二级神经网络对视频文件进行识别，生成视频文件的二级视频标签；其中，二级视频标签的所属类别是一级视频标签的所属类别的子类别。

本发明实施例所提供的视频标签生成装置，其实现原理及产生的技术效果和前述视频标签生成方法的实施例相同，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

本实施例还提供一种电子终端，为该电子终端的结构示意图如图8所示，该设备包括处理器11和存储器14；其中，存储器14用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述视频标签生成方法。

图8所示的电子终端还包括总线12和通信接口13，处理器11、通信接口13和存储器14通过总线12连接。

其中，存储器14可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。总线12可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

通信接口13用于通过网络接口与至少一个用户终端及其它网络单元连接，将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。

处理器11可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器14，处理器11读取存储器14中的信息，结合其硬件完成前述实施例的方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频标签生成方法，其特征在于，包括：

利用一级神经网络模型对视频文件进行识别，确定所述视频文件的一级视频标签；

根据所述一级视频标签的所属类别，利用对应的二级神经网络模型对所述视频文件进行识别，生成所述视频文件的二级视频标签；

其中，所述二级视频标签的所属类别是所述一级视频标签的所属类别的子类别。

2.根据权利要求1所述的方法，其特征在于，利用一级神经网络模型对视频文件进行识别，确定所述视频文件的一级视频标签的步骤，包括：

将视频文件输入一级三维卷积层，对所述视频文件进行三维卷积处理，获得经三维卷积处理后的所述视频文件；

将经三维卷积处理后的所述视频文件输入连续的若干个阶段的卷积层，对所述视频文件进行卷积处理，获得经卷积处理后的所述视频文件；

将经卷积处理后的所述视频文件输入全连接层，对所述视频文件进行全连接操作，经过softmax函数输出一级视频标签。

3.根据权利要求2所述的方法，其特征在于，每个阶段的卷积层包括若干个瓶颈层或密集块层。

4.根据权利要求1所述的方法，其特征在于，根据所述一级视频标签的所属类别，利用对应的二级神经网络模型对所述视频文件进行识别，生成所述视频文件的二级视频标签的步骤，包括：

根据所述一级视频标签的所属类别，选择对应的二级神经网络模型；

将所述视频文件输入二级三维卷积层，对所述视频文件进行三维卷积处理，获得经三维卷积处理后的所述视频文件；

将经卷积处理后的所述视频文件输入全连接层，对所述视频文件进行全连接操作，经过softmax函数输出二级视频标签。

5.根据权利要求1所述的方法，其特征在于，所述一级视频标签包括CG视频和非CG视频。

6.根据权利要求5所述的方法，其特征在于，所述二级视频标签包括属于CG视频的子类别的游戏、动漫，以及属于非CG视频的子类别的体育、秀场、综艺。

7.根据权利要求1所述的方法，其特征在于，还包括：

根据所述二级视频标签的类别，利用对应的三级神经网络模型对所述视频文件进行识别，生成所述视频文件的三级视频标签；

其中，所述三级视频标签的所属类别是所述二级视频标签的所属类别的子类别。

8.一种视频标签生成装置，其特征在于，所述装置包括：

一级视频标签生成模块，用于利用一级神经网络模型对视频文件进行识别，确定所述视频文件的一级视频标签；

二级视频标签生成模块，用于根据所述一级视频标签的所属类别，利用对应的二级神经网络模型对所述视频文件进行识别，生成所述视频文件的二级视频标签；其中，所述二级视频标签的所属类别是所述一级视频标签的所属类别的子类别。

9.一种电子终端，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至7任一项所述的视频标签生成方法。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使处理器实现权利要求1至7任一项所述的视频标签生成方法。