CN110413840B

CN110413840B - 一种构造对视频确定标签的神经网络及其训练的方法

Info

Publication number: CN110413840B
Application number: CN201910618436.XA
Authority: CN
Inventors: 姜波; 徐彬彬; 周磊; 于佳弘
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2022-12-06
Anticipated expiration: 2039-07-10
Also published as: CN110413840A

Abstract

本发明的实施方式提供了一种对视频确定标签的神经网络、方法、介质和计算设备。该对视频确定标签的神经网络包括：深度残差网络用于接收视频的帧图像并生成第一数据；全连接层用于接收第一数据并生成第一向量；归一化网络层包括线性变化函数以及激励函数，归一化网络层用于接收第一向量并生成第二数据；输出层用于接收第二数据并为视频确定至少一个标签。通过该神经网络有助于缓解处理视频图像数据时输出响应的压力，提高对视频确定标签的准确性，扩展视频分类的应用场景，提升对视频确定标签的分类效率和实时性，进而提升用户体验。

Description

一种构造对视频确定标签的神经网络及其训练的方法

技术领域

本发明的实施方式涉及软件领域，更具体地，本发明的实施方式涉及一种构造对视频确定标签的神经网络的方法、介质和计算设备，以及相应神经网络训练方法。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

短视频，即短片视频，是一种互联网内容传播方式，通常是在互联网新媒体应用或平台上播放的时长较短的视频内容。由于短视频具有短平快的优势使得海量短视频在各大视频平台或应用中快速传播，因而短视频逐渐获得各大视频平台用户的青睐，并成为主流内容传播方式之一。

短视频分类是分析处理海量短视频内容的基础，也即是短视频内容的审查、推荐分发等技术的实现基础。目前短视频分类方案为，通过与短视频相关的文本或语音信息来对该短视频进行分类；但这种短视频分类方案对文本或语言信息的依赖性较强，无法完成特定标签集下的短视频标签分类任务，难以适应日益丰富多变的短视频制作方式，分类效率低，应用场景局限，准确性差。

综上，现有的短视频分类方案存在分类效率低，应用场景局限，准确性差等问题。因此亟待设计一种改进的短视频分类方案用以解决上述技术问题。

发明内容

由于目前短视频分类方案对文本或语言信息的依赖性较强，难以适应日益丰富多变的短视频制作方式，分类效率低，应用场景局限，准确性差。因此非常需要一种短视频分类的技术方案，用以解决上述至少一个技术问题。

在本上下文中，本发明的实施方式期望提供一种对视频确定标签的神经网络、方法、介质、计算设备以及神经网络的训练方法。

在本发明实施方式的第一方面中，提供了一种对视频确定标签的神经网络，该神经网络包括但不限于：

深度残差网络，该深度残差网络用于接收视频的帧图像并生成第一数据；

全连接层，该全连接层用于接收第一数据并生成第一向量；

归一化网络层(Normalization Layer)，该归一化网络层包括线性变化函数以及激励函数，该归一化网络层用于接收第一向量并生成第二数据；

输出层，该输出层用于接收第二数据并为视频确定至少一个标签。

在一种可能的实施例中，根据权利要求1的神经网络，归一化网络层中的线性变化函数为x_i′＝PRelu(x_i)，其中，

x为第一向量，x′为第二向量，x_i为向量x的第i个分量，x_i′为向量x′的第i个分量，α为可学习的参数。

在一种可能的实施例中，归一化网络层中的激励函数为y＝a⊙x′+b，其中，x′为第二向量，a和b为维度与x′相同的向量，⊙为逐元素相乘的哈达马积运算，y为第二数据。

在本发明实施方式的第二方面中，提供了一种训练神经网络的方法，神经网络为基于第一方面中任一项的神经网络，该方法包括：

基于与各个标签相对应的训练视频的原有数量，确定与第一标签相对应的训练视频的采样调节系数；

基于采样调节系数，确定在一个训练周期中第一训练视频的使用数量；

a获取一个第一训练视频，从其中抽取一帧图像进行图像处理；

b将进行图像处理后的图像输入神经网络以得到输出标签；

c基于第一标签与输出标签的比较结果对神经网络的参数进行调节；

重复上述步骤a、b、c，直至已达到第一训练视频的使用数量。

在一种可能的实施例中，基于与各个标签相对应的训练视频的原有数量，确定与第一标签相对应的训练视频的采样调节系数包括：

减小原有数量占比大的训练视频的采样调节系数，和/或增大原有数量占比小的训练视频的采样调节系数。

在一种可能的实施例中，基于与各个标签相对应的训练视频的原有数量，确定与第一标签相对应的训练视频的采样调节系数包括按照下式确定：

采样调节系数等于e^-(N-μ)/v，

其中，N为具有第一标签的第一训练视频的原有数量，μ为基于与各个标签相对应的训练视频的原有数量所确定的采样平衡点，ν为调节因子。

在一种可能的实施例中，还包括基于神经网络的训练结果调整采样平衡点和/或调节因子。

在一种可能的实施例中，获取一个第一训练视频，从其中抽取一帧图像进行图像处理包括以下任一种：

获取一个第一训练视频，从其中随机抽取一帧图像进行图像处理；

获取一个第一训练视频，从其中抽取一帧关键图像进行图像处理。

在本发明实施方式的第三方面中，提供了一种利用神经网络对视频确定标签的方法，其中，神经网络为基于第一方面中任一项的神经网络，并已利用第二方面中任一项的方法对神经网络进行了训练，该方法包括：从视频中抽取至少一帧图像；对至少一帧图像进行截取处理；将已进行截取处理的至少一帧图像分别输入神经网络以分别确定与各帧图像所对应的至少一个标签；基于分别与各帧图像所对应的至少一个标签，确定视频的至少一个标签。

在一种可能的实施例中，从视频中抽取至少一帧图像包括：从视频中等间隔地抽取图像关键帧，其中，视频的时间长度为5-15秒，图像关键帧的数量为2-6个。

在本发明实施方式的第四方面中，提供了一种介质，该介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行第三方面中任一实施例的方法，并实现如第一方面中任一实施例的神经网络，采用如第二方面中任一实施例提供的方法对该神经网络进行训练。

在本发明实施方式的第五方面中，提供了一种计算设备，包括处理单元、存储器以及输入/输出(In/Out，I/O)接口；存储器，用于存储处理单元执行的程序或指令；处理单元，用于根据存储器存储的程序或指令，执行第三方面中任一实施例的方法，并实现如第一方面中任一实施例的神经网络，采用如第二方面中任一实施例提供的方法对该神经网络进行训练； I/O接口，用于在处理单元的控制下接收或发送数据。

本发明的实施方式提供的技术方案，通过归一化网络层，将从视频中抽取并进行截取处理的至少一帧图像分别输入神经网络以分别确定与各帧图像所对应的至少一个标签，并基于分别与各帧图像所对应的至少一个标签，从而得到视频的至少一个标签。本技术方案通过归一化网络层缓解了处理视频图像数据时输出响应的压力，有助于提高对视频确定标签的准确性，扩展视频分类的应用场景，还有助于提升对视频确定标签的分类效率和实时性。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1A示意性地示出了根据本发明实施方式的一种对视频确定标签的神经网络的结构示意图；

图1B示意性地示出了根据本发明实施方式的一种深度残差网络的结构示意图；

图2A示意性地示出了根据本发明实施例的一种训练神经网络的方法的流程示意图；

图2B示意性地示出了根据本发明实施例的一种标签分布情况的示意图；

图3示意性地示出了根据本发明实施例的一种利用神经网络对视频确定标签的方法的流程示意图；

图4示意性地示出了根据本发明实施例的一种介质的结构示意图；

图5示意性地示出了根据本发明实施例的一种计算设备的结构示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种对视频确定标签的神经网络以及神经网络训练方法、利用神经网络对视频确定标签的方法、介质和计算设备。

在本文中，在本文中，需要理解的是，所涉及概念的含义如下：

短视频，是一种互联网内容传播方式，通常是在互联网新媒体应用或平台上播放的时长较短的视频内容。本发明实施例并不限定短视频的时长通常为几秒到几分钟。

视频分类，是对视频中包含的视频内容进行分类，包括但不限于按照动作分类(如做蛋糕、玩滑板、跑步等)、按照场景分类(如海滩、山丘、草原等)、按照物体分类(如桌子、椅子等)。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，目前短视频分类方案对文本或语言信息的依赖性较强，难以适应日益丰富多变的短视频制作方式，分类效率低，应用场景局限，准确性差。

为了克服现有技术存在的上述至少一个问题，本发明中提出了对视频确定标签的神经网络以及神经网络训练方法、利用神经网络对视频确定标签的方法、介质和计算设备。该神经网络包括：深度残差网络，深度残差网络用于接收视频的帧图像并生成第一数据；全连接层，全连接层用于接收第一数据并生成第一向量；归一化网络层，归一化网络层包括线性变化函数以及激励函数，归一化网络层用于接收第一向量并生成第二数据；输出层，输出层用于接收第二数据并为视频确定至少一个标签。

上述神经网络中，通过归一化网络层接收第一向量生成第二数据，并基于第二数据为视频确定至少一个标签，从而有助于缓解处理视频图像数据时输出响应的压力，提高对视频确定标签的准确性，扩展视频分类的应用场景，提升对视频确定标签的分类效率和实时性，进而提升用户体验。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

本发明实施例可以应用于各种图像分类场景，尤其是视频分类场景，例如短视频分类场景、视频推送场景、视频审核场景、视频上传管理场景等。本发明实施例涉及的视频可以是由具有图像获取功能的电子设备采集的，也可以是从服务器侧获取的，还可以从网络侧下载的；本发明实施例并不限定。

示例性装置

下面结合应用场景来描述根据本发明示例性实施方式的对视频确定标签的神经网络。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

本发明实施例提供了一种对视频确定标签的神经网络，参见图1A，该神经网络至少包括：

深度残差网络101，用于接收视频的帧图像并生成第一数据；

全连接层102，用于接收第一数据并生成第一向量；

归一化网络层103，用于接收该第一向量并生成第二数据；

输出层104，用于接收该第二数据并为该视频确定至少一个标签。

深度残差网络101作为主干网络，该深度残差网络101的结构如图1B 所示，包括由卷积层和最大池化层组成的第一模块、由多个卷积层跳跃连接成的第二模块、以及平均池化层。其中，视频的帧图像可以是从视频中抽取出的一帧或多帧图像。进一步的，帧图像还经过截取处理，该截取处理的具体方式可以是，保持该帧图像的长宽比并将该帧图像的宽度设置为固定尺寸，从该帧图像中截取固定大小的图像区域，从而调整该神经网络的输出路数为视频分类标签数据库中标签类别的总数。例如固定尺寸为 240个像素，固定大小为240像素*240像素。

归一化网络层103可以缓解该神经网络输出的过饱和问题，从而提升该神经网络的视频分类性能。归一化网络层103包括但不限于线性变化函数以及激励函数。

可选的，该归一化网络层103中线性变化函数的一种可能形式为 x_i′＝PRelu(x_i)，其中，

可选的，第二数据为该视频对应标签的概率值。该归一化网络层103 中激励函数一种可能形式为y＝a⊙x′+b，其中，x′为第二向量，a和b为维度与x′相同的向量，⊙为逐元素相乘的哈达马积运算，y为第二数据。

需要说明的是，上文仅为举例，本发明实施例中归一化网络层103的线性变化函数和激励函数的实现形式还可以设置为其他形式。

图1A示出的神经网络中，通过归一化网络层接收第一向量生成第二数据，并基于第二数据为视频确定至少一个标签，从而有助于缓解处理视频图像数据时输出响应的压力，提高对视频确定标签的准确性，扩展视频分类的应用场景，提升对视频确定标签的分类效率和实时性，进而提升用户体验。

针对于图1A对应的实施例提供的任一项神经网络，本发明实施例还提供了一种训练神经网络的方法。参见图2A，训练该神经网络的方法至少包括：

S201中，基于与各个标签相对应的训练视频的原有数量，确定与第一标签相对应的训练视频的采样调节系数。

可选的，采用短视频标签分类数据库对该神经网络进行训练。具体而言，对所述短视频标签分类数据库中标签的分布情况进行直方图统计，根据统计得到的各个标签分布情况来设置与第一标签相对应的训练视频的动态采样调节系数，这样有助于缓解标签分布不均衡的情况，提升神经网络的标签分类性能，进一步神经网络预测小样本短视频标签的准确率。例如图2B示出的直方图，该直方图表示一个训练周期内动态采样平衡前后各个标签分布情况，其中各个标签对应的训练视频数目进行降序排列。

一个实施例中，短视频标签分类数据中带有标签i的视频总数为N_i，其动态采样调节系数为α_i。在神经网络每个训练周期，控制该标签i的训练视频的原有数量为N′_i＝α_i·N_i。当α_i＜1时，对该数据库中带有标签i的视频进行欠采样；当α_i＞1时，对该数据库中带有标签i的视频进行过采样。进一步的，采用以下原则之一或组合来确定与第一标签相对应的训练视频的采样调节系数：减小原有数量占比大的训练视频的采样调节系数，增大原有数量占比小的训练视频的采样调节系数。上述神经网络训练周期中，通过动态调整与第一标签相对应的训练视频的采样调节系数，实现了在神经网络训练过程中的动态采样，有助于缓解标签分布不均衡的情况，提升神经网络在长尾标签类别上的分类性能。

具体而言，S201中基于与各个标签相对应的训练视频的原有数量，确定与第一标签相对应的训练视频的采样调节系数包括如下公式所示：

采样调节系数＝e^-(N-μ)/v；

其中，N为具有第一标签的第一训练视频的原有数量。μ为基于与各个标签相对应的训练视频的原有数量所确定的采样平衡点；可选的，所述采样平衡点对应的动态采样调节系数为1。ν为调节因子，所述调节因子可控制各个标签类别欠采样或过采样的程度。进一步的，基于神经网络的训练结果调整采样平衡点和/或调节因子。一个实施例中，通过损失函数对该神经网络进行逆向以动态调整采样平衡点和调节因子。

在S201之后，执行S202，基于采样调节系数，确定在一个训练周期中第一训练视频的使用数量。S202的一种实现方式为，重复执行以下步骤 a、b、c，直至已达到第一训练视频的使用数量：

步骤a：获取一个第一训练视频，从其中抽取一帧图像进行图像处理；

步骤b：将进行图像处理后的图像输入神经网络以得到输出标签；

步骤c：基于第一标签与输出标签的比较结果对该神经网络的参数进行调节。

需要说明的是，上述步骤a、b、c的执行时机并不限定，这三个步骤可以顺序执行也可以同时执行。

本发明实施例中，对抽取的一帧图像进行图像处理的方式，包括但不限于以下数据增强方式：随机灰度化、旋转、平移、水平翻转、放射变换、缩放、色调饱和度调节、锐化、加噪声、模糊、亮度调节和裁剪。

步骤a中，获取一个第一训练视频，从其中抽取一帧图像的实现方式包括多种。其中一种可能的实现方式是，获取一个第一训练视频，从其中随机抽取一帧图像进行图像处理，例如从第一训练视频中随机抽取任一时刻的图像关键帧。另一种可能的实现方式是，获取一个第一训练视频，从其中抽取一帧关键图像进行图像处理，比如从第一训练视频中抽取设定时刻的一帧关键图像，从第一训练视频中抽取符合预设条件的一帧关键图像。

步骤b之前，还将抽取一帧图像进行图像处理后的图像与对应的标签进行绑定，以便在执行本绑定操作之后，再执行步骤b，将该与对应的标签进行绑定的图像输入神经网络。

上述图2A示出的训练过程中，通过动态设置的采样调节系数，尤其是依据于短视频标签的不均衡分布情况设置的采样调节系数，提升神经网络预测小样本短视频标签的准确率，避免神经网络对原有数量占比大的训练视频的标签产生过拟合，提升该神经网络在各类应用场景下的泛化能力，进一步拓展该神经网络的应用场景。

示例性方法

在介绍了本发明示例性实施方式的神经网络以及训练该神经网络的方法之后，接下来，介绍本发明提供了示例性实施的对视频确定标签的方法。本发明提供的对视频确定标签的方法可以是利用图1对应的实施例提供的任一项神经网络实现的，并已利用图2对应的实施例提供的任一项方法对该神经网络进行训练；相似之处相互参见，不再赘述。参见图3，该利用神经网络对视频确定标签的方法至少包括：

S301、从视频中抽取至少一帧图像；

S302、对至少一帧图像进行截取处理；

S303、将已进行截取处理的至少一帧图像分别输入神经网络以分别确定与各帧图像所对应的至少一个标签；

S304、基于分别与各帧图像所对应的至少一个标签，确定视频的至少一个标签。

通过图3示出的方法，从视频中抽取并进行截取处理的至少一帧图像分别输入到神经网络，以分别确定与各帧图像所对应的至少一个标签，从而基于分别与各帧图像所对应的至少一个标签，并确定该视频的至少一个标签。该方法利用神经网络中的归一化网络层缓解了处理视频图像数据时输出响应的压力，有助于提高对视频确定标签的准确性，扩展视频分类的应用场景，还有助于提升对视频确定标签的分类效率和实时性。

S301的实现方式包括多种，其中一个可能的实现方式为：从视频中等间隔地抽取图像关键帧，其中，该视频的时间长度为5-15秒，该图像关键帧的数量为2-6个。可以理解的是，本发明实施例中视频的时间长度并不限定为5-15秒，在其他实施例中，视频的时间长度也可以为几十秒到几分钟，而图像关键帧的数量则可以依据于视频的时间长度进行调整。

以视频为待分类短视频为例说明上述S301至S304。假设待分类短视频的时间长度为1O秒，S301中从待分类短视频中等间隔地抽取4个图像关键帧。针对这4个图像关键帧中的每一个图像关键帧，S302中，对这4个图像关键帧进行截取处理，即保持该图像关键帧的长宽比并将该图像关键帧的宽度设置为240个像素，从该图像关键帧中截取240*240的图像区域。在对这4个图像关键帧进行上述截取处理之后，S303中将从这4个图像关键帧中截取的至少一个图像区域输入该神经网络，以分别预测与这4个图像关键帧中各图像关键帧所对应的至少一个标签。S304中，根据判定标准从与各图像关键帧所对应的至少一个标签中选取出作为该视频的至少一个标签。进一步的，判定标准依据于上述神经网络预测出的与各图像关键帧所对应的至少一个标签的分布情况进行动态调整。需理解的是，上述具体实施步骤并不限定于本实施例。

示例性介质

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图 4，本发明提供了一种示例性介质，该介质存储有计算机可执行指令，该计算机可执行指令可用于使所述计算机执行图3对应的本发明示例性实施方式中任一项所述的方法，实现如图1A对应的本发明实施例中任一项神经网络，采用如图2A对应的本发明实施例中任一项的方法对该神经网络进行训练；I/O接口，用于在处理单元的控制下接收或发送数据。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图5，介绍本发明提供的一种示例性计算设备50，该计算设备50包括处理单元501、存储器502、总线503、外部设备504、I/O接口505以及网络适配器506，该存储器502包括随机存取存储器(random access memory，RAM)5021、高速缓存存储器5022、只读存储器(Read-OnlyMemory，ROM)5023以及至少一片存储单元5024构成的存储单元阵列 5025。其中该存储器502，用于存储处理单元501执行的程序或指令；该处理单元501，用于根据该存储器502存储的程序或指令，执行图3对应的本发明示例性实施方式中任一项所述的方法，实现如图1A对应的本发明实施例中任一项神经网络，采用如图2A对应的本发明实施例中任一项的方法对该神经网络进行训练；该I/O接口505，用于在该处理单元501 的控制下接收或发送数据。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种构造对视频确定标签的神经网络的方法，其特征在于，所述神经网络包括：

深度残差网络，所述深度残差网络用于接收所述视频的帧图像并生成第一数据；

全连接层，所述全连接层用于接收所述第一数据并生成第一向量；

归一化网络层，所述归一化网络层用于接收所述第一向量并生成第二数据，所述第二数据为所述视频对应标签的概率值，所述归一化网络层包括线性变化函数以及激励函数，所述线性变化函数为x_i′＝PRelu(x_i)，其中，

x为所述第一向量，x′为第二向量，x_i为向量x的第i个分量，x_i′为向量x′的第i个分量，α为可学习的参数，

所述激励函数为y＝a⊙x′+b，其中，

x′为所述第二向量，a和b为维度与x′相同的向量，⊙为逐元素相乘的哈达马积运算，y为所述第二数据；

输出层，所述输出层用于接收所述第二数据并为所述视频确定至少一个标签。

2.一种训练神经网络的方法，其中，所述神经网络为基于权利要求1所述的神经网络，所述方法特征在于，包括：

基于所述采样调节系数，确定在一个训练周期中第一训练视频的使用数量；

b将进行图像处理后的所述图像输入所述神经网络以得到输出标签；

c基于所述第一标签与输出标签的比较结果对所述神经网络的参数进行调节；

3.根据权利要求2所述的方法，其特征在于，基于与各个标签相对应的训练视频的原有数量，确定与第一标签相对应的训练视频的采样调节系数包括：

4.根据权利要求2或3所述的方法，其特征在于，基于与各个标签相对应的训练视频的原有数量，确定与第一标签相对应的训练视频的采样调节系数包括按照下式确定：

所述采样调节系数＝e^-(N-μ)/v，

5.根据权利要求4所述的方法，其特征在于，还包括基于神经网络的训练结果调整所述采样平衡点和/或所述调节因子。

6.根据权利要求2或3所述的方法，其特征在于，获取一个第一训练视频，从其中抽取一帧图像进行图像处理包括以下任一种：

7.一种利用神经网络对视频确定标签的方法，其中，所述神经网络为基于权利要求1所述的神经网络，并已利用权利要求2-6中任一项所述的方法对所述神经网络进行了训练，所述方法特征在于，包括：

从所述视频中抽取至少一帧图像；

对所述至少一帧图像进行截取处理；

将已进行截取处理的所述至少一帧图像分别输入所述神经网络以分别确定与各帧图像所对应的至少一个标签；

基于分别与各帧图像所对应的至少一个标签，确定所述视频的至少一个标签。

8.根据权利要求7所述的方法，其特征在于，从所述视频中抽取至少一帧图像包括：

从所述视频中等间隔地抽取图像关键帧，其中，所述视频的时间长度为5-15秒，所述图像关键帧的数量为2-6个。

9.一种介质，其特征在于，所述介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行权利要求7或8所述的方法，所述计算机可执行指令还用于实现如权利要求1所述的神经网络，采用如权利要求2-6中任一项所述的方法对所述神经网络进行了训练。

10.一种计算设备，其特征在于，包括处理单元、存储器以及I/O接口；其中

所述存储器，用于存储所述处理单元执行的程序或指令；

所述处理单元，用于根据所述存储器存储的程序或指令，执行权利要求7或8所述的方法，并实现如权利要求1所述的神经网络，采用如权利要求2-6中任一项所述的方法对所述神经网络进行了训练；

所述I/O接口，用于在所述处理单元的控制下接收或发送数据。