CN111401317A

CN111401317A - 视频分类方法、装置、设备及存储介质

Info

Publication number: CN111401317A
Application number: CN202010287234.4A
Authority: CN
Inventors: 尹康; 吴宇斌
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-07-10
Anticipated expiration: 2040-04-13
Also published as: CN111401317B

Abstract

本申请实施例提供了一种视频分类方法、装置、设备及存储介质，涉及视频分类技术领域。所述方法包括：获取待分类视频；提取待分类视频中n帧图像各自的初始视觉特征和初始音频特征，n为正整数；根据n帧图像各自的初始视觉特征和初始音频特征，生成n帧图像各自的级联特征；根据n帧图像各自的级联特征，生成n帧图像各自对应的注意力向量；根据n帧图像各自的级联特征和n帧图像各自对应的注意力向量，得到待分类视频的融合特征；根据融合特征，对待分类视频进行分类。本申请实施例提升了视频分类的准确度。

Description

视频分类方法、装置、设备及存储介质

技术领域

本申请实施例涉及视频分类技术领域，特别涉及一种视频分类方法、装置、设备及存储介质。

背景技术

视频分类的目的在于对输入视频打上一个或多个包含主体、场景、行为等信息的标签，如：人、操场、跑步等。

在相关技术中，可以通过图像分类算法对待分类视频的各帧图像分别进行分类处理后，得到各帧图像对应的类别，通过取各帧图像对应的类型的并集等操作，得到待分类视频的分类结果。

然而，上述相关技术中的视频分类方法不能挖掘视频帧间客观存在的相关性，得到的分类结果较不准确。

发明内容

本申请实施例提供一种视频分类方法、装置、设备及存储介质。所述技术方案如下：

一方面，本申请实施例提供一种视频分类方法，所述方法包括：

获取待分类视频；

提取所述待分类视频中n帧图像各自的初始视觉特征和初始音频特征，所述n为正整数；

根据所述n帧图像各自的初始视觉特征和初始音频特征，生成所述n帧图像各自的级联特征；

根据所述n帧图像各自的级联特征，生成所述n帧图像各自对应的注意力向量；

根据所述n帧图像各自的级联特征和所述n帧图像各自对应的注意力向量，得到所述待分类视频的融合特征；

根据所述融合特征，对所述待分类视频进行分类。

另一方面，本申请实施例提供一种视频分类装置，所述装置包括：

视频获取模块，用于获取待分类视频；

特征提取模块，用于提取所述待分类视频中n帧图像各自的初始视觉特征和初始音频特征，所述n为正整数；

特征级联模块，用于根据所述n帧图像各自的初始视觉特征和初始音频特征，生成所述n帧图像各自的级联特征；

向量生成模块，用于根据所述n帧图像各自的级联特征，生成所述n帧图像各自对应的注意力向量；

特征融合模块，用于根据所述n帧图像各自的级联特征和所述n帧图像各自对应的注意力向量，得到所述待分类视频的融合特征；

视频分类模块，用于根据所述融合特征，对所述待分类视频进行分类。

另一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如上述方面所述的视频分类方法。

又一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述方面所述的视频分类方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过对待分类视频进行视觉特征和音频特征的提取；根据视觉特征和音频特征得到级联特征；再基于级联特征生成注意力向量；根据注意力向量和级联特征生成待分类视频的融合特征；最后根据融合特征对待分类视频进行分类。本申请实施例同时提取了视觉特征和音频特征，并将级联的结果作为图像特征，再基于注意力向量融合各图像特征生成视频特征，最后对视频特征进行分类，注意力向量捕获图像帧间的相关性，提升了视频分类的准确度。

附图说明

图1是本申请一个实施例提供的视频分类方法的流程图；

图2是本申请一个实施例提供的视频分类方法的流程示意图；

图3是本申请一个实施例提供的级联特征生成方法的流程示意图；

图4是本申请一个实施例提供的注意力向量生成方法的流程示意图；

图5是本申请一个实施例提供的视频分类装置的框图；

图6是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的各步骤的执行主体可以是计算机设备，计算机设备是指具备计算和处理能力的电子设备。在一个示例中，计算机设备可以是终端，例如，手机、平板电脑、PC(Personal Computer，个人计算机)、智能可穿戴设备等；在另一个示例中，计算机设备可以是服务器，服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，还可以是云服务器，本申请实施例对此不作限定。

为了便于描述，下述实施例仅以各步骤的执行主体为计算机设备为例进行介绍说明，但不应对本申请实施例造成限定。

请参考图1，其示出了本申请一个实施例提供的视频分类方法的流程图。该方法可以包括如下几个步骤。

步骤101，获取待分类视频。

待分类视频是指用于等待分类的视频。待分类视频可以是任意一个视频，待分类视频可以是短视频，也可以是长视频，本申请实施例对此不作限定。计算机设备可以从应用程序客户端获取待分类视频，也可以从网页客户端获取待分类视频。

步骤102，提取待分类视频中n帧图像各自的初始视觉特征和初始音频特征，n为正整数。

可选地，计算机设备先获取待分类视频中的n帧图像，再提取该n帧图像各自的初始视觉特征和初始音频特征。

在一个示例中，n帧图像可以是计算机设备对待分类视频每秒抽帧得到的图像，是待分类视频中包括的所有图像。

在另一个示例中，n帧图像可以是计算机设备每隔预设帧数对待分类视频进行抽帧得到的图像帧，例如，计算机设备可以每隔2帧或4帧或其他帧数进行抽帧，得到n帧图像。

初始视觉特征用于表征图像的视觉特征，初始音频特征用于表征图像的音频特征。

步骤103，根据n帧图像各自的初始视觉特征和初始音频特征，生成n帧图像各自的级联特征。

级联特征用于表征图像的特征，级联特征是融合了初始视觉特征和初始音频特征的特征。

步骤104，根据n帧图像各自的级联特征，生成n帧图像各自对应的注意力向量。

注意力向量可以用于表征待分类视频中各帧图像对分类结果影响力的相对大小。

步骤105，根据n帧图像各自的级联特征和n帧图像各自对应的注意力向量，得到待分类视频的融合特征。

融合特征用于表征待分类视频的特征。

步骤106，根据融合特征，对待分类视频进行分类。

对待分类视频进行分类可以是指给待分类视频打上若干个标签，例如：待分类视频的场景属于室内或者室外、待分类视频中的主体对象为人或其它动物等，待分类视频是动作视频、喜剧视频、惊悚视频、不良视频等。通过对待分类视频进行分类，可以实现智能推荐、不良内容过滤等功能。

如图2所示，其示出了本申请一个实施例提供的视频分类方法的流程示意图。计算机设备对待分类视频进行特征提取，得到初始视觉特征和初始音频特征；初始视觉特征和初始音频特征进行级联得到级联特征；根据级联特征生成注意力向量；注意力向量和级联特征进行融合得到融合特征；计算机设备根据融合特征对待分类视频进行分类。

综上所述，本申请实施例提供的技术方案中，通过对待分类视频进行视觉特征和音频特征的提取；根据视觉特征和音频特征得到级联特征；再基于级联特征生成注意力向量；根据注意力向量和级联特征生成待分类视频的融合特征；最后根据融合特征对待分类视频进行分类。本申请实施例同时提取了视觉特征和音频特征，并将级联的结果作为图像特征，再基于注意力向量融合各图像特征生成视频特征，最后对视频特征进行分类，注意力向量捕获图像帧间的相关性，提升了视频分类的准确度。

在示例性实施例中，为了尽可能提取n帧图像所包含的特征信息，计算机设备可以通过视觉特征提取模型提取待分类视频中n帧图像各自的初始视觉特征；通过音频特征提取模型提取待分类视频中n帧图像各自的初始音频特征。

在可能的实现方式中，视觉特征提取模型包括Inception-v3模块；通过Inception-v3模块提取n帧图像各自的初始视觉特征。初始视觉特征可以是2048维的。音频特征提取模型包括LSAC(Large-Scale Audio Classification，大规模音频分类)模块；通过LSAC模块提取n帧图像各自的初始音频特征。初始音频特征可以是248维的。

在示意性实施例中，如图3所示，计算机设备可以通过如下方式生成级联特征：

1、对于n帧图像中的每一帧图像，对初始视觉特征和初始音频特征分别进行降维处理，得到降维视觉特征和降维音频特征。

本申请实施例同时提取待分类视频中的初始视觉特征和初始音频特征，并分别对上述初始视觉特征和初始音频特征进行降维，提升了视频分类的效率。

可选地，为了达到通过减小计算量提升后续步骤时间效率的目的，计算机设备通过PCA(Principal Component Analysis，主成分分析)算法对初始视觉特征和初始音频特征分别进行降维处理。

2、将降维视觉特征和降维音频特征进行级联，生成级联特征。

仍然以上述示例为例，计算机设备对2048维的初始视觉特征进行降维处理后，得到1024维的降维视觉特征；计算机设备对248维的初始音频特征进行降维处理后，得到128维的降维音频特征。将上述1024维的降维视觉特征和128维的降维音频特征级联后，得到1152维的级联特征。

在示意性实施例中，如图4所示，计算机设备可以通过如下方式生成注意力向量：

第一、对n帧图像各自的级联特征中包括的特征向量取算术平均值，得到n帧图像各自对应的输入特征向量。

例如，某一帧图像的级联特征中包括的特征向量为[1,2,3,4,5],则该帧图像对应的输入特征向量可以为(1+2+3+4+5)/5＝3。

第二、将n帧图像各自对应的输入特征向量输入注意力生成模块中，得到n帧图像各自对应的输出特征向量。

在可能的实现方式中，注意力生成模块包括含单隐层的MLP(MultiplePerception，多层感知机)，将n帧图像各自对应的输入特征向量输入上述MLP中，得到n帧图像各自对应的输出特征向量。可选地，MLP的结构为压缩-扩张式，即输入输出维度相同。计算机设备将上述单隐层的单元数设置为512。

第三、对n帧图像各自对应的输出特征向量做归一化处理，得到n帧图像各自对应的注意力向量。

n帧图像各自对应的注意力向量可以用于表征各帧相对重要性。

对n帧图像各自对应的输出特征向量做归一化处理可以是指将上述特征向量的取值范围归一化到0-1。可选地，通过如下公式对输出特征向量做归一化处理：

其中，f(x)表示输出特征向量，x表示输入特征向量。

在可能的实现方式中，当计算机设备将n帧图像各自对应的输入特征向量输入注意力生成模块中，得到n帧图像各自对应的输出特征向量之后，可以执行以下步骤：

1、对n帧图像各自对应的输出特征向量做L1约束处理，得到约束后的n帧图像各自对应的输出特征向量。

对n帧图像各自对应的输出特征向量做L1约束处理，通过提升其稀疏性达到特征筛选的目的，增强融合特征的鲁棒性。

2、对约束后的n帧图像各自对应的输出特征向量做归一化处理，得到n帧图像各自对应的注意力向量。

有关归一化处理的介绍说明可参见上文实施例，此处不再赘述。

本申请实施例通过生成n帧图像各自对应的注意力向量捕获图像与图像之间的相关性，提高了视频分类的准确度，提升了视频分类算法性能。

在示意性实施例中，计算机设备根据n帧图像各自对应的注意力向量对n帧图像各自对应的级联特征做加权平均处理，得到待分类视频的融合特征。

融合特征用于表征待分类视频的特征。以注意力向量为权重向量，对各帧对应的级联特征求加权平均值，即可获得融合特征。

可选地，融合特征feature_fuion通过如下公式计算得到：

其中，feature_i表示第i帧图像对应的级联特征，attention_i表示第i帧图像对应的注意力向量，i为小于或等于n的正整数。

在示意性实施例中，计算机设备通过如下方式进行视频分类：

1、将融合特征输入MLP中，输出待分类视频属于各类别的概率。

可选地，MLP的输出向量的数量可以设置为和分类类别的数量一致，输出向量即为待分类视频属于各类别的概率。

在可能的实现方式中，分类类别的数量可以设置为1000。

在可能的实现方式中，MLP的输入层和隐层均设置有dropout(随机失活)模块以降低过拟合风险。

2、响应于待分类视频属于目标类别的概率大于阈值，确定待分类视频属于目标类别。

假设存在5个类别，待分类视频属于上述5个类别的概率分别为0.2、0.4、0.6、0.9、0.3，阈值为0.8，因为待分类视频属于第4个类别概率大于阈值，所以确定待分类视频属于第4个类别。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图5，其示出了本申请一个实施例提供的视频分类装置的框图，该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置500可以包括：视频获取模块510、特征提取模块520、特征级联模块530、向量生成模块540、特征融合模块550和视频分类模块560。

视频获取模块510，用于获取待分类视频；

特征提取模块520，用于提取所述待分类视频中n帧图像各自的初始视觉特征和初始音频特征，所述n为正整数；

特征级联模块530，用于根据所述n帧图像各自的初始视觉特征和初始音频特征，生成所述n帧图像各自的级联特征；

向量生成模块540，用于根据所述n帧图像各自的级联特征，生成所述n帧图像各自对应的注意力向量；

特征融合模块550，用于根据所述n帧图像各自的级联特征和所述n帧图像各自对应的注意力向量，得到所述待分类视频的融合特征；

视频分类模块560，用于根据所述融合特征，对所述待分类视频进行分类。

可选地，所述特征提取模块520，用于：

通过视觉特征提取模型提取所述待分类视频中n帧图像各自的初始视觉特征；

通过音频特征提取模型提取所述待分类视频中n帧图像各自的初始音频特征。

可选地，特征级联模块530，用于：

对于所述n帧图像中的每一帧图像，对所述初始视觉特征和初始音频特征分别进行降维处理，得到降维视觉特征和降维音频特征；

将所述降维视觉特征和所述降维音频特征进行级联，生成所述级联特征。

可选地，所述向量生成模块540，用于：

对所述n帧图像各自的级联特征中包括的特征向量取算术平均值，得到所述n帧图像各自对应的输入特征向量；

将所述n帧图像各自对应的输入特征向量输入注意力生成模块中，得到所述n帧图像各自对应的输出特征向量；

对所述n帧图像各自对应的输出特征向量做归一化处理，得到所述n帧图像各自对应的注意力向量。

可选地，所述向量生成模块540，还用于：

对所述n帧图像各自对应的输出特征向量做L1约束处理，得到约束后的所述n帧图像各自对应的输出特征向量；

对约束后的所述n帧图像各自对应的输出特征向量做归一化处理，得到所述n帧图像各自对应的注意力向量。

可选地，所述特征融合模块550，用于：

根据所述n帧图像各自对应的注意力向量对所述n帧图像各自对应的级联特征做加权平均处理，得到所述待分类视频的融合特征。

可选地，所述视频分类模块560，用于：

将所述融合特征输入多层感知机MLP中，输出所述待分类视频属于各类别的概率；

响应于所述待分类视频属于目标类别的概率大于阈值，确定所述待分类视频属于所述目标类别。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图6，其示出了本申请一个实施例提供的计算机设备的结构框图。

本申请实施例中的计算机设备可以包括一个或多个如下部件：处理器610和存储器620。

处理器610可以包括一个或者多个处理核心。处理器610利用各种接口和线路连接整个计算机设备内的各个部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的数据，执行计算机设备的各种功能和处理数据。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(CentralProcessing Unit，CPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统和应用程序等；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块芯片进行实现。

可选地，处理器610执行存储器620中的程序指令时实现上述各个方法实施例提供的方法。

存储器620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器620包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令、用于实现上述各个方法实施例的指令等；存储数据区可存储根据计算机设备的使用所创建的数据等。

上述计算机设备的结构仅是示意性的，在实际实现时，计算机设备可以包括更多或更少的组件，比如：显示屏等，本实施例对此不作限定。

本领域技术人员可以理解，图6中示出的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由计算机设备的处理器加载并执行以实现上述视频分类方法实施例中的各个步骤。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述视频分类方法。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

获取待分类视频；

根据所述融合特征，对所述待分类视频进行分类。

2.根据权利要求1所述的方法，其特征在于，所述提取所述待分类视频中n帧图像各自的初始视觉特征和初始音频特征，包括：

3.根据权利要求1或2任一项所述的方法，其特征在于，所述根据所述n帧图像各自的初始视觉特征和初始音频特征，生成所述n帧图像各自的级联特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述n帧图像各自的级联特征，生成所述n帧图像各自对应的注意力向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述n帧图像各自对应的输入特征向量输入注意力生成模块中，得到所述n帧图像各自对应的输出特征向量之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述n帧图像各自的级联特征和所述n帧图像各自对应的注意力向量，得到所述待分类视频的融合特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述融合特征，对所述待分类视频进行分类，包括：

8.一种视频分类装置，其特征在于，所述装置包括：

视频获取模块，用于获取待分类视频；

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的视频分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至7任一项所述的视频分类方法。