CN109271912A

CN109271912A - 视频分类方法、装置、电子设备及存储介质

Info

Publication number: CN109271912A
Application number: CN201811031457.3A
Authority: CN
Inventors: 孙鹏飞; 陈龙; 张小博; 张晓灿
Original assignee: CETC 3 Research Institute
Current assignee: CETC 3 Research Institute
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-01-25

Abstract

本发明公开了一种视频分类方法，该方法通过提取视频文件的特征，并对所述特征进行聚合、合并，得到第一特征向量；再基于自限门对所述第一特征向量进行加权，获得第二特征向量；并利用自适应模型对所述第二特征向量进行分类；通过本发明提出的技术方案，能够大幅压缩视频文件的特征的数量，从而使得后续的特征分类成为可能，进一步提高了视频分类的精确度。本发明还公开了一种视频分类装置、电子设备和存储介质。

Description

视频分类方法、装置、电子设备及存储介质

技术领域

本发明属于视频处理技术领域,具体涉及一种视频分类方法、装置、电子设备及存储介质。

背景技术

视频分类技术广泛应用在监控、个人助理、智能家居、自动驾驶、体育视频分析等领域，是计算机视觉方向的一项重要挑战。

当前的视频分类方法通常从单个或多个连续帧中提取特征来表示视频，然后随着时间的推移进行特征聚合。

现有的特征提取方法包括深度卷积神经网络在图像或短视频上预训练的特征以及手工制作的视频特征；用于特征聚合的常用方法包括简单的平均池化或最大池化技术，更复杂的池化技术例如局部聚集描述向量(Vector of Local Aggregation Describe,VLAD)，以及时序模型长短期记忆网络(Long Short Term Memory,LSTM)或门控递归单元(Gated Recurrent Unit,GRU)等等。

通过研究者们的大量工作，特征提取成为一项较为成熟的技术。早期的手工设计特征主要依赖于图像直方图和沿密集轨迹的运动方向梯度定位；近年来，特征提取方法主要使用空间卷积或时空卷积提取从单个帧或帧块计算的网络激活表示。一种基于卷积神经网络的双流法，将卷积神经网络分别应用到RGB通道和运动场通道，从而产生双流表示。

视频特征通常是从单个帧或短视频中提取，而如何对长时段或完整视频对应的视频特征进行聚合则是一个困扰研究者们的问题。为此，现有技术中也提出了一些解决的办法，包括有序聚合方法和无序聚合方法：

(一)有序聚合方法

(1)一种有序聚合方法是，采用递归神经网络，如长短期记忆网络(LSTM)或门控递归单元(GRU)，在所提取的帧级特征之上按照时序将全部视频特征聚合为一个单一的特征表示；

(2)另一种有序聚合方法是，忽略视频中的时间顺序，仅捕获全部的特征分布，这种方法最简单的形式是随着视频时间推移的平均池化或最大池化；其它常用方法包括视觉单词包(Bag-Of-Vision Word,BOVW)、局部聚集描述向量(VLAD)以及费舍尔向量编码(Fisher Vector,FV)等。

但是，以上这些方法及其变体均依赖于码本的无监督或弱监督学习，然而码本的训练与卷积神经网络的训练过程无法兼容，因此，为了改变码本训练的兼容性，又提出了一种无序聚合方法。

(二)无序聚合方法

无序聚合方法是，通过进一步使用判别方式的进行码本学习，使得编码模块可以嵌入到卷积神经网络结构中并以端到端的方式进行训练，这种基于无序聚合的端到端训练结构被大量应用到视频分类方法中。

然而，无论是上述提到的有序聚合方法还是无序聚合方法，仍然存在一些难以克服的缺陷，即两种聚合方法均缺乏对高维特征内部相互依赖关系的挖掘分析，导致特征的数量太多且杂，特征内部缺乏有效的分类，最终导致对视频分类的结果不够精确。

发明内容

本发明的目的是提供一种视频分类方法、装置、电子设备及存储介质，以能够大幅压缩视频文件的特征的数量，从而使得后续的特征分类成为可能，进一步提高了视频分类的精确度。

本发明的技术方案是：

一种视频分类方法，包括以下步骤：

S100：提取视频文件的特征，并对所述特征进行聚合、合并，得到第一特征向量；

S200:基于自限门对所述第一特征向量进行加权，获得第二特征向量；

S300：利用自适应模型对所述第二特征向量进行分类。

进一步的，所述视频文件的特征包括视频特征和音频特征。

进一步的，步骤S100包括以下子步骤，

S101：利用深度卷积神经网络提取初始视频特征和初始音频特征；

S102：分别对所述初始视频特征和所述初始音频特征进行聚合，获得聚合后的视频特征和聚合后的音频特征；

S103:将所述聚合后的视频特征和所述聚合后的音频特征合并，以获得所述第一特征向量。

进一步的，步骤S102中是使用两个NetVLAD网络架构分别对所述初始视频特征和所述初始音频特征进行聚合。

进一步的，步骤S103中还包括，通过主成分分析和白化方法压缩所述聚合后的视频特征和所述聚合后的音频特征。

一种视频分类装置，包括特征提取模块、加权模块和分类器；其中

所述特征提取模块用于提取视频文件的特征，并对所述特征进行聚合、合并，得到第一特征向量；

所述加权模块用于基于自限门对所述第一特征向量进行加权，获得第二特征向量；

所述分类器用于利用自适应模型对所述第二特征向量进行分类。

进一步的，所述视频文件的特征包括视频特征和音频特征。

进一步的，所述特征提取模块利用深度卷积神经网络提取初始视频特征和初始音频特征，并分别对所述初始视频特征和所述初始音频特征进行聚合，以获得聚合后的视频特征和聚合后的音频特征，然后将所述聚合后的视频特征和所述聚合后的音频特征合并，获得所述第一特征向量。

一种电子设备，包括：处理器和存储器，所述存储器存储有计算机可读指令，所述计算机可读指令在被所述处理器执行时实现上述本发明的视频分类方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器或计算机运行时执行上述本发明的视频分类方法。

本发明的有益效果为：

本发明提出了一种视频分类方法、装置、电子设备及存储介质，通过提取视频文件的特征，并对所述特征进行聚合、合并，得到第一特征向量；再基于自限门对所述第一特征向量进行加权，获得第二特征向量；并利用自适应模型对所述第二特征向量进行分类；通过本发明提出的技术方案，能够大幅压缩视频文件的特征的数量，从而使得后续的特征分类成为可能，进一步提高了视频分类的精确度。

附图说明

图1为本发明的一种视频分类方法的一个实施例的流程图；

图2为本发明在深度卷积神经网络结构中加入了自限门的一个实施例的结构示意图；

图3为本发明的一种视频分类装置的一个实施例的结构示意图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

本发明通过在视频处理过程中加入自限门，即根据sigmoid激活函数，待学习参数，隐藏层的输入来获得自限门(详细内容可参加下文步骤200的描述)，利用该自限门对隐藏层的输入进行再加权获得每个隐藏层的输出的特征向量，以对高维特征的内部依赖关系进行挖掘，得到表示能力更强的视频特征，从而提高视频分类的准确性。

实施例一

本实施例提供一种视频分类方法，该视频分类方法的执行主体可以是本发明另一实施例提供的视频分类装置，或者集成了该视频分类装置的电子设备，其中该视频分类装置可以采用硬件或者软件的方式实现。

本实施例将从视频分类装置的角度进行描述，该视频分类装置具体可以集成在电子设备中。

其中电子设备包括智能手机、平板电脑、掌上电脑、电脑、服务器、云服务器等设备。

请参阅图1，图1为本发明的一种视频分类方法的一个实施例的流程图，该视频分类方法包括以下步骤：

本实施例中的第一特征向量为视频文件的紧凑向量，所述视频文件的特征包括视频特征和音频特征，其中，步骤100包括以下几个子步骤(即步骤S101、S102和S103)：

具体的，步骤101中提取初始视频特征的方法可包括以下三个子步骤：

S111:在ImageNet数据集上训练Inception(初始)网络；

S112:截取所述Inception(初始)网络的最后一个全连接层的ReLU(RectifiedLinear Unit,线性整流函数)输出数据；

S113:将所述输出数据作为初始视频特征。

本实施例中，提取初始音频特征可以使用现有技术中利用卷积神经网络架构进行提取音频的方法，例如S.Hershey等人提出的利用卷积神经网络进行提取音频特征的方法，其将VGG-16网络的倒数第二个全连接层的输出作为音频特征，在此不再赘述。

由于现有技术的VLAD(Vector of Locally Aggregated Descriptors，局部聚集描述向量)方法的解算过程中每个特征有且仅有一个聚类中心与之对应，因此其是不可微的，所以无法嵌入卷积神经网络中进行联合训练。

R.Arandjelovic等人提出了NetVLAD(Net Vector of Locally AggregatedDescriptors，网络化局部聚集描述向量)方法并证明其在聚类过程中可微。

因此，本实施例中可以利用深度学习模型双流卷积神经网络(CNN)分别对视频特征和音频特征进行特征聚合，对每个网络架构独立使用NetVLAD方法进行特征聚合，最终得到聚合后的视频特征和聚合后的音频特征，聚合后的视频特征和聚合后的音频特征为两个单一表示的特征，获得单一特征表示的目的是为了进一步对聚合后的视频特征和聚合后的音频特征进行合并。

具体的，采用NetVLAD方法对初始视频特征和初始音频特征进行聚合的步骤为：

分别将初始视频特征和初始音频特征输入各自对应的NetVLAD网络，再分别输出聚合后的视频特征和聚合后的音频特征。具体聚合方法是现有技术中的已知技术，在此不再赘述。

本实施例中，可以通过PCA(Principal Component Analysis,主成分分析)和白化方法将聚合后的视频特征和聚合后的音频特征分别压缩至1024维和128维，但本发明并不限于此，也可以是其他的低维度。

需要解释说明的是，PCA是一种掌握事物主要矛盾的统计分析方法，它可以从多元事物中解析出主要影响因素，揭示事物的本质，简化复杂的问题。PCA作为一种重要的降维方法，其计算目的是将高维数据投影到较低维空间。

白化是一种重要的数据处理方法，其目的是降低数据的冗余性，使得经过白化处理的数据特征之间的相关性较低，且所有特征具有相同的方差。通常白化处理可分为PCA白化和正则化PCA白化，正则化PCA白化是在PCA白化基础上增加一个旋转操作，使得白化之后的数据更接近原始数据。

具体地，正则化PCA白化首先通过PCA去除各个特征之间的相关性，使输入的特征具有单位方差，得到PCA白化后的处理结果，之后，再将PCA处理结果旋转回去，得到正则化PCA白化的处理结果。

在这一步骤中，本发明基于自限门根据特征内部的依赖关系来挖掘视频文件的特征向量，第二特征向量是对第一特征向量(即视频文件的紧凑特征向量)加权后用于视频分类的特征向量；

图2为本发明在深度卷积神经网络结构中加入了自限门的一个实施例的结构示意图，请参见图2，基于自限门对所述第一特征向量进行加权，本实施例中，在深度卷积神经网络结构中加入自限门，其中，所述视频文件的第一特征向量可以表示为X＝[x₀,...,x_N]，其中N为batch(批处理脚本)包含的特征组数量，其中每对视频特征和音频特征为一个特征组；batch为深度神经网络训练过程中的最小单元。

通过下式计算隐藏层h₀,...,h_L：

其中，σ表示sigmoid激活函数，为待学习参数，为第l个隐藏层h_l的输入，其中m、n分别为输入特征图和输出特征图的大小，表示矩阵之间元素的乘积。

通过式(1)，每个隐藏层的输出均为输入X经由自限门σ(W*X+b)进行再加权得到的特征向量；自限门σ(W*X+b)通过与输入向量X中的每个元素相乘，从而用于控制深度卷积神经网络中传递的信息。

通过堆叠(即将隐藏层的上一层的输出和这一层的输入连接在一起，这一层的输出和下一层的输入连接)，并基于多个隐藏层可以得到以第一特征向量X作为输入的深度卷积网络结构的输出向量H＝h_L...h₀(X)。

S300：利用自适应模型对所述第二特征向量进行分类。

获得预测模型最简单的一种方法是使用Softmax层，但是使用Softmax层这种方法对大型数据库来说往往计算效率较低。

Graves等人提出了自适应Softmax，其在分类过程中将更多的容量分配给出现频繁的类别，同时也能够压缩不常见类别的容量，因此本实施例中利用自适应Softmax作为分类器，对上述第二特征向量进行分类，从而能够提高分类的效率和计算速度。

上述实施例提出的视频分类方法适用于基于视觉和听觉的视频检测、监控系统，通过上述步骤可提高视频事件检测分类的准确率，从而降低重大事件、突发事件的漏检率及误检率，为社会公共安全及反恐维稳提供更加强有力的保障。

下面以一个具体的场景来说明本实施例的基于自限门的视频分类方法，具体的，本实施例中所提出的方法训练需要计算资源较大，可以使用显存10G以上，CPU主频3.7GHz以上，内存32G以上的服务器进行网络训练，并将该视频分类方法部署在普通PC机等终端设备上。

本实施例中提出的方法，需要使用大量标记视频对深度卷积神经网络进行训练，因此例如可以使用Google开源的Audioset数据集对视频进行分类训练。

训练数据可在Audioset官网自行下载。其中，对深度卷积神经网络的训练可包括以下五个步骤：

第一步：下载Inception-V3以及ResNet-50的预训练模型和对应的decoding代码；

第二步：将NetVLAD模块分别嵌入到Inception-V3和ResNet-50网络的输出端；

第三步：使用全连接层，合并所述Inception-V3和所述ResNet-50网络的输出数据，得到第一特征向量；所述第一特征向量为视频文件的紧凑特征向量；

第四步：在全连接层输出端添加自限门，并对所述第一特征向量进行加权，获得深度卷积神经网络的输出向量；

本实施例中的自限门包含的隐藏层数可以根据经验判断，在训练过程中可以按照隐藏层数从低到高的顺序来进行训练来增加(即堆叠)隐藏层，本实施例中，该隐藏层数例如可以是3、4、5、6等层数；优选的，该隐藏层数为4层或5层。

第五步：在自限门的输出端添加自适应Softmax层，对所述深度卷积神经网络的输出向量进行分类，得到视频分类结果。

根据上述五个步骤，可以完成对提取出的视频文件进行训练，通过训练可以得到一个深度卷积神经网络架构，所述深度卷积神经网络架构包括计算图和参数。

从网络部署角度来讲，本实施例中的视频分类方法，可以包括以下三个步骤：

第一步：将实时录制视频作为输入视频；

所述输入视频可以是已录制好的新闻或体育视频，也可以是使用带拾音器的摄像头进行录制的视频；

第二步：将训练好的深度卷积神经网络架构部署在电子设备上并连接所述输入视频；所述电子设备包括智能手机、平板电脑、掌上电脑、电脑、服务器、云服务器等设备；

第三步：将视频数据连通到所述深度卷积神经网络架构上，完成视频分类。

实施例二

图3为本发明的一种视频分类装置的一个实施例的结构示意图，请参加图3，该视频分类装置包括特征提取模块、加权模块和分类器；

上述各个模块的具体实施方式与实施例一的各个方法步骤的具体实施方式一致，在此不再赘述。

实施例三

在本实施例中，提供一种电子设备，包括但不限于智能手机、固定电话、平板电脑、笔记本电脑、穿戴式设备等电子设备，所述电子设备包括：处理器和存储器，所述存储器存储有计算机可读指令，所述计算机可读指令在被所述处理器执行时实现上述本发明的视频分类方法。

实施例四

在本实施例中，提供一种计算机可读存储介质，可以为ROM(例如只读存储器、FLASH存储器、转移装置等)、光学存储介质(例如，CD-ROM、DVD-ROM、纸卡等)、磁存储介质(例如，磁带、磁盘驱动器等)或其他类型的程序存储器；所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器或计算机运行时执行上述本发明的视频分类方法。

本发明具有以下优点：

本发明适用于基于视觉和听觉的视频检测、监控系统，可提高视频事件检测分类的准确率，从而降低重大事件、突发事件的漏检率及误检率，为社会公共安全及反恐维稳提供更加强力的保障。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频分类方法，其特征在于,包括以下步骤：

S300：利用自适应模型对所述第二特征向量进行分类。

2.根据权利要求1所述的视频分类方法，其特征在于，所述视频文件的特征包括视频特征和音频特征。

3.根据权利要求2所述的视频分类方法，其特征在于，步骤S100包括以下子步骤，

4.根据权利要求3所述的视频分类方法，其特征在于，步骤S102中是使用两个NetVLAD网络架构分别对所述初始视频特征和所述初始音频特征进行聚合。

5.根据权利要求3所述的视频分类方法，其特征在于，步骤S103中还包括：通过主成分分析和白化方法压缩所述聚合后的视频特征和所述聚合后的音频特征。

6.一种视频分类装置，其特征在于,包括特征提取模块、加权模块和分类器；其中

7.根据权利要求6所述的视频分类装置，其特征在于，所述视频文件的特征包括视频特征和音频特征。

8.根据权利要求7所述的视频分类装置，其特征在于，所述特征提取模块利用深度卷积神经网络提取初始视频特征和初始音频特征，并分别对所述初始视频特征和所述初始音频特征进行聚合，以获得聚合后的视频特征和聚合后的音频特征，然后将所述聚合后的视频特征和所述聚合后的音频特征合并，获得所述第一特征向量。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有计算机可读指令，所述计算机可读指令在被所述处理器执行时实现根据权利要求1-6任一项所述的视频分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器或计算机运行时执行根据权利要求1-6任一项所述的视频分类方法。