CN111008570A

CN111008570A - 一种基于压缩-激励伪三维网络的视频理解方法

Info

Publication number: CN111008570A
Application number: CN201911095072.8A
Authority: CN
Inventors: 高建彬; 王嘉琦
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-04-14
Anticipated expiration: 2039-11-11
Also published as: CN111008570B

Abstract

本发明提供了一种基于压缩‑激励伪三维网络的视频理解方法，该方法包括：预处理训练数据和测试数据，构成训练集和测试集；采用训练集训练基于压缩‑激励机制的伪三维残差网络；采用测试集测试基于压缩‑激励机制的伪三维残差网络；并给出了所述基于压缩‑激励机制的伪三维残差网络的详细结构。本发明提出的一种基于压缩‑激励伪三维网络的视频理解方法，均匀的提取了输入视频片段的空间特征和时间特征，相较与三维卷积模型减少了参数量，加深了网络层数，提取了更深层次的特征；并且显式地建模特征通道之间的相互依赖关系，从而提高网络性能；对测试样本的预测结果取平均作为最后的预测结果，增加了结果的准确性和鲁棒性。

Description

一种基于压缩-激励伪三维网络的视频理解方法

技术领域

本发明属于计算机视觉技术领域，涉及视频理解分类领域，具体涉及一种基于压缩-激励伪三维网络的视频理解方法。

背景技术

每分钟都有大量的图像和视频数据正在被产生，这也促使了搜索、推荐等多媒体内容理解应用的发展，而如何很好地提取视频特征对于视频的内容分析及理解具有重要的意义。在图像领域，残差网络模型的集成已经可以在ImageNet数据集(一个用于视觉对象识别软件研究的大型可视化数据库)上达到3.57％的top-5的出错率(error)，这已经优于出错率为5.1％的人类水平。相比于图像而言，视频除了作为图像帧的集合还蕴含了复杂的时序信息，这也使得学习一个强大而通用的视频空间时序特征变得很困难。

在现有的比较常见的解决上述问题的方法中，大致可归于以下三类。单帧识别，这是指从视频中提取单独一帧，使用卷积神经网络对图像进行分类；多帧融合，这是指提取视频中的多帧，分别利用卷积神经网络提取每帧图像的表观特征，而后利用循环神经网络对视频帧与帧之间的时序特征进行建模；三维卷积模型，这是指使用三维卷积结构对视频同时提取空间和时间特征。总体说来，视频理解分类还存在以下问题：

1)单帧识别只能提取到单帧图像的表观特征，并不能利用到视频帧与帧之间的时序信息。

2)多帧融合是提取出每帧图像的高层特征后再进行时序的建模，因此可以捕捉高层变化而不能捕捉低层运动，但往往很多关键信息都包含在低层运动中。

3)三维卷积模型相较于二维卷积网络参数量更大，因此训练十分困难，所以大都采用浅层结构，致使深层特征又难以提取。

另外，目前视频理解分类模型的基础卷积神经网络，其又存在一些问题：卷积核作为卷积神经网络的核心，通常都是在局部感受野上将空间信息和特征维度的信息进行聚合最后获取全局信息。卷积神经网络由一系列卷积层、非线性层和下采样层构成，这样它们能够从全局感受野上去捕获图像的特征来进行图像的描述，然而去学到一个性能非常强劲的网络是相当困难的。

发明内容

针对上述存在的问题，本发明提出一种基于压缩-激励伪三维网络的视频理解方法来提高视频理解分类的准确性。

本发明提出的一种基于压缩-激励伪三维网络的视频理解方法采用基于压缩-激励机制的伪三维残差网络实现，其具体包括如下步骤：

步骤1：将训练数据中的每个训练视频分割成若干个4秒长的片段，每个片段均匀采样16帧，从而构成训练集；同样将测试数据中的每个测试视频分割成20个4秒长的片段，每个片段均匀采样16帧，从而构成测试集。然后将训练集中的每一个片段作为所述训练集的一个训练样本，将测试集中的每一个片段作为所述测试集的一个测试样本；

步骤2：将训练集中的训练样本逐一输入所述基于压缩-激励机制的伪三维残差网络中，对所述基于压缩-激励机制的伪三维残差网络进行训练，得到训练完成的基于压缩-激励机制的伪三维残差网络；

步骤3：在测试阶段，将测试集中的测试样本逐一输入所述训练完成的基于压缩-激励机制的伪三维残差网络中，对所述训练完成的基于压缩-激励机制的伪三维残差网络进行测试，得到每一个测试样本的预测结果分数，最后将20个测试样本的预测结果分数进行平均作为最后预测结果。

所述基于压缩-激励机制的伪三维残差网络是一种卷积神经网络结构，所述基于压缩-激励机制的伪三维残差网络是由若干个伪三维压缩-激励残差块结构堆叠而成，最后通过一个全连接层进行分类。其中每个伪三维压缩-激励残差块学习的是下式的残差函数，所述基于压缩-激励机制的伪三维残差网络通过学习残差函数而不是直接映射，使得学习更加容易。

F(x_t)＝H(x_t)-x_t+1

其中x_t表示伪三维压缩-激励残差块的输入，x_t+1表示伪三维压缩-激励残差块的输出，H(x_t)＝x_t表示恒等映射关系，F是非线性残差函数，伪三维压缩-激励残差块将学习目标改变了，不再是学习直接从输入到输出的非线性函数，而是目标值与输入值之间的差值。这个式子也可以写成下式的形式：

(I+F)·x_t＝x_t+F·x_t:＝x_t+F(x_t)＝x_t+1

基于伪三维压缩-激励残差块结构是将原本二维的残差单元中的卷积核全部扩充成三维的，然后再将三维卷积核分解成一个二维空间卷积和一个一维时间卷积，我们使用S表示空间卷积操作，T表示时间卷积操作，先做空间的二维卷积然后再做时间一维卷积，残差学习如下式所示：

(I+T·S)·x_t:＝x_t+T(S(x_t))＝x_t+1

压缩-激励机制主要从考虑特征通道之间的关系来提高所述基于压缩-激励机制的伪三维残差网络性能，显式地建模特征通道之间的相互依赖关系。

本发明提出的一种基于压缩-激励伪三维网络的视频理解方法，由于均匀的提取了输入视频片段的空间特征和时间特征，并且相较与三维卷积模型减少了参数量，从而加深了网络层数，可以提取更深层次的特征；并且利用压缩-激励机制，显式地建模特征通道之间的相互依赖关系，从而提高网络性能；在测试阶段，对每个测试样本的预测结果取平均作为测试视频最后的预测结果，增加了结果的准确性和鲁棒性。

附图说明

图1是本发明的一个伪三维压缩-激励残差块结构示意图

图2是本发明的整体网络结构

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本发明提出的一种基于压缩-激励伪三维网络的视频理解方法采用基于压缩-激励机制的伪三维残差网络实现，包括步骤1-3：

步骤1，将原始视频经过处理后输入到该网络当中

(1.1)将训练数据中的每个训练视频分割成若干个4秒长的片段，每个片段均匀采样16帧，从而构成训练集，然后将训练集中的每一个片段作为所述训练集的一个训练样本；

其中，将每个视频截取为若干个长度为4秒的片段，并均匀采样16帧作为输入具体为假设原视频的大小为H×W×3，则输入尺寸为16×H×W×3。

步骤2，在网络中进行训练

如图1所示，将训练集中的训练样本逐一输入所述基于压缩-激励机制的伪三维残差网络中，对所述基于压缩-激励机制的伪三维残差网络进行训练，得到训练完成的基于压缩-激励机制的伪三维残差网络，具体包括如下步骤：

(2.1)所述训练集中的训练样本经过每个伪三维压缩-激励残差块结构时，首先经过伪三维卷积模块。其中，首先经过1×1×1×c的卷积核，将特征图融合；之后经过1×3×3×1的空间卷积核；再经过3×1×1×1的时间卷积核；最后通过1×1×1×c的卷积核恢复为原尺寸。

(2.2)之后会经过压缩-激励模块。其中，首先经过全局池化将输入变为1×1×1×c的一维向量；之后通过两个全连接层将通道数降维到c/16再恢复为c。最后经过一个Sigmoid层将权重归一化后再进行通道赋权。

(2.3)在依次相连的残差块结构中重复上述操作直到训练完成。

步骤3，利用测试视频进行训练

(3.1)将每个测试视频截取为20个4秒的片段，每个片段均匀采样16帧作为一个片段，从而构成测试集，将测试集中的每一个片段作为所述测试集的一个测试样本。将每个片段分别输入到训练好的所述基于压缩-激励机制的伪三维残差网络中进行预测，最后将20个片段的结果进行平均作为结果。具体包括：

在测试阶段，将测试集中的测试样本逐一输入所述训练完成的基于压缩-激励机制的伪三维残差网络中，对所述训练完成的基于压缩-激励机制的伪三维残差网络进行测试，得到每一个测试样本的预测结果分数，最后将20个测试样本的预测结果分数进行平均作为最后预测结果，这种做法增加了结果的准确性和鲁棒性。

其中，所述基于压缩-激励机制的伪三维残差网络是一种卷积神经网络结构，其以残差网络为基础，对其当中的残差块结构进行了调整，在其中的每个残差块中分为两部分：第一部分是伪三维卷积模块，第二部分是压缩-激励模块，如图2所示，其结构是由若干个伪三维压缩-激励残差块结构堆叠而成，最后通过一个全连接层进行分类。其中每个伪三维压缩-激励残差块结构学习的是式(1)的残差函数，所述基于压缩-激励机制的伪三维残差网络通过学习残差函数而不是直接映射，使得学习更加容易。

F(x_t)＝H(x_t)-x_t+1 (1)

其中x_t表示伪三维压缩-激励残差块的输入，x_t+1表示伪三维压缩-激励残差块的输出，H(x_t)＝x_t表示恒等映射关系，F是非线性残差函数，伪三维压缩-激励残差块将学习目标改变了，不再是学习直接从输入到输出的非线性函数，而是目标值与输入值之间的差值。这个式子也可以写成式(2)的形式：

(I+F)·x_t＝x_t+F·x_t:＝x_t+F(x_t)＝x_t+1 (2)

基于伪三维压缩-激励残差块结构是将原本二维的残差单元中的卷积核全部扩充成三维的，然后再将三维卷积核分解成一个二维空间卷积和一个一维时间卷积，我们使用S表示空间卷积操作，T表示时间卷积操作，先做空间的二维卷积然后再做时间一维卷积，残差学习如式(3)所示：

(I+T·S)·x_t:＝x_t+T(S(x_t))＝x_t+1 (3)

其中，伪三维卷积模块对输入数据在空间维度和时间维度进行均匀的卷积运算，提取其空间和时间特征。相较于传统的二维卷积，该模块可以在提取空间特征的基础上同时提取时间特征；相较于传统三维卷积，该方法可以大幅减小模型复杂度，降低计算开销。

压缩-激励模块可以自适应的校准特征通道间的特征响应，显式地建模通道之间的相互依赖关系，自动获取不同特征图的重要程度，然后依照这个重要程度去增强有用的特征并抑制对当前任务用处不大的特征。

压缩-激励机制主要从考虑特征通道之间的关系来提高所述基于压缩-激励机制的伪三维残差网络性能，显式地建模特征通道之间的相互依赖关系。本发明并不引入一个新的空间维度来进行特征通道间的融合，而是采用了一种全新的“特征重标定策略”。具体来说，就是通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。

具体操作主要分为压缩和激励部分。在伪三维压缩-激励残差块结构阶段，每个伪三维压缩-激励残差块结构会通过若干个卷积核的运算得到若干个特征图，之后首先在压缩部分对每个特征图使用全局平均池化操作，使每个特征图取为一个值，那么假设有c个特征图，经过压缩部分就会得到一个长度为c的一维向量，紧接着在激励部分通过两个全连接层去学习通道间的相关性，并输出和输入特征同样数目的权重。这两个全连接层是会先降维，再升维为原维度，然后通过一个Sigmoid的门获得0到1之间归一化的权重。最后通过一个通道赋权的操作来将归一化后的权重加权到每个通道的特征上。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种基于压缩-激励伪三维网络的视频理解方法，其特征在于，该方法采用基于压缩-激励机制的伪三维残差网络实现，该方法具体包括如下步骤：

步骤1：将训练数据中的每个训练视频分割成若干个4秒长的片段，每个片段均匀采样16帧，从而构成训练集；同样将测试数据中的每个测试视频分割成20个4秒长的片段，每个片段均匀采样16帧，从而构成测试集，然后将所述训练集中的每一个片段作为所述训练集的一个训练样本，将所述测试集中的每一个片段作为所述测试集的一个测试样本；

步骤2：将所述训练集中的训练样本逐一输入所述基于压缩-激励机制的伪三维残差网络中，对所述基于压缩-激励机制的伪三维残差网络进行训练，得到训练完成的基于压缩-激励机制的伪三维残差网络；

步骤3：在测试阶段，将所述测试集中的测试样本逐一输入所述训练完成的基于压缩-激励机制的伪三维残差网络中，对所述训练完成的基于压缩-激励机制的伪三维残差网络进行测试，得到每一个测试样本的预测结果分数，最后将20个测试样本的预测结果分数进行平均作为最后预测结果；

其中，所述基于压缩-激励机制的伪三维残差网络是一种卷积神经网络结构，所述基于压缩-激励机制的伪三维残差网络是由若干个相同的伪三维压缩-激励残差块结构堆叠而成，最后通过一个全连接层进行分类，其中每个伪三维压缩-激励残差块结构分为两部分：第一部分是伪三维卷积模块，第二部分是压缩-激励模块，每个伪三维压缩-激励残差块结构学习的是下式的残差函数F(x_t)，所述基于压缩-激励机制的伪三维残差网络由于通过学习残差函数而不是直接映射，使得学习变得容易，

F(x_t)＝H(x_t)-x_t+1

其中x_t表示所述伪三维压缩-激励残差块结构的输入，x_t+1表示所述伪三维压缩-激励残差块结构的输出，H(x_t)＝x_t表示恒等映射关系，F是非线性残差函数，所述伪三维压缩-激励残差块结构将学习目标改变了，不再是学习直接从输入到输出的非线性函数，而是目标值与输入值之间的差值，上式的残差函数F(x_t)也可以写成下面的形式：

(I+F)·x_t＝x_t+F·x_t:＝x_t+F(x_t)＝x_t+1

所述伪三维压缩-激励残差块结构是将原本二维的残差单元中的卷积核全部扩充成三维的，然后再将三维卷积核分解成一个二维空间卷积和一个一维时间卷积，采用S表示空间卷积操作，T表示时间卷积操作，先做空间的二维卷积然后再做时间一维卷积，残差学习如下式所示：

(I+T·S)·x_t:＝x_t+T(S(x_t))＝x_t+1

所述基于压缩-激励机制的伪三维残差网络中的压缩-激励机制通过特征通道之间的关系来提高所述基于压缩-激励机制的伪三维残差网络性能，显式地建模特征通道之间的相互依赖关系，通过学习的方式自动获取每个特征通道的重要程度，然后依照所述重要程度提升有用的特征通道并抑制对当前任务用处不大的特征通道，具体包括压缩和激励部分：在压缩部分前，每个伪三维压缩-激励残差块结构通过若干个卷积核的运算得到若干个特征图，之后首先在压缩部分对每个特征图使用全局平均池化操作，为每个特征图取一个值，假设有c个特征图，经过压缩部分就会得到一个长度为c的一维向量，紧接着在激励部分通过两个全连接层去学习特征通道间的相关性，并输出和输入特征同样数目的权重，这两个全连接层先进行降维，再升维为原维度，然后通过一个Sigmoid的门获得0到1之间归一化的权重，最后通过一个特征通道赋权的操作将所述归一化的权重加权到每个特征通道的特征上；

其中，使用两个全连接层而不是一个全连接层是为了具有更多的非线性，以便更好地拟合特征通道间复杂的相关性，减少参数量和计算量。

2.根据权利要求1所述的基于压缩-激励伪三维网络的视频理解方法，其特征在于，所述步骤1中将每个视频分割成若干个4秒长的片段，每个片段均匀采样16帧作为训练集输入所述基于压缩-激励机制的伪三维残差网络具体操作为：假设原视频的大小为H×W×3，则输入尺寸为16×H×W×3。

3.根据权利要求1所述的基于压缩-激励伪三维网络的视频理解方法，其特征在于，所述步骤2具体操作为：所述训练集中的训练样本经过每个伪三维压缩-激励残差块结构时，1)经过所述伪三维卷积模块，其中，首先经过1×1×1×c的卷积核，将特征图融合；之后经过1×3×3×1的空间卷积核；再经过3×1×1×1的时间卷积核；最后通过1×1×1×c的卷积核恢复为原尺寸；2)经过所述压缩-激励模块，其中，首先经过全局池化将所述压缩-激励模块的输入变为1×1×1×c的一维向量；之后通过两个1×1×1×c的全连接层将特征通道数降维到c/16再恢复为c，最后经过一个Sigmoid的门将获得的权重归一化后再进行特征通道赋权；3)在依次相连的所述伪三维压缩-激励残差块结构中重复上述操作1)和2)直到所述基于压缩-激励机制的伪三维残差网络训练完成。