CN111246217B

CN111246217B - 基于八度卷积的压缩视频动作识别方法

Info

Publication number: CN111246217B
Application number: CN202010057457.1A
Authority: CN
Inventors: 张俊三; 程俏俏; 王晓敏; 冯叶棋; 常益浩; 朱瑞; 余勇
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2022-02-01
Anticipated expiration: 2040-01-19
Also published as: CN111246217A

Abstract

本发明实施例公开一种基于八度卷积的压缩视频动作识别方法，能够减少卷积特征映射和稠密模型参数的冗余度。该方法包括：S1、将待识别视频压缩为压缩视频，对所述压缩视频进行编码，将所述压缩视频划分为k个片段；S2、构建八度卷积模型；S3、对所述k个片段进行取样并输入所述八度卷积模型，根据交叉熵损失训练所述八度卷积模型，得到所述k段的片段级结果；S4、融合所述k个片段的片段级结果，得到所述待识别视频预测结果。本发明实施例用于压缩视频动作识别。

Description

基于八度卷积的压缩视频动作识别方法

技术领域

本发明涉及视频处理领域，尤其涉及一种基于八度卷积的压缩视频动作识别方法。

背景技术

视频动作识别技术的目标是识别出给定视频中的不同的动作类别。在实际应用中，精确的动作识别有助于舆情监控，广告投放，以及很多其他视频理解相关的任务。由于视频内容和背景更加复杂多变，不同的动作类别之间具有相似性，而相同的类别在不同环境下又有着不同的特点，加之由于拍摄造成的遮挡、抖动、视角变化，影响动作识别。

相关的一种方法以卷积神经网络作为核心，实现压缩视频动作识别。但通过卷积神经网络进行压缩视频动作识别，存在卷积特征映射和稠密模型参数的冗余度问题。

发明内容

本发明实施例提供一种基于八度卷积的压缩视频动作识别方法，能够减少卷积特征映射和稠密模型参数的冗余度。

本发明实施例采用如下技术方案：

一种基于八度卷积的压缩视频动作识别方法，包括：

S1、将待识别视频压缩为压缩视频，对所述压缩视频进行编码，将所述压缩视频划分为k个片段；

S2、构建八度卷积模型；

S3、对所述k个片段进行取样并输入所述八度卷积模型，根据交叉熵损失训练所述八度卷积模型，得到所述k段的片段级结果；

S4、融合所述k个片段的片段级结果，得到所述待识别视频预测结果。

可选的，所述将待识别视频压缩为压缩视频，对所述压缩视频进行编码，将所述压缩视频划分为k个片段包括：

根据MPEG-4Part2将所述压缩视频分割为I帧、P帧和零个或多个B帧；其中，I帧为内部编码帧、P帧为预测帧、B帧为由运动矢量和残差组成的双向帧，I帧为常规图像，P帧编码前一帧到当前帧的变化，P帧由运动矢量和残差向量组成；

所述压缩视频包含I帧RGB图像、运动矢量和残差向量三种数据模式；其中，像素块从原始帧到目标帧的移动为所述运动矢量，所述运动矢量在所述待识别视频压缩过程中分为多个宏块，所述残差向量为当前帧与参考I帧之间去除运动矢量之后的RGB差，所述运动矢量为m，所述残差向量为r，I_i为所述压缩视频中的I帧，P_i+1为所述压缩视频中的P帧；

所述压缩视频为序列{I_i,P_i+1,K}，对所述压缩视频进行编码得到的编码视频为{I_i,I_i+1,...}，所述P帧重构为I_i+1：

I_i+1＝P_i+1+I_i

P_i+1＝m+r

其中，I帧、残差向量和P帧的大小为3*H*W，m的大小为2*H*W。

可选的，所述运动矢量在所述待识别视频压缩过程中分为8x8或者16x16 或者32x32个宏块。

可选的，所述将所述压缩视频划分为k段包括：

将所述压缩视频均匀划分为K个片段，并对所述K个片段序列进行建模获取长期运动的信息。

可选的，所述构建八度卷积模型包括：

根据下式构建所述八度卷积模型：

H＝f_H→H(H)+upsample(f_L→H(L))

L＝f_H→L(pool(H))+f_L→L(L)

其中unsample和pool对应于上采样和池化操作，f_H→H,f_L→L表示信息更新， H为高频，L为低频，f_H→L,f_L→H表示高频与低频两个频率之间的信息交换。

可选的，所述根据交叉熵损失训练所述八度卷积模型包括：

对所述八度卷积的不同的信道分配给低频的比例α值设置为0.5。

可选的，所述根据交叉熵损失训练所述八度卷积模型包括：

根据深度学习编译器TVM训练所述八度卷积模型。

可选的，训练所述八度卷积模型过程中，用交叉熵损失进行反向传播，更新优化所述八度卷积模型参数。

可选的，所述对所述k个片段进行取样并输入所述八度卷积模型，根据交叉熵损失训练所述八度卷积模型，得到所述k段的片段级结果包括：

根据MPEG-4压缩视频的三种数据模式作为输入：RGB、运动矢量、残差向量，RGB、运动矢量、残差向量分别表示为R^rgb,R^mv,R^res，Oct Resnet被表示为O()用于为每个输入建模：

o^r＝O(r),r∈R,R＝{R^rgb,R^mv,R^res}

其中，段的总数表示为K，t用于表示K段中的第h段，输入由RGB、运动矢量、残差向量三种模式的输入组成，表示为r，O_t ^r表示不同片段不同模态作为输入时网络的预测结果，W表示权重集合。

可选的，所述融合所述k个片段的片段级结果，得到所述待识别视频预测结果包括：

将所述k个片段的中相邻片段的片段结果相加融合，得到所述待识别视频的预测结果。

基于上述技术方案的基于八度卷积的压缩视频动作识别方法，通过将待识别视频压缩为压缩视频，对所述压缩视频进行编码，将所述压缩视频划分为k 个片段，构建八度卷积模型，对k个片段进行取样并输入所述八度卷积模型，根据交叉熵损失训练八度卷积模型，得到k段的片段级结果，融合所述k个片段的片段级结果，得到所述待识别视频预测结果，从而实现根据八度卷积模型进行动作识别，以减少卷积特征映射和稠密模型参数的冗余度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明实施例提供的基于八度卷积的压缩视频动作识别方法的流程图；

图2为本发明实施例提供的构建的模型总架构示意图；

图3为本发明实施例提供的压缩视频、解码视频和可选流的组件和源结构示意图；

图4为本发明实施例提供的八度卷积模型结构示意图；

图5为本发明实施例提供的八度卷积在压缩视频上的效率示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明实施例解决基于卷积神经网络的视频动作识别方法中卷积特征映射和稠密模型参数的冗余度问题以及基于双流网络方法的收益不平衡问题。

本发明实施例利用MPEG-4、H.264等编码的压缩视频中的运动信息来代替消耗很高的光流进行动作识别。本发明实施例将cnn直接作用于运动矢量、残差和完整图像，能够去除两个数量级的多余信息，同时从压缩视频的残差和运动向量中捕获到运动信息。

同时，在CNNs(卷积神经网络，Convolutional Neural Networks)所产生的特征映射的空间维度中也存在大量冗余。基于CNN的动作识别在减少空间上的冗余方面可能会带来存储和计算成本的进一步优化。OctConv(八度卷积) 是一个通用的、即插即用的卷积单元，可以直接代替普通的卷积。本发明实施例着重于减少卷积特征映射和稠密模型参数的冗余度，通过频率间的信息交换，在图像分类方面取得了较好的精度和效率。八倍卷积能否有效地捕获运动矢量上的运动信息和压缩视频的残差需要验证。

本发明实施例视频编码使用MPEG-4第2部分作为视频编码器，与原始的八度卷积不同的是，在三个独立的cnn(卷积神经网络，Convolutional Neural Network)中使用共角卷积来操作压缩视频中的三种模式。在此基础上，对压缩视频执行八度卷积，在压缩视频中的不同模式上操作，以实现高效和有效的动作识别，从而去除时间和空间维度上的多余信息。

本发明实施例的八度卷积与原始的八度卷积不同之处在于，本发明实施例在三个独立的cnn中使用共角卷积来操作压缩视频中的三种模式。对压缩视频执行八度卷积，并在压缩视频中的不同模式上操作，以实现高效和有效的动作识别，从而去除时间和空间维度上的多余信息，提升了训练速度；同时，八度卷积高低频进行划分，并使高频分量和低频分量之间进行有效的通信，加大高低频间的交互作用，提高压缩视频动作识别的准确率。

如图1所示，本发明实施例提供一种基于八度卷积的压缩视频动作识别方法，包括：

S1、将待识别视频压缩为压缩视频，对所述压缩视频进行编码，将所述压缩视频划分为k个片段。

S2、构建八度卷积模型。

S3、对所述k个片段进行取样并输入所述八度卷积模型，根据交叉熵损失训练所述八度卷积模型，得到所述k段的片段级结果。

具体的，对所述k个片段进行取样，将取样结果输入到八度卷积模型。在训练八度卷积模型过程中，根据交叉熵损失得到的损失进行反向传播，以优化模型。

具体的，本发明实施例中预测结果即为识别出的待识别视频中的动作，即得到预测结果即完成动作预测。动作识别，即观察出待识别视频中的一个动作，例如打羽毛球、踢球动作。

图2为本实施例构建的模型总架构示意图。将视频分为K个片段，并对片段序列进行建模，获取长期运动的信息(long-range information)。根据MPEG-4 压缩视频的三种数据模式作为输入：RGB(红(R)、绿(G)、蓝(B))、运动矢量、残差向量，RGB、运动矢量、残差向量分别表示为R^rgb,R^mv,R^res，Oct Resnet表示为O()，其用于为每个输入建模：

o^r＝O(r),r∈R,R＝{R^rgb,R^mv,R^res}

其中，段的总数表示为K，t用于表示K段中的第h段，输入由RGB、运动矢量、残差向量三种模式的输入组成，表示为r，O_t ^r表示不同片段不同模态作为输入时网络的预测结果，通过加权求和进行融合得到最终结果，W表示权重集合。

上述基于八度卷积的压缩视频动作识别方法，通过将待识别视频压缩为压缩视频，对所述压缩视频进行编码，将所述压缩视频划分为k个片段，构建八度卷积模型，对k个片段进行取样并输入所述八度卷积模型，根据交叉熵损失训练八度卷积模型，得到k段的片段级结果，融合所述k个片段的片段级结果，得到所述待识别视频预测结果，从而实现根据八度卷积模型进行动作识别，以减少卷积特征映射和稠密模型参数的冗余度。

在一个实施例中，可选的，如图3所示的压缩视频、解码视频和可选流的组件和源结构示意图，所述获取压缩视频，将所述压缩视频划分为k个片段包括：

根据MPEG-4Part2将所述待识别视频分割为I帧、P帧和零个或多个B 帧；其中，I帧为内部编码帧、P帧为预测帧、B帧为由运动矢量和残差组成的双向帧，I帧为常规图像，P帧只编码前一帧到当前帧的变化，P帧由运动矢量和残差向量组成；

所述压缩视频包含I帧RGB图像、运动矢量和残差向量三种数据模式；其中，像素块从原始帧到目标帧的移动为所述运动矢量，所述运动矢量在所述待识别视频压缩过程中分为多个宏块，所述残差向量为当前帧与参考I帧之间去除运动矢量之后的RGB差，所述运动矢量为m，所述残差向量为r，I_i为所述压缩视频中的I帧，P_i+1为所述压缩视频中的P帧。其中，从某一个动作开始时的帧到该动作结束时的帧为原始帧和目标帧。即原始帧可以为一动作的开始帧，目标帧可以为该动作的结束帧。

I_i+1＝P_i+1+I_i

P_i+1＝m+r

其中，I帧、残差向量和P帧的大小为3*H*W，m的大小为2*H*W。

其中，所述运动矢量在所述待识别视频压缩过程中可以分为8x 8或者 16x16或者32x32个宏块。

本实施例中，视频压缩去除了大量多余的信息，使感兴趣的内容更加突出。压缩视频的运动矢量和残差为动作识别提供了必要的动作信息。

在一个实施例中，可选的，所述将所述压缩视频划分为k段包括：

在一个实施例中，可选的，所述构建八度卷积模型包括：

根据下式构建所述八度卷积模型：

H＝f_H→H(H)+upsample(f_L→H(L))

L＝f_H→L(pool(H))+f_L→L(L)

其中unsample和pool对应于上采样和池化操作，f_H→H,f_L→L表示信息更新， H为高频，L为低频，f_H→L,f_L→H表示高频与低频两个频率之间的信息交换。其中，上采样采用内插值方法将图像放大，即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素；池化操作，将图像缩小。

如图4所示的八度卷积模型结构示意图，八度卷积是一个单一的、通用的、即插即用的卷积单元，可以直接代替传统卷积，能够有效处理相应频率张量中的低频和高频，实现高频和低频分量之间的有效通信，将八度卷积被应用于 ResNet(残差网络，ResidualNetwork)中，以其频率和过程的顺序来因子混合特征图。如图3所示，八度卷积应用于ResNet中的每个卷积，到最后一个卷积层时将alpha设置为零以获得单个全高频的输出，进行全连接层。

在一个实施例中，可选的，所述根据交叉熵损失训练所述八度卷积模型包括：

对所述八度卷积的不同的信道分配给低频的比例α值(信道分配给低频的比例)设置为0.5。本发明实施例对八度卷积的不同的α值进行尝试和评估，α是固定到0.5最后才能达到更好的效果。

下表为当alpha＝0.5时，网络的输出特征图的大小。对八度卷积的不同的α值(信道分配给低频的比例)进行尝试和评估，α是固定到0.5能达到更好的效果。

在一个实施例中，可选的，所述S3包括：

使用TVM(深度学习编译器)训练所述八度卷积模型。

在一个实施例中，可选的，所述S3包括：

根据MPEG-4压缩视频的三种数据模式作为输入：RGB、运动矢量、残差向量，RGB、运动矢量、残差向量分别表示为R^rgb,R^mv,R^res，Oct Resnet表示为 O()，用于为每个输入建模：

o^r＝O(r),r∈R,R＝{R^rgb,R^mv,R^res}

其中，段的总数表示为K，t用于表示K段中的第h段，输入由RGB、运动矢量、残差向量三种模式的输入组成，表示为r，O_t ^r表示不同片段不同模态作为输入时网络的预测结果，R为实数集，R加上不同的右上标代表不同的数据模式，W表示权重集合。例如，函数：f(x)＝w₁x+w₂x+...+w_nx，w₁,w₂...即为为权重，w为权重集合。

在一个实施例中，可选的，所述融合所述k个片段的片段级结果，得到所述待识别视频预测结果包括：

将所述k个片段的片段级结果中相邻片段的片段结果相加融合，得到所述待识别视频的预测结果。

本发明实施例中预测结果即为识别出的待识别视频中的动作，即得到预测结果即完成动作预测。动作识别，即观察出待识别视频中的一个动作，例如打羽毛球、踢球动作。

通常，在用于动作识别的压缩视频方面，Oct-ResNet50比ResNet50高出 1.34％。表明八度卷积还可以用于压缩视频以及图像分类和解码视频。此外，对于UCF-101上的iframe，残差和运动矢量，Oct-ResNet50的精度分别比 ResNet50高1.11％，1.16％和0.76％。八度卷积通过有效地在低频和高频之间进行通信，扩大了接收场的大小并捕获了全局信息，从而减少空间冗余。

图5为八度卷积在压缩视频上的效率示意图。如图5所示，Resnet50和 Resnet152用于评估测试期间的速度。本实施例的方法具有良好的准确性和效率，比resnet50快38％，比resnet152快78％。准确性方面，仅50层即可达到 152层ResNet的效果。同时，与ResNet50相比，将低频功能使用的信道比率设置为0.5时，Oct-ResNet50可以节省37％的内存成本。

实验结果如下表所示：

mode	Resnet50	Oct-Resnet50
			iframe	83.00％	84.11％(1.11％up)
residual	78.32％	79.48％(1.16％up)
			motion vector	49.38％	50.14％(0.76％up)
fusion	88.98％	90.32％(1.34％up)

本发明实施例对压缩视频执行八度卷积，与原始的八度卷积不同之处在于，在三个独立的cnn中使用共角卷积来操作压缩视频中的三种模式，以实现高效和有效的动作识别，从而去除时间空间维度上的多余信息，以提升训练速度。

本发明实施例提出的对八度卷积高低频进行划分，并使高频分量和低频分量之间进行有效的通信，加大了高低频间的交互作用，提高了压缩视频动作识别的准确率。

本发明实施例的基于八度卷积的压缩视频动作识别方法，通过将待识别视频压缩为压缩视频，对所述压缩视频进行编码，将所述压缩视频划分为k个片段，构建八度卷积模型，对k个片段进行取样并输入所述八度卷积模型，根据交叉熵损失训练八度卷积模型，得到k段的片段级结果，融合所述k个片段的片段级结果，得到所述待识别视频预测结果，从而实现根据八度卷积模型进行动作识别，以减少卷积特征映射和稠密模型参数的冗余度。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于八度卷积的压缩视频动作识别方法，其特征在于，包括：

S2、构建八度卷积模型；

S4、融合所述k个片段的片段级结果，得到所述待识别视频预测结果；所述将待识别视频压缩为压缩视频，对所述压缩视频进行编码，将所述压缩视频划分为k个片段包括：

I_i+1＝P_i+1+I_i

P_i+1＝m+r

其中，I帧、残差向量和P帧的大小为3*H*W，m的大小为2*H*W。

2.根据权利要求1所述的方法，其特征在于，所述运动矢量在所述待识别视频压缩过程中分为8x 8或者16x16或者32x32个宏块。

3.根据权利要求1至2中任一项所述的方法，其特征在于，所述将所述压缩视频划分为k段包括：

4.根据权利要求1所述的方法，其特征在于，所述构建八度卷积模型包括：

根据下式构建所述八度卷积模型：

H＝f_H→H(H)+upsample(f_L→H(L))

L＝f_H→L(pool(H))+f_L→L(L)

其中unsample和pool对应于上采样和池化操作，f_H→H,f_L→L表示信息更新，H为高频，L为低频，f_H→L,f_L→H表示高频与低频两个频率之间的信息交换。

5.根据权利要求1或2所述的方法，其特征在于，所述根据交叉熵损失训练所述八度卷积模型包括：

6.根据权利要求5所述的方法，其特征在于，所述根据交叉熵损失训练所述八度卷积模型包括：

根据深度学习编译器TVM训练所述八度卷积模型。

7.根据权利要求6所述的方法，其特征在于，训练所述八度卷积模型过程中，用交叉熵损失进行反向传播，更新优化所述八度卷积模型参数。

8.根据权利要求1或4所述的方法，其特征在于，所述对所述k个片段进行取样并输入所述八度卷积模型，根据交叉熵损失训练所述八度卷积模型，得到所述k段的片段级结果包括：

根据MPEG-4压缩视频的三种数据模式作为输入：RGB、运动矢量、残差向量，RGB、运动矢量、残差向量分别表示为R^rgb,R^mv,R^res，Oct Resnet表示为O()，用于为每个输入建模：

o^r＝O(r),r∈R,R＝{R^rgb,R^mv,R^res}

9.根据权利要求1或2或4所述的方法，其特征在于，所述融合所述k个片段的片段级结果，得到所述待识别视频预测结果包括：