CN112861698B

CN112861698B - 一种基于多尺度时序感受野的压缩域行为识别方法

Info

Publication number: CN112861698B
Application number: CN202110150371.8A
Authority: CN
Inventors: 李凡; 张斯瑾; 贺丽君
Original assignee: GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY; Xian Jiaotong University
Current assignee: GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY; Xian Jiaotong University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2023-04-07
Anticipated expiration: 2041-02-03
Also published as: CN112861698A

Abstract

本发明公开了一种基于多尺度时序感受野的压缩域行为识别方法，该方法对于压缩编码后的视频流，先将视频均等划分为8段，从每段中随机选择一个视频组，解码其I帧和4个P帧运动矢量图像，送入包含长时序感受野网络和短时序感受野网络两个支路的多尺度感受野网络中进行预测，最终结果为两个支路预测分数的加权平均。同时在长时序感受野支路加入运动矢量特征引导的通道注意力机制，突出前景特征，减少背景的干扰。经过在公开数据集上训练和测试，验证了本发明的有效性，对于压缩域行为识别的精度提升明显。

Description

一种基于多尺度时序感受野的压缩域行为识别方法

技术领域

本发明属于行为识别领域，具体涉及一种基于多尺度时序感受野的压缩域行为识别方法。

背景技术

行为识别技术通过从视频中提取具有判别力的运动特征，实现对视频中行为的分类。行为识别的难点包括视频中不同动作的持续时间差异较大、背景复杂时受背景干扰产生误检等。现有的行为识别算法包括图像域和压缩域两大类。其中图像域算法输入为原始未编码的视频，而压缩域算法则是对经过视频编码技术压缩编码后的视频进行分析。

随着城市智能化的发展，城市中的监控摄像头几乎覆盖城市公共区域的每个角落。同时为了更快的分析监控视频并实时响应，越来越多的边缘服务器被部署到城市的各个区域。边缘服务器相较云服务器，具有距离监控节点近，传输时延短，可快速响应等优点，但是同时其存储空间和计算能力均有一定的限制。在边缘服务器场景下，图像域的行为识别算法需要将视频解压完后再进行分析，解压过程消耗了大量的时间和空间资源，无法满足要求。而压缩域行为识别算法避免了完全解压视频的过程，且往往采用轻量的2D卷积网络，因此在边缘服务器场景下，其时间、空间以及计算效率方面优势明显。

压缩域行为算法通常是将压缩域中的I帧图像、运动矢量图像以及残差图像分别送入不同的2D卷积神经网络中提取空间信息，最终将三者分数进行融合。该结构算法具有时序感受野较小和残差获取耗时的问题。其中：1)时序感受野较小是因为运动矢量和残差仅反映P帧和本视频组I帧间的时序变化信息，时序感受野较小，仅有一个视频组大小。而实际中，不同的行为其持续时间并不相同。对于一些快速运动的行为，如跳跃、摔倒等，其持续时间较短，但是一些缓慢运动的行为，如翻跟头、跨栏等，持续时间较长。仅使用运动矢量特征作为运动表征无法识别不同持续时间的行为。2)为了获取残差图像，需要对当前P帧完全解压，得到P帧原始图像。同时在解压完运动矢量之后，计算由运动矢量和I帧恢复的P帧与原始P帧之间的差异，作为残差图像。其中解压原始P帧的过程大大降低了整体算法的速率。

发明内容

本发明的目的是针对目前压缩域行为识别方法存在的问题，提供了一种基于多尺度时序感受野的压缩域行为识别方法。

本发明采用如下技术方案来实现：

一种基于多尺度时序感受野的压缩域行为识别方法，包括以下步骤：

1)压缩域数据采样，对于压缩编码后的视频流，先将视频均等划分为8段，对每段视频随机选择一个视频组，解码视频组中的I帧图像和4个P帧的运动矢量图像，送入多尺度感受野网络中；

2)多尺度感受野网络结构，包括具有视频级长时序感受野网络和具有帧级别短时序感受野网络两个支路，长时序感受野网络输入为I帧图像和运动矢量图像，短时序感受野网络输入仅为运动矢量图像，最终将两个支路的分数加权平均作为多尺度感受野网络的输出；

3)运动矢量引导的通道注意力机制，在长时序感受野网络中加入运动矢量引导的通道注意力机制，为前景运动通道赋予更大的权值，同时抑制背景通道特征，减少背景的干扰。

本发明进一步的改进在于，步骤1)中，压缩域视频每个帧组设置为12帧图像，其中包含1个I帧图像和11个P帧图像；采样时，先将视频均等划分为8段，每段随机选取一个帧组；之后从选取的帧组中获取I帧和4个P帧的运动矢量图像作为输入数据。

本发明进一步的改进在于，I帧数据由每个帧组的I帧图像堆叠得到，运动矢量数据通过采样每个帧组中的第1、4、7、10号P帧的运动矢量信息，将其拆分为X方向和Y方向，分别存储为二维图像矩阵形式，最终将每个帧组的运动矢量图像堆叠获得。

本发明进一步的改进在于，步骤2)中，长时序感受野网络输入为I帧数据和运动矢量数据，通过2D-CNN提取空间特征的同时，加入特征时序移动，提取时序信息，I帧采样位置遍布整个视频，因此具有视频级的长时序感受野；短时序感受野网络输入为运动矢量图像，经过2D-CNN获取运动特征，运动矢量反映一个帧组内相邻几帧的运动信息，因此具有帧级别的短时序感受野；最终将以上两个支路分类分数加权平均，保证网络结构具有多尺度时序感受野，可识别不同时间长度的行为。

本发明进一步的改进在于，特征时序移动方式如式1所示，其中

为I帧的中间层特征，c为特征通道序号，t代表第t个视频组，x，y分别代表特征图中的横纵坐标位置；V_c，i是一维时序卷积核，c代表特征通道序号，i代表一维卷积核中位置；最终的输出特征Y_{c，t，x，y}是中间层特征

经过部分特征通道时序移动后的融合特征，融合了I帧间的时序信息；

本发明进一步的改进在于，步骤3)中，加入运动矢量引导通道注意力的机制，如式2-6所示；其中mv_c，x，y代表运动矢量特征，c为通道数，x，y为特征图的位置坐标；运动矢量特征先经过一层3*3 2D卷积层和Relu激活函数提取特征，之后通过特征空间平均Avgpool的方式，将特征f_c，x，y转换为一维特征d_c，1，1；为了进一步整合特征得到通道权值，对d_c，1，1分别进行了如式4-5所示的通道压缩和恢复操作，其中r为压缩系数，s_c/r，1，1为通道压缩后的中间特征；最终经过Sigmoid函数将值归一化到(0，1)，减去0.5，通道权值a_c，1，1的范围为(-0.5，0.5)之间；在通道加权后使用残差结构，保留I帧原始特征，其中i_c为I帧第c个通道的特征图，最终输出为I帧特征与经过通道权值加权后的特征之和；通过训练网络，注意力机制能够为I帧特征中反映前景目标通道赋予更大的权值，同时为反映背景信息的特征通道赋予较小的权值，达到抑制背景干扰的目的；

f_c，x，y＝Relu(Conv3*3(mv_c，x，y)) (2)

d_c，1，1＝Avgpool(f_c，x，y) (3)

s_c/r，1，1＝Relu(Conv1*1(d_c，1，1)) (4)

a_c，1，1＝Sigmoid(Conv1*1(s_c/r，1，1))-0.5 (5)

O_c＝i_c+a_c*i_c (6)。

本发明至少具有以下有益的技术效果：

本发明提供了一种基于多尺度时序感受野的压缩域行为识别方法。该方法从压缩域视频流中采样I帧和运动矢量图像，避免提取残差，具有更快的速度；经过长时序感受野网络和短时序感受野网络的分别提取适用于慢动作的视频级特征和适用于快动作的帧级别特征，采用将两路网络输出加权平均的方式，使网络具有多尺度感受野，可同时识别不同持续时长的动作。同时在长时序感受野中加入运动矢量引导的通道注意力机制，突出前景运动特征通道，抑制背景特征，从而减小了背景的干扰，具有更高的识别精度，因此本算法可实现对不同时长行为的快速、准确识别。

所述方法中的压缩域数据采样，仅获取I帧和运动矢量信息，避免完全解压P帧以及计算残差的时间开销，加快压缩域数据采集速率。同时一个视频组中等间隔采样4帧，相较于通常的仅采样一帧方法，可以更全面地获取视频组中的短时运动信息。

进一步，所述方法中的多尺度感受野网络结构，分为长时序感受野网络和短时序感受野网络两个分支，一方面，利用了I帧图像时序间隔较大且采样的时序位置覆盖了整个视频特点，长时序感受野网络通过提取I帧的空间和时序特征获得视频级感受野，有利于识别持续时间较长的慢动作；另一方面，利用了运动矢量时序间隔较小且仅反映视频组内短时运动信息，短时感受野网络通过提取运动矢量特征，获得帧级别的感受野，有利于识别持续时间较短，变化较快的快动作。最终采用加权平均的方式，融合二者结果，使网络具有多尺度的感受野，对快慢视频均具有较好的识别效果。

进一步，所述方法中的运动矢量引导的通道注意力机制，通过提取运动矢量特征，获取运动前景信息，利用通道注意力机制加强长时序感受野支路中包含前景运动的特征通道，同时抑制背景运动通道，从而减少背景的干扰，提高行为识别准确率。

进一步，为了验证方法的有效性，在公开行为识别数据集HMDB51的split1中进行了训练和测试，通过实验证明所述方法中的多尺度时序感受野和运动矢量引导的通道注意力机制均对行为识别的准确性有一定的提升效果。

综上所述，本发明提供了一种基于多尺度时序感受野的压缩域行为识别方法，针对压缩域视频的特点和行为识别中的不同行为持续时间差异较大、视频中的背景干扰等难点问题，分别提出了压缩域数据采样、多尺度感受野网络结构和运动矢量引导的通道注意力机制，从压缩视频流中提取I帧和等间隔的P帧运动矢量，利用2D-CNN和特征时序移动的方式，提取I帧间的长时序特征，利用2D-CNN提取运动矢量中的短时序特征，通过两路分数加权平均的方式使网络具有多时序感受野，提高网络对于不同持续时长行为的适应能力，可适应不同持续时间的行为。同时，使用运动矢量作为引导，利用注意力机制为I帧不同特征通道赋予不同的权值，突出前景运动特征，抑制背景特征，减少背景的干扰。最后通过在行为识别数据集上的训练和测试，证明了本发明有效地提高了压缩域行为识别的准确率，具有良好的应用价值。

附图说明

图1为本发明中一种基于多尺度时序感受野的压缩域行为识别方法流程图。

图2为本发明中压缩域数据采样的流程图。

图3为本发明中加入运动矢量引导的通道注意力机制后的多尺度感受野网络结构。

具体实施方式

下面结合附图对本发明进行详细阐述：

如图1所示，本发明提供的一种基于多尺度时序感受野的压缩域行为识别方法，以下步骤：

1)压缩域数据采样，如图2所示，对于输入的压缩域视频流，先将视频等间隔划分为8段，每段随机采样一个视频组，每个视频组采用I帧图像和4个P帧的运动矢量图像，作为输入数据。

2)多尺度感受野网络结构，如图3所示，包含长时序和短时序两路网络。对于I帧图像和运动矢量图像，一起送入长时序感受野网络中，通过2D-CNN和特征时序移动的方式，提取I帧空间和时序特征，获取分类分数，因为I帧间隔较大且采样的时序位置覆盖了整段视频，因此具有视频级的长时序感受野；同时将运动矢量图像送入短时序感受野网络，通过2D-CNN提取特征，获取分类分数。最终将两个网络分数加权平均，得到最终的分类结果。

3)运动矢量引导的通道注意力机制，如图3所示，在步骤2)中的长时序感受野网络中加入运动矢量引导的通道注意力机制，使用运动矢量特征为I帧的不同特征通道赋予不同的权值，起到突出前景运动特征，抑制背景特征的作用。

具体来说，在步骤1)压缩域数据采样，对于选中的每个视频组采样其I帧图像，将所有视频组的I帧图像堆叠，作为I帧输入数据。同时，采样每个视频组的第1、4、7、10号P帧的运动矢量，将运动矢量拆分为X和Y方向，每个方向保存为一个图像矩阵，其中的像素值代表当前位置运动矢量X方向或Y方向的大小，并将其归一化至[0,255]图像像素范围内，经所有视频组的运动矢量堆叠作为运动矢量输入数据。

在步骤2)多尺度感受野网络结构，其中长时序感受野支路输入为I帧数据和运动矢量数据，1其2D-CNN采用ResNet50网络结构，对于I帧数据通过2D-CNN和特征时序移动的方式提取并融合时序特征，特征移动时仅移动八分之一通道的特征，避免对原I帧的空间特征影响较大。另一支短时序感受野网络输入为运动矢量数据，其2D-CNN也采用ResNet50的网络结构，通过2D-CNN提取运动矢量特征，得到分类分数。最终多尺度感受野网络的输出为长时序和短时序感受野两路分数以2:1的权值加权平均的结果。

在步骤3)运动矢量引导的通道注意力机制，在步骤2)中多尺度感受野的长时序感受野网络中，经过特征时序移动方式获得I帧的时序特征后，使用运动矢量特征为I帧不同特征通道赋予不同的权值。运动矢量特征经过一层3*3卷积层整合特征后，使用空间归一化Avgpooling的方式，将运动矢量特征转化为一维特征，其中维度为I帧特征通道的大小。之后依次送入两个1*1卷积层，对特征通道进行压缩和恢复，目的是混合运动矢量的多通道信息，对I帧通道的权值设置更准确。再经过Sigmoid函数并减去0.5，将权值归一化至[-0.5,0.5]之间，与I帧特征逐通道相乘。最终将加权后的特征与原本I帧特征相加，实现既保留了I帧原有特征，又突出了前景特征，抑制了背景特征。运动矢量能够反映前景运动目标的空间位置，经过通道注意力机制，为I帧特征中前景目标运动突出的特征通道赋予更大的权值，同时抑制背景特征，从而减少背景的干扰，提高算法的鲁棒性。

为了测试本发明对于压缩域行为识别的有效性，在公开的HMDB51数据集的split1上进行了训练和测试，视频采用MPEG-4进行编码，视频组长度设置为12帧，其中包括一个I帧和11个P帧。表1中展示了本发明与现有1压缩域行为识别算法(Coviar和DMC-Net)的实验结果对比。根据测试结果，本发明中提出的多尺度感受野网络结构和运动矢量引导的通道注意力机制对于压缩域行为识别的精度提升明显。

表1本发明在HMDB51-split1上的评估结果

Claims

1.一种基于多尺度时序感受野的压缩域行为识别方法，其特征在于，包括以下步骤：

2)多尺度感受野网络结构，包括具有视频级长时序感受野网络和具有帧级别短时序感受野网络两个支路，长时序感受野网络输入为I帧图像和运动矢量图像，短时序感受野网络输入仅为运动矢量图像，最终将两个支路的分数加权平均作为多尺度感受野网络的输出；长时序感受野网络输入为I帧数据和运动矢量数据，通过2D-CNN提取空间特征的同时，加入特征时序移动，提取时序信息，I帧采样位置遍布整个视频，因此具有视频级的长时序感受野；短时序感受野网络输入为运动矢量图像，经过2D-CNN获取运动特征，运动矢量反映一个帧组内相邻几帧的运动信息，因此具有帧级别的短时序感受野；最终将以上两个支路分类分数加权平均，保证网络结构具有多尺度时序感受野，可识别不同时间长度的行为；

特征时序移动方式如式(1)所示，其中

为I帧的中间层特征，c为特征通道序号，t代表第t个视频组，x，y分别代表特征图中的横纵坐标位置；V_c,i是一维时序卷积核，i代表一维卷积核中位置；最终的输出特征Y_c,t,x,y是中间层特征

2.根据权利要求1所述的一种基于多尺度时序感受野的压缩域行为识别方法，其特征在于，步骤1)中，压缩域视频每个帧组设置为12帧图像，其中包含1个I帧图像和11个P帧图像；采样时，先将视频均等划分为8段，每段随机选取一个帧组；之后从选取的帧组中获取I帧和4个P帧的运动矢量图像作为输入数据。

3.根据权利要求2所述的一种基于多尺度时序感受野的压缩域行为识别方法，其特征在于，I帧数据由每个帧组的I帧图像堆叠得到，运动矢量数据通过采样每个帧组中的第1、4、7、10号P帧的运动矢量信息，将其拆分为X方向和Y方向，分别存储为二维图像矩阵形式，最终将每个帧组的运动矢量图像堆叠获得。

4.根据权利要求1所述的一种基于多尺度时序感受野的压缩域行为识别方法，其特征在于，步骤3)中，加入运动矢量引导通道注意力的机制，如式(2)-(6)所示；其中mv_c，x，y代表运动矢量特征，x，y为特征图的位置坐标；运动矢量特征先经过一层3*32D卷积层和Relu激活函数提取特征，之后通过特征空间平均Avgpool的方式，将特征f_c，x，y转换为一维特征d_c，1，1；为了进一步整合特征得到通道权值，对d_c，1，1分别进行了如式(4)-(5)所示的通道压缩和恢复操作，其中r为压缩系数，s_c/r，1，1为通道压缩后的中间特征；最终经过Sigmoid函数将值归一化到(0，1)，减去0.5，通道权值a_c，1，1的范围为(-0.5，0.5)之间；在通道加权后使用残差结构，保留I帧原始特征，其中i_c为I帧第c个通道的特征图，最终输出为I帧特征与经过通道权值加权后的特征之和；通过训练网络，注意力机制能够为I帧特征中反映前景目标通道赋予更大的权值，同时为反映背景信息的特征通道赋予较小的权值，达到抑制背景干扰的目的；

f_c，x，y＝Relu(Conv3*3(mv_c，x，y)) (2)

d_c，1，1＝Avgpool(f_c，x，y) (3)

s_c/r，1，1＝Relu(Conv1*1(d_c，1，1)) (4)

a_c，1，1＝Sigmoid(Conv1*1(s_c/r，1，1))-0.5 (5)

O_c＝i_c+a_c*i_c (6)。