CN109558811A

CN109558811A - 一种基于运动前景关注及非监督的关键帧提取的动作识别方法

Info

Publication number: CN109558811A
Application number: CN201811341711.XA
Authority: CN
Inventors: 胡海峰; 张俊轩; 刘铮; 何琛; 王伟轩
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2019-04-02
Anticipated expiration: 2038-11-12
Also published as: CN109558811B

Abstract

本发明公开了一种基于运动前景关注及非监督的关键帧提取的动作识别方法，步骤包括：方法包括如下步骤：选用预训练好的卷积神经网络作为神经网络模型，构造基于方差统计的视觉关注模型并生成视觉关注权重；利用视觉关注模型提取的视觉关注权重对卷积神经网络的特征进行关注。构造非监督的关键帧提取模型并生成对于每个视频帧的置信度；利用得到的视频帧置信度对视频帧进行筛选，并采用一种随机选取的训练策略训练卷积神经网络；利用光流图像对视频的时间动态信息进行捕获，从而获得更优异的性能。本发明在现有的双流卷积神经网络的基础上，结合基于方差统计的视觉关注机制以及非监督的关键帧提取策略对输入的动作视频进行分类识别。

Description

一种基于运动前景关注及非监督的关键帧提取的动作识别方法

技术领域

本发明涉及人工智能领域，更具体地，涉及一种基于运动前景关注以及非监督的关键帧提取的动作识别方法。

背景技术

近年来，由于视频检索、视频目标追踪以及视频分析在日常生活领域的广泛应用，视频动作识别成为了目前计算机领域的一个热门方向。受到深度卷积神经网络在图像分类领域的巨大成功，近年来，越来越多的学者和专家将深度卷积神经网络应用到视频动作识别领域当中。如2014年，Simon等人提出了一种双流神经网络结构，通过输入RGB图像和光流图像，分别对视频的空间表观信息和时间信息进行建模。2015年，Tran等人采用局部时空卷积核对视频中的空间表观信息和短时动态信息进行捕获。2016年，Feichtenhofer等人在双流神经网络的基础上提出了双流神经网络的卷积融合策略，并取得有效的性能提升。

虽然这些基于深度卷积神经网络的方法都取得了巨大的，但是这些模型仍存在以下的缺陷：（1）他们不能够关注到与动作信息紧密相关的运动前景信息；（2）这些方法没有去除与动作无关的视频帧。因此使得训练过程引入了无关的信息，影响神经网络训练过的质量。

发明内容

本发明提供一种基于运动前景关注及非监督的关键帧提取的动作识别方法，该方法可以自动识别动作视频中的动作类别。

为了达到上述技术效果，本发明的技术方案如下：

一种基于运动前景关注及非监督的关键帧提取的动作识别方法，，所述方法包括如下步骤：

S1：选用在图像数据集ImageNet上预训练好的卷积神经网络作为卷积神经网络模型A，将对视频进行密集采样得到一系列视频帧，所述视频帧作为所述神经网络模型A的输入，构建基于方差统计的视觉关注模型并生成视觉关注权重矩阵；

S2：利用视觉关注模型提取的视觉关注权重对卷积神经网络模型A的特征进行关注；

S3：构造非监督的关键帧提取模型并生成对于每个视频关键帧的置信度，将得到的关键帧的置信度作为所在视频块的置信度；

S4：利用得到的不同视频块置信度采取不同的选取概率对步骤S1中采集的视频帧进行筛选，并采用一种随机选取的训练策略训练卷积神经网络模型A，然后将筛选后的视频帧输入到上述随机策略训练好的卷积神经网络模型A得到测试结果A；

S5：对步骤S4筛选的所有相邻的视频帧提取其光流运动信息，生成光流图像；将生成的光流图像输入到在ImageNet预训练好的卷积神经网络B中；通过反向传播对网络参数进行更新；将更新后的卷积神经网络B用于测试，得到测试结果B；将测试的结果B与S1-S4步骤中的测试结果A进行结合，得到最终的识别结果。

进一步地，所述步骤S1的具体过程如下：

S11：首先对视频中进行密集采样得到一系列的视频帧，并保证帧之间的时间间隔小于或等于30fps；

S12：将步骤S11中得到的视频帧输入到在ImageNet数据集预训练好的卷积神经网络模型A中；

S13：在卷积神经网络模型A正向传播过程中，将获得卷积神经网络模型A最后一层卷积层的特征；

S14：构建基于方差统计的视觉关注模型，其生成视觉关注权重矩阵的具体过程如下：

S141：对步骤S11中所有连续相邻帧之间作差，得到差分图像；

S142：将所有差分图像堆叠成一个3维的时空块；

S143：对3维时空块中的相同空间位置的像素沿时间轴求方差，从而得到每个空间位置的方差值，由方差值组成图成为方差图，方差图用于反映视频帧中运动剧烈的空间位置；

S144：利用均值池化策略对S14步骤中得到的方差图进行空间下采样得到关注权重矩阵，使得下采样后的关注权重矩阵与S13中获得的卷积特征有相同的空间分辨率。

进一步地，所述步骤S2的具体过程如下：

S21：将步骤S17得到的关注权重矩阵进行数值归一化；

S22：通过加权池化操作，将归一化后的关注权重矩阵与获得S22获得的卷积特征进行结合，从而得到经过关注后的卷积特征。

进一步地，其特征在于，所述步骤S3的具体过程如下：

S31：将视频按固定长度T=50帧分成若干视频块；

S32：根据S1的方法对视频块生成相应的方差图；

S33：对S32中得到的方差图进行高斯平滑处理；

S34：选取视频块的中间帧作为关键帧，采用边缘框模型来生成一系列覆盖前景主体的边界框以及边界框置信度s_b；

S35：根据边界框置信度s_b，利用非极大值抑制算法消除重叠的边界框；

S36：将剩余的边界框根据边界框置信度s_b从大到小排序；

S37：选出5个置信度最高且不小于原图面积1/4的边界框；

S38：统计步骤S33处理后的方差图中对应边界框中的像素值的平均值作为该边界框的置信度s_a；

S39：将5个边界框置信度s_a的最大值作为视频块的置信度。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过视觉关注机制，能够将视频帧中运动前景的区域检测出来，并生成相应的权重矩阵，由生成权重矩阵采样得到任意尺寸的关注图，因此能够直接嵌入大部分的卷积神经网络当中进行特征的筛选。此外，非监督的关键帧提取策略能够在没有训练样本的基础上有效地鉴别视频帧是否包含着运动的信息，以此过滤掉无关的视频帧，有效地提升模型训练的质量。

附图说明

图1本发明实施例的模型框架图。

具体实施方式

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于运动前景关注及非监督的关键帧提取的动作识别方法，，所述方法包括如下步骤：

进一步地，所述步骤S1的具体过程如下：

S141：对步骤S11中所有连续相邻帧之间作差，得到差分图像；

S142：将所有差分图像堆叠成一个3维的时空块；

进一步地，所述步骤S2的具体过程如下：

S21：将步骤S17得到的关注权重矩阵进行数值归一化；

进一步地，其特征在于，所述步骤S3的具体过程如下：

S31：将视频按固定长度T=50帧分成若干视频块；

S32：根据S1的方法对视频块生成相应的方差图；

S33：对S32中得到的方差图进行高斯平滑处理；

S36：将剩余的边界框根据边界框置信度s_b从大到小排序；

S37：选出5个置信度最高且不小于原图面积1/4的边界框；

S39：将5个边界框置信度s_a的最大值作为视频块的置信度。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于运动前景关注及非监督的关键帧提取的动作识别方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于运动前景关注及非监督的关键帧提取的动作识别方法，其特征在于，所述步骤S1的具体过程如下：

S141：对步骤S11中所有连续相邻帧之间作差，得到差分图像；

S142：将所有差分图像堆叠成一个3维的时空块；

3.根据权利要求2所述的基于运动前景关注以及非监督的关键帧提取的动作识别方法，其特征在于，所述步骤S2的具体过程如下：

S21：将步骤S17得到的关注权重矩阵进行数值归一化；

4.根据权利要求3所述的基于运动前景关注以及非监督的关键帧提取的动作识别方法，其特征在于，所述步骤S3的具体过程如下：

S31：将视频按固定长度T=50帧分成若干视频块；

S32：根据S1的方法对视频块生成相应的方差图；

S33：对S32中得到的方差图进行高斯平滑处理；

S36：将剩余的边界框根据边界框置信度s_b从大到小排序；

S37：选出5个置信度最高且不小于原图面积1/4的边界框；

S39：将5个边界框置信度s_a的最大值作为视频块的置信度。

5.根据权利要求4所述的基于运动前景关注及非监督的关键帧提取的动作识别方法，其特征在于，所述步骤S4，根据步骤S3得到视频块不同的置信度采取不同的选取概率进行帧选择用于神经网络模型A训练和测试。