CN107463912A

CN107463912A - 基于运动显著性的视频人体行为识别方法

Info

Publication number: CN107463912A
Application number: CN201710682736.5A
Authority: CN
Inventors: 陈华锋; 王中元; 傅佑铭; 李红阳
Original assignee: Shenzhen Research Institute of Wuhan University
Current assignee: Shenzhen Research Institute of Wuhan University
Priority date: 2017-08-10
Filing date: 2017-08-10
Publication date: 2017-12-12

Abstract

本发明公开了基于运动显著性的视频人体行为识别方法，利用运动显著性检测算法对行为视频帧进行运动显著性检测，得到运动显著图像；采用非最大值抑制采样NMS算法基于运动显著图像计算运动显著区域候选框；围绕运动显著区域候选框裁剪视频帧获取完整包含人体行为的图像块；将裁剪得到的图像块缩放到深度卷积神经网络输入数据所要求尺寸；使用深度卷积神经网络基于缩放后的图像块进行人体行为深度特征提取；基于人体行为深度特征进行特征分类，得到人体识别类别结果。本方法围绕行为显著运动区域来构建卷积网络所需的图像块，有效捕捉人体行为变化区域，提取辨识力好的人体行为深度卷积特征，有效提升了人体行为识别准确率。

Description

基于运动显著性的视频人体行为识别方法

技术领域

本发明属于自动视频分析技术领域，涉及一种基于运动显著性的视频人体行为识别方法。

背景技术

视频人体行为识别可以满足视频监控、智能监护、视频内容分析等任务对自动分析以及智能化的需求，推动社会发展进步。人体行为特征提取在行为识别过程中起关键作用，行为特征的好坏直接影响最终的识别效果。目前，深度模型高效的特征表达能力使其替代传统人体行为局部特征提取模型，成为视频人体行为识别研究热点。

行为视频来源各异，视频帧分辨率大小各不相同。另一方面，用于行为识别的深度卷积神经网络只接收固定分辨率的图像作为输入数据。所以对于从视频中的行为视频帧，需要进行图像块采样，得到卷积神经输入数据所需分辨率的图像块。目前基于深度特征的图像块采样主要有图像缩放采样、图像中心采样和中心四角采样等三种图像块采样方法。图像缩放采样方法会导致人体行为在视觉上的形变，后两种采样方法在视频帧行为区域较小或者较偏时，会引入不包含行为的背景图像块，这些因素都严重影响了行为识别准确率。

发明内容

为了解决上述技术问题，本发明提供了一种基于运动显著性的视频人体行为识别方法。

本发明所采用的技术方案是：一种基于运动显著性的视频人体行为识别方法，包括以下步骤：

S1：基于视频帧提取运动显著图；

S2：基于运动显著图计算运动显著区域候选框，并提取运动显著性区域候选框样本；

S3：基于运动显著性区域候选框样本裁剪视频帧获取完整包含人体行为的图像块；

S4：根据深度卷积神经网络输入数据尺寸缩放图像块；

S5：基于缩放的图像块提取深度卷积特征；

S6：基于图像块的深度卷积特征进行人体行为分类，得到行为识别结果。

优选地，步骤S1中对视频帧进行运动显著性检测，得到运动显著图像。

优选地，步骤S2中将运动显著图像缩小到M×M像素尺寸大小，其中，32≤M≤64；然后在任意尺寸的矩形框中计算积分图像得到每个矩形框的运动显著性得分，总计可以得到M⁴/2个运动显著矩形框；最后根据每个矩形框的显著性分数和它们之间的空间重叠性来对矩形框进行抽样，并使用非最大值抑制采样NMS算法来提取N个运动显著性区域候选框，其中，3≤N≤10。

优选地，在步骤S3中，首先获取运动显著区域候选框上、下、左、右最外边缘，得到覆盖所有运动显著区域的最大矩形框，并计算最大矩形框中心点位置，然后以该中心点为裁剪图像块的中心点，以最大矩形框长、宽中较大值x的2倍为边长，从原始RGB图像帧中裁剪2x×2x像素的正方形图像块；如果中心点离图像帧上、下、左、右图像边界像素数量不够x个时，则将图像块裁剪中心点从最大矩形框中心点位置向下、上、右、左移动相应数量的像素，以满足2x×2x像素的正方形图像块尺寸要求。

优选地，在步骤S5中使用深度卷积神经网络基于缩放后的图像块进行人体行为深度特征提取。

优选地，步骤S6中基于人体行为深度特征进行特征分类，得到人体识别类别结果。

相对于现有技术，本发明的有益效果为：根据行为显著运动区域来构建卷积网络所需的图像块，有效捕捉人体行为变化区域，提取辨识力好的人体行为深度卷积特征，有效提升人体行为识别准确率。

附图说明

图1是本发明实施例的流程示意图；

图2是覆盖所有运动显著区域的最大矩形框。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

参见图1，本发明实施例提供的基于运动显著性的视频人体行为识别方法，具体包括以下步骤：

步骤S1：采用运动显著性检测算法H-FCN，将RGB图像和光流分别送入A-FCN网络和M-FCN网络进行静态人体目标和动态运动变化的显著性进行多尺度学习，然后基于多个显著图像的均值进行融合得到运动显著图像。

步骤S2：将运动显著图像缩小到32×32像素尺寸大小，然后在任意尺寸的矩形框中计算积分图像得到每个矩形框的运动显著性得分，总计可以得到32⁴/2个运动显著矩形框，最后根据每个矩形框的显著性分数和它们之间的空间重叠性来对矩形框进行抽样，并使用非最大值抑制采样NMS算法来提取5个运动显著性区域候选框。

步骤S3：获取5个运动显著区域候选框上、下、左、右最外边缘，得到覆盖所有运动显著区域的最大矩形框(如图2所示)，并计算最大矩形框中心点位置，然后以该中心点为裁剪图像块的中心点，以最大矩形框长、宽中较大值x的2倍为边长，从原始RGB图像帧中裁剪2x×2x像素的正方形图像块。如果中心点离图像帧上下左右图像边界像素数量不够x个时，则将图像块裁剪中心点从最大矩形框中心点位置向下、上、右、左移动相应数量的像素，以满足2x×2x像素的正方形图像块尺寸要求。

步骤S4：采用二维高斯平滑滤波器将步骤S3得到的正方形图像块缩放到224×224像素大小。

步骤S5：采用双流卷积神经网络(Two-Stream ConvNets)进行人体行为深度特征提取。

步骤S6：采用Softmax分类函数进行特征分类，得到人体识别类别结果。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.基于运动显著性的视频人体行为识别方法，其特征在于，包括以下步骤：

S1：基于视频帧提取运动显著图；

S4：根据深度卷积神经网络输入数据尺寸缩放图像块；

S5：基于缩放的图像块提取深度卷积特征；

2.根据权利要求1所述基于运动显著性的视频人体行为识别方法，其特征在于：步骤S1中对视频帧进行运动显著性检测，得到运动显著图像。

3.根据权利要求2所述基于运动显著性的视频人体行为识别方法，其特征在于：步骤S2中将运动显著图像缩小到M×M像素尺寸大小，其中，32≤M≤64；然后在任意尺寸的矩形框中计算积分图像得到每个矩形框的运动显著性得分，总计可以得到M⁴/2个运动显著矩形框；最后根据每个矩形框的显著性分数和它们之间的空间重叠性来对矩形框进行抽样，并使用非最大值抑制采样NMS算法来提取N个运动显著性区域候选框，其中，3≤N≤10。

4.根据权利要求3所述基于运动显著性的视频人体行为识别方法，其特征在于：在步骤S3中，首先获取运动显著区域候选框上、下、左、右最外边缘，得到覆盖所有运动显著区域的最大矩形框，并计算最大矩形框中心点位置，然后以该中心点为裁剪图像块的中心点，以最大矩形框长、宽中较大值x的2倍为边长，从原始RGB图像帧中裁剪2x×2x像素的正方形图像块；如果中心点离图像帧上、下、左、右图像边界像素数量不够x个时，则将图像块裁剪中心点从最大矩形框中心点位置向下、上、右、左移动相应数量的像素，以满足2x×2x像素的正方形图像块尺寸要求。

5.根据权利要求4所述基于运动显著性的视频人体行为识别方法，其特征在于：在步骤S5中使用深度卷积神经网络基于缩放后的图像块进行人体行为深度特征提取。

6.根据权利要求5所述基于运动显著性的视频人体行为识别方法，其特征在于：步骤S6中基于人体行为深度特征进行特征分类，得到人体识别类别结果。