CN108416266B

CN108416266B - 一种利用光流提取运动目标的视频行为快速识别方法

Info

Publication number: CN108416266B
Application number: CN201810090541.6A
Authority: CN
Inventors: 赵生捷; 陈伟超
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2021-10-08
Anticipated expiration: 2038-01-30
Also published as: CN108416266A

Abstract

本发明涉及一种利用光流提取运动目标的视频行为快速识别方法，包括：步骤S1：接收多个视频，逐帧读取视频中的图像并保存为图片格式文件；步骤S2：将所有图像的尺寸统一到设定值，并将所有视频分为训练集和测试集；步骤S3：提取每个视频的光流图像；步骤S4：选择各视频中灰度值最大的光流图像，提取其灰度值处于设定范围之外的部分，并作用于该图像的原始RGB图像得到mask图像；步骤S5：将训练集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行训练；步骤S6：将测试集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行识别。与现有技术相比，本发明具有运算速度快等优点。

Description

一种利用光流提取运动目标的视频行为快速识别方法

技术领域

本发明涉及一种视频识别技术，尤其是涉及一种利用光流提取运动目标的视频行为快速识别方法。

背景技术

以往的视频行为识别方法大多是基于一些对应用场景严苛的假设上，例如目标小尺度变化和视觉改变等，这些方法在现实世界中是很难满足的。

目前，在这方面，大部分当前的方法都是遵循两个步骤：(1)在原始的输入中提取复杂的人工特征；(2)在获取的特征上学习分类器。现实世界的场景中，几乎很难知道对于一个具体的任务什么样的特征才是重要的，因为特征的选择与具体的问题高度依赖。特别是行为识别上，不同的运动类型在外观和运动模型上都呈现出非常大的不同。

而卷积神经网络是人工神经网络的一种已成为当前语音分析和图像识别领域的研究热点，它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。

传统的卷积神经网络是为了识别二维形状而设计的多层感知器，无法对三维的运动图像进行多层感知，无法满足现在的要求。

江南大学申请的专利“基于图像深度信息的3D高斯空间人体行为识别方法”(专利申请号201410009445，公开号CN103810496A)中公开了一种基于图像深度信息的3D高斯空间人体行为识别方法。该专利首先提取深度信息中的人体骨骼3D坐标并对其进行归一化操作，过滤对人体行为识别率低的关节及冗余关节，并针对各个行为构建兴趣关节群，基于高斯距离核对人体动作空间特征进行AP聚类，获得行为特征单词表并对其进行数据清理，从而构建人体行为条件随机场识别模型，据此实现对人体行为的分类。该专利申请公开的方法存在的不足是：在原始输入中提取的人工特征过于复杂，计算分析数据慢；模型的更新较为复杂，实时性较差。

Davis在其发表的论文“The recognition of human movement using temporaltemplates.”(Pattern Analysis and Machine Intelligence,IEEE Transactions on 23(3):257-267)中提出了采用轮廓来描述人体的运动信息的方法。该方法用MEI和MHI两个模板来保存对应的一个动作信息，然后用马氏距离分类器来进行识别。MEI为运动能量图，用来指示运动在哪些部位发生过，MHI为运动历史图，除了体现运动发生的空间位置外还体现了运动的时间先后顺序。这两种特征都是从背景减图中获取的。该方法存在的不足之处是：数据比较大，计算量大；对于快速运动的物体或者形变较大的情况，跟踪效果不够理想。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种利用光流提取运动目标的视频行为快速识别方法。

本发明的目的可以通过以下技术方案来实现：

一种利用光流提取运动目标的视频行为快速识别方法，包括：

步骤S1：接收多个视频，逐帧读取视频中的图像并保存为图片格式文件；

步骤S2：将所有图像的尺寸统一到设定值，并将所有视频分为训练集和测试集；

步骤S3：提取每个视频的光流图像；

步骤S4：选择各视频中灰度值最大的光流图像，提取其灰度值处于设定范围之外的部分，并作用于该图像的原始RGB图像得到mask图像；

步骤S5：将训练集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行训练；

步骤S6：将测试集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行识别。

所述步骤S1中输入的视频文件被分为多个类别，每个类别包括多个视频文件，所述步骤S2中每个类别中选择设定比例的视频作为训练集。

每个类别中80％的视频作为训练集。

视频文件的类别共有51个，每个类别包括5个视频文件。

所述步骤S2中所有图像的尺寸被统一至256*340像素大小。

所述步骤S1中的图片格式为jpg。

所述步骤S3中对单个视频的处理过程具体包括：

步骤S31：将视频中的所有图像处理为灰度图；

步骤S32：计算各灰度图的变化率：

其中：I_x为灰度图的灰度值沿x方向的变化率，I_y为图像提取后的灰度值沿y方向的变化率，I_t为灰度图的灰度值沿时间t方向的变化率，I为灰度图:；

步骤S33：计算图像在x和y方向的光流矢量：

其中：其中，U为图像在x，y方向上的光流矢量，T表示转置；

步骤S34：将所有光流图像保存为jpg格式的灰度图像。

所述步骤S5具体包括：

步骤S51：输入mask图像和光流图像；

步骤S52：判断输入图像的有效区域边界，对边界所构成的方形区域进行卷积，得到下一层对应的卷积结果；

步骤S53：在无效的背景区域，直接输出结果为0的卷积结果到下一层对应的位置；

步骤S54：双流卷积神经网络训练采用随机梯度下降算法，对双流卷积神经网络提取得到的特征向量进行加权融合得到最终结果。

与现有技术相比，本发明具有以下有益效果：

1)基本结构是双流卷积神经网络，网络的双流输入分别是RGB图像和光流的灰度图像，有效的提取了视频中的静态信息和动态联系，从而在视频行为识别方面达到了很好的准确率。

2)利用自适应卷积操作取代传统的全局卷积，减少了与背景卷积所带来的计算开销，从而提升了网络正向传播预测时的运算速度。

附图说明

图1为本发明方法的主要步骤流程示意图；

图2为本发明方法的流程架构示意图；

图3为及本发明处理结果示意图；

图4为本发明双流卷积神经网络的数据流向示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一种利用光流提取运动目标的视频行为快速识别方法，如图1和图2所示，包括：

步骤S1：接收多个视频，逐帧读取视频中的图像并保存为图片格式文件，具体的，将HMDB51数据集所有51个类别的视频文件输入计算机，逐帧读取视频图像并保存为jpg格式。

步骤S2：将所有图像的尺寸统一到设定值，并将所有视频分为训练集和测试集，具体的，将所有图像尺寸统一到256*340像素大小，随机分成5份，1-4份作为训练数据集，第5份作为测试数据集。

步骤S3：提取每个视频的光流图像，其中对单个视频的处理过程具体包括：

步骤S31：将视频中的所有图像处理为灰度图；

步骤S32：计算各灰度图的变化率：

其中：I_x为灰度图的灰度值沿x方向的变化率，I_y为图像提取后的灰度值沿y方向的变化率，I_t为灰度图的灰度值沿时间t方向的变化率，I为灰度图，

为偏导数；

步骤S33：计算图像在x和y方向的光流矢量：

其中：其中，U为图像在x，y方向上的光流矢量，T表示转置；

步骤S34：将所有光流图像保存为jpg格式的灰度图像。

步骤S4：选择各视频中灰度值最大的光流图像，提取其灰度值处于设定范围之外的部分，并作用于该图像的原始RGB图像得到mask图像，其中所提取的部分即为除灰色值以外的部分，本实施例中将灰度值处于126～128之间的部分认为设定范围内的部分。

步骤S5：如图4所示，将训练集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行训练，采用自适应的卷积算法对mask图像中有效区域进行卷积，避免背景区域的运算，其中双流神经网络的架构中的双流均采用BN-Inception-v2结构，预置参数按照其在ImageNet上训练得到的参数，最后输出层神经元设置为51，对应视频数据集中的51个类别。

具体包括：

步骤S51：输入mask图像和光流图像；

步骤S54：如图3所示，双流卷积神经网络训练采用随机梯度下降算法，对双流卷积神经网络提取得到的特征向量进行加权融合(权重为1:1.5)得到最终结果，将输出的测试结果与一些基准方法得到的测试结果进行比较，验证本方法的有效性。

Claims

1.一种利用光流提取运动目标的视频行为快速识别方法，其特征在于，包括：

步骤S3：提取每个视频的光流图像；

步骤S6：将测试集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行识别；

所述步骤S3中对单个视频的处理过程具体包括：

步骤S31：将视频中的所有图像处理为灰度图，

步骤S32：计算各灰度图的变化率：

步骤S33：计算图像在x和y方向的光流矢量：

其中：其中，U为图像在x，y方向上的光流矢量，T表示转置，

步骤S34：将所有光流图像保存为jpg格式的灰度图像；

所述步骤S5具体包括：

步骤S51：输入mask图像和光流图像；步骤S52：判断输入图像的有效区域边界，对边界所构成的方形区域进行卷积，得到下一层对应的卷积结果；步骤S53：在无效的背景区域，直接输出结果为0的卷积结果到下一层对应的位置；步骤S54：双流卷积神经网络训练采用随机梯度下降算法，对双流卷积神经网络提取得到的特征向量进行加权融合得到最终结果。

2.根据权利要求1所述的一种利用光流提取运动目标的视频行为快速识别方法，其特征在于，所述步骤S1中输入的视频文件被分为多个类别，每个类别包括多个视频文件，所述步骤S2中每个类别中选择设定比例的视频作为训练集。

3.根据权利要求2所述的一种利用光流提取运动目标的视频行为快速识别方法，其特征在于，每个类别中80％的视频作为训练集。

4.根据权利要求2所述的一种利用光流提取运动目标的视频行为快速识别方法，其特征在于，视频文件的类别共有51个，每个类别包括5个视频文件。

5.根据权利要求1所述的一种利用光流提取运动目标的视频行为快速识别方法，其特征在于，所述步骤S2中所有图像的尺寸被统一至256*340像素大小。

6.根据权利要求1所述的一种利用光流提取运动目标的视频行为快速识别方法，其特征在于，所述步骤S1中的图片格式为jpg。