CN108319905A

CN108319905A - 一种基于长时程深度时空网络的行为识别方法

Info

Publication number: CN108319905A
Application number: CN201810071442.3A
Authority: CN
Inventors: 孙宁; 宦睿智; 李晓飞
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2018-07-24

Abstract

一种基于长时程深度时空网络的行为识别方法，包括如下步骤：构建多通道特征拼接网络模型；选取视频行为数据集，提取视频行为数据集中每个视频的彩色图像序列数据集和光流图像序列数据集；将彩色图像序列数据集和光流图像序列数据集按照连续多帧分为若干片段，片段输入多通道特征拼接网络模型，先经过低层提取每个片段连续帧的时空特征，再由中层拼接生成每个视频片段的整体时空特征，并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征，然后在高层融合视频的整体时空特征，最后通过softmax层输出该视频行为的分类结果。本发明通过提取长时程多帧图像序列中的时空特征来识别视频中的复杂行为，提高了视频复杂行为的识别率和鲁棒性。

Description

一种基于长时程深度时空网络的行为识别方法

技术领域

本发明属于图像识别技术领域，具体涉及一种基于长时程深度时空网络的行为识别方法。

背景技术

基于视频的行为识别广泛应用于安全和行为分析等许多领域。在行为识别领域，有两个关键和互补的方面：外观和动态。识别系统的性能在很大程度上取决于能否从中提取和利用相关信息。然而，由于诸如尺度变化，视点变化和相机运动等许多复杂性，提取此类信息是较为困难的。因此，设计能够应对这些挑战的有效特征，同时保留行为类别的分类信息变得至关重要。最近，卷积网络（ConvNets）在分类物体，场景和复杂事件的图像方面取得了巨大的成功。ConvNets也被用来解决视频行为识别问题。Deep ConvNets具有很强的建模能力，能够借助大规模的监督数据集，从原始视觉数据中学习特征表示。然而，与图像分类不同的是，深度网络仍然无法比基于视频的动作识别的传统手工特性获得显着的优势。

ConvNet在视频行动识别中的应用受到两大障碍的阻碍。首先，长时时间结构在理解动作视频中的动态过程中起着重要的作用。然而，主流的ConvNet框架通常集中在外观和短期动作上，因此缺乏融合长时程时间结构的能力。其次，在实践中，深度训练需要大量训练样本才能达到最佳性能。但是，由于数据收集和注释的困难，公众可用的动作识别数据集（例如UCF101，HMDB51）在大小和多样性方面仍然有限。

发明内容

本发明的目的在于：提供一种基于长时程深度时空网络的行为识别方法，通过提取长时程多帧图像序列中的时空特征来识别视频中的复杂行为，提高了视频复杂行为的识别率和鲁棒性。

为了达到以上目的，提供一种基于长时程深度时空网络的行为识别方法，包括如下步骤：

S1、构建多通道特征拼接网络模型；

S2、选取视频行为数据集，提取视频行为数据集中每个视频的视频帧和光流帧，将视频帧的集合作为彩色图像序列数据集，光流帧的集合作为光流图像序列数据集；

S3、将彩色图像序列数据集和光流图像序列数据集按照连续多帧分为若干片段，片段输入多通道特征拼接网络模型，先经过低层卷积层提取每个片段连续帧的时空特征，再由中层拼接生成每个视频片段的整体时空特征，并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征，然后在高层融合视频的整体时空特征，最后通过softmax层输出该视频行为的分类结果。

本发明的优选方案是：优选地，还包括S4、训练多通道特征拼接网络模型，采用预训练参数加快每路卷积神经网络收敛速度，进行迁移学习。

优选地，多通道特征拼接网络模型包括3个通道输入、90层网络和1个输出，3个通道输入分别为原始视频帧图像输入、X方向光流特征图像输入和Y方向光流特征图像输入，90层网络的前87层为分别对应3个通道输入的三路并行卷积神经网络，每路卷积神经网络均为29层且结构相同，90层网络的第88、89、90层为全连接层，输出为softmax层。

更优选地，每路卷积神经网络的前29层依次为2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、特征拼接层、片段特征串接层、3层卷积层、1层池化层、特征拼接层、3层卷积层、1层池化层、3层卷积层和1层池化层；卷积层的卷积核为3×3，池化层为最大池化，其池化核为2×2；特征拼接层以2×2方形的形式拼接。

优选地，步骤S3中彩色图像序列数据集和光流图像序列数据集中每连续16帧划分为一个片段，在三路并行卷积神经网络的低层通过卷积层和池化层分别提取视频连续帧的时空特征；对卷积神经网络输入彩色图像序列数据集片段提取视频空间变化特征，对卷积神经网络输入光流图像序列数据集片段提取视频变化特征。

优选地，步骤S3中由中层拼接生成每个视频片段的整体时空特征，并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征的具体方法为：

将卷积神经网络的低层获取的连续16帧片段的时空特征以每4帧作为一个单位，每个单位的4帧图像以2×2形式拼接为小块的整体时空特征；

每个小块的整体时空特征是三维的，保持第三维深度不变，将第一维长度和第二维宽度拼接，使连续16帧片段的时空特征转化为4个小块的整体时空特征；

4个小块的整体时空特征的第三维深度不变，将第一维长度和第二位宽度扩大一倍，再经过卷积池化后，将4个小块的整体时空特征以2×2形式拼接为片段的整体时空特征；

将各片段的整体时空特征按片段顺序串接，最终形成整个视频的整体时空特征。

优选地，步骤S3中在多通道特征拼接网络模型的高层融合视频的整体时空特征后，通过全连接层融合三路并行卷积神经网络内的视频特征。

优选地，融合视频的整体时空特征的融合方式为串接融合、加权融合和平均融合中的一种。

本发明有益效果为：本发明构建多通道特征拼接网络模型，在模型低层通过卷积层和池化层提取每帧图像的特征，再在中层将这些连续帧的图像特征按序拼接，得到视频片段的特征，然后将视频片段的特征按顺序串接，获取属于这个视频级别的特征，最终融合视频级别特征，通过softmax层输出该视频行为的分类结果。该方法利用时空维度的转化增加网络处理多帧图像的能力，并进一步体现动作行为视频中的时空关联性，提高复杂行为的识别率和鲁棒性。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明的流程示意图。

图2为本发明的多通道特征拼接网络模型结构示意图。

具体实施方式

实施例一

请参阅图1，一种基于长时程深度时空网络的行为识别方法，包括如下步骤：

S1、构建多通道特征拼接网络MCFCN（Multi-Chunnel Feature Connected Network）模型；

S2、选取视频行为数据集，提取视频行为数据集中每个视频的视频帧和光流帧，将视频帧的集合作为彩色图像序列数据集I_rgb，光流帧的集合作为光流图像序列数据集I_flowx、I_flowy；

S3、将彩色图像序列数据集I_rgb和光流图像序列数据集I_flowx、I_flowy按照连续多帧分为若干片段，片段输入多通道特征拼接网络模型，先经过低层卷积层提取每个片段连续帧的时空特征，再由中层拼接生成每个视频片段的整体时空特征，并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征，然后在高层融合视频的整体时空特征，最后通过softmax层输出该视频行为的分类结果。

还包括S4、训练多通道特征拼接网络模型，采用预训练参数加快每路卷积神经网络收敛速度，进行迁移学习。

以下将对上述步骤S1-S4的操作规则、方式等进行详细说明。

请参阅图2，多通道特征拼接网络模型包括3个通道输入、90层网络和1个输出，3个通道输入分别为原始视频帧图像输入、X方向光流特征图像输入和Y方向光流特征图像输入，90层网络的前87层为分别对应3个通道输入的三路并行卷积神经网络，每路卷积神经网络均为29层且结构相同，90层网络的第88、89、90层为全连接层，输出为softmax层。

每路卷积神经网络的前29层依次为2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、特征拼接层、片段特征串接层、3层卷积层、1层池化层、特征拼接层、3层卷积层、1层池化层、3层卷积层和1层池化层；卷积层的卷积核为3×3，池化层为最大池化，其池化核为2×2；特征拼接层以2×2方形的形式拼接。

步骤S3中彩色图像序列数据集I_rgb和光流图像序列数据集I_flowx、I_flowy中每连续16帧划分为一个片段，在三路并行卷积神经网络的低层通过卷积层和池化层分别提取视频连续帧的时空特征；对卷积神经网络输入彩色图像序列数据集片段提取视频空间变化特征，对卷积神经网络输入光流图像序列数据集片段提取视频变化特征。

步骤S3中由中层拼接生成每个视频片段的整体时空特征，并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征的具体方法为：

步骤S3中在多通道特征拼接网络模型的高层融合视频的整体时空特征后，通过全连接层融合三路并行卷积神经网络内的视频特征。

融合视频的整体时空特征的融合方式为串接融合、加权融合和平均融合中的一种。

步骤5用测试视频测试，具体为：首先，对空间网络输入多帧彩色图像序列用来提取视频的空间变化特性，对时间网络输入彩色图像序列对应的光流图像用来提取视频的时间变化特征，将处理好的视频序列的连续多帧图像按照每16帧一个片段划分为若干片段；然后将每个视频的若干视频片段作为输入，输入到迁移学习完成之后的MCFCN模型中，从而得到最后对视频序列行为的预测。

本发明构建多通道特征拼接网络模型，在模型低层通过卷积层和池化层提取每帧图像的特征，再在中层将这些连续帧的图像特征按序拼接，得到视频片段的特征，然后将视频片段的特征按顺序串接，获取属于这个视频级别的特征，最终融合视频级别特征，通过softmax层输出该视频行为的分类结果。该方法利用时空维度的转化增加网络处理多帧图像的能力，并进一步体现动作行为视频中的时空关联性，提高对复杂行为的识别率和鲁棒性。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种基于长时程深度时空网络的行为识别方法，其特征在于，包括如下步骤：S1、构建多通道特征拼接网络模型；

2.根据权利要求1所述的一种基于长时程深度时空网络的行为识别方法，其特征在于，还包括S4、训练多通道特征拼接网络模型，采用预训练参数加快每路卷积神经网络收敛速度，进行迁移学习。

3.根据权利要求1所述的一种基于长时程深度时空网络的行为识别方法，其特征在于，所述多通道特征拼接网络模型包括3个通道输入、90层网络和1个输出，所述3个通道输入分别为原始视频帧图像输入、X方向光流特征图像输入和Y方向光流特征图像输入，所述90层网络的前87层为分别对应3个通道输入的三路并行卷积神经网络，每路卷积神经网络均为29层且结构相同，所述90层网络的第88、89、90层为全连接层，所述输出为softmax层。

4.根据权利要求3所述的一种基于长时程深度时空网络的行为识别方法，其特征在于，所述每路卷积神经网络的前29层依次为2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、特征拼接层、片段特征串接层、3层卷积层、1层池化层、特征拼接层、3层卷积层、1层池化层、3层卷积层和1层池化层；所述卷积层的卷积核为3×3，所述池化层为最大池化，其池化核为2×2；所述特征拼接层以2×2方形的形式拼接。

5.根据权利要求1所述的一种基于长时程深度时空网络的行为识别方法，其特征在于，所述步骤S3中彩色图像序列数据集和光流图像序列数据集中每连续16帧划分为一个片段，在三路并行卷积神经网络的低层通过卷积层和池化层分别提取视频连续帧的时空特征；对卷积神经网络输入彩色图像序列数据集片段提取视频空间变化特征，对卷积神经网络输入光流图像序列数据集片段提取视频变化特征。

6.根据权利要求1所述的一种基于长时程深度时空网络的行为识别方法，其特征在于，所述步骤S3中由中层拼接生成每个视频片段的整体时空特征，并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征的具体方法为：

7.根据权利要求1所述的一种基于长时程深度时空网络的行为识别方法，其特征在于，所述步骤S3中在多通道特征拼接网络模型的高层融合视频的整体时空特征后，通过全连接层融合三路并行卷积神经网络内的视频特征。

8.根据权利要求1所述的一种基于长时程深度时空网络的行为识别方法，其特征在于，所述融合视频的整体时空特征的融合方式为串接融合、加权融合和平均融合中的一种。