CN109558805A

CN109558805A - 基于多层深度特征的人体行为识别方法

Info

Publication number: CN109558805A
Application number: CN201811312013.7A
Authority: CN
Inventors: 盛碧云; 肖甫; 李群; 沙乐天; 黄海平; 沙超
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-04-02

Abstract

本发明提供了一种基于多层深度特征的人体行为识别方法，包括如下步骤：在目标数据库上训练出深度学习模型；将样本输入到深度学习模型中，提取顶层卷积层特征映射图和顶层全连接层特征；在顶层卷积层特征映射图的各通道上分别做最大值池化操作，并将池化结果连接成一个列向量；将池化结果组成的列向量和顶层全连接层特征连接，作为视频最终特征表达，结合支持向量机完成行为识别任务。该方法以深度学习模型的顶层全连接层和顶层卷积层特征为基础，考虑深度学习模型全连接层的分类能力和卷积层的语义上下文描述能力，通过融合多层特征的互补性和各自的优势，提高视频特征表达的辨识力，提高了行为识别的精度和算法的运行效率。

Description

基于多层深度特征的人体行为识别方法

技术领域

本发明涉及一种人体行为识别方法，具体涉及一种基于多层深度特征的人体行为识别方法，属于视频行为识别技术领域。

背景技术

基于视频的行为识别在较多领域有着广泛的应用场景和市场需求，例如智能安全监控、智能机器人、人机交互、基于视频的检索等领域。近年来，虽然行为识别的方法层出不穷，但由于背景干扰、遮挡、类内误差等问题，学习辨识力强的行为特征表达仍然是计算机视觉领域的重点和难点。

随着计算设备性能的提升和大数据时代的到来，深度学习成为解决行为识别问题的有效工具。目前，很多方法利用深度学习模型提取全连接层作为视频特征表达，并致力于研究更复杂或者更深的网络结构，以提升特征表达的辨识能力。但这些算法在提高识别精度的同时，增加了运算的复杂度；此外，目前的方法都只利用了全连接层的分类能力，忽略了卷积层对于视频语义上下文信息的描述能力，造成特征表达的辨识能力降低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于多层深度特征的人体行为识别方法，该方法同时考虑深度学习模型全连接层的分类能力和卷积层的语义上下文描述能力，生成辨识力强的视频特征表达，以提高视觉特征的描述能力，解决现有技术中人体行为识别模型复杂、算法识别低的技术问题。

为实现以上目的，本发明采用以下技术方案：

一种基于多层深度特征的人体行为识别方法，包括如下步骤：

S1，在目标数据库上训练出深度学习模型；

S2，将样本输入到深度学习模型中，提取顶层卷积层特征映射图和顶层全连接层特征；

S3，在顶层卷积层特征映射图的各通道上分别做最大值池化操作，并将池化结果连接成一个列向量；

S4，将池化结果组成的列向量和顶层全连接层特征连接，作为视频最终特征表达，结合支持向量机完成行为识别任务。

进一步地，步骤S1中：分别采用视频帧的RGB图像、光流图像作为输入，以vgg-16作为预训练模型，不断优化模型参数直至目标函数收敛，生成基于空间流和时间流的深度学习模型。

进一步地，步骤S2中：将样本视频帧的RGB图像、光流图像输入到步骤S1的深度学习模型中，提取每帧图像的顶层卷积层的所有特征通道以及顶层全连接层特征。

进一步地，步骤S3中：取顶层卷积层每个特征通道上的最大响应值，连接所有通道的最大响应值，组成特征列向量。

进一步地，步骤S4包括如下步骤：

S41，针对视频的每帧RGB图像，连接步骤S2的所述顶层全连接层特征和步骤S3所述特征列向量，得到每帧RGB图像的空间信息特征表达；

S42，针对视频的每帧光流图像，进行与步骤S41的相同处理，得到每帧光流图像的时间信息特征表达；

S43，归一化并池化视频所有帧RGB图像的空间信息特征表达和所有帧光流图像的时间信息特征表达，分别生成视频的空间信息特征表达和时间信息特征表达；

S44，连接视频的空间信息特征表达和时间信息特征表达，得到视频最终特征表达；

S45，将视频的最终特征表达和标签分别作为支持向量机分类器的输入和输出，训练分类器模型，实现测试样本的行为识别任务。

与已有技术相比，本发明具有如下有益效果：

本发明基于多层深度特征的人体行为识别方法，以深度学习模型的顶层全连接层和顶层卷积层特征为基础，考虑深度学习模型全连接层的分类能力和卷积层的语义上下文描述能力，通过融合多层特征的互补性和各自的优势，提高视频特征表达的辨识力，从而提高了行为识别的精度和算法的运行效率，解决了现有技术中人体行为识别模型复杂、算法识别低的技术问题。

附图说明

图1为本发明的流程图；

图2为本发明中步骤S4的流程图。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步详细的说明。所述实施例的示例在附图中示出，在下述本发明的实施方式中描述的具体的实施例仅作为本发明的具体实施方式的示例性说明，旨在用于解释本发明，而不构成为对本发明的限制。

本发明提供了一种基于多层深度特征的人体行为识别方法，如图1所示，包括如下步骤：

S1，在目标数据库上训练出深度学习模型；

具体地，在步骤S1中，分别采用视频帧的RGB图像、光流图像作为输入，设计网络结构，以vgg-16作为预训练模型，不断优化模型参数直至目标函数收敛，生成基于空间流和时间流的深度学习模型。

在步骤S2中，将样本视频帧的RGB图像和光流图像输入到步骤S1的深度学习模型中，提取每帧图像顶层卷积层的所有特征通道以及顶层全连接层特征。即将样本视频帧的RGB图像输入到已经训练好的深度空间模型中、将样本视频帧的光流图像输入到已经训练好的深度时间模型中，提取顶层卷积层的c个特征通道以及顶层全连接层的d维特征。

在步骤S3中，取顶层卷积层每个特征通道上的最大响应值，连接所有通道的最大响应值，组成特征列向量。顶层卷积层特征映射图的所有通道组成一个3D矩阵其中m×n为每个卷积层的大小，c为卷积层的通道个数；取每个通道m×n个响应值中的最大值，并将c个通道的最大响应值连接，生成c维的特征列向量。

在步骤S4中，如图2所示，具体包括如下步骤：

S41，针对视频的每帧RGB图像，连接步骤S2的顶层全连接层特征和步骤S3的特征列向量，得到每帧RGB图像的空间信息特征表达；即对视频的第t帧RGB图像而言，连接d维的顶层全连接层、顶层卷积层池化结果组成的c维的特征列向量，得到c+d维的空间信息特征表达f_t；

S42，针对视频的每帧光流图像，进行与步骤S41的相同处理，即连接步骤S2的顶层全连接层特征和步骤S3的特征列向量，得到每帧光流图像的时间信息特征表达；即对视频的第t帧光流图像而言，得到c+d维的时间信息特征表达

S43，归一化并池化视频所有T帧RGB图像的空间信息特征表达、所有T帧光流图像的时间信息特征表达，分别生成视频的空间信息特征表达f_S和时间信息特征表达f_T，计算的表达式如下：

S44，连接视频的空间信息特征表达f_S和时间信息特征表达f_T，得到视频最终特征表达 f_video：

f_video＝[f_S；f_T]；

本发明提供的基于多层深度特征的人体行为识别方法，以深度学习模型的顶层全连接层和顶层卷积层特征为基础，考虑前者分类能力和后者语义上下文描述能力，通过融合多层特征的互补性和各自的优势，提高视频特征表达的辨识力，提高了行为识别的精度和算法的运行效率。

应该注意的是，上述实施例是对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，单词“包括”不排除存在未列在权利要求中的数据或步骤。

Claims

1.一种基于多层深度特征的人体行为识别方法，其特征在于，包括如下步骤：

S1，在目标数据库上训练出深度学习模型；

2.根据权利要求1所述的基于多层深度特征的人体行为识别方法，其特征在于，步骤S1中：分别采用视频帧的RGB图像、光流图像作为输入，以vgg-16作为预训练模型，不断优化模型参数直至目标函数收敛，生成基于空间流和时间流的深度学习模型。

3.根据权利要求2所述的基于多层深度特征的人体行为识别方法，其特征在于，步骤S2中：将样本视频帧的RGB图像、光流图像输入到步骤S1的深度学习模型中，提取每帧图像顶层卷积层的所有特征通道以及顶层全连接层特征。

4.根据权利要求3所述的基于多层深度特征的人体行为识别方法，其特征在于，步骤S3中：取顶层卷积层每个特征通道上的最大响应值，连接所有通道的最大响应值，组成特征列向量。

5.根据权利要求4所述的基于多层深度特征的人体行为识别方法，其特征在于，步骤S4包括如下步骤：

S41，针对视频的每帧RGB图像，连接步骤S2的所述顶层全连接层特征和步骤S3的所述特征列向量，得到每帧RGB图像的空间信息特征表达；