CN109886358A

CN109886358A - 基于多时空信息融合卷积神经网络的人体行为识别方法

Info

Publication number: CN109886358A
Application number: CN201910216232.3A
Authority: CN
Inventors: 王永雄; 谈咏东; 黄强
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-06-14
Anticipated expiration: 2039-03-21
Also published as: CN109886358B

Abstract

本发明提出了一种基于多时空信息融合卷积神经网络的人体行为识别方法，首先构建(2+1)D卷积神经网络，经训练后直到网络模型评估准确率达到稳定值后，使用网格模型进行视频人体行为识别。本发明中提出的(2+1)D卷积神经网络同时使用不同尺度空间感受野的空间卷积层进行空间信息提取，同时使用多个不同尺度时域感受野的时域卷积层进行时域信息提取，将提取的特征信息融合后作为下一层的输入，将包含n种尺度空间感受野的卷积核与包含m种尺度时域感受野的卷积核进行串联，设计了包含k种时空感受野的多时空融合卷积层，能够同时利用视频较长和较短时间范围内的特征信息建模，更准确地识别人体行为。

Description

基于多时空信息融合卷积神经网络的人体行为识别方法

技术领域

本发明涉及一种视频人体行为识别方法，具体涉及一种基于多时空信息融合卷积神经网络的人体行为识别方法。

背景技术

视频人体行为识别是计算机视觉中最具挑战性的任务之一，而且可以在众多领域具有广泛的应用，如视频监控、运动检索、人机交互、智能家居以及医疗保健。传统的视频行为识别方法一般是通过人工设计的视频时空特征，如SIFT-3D、STIPs、HOG3D、HOF、密集轨迹(iDT)等。随着卷积神经网络在静态图像识别领域取得了引人注目的进步，涌现出了一大批具有强大特征提取能力的网络结构。近年，将卷积神经网络应用于视频行为识别成为了国内外研究热点。Ji等人将2D卷积扩展为能够获取时域信息的3D卷积，并应用到了视频行为识别中。Tran等人进一步研究时间建模在行为识别中的作用(对视频进行3D卷积)，设计了一个只输入RGB图像的卷积神经网络模型，取得了不错的效果，同时也证明了在视频行为识别中3D卷积神经网络显著优于2D卷积神经网络。利用时空信息而不仅仅是空间信息进行视频分类的优势在各种研究成果中已经得到验证。例如3D卷积神经网络的变体(2+1)D卷积、P3D卷积等。

但上述方法都存在一定的缺陷：第一，计算复杂，存在参数冗余；第二这些方法都只对单一时空感受野的信息建模，存在一定的局限性，难以提取多变的时空信息，影响了卷积网络性能，不能有效地识别复杂的人体行为。

发明内容

为克服现有技术中的问题，本发明提出的一种基于多时空信息融合卷积神经网络的人体行为识别方法，包括如下步骤：

步骤一：制作样本标签，将样本数据集根据类别制作不同的标签，将样本数据集分为训练数据集和评估数据集；

步骤二：构建(2+1)D卷积神经网络，使用MST单元替换(2₊1)D网络中的卷积单元，构建MST-(2+1)D模型；

步骤三：初始化和设置网络模型，将网络模型参数随机初始化；

步骤四：训练和评估模型，将所述训练数据集的每一帧图像裁剪成尺寸为112*112的图像输入网络模型进行训练，在每一轮训练后对网络模型进行评估；经多次训练后直到网络模型评估准确率达到一个稳定值后停止训练，保留网格模型的权重；

步骤五：使用网格模型进行视频人体行为识别，将得到的权重导入构建的MST-(2+1)D模型中，进行人体行为识别。

本发明提出的所述基于多时空信息融合卷积神经网络的人体行为识别方法中，训练数据集和评估数据集的比例为2:1。

本发明提出的所述基于多时空信息融合卷积神经网络的人体行为识别方法中，所述MST(2+1)D模型中含有一个输入层、6个MST单元、一个全局池化层、一个全连接层、一个softmax分类层；每一个MST单元都包含一个空间卷积层、一个时域卷积层、两个BN层、两个非线性层，其中空间卷积层含有两种空间感受野，大小分别为1*1、3*3，时域卷积层含有三种时域感受野大小分别为1、3、5；对卷积层输出的张量进行池化，然后输入全连接层，将全连接层的输出作为最终的特征输入到softmax分类层进行分类。

本发明提出的所述基于多时空信息融合卷积神经网络的人体行为识别方法中，采用4个步长为2*2*1的空间下采样层，3个步长为1*1*2的时域下采样层；将3个时域下采样层分别设置在第4、5、6个MST单元，将4个空间下采样层分别设置在第1、4、5、6个MST单元，每个下采样层紧接在非线性层后。

本发明提出的所述基于多时空信息融合卷积神经网络的人体行为识别方法中，步骤三中，初始学习率设置为0.005，在第10、20、30轮迭代时分别再乘以0.1，权重衰减设置为0.005，训练以n段子视频/批进行迭代，每段子视频含有m帧RGB图像。

本发明提出的所述基于多时空信息融合卷积神经网络的人体行为识别方法中，利用训练过程中学习到的参数对输入的子视频同时进行不同尺度的空间信息和时域信息的特征提取并在每一个卷积层后进行特征融合，将低维特征转换为高维特征，并将高维特征经过全连接层，最终输入softmax分类层进行人体行为识别。

与现有技术相比，本发明的有益效果：本发明在进行人体行为识别过程中不仅利用不同尺度的空间信息对动作幅度不同的人体行为进行建模，而且通过不同深度的时域信息有效地对动作周期不同的人体行为进行建模，然后对空间信息和时域信息进行交叉组合，有效地识别不同空间幅度、不同时间周期的人体行为。本发明中的方法是一种更有效的视频人体行为特征描述符，能够同时利用视频较长和较短时间范围内的特征信息建模，能够更准确的对不同的人体行为识别。

附图说明

图1为基于多时空信息融合卷积神经网络的人体行为识别方法的流程图。

图2为多时空信息融合层的结构图。

图3为具体实例网络结构示意图。

具体实施方式

下面将结合示意图对本发明提出的基于多时空信息融合卷积神经网络的人体行为识别方法进行更详细的描述，其中表示了本发明的优选实施例，应该理解本领域技术人员可以修改在此描述的本发明，而仍然实现本发明的有利效果。因此，下列描述应当被理解为对于本领域技术人员的广泛知道，而并不作为对本发明的限制。

图1显示的是本发明基于多时空信息融合卷积神经网络的人体行为识别方法的流程图。其中，包括如下步骤：

步骤一：制作样本标签，将样本数据集根据类别制作成不同的标签，将样本数据集分为训练数据集和评估数据集；

步骤二：构建(2+1)D卷积神经网络，使用MST单元替换(2+1)D网络中的卷积单元，构建MST-(2+1)D模型；

步骤五：使用网格模型进行视频人体行为识别，将权重导入构建的MST-(2+1)D模型中，进行人体行为识别。

其中，本发明提出了一种应用于卷积神经网络的(2+1)D多时空信息融合层(Multi-time-space fusion convolution layer-MST)，如图2所示。本发明充分利用(2+1)D卷积将时间和空间在一定程度上解耦，以便于优化的特性，分别在空间和时间信息上应用不同尺度的感受野获取人体行为多运动幅度、多时间周期信息。将输入的特征图，首先使用多个不同尺度空间感受野的空间卷积层进行空间信息提取，将提取到的特征信息进行融合作为时域卷积层的输入，然后使用多个不同尺度时域感受野的时域卷积层进行时域信息提取，将提取到的特征信息进行融合作为下一个层的输入。本发明将n种尺度空间感受野的卷积核与m种尺度时域感受野的卷积核进行串联，设计了一个包含k种不同时空感受野的多时空融合卷积层(MST)，如图2所示。每一个MST包含k种感受野，计算如(1)式所示：

k＝m*n (1)

本发明在进行人体行为识别过程中不仅利用不同尺度的空间信息对动作幅度不同的人体行为进行建模，而且通过不同深度的时域信息有效地对动作周期不同的人体行为进行建模，然后对空间信息和时域信息进行交叉组合，有效地识别不同空间幅度、不同时间周期的人体行为。本发明中的方法是一种更有效的视频人体行为特征描述符，能够同时利用视频较长和较短时间范围内的特征信息建模，能够更准确的对不同的人体行为识别。

下述一个构建包含6个MST的多时空信息融合(2₊1)D网络(MST-(2+1)D)并进行人体行为识别的过程。

第一步制作样本标签，首先将样本数据集根据类别制作成不同的标签，然后将样本数据集分为训练数据集和评估数据集，二者之间的比例为2：1。

第二步构建(2+1)D网络，然后用MST单元替换(2+1)D网络中的卷积单元，构建MST-(2+1)D模型。MST-(2+1)D模型中含有一个输入层、6个MST单元、一个全局池化层、一个全连接层、一个softmax分类层，模型框架如图3所示。每一个MST单元都包含一个空间卷积层、一个时域卷积层、两个BN层、两个非线性层，其中空间卷积层含有两种空间感受野，大小分别为1*1、3*3，时域卷积层含有三种时域感受野大小分别为1、3、5。在整个网络结构中，我们采用4个步长为2*2*1的空间下采样层，3个步长为1*1*2的时域下采样层。最后对卷积层输出的张量进行平均池化，然后输入全连接层，将全连接层的输出作为最终的特征输入到softmax分类层进行分类。我们将3个时域下采样层分别设置在第4、5、6个MST单元。除了第2、3个MST单元，其他MST单元各有一个空间下采样层。每个下采样层紧接在非线性层后。

第三步网络模型的初始化和设置。在训练开始前，将网络模型参数随机初始化。初始学习率设置为0.005，在第10、20、30轮迭代时分别再乘以0.1，权重衰减设置为0.005，训练以16段子视频/批进行迭代，每段子视频含有16帧RGB图像。

第四步模型训练和评估，将每一个样本视频均匀地分为若干个连续的16帧子视频，并将每一帧图像的大小调整为128*171。训练时，将子视频中的每一帧图像随机裁剪出尺寸大小为112*112的图像作为网络的输入。在训练过程中采用随机梯度下降法对网络模型参数进行优化，每一轮训练结束后对模型进行评估。评估时，在子视频中的每一帧图像的中心位置裁剪出尺寸大小为112*112的图像作为网络的输入。经过多次训练，直到模型评估准确率达到一个相对稳定的值，停止训练，保留权重。

第五步进行视频人体行为识别，将第四步中保留的权重，导入第二步构建的模型中，进行人体行为识别。在识别过程中，将输入的视频或摄像头捕捉到的视频均匀地分为若干个连续的16帧子视频，在子视频中的每一帧图像的中心位置裁剪出尺寸大小为112*112的图像作为网络的输入。该模型利用训练过程中学习到的参数对输入的子视频进行一系列的特征提取，将低维特征转换为高维特征，并将高维特征经过全连接层，最终输入softmax分类层进行人体行为识别。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种基于多时空信息融合卷积神经网络的人体行为识别方法，其特征在于，包括如下步骤：

步骤四：训练和评估模型，将所述训练数据集的每一帧图像裁剪成固定大小的图像输入网络模型进行训练，在每一轮训练后对网络模型进行评估；经多次训练后直到网络模型评估准确率达到一个稳定值后停止训练，保留网格模型的权重；

2.根据权利要求1所述的基于多时空信息融合卷积神经网络的人体行为识别方法，其特征在于，训练数据集和评估数据集的比例为2:1。

3.根据权利要求1所述的基于多时空信息融合卷积神经网络的人体行为识别方法，其特征在于，所述MST-(2+1)D模型中含有一个输入层、6个MST单元、一个全局池化层、一个全连接层、一个softmax分类层；每一个MST单元都包含一个空间卷积层、一个时域卷积层、两个BN层、两个非线性层，其中空间卷积层含有两种空间感受野，大小分别为1*1、3*3，时域卷积层含有三种时域感受野大小分别为1、3、5；对卷积层输出的张量进行平均池化，然后输入全连接层，将全连接层的输出作为最终的特征输入到softmax分类层进行分类。

4.根据权利要求3所述的基于多时空信息融合卷积神经网络的人体行为识别方法，其特征在于，采用4个步长为2*2*1的空间下采样层，3个步长为1*1*2的时域下采样层；将3个时域下采样层分别设置在第4、5、6个MST单元，将4个空间下采样层分别设置在第1、4、5、6个MST单元，每个下采样层紧接在非线性层后。

5.根据权利要求1所述的基于多时空信息融合卷积神经网络的人体行为识别方法，其特征在于，步骤三中，初始学习率设置为0.005，在第10、20、30轮迭代时分别再乘以0.1，权重衰减设置为0.005，训练以n段子视频/批进行迭代，每段子视频含有m帧RGB图像。

6.根据权利要求1所述的基于多时空信息融合卷积神经网络的人体行为识别方法，其特征在于，利用训练过程中学习到的参数对输入的子视频同时进行不同尺度的空间信息和时域信息的特征提取并在每一个卷积层后进行特征融合，将低维特征转换为高维特征，并将高维特征经过全连接层，最终输入softmax分类层进行人体行为识别。