CN107341452B

CN107341452B - 基于四元数时空卷积神经网络的人体行为识别方法

Info

Publication number: CN107341452B
Application number: CN201710471157.6A
Authority: CN
Inventors: 孟勃; 刘雪君; 王晓霖
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2017-06-20
Filing date: 2017-06-20
Publication date: 2020-07-14
Anticipated expiration: 2037-06-20
Also published as: CN107341452A

Abstract

本发明属于计算机视觉领域，具体涉及一种基于四元数时空卷积神经的人体行为识别方法。本发明具体实现步骤如下：（1）输入待识别的动作视频集；（2）图像预处理，提取人体运动的关键区域图像；（3）构建四元数时空卷积神经网络；（4）采用BP算法训练网络，输出训练结果；（5）输入视频测试集，输出测试结果。本发明利用码本模型提取人体运动区域图像，能够在复杂背景的情况下，检测出人体的运动。本发明的四元数时空卷积神经网络直接将彩色图像作为输入，解决了传统卷积神经网络将彩色图像转换为灰度图像或分通道处理过程中图像特征缺失的问题，提高了网络特征提取的性能，使得对人体行为的识别更加准确。

Description

基于四元数时空卷积神经网络的人体行为识别方法

技术领域

本发明属于计算机视觉领域，更进一步涉及目标识别中基于四元数时空卷积神经网络的人体行为识别方法，本发明可用于人机交互、智能监控等应用中。

背景技术

人体行为识别是计算机视觉、模式识别、图像处理以及人工智能等多学科交叉的一个重要研究方向，它在人机交互、智能监控和医疗领域均有着巨大的应用价值和理论意义。它主要针对包含人的运动图像序列进行分析处理，特征提取，运动分类，实现识别和理解人的个体动作、人与人之间的以及人与外界环境之间的交互行为。

相对基于静止图像的目标分类，人体行为识别是一个复杂的动态过程，它不仅包含视频中单帧图像的空间特征，还包含多帧之间的时间特征。所以，有效提取视频中人体的行为特征是非常具有挑战性的课题。近年来，人体行为方法主要分为两类：基于人工特征提取的人体行为识别和基于深度学习的人体行为识别。基于人工特征提取的人体行为识别方法的步骤为特征提取、特征表达和动作分类，其中人工提取的特征包含光流直方图、梯度直方图和时空兴趣点等。然而，这种方法对于不同视频数据集需要提取不同的特征，计算复杂度高，在现实环境下的应用存在局限性。

有人提出了基于深度学习的人体行为识别方法。这种方法是通过逐层参数训练的方式自动提取原始图像中的特征，从而获得能够区分不同动作的多种高层抽象表达。卷积神经网络是人体行为识别中应用最广泛、最有效的深度学习算法之一。传统的卷积神经网络已经被扩展到时空卷积神经网络，它不仅能够提取单帧的空间特征，还能提取近邻帧的时间特征。然而，目前的卷积神经网络模型只是针对灰度图像序列或RGB三通道分别处理的，没有考虑三通道的相关性和整体性，破坏了真实环境的颜色特征，影响识别方法在实际环境中的鲁棒性。

发明内容

针对上述问题，本发明提出一种基于四元数时空卷积神经网络的人体行为识别方法。与现有技术中其他基于卷积神经网络的人体动作识别方法相比，本发明将彩色图像序列直接作为网络的输入，在空间卷积层将R、G、B三个通道作为一个整体进行卷积操作，保证了它们的相互联系，并在时间卷积层提取连续帧间的动态信息，使得提取的特征信息更加丰富，识别率更高。

为实现上述目的，本发明采用以下方案：

一种基于四元数时空卷积神经网络的人体行为识别方法，所述方法具体为：

(1)构建四元数时空卷积神经网络；

(2)将包含多种人体动作的F组彩色图像表示为四元数的形式，将其中f组彩色图像作为训练集，将训练集作为训练样本输入所述四元数时空卷积神经网络，并利用BP算法训练训练集样本，得到训练好的四元数时空卷积神经网络；

(3)将其他F-f组彩色图像作为样本输入训练好的四元数时空卷积神经网络，利用训练好的四元数时空卷积神经网络将彩色图像分类，实现人体行为识别；

所述四元数时空卷积神经网络包括空间卷积层、时间卷积层、下采样层、全连接层、长短时记忆单元和分类器；样本经空间卷积层、时间卷积层、下采样层循环P次得到样本的特征图序列，全连接层将序列中每一个特征图都拉伸成一个特征向量，长短时记忆单元将特征向量输送至分类器，分类器依据特征向量将样本分类；

所述四元数时空卷积神经网络包括3P+1层结构；

F、f、P均为自然数。

进一步地，所述包含多种人体动作的F组彩色图像表示为四元数的形式为：

彩色图像Q中(x,y)位置的像素用一个纯四元数表示，公式如下：

Q(x,y)＝Q_r(x,y)i+Q_g(x,y)j+Q_b(x,y)k

或表示为向量的形式：

Q(x,y)＝(Q_r(x,y),Q_g(x,y),Q_b(x,y))

其中，Q_r(x,y)，Q_g(x,y)和Q_b(x,y)分别为像素的R,G和B通道的值；一张彩色图像可以表示为：

Q＝(Q_r,Q_g,Q_b)；

所述四元数时空卷积神经网络的卷积核以四元数形式。

进一步地，在步骤(2)和步骤(3)中所述彩色图像经过预处理后作为样本输入，所述预处理方法为采用码本模型，以a×d的检测窗口提取图像中人体运动的关键区域，并保存区域图像；采用最近邻插值法将区域图像缩放至g×h像素中，并保存缩放后的图像；

检测窗口的大小根据所述彩色图像中人体的大小进行选择，以在包括人体的条件下尽可能小的尺寸；为了减少网络训练参数，采用最近邻插值法缩放图像。

a、d、g、h为常数。

进一步地，所述空间卷积层的具体操作为：在四元数时空卷积层，卷积核被扩展成纯四元数的表示形式W＝(W_r,W_g,W_b)，按照下式的卷积操作，输入一张彩色图像Q＝(Q_r,Q_g,Q_b)，第i层第j个特征图中(x,y)位置的卷积结果为：

W×Q＝(W_gQ_b-W_bQ_g,W_bQ_r-W_rQ_b,W_rQ_g-W_gQ_r)

其中，f是sigmoid函数，b^i,j是第i层第j个特征图的偏置，

是第i层第j个特征图和第i-1层第p个特征图之间的卷积核的(n,m)位置的权值向量，N和M是卷积核的长和宽；Q^(i-1)，p(x+n,y+m)表示第i-1层第p个特征图Q中的(x+n,y+m)位置的像素；Z^i,i(x,y)表示第i层第j个特征图中(x,y)位置的卷积结果；

操作是两个纯四元数向量元素对应相乘，提取的是每个通道上的空间特征；×操作是叉积操作，提取的是不同颜色通道的空间关系。

进一步地，所述时间卷积层的具体操作为：在时间卷积层分别提取三个颜色通道的近邻帧动态信息，四元数空间卷积层输出特征图序列Z＝{Z₁,Z₂,...,Z_t}，每个通道的时间卷积操作如下：

其中，f是sigmoid函数，bⁱ是第i层的偏置，c是指图像的第c个通道，s是指时间卷积核的第s维，共S维，

是第i层第c个通道第s时间维的权值；

表示第i层第t帧第c通道的时间卷积结果；

假设输入序列的帧数为T，那时间卷积层输出序列的帧数为T'＝T-S+1。

进一步地，所述提取图像中人体运动的关键区域是指，采用码本模型，得到背景和前景分割的二值图像，背景像素为1，人体运动的前景像素为0；然后，计算所有前景像素的中心点，并以其为a×d检测窗口的中心点，在原彩色图像中提取出人体运动的区域图像；采用最近邻插值法将区域图像缩放至g×h像素中，并保存缩放后的图像。

进一步地，

将Weizmann视频集中bending,jacking,jumping,pjumping,running,siding,skipping,walking,waving one hand,waving two hands动作的视频图像作为所述包含多种人体动作的N组彩色图像输入；所述四元数时空卷积神经网络为7层结构，检测窗口的大小为90×90，缩放后的区域图像像素为36×36。

进一步地，构建的四元数时空卷积层的网络结构为：

输入大小为36×36×5的彩色图像序列，其中，36×36为每一帧的分辨率，5为图像序列的帧数；

在第一层四元数空间卷积层QSC1中，卷积核尺寸为5×5×3,其中5×5为图像分辨率，3为彩色图像的通道数，用3个卷积核产生3个32×32×5的特征图序列；

在第二层时间卷积层TC2中，将第一层特征图中的每个通道用1×1×3卷积核对进行时间卷积操作，其中，3为时间维度，得到3个32×32×3的特征图序列；

在第三层下采样层S3中，采用2×2窗口对第二层特征图中的每个通道进行下采样操作，得到3个16×16×3的特征图序列；

在第四层四元数空间卷积层QSC4中，卷积核尺寸为5×5×3,用6个卷积核对第三层的特征图进行四元数卷积操作，产生6个12×12×3的特征图序列；

在第五层时间卷积层TC5中，将第四层特征图中的每个通道用1×1×3卷积核对进行时间卷积操作，产生6个12×12×1的特征图序列；

在第六层下采样层S6中，采用3×3窗口对第五层特征图中的每个通道进行下采样操作，得到6个4×4×1的特征图序列；

在第七层全连接层F7中，将第六层每一个特征图都拉伸成一个特征向量，得到288维度的特征向量；

在长短时记忆单元中，输入第七层全连接层的特征向量，并连接分类器进行动作分类。

进一步地，所述分类器为Softmax分类器。

进一步地，采用BP算法训练构建的四元数时空卷积神经网络具体为：

1)随机初始化四元数时空卷积神经网络中网络权值和偏置，逐层计算每层的输入和输出；

2)采用梯度下降法确定网络的最优权重值和最优偏置，获得训练集的分类准确率；

3)根据训练结果调整卷积核的数量、大小以及网络的层数，选取获得最高准确率的网络结构作为训练好的四元数时空卷积神经网络的结构。

本发明具体实现步骤如下：

(1)输入视频集：

将视频集中的视频图像逐帧输入到计算机；

(2)图像预处理：

(2a)采用码本模型，以90×90的检测窗口提取图像中人体运动的关键区域，并保存区域图像；

(2b)采用最近邻插值法将区域图像缩放至36×36像素中，并保存缩放后的图像；

(2c)随机选择5个人的动作样本作为训练集，其余的样本为测试集；

(3)构建四元数时空卷积神经网络：

(3a)将彩色图像表示为四元数的形式；

(3b)连续的5帧图像组成一个视频片段并输入到网络，并对其进行两次四元数空间卷积、时间卷积和下采样操作，得到卷积层和下采样层的特征图；

(3c)在全连接层将第二次下采样层提取的6张4×4×3(长×宽×通道数)的特征图，拉伸为一个288维度的特征向量；

(3d)将全连接层的特征向量作为长短时记忆网络的输入，获取不同视频片段间的动态信息；

(4)行为分类：

采用Softmax分类器对特征向量进行分类；

(5)训练网络：

采用BP算法(反向传播算法)训练训练集样本，得到训练好的四元数时空卷积神经网络；

(6)测试网络：

将测试样本集输入到训练好的四元数卷积神经网络，得到测试结果。与其他基准方法的测试结果进行比较，验证本方法的有效性。

本发明有益技术效果：本发明将彩色图像序列直接作为网络的输入，在空间卷积层将R、G、B三个通道作为一个整体进行卷积操作，保证了它们的相互联系，并在时间卷积层提取连续帧间的动态信息，使得提取的特征信息更加丰富，识别率更高。

附图说明

图1为本发明的方法框图；

图2为码本模型提取的人体运动区域图像的效果图；

图3为四元数时空卷积神经网络的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细描述。应当理解，此处所描述的具体实施方式仅用于解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参照图1，

一种基于四元数时空卷积神经网络的人体行为识别方法，所述人体行为识别方法是采用码本模型预处理视频集，并将其分为训练样本集和测试样本集，采用BP算法训练四元数卷积神经网络，将特征向量输入到Softmax分类器，得到训练样本集的行为分类结果。最后将测试样本集输入到训练好的四元数卷积神经网络中，得到测试样本集的行为分类结果。

所述输入数据集的具体步骤为：

将Weizmann视频集中bending,jacking,jumping,pjumping,running,siding,skipping,walking,waving one hand,waving two hands 10个动作的视频图像输入到计算机；

由于输入图像的尺寸过大会大大增加网络的计算量，所以本发明采用码本模型提取出图像中人体运动的关键区域，去除冗余背景。所述采用码本模型预处理图像，具体步骤为：采用码本模型，得到背景和前景分割的二值图像，背景像素为1，人体运动的前景像素为0；然后，计算所有前景像素的中心点，并以其为90×90检测窗口的中心点，在原彩色图像中提取出人体运动的区域图像；最后，采用最近邻插值法将区域图像缩放至36×36像素中，并保存缩放后的图像。由于不同行为视频集中的图像尺寸不同，所以采用的检测窗口也会不同。

图2为采用码本模型得到的二值图像，其中图中方框为检测窗口。

所述构建的四元数时空卷积神经网络的具体步骤为：

步骤1，将彩色图像表示为四元数的形式：

彩色图像Q中(x,y)位置的像素可有一个纯四元数表示，公式如下：

Q(x,y)＝Q_r(x,y)i+Q_g(x,y)j+Q_b(x,y)k

也可以表示为向量的形式：

Q(x,y)＝(Q_r(x,y),Q_g(x,y),Q_b(x,y))

其中，Q_r(x,y)，Q_g(x,y)和Q_b(x,y)分别为像素的R,G和B通道的值。一张彩色图像可以表示为：

Q＝(Q_r,Q_g,Q_b)

步骤2，四元数空间卷积层的操作：

在四元数空间卷积层，传统的2维度卷积核被扩展成纯四元数的表示形式W＝(W_r,W_g,W_b)，按照下式的卷积操作，输入一张彩色图像Q＝(Q_r,Q_g,Q_b)，第i层第j个特征图中(x,y)位置的卷积结果为：

W×Q＝(W_gQ_b-W_bQ_g,W_bQ_r-W_rQ_b,W_rQ_g-W_gQ_r)

其中，f是sigmoid函数，b^i,j是第i层第j个特征图的偏置，

是第i层第j个特征图和第i-1层第p个特征图之间的卷积核的(n,m)位置的权值向量，N和M是卷积核的长和宽。

操作是两个纯四元数向量元素对应相乘，提取的是每个通道上的空间特征，×操作是叉积操作，提取的是不同颜色通道的空间关系。

步骤3，时间卷积层的操作：

在时间卷积层分别提取三个颜色通道的近邻帧动态信息。四元数空间卷积层输出特征图序列Z＝{Z₁,Z₂,...,Z_t}，那每个通道的时间卷积操作如下：

是第i层第c个通道第s时间维的权值。假设输入序列的帧数为T，那时间卷积层输出序列的帧数为T'＝T-S+1。

步骤4，下采样层的操作：

下采样层采用平均采样操作，分别处理三个颜色通道。

步骤5，全连接层操作：

在全连接层将第二次下采样层提取的6张4×4×3(长×宽×通道数)的特征图，即96个纯四元数数组，拉伸为一个288维度的特征向量。

步骤6，长短时记忆单元的操作：

将全连接层的特征向量作为长短时记忆网络的输入，获取不同视频片段间的动态信息。

所述训练四元数时空卷积神经网络的具体步骤为：

输入训练视频集，采用BP算法训练构建的四元数时空卷积神经网络，首先随机初始化网络权值和偏置，逐层计算每层的输入和输出，再采用梯度下降法确定网络的最优权重值和最优偏置，获得训练视频集的分类准确率。根据训练结果调整卷积核的数量，大小，以及网络的层数，选取获得最高准确率的网络结构作为测试网络。为了防止过拟合现象，即训练结果非常好但测试结果较差的表现，在训练网络时，采用Dropout方法以概率ρ随机将一部分全连接层神经元的节点置为0，使网络稀疏化。本发明训练网络的学习率为0.1，迭代次数为5，全连接层的概率系数为0.6。

所述测试四元数时空卷积神经网络的具体步骤为：

参照图3，

所述四元数时空卷积神经网络为一个7层的网络，主要包含四元数空间卷积层，时间卷积层，下采样层，全连接层和长短时记忆单元，具体结构和参数为：输入大小为36×36×5的彩色图像序列，其中，36×36为每一帧的分辨率，5为图像序列的帧数；在第一层四元数空间卷积层QSC₁中，卷积核尺寸为5×5×3,其中5×5为图像分辨率，3为彩色图像的通道数，用3个卷积核产生3个32×32×5的特征图序列；在第二层时间卷积层TC₂中，将上一层特征图中的每个通道用1×1×3卷积核对进行时间卷积操作，其中，3为时间维度，得到3个32×32×3的特征图序列；在第三层下采样层S₃中，采用2×2窗口对上一层特征图中的每个通道进行下采样操作，得到3个16×16×3的特征图序列；在第四层四元数空间卷积层QSC₄中，卷积核尺寸为5×5×3,用6个卷积核对上一层的特征图进行四元数卷积操作，产生6个12×12×3的特征图序列；在第五层时间卷积层TC₅中，将上一层特征图中的每个通道用1×1×3卷积核对进行时间卷积操作，产生6个12×12×1的特征图序列；在第六层下采样层S₆中，采用3×3窗口对上一层特征图中的每个通道进行下采样操作，得到6个4×4×1的特征图序列；在第七层全连接层F₇中，将上一层每一个特征图都拉伸成一个特征向量，得到288维度的特征向量；在长短时记忆单元中，输入上一层全连接层的特征向量，并连接Softmax分类器进行动作分类。整个四元数时空卷积神经网络为7层结构，层数和各层参数的变化都会对分类结果产生不利影响。

本发明的方法可以推广到更多视频集的行为分类，虽然不同视频集中图像的尺寸存在差异，导致网络输入的图像序列尺度不同，卷积核的大小和数量也有所变化，但是网络的基本结构和每层的操作是不变的。

Claims

1.一种基于四元数时空卷积神经网络的人体行为识别方法，其特征在于，所述方法具体为：

(1)构建四元数时空卷积神经网络；

所述四元数时空卷积神经网络包括3P+1层结构；

F、f、P均为自然数。

2.根据权利要求1所述基于四元数时空卷积神经网络的人体行为识别方法，其特征在于，所述包含多种人体动作的F组彩色图像表示为四元数的形式为：

Q(x,y)＝Q_r(x,y)i+Q_g(x,y)j+Q_b(x,y)k

或表示为向量的形式：

Q(x,y)＝(Q_r(x,y),Q_g(x,y),Q_b(x,y))

Q＝(Q_r,Q_g,Q_b)；

所述四元数时空卷积神经网络的卷积核以四元数形式。

3.根据权利要求1所述基于四元数时空卷积神经网络的人体行为识别方法，其特征在于，在步骤(2)和步骤(3)中所述彩色图像经过预处理后作为样本输入，所述预处理方法为采用码本模型，以a×d的检测窗口提取图像中人体运动的关键区域，并保存区域图像；

检测窗口的大小根据所述彩色图像中人体的大小进行选择，以在包括人体的条件下尽可能小的尺寸；

a、d为常数。

4.根据权利要求2所述的基于四元数时空卷积神经网络的人体行为识别方法，其特征在于，所述空间卷积层的具体操作为：在四元数时空卷积层，卷积核被扩展成纯四元数的表示形式W＝(W_r,W_g,W_b)，按照下式的卷积操作，输入一张彩色图像Q＝(Q_r,Q_g,Q_b)，第i层第j个特征图中(x,y)位置的卷积结果为：

W×Q＝(W_gQ_b-W_bQ_g,W_bQ_r-W_rQ_b,W_rQ_g-W_gQ_r)

其中，f是sigmoid函数，b^i,j是第i层第j个特征图的偏置，

是第i层第j个特征图和第i-1层第p个特征图之间的卷积核的(n,m)位置的权值向量，N和M是卷积核的长和宽；Q⁽ⁱ ^-1),p(x+n,y+m)表示第i-1层第p个特征图Q中的(x+n,y+m)位置的像素；Z^i,i(x,y)表示第i层第j个特征图中(x,y)位置的卷积结果；

5.根据权利要求2所述的基于四元数时空卷积神经网络的人体行为识别方法，其特征在于，所述时间卷积层的具体操作为：在时间卷积层分别提取三个颜色通道的近邻帧动态信息，四元数空间卷积层输出特征图序列Z＝{Z₁,Z₂,...,Z_t}，每个通道的时间卷积操作如下：

是第i层第c个通道第s时间维的权值；

表示第i层第t帧第c通道的时间卷积结果；

6.根据权利要求3所述的基于四元数时空卷积神经网络的人体行为识别方法，其特征在于，所述提取图像中人体运动的关键区域是指，采用码本模型，得到背景和前景分割的二值图像，背景像素为1，人体运动的前景像素为0；然后，计算所有前景像素的中心点，并以其为a×d检测窗口的中心点，在原彩色图像中提取出人体运动的区域图像；

为进一步减少网络训练参数，采用最近邻插值法将区域图像缩放至g×h像素，并保存缩放后的图像；

g、h为常数。

7.根据权利要求3所述的基于四元数时空卷积神经网络的人体行为识别方法，其特征在于，输入视频集：

将Weizmann视频集中bending,jacking,jumping,pjumping,running,siding,skipping,walking,waving one hand,waving two hands动作的视频图像作为所述包含多种人体动作的F组彩色图像输入；所述四元数时空卷积神经网络为7层结构，检测窗口的大小为90×90，缩放后的区域图像像素为36×36。

8.根据权利要求7所述的基于四元数时空卷积神经网络的人体行为识别方法，其特征在于，

构建的四元数时空卷积层的网络结构为：

9.根据权利要求1-8任一所述的基于四元数时空卷积神经网络的人体行为识别方法，其特征在于，所述分类器为Softmax分类器。

10.根据权利要求1-8任一所述的基于四元数时空卷积神经网络的人体行为识别方法，其特征在于，采用BP算法训练构建的四元数时空卷积神经网络具体为：