CN107341452B - 基于四元数时空卷积神经网络的人体行为识别方法 - Google Patents

基于四元数时空卷积神经网络的人体行为识别方法 Download PDF

Info

Publication number
CN107341452B
CN107341452B CN201710471157.6A CN201710471157A CN107341452B CN 107341452 B CN107341452 B CN 107341452B CN 201710471157 A CN201710471157 A CN 201710471157A CN 107341452 B CN107341452 B CN 107341452B
Authority
CN
China
Prior art keywords
layer
convolution
time
neural network
quaternion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710471157.6A
Other languages
English (en)
Other versions
CN107341452A (zh
Inventor
孟勃
刘雪君
王晓霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Electric Power University
Original Assignee
Northeast Dianli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Dianli University filed Critical Northeast Dianli University
Priority to CN201710471157.6A priority Critical patent/CN107341452B/zh
Publication of CN107341452A publication Critical patent/CN107341452A/zh
Application granted granted Critical
Publication of CN107341452B publication Critical patent/CN107341452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明属于计算机视觉领域,具体涉及一种基于四元数时空卷积神经的人体行为识别方法。本发明具体实现步骤如下:(1)输入待识别的动作视频集;(2)图像预处理,提取人体运动的关键区域图像;(3)构建四元数时空卷积神经网络;(4)采用BP算法训练网络,输出训练结果;(5)输入视频测试集,输出测试结果。本发明利用码本模型提取人体运动区域图像,能够在复杂背景的情况下,检测出人体的运动。本发明的四元数时空卷积神经网络直接将彩色图像作为输入,解决了传统卷积神经网络将彩色图像转换为灰度图像或分通道处理过程中图像特征缺失的问题,提高了网络特征提取的性能,使得对人体行为的识别更加准确。

Description

基于四元数时空卷积神经网络的人体行为识别方法
技术领域
本发明属于计算机视觉领域,更进一步涉及目标识别中基于四元数时空卷积神经网络的人体行为识别方法,本发明可用于人机交互、智能监控等应用中。
背景技术
人体行为识别是计算机视觉、模式识别、图像处理以及人工智能等多学科交叉的一个重要研究方向,它在人机交互、智能监控和医疗领域均有着巨大的应用价值和理论意义。它主要针对包含人的运动图像序列进行分析处理,特征提取,运动分类,实现识别和理解人的个体动作、人与人之间的以及人与外界环境之间的交互行为。
相对基于静止图像的目标分类,人体行为识别是一个复杂的动态过程,它不仅包含视频中单帧图像的空间特征,还包含多帧之间的时间特征。所以,有效提取视频中人体的行为特征是非常具有挑战性的课题。近年来,人体行为方法主要分为两类:基于人工特征提取的人体行为识别和基于深度学习的人体行为识别。基于人工特征提取的人体行为识别方法的步骤为特征提取、特征表达和动作分类,其中人工提取的特征包含光流直方图、梯度直方图和时空兴趣点等。然而,这种方法对于不同视频数据集需要提取不同的特征,计算复杂度高,在现实环境下的应用存在局限性。
有人提出了基于深度学习的人体行为识别方法。这种方法是通过逐层参数训练的方式自动提取原始图像中的特征,从而获得能够区分不同动作的多种高层抽象表达。卷积神经网络是人体行为识别中应用最广泛、最有效的深度学习算法之一。传统的卷积神经网络已经被扩展到时空卷积神经网络,它不仅能够提取单帧的空间特征,还能提取近邻帧的时间特征。然而,目前的卷积神经网络模型只是针对灰度图像序列或RGB三通道分别处理的,没有考虑三通道的相关性和整体性,破坏了真实环境的颜色特征,影响识别方法在实际环境中的鲁棒性。
发明内容
针对上述问题,本发明提出一种基于四元数时空卷积神经网络的人体行为识别方法。与现有技术中其他基于卷积神经网络的人体动作识别方法相比,本发明将彩色图像序列直接作为网络的输入,在空间卷积层将R、G、B三个通道作为一个整体进行卷积操作,保证了它们的相互联系,并在时间卷积层提取连续帧间的动态信息,使得提取的特征信息更加丰富,识别率更高。
为实现上述目的,本发明采用以下方案:
一种基于四元数时空卷积神经网络的人体行为识别方法,所述方法具体为:
(1)构建四元数时空卷积神经网络;
(2)将包含多种人体动作的F组彩色图像表示为四元数的形式,将其中f组彩色图像作为训练集,将训练集作为训练样本输入所述四元数时空卷积神经网络,并利用BP算法训练训练集样本,得到训练好的四元数时空卷积神经网络;
(3)将其他F-f组彩色图像作为样本输入训练好的四元数时空卷积神经网络,利用训练好的四元数时空卷积神经网络将彩色图像分类,实现人体行为识别;
所述四元数时空卷积神经网络包括空间卷积层、时间卷积层、下采样层、全连接层、长短时记忆单元和分类器;样本经空间卷积层、时间卷积层、下采样层循环P次得到样本的特征图序列,全连接层将序列中每一个特征图都拉伸成一个特征向量,长短时记忆单元将特征向量输送至分类器,分类器依据特征向量将样本分类;
所述四元数时空卷积神经网络包括3P+1层结构;
F、f、P均为自然数。
进一步地,所述包含多种人体动作的F组彩色图像表示为四元数的形式为:
彩色图像Q中(x,y)位置的像素用一个纯四元数表示,公式如下:
Q(x,y)=Qr(x,y)i+Qg(x,y)j+Qb(x,y)k
或表示为向量的形式:
Q(x,y)=(Qr(x,y),Qg(x,y),Qb(x,y))
其中,Qr(x,y),Qg(x,y)和Qb(x,y)分别为像素的R,G和B通道的值;一张彩色图像可以表示为:
Q=(Qr,Qg,Qb);
所述四元数时空卷积神经网络的卷积核以四元数形式。
进一步地,在步骤(2)和步骤(3)中所述彩色图像经过预处理后作为样本输入,所述预处理方法为采用码本模型,以a×d的检测窗口提取图像中人体运动的关键区域,并保存区域图像;采用最近邻插值法将区域图像缩放至g×h像素中,并保存缩放后的图像;
检测窗口的大小根据所述彩色图像中人体的大小进行选择,以在包括人体的条件下尽可能小的尺寸;为了减少网络训练参数,采用最近邻插值法缩放图像。
a、d、g、h为常数。
进一步地,所述空间卷积层的具体操作为:在四元数时空卷积层,卷积核被扩展成纯四元数的表示形式W=(Wr,Wg,Wb),按照下式的卷积操作,输入一张彩色图像Q=(Qr,Qg,Qb),第i层第j个特征图中(x,y)位置的卷积结果为:
Figure BDA0001327139650000021
Figure BDA0001327139650000031
Figure BDA0001327139650000032
W×Q=(WgQb-WbQg,WbQr-WrQb,WrQg-WgQr)
其中,f是sigmoid函数,bi,j是第i层第j个特征图的偏置,
Figure BDA0001327139650000033
是第i层第j个特征图和第i-1层第p个特征图之间的卷积核的(n,m)位置的权值向量,N和M是卷积核的长和宽;Q(i-1),p(x+n,y+m)表示第i-1层第p个特征图Q中的(x+n,y+m)位置的像素;Zi,i(x,y)表示第i层第j个特征图中(x,y)位置的卷积结果;
Figure BDA0001327139650000034
操作是两个纯四元数向量元素对应相乘,提取的是每个通道上的空间特征;×操作是叉积操作,提取的是不同颜色通道的空间关系。
进一步地,所述时间卷积层的具体操作为:在时间卷积层分别提取三个颜色通道的近邻帧动态信息,四元数空间卷积层输出特征图序列Z={Z1,Z2,...,Zt},每个通道的时间卷积操作如下:
Figure BDA0001327139650000035
其中,f是sigmoid函数,bi是第i层的偏置,c是指图像的第c个通道,s是指时间卷积核的第s维,共S维,
Figure BDA0001327139650000036
是第i层第c个通道第s时间维的权值;
Figure BDA0001327139650000037
表示第i层第t帧第c通道的时间卷积结果;
假设输入序列的帧数为T,那时间卷积层输出序列的帧数为T'=T-S+1。
进一步地,所述提取图像中人体运动的关键区域是指,采用码本模型,得到背景和前景分割的二值图像,背景像素为1,人体运动的前景像素为0;然后,计算所有前景像素的中心点,并以其为a×d检测窗口的中心点,在原彩色图像中提取出人体运动的区域图像;采用最近邻插值法将区域图像缩放至g×h像素中,并保存缩放后的图像。
进一步地,
将Weizmann视频集中bending,jacking,jumping,pjumping,running,siding,skipping,walking,waving one hand,waving two hands动作的视频图像作为所述包含多种人体动作的N组彩色图像输入;所述四元数时空卷积神经网络为7层结构,检测窗口的大小为90×90,缩放后的区域图像像素为36×36。
进一步地,构建的四元数时空卷积层的网络结构为:
输入大小为36×36×5的彩色图像序列,其中,36×36为每一帧的分辨率,5为图像序列的帧数;
在第一层四元数空间卷积层QSC1中,卷积核尺寸为5×5×3,其中5×5为图像分辨率,3为彩色图像的通道数,用3个卷积核产生3个32×32×5的特征图序列;
在第二层时间卷积层TC2中,将第一层特征图中的每个通道用1×1×3卷积核对进行时间卷积操作,其中,3为时间维度,得到3个32×32×3的特征图序列;
在第三层下采样层S3中,采用2×2窗口对第二层特征图中的每个通道进行下采样操作,得到3个16×16×3的特征图序列;
在第四层四元数空间卷积层QSC4中,卷积核尺寸为5×5×3,用6个卷积核对第三层的特征图进行四元数卷积操作,产生6个12×12×3的特征图序列;
在第五层时间卷积层TC5中,将第四层特征图中的每个通道用1×1×3卷积核对进行时间卷积操作,产生6个12×12×1的特征图序列;
在第六层下采样层S6中,采用3×3窗口对第五层特征图中的每个通道进行下采样操作,得到6个4×4×1的特征图序列;
在第七层全连接层F7中,将第六层每一个特征图都拉伸成一个特征向量,得到288维度的特征向量;
在长短时记忆单元中,输入第七层全连接层的特征向量,并连接分类器进行动作分类。
进一步地,所述分类器为Softmax分类器。
进一步地,采用BP算法训练构建的四元数时空卷积神经网络具体为:
1)随机初始化四元数时空卷积神经网络中网络权值和偏置,逐层计算每层的输入和输出;
2)采用梯度下降法确定网络的最优权重值和最优偏置,获得训练集的分类准确率;
3)根据训练结果调整卷积核的数量、大小以及网络的层数,选取获得最高准确率的网络结构作为训练好的四元数时空卷积神经网络的结构。
本发明具体实现步骤如下:
(1)输入视频集:
将视频集中的视频图像逐帧输入到计算机;
(2)图像预处理:
(2a)采用码本模型,以90×90的检测窗口提取图像中人体运动的关键区域,并保存区域图像;
(2b)采用最近邻插值法将区域图像缩放至36×36像素中,并保存缩放后的图像;
(2c)随机选择5个人的动作样本作为训练集,其余的样本为测试集;
(3)构建四元数时空卷积神经网络:
(3a)将彩色图像表示为四元数的形式;
(3b)连续的5帧图像组成一个视频片段并输入到网络,并对其进行两次四元数空间卷积、时间卷积和下采样操作,得到卷积层和下采样层的特征图;
(3c)在全连接层将第二次下采样层提取的6张4×4×3(长×宽×通道数)的特征图,拉伸为一个288维度的特征向量;
(3d)将全连接层的特征向量作为长短时记忆网络的输入,获取不同视频片段间的动态信息;
(4)行为分类:
采用Softmax分类器对特征向量进行分类;
(5)训练网络:
采用BP算法(反向传播算法)训练训练集样本,得到训练好的四元数时空卷积神经网络;
(6)测试网络:
将测试样本集输入到训练好的四元数卷积神经网络,得到测试结果。与其他基准方法的测试结果进行比较,验证本方法的有效性。
本发明有益技术效果:本发明将彩色图像序列直接作为网络的输入,在空间卷积层将R、G、B三个通道作为一个整体进行卷积操作,保证了它们的相互联系,并在时间卷积层提取连续帧间的动态信息,使得提取的特征信息更加丰富,识别率更高。
附图说明
图1为本发明的方法框图;
图2为码本模型提取的人体运动区域图像的效果图;
图3为四元数时空卷积神经网络的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细描述。应当理解,此处所描述的具体实施方式仅用于解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参照图1,
一种基于四元数时空卷积神经网络的人体行为识别方法,所述人体行为识别方法是采用码本模型预处理视频集,并将其分为训练样本集和测试样本集,采用BP算法训练四元数卷积神经网络,将特征向量输入到Softmax分类器,得到训练样本集的行为分类结果。最后将测试样本集输入到训练好的四元数卷积神经网络中,得到测试样本集的行为分类结果。
所述输入数据集的具体步骤为:
将Weizmann视频集中bending,jacking,jumping,pjumping,running,siding,skipping,walking,waving one hand,waving two hands 10个动作的视频图像输入到计算机;
由于输入图像的尺寸过大会大大增加网络的计算量,所以本发明采用码本模型提取出图像中人体运动的关键区域,去除冗余背景。所述采用码本模型预处理图像,具体步骤为:采用码本模型,得到背景和前景分割的二值图像,背景像素为1,人体运动的前景像素为0;然后,计算所有前景像素的中心点,并以其为90×90检测窗口的中心点,在原彩色图像中提取出人体运动的区域图像;最后,采用最近邻插值法将区域图像缩放至36×36像素中,并保存缩放后的图像。由于不同行为视频集中的图像尺寸不同,所以采用的检测窗口也会不同。
图2为采用码本模型得到的二值图像,其中图中方框为检测窗口。
所述构建的四元数时空卷积神经网络的具体步骤为:
步骤1,将彩色图像表示为四元数的形式:
彩色图像Q中(x,y)位置的像素可有一个纯四元数表示,公式如下:
Q(x,y)=Qr(x,y)i+Qg(x,y)j+Qb(x,y)k
也可以表示为向量的形式:
Q(x,y)=(Qr(x,y),Qg(x,y),Qb(x,y))
其中,Qr(x,y),Qg(x,y)和Qb(x,y)分别为像素的R,G和B通道的值。一张彩色图像可以表示为:
Q=(Qr,Qg,Qb)
步骤2,四元数空间卷积层的操作:
在四元数空间卷积层,传统的2维度卷积核被扩展成纯四元数的表示形式W=(Wr,Wg,Wb),按照下式的卷积操作,输入一张彩色图像Q=(Qr,Qg,Qb),第i层第j个特征图中(x,y)位置的卷积结果为:
Figure BDA0001327139650000061
Figure BDA0001327139650000062
Figure BDA0001327139650000063
W×Q=(WgQb-WbQg,WbQr-WrQb,WrQg-WgQr)
其中,f是sigmoid函数,bi,j是第i层第j个特征图的偏置,
Figure BDA0001327139650000071
是第i层第j个特征图和第i-1层第p个特征图之间的卷积核的(n,m)位置的权值向量,N和M是卷积核的长和宽。
Figure BDA0001327139650000072
操作是两个纯四元数向量元素对应相乘,提取的是每个通道上的空间特征,×操作是叉积操作,提取的是不同颜色通道的空间关系。
步骤3,时间卷积层的操作:
在时间卷积层分别提取三个颜色通道的近邻帧动态信息。四元数空间卷积层输出特征图序列Z={Z1,Z2,...,Zt},那每个通道的时间卷积操作如下:
Figure BDA0001327139650000073
其中,f是sigmoid函数,bi是第i层的偏置,c是指图像的第c个通道,s是指时间卷积核的第s维,共S维,
Figure BDA0001327139650000074
是第i层第c个通道第s时间维的权值。假设输入序列的帧数为T,那时间卷积层输出序列的帧数为T'=T-S+1。
步骤4,下采样层的操作:
下采样层采用平均采样操作,分别处理三个颜色通道。
步骤5,全连接层操作:
在全连接层将第二次下采样层提取的6张4×4×3(长×宽×通道数)的特征图,即96个纯四元数数组,拉伸为一个288维度的特征向量。
步骤6,长短时记忆单元的操作:
将全连接层的特征向量作为长短时记忆网络的输入,获取不同视频片段间的动态信息。
所述训练四元数时空卷积神经网络的具体步骤为:
输入训练视频集,采用BP算法训练构建的四元数时空卷积神经网络,首先随机初始化网络权值和偏置,逐层计算每层的输入和输出,再采用梯度下降法确定网络的最优权重值和最优偏置,获得训练视频集的分类准确率。根据训练结果调整卷积核的数量,大小,以及网络的层数,选取获得最高准确率的网络结构作为测试网络。为了防止过拟合现象,即训练结果非常好但测试结果较差的表现,在训练网络时,采用Dropout方法以概率ρ随机将一部分全连接层神经元的节点置为0,使网络稀疏化。本发明训练网络的学习率为0.1,迭代次数为5,全连接层的概率系数为0.6。
所述测试四元数时空卷积神经网络的具体步骤为:
将测试样本集输入到训练好的四元数卷积神经网络,得到测试结果。与其他基准方法的测试结果进行比较,验证本方法的有效性。
参照图3,
所述四元数时空卷积神经网络为一个7层的网络,主要包含四元数空间卷积层,时间卷积层,下采样层,全连接层和长短时记忆单元,具体结构和参数为:输入大小为36×36×5的彩色图像序列,其中,36×36为每一帧的分辨率,5为图像序列的帧数;在第一层四元数空间卷积层QSC1中,卷积核尺寸为5×5×3,其中5×5为图像分辨率,3为彩色图像的通道数,用3个卷积核产生3个32×32×5的特征图序列;在第二层时间卷积层TC2中,将上一层特征图中的每个通道用1×1×3卷积核对进行时间卷积操作,其中,3为时间维度,得到3个32×32×3的特征图序列;在第三层下采样层S3中,采用2×2窗口对上一层特征图中的每个通道进行下采样操作,得到3个16×16×3的特征图序列;在第四层四元数空间卷积层QSC4中,卷积核尺寸为5×5×3,用6个卷积核对上一层的特征图进行四元数卷积操作,产生6个12×12×3的特征图序列;在第五层时间卷积层TC5中,将上一层特征图中的每个通道用1×1×3卷积核对进行时间卷积操作,产生6个12×12×1的特征图序列;在第六层下采样层S6中,采用3×3窗口对上一层特征图中的每个通道进行下采样操作,得到6个4×4×1的特征图序列;在第七层全连接层F7中,将上一层每一个特征图都拉伸成一个特征向量,得到288维度的特征向量;在长短时记忆单元中,输入上一层全连接层的特征向量,并连接Softmax分类器进行动作分类。整个四元数时空卷积神经网络为7层结构,层数和各层参数的变化都会对分类结果产生不利影响。
本发明的方法可以推广到更多视频集的行为分类,虽然不同视频集中图像的尺寸存在差异,导致网络输入的图像序列尺度不同,卷积核的大小和数量也有所变化,但是网络的基本结构和每层的操作是不变的。

Claims (10)

1.一种基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,所述方法具体为:
(1)构建四元数时空卷积神经网络;
(2)将包含多种人体动作的F组彩色图像表示为四元数的形式,将其中f组彩色图像作为训练集,将训练集作为训练样本输入所述四元数时空卷积神经网络,并利用BP算法训练训练集样本,得到训练好的四元数时空卷积神经网络;
(3)将其他F-f组彩色图像作为样本输入训练好的四元数时空卷积神经网络,利用训练好的四元数时空卷积神经网络将彩色图像分类,实现人体行为识别;
所述四元数时空卷积神经网络包括空间卷积层、时间卷积层、下采样层、全连接层、长短时记忆单元和分类器;样本经空间卷积层、时间卷积层、下采样层循环P次得到样本的特征图序列,全连接层将序列中每一个特征图都拉伸成一个特征向量,长短时记忆单元将特征向量输送至分类器,分类器依据特征向量将样本分类;
所述四元数时空卷积神经网络包括3P+1层结构;
F、f、P均为自然数。
2.根据权利要求1所述基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,所述包含多种人体动作的F组彩色图像表示为四元数的形式为:
彩色图像Q中(x,y)位置的像素用一个纯四元数表示,公式如下:
Q(x,y)=Qr(x,y)i+Qg(x,y)j+Qb(x,y)k
或表示为向量的形式:
Q(x,y)=(Qr(x,y),Qg(x,y),Qb(x,y))
其中,Qr(x,y),Qg(x,y)和Qb(x,y)分别为像素的R,G和B通道的值;一张彩色图像可以表示为:
Q=(Qr,Qg,Qb);
所述四元数时空卷积神经网络的卷积核以四元数形式。
3.根据权利要求1所述基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,在步骤(2)和步骤(3)中所述彩色图像经过预处理后作为样本输入,所述预处理方法为采用码本模型,以a×d的检测窗口提取图像中人体运动的关键区域,并保存区域图像;
检测窗口的大小根据所述彩色图像中人体的大小进行选择,以在包括人体的条件下尽可能小的尺寸;
a、d为常数。
4.根据权利要求2所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,所述空间卷积层的具体操作为:在四元数时空卷积层,卷积核被扩展成纯四元数的表示形式W=(Wr,Wg,Wb),按照下式的卷积操作,输入一张彩色图像Q=(Qr,Qg,Qb),第i层第j个特征图中(x,y)位置的卷积结果为:
Figure FDA0001327139640000021
Figure FDA0001327139640000022
Figure FDA0001327139640000023
W×Q=(WgQb-WbQg,WbQr-WrQb,WrQg-WgQr)
其中,f是sigmoid函数,bi,j是第i层第j个特征图的偏置,
Figure FDA0001327139640000024
是第i层第j个特征图和第i-1层第p个特征图之间的卷积核的(n,m)位置的权值向量,N和M是卷积核的长和宽;Q(i -1),p(x+n,y+m)表示第i-1层第p个特征图Q中的(x+n,y+m)位置的像素;Zi,i(x,y)表示第i层第j个特征图中(x,y)位置的卷积结果;
Figure FDA0001327139640000025
操作是两个纯四元数向量元素对应相乘,提取的是每个通道上的空间特征;×操作是叉积操作,提取的是不同颜色通道的空间关系。
5.根据权利要求2所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,所述时间卷积层的具体操作为:在时间卷积层分别提取三个颜色通道的近邻帧动态信息,四元数空间卷积层输出特征图序列Z={Z1,Z2,...,Zt},每个通道的时间卷积操作如下:
Figure FDA0001327139640000026
其中,f是sigmoid函数,bi是第i层的偏置,c是指图像的第c个通道,s是指时间卷积核的第s维,共S维,
Figure FDA0001327139640000027
是第i层第c个通道第s时间维的权值;
Figure FDA0001327139640000028
表示第i层第t帧第c通道的时间卷积结果;
假设输入序列的帧数为T,那时间卷积层输出序列的帧数为T'=T-S+1。
6.根据权利要求3所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,所述提取图像中人体运动的关键区域是指,采用码本模型,得到背景和前景分割的二值图像,背景像素为1,人体运动的前景像素为0;然后,计算所有前景像素的中心点,并以其为a×d检测窗口的中心点,在原彩色图像中提取出人体运动的区域图像;
为进一步减少网络训练参数,采用最近邻插值法将区域图像缩放至g×h像素,并保存缩放后的图像;
g、h为常数。
7.根据权利要求3所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,输入视频集:
将Weizmann视频集中bending,jacking,jumping,pjumping,running,siding,skipping,walking,waving one hand,waving two hands动作的视频图像作为所述包含多种人体动作的F组彩色图像输入;所述四元数时空卷积神经网络为7层结构,检测窗口的大小为90×90,缩放后的区域图像像素为36×36。
8.根据权利要求7所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,
构建的四元数时空卷积层的网络结构为:
输入大小为36×36×5的彩色图像序列,其中,36×36为每一帧的分辨率,5为图像序列的帧数;
在第一层四元数空间卷积层QSC1中,卷积核尺寸为5×5×3,其中5×5为图像分辨率,3为彩色图像的通道数,用3个卷积核产生3个32×32×5的特征图序列;
在第二层时间卷积层TC2中,将第一层特征图中的每个通道用1×1×3卷积核对进行时间卷积操作,其中,3为时间维度,得到3个32×32×3的特征图序列;
在第三层下采样层S3中,采用2×2窗口对第二层特征图中的每个通道进行下采样操作,得到3个16×16×3的特征图序列;
在第四层四元数空间卷积层QSC4中,卷积核尺寸为5×5×3,用6个卷积核对第三层的特征图进行四元数卷积操作,产生6个12×12×3的特征图序列;
在第五层时间卷积层TC5中,将第四层特征图中的每个通道用1×1×3卷积核对进行时间卷积操作,产生6个12×12×1的特征图序列;
在第六层下采样层S6中,采用3×3窗口对第五层特征图中的每个通道进行下采样操作,得到6个4×4×1的特征图序列;
在第七层全连接层F7中,将第六层每一个特征图都拉伸成一个特征向量,得到288维度的特征向量;
在长短时记忆单元中,输入第七层全连接层的特征向量,并连接分类器进行动作分类。
9.根据权利要求1-8任一所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,所述分类器为Softmax分类器。
10.根据权利要求1-8任一所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,采用BP算法训练构建的四元数时空卷积神经网络具体为:
1)随机初始化四元数时空卷积神经网络中网络权值和偏置,逐层计算每层的输入和输出;
2)采用梯度下降法确定网络的最优权重值和最优偏置,获得训练集的分类准确率;
3)根据训练结果调整卷积核的数量、大小以及网络的层数,选取获得最高准确率的网络结构作为训练好的四元数时空卷积神经网络的结构。
CN201710471157.6A 2017-06-20 2017-06-20 基于四元数时空卷积神经网络的人体行为识别方法 Active CN107341452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710471157.6A CN107341452B (zh) 2017-06-20 2017-06-20 基于四元数时空卷积神经网络的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710471157.6A CN107341452B (zh) 2017-06-20 2017-06-20 基于四元数时空卷积神经网络的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN107341452A CN107341452A (zh) 2017-11-10
CN107341452B true CN107341452B (zh) 2020-07-14

Family

ID=60221499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710471157.6A Active CN107341452B (zh) 2017-06-20 2017-06-20 基于四元数时空卷积神经网络的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN107341452B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154120A (zh) * 2017-12-25 2018-06-12 上海七牛信息技术有限公司 视频分类模型训练方法、装置、存储介质及电子设备
CN108898042B (zh) * 2017-12-27 2021-10-22 浩云科技股份有限公司 一种应用于atm机舱内用户异常行为的检测方法
CN110163640B (zh) 2018-02-12 2023-12-08 华为技术有限公司 一种在视频中植入广告的方法及计算机设备
EP3561727A1 (en) * 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for extracting dynamic information on a scene using a convolutional neural network
CN109101876A (zh) * 2018-06-28 2018-12-28 东北电力大学 基于长短时记忆网络的人体行为识别方法
CN109086802B (zh) * 2018-07-10 2022-04-08 东南大学 一种基于八元数卷积神经网络的图像分类方法
CN109034034A (zh) * 2018-07-12 2018-12-18 广州麦仑信息科技有限公司 一种基于强化学习算法优化卷积神经网络的静脉识别方法
EP3847958A4 (en) * 2018-09-04 2021-09-08 Shenzhen Institutes of Advanced Technology ARRHYTHMIA DETECTION METHOD AND APPARATUS, ELECTRONIC DEVICE AND COMPUTER INFORMATION MEDIA
CN109325435B (zh) * 2018-09-15 2022-04-19 天津大学 基于级联神经网络的视频动作识别及定位方法
CN109446924B (zh) * 2018-10-10 2021-07-13 南京信息工程大学 一种基于四元数广义判别分析的rgb-d目标识别方法
CN109389089B (zh) * 2018-10-14 2022-03-08 深圳市能信安科技股份有限公司 基于人工智能算法的多人行为识别方法及装置
CN111242146B (zh) * 2018-11-09 2023-08-25 蔚来(安徽)控股有限公司 基于卷积神经网络的poi信息分类
CN111310516B (zh) * 2018-12-11 2023-08-29 杭州海康威视数字技术股份有限公司 一种行为识别方法和装置
CN109886358B (zh) * 2019-03-21 2022-03-08 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
CN110837830B (zh) * 2019-10-24 2023-06-23 上海兑观信息科技技术有限公司 一种基于时空卷积神经网络的图像字符识别方法
CN110968697B (zh) * 2019-12-20 2023-06-16 合肥讯飞数码科技有限公司 文本分类方法、装置、设备及可读存储介质
CN111339892B (zh) * 2020-02-21 2023-04-18 青岛联合创智科技有限公司 一种基于端到端3d卷积神经网络的泳池溺水检测方法
CN111860542A (zh) * 2020-07-22 2020-10-30 海尔优家智能科技(北京)有限公司 用于识别物品类别的方法及装置、电子设备
CN111860390A (zh) * 2020-07-27 2020-10-30 西安建筑科技大学 一种电梯候梯人数检测统计方法、装置、设备及介质
CN112098358B (zh) * 2020-09-07 2021-12-17 燕山大学 基于四元数卷积神经网络的近红外光谱并行融合定量检测方法
CN112215130B (zh) * 2020-10-10 2022-08-16 吉林大学 一种基于2.5d/3d混合卷积模型的人体行为识别方法
CN112669255B (zh) * 2020-11-03 2024-02-13 浙江工业大学 一种基于时空全卷积循环神经网络的零件加工表面预测方法
CN112487989B (zh) * 2020-12-01 2022-07-15 重庆邮电大学 一种基于胶囊-长短时记忆神经网络的视频表情识别方法
CN112560625B (zh) * 2020-12-09 2022-09-23 河海大学 基于时空联合响应网络的智能家居系统及其控制方法
CN112614196B (zh) * 2020-12-16 2022-06-28 湖南科技大学 基于四元数卷积神经网络的图像鲁棒性哈希认证方法
CN112597856B (zh) * 2020-12-16 2023-09-26 中山大学 一种基于部分解耦条件下通道分配的动作识别方法及系统
CN113221693B (zh) * 2021-04-29 2023-07-28 苏州大学 一种动作识别方法
CN113034628B (zh) * 2021-04-29 2023-09-26 南京信息工程大学 一种彩色图像jpeg2000重压缩检测方法
CN113033501A (zh) * 2021-05-06 2021-06-25 泽恩科技有限公司 一种基于关节四元数的人体分类方法及装置
CN113537232B (zh) * 2021-05-31 2023-08-22 大连民族大学 双通道交互时间卷积网络、近景视频动作分割方法、计算机系统和介质
CN113378004A (zh) * 2021-06-03 2021-09-10 中国农业大学 基于FANet的农民劳作行为识别方法和装置、设备及介质
CN113459102B (zh) * 2021-07-09 2022-07-05 郑州大学 一种基于投影重构的人体上肢意图识别方法
CN113780109B (zh) * 2021-08-24 2023-11-24 聊城大学 基于四元数时空卷积神经网络的斑马线检测方法及系统
CN116743506B (zh) * 2023-08-14 2023-11-21 南京信息工程大学 一种基于四元数卷积神经网络的加密流量识别方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306273B1 (en) * 2009-12-28 2012-11-06 Ball Aerospace & Technologies Corp. Method and apparatus for LIDAR target identification and pose estimation
CN105787478A (zh) * 2016-04-14 2016-07-20 中南大学 基于神经网络和灵敏度参数的人脸转向识别方法
CN105938564A (zh) * 2016-04-29 2016-09-14 无锡中科智能农业发展有限责任公司 基于主成分分析和神经网络的水稻病害识别方法及系统
US9536135B2 (en) * 2012-06-18 2017-01-03 Microsoft Technology Licensing, Llc Dynamic hand gesture recognition using depth data
CN106407903A (zh) * 2016-08-31 2017-02-15 四川瞳知科技有限公司 基于多尺度卷积神经网络的实时人体异常行为识别方法
CN106485201A (zh) * 2016-09-09 2017-03-08 首都师范大学 超复数加密域的彩色人脸识别方法
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306273B1 (en) * 2009-12-28 2012-11-06 Ball Aerospace & Technologies Corp. Method and apparatus for LIDAR target identification and pose estimation
US9536135B2 (en) * 2012-06-18 2017-01-03 Microsoft Technology Licensing, Llc Dynamic hand gesture recognition using depth data
CN105787478A (zh) * 2016-04-14 2016-07-20 中南大学 基于神经网络和灵敏度参数的人脸转向识别方法
CN105938564A (zh) * 2016-04-29 2016-09-14 无锡中科智能农业发展有限责任公司 基于主成分分析和神经网络的水稻病害识别方法及系统
CN106407903A (zh) * 2016-08-31 2017-02-15 四川瞳知科技有限公司 基于多尺度卷积神经网络的实时人体异常行为识别方法
CN106485201A (zh) * 2016-09-09 2017-03-08 首都师范大学 超复数加密域的彩色人脸识别方法
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置

Also Published As

Publication number Publication date
CN107341452A (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
WO2022036777A1 (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN109543602B (zh) 一种基于多视角图像特征分解的行人再识别方法
CN111259850A (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN111639719B (zh) 基于时空运动和特征融合的足迹图像检索方法
CN113221641B (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN111832516B (zh) 基于无监督视频表示学习的视频行为识别方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN110097029B (zh) 基于Highway网络多视角步态识别的身份认证方法
CN112818764A (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
CN113221694A (zh) 一种动作识别方法
CN111241963A (zh) 基于交互建模的第一人称视角视频交互行为识别方法
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
CN109886160B (zh) 一种非限定条件下的人脸识别方法
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN116311472B (zh) 基于多层次图卷积网络的微表情识别方法及装置
CN112560618A (zh) 基于骨架和视频特征融合的行为分类方法
Elbarawy et al. Facial expressions recognition in thermal images based on deep learning techniques
CN111209886A (zh) 一种基于深度神经网络的快速行人再识别方法
CN114120076B (zh) 基于步态运动估计的跨视角视频步态识别方法
CN114863520A (zh) 一种基于c3d-sa的视频表情识别方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN113591797A (zh) 一种深度视频行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant