CN107103277A - 一种基于深度相机和3d卷积神经网络的步态识别方法 - Google Patents

一种基于深度相机和3d卷积神经网络的步态识别方法 Download PDF

Info

Publication number
CN107103277A
CN107103277A CN201710112825.6A CN201710112825A CN107103277A CN 107103277 A CN107103277 A CN 107103277A CN 201710112825 A CN201710112825 A CN 201710112825A CN 107103277 A CN107103277 A CN 107103277A
Authority
CN
China
Prior art keywords
mrow
msub
mtd
mtr
gait
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710112825.6A
Other languages
English (en)
Other versions
CN107103277B (zh
Inventor
王海滨
马胜涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
In Department Of Science And Technology (beijing) Co Ltd Realism
Original Assignee
In Department Of Science And Technology (beijing) Co Ltd Realism
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by In Department Of Science And Technology (beijing) Co Ltd Realism filed Critical In Department Of Science And Technology (beijing) Co Ltd Realism
Priority to CN201710112825.6A priority Critical patent/CN107103277B/zh
Publication of CN107103277A publication Critical patent/CN107103277A/zh
Application granted granted Critical
Publication of CN107103277B publication Critical patent/CN107103277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于深度相机和3D卷积神经网络的步态识别方法,其特征在于,包括步骤:a)利用深度相机采集行人步态的RGB‑D图像序列;b)获取每帧图像的步态剪影以及剪影对应的深度图像剪影;c)将每帧剪影图像和深度图像剪影组成双通道的步态图像;d)归一化步态图像序列;e)将步态图像序列输入3D卷积神经网络,前向传播并输出识别结果。

Description

一种基于深度相机和3D卷积神经网络的步态识别方法
技术领域
本发明是一种基于深度相机和3D卷积神经网络的步态识别方法,涉及图像处理、模式识别、深度传感器、深度学习等技术领域。
背景技术
步态识别是一种生物特征识别技术,能够根据视频序列中行人走路的姿态识别行人身份;与传统的指纹、人脸、虹膜等生物识别技术相比,具有非接触识别、易于隐藏,采集方便等优势,尤其适用于远距离场景下的目标识别任务。深度相机是一种能够同时记录RGB图像和深度图像的传感器,与传统相机相比,能够为目标识别任务提供更丰富、更立体的图像信息。卷积神经网络是一种常用的深度学习框架,随着深度学习在图像处理和模式识别方面的应用,卷积神经网络的研究和应用也越来越受到人们的重视,传统的2D卷积神经网络是以图像为输入数据,提取图像数据的空间分布特征,3D卷积神经网络是以连续的图像序列或视频序列为输入,能够同时提取输入数据在时间和空间的分布特征。深度相机和3D卷积神经网络结合应用将会显著提高步态识别的准确率。
发明内容
本发明的目的在于提供了一种基于深度相机和3D卷积神经网络的步态识别方法,其特征在于,包括步骤:a)利用深度相机采集行人步态的RGB-D图像序列;b)获取每帧图像的步态剪影以及剪影对应的深度图像剪影;c)将每帧剪影图像和深度图像剪影组成双通道的步态图像;d)归一化步态图像序列;e)将步态图像序列输入3D卷积神经网络,前向传播并输出识别结果。
优选地,所述步骤d的具体步骤为:
d1)定位步态剪影的最上和最下像素点,从而计算步态剪影的高度h0
d2)定位步态剪影的最左和最右像素点,从而计算步态剪影的宽度w0
d3)根据步态剪影的高度和宽度,计算剪影的质心位置;
d4)给定一个纵横比r,以质心为中心,用w0×h0的矩形裁剪步态图像,其中w0=h0*r;
d5)将已裁剪的步态图像等比例缩放到3D卷积神经网络的输入尺寸;
d6)根据时间顺序将步态图像重组成步态序列I1,其维度为wi×hi×ci×m,w1,h1,c1,m1分别为I1的宽度,高度,通道数和序列帧数。
优选地,所述步骤e中3D卷积神经网络前向传播的步骤为:
e1)第一组3D卷积层,对步骤d)所得的图像序列进行3D卷积操作,卷积核大小为kw1×kh1×km1,步长为ks1,卷积核个数为kn1;其卷积输出为
其中v1j(x,y,s)表示第j个卷积核的第s个特征图在位置(x,y)处的值,b1j为第j个卷积偏移量,ω1j为第j个卷积权重,ω1j(α,β,γ)和I1(x,y,s)均为c1维向量;将每个卷积核对应的特征图归为一组,则该层共有kn1组特征图,每组(m1-km1)/ks1+1个特征图,每个特征图的尺寸为:
((w1-kw1)/ks1+1)×((h1-kh1)/ks1+1);
其输出维度为:
((w1-kw1)/ks1+1)×((h1-kh1)/ks1+1)×((m1-km1)/ks1+1)×kn1
e2)第一组ReLU激活函数层,对步骤e1)的输出使用ReLU激活函数,其输出为:
e3)第一组3D池化层,对步骤e2)的输出进行最大值池化,核大小为2×2×2,步长为2,按照步骤e1)中的分组规则,池化层对每组特征图分别进行池化操作,其输出为:
p1j(x,y,s)=max{y1j(x+α,y+β,s+γ)|α,β,γ=0,1}
池化层的输出维度为:
((w1-kw1)/ks1+1)/2×((h1-kh1)/ks1+1)/2×((m1-km1)/ks1+1)/2×kn1
e4)第一组时序重构层,对步骤e3)的输出进行时序重构;按照步骤e1)所述,3D卷积层输入的图像序列是按照时序排列的,输出的特征图序列在每个分组内的特征图仍然是按照时序排列,不同分组之间的特征图不满足时序关系,而不同分组中相同位置的特征图处于同一时间节点;按照e3)所述,3D池化层的输出同样满足上述时序规则;为了使后续数据依然满足时序要求,将不同分组中同一位置的特征图组合在一起看作一幅多通道图像,并将这些图像按照时序排列;令该时序重构层的输出为I2,其维度为w2×h2×c2×m2,则:
I2(x,y,s,j)表示I2第s组第j个特征图在位置(x,y)处的值;
e5)第二组3D卷积层,对步骤e4)的输出进行3D卷积操作,卷积核大小为kw2×kh2×km2,步长为ks2,卷积核个数为kn2;其卷积输出为
其中v2j(x,y,s)表示第j个卷积核的第s个特征图在位置(x,y)处的值,b2j为第j个卷积偏移量,ω2j为第j个卷积权重,ω2j(α,β,γ)和I2(x,y,s)均为c2维向量;其输出维度为
((w2-kw2)/ks2+1)×((h2-kh2)/ks2+1)×((m2-km2)/ks2+1)×kn2
e6)第二组ReLU激活函数层,对步骤e5)的输出使用ReLU激活函数,其输出为:
e7)第二组3D池化层,对步骤e6)的输出进行最大值池化,核大小为2×2×2,步长为2,其输出为:
p2j(x,y,s)=max{y2j(x+α,y+β,s+γ)|α,β,γ=0,1}
输出维度((w2-kw2)/ks2+1)/2×((h2-kh2)/ks2+1)/2×((m2-km2)/ks2+1)/2×kn2
e8)第二组时序重构层,对步骤e7)的输出进行时序重构;令该时序重构层的输出为I3,其维度为w3×h3×c3×m3,则:
I3(x,y,s,j)表示I3第s组第j个特征图在位置(x,y)处的值;
e9)2D卷积网络,对步骤e8)的输出进行2D卷积和分类识别,采用裁剪的VGG16网络,具体方案为:删除conv1_1~pool2的网络结构,I3作为conv3_1的输入,fc8的维度与类别数目一致。应当理解,前述大体的描述和后续详尽的描述均为示例性说明和解释,并不应当用作对本发明所要求保护内容的限制。
附图说明
参考随附的附图,本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明,其中:
图1示出了根据本发明的一种基于深度相机和3D卷积神经网络的步态识别方法的流程图;
图2示出了根据本发明的一种基于深度相机和3D卷积神经网络的步态识别方法中归一化步态图像序列的流程图;
图3示出了根据本发明的一种基于深度相机和3D卷积神经网络的步态识别方法中3D卷积神经网络的结构图。
具体实施方式
通过参考示范性实施例,本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本发明并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明作进一步的详细描述。
如图1所示,一种基于深度相机和3D卷积神经网络的步态识别方法的步骤为:
步骤101:利用深度相机采集行人步态的RGB-D图像序列;
步骤102:获取每帧图像的步态剪影以及剪影对应的深度图像剪影;
步骤103:将每帧剪影图像和深度图像剪影组成双通道的步态图像;
步骤104:归一化步态图像序列;
根据本发明的一个实施例,所述步骤104的具体步骤为:
步骤201:定位步态剪影的最上和最下像素点,从而计算步态剪影的高度h0
步骤202:定位步态剪影的最左和最右像素点,从而计算步态剪影的宽度w0
步骤203:根据步态剪影的高度和宽度,计算剪影的质心位置;
步骤204:给定一个纵横比r,以质心为中心,用w0×h0的矩形裁剪步态图像,其中w0=h0*r;
步骤205:将已裁剪的步态图像等比例缩放到3D卷积神经网络的输入尺寸;
步骤206:根据时间顺序将步态图像重组成步态序列I1,其维度为wi×hi×ci×mi,w1,h1,c1,m1分别为I1的宽度,高度,通道数和序列帧数。
步骤105:将步态图像序列输入3D卷积神经网络,前向传播并输出识别结果。
根据本发明的一个实施例,所述步骤105的3D卷积神经网络前向传播的步骤为:
步骤301:3D Conv_1,第一组3D卷积层,对步骤104所得的图像序列进行3D卷积操作,卷积核大小为kw1×kh1×km1,步长为ks1,卷积核个数为kn1;其卷积输出为
其中v1j(x,y,s)表示第j个卷积核的第s个特征图在位置(x,y)处的值,b1j为第j个卷积偏移量,ω1j为第j个卷积权重,ω1j(α,β,γ)和I1(x,y,s)均为c1维向量;将每个卷积核对应的特征图归为一组,则该层共有kn1组特征图,每组(m1-km1)/ks1+1个特征图,每个特征图的尺寸为:
((w1-kw1)/ks1+1)×((h1-kh1)/ks1+1);
其输出维度为:
((w1-kw1)/ks1+1)×((h1-kh1)/ks1+1)×((m1-km1)/ks1+1)×kn1
步骤302:ReLU_1,第一组ReLU激活函数层,对步骤301的输出使用ReLU激活函数,其输出为:
步骤303:3D Pool_1,第一组3D池化层,对步骤302的输出进行最大值池化,核大小为2×2×2,步长为2,按照步骤301中的分组规则,池化层对每组特征图分别进行池化操作,其输出为:
p1j(x,y,s)=max{y1j(x+α,y+β,s+γ)|α,β,γ=0,1}
池化层的输出维度为:
((w1-kw1)/ks1+1)/2×((h1-kh1)/ks1+1)/2×((m1-km1)/ks1+1)/2×kn1
步骤304:Restruct_1,第一组时序重构层,对步骤303的输出进行时序重构;按照步骤301所述,3D卷积层输入的图像序列是按照时序排列的,输出的特征图序列在每个分组内的特征图仍然是按照时序排列,不同分组之间的特征图不满足时序关系,而不同分组中相同位置的特征图处于同一时间节点;按照303所述,3D池化层的输出同样满足上述时序规则;为了使后续数据依然满足时序要求,将不同分组中同一位置的特征图组合在一起看作一幅多通道图像,并将这些图像按照时序排列;令该时序重构层的输出为I2,其维度为w2×h2×c2×m2,则:
I2(x,y,s,j)表示I2第s组第j个特征图在位置(x,y)处的值;
步骤305:3D Conv_2,第二组3D卷积层,对步骤304的输出进行3D卷积操作,卷积核大小为kw2×kh2×km2,步长为ks2,卷积核个数为kn2;其卷积输出为
其中v2j(x,y,s)表示第j个卷积核的第s个特征图在位置(x,y)处的值,b2j为第j个卷积偏移量,ω2j为第j个卷积权重,ω2j(α,β,γ)和I2(x,y,s)均为c2维向量;其输出维度为
((w2-kw2)/ks2+1)×((h2-kh2)/ks2+1)×((m2-km2)/ks2+1)×kn2
步骤306:ReLU_2,第二组ReLU激活函数层,对步骤305的输出使用ReLU激活函数,其输出为:
步骤307:3D Pool_2,第二组3D池化层,对步骤306的输出进行最大值池化,核大小为2×2×2,步长为2,其输出为:
p2j(x,y,s)=max{y2j(x+α,y+β,s+γ)|α,β,γ=0,1}
输出维度((w2-kw2)/ks2+1)/2×((h2-kh2)/ks2+1)/2×((m2-km2)/ks2+1)/2×kn2
步骤308:Restruct_2,第二组时序重构层,对步骤307的输出进行时序重构;令该时序重构层的输出为I3,其维度为w3×h3×c3×m3,则:
I3(x,y,s,j)表示I3第s组第j个特征图在位置(x,y)处的值;
步骤309:VGG16_Reduced,2D卷积网络,对步骤308的输出进行2D卷积和分类识别,采用裁剪的VGG16网络,具体方案为:删除conv1_1~pool2的网络结构,I3作为conv3_1的输入,fc8的维度与类别数目一致。
综上,本发明一种基于深度相机和3D卷积神经网络的步态识别方法,以深度相机作为采集装置,同时考虑步态图像的颜色信息和深度信息,采用3D池化和时序重构操作,提供了一种新颖的3D卷积神经网络结构,直接以步态图像序列为输入,能够同时提取步态序列的时间特征和空间特征,有效的提高了步态识别的准确率。
结合这里披露的本发明的说明和实践,本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的,本发明的真正范围和主旨均由权利要求所限定。

Claims (3)

1.一种基于深度相机和3D卷积神经网络的步态识别方法,其特征在于,包括步骤:
a)利用深度相机采集行人步态的RGB-D图像序列;
b)获取每帧图像的步态剪影以及剪影对应的深度图像剪影;
c)将每帧剪影图像和深度图像剪影组成双通道的步态图像;
d)归一化步态图像序列;
e)将步态图像序列输入3D卷积神经网络,前向传播并输出识别结果。
2.根据权利要求1所述的方法,其特征在于:所述步骤d的具体步骤为:
d1)定位步态剪影的最上和最下像素点,计算步态剪影的高度h0
d2)定位步态剪影的最左和最右像素点,计算步态剪影的宽度w0
d3)根据步态剪影的高度和宽度,计算剪影的质心位置;
d4)给定一个纵横比r,以质心为中心,用w0×h0的矩形裁剪步态图像,其中w0=h0*r;
d5)将已裁剪的步态图像等比例缩放到3D卷积神经网络的输入尺寸;
d6)根据时间顺序将步态图像重组成步态序列I1,其维度为wi×hi×ci×m,w1,h1,c1,m1分别为I1的宽度,高度,通道数和序列帧数。
3.根据权利要求1所述的方法,其特征在于:所述步骤e中3D卷积神经网络前向传播的步骤为:
e1)第一组3D卷积层,对步骤d)所得的图像序列进行3D卷积操作,卷积核大小为kw1×kh1×km1,步长为ks1,卷积核个数为kn1;其卷积输出为
<mrow> <msub> <mi>v</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>b</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msub> <mo>+</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>&amp;alpha;</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <msub> <mi>kw</mi> <mn>1</mn> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>&amp;beta;</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <msub> <mi>kh</mi> <mn>1</mn> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>&amp;gamma;</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <msub> <mi>km</mi> <mn>1</mn> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>&amp;omega;</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>&amp;alpha;</mi> <mo>,</mo> <mi>&amp;beta;</mi> <mo>,</mo> <mi>&amp;gamma;</mi> <mo>)</mo> </mrow> <msub> <mi>gI</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>&amp;alpha;</mi> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>&amp;beta;</mi> <mo>,</mo> <mi>s</mi> <mo>+</mo> <mi>&amp;gamma;</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>j</mi> <mo>&amp;Element;</mo> <mo>&amp;lsqb;</mo> <mn>0</mn> <mo>,</mo> <msub> <mi>kn</mi> <mn>1</mn> </msub> <mo>-</mo> <mn>1</mn> <mo>&amp;rsqb;</mo> </mrow>
其中v1j(x,y,s)表示第j个卷积核的第s个特征图在位置(x,y)处的值,b1j为第j个卷积偏移量,ω1j为第j个卷积权重,ω1j(α,β,γ)和I1(x,y,s)均为c1维向量;将每个卷积核对应的特征图归为一组,则该层共有kn1组特征图,每组(m1-km1)/ks1+1个特征图,每个特征图的尺寸为:
((w1-kw1)/ks1+1)×((h1-kh1)/ks1+1);
其输出维度为:
((w1-kw1)/ks1+1)×((h1-kh1)/ks1+1)×((m1-km1)/ks1+1)×kn1
e2)第一组ReLU激活函数层,对步骤e1)的输出使用ReLU激活函数,其输出为:
<mrow> <msub> <mi>y</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>v</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msub> <mi>v</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
e3)第一组3D池化层,对步骤e2)的输出进行最大值池化,核大小为2×2×2,步长为2,按照步骤e1)中的分组规则,池化层对每组特征图分别进行池化操作,其输出为:
p1j(x,y,s)=max{y1j(x+α,y+β,s+γ)|α,β,γ=0,1}
池化层的输出维度为:
((w1-kw1)/ks1+1)/2×((h1-kh1)/ks1+1)/2×((m1-km1)/ks1+1)/2×kn1
e4)第一组时序重构层,对步骤e3)的输出进行时序重构;按照步骤e1)所述,3D卷积层输入的图像序列是按照时序排列的,输出的特征图序列在每个分组内的特征图仍然是按照时序排列,不同分组之间的特征图不满足时序关系,而不同分组中相同位置的特征图处于同一时间节点;按照e3)所述,3D池化层的输出同样满足上述时序规则;为了使后续数据依然满足时序要求,将不同分组中同一位置的特征图组合在一起看作一幅多通道图像,并将这些图像按照时序排列;令该时序重构层的输出为I2,其维度为w2×h2×c2×m2,则:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>kw</mi> <mn>1</mn> </msub> </mrow> <mo>)</mo> <mo>/</mo> <msub> <mi>ks</mi> <mn>1</mn> </msub> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>h</mi> <mn>2</mn> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>kh</mi> <mn>1</mn> </msub> </mrow> <mo>)</mo> <mo>/</mo> <msub> <mi>ks</mi> <mn>1</mn> </msub> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>=</mo> <msub> <mi>kn</mi> <mn>1</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>m</mi> <mn>2</mn> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <msub> <mi>m</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>km</mi> <mn>1</mn> </msub> </mrow> <mo>)</mo> <mo>/</mo> <msub> <mi>ks</mi> <mn>1</mn> </msub> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>I</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>s</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>p</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
I2(x,y,s,j)表示I2第s组第j个特征图在位置(x,y)处的值;
e5)第二组3D卷积层,对步骤e4)的输出进行3D卷积操作,卷积核大小为kw2×kh2×km2,步长为ks2,卷积核个数为kn2;其卷积输出为
<mrow> <msub> <mi>v</mi> <mrow> <mn>2</mn> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>b</mi> <mrow> <mn>2</mn> <mi>j</mi> </mrow> </msub> <mo>+</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>&amp;alpha;</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <msub> <mi>kw</mi> <mn>2</mn> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>&amp;beta;</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <msub> <mi>kh</mi> <mn>2</mn> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>&amp;gamma;</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <msub> <mi>km</mi> <mn>2</mn> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>&amp;omega;</mi> <mrow> <mn>2</mn> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>&amp;alpha;</mi> <mo>,</mo> <mi>&amp;beta;</mi> <mo>,</mo> <mi>&amp;gamma;</mi> <mo>)</mo> </mrow> <msub> <mi>gI</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>&amp;alpha;</mi> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>&amp;beta;</mi> <mo>,</mo> <mi>s</mi> <mo>+</mo> <mi>&amp;gamma;</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>j</mi> <mo>&amp;Element;</mo> <mo>&amp;lsqb;</mo> <mn>0</mn> <mo>,</mo> <msub> <mi>kn</mi> <mn>2</mn> </msub> <mo>-</mo> <mn>1</mn> <mo>&amp;rsqb;</mo> </mrow>
其中v2j(x,y,s)表示第j个卷积核的第s个特征图在位置(x,y)处的值,b2j为第j个卷积偏移量,ω2j为第j个卷积权重,ω2j(α,β,γ)和I2(x,y,s)均为c2维向量;其输出维度为
((w2-kw2)/ks2+1)×((h2-kh2)/ks2+1)×((m2-km2)/ks2+1)×kn2
e6)第二组ReLU激活函数层,对步骤e5)的输出使用ReLU激活函数,其输出为:
<mrow> <msub> <mi>y</mi> <mrow> <mn>2</mn> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>v</mi> <mrow> <mn>2</mn> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msub> <mi>v</mi> <mrow> <mn>2</mn> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
e7)第二组3D池化层,对步骤e6)的输出进行最大值池化,核大小为2×2×2,步长为2,其输出为:
p2j(x,y,s)=max{y2j(x+α,y+β,s+γ)|α,β,γ=0,1}
输出维度
((w2-kw2)/ks2+1)/2×((h2-kh2)/ks2+1)/2×((m2-km2)/ks2+1)/2×kn2
e8)第二组时序重构层,对步骤e7)的输出进行时序重构;令该时序重构层的输出为I3,其维度为w3×h3×c3×m3,则:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>w</mi> <mn>3</mn> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>kw</mi> <mn>2</mn> </msub> </mrow> <mo>)</mo> <mo>/</mo> <msub> <mi>ks</mi> <mn>2</mn> </msub> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>h</mi> <mn>3</mn> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>kh</mi> <mn>2</mn> </msub> </mrow> <mo>)</mo> <mo>/</mo> <msub> <mi>ks</mi> <mn>2</mn> </msub> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>c</mi> <mn>3</mn> </msub> <mo>=</mo> <msub> <mi>kn</mi> <mn>2</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>m</mi> <mn>3</mn> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <msub> <mi>m</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>km</mi> <mn>2</mn> </msub> </mrow> <mo>)</mo> <mo>/</mo> <msub> <mi>ks</mi> <mn>2</mn> </msub> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>I</mi> <mn>3</mn> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>s</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>p</mi> <mrow> <mn>2</mn> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
I3(x,y,s,j)表示I3第s组第j个特征图在位置(x,y)处的值;
e9)2D卷积网络,对步骤e8)的输出进行2D卷积和分类识别,采用裁剪的VGG16网络,具体方案为:删除conv1_1~pool2的网络结构,I3作为conv3_1的输入,fc8的维度与类别数目一致。
CN201710112825.6A 2017-02-28 2017-02-28 一种基于深度相机和3d卷积神经网络的步态识别方法 Active CN107103277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710112825.6A CN107103277B (zh) 2017-02-28 2017-02-28 一种基于深度相机和3d卷积神经网络的步态识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710112825.6A CN107103277B (zh) 2017-02-28 2017-02-28 一种基于深度相机和3d卷积神经网络的步态识别方法

Publications (2)

Publication Number Publication Date
CN107103277A true CN107103277A (zh) 2017-08-29
CN107103277B CN107103277B (zh) 2020-11-06

Family

ID=59675548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710112825.6A Active CN107103277B (zh) 2017-02-28 2017-02-28 一种基于深度相机和3d卷积神经网络的步态识别方法

Country Status (1)

Country Link
CN (1) CN107103277B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197580A (zh) * 2018-01-09 2018-06-22 吉林大学 一种基于3d卷积神经网络的手势识别方法
CN108460340A (zh) * 2018-02-05 2018-08-28 北京工业大学 一种基于3d稠密卷积神经网络的步态识别方法
CN108830157A (zh) * 2018-05-15 2018-11-16 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN109543139A (zh) * 2017-09-22 2019-03-29 杭州海康威视数字技术股份有限公司 卷积运算方法、装置、计算机设备及计算机可读存储介质
CN110110668A (zh) * 2019-05-08 2019-08-09 湘潭大学 一种基于反馈权重卷积神经网络和胶囊神经网络的步态识别方法
CN110688898A (zh) * 2019-08-26 2020-01-14 东华大学 基于时空双流卷积神经网络的跨视角步态识别方法
CN110795972A (zh) * 2018-08-03 2020-02-14 杭州海康威视数字技术股份有限公司 行人身份识别方法、装置、设备及存储介质
WO2020119527A1 (zh) * 2018-12-11 2020-06-18 中国科学院深圳先进技术研究院 人体动作识别方法、装置、终端设备及存储介质
CN112214783A (zh) * 2020-11-18 2021-01-12 西北大学 一种基于可信执行环境的步态识别平台及识别方法
CN113466852A (zh) * 2021-06-08 2021-10-01 江苏科技大学 应用于随机干扰场景下的毫米波雷达动态手势识别方法
CN116152051A (zh) * 2023-02-27 2023-05-23 上海福柯斯智能科技有限公司 一种x射线图像的分块配准图像剪影方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571917A (zh) * 2009-06-16 2009-11-04 哈尔滨工程大学 基于视频的正面步态周期检测方法
US20110182469A1 (en) * 2010-01-28 2011-07-28 Nec Laboratories America, Inc. 3d convolutional neural networks for automatic human action recognition
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN105512674A (zh) * 2015-11-25 2016-04-20 中国科学院自动化研究所 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置
CN105574510A (zh) * 2015-12-18 2016-05-11 北京邮电大学 一种步态识别方法及装置
CN105760835A (zh) * 2016-02-17 2016-07-13 天津中科智能识别产业技术研究院有限公司 一种基于深度学习的步态分割与步态识别一体化方法
CN105825509A (zh) * 2016-03-17 2016-08-03 电子科技大学 基于3d卷积神经网络的脑血管分割方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571917A (zh) * 2009-06-16 2009-11-04 哈尔滨工程大学 基于视频的正面步态周期检测方法
US20110182469A1 (en) * 2010-01-28 2011-07-28 Nec Laboratories America, Inc. 3d convolutional neural networks for automatic human action recognition
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN105512674A (zh) * 2015-11-25 2016-04-20 中国科学院自动化研究所 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置
CN105574510A (zh) * 2015-12-18 2016-05-11 北京邮电大学 一种步态识别方法及装置
CN105760835A (zh) * 2016-02-17 2016-07-13 天津中科智能识别产业技术研究院有限公司 一种基于深度学习的步态分割与步态识别一体化方法
CN105825509A (zh) * 2016-03-17 2016-08-03 电子科技大学 基于3d卷积神经网络的脑血管分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
THOMAS WOLF 等: "MULTI-VIEW GAIT RECOGNITION USING 3D CONVOLUTIONAL NEURAL NETWORKS", 《2016 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 *
ZHI LIU 等: "3D-based Deep Convolutional Neural Network for action recognition with depth sequences", 《IMAGE AND VISION COMPUTING》 *
王欣 等: "基于双层卷积神经网络的步态识别算法", 《安徽大学学报(自然科学版)》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543139A (zh) * 2017-09-22 2019-03-29 杭州海康威视数字技术股份有限公司 卷积运算方法、装置、计算机设备及计算机可读存储介质
US11645357B2 (en) 2017-09-22 2023-05-09 Hangzhou Hikvision Digital Technology Co., Ltd. Convolution operation method and apparatus, computer device, and computer-readable storage medium
CN108197580B (zh) * 2018-01-09 2019-07-23 吉林大学 一种基于3d卷积神经网络的手势识别方法
CN108197580A (zh) * 2018-01-09 2018-06-22 吉林大学 一种基于3d卷积神经网络的手势识别方法
CN108460340A (zh) * 2018-02-05 2018-08-28 北京工业大学 一种基于3d稠密卷积神经网络的步态识别方法
CN108830157A (zh) * 2018-05-15 2018-11-16 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN110795972A (zh) * 2018-08-03 2020-02-14 杭州海康威视数字技术股份有限公司 行人身份识别方法、装置、设备及存储介质
WO2020119527A1 (zh) * 2018-12-11 2020-06-18 中国科学院深圳先进技术研究院 人体动作识别方法、装置、终端设备及存储介质
CN110110668A (zh) * 2019-05-08 2019-08-09 湘潭大学 一种基于反馈权重卷积神经网络和胶囊神经网络的步态识别方法
CN110688898A (zh) * 2019-08-26 2020-01-14 东华大学 基于时空双流卷积神经网络的跨视角步态识别方法
CN112214783A (zh) * 2020-11-18 2021-01-12 西北大学 一种基于可信执行环境的步态识别平台及识别方法
CN112214783B (zh) * 2020-11-18 2023-08-25 西北大学 一种基于可信执行环境的步态识别平台及识别方法
CN113466852A (zh) * 2021-06-08 2021-10-01 江苏科技大学 应用于随机干扰场景下的毫米波雷达动态手势识别方法
CN113466852B (zh) * 2021-06-08 2023-11-24 江苏科技大学 应用于随机干扰场景下的毫米波雷达动态手势识别方法
CN116152051A (zh) * 2023-02-27 2023-05-23 上海福柯斯智能科技有限公司 一种x射线图像的分块配准图像剪影方法和装置
CN116152051B (zh) * 2023-02-27 2023-12-01 上海福柯斯智能科技有限公司 一种x射线图像的分块配准图像剪影方法和装置

Also Published As

Publication number Publication date
CN107103277B (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN107103277A (zh) 一种基于深度相机和3d卷积神经网络的步态识别方法
CN103824050B (zh) 一种基于级联回归的人脸关键点定位方法
CN103824089B (zh) 一种基于级联回归的人脸3d姿态识别方法
CN106469299A (zh) 一种车辆搜索方法及装置
CN107808129A (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN107292247A (zh) 一种基于残差网络的人体行为识别方法及装置
CN105678231A (zh) 一种基于稀疏编码和神经网络的行人图片检测方法
CN105447529A (zh) 一种服饰检测及其属性值识别的方法和系统
CN105976378A (zh) 基于图模型的显著性目标检测方法
CN104778476B (zh) 一种图像分类方法
CN104134217A (zh) 一种基于超体素图割的视频显著物体分割方法
CN104574375A (zh) 结合彩色和深度信息的图像显著性检测方法
CN106919909A (zh) 一种行人重识别的度量学习方法和系统
CN110674741A (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN108304786A (zh) 一种基于二值化卷积神经网络的行人检测方法
CN107944459A (zh) 一种rgb‑d物体识别方法
CN112487915B (zh) 一种基于Embedded YOLO算法的行人检测方法
CN110135277B (zh) 一种基于卷积神经网络的人体行为识别方法
CN106650615A (zh) 一种图像处理方法及终端
CN103268482B (zh) 一种低复杂度的手势提取和手势深度获取方法
CN111612024A (zh) 特征提取方法、装置、电子设备及计算机可读存储介质
CN112396036B (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN103678552A (zh) 基于显著区域特征的遥感影像检索方法及系统
CN107944437A (zh) 一种基于神经网络和积分图像的人脸定位方法
Zhang et al. LiSeg: Lightweight road-object semantic segmentation in 3D LiDAR scans for autonomous driving

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant