CN110287844B - 基于卷积姿势机和长短时记忆网络的交警手势识别方法 - Google Patents

基于卷积姿势机和长短时记忆网络的交警手势识别方法 Download PDF

Info

Publication number
CN110287844B
CN110287844B CN201910529956.3A CN201910529956A CN110287844B CN 110287844 B CN110287844 B CN 110287844B CN 201910529956 A CN201910529956 A CN 201910529956A CN 110287844 B CN110287844 B CN 110287844B
Authority
CN
China
Prior art keywords
traffic police
gesture
skeleton
police gesture
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910529956.3A
Other languages
English (en)
Other versions
CN110287844A (zh
Inventor
何坚
祖天奇
张丞
余立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910529956.3A priority Critical patent/CN110287844B/zh
Publication of CN110287844A publication Critical patent/CN110287844A/zh
Application granted granted Critical
Publication of CN110287844B publication Critical patent/CN110287844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

基于卷积姿势机和长短时记忆的交警手势识别方法属于电子信息领域。本发明在分析交警手势的关节铰接特征基础上,建立基于关节点和骨架的交警手势模型;应用CPM提取交警手势的关键节点,并在此基础上提取交警手势骨架的相对长度及其与重力加速度的夹角作为交警手势的空间上下文特征;将CPM与LSTM结合提取交警手势的空间和时序特征,并构造了CTPGR;创建交警手势视频库,并对CTPGR进行训练和验证;实验证明CTPGR可以快速准确的识别交警手势,系统的准确率达到95.09%,并对光线、背景和交警手势位置变化具有较强的抗干扰能力。

Description

基于卷积姿势机和长短时记忆网络的交警手势识别方法
技术领域
本发明属于电子信息领域,是一种基于计算机视觉、可应用于自动驾驶的交警手势识别技术。
背景技术
交警手势识别是无人驾驶的重要组成部分。目前,实现交警手势识别主要有两种方法:基于可穿戴传感器的方法和基于计算机视觉的识别方法。虽然基于可穿戴设备交警手势识别具有较高识别率,但是其会增加交警负担,实施和维护成本较高,难以推广应用。而基于计算机视觉的方法易于实现,但其识别准确率易受背景、光照或交警手势运动变化等因素影响。近年来深度学习算法在图像识别、自然语言处理等领域应用取得优异效果,为交警手势识别提供了新的实现方法。
针对基于计算机视觉的交警手势识别中存在的问题,本文引入基于深度学习的卷积姿势机(Convolutional Pose Machines,CPM)和长短时记忆 (Long Short TimeMemory,LSTM)进行交警手势命令识别。
发明内容
本文针对基于计算机视觉的交警手势识别技术易受光照、背景和手势动态变化影响等问题,结合CPM和LSTM构造交警手势识别机(Chinese Traffic Police GestureRecognizer,CTPGR)提取交警手势的时空特征,实现交警手势的快速准确识别。本发明涉及如下4点:
(1)在分析交警手势的关节铰接特征基础上,建立基于关节点和骨架的交警手势模型;
(2)应用CPM提取交警手势的关键节点,并在此基础上提取交警手势骨架的相对长度及其与重力加速度的夹角作为交警手势的空间上下文特征;
(3)将CPM与LSTM结合提取交警手势的空间和时序特征,并构造了CTPGR;
(4)创建时长约2小时的交警手势视频库,并对CTPGR进行训练和验证;实验证明CTPGR可以快速准确的识别交警手势,系统的准确率达到95.09%,并对光线、背景和交警手势位置变化具有较强的抗干扰能力。本发明核心算法:
(1)基于关节点和骨架的交警手势建模
通过分析中国公安部2007制定的“新版交通手势信号”,可知交警手势均由连贯的头部转动、双臂摆动并结合手势组成,是典型的关节铰接型姿态。交警的铰链式姿势可抽象为14个部件,如图1(a)所示。图1(b)描述了这些部件的坐标,其集合为Y。Y由头部关键节点Yhead、上身关键节点 Yupper、下身关键节点Ylower三个集合构成,即
Figure RE-GDA0002167529260000021
依据人体骨骼及相互间的依赖关系,Y中相邻关键节点间存在连接依赖关系,这些连接依赖关系如图1(c)所示。交警手势所含关键节点间的连接关系集合表示为S。s为其中的一条关键节点连接(即s∈S),其起始关键节点和终止关键节点分别为Ym和Yn,则
Figure RE-GDA0002167529260000022
表示了交警手势所含的一条骨架矢量。与关键节点分类方法类似,S由头部骨架Shead、上身骨架 Supper和下身骨架Slower 3部分构成。即:
Figure RE-GDA0002167529260000023
(2)基于CPM的交警手势关键节点提取技术
由于CPM能够直接从图像数据中计算学习观察对象及其空间上下文特征。因此发明引入并扩展CPM,建立交警手势关键节点提取网络(Police Key-point ExtractingNetwork,PKEN)。
Figure RE-GDA0002167529260000031
为包含交警手势的图像上所有位置坐标(u,v)的集合,
Figure RE-GDA0002167529260000032
为二维实数集。在图像中交警手势每个部件的位置用Yk表示,
Figure RE-GDA0002167529260000033
交警手势总共包含14个部件,因此Yk∈{Y1,...,Y14}。PKEN由一系列多类预测器gt(·)组成,它们被训练用来预测同一图像在不同感受野下每个部件的位置。具体而言,gt(·)是一个分类器,下标t∈{1,...,T}表示分类的阶段,每个阶段的感受野不同。gt(·)预测该感受野下图像中点
Figure RE-GDA00021675292600000321
属于部件Yk的置信度,用
Figure RE-GDA0002167529260000034
表示置信度值。这些gt(·)具有相同目标函数值(即真实的置信度)。当t>1时,gt(·)是从图像位置
Figure RE-GDA0002167529260000035
提取的特征值
Figure RE-GDA0002167529260000036
和每个关键节点Yk在t-1时刻置信度的预测值的拼接函数。即:
Figure RE-GDA0002167529260000037
其中,
Figure RE-GDA0002167529260000038
为提取器ψ(·)在位置
Figure RE-GDA0002167529260000039
提取的图像特征值。即:
Figure RE-GDA00021675292600000310
在PKEN中,除第一阶段外,后续每个阶段的分类器相比上一阶段会获得更大的感受野,因而能够获得Yk附近更多的上下文信息,这样不同阶段的分类器拼接在一起,可以输出更加精确的结果。
在分类器的第一阶段(即t=1时),使用
Figure RE-GDA00021675292600000311
表示图像位置
Figure RE-GDA00021675292600000312
上的特征值,则分类器产生的值如下:
Figure RE-GDA00021675292600000313
其中,
Figure RE-GDA00021675292600000314
表示图像中坐标点
Figure RE-GDA00021675292600000322
属于部件k的置信度。在t(t>1) 阶段,若别用w和h表示输入图像的宽和高,输入图像中所有坐标点(u,v) 属于关键节点k的置信度值可表示为
Figure RE-GDA00021675292600000315
即:
Figure RE-GDA00021675292600000316
由于交警手势包含14个关键节点,因此图像中交警手势所含所有关键节点的置信度集合表示为
Figure RE-GDA00021675292600000317
通过上述步骤,可以为交警手势所含的每个部件产生置信度图。经过 T个阶段,置信度最高的位置即为关键节点位置。即:
Figure RE-GDA00021675292600000318
由此建立出PKEN。
(3)交警手势空间上下文特征提取:
通过公式(4)~(7)的计算可以确定交警手势中的每个关键节点的位置。依据交警手势中骨架间的铰接依赖关系,可以通过相邻关键节点计算求得交警手势中骨架及其长度。设φ1(·)为将部件位置转换为骨架矢量的函数。即,
φ1(Ym,Yn)→s,s∈S (7)
本发明使用骨架矢量提取了交警手势所包含的2种空间上下文特征F1、F2。其中,F1为骨架的相对可见长度;F2为骨架与重力方向的夹角,它们共同构成了交警手势的空间上下文特征集合F。即F=F1∪F2
由于交警的头部长度为固定值,其不会随着身体的转动和摄像头距离的变化而改变。因此,本发明以交警头部长度为参考点,引入函数φ2(·)表示交警手势中所含骨架的相对可见长度的向量拼接。即,
Figure RE-GDA0002167529260000041
其中,Shead是代表头顶至脖子中心的头部骨架矢量,‖·‖表示矢量模,即头部骨架的长度。
Figure RE-GDA0002167529260000046
表示向量拼接。该公式以Shead为参考,计算每个骨架相对于头部骨架的可见长度。
由于重力加速度的方向始终垂直于地面,为了描述交警手势中每个骨架相对于地面的方向,为此本发明引入了骨架与重力加速度的夹角。并使用φ3(·)表示每个骨架与重力方向夹角的向量拼接。即
Figure RE-GDA0002167529260000042
为保持特征值的连续性,本发明采用骨架与重力加速度方向的三角函数值来描述骨架的角度特征。公式(10)中,d表示一个单位矢量,方向与重力方向相同。
Figure RE-GDA0002167529260000043
计算了每个骨架矢量与重力方向夹角的cos值,
Figure RE-GDA0002167529260000044
计算其sin值。最终,由φ4(·)将上述两个特征拼接组合成为交警手势特征F:
Figure RE-GDA0002167529260000045
(4)交警手势的时序特征提取:
由于动态交警手势由一组具有时间先后顺序的图像序列组成。因此本发明引入LSTM网络将交警手势中的空间特征与时间顺序相关联。LSTM 依据公式(12)保存记忆内容。
Figure RE-GDA0002167529260000051
其中,hτ为输出的时间特征,eτ用于记忆保存,并作为下一个循环神经网络的输入。在保存记忆的同时,LSTM也依据公式(13)计算输出向量hτ
Figure RE-GDA0002167529260000052
其中,σ为sigmoid函数,tanh为hyperbolic tangent函数。
Figure RE-GDA0002167529260000053
表示向量拼接,·表示矩阵乘法,*表示点乘。τ代表当前时间。Fτ表示在时间τ时的交警手势上下文空间特征。W和β表示采用梯度下降法对LSTM神经网络训练得到的全连接层的权重和偏置。
最后,hτ通过全连接层按照公式(14)计算每类交警手势的预测概率,并按照公式(15)将预测概率最大的手势作为预测手势。
Figure RE-GDA0002167529260000054
Figure RE-GDA0002167529260000055
公式(14)中,函数s(·)表示softmax,
Figure RE-GDA0002167529260000056
表示当前手势属于每个手势类的概率。od表示出现非8种交警指挥手势的概率。
公式(15)中,
Figure RE-GDA0002167529260000057
表示最终的手势分类输出。δ表示动作置信度阈值(通过实验证明δ取值0.9时,本算法的准确率最好),只有在网络对当前分类的确信度超过δ时,才将其作为输出。
发明效果
通过构建CTPGR,可以克服复杂场景、背景图像、光照、多变的交警姿势等干扰,准确识别交警手势。识别率可达到95.09%。本发明为汽车自动驾驶等领域提供技术方案。
(1)CTPGR:改进算法:基于现有两项技术结合后改良:将CPM与 LSTM结合提取交警手势的空间和时序特征,由此构造CTPGR。
附图说明
图1(a)为交警手势;
图1(b)为交警手势对应关节;
图1(c)为交警手势对应骨架。
图1(d)为交警手势对应骨架长度。
图1(e)为交警手势对应骨架与重力夹角。
图2为其网络架构;
图3为本文所用LSTM网络的架构。
具体实施方式
本发明具体实施分为3步:
1)人体关键节点网络PKEN训练。
2)交警手势空间特征训练。
3)LSTM时序特征训练。
1)第一阶段
本发明采用CPM提取关节位置。CPM输出15个热点图。其中,14 个热点图对应人体相应的部件,另外1个为背景热点图。为了支持手势实时识别,本发明裁剪了CPM深度,构造了包含3个阶段的交警关键节点提取网络PKEN,图2所示为其网络架构。
图2中,C代表卷积层,P代表最大池化层,L代表Loss损失函数输出,F代表卷积核数量,S代表步长,K为卷积核大小。PKEN的前 10层网络与VGG-19的前10层网络相同。从C1至C12的卷积网络实现了特征提取函数ψ(·),即输出了图像中每个位置的特征值xz。由于其中包含了3个池化层,xz的图像长、宽仅为原图像的八分之一。C13至C17层的卷积网络实现了第一阶段的分类器g1(·),它以xz为输入,输出了交警手势中每个关键节点的置信度集合b1。C18至C24层的卷积网络实现了第二阶段的分类器g2(·),它以xz和b1为输入,输出了新感受野下交警手势中每个关键节点的置信度集合b2。最后,第C18至C24层的卷积网络实现了第三阶段的分类器g3(·),它以xz和b2为输入,输出了新感受野下交警手势中每个关键节点的置信度集合b3
PKEN一共包含了3个代价函数,分别是L1、L2和L3。它们分别是 b1、b2和b3与真实的置信度之间的欧几里得距离。PKEN产生的系统总误差可按照公式(16)计算出。
Figure RE-GDA0002167529260000071
公式中,
Figure RE-GDA0002167529260000072
是交警手势中第j个关键节点的真实置信度。z是置信度图中的每一个像素。
本发明采用AI Challenger公开的人体关键节点数据集作为训练样本来训练PKEN网络。训练中,本发明将AI Challenger数据集中标注的关键节点数据通过二维高斯函数转换为PKEN中对应关键节点的真实置信度值。在PKEN网络训练中,batch值为15;梯度下降采用了Adam优化器。其学习率为0.0008、每20000步的指数衰减率为0.8。在PKEN网络训练50个epochs后,后续训练中系统准确率不再变化,所以本发明PKEN 的训练在50个epochs后停止。PKEN训练的第三阶段输出关节点置信度图,在此基础上,借鉴PAF(Part AffinityFields)思想,可以建立PKEN 关节点间的关联关系。
2)第二阶段
本发明通过4名志愿者按照中国交通交警手势规范录制了8种交警指挥手势,这8中手势之外的姿势统一归类为“待机”姿势。每位志愿者针对9种姿势分别录制了50组视频。视频按照1024*768,15fps标准高清录制。这些录制的视频分别作为交警手势骨架特征和LSTM网络训练及测试的样本。在实际生活中,驾驶员并不是在交警手势开始的瞬间就进行手势类型判断,而是观察一段时间,等交警手势即将稳定时才开始做判断。因此本发明在交警手势识别训练中也对交警手势做了750毫秒时延。即从定位交警开始做手势起,750毫秒后才开始对视频中的交警手势做类别标记。
本发明第二阶段采用第一阶段训练生成的PKEN网络从交警手势库中提取交警手势的关键节点及关节点间关联关系,通过公式(9)和(10),计算出交警手势骨架的相对长度及其与重力加速度间的夹角,即生成在τ时刻的交警手势空间上下文特征Fτ。同时,交警手势库中相应时刻标记的交警手势类型被用作真实的手势类型。
3)第三阶段
LSTM网络被用来提取动态交警手势的时间序列特征。图3所示为本文所用LSTM网络的架构。在图3中,eτ-1,hτ-1和Fτ是LSTM网络的输入。其中,Fτ是在τ时刻交警手势中各骨架的相对长度及其与重力加速度角的特征值。此外,在τ为1时刻,系统随机产生一个初值e0和h0。eτ, 和hτ是网络的输出,并作为τ>1时LSTM网络的输入。其中的“Dense”表示全连接层;P表示逐点运算。
本发明采用Xavier对网络中的神经元进行初始化设置,训练中交警手势特征被随机切分成长度为90秒的小片视频,128个小片视频组装起来构成一个batch。采用crossentropy函数进行网络损失计算,在Loss中增加了dropout层以减少训练过程中出现过拟合问题。并采用截断反向传播算法避免训练中的梯度消失问题。LSTM的学习率是0.0004,梯度下降算法也采用了Adam优化器。累计训练50,000步后,后续训练系统的手势识别准确率不再提高,因此本发明在训练50,000步后停止。
4)第4阶段
上述3步训练完成后,PKEN、交警手势空间特征提取器和LSTM网络依次连接构成了交警手势识别机CTPGR。CTPGR以包含交警手势的视频作为输入,其输出为识别出的交警手势类别。

Claims (1)

1.基于卷积姿势机和长短时记忆的交警手势识别方法,其特征在于包括:
(1)基于关节点和骨架的交警手势建模
通过分析交警手势均由连贯的头部转动、双臂摆动并结合手势组成,是典型的关节铰接型姿态;交警的铰链式姿势抽象为14个部件,这些部件的坐标,其集合为Y;Y由头部关键节点Yhead、上身关键节点Yupper、下身关键节点Ylower三个集合构成,即
Figure FDA0003079266270000011
依据人体骨骼及相互间的依赖关系,Y中相邻关键节点间存在连接依赖关系;交警手势所含关键节点间的连接关系集合表示为S;s为其中的一条关键节点连接,即s∈S;其起始关键节点和终止关键节点分别为Ym和Yn,则
Figure FDA0003079266270000012
表示了交警手势所含的一条骨架矢量;
S由头部骨架Shead、上身骨架Supper和下身骨架Slower3部分构成;即:
Figure FDA0003079266270000013
(2)基于卷积姿势机(Conventional Pose Machine,CPM)的交警手势关键节点提取技术
Figure FDA0003079266270000014
为包含交警手势的图像上所有位置坐标(u,v)的集合,
Figure FDA0003079266270000015
Figure FDA0003079266270000016
为二维实数集;在图像中交警手势每个部件的位置用Yk表示,
Figure FDA0003079266270000017
交警手势总共包含14个部件,因此Yk∈{Y1,…,Y14};交警手势关键节点提取网络(Police Key-point ExtractingNetwork,PKEN)由一系列多类预测器gt(·)组成,它们被训练用来预测同一图像在不同感受野下每个部件的位置;具体而言,gt(·)是一个分类器,下标t∈{1,…,T}表示分类的阶段,每个阶段的感受野不同;gt(·)预测该感受野下图像中点z属于部件Yk的置信度,用b表示置信度值;这些gt(·)具有相同目标函数值即真实的置信度;当t>1时,gt(·)是从图像位置z提取的特征值xz和每个关键节点Yk在t-1时刻置信度的预测值的拼接函数;即:
Figure FDA0003079266270000021
其中,xz为提取器ψ(·)在位置z提取的图像特征值;即:
Figure FDA0003079266270000022
在PKEN中,除第一阶段外,后续每个阶段的分类器相比上一阶段会获得更大的感受野,因而能够获得Yk附近更多的上下文信息,这样不同阶段的分类器拼接在一起,能输出更加精确的结果;
在分类器的第一阶段即t=1时,使用xz表示图像位置z上的特征值,则分类器产生的值如下:
Figure FDA0003079266270000023
其中,
Figure FDA0003079266270000024
表示图像中坐标点z属于部件k的置信度;在t>1阶段,若别用w和h表示输入图像的宽和高,输入图像中所有坐标点(u,v)属于关键节点k的置信度值表示为
Figure FDA0003079266270000025
即:
Figure FDA0003079266270000026
由于交警手势包含14个关键节点,因此图像中交警手势所含所有关键节点的置信度集合表示为
Figure FDA0003079266270000027
通过上述步骤,为交警手势所含的每个部件产生置信度图;经过T个阶段,置信度最高的位置即为关键节点位置;即:
Figure FDA0003079266270000028
由此建立出PKEN;
(3)交警手势空间上下文特征提取:
通过公式(4)~(7)的计算确定交警手势中的每个关键节点的位置;依据交警手势中骨架间的铰接依赖关系,通过相邻关键节点计算求得交警手势中骨架及其长度;设φ1(·)为将部件位置转换为骨架矢量的函数;即,
φ1(Ym,Yn)→s,s∈S (8)
使用骨架矢量提取了交警手势所包含的2种空间上下文特征F1、F2;其中,F1为骨架的相对可见长度;F2为骨架与重力方向的夹角,它们共同构成了交警手势的空间上下文特征集合F;即F=F1∪F2
由于交警的头部长度为固定值,其不会随着身体的转动和摄像头距离的变化而改变;因此以交警头部长度为参考点,引入函数φ2(·)表示交警手势中所含骨架的相对可见长度的向量拼接;即,
Figure FDA0003079266270000031
其中,Shead是代表头顶至脖子中心的头部骨架矢量,‖·‖表示矢量模,即头部骨架的长度;
Figure FDA0003079266270000032
表示向量拼接;该公式以Shead为参考,计算每个骨架相对于头部骨架的可见长度;
由于重力加速度的方向始终垂直于地面,为了描述交警手势中每个骨架相对于地面的方向,为此引入了骨架与重力加速度的夹角;并使用φ3(·)表示每个骨架与重力方向夹角的向量拼接;即
Figure FDA0003079266270000033
为保持特征值的连续性,采用骨架与重力加速度方向的三角函数值来描述骨架的角度特征;公式(10)中,d表示一个单位矢量,方向与重力方向相同;
Figure FDA0003079266270000034
计算了每个骨架矢量与重力方向夹角的cos值,
Figure FDA0003079266270000035
计算其sin值;最终,由φ4(·)将交警手势中所含骨架的相对可见长度的向量和每个骨架与重力方向夹角的向量拼接组合成为交警手势特征F:
Figure FDA0003079266270000036
(4)交警手势的时序特征提取:
由于动态交警手势由一组具有时间先后顺序的图像序列组成;因此引入LSTM网络将交警手势中的空间特征与时间顺序相关联;LSTM依据公式(12)保存记忆内容;
Figure FDA0003079266270000041
其中,hτ为输出的时间特征,eτ用于记忆保存,并作为下一个循环神经网络的输入;在保存记忆的同时,LSTM也依据公式(13)计算输出向量hτ
Figure FDA0003079266270000042
其中,σ为sigmoid函数,tanh为hyperbolic tangent函数;
Figure FDA0003079266270000043
表示向量拼接,·表示矩阵乘法,*表示点乘;τ代表当前时间;Fτ表示在时间τ时的交警手势上下文空间特征;以上公式中W和β表示采用梯度下降法对LSTM神经网络训练得到的全连接层的权重和偏置;
最后,hτ通过全连接层按照公式(14)计算每类交警手势的预测概率,并按照公式(15)将预测概率最大的手势作为预测手势;
Figure FDA0003079266270000044
Figure FDA0003079266270000045
公式(14)中,函数s(·)表示softmax,
Figure FDA0003079266270000046
表示当前手势属于每个手势类的概率;od表示公式(8)中非交警指挥手势的概率;
公式(15)中,
Figure FDA0003079266270000047
表示最终的手势分类输出;δ表示动作置信度阈值,取值0.9,只有在网络对当前分类的确信度超过δ时,才将其作为输出。
CN201910529956.3A 2019-06-19 2019-06-19 基于卷积姿势机和长短时记忆网络的交警手势识别方法 Active CN110287844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910529956.3A CN110287844B (zh) 2019-06-19 2019-06-19 基于卷积姿势机和长短时记忆网络的交警手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910529956.3A CN110287844B (zh) 2019-06-19 2019-06-19 基于卷积姿势机和长短时记忆网络的交警手势识别方法

Publications (2)

Publication Number Publication Date
CN110287844A CN110287844A (zh) 2019-09-27
CN110287844B true CN110287844B (zh) 2021-07-23

Family

ID=68004500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910529956.3A Active CN110287844B (zh) 2019-06-19 2019-06-19 基于卷积姿势机和长短时记忆网络的交警手势识别方法

Country Status (1)

Country Link
CN (1) CN110287844B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837778B (zh) * 2019-10-12 2023-08-18 南京信息工程大学 一种基于骨架关节点序列的交警指挥手势识别方法
CN111191627B (zh) * 2020-01-06 2022-02-11 浙江工业大学 一种多视点下提高动态手势动作识别准确率的方法
CN111209861B (zh) * 2020-01-06 2022-03-18 浙江工业大学 一种基于深度学习的动态手势动作识别方法
CN111273779B (zh) * 2020-02-20 2023-09-19 沈阳航空航天大学 基于自适应空间监督的动态手势识别方法
CN111444771B (zh) * 2020-02-27 2022-06-21 浙江大学 一种基于循环神经网络的手势前置实时识别方法
CN111401188B (zh) * 2020-03-10 2023-10-31 清华大学 一种基于人体关键点特征的交警手势识别方法
CN111539288B (zh) * 2020-04-16 2023-04-07 中山大学 一种双手姿势的实时检测方法
CN111860274B (zh) * 2020-07-14 2023-04-07 清华大学 基于头部朝向与上半身骨架特征的交警指挥手势识别方法
CN111881802B (zh) * 2020-07-22 2023-03-28 清华大学 基于双分支时空图卷积网络的交警手势识别方法
CN112183198A (zh) * 2020-08-21 2021-01-05 北京工业大学 肢体骨架和头手部件轮廓融合的手势识别方法
CN112686208B (zh) * 2021-01-22 2022-11-08 上海喵眼智能科技有限公司 基于机器视觉的运动识别特征参数算法
CN113378641B (zh) * 2021-05-12 2024-04-09 北京工业大学 基于深度神经网络和注意力机制的手势识别方法
CN115565253B (zh) * 2022-12-08 2023-04-18 季华实验室 一种动态手势实时识别方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197575A (zh) * 2018-01-05 2018-06-22 中国电子科技集团公司电子科学研究院 一种基于目标检测和骨点检测的异常行为识别方法及装置
CN108647644A (zh) * 2018-05-11 2018-10-12 山东科技大学 基于gmm表征的煤矿放炮不安全动作识别与判定方法
CN109117766A (zh) * 2018-07-30 2019-01-01 上海斐讯数据通信技术有限公司 一种动态手势识别方法及系统
CN109284682A (zh) * 2018-08-21 2019-01-29 南京邮电大学 一种基于stt-lstm网络的手势识别方法及系统
CN109376720A (zh) * 2018-12-19 2019-02-22 杭州电子科技大学 基于关节点时空简单循环网络和注意力机制的动作分类方法
CN109711331A (zh) * 2018-12-25 2019-05-03 山东雷诚电子科技有限公司 一种毫米波雷达安检仪异物检测方法
CN109829509A (zh) * 2019-02-26 2019-05-31 重庆邮电大学 基于融合神经网络的雷达手势识别方法
US20200160046A1 (en) * 2017-06-30 2020-05-21 The Johns Hopkins University Systems and method for action recognition using micro-doppler signatures and recurrent neural networks

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160046A1 (en) * 2017-06-30 2020-05-21 The Johns Hopkins University Systems and method for action recognition using micro-doppler signatures and recurrent neural networks
CN108197575A (zh) * 2018-01-05 2018-06-22 中国电子科技集团公司电子科学研究院 一种基于目标检测和骨点检测的异常行为识别方法及装置
CN108647644A (zh) * 2018-05-11 2018-10-12 山东科技大学 基于gmm表征的煤矿放炮不安全动作识别与判定方法
CN109117766A (zh) * 2018-07-30 2019-01-01 上海斐讯数据通信技术有限公司 一种动态手势识别方法及系统
CN109284682A (zh) * 2018-08-21 2019-01-29 南京邮电大学 一种基于stt-lstm网络的手势识别方法及系统
CN109376720A (zh) * 2018-12-19 2019-02-22 杭州电子科技大学 基于关节点时空简单循环网络和注意力机制的动作分类方法
CN109711331A (zh) * 2018-12-25 2019-05-03 山东雷诚电子科技有限公司 一种毫米波雷达安检仪异物检测方法
CN109829509A (zh) * 2019-02-26 2019-05-31 重庆邮电大学 基于融合神经网络的雷达手势识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Convolutional Pose Machines";Shih-En Wei,Varun Ramakrishna,Takeo Kanade,Yaser Sheikh;《arXiv》;20160412;第1-9页 *
"Long-term temporal convolutions for action recognition";Varol G, Laptev I, Schmid C.;《IEEE transactions on pattern analysis and machine intelligence》;20180630;第40卷(第6期);第1510-1517页 *
"基于深度学习的视频中人体动作识别进展综述";罗会兰,童康,孔繁胜;《电子学报》;20190531;第47卷(第5期);第1162-1173页 *
"基于长短时记忆网络的多媒体教学手势识别研究";秦敏莹,肖秦琨;《研究与开发》;20190630;第38卷(第6期);第80-85页 *

Also Published As

Publication number Publication date
CN110287844A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110287844B (zh) 基于卷积姿势机和长短时记忆网络的交警手势识别方法
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
Soo Kim et al. Interpretable 3d human action analysis with temporal convolutional networks
CN106897670B (zh) 一种基于计算机视觉的快递暴力分拣识别方法
Molchanov et al. Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural network
CN110998594A (zh) 检测动作的方法和系统
US20180114071A1 (en) Method for analysing media content
CN107180226A (zh) 一种基于组合神经网络的动态手势识别方法
Gupta et al. Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural networks
CN112183198A (zh) 肢体骨架和头手部件轮廓融合的手势识别方法
CN111028216A (zh) 图像评分方法、装置、存储介质及电子设备
Li et al. Sequential learning for multimodal 3D human activity recognition with Long-Short Term Memory
Afsar et al. Automatic human action recognition from video using hidden markov model
CN113221663A (zh) 一种实时手语智能识别方法、装置及系统
CN110287848A (zh) 视频的生成方法及装置
CN112364791A (zh) 一种基于生成对抗网络的行人重识别方法和系统
Guo et al. Gesture recognition of traffic police based on static and dynamic descriptor fusion
Araga et al. Real time gesture recognition system using posture classifier and Jordan recurrent neural network
CN114241379A (zh) 一种乘客异常行为识别方法、装置、设备及乘客监控系统
CN114495006A (zh) 遗留物体的检测方法、装置及存储介质
CN111860117A (zh) 一种基于深度学习的人体行为识别方法
CN111680550A (zh) 情感信息识别方法、装置、存储介质及计算机设备
Du et al. Adaptive visual interaction based multi-target future state prediction for autonomous driving vehicles
CN112633100B (zh) 行为识别方法、装置、电子设备和存储介质
CN114943873A (zh) 一种工地人员异常行为分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant