CN115346270A - 交警手势识别方法、装置、电子设备及存储介质 - Google Patents

交警手势识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115346270A
CN115346270A CN202210842900.5A CN202210842900A CN115346270A CN 115346270 A CN115346270 A CN 115346270A CN 202210842900 A CN202210842900 A CN 202210842900A CN 115346270 A CN115346270 A CN 115346270A
Authority
CN
China
Prior art keywords
gesture
skeleton
traffic police
frame
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210842900.5A
Other languages
English (en)
Inventor
赵新兵
李军
雷鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202210842900.5A priority Critical patent/CN115346270A/zh
Publication of CN115346270A publication Critical patent/CN115346270A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种交通手势识别方法,包括:获取多个连续帧的交警手势图像,根据每一帧交警手势图像提取骨架关键点数据,骨架关键点数据包括交警手势图像中的骨架关键点的位置信息;根据每一帧骨架关键点数据通过训练好的pointnet网络提取骨架全局特征;针对每一帧骨架关键点数据,获得骨架与骨架之间夹角的三角函数值,根据三角函数值获得骨架角度特征;对每一帧骨架全局特征和骨架角度特征进行向量的拼接,得到手势空间上下文特征;根据手势空间上下文特征通过LSTM网络提取手势时序特征;根据手势时序特征计算每一交警手势类别的预测概率值,根据预测概率值确定识别结果。能够提高交警手势识别准确度。

Description

交警手势识别方法、装置、电子设备及存储介质
技术领域
本发明涉及交警手势识别技术领域,尤其是涉及一种交警手势识别方法、装置、电子设备及计算机可读存储介质。
背景技术
在汽车自动驾驶领域,如何实现交警手势识别是十分重要的问题。目前主要有两种交警手势的识别方法,一种是基于穿戴式设备的交警手势识别方法,另一种是基于计算机视觉的交警手势识别方法。基于穿戴式设备的交警手势识别方法,需要依赖可穿戴传感器收集交警手势信息实现交警手势的识别,该方法在实际应用的过程中,存在很多局限因素,例如部署实施和运营维护成本较高,增加了交警的工作负担,这些因素导致其在推广应用上存在障碍。基于计算机视觉的交警手势识别方法通过拍摄交警手势,在计算机上对拍摄的交警手势进行识别,可以有效避免上述的局限因素。但是,交警的工作环境中常常出现光照过强或过弱、拍摄背景复杂等的不利于成像质量的因素,目前的基于计算机视觉的交警手势识别方法对低质量的交警手势图像的识别准确率低。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种交警手势识别方法,能够提高对低质量的交警手势图像的识别准确率,进而提升汽车自动驾驶的安全性。
本发明是通过以下技术方案实现的:一种交通手势识别方法,包括步骤:
获取多个连续帧的交警手势图像,根据每一帧所述交警手势图像提取骨架关键点数据,所述骨架关键点数据包括所述交警手势图像中的骨架关键点的位置信息;
根据每一帧所述骨架关键点数据通过训练好的pointnet网络提取骨架全局特征,其中,所述训练好的pointnet网络依处理顺序包括input transform模块、第一多层感知机、feature transform模块、第二多层感知机和最大池化模块,所述第二多层感知机为两层感知机,所述第二多层感知机的第一层包括64个神经元,第二层包括128个神经元;
针对每一帧所述骨架关键点数据,获得骨架与骨架之间夹角的三角函数值,根据所述三角函数值获得骨架角度特征;
对每一帧所述骨架全局特征和所述骨架角度特征进行向量的拼接,得到手势空间上下文特征;
根据所述手势空间上下文特征通过LSTM网络提取手势时序特征;
根据所述手势时序特征计算每一交警手势类别的预测概率值,根据所述预测概率值确定识别结果。
相对于现有技术,本发明提供一种交警手势识别方法通过剪裁pointnet网络减少特征信息冗余,提高交警手势图像中骨架关键点的全局特征的提取精度,加强了手势空间上下文特征的学习,同时通过LSTM网络使时间顺序与空间上下文特征相关联,以学习到各个手势空间上下文在时间上的逻辑关系,能够提高交警手势识别的准确率,且不易受到拍摄环境的光照条件、背景的影响。
进一步地,根据每一帧所述交警手势图像提取骨架关键点数据后,还包括步骤:在所述骨架关键点中手部骨架关键点的连线上增加一定数量的骨架关键点。
进一步地,在所述pointnet网络的训练中,所述第二多层感知机为三层感知机,所述第二多层感知机的第三层包括1024个神经元;所述pointnet网络的训练完成后,包括步骤:裁剪所述第二多层感知机的第三层。
进一步地,所述手势时序特征的向量表达式为:
Figure BDA0003751795500000021
其中,ht为第t帧的所述手势时序特征,σ为sigmoid激活函数;tanh为hyperbolictangent激活函数;ct用于保存记忆信息,ct的表达式为:
Figure BDA0003751795500000022
W1、W2、W3、W4为LSTM网络训练得到的全连接层的权重;β1、β2、β3、β4为LSTM网络训练得到的全连接层的偏置;Ft为第t帧的手势空间上下文特征。
进一步地,获取多个连续帧的交警手势图像后,还包括步骤:对交警手势图像进行尺度归一化处理,得到分辨率一致的所述交警手势图像。
基于同一发明构思,本发明还提供一种交警手势识别装置,包括:
骨架关键点提取模块,用于获取多个连续帧的交警手势图像,根据每一帧所述交警手势图像提取骨架关键点数据,所述骨架关键点数据包括所述交警手势图像中的骨架关键点的位置信息;
骨架全局特征提取模块,用于根据每一帧所述骨架关键点数据通过训练好的pointnet网络提取骨架全局特征,其中,所述训练好的pointnet网络依处理顺序包括inputtransform模块、第一多层感知机、feature transform模块、第二多层感知机和最大池化模块,所述第二多层感知机为两层感知机,所述第二多层感知机的第一层包括64个神经元,第二层包括128个神经元;
骨架角度特征提取模块,用于针对每一帧所述骨架关键点数据,获得骨架与骨架之间夹角的三角函数值,根据所述三角函数值获得骨架角度特征;
手势空间上下文特征提取模块,用于对每一帧所述骨架全局特征和所述骨架角度特征进行向量的拼接,得到手势空间上下文特征;
手势时序特征提取模块,用于根据所述手势空间上下文特征通过LSTM网络提取手势时序特征;
结果预测模块,用于根据所述手势时序特征计算每一交警手势类别的预测概率值,根据所述预测概率值确定识别结果。
进一步地,所述骨架关键点提取模块还用于在所述骨架关键点中手部骨架关键点的连线上增加一定数量的骨架关键点。
进一步地,在所述pointnet网络的训练中,所述第二多层感知机为三层感知机,所述第二多层感知机的第三层包括1024个神经元;
还包括pointnet网络训练模块,用于在所述pointnet网络的训练完成后,裁剪所述第二多层感知机的第三层。
基于同一发明构思,本发明还提供一种电子设备,包括:
处理器;
存储器,用于存储由所述处理器执行的计算机程序;
其中,所述处理器执行所述计算机程序时实现上述方法的步骤。
基于同一发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现上述方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本申请的交警手势识别方法的一个示例性应用环境示意图;
图2为一个实施例的交警手势识别方法的示意图;
图3为一个示例性的骨架关键点的部位示意图;
图4为一个实施例的pointnet网络的结构示意图;
图5为一个实施例的交警手势识别装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,其为本申请的交警手势识别方法的一个示例性应用环境示意图,包括摄像设备11和电子设备12,摄像设备11可以是任何具有摄像和传输功能的设备,例如,可以具体为车载摄像头、车载监控器、手机、平板电脑等,电子设备12可以是任何具有运行和存储计算机程序的设备,可以是计算机,还可以是专用服务器。其中,摄像设备11可以通过有线的方式与电子设备12进行数据传输,也可以通过无线局域网接入路由器,并通过路由器访问公网上的电子设备12。摄像设备11可以拍摄交警手势视频,并传输至电子设备12,电子设备12根据本申请的交警手势识别方法对接收到交警手势视频进行处理,得到识别结果。
请参阅图2,其为一个实施例的交警手势识别方法的示意图,该方法包括如下步骤:
S1:获取多个连续帧的交警手势图像,根据每一帧交警手势图像提取骨架关键点数据;
具体的,多个连续帧的交警手势图像表示一组连续姿势,在具体实施中,多个连续帧的交警手势图像可以从含有交警手势的视频中截取。
优选的,获取的多个连续帧的交警手势图像后,还包括步骤:对交警手势图像进行尺度归一化处理,以得到分辨率、尺寸一致的交警手势图像。示例性的,可将交警手势图像归一化处理为分辨率为500×500像素,对于包含RGB三通道信息的交警手势图像,可表示为张量(500,500,3)。
骨架关键点为与形成交警手势相关的关键身体部位,请参阅图3,其为一个示例性的骨架关键点的部位示意图,骨架关键点可以包括但不限于鼻子0、脖子1、右肩2、右肘3、右腕4、左肩5、左肘6、左腕7、右髋8、右膝9、右脚踝10、左髋11、左膝12、左脚踝13、右眼14、左眼15、右耳16和左耳17,其中右肩2、右肘3、右腕4、左肩5、左肘6、左腕7为手部骨架关键点。相邻骨架关键点的连线即为骨架,包括手部骨架,例如右肩2与右肘3连线的右大臂、右肘3与右腕4连线的右小臂、左肩5与左肘6连线的左大臂、左肘6与左腕7连线的左小臂,和身体其他骨架,例如右髋8与右膝9连线的右大腿、右膝9与右脚踝10连线的右小腿、左髋11与左膝12连线的左大腿,以及左膝12和左脚踝13连线的左小腿等。骨架关键点数据包括骨架关键点在交警手势图像中的位置信息和所提取的骨架关键点的置信度,骨架关键点数据可表示为(x,y,acc),其中x表示骨架关键点的交警手势图像x轴坐标,y表示骨架关键点的交警手势图像y轴坐标,acc表示骨架关键点的置信度。可选的,可通过Openpose算法根据每一帧交警手势图像进行骨架关键点数据的提取。
进一步,根据每一帧交警手势图像提取骨架关键点数据后,还包括步骤:对骨架关键点数据进行特征增强。具体为,沿右肩2至右肘3、右肘3至右腕4、左肩5至左肘6以及左肘6至左腕7的连线骨架上增加一定数量的骨架关键点,即进一步增强形成交警手势最为关键的手部骨架的特征描述。
S2:根据每一帧的骨架关键点数据通过训练好的pointnet网络提取骨架全局特征。
具体的,为了使骨架关键点数据满足pointnet网络输入的点云数据结构,在一个实施例中,可将骨架关键点数据中的骨架关键点坐标信息的x轴坐标信息进行复制,得到形式为(x,x,y)的数据结构。
请参阅图4,其为一个实施例的pointnet网络的结构示意图,pointnet网络包括input transform模块、第一多层感知机(MLP)、feature transform模块、第二多层感知机和最大池化模块,其中,input transform模块用于对所输入的骨架关键点数据进行仿射变换;第一多层感知机为两层感知机,每一层包括64个神经元,用于将input transform模块输出的数据映射为64维的特征向量;feature transform模块用于对第一多层感知机输出的特征向量进行仿射变换;第二多层感知机为三层感知机,第一层包括64个神经元,第二层包括128个神经元,第三层包括1024个神经元,用于将feature transform模块输出的特征向量映射为高维特征向量;最大池化模块用于根据第二多层感知机输出的高维特征向量得到骨架全局特征。
可选的,在pointnet网络的训练中,采用ModelNet40数据集作为训练样本,学习率设置为0.001,batch值设置为24,梯度下降采用Adam优化器,训练轮次设置为150个epochs。
优选的,为了降低第二多层感知机输出的高维特征向量的信息表达冗余性,对训练好的pointnet网络的第二多层感知机的第三层进行裁剪,使训练好的pointnet网络的第二多层感知机为两层感知机,其中,第一层包括64个神经元,第二层包括128个神经元,则训练好的pointnet网络的第二多层感知机输出128维的高维特征向量。在pointnet网络训练好后,才对第二多层感知机进行裁剪,可以保证pointnet网络训练时第二多层感知机不会过早收敛,而导致前两层参数无法更新,使第二多层感知机无法得到充分训练。
S3:根据每一帧的骨架关键点数据获得骨架角度特征。
具体为,针对每一帧的骨架关键点数据,获得骨架与与骨架之间夹角信息的三角函数值,根据每一帧的骨架与与骨架之间夹角信息的三角函数值获得骨架角度特征,骨架角度特征即为每一帧的骨架与与骨架之间夹角信息的三角函数值的向量表示。
S4:根据每一帧的骨架全局特征和骨架角度特征得到每一帧的手势空间上下文特征;
具体为,对每一帧的骨架全局特征和骨架角度特征进行向量的拼接,得到每一帧的手势空间上下文特征。
S5:根据每一帧的手势空间上下文特征通过LSTM网络提取手势时序特征;
具体的,LSTM网络输出的第t帧的手势时序特征ht的向量表达式为:
Figure BDA0003751795500000061
Figure BDA0003751795500000062
其中,σ为sigmoid激活函数;tanh为hyperbolic tangent激活函数;·为矩阵乘法;*为点乘;
Figure BDA0003751795500000063
为向量的拼接;W1、W2、W3、W4为LSTM网络训练得到的全连接层的权重;β1、β2、β3、β4为LSTM网络训练得到的全连接层的偏置;Ft为第t帧的手势空间上下文特征;ct用于保存记忆信息。
S6:根据手势时序特征计算每一交警手势类别的预测概率值,根据预测概率值确定识别结果。
具体的,可通过全连接层来根据手势时序特征计算每一交警手势类别的预测概率值,将各个交警手势类别的预测概率值进行排序,确定其中最大预测概率值对应的交警手势类别为识别结果。
相对于现有技术,本发明的交警手势识别方法通过剪裁pointnet网络减少特征信息冗余,提高交警手势图像中骨架关键点的全局特征的提取精度,加强了手势空间上下文特征的学习,同时通过LSTM网络使时间顺序与空间上下文特征相关联,以学习到各个手势空间上下文在时间上的逻辑关系,能够提高交警手势识别的准确率,且不易受到拍摄环境的光照条件、背景的影响。
基于同一发明构思,本发明还提供一种交警手势识别装置。请参阅图5,其为一个实施例的交警手势识别装置的结构示意图,该装置包括骨架关键点提取模块10、骨架全局特征提取模块20、骨架角度特征提取模块30、手势空间上下文特征提取模块40、手势时序特征提取模块50和结果预测模块60,其中,骨架关键点提取模块10用于获取多个连续帧的交警手势图像,根据每一帧交警手势图像提取骨架关键点数据;骨架全局特征提取模块20用于根据每一帧的骨架关键点数据通过训练好的pointnet网络提取骨架全局特征;骨架角度特征提取模块用于根据每一帧的骨架关键点数据获得骨架角度特征;手势空间上下文特征提取模块40用于根据每一帧的骨架关键点数据通过训练好的pointnet网络提取骨架全局特征,根据每一帧的骨架关键点数据获得骨架角度特征,并对每一帧的骨架全局特征和骨架角度特征进行向量的拼接,得到每一帧的手势空间上下文特征;手势时序特征提取模块50用于根据每一帧的手势空间上下文特征通过LSTM网络提取手势时序特征;结果预测模块60用于根据手势时序特征计算每一交警手势类别的预测概率值,根据预测概率值确定识别结果。
优选的,骨架关键点提取模块10还用于获取的多个连续帧的交警手势图像后,对交警手势图像进行尺度归一化处理,以得到分辨率、尺寸一致的交警手势图像。
优选的,交警手势识别装置还包括特征增强模块,用于对骨架关键点数据进行特征增强。具体为,沿右肩2至右肘3、右肘3至右腕4、左肩5至左肘6以及左肘6至左腕7的连线骨架上增加一定数量的骨架关键点,即进一步增强形成交警手势最为关键的手部骨架的特征描述。
优选的,交警手势识别装置还包括pointnet网络训练模块,用于对pointnet网络进行训练,在对pointnet网络进行训练后,裁剪第二多层感知机的第三层。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关细节之处请参见方法实施例的说明。
基于同一发明构思,本发明还提供一种电子设备,所述电子设备可以是服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。该电子设备包括一个或多个处理器和存储器,其中处理器用于执行程序实现方法实施例的交警手势识别方法;存储器用于存储可由所述处理器执行的计算机程序。
基于同一发明构思,本发明还提供一种计算机可读存储介质,与前述交警手势识别方法的实施例相对应,所述计算机可读存储介质其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所记载的交警手势识别方法的步骤。
本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,则本发明也意图包含这些改动和变形。

Claims (10)

1.一种交通手势识别方法,其特征在于,包括步骤:
获取多个连续帧的交警手势图像,根据每一帧所述交警手势图像提取骨架关键点数据,所述骨架关键点数据包括所述交警手势图像中的骨架关键点的位置信息;
根据每一帧所述骨架关键点数据通过训练好的pointnet网络提取骨架全局特征,其中,所述训练好的pointnet网络依处理顺序包括input transform模块、第一多层感知机、feature transform模块、第二多层感知机和最大池化模块,所述第二多层感知机为两层感知机,所述第二多层感知机的第一层包括64个神经元,第二层包括128个神经元;
针对每一帧所述骨架关键点数据,获得骨架与骨架之间夹角的三角函数值,根据所述三角函数值获得骨架角度特征;
对每一帧所述骨架全局特征和所述骨架角度特征进行向量的拼接,得到手势空间上下文特征;
根据所述手势空间上下文特征通过LSTM网络提取手势时序特征;
根据所述手势时序特征计算每一交警手势类别的预测概率值,根据所述预测概率值确定识别结果。
2.根据权利要求1所述的方法,其特征在于,根据每一帧所述交警手势图像提取骨架关键点数据后,还包括步骤:在所述骨架关键点中手部骨架关键点的连线上增加一定数量的骨架关键点。
3.根据权利要求1所述的方法,其特征在于:在所述pointnet网络的训练中,所述第二多层感知机为三层感知机,所述第二多层感知机的第三层包括1024个神经元;所述pointnet网络的训练完成后,包括步骤:裁剪所述第二多层感知机的第三层。
4.根据权利要求1所述的方法,其特征在于:所述手势时序特征的向量表达式为:
Figure FDA0003751795490000011
其中,ht为第t帧的所述手势时序特征,σ为sigmoid激活函数;tanh为hyperbolictangent激活函数;ct用于保存记忆信息,ct的表达式为:
Figure FDA0003751795490000012
W1、W2、W3、W4为LSTM网络训练得到的全连接层的权重;β1、β2、β3、β4为LSTM网络训练得到的全连接层的偏置;Ft为第t帧的手势空间上下文特征。
5.根据权利要求1所述的方法,其特征在于,获取多个连续帧的交警手势图像后,还包括步骤:对交警手势图像进行尺度归一化处理,得到分辨率一致的所述交警手势图像。
6.一种交警手势识别装置,其特征在于,包括:
骨架关键点提取模块,用于获取多个连续帧的交警手势图像,根据每一帧所述交警手势图像提取骨架关键点数据,所述骨架关键点数据包括所述交警手势图像中的骨架关键点的位置信息;
骨架全局特征提取模块,用于根据每一帧所述骨架关键点数据通过训练好的pointnet网络提取骨架全局特征,其中,所述训练好的pointnet网络依处理顺序包括inputtransform模块、第一多层感知机、feature transform模块、第二多层感知机和最大池化模块,所述第二多层感知机为两层感知机,所述第二多层感知机的第一层包括64个神经元,第二层包括128个神经元;
骨架角度特征提取模块,用于针对每一帧所述骨架关键点数据,获得骨架与骨架之间夹角的三角函数值,根据所述三角函数值获得骨架角度特征;
手势空间上下文特征提取模块,用于对每一帧所述骨架全局特征和所述骨架角度特征进行向量的拼接,得到手势空间上下文特征;
手势时序特征提取模块,用于根据所述手势空间上下文特征通过LSTM网络提取手势时序特征;
结果预测模块,用于根据所述手势时序特征计算每一交警手势类别的预测概率值,根据所述预测概率值确定识别结果。
7.根据权利要求6所述的装置,其特征在于:所述骨架关键点提取模块还用于在所述骨架关键点中手部骨架关键点的连线上增加一定数量的骨架关键点。
8.根据权利要求6所述的装置,其特征在于:在所述pointnet网络的训练中,所述第二多层感知机为三层感知机,所述第二多层感知机的第三层包括1024个神经元;
还包括pointnet网络训练模块,用于在所述pointnet网络的训练完成后,裁剪所述第二多层感知机的第三层。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储由所述处理器执行的计算机程序;
其中,所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现权利要求1-5中任一项所述方法的步骤。
CN202210842900.5A 2022-07-18 2022-07-18 交警手势识别方法、装置、电子设备及存储介质 Pending CN115346270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210842900.5A CN115346270A (zh) 2022-07-18 2022-07-18 交警手势识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210842900.5A CN115346270A (zh) 2022-07-18 2022-07-18 交警手势识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115346270A true CN115346270A (zh) 2022-11-15

Family

ID=83950879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210842900.5A Pending CN115346270A (zh) 2022-07-18 2022-07-18 交警手势识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115346270A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993824A (zh) * 2023-07-19 2023-11-03 北京长木谷医疗科技股份有限公司 髋臼旋转中心计算方法、装置、设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993824A (zh) * 2023-07-19 2023-11-03 北京长木谷医疗科技股份有限公司 髋臼旋转中心计算方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110738101B (zh) 行为识别方法、装置及计算机可读存储介质
WO2020228446A1 (zh) 模型训练方法、装置、终端及存储介质
US10445602B2 (en) Apparatus and method for recognizing traffic signs
CN110363817B (zh) 目标位姿估计方法、电子设备和介质
CN112418195B (zh) 一种人脸关键点检测方法、装置、电子设备及存储介质
CN110991513A (zh) 一种具有类人连续学习能力的图像目标识别系统及方法
CN111666905B (zh) 模型训练方法、行人属性识别方法和相关装置
CN112200056B (zh) 人脸活体检测方法、装置、电子设备及存储介质
US20220262093A1 (en) Object detection method and system, and non-transitory computer-readable medium
CN110222572A (zh) 跟踪方法、装置、电子设备及存储介质
WO2019033567A1 (zh) 眼球动作捕捉方法、装置及存储介质
US9165213B2 (en) Information processing apparatus, information processing method, and program
CN112651380A (zh) 人脸识别方法、人脸识别装置、终端设备及存储介质
CN110782430A (zh) 一种小目标的检测方法、装置、电子设备及存储介质
CN110610131B (zh) 人脸运动单元的检测方法、装置、电子设备及存储介质
CN115346270A (zh) 交警手势识别方法、装置、电子设备及存储介质
CN111104911A (zh) 一种基于大数据训练的行人重识别方法及装置
CN111353325A (zh) 关键点检测模型训练方法及装置
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
CN113553893A (zh) 基于深度神经网络的人体跌倒检测方法、装置和电子设备
CN115972198A (zh) 一种非完全信息条件下的机械臂视觉抓取方法与装置
CN115497094A (zh) 图像处理方法及装置、电子设备和存储介质
CN114511877A (zh) 一种行为识别方法、装置、存储介质及终端
CN113721240A (zh) 一种目标关联方法、装置、电子设备及存储介质
CN112131902A (zh) 闭环检测方法及装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination