CN115346270A

CN115346270A - 交警手势识别方法、装置、电子设备及存储介质

Info

Publication number: CN115346270A
Application number: CN202210842900.5A
Authority: CN
Inventors: 赵新兵; 李军; 雷鹏
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-11-15

Abstract

本发明涉及一种交通手势识别方法，包括：获取多个连续帧的交警手势图像，根据每一帧交警手势图像提取骨架关键点数据，骨架关键点数据包括交警手势图像中的骨架关键点的位置信息；根据每一帧骨架关键点数据通过训练好的pointnet网络提取骨架全局特征；针对每一帧骨架关键点数据，获得骨架与骨架之间夹角的三角函数值，根据三角函数值获得骨架角度特征；对每一帧骨架全局特征和骨架角度特征进行向量的拼接，得到手势空间上下文特征；根据手势空间上下文特征通过LSTM网络提取手势时序特征；根据手势时序特征计算每一交警手势类别的预测概率值，根据预测概率值确定识别结果。能够提高交警手势识别准确度。

Description

交警手势识别方法、装置、电子设备及存储介质

技术领域

本发明涉及交警手势识别技术领域，尤其是涉及一种交警手势识别方法、装置、电子设备及计算机可读存储介质。

背景技术

在汽车自动驾驶领域，如何实现交警手势识别是十分重要的问题。目前主要有两种交警手势的识别方法，一种是基于穿戴式设备的交警手势识别方法，另一种是基于计算机视觉的交警手势识别方法。基于穿戴式设备的交警手势识别方法，需要依赖可穿戴传感器收集交警手势信息实现交警手势的识别，该方法在实际应用的过程中，存在很多局限因素，例如部署实施和运营维护成本较高，增加了交警的工作负担，这些因素导致其在推广应用上存在障碍。基于计算机视觉的交警手势识别方法通过拍摄交警手势，在计算机上对拍摄的交警手势进行识别，可以有效避免上述的局限因素。但是，交警的工作环境中常常出现光照过强或过弱、拍摄背景复杂等的不利于成像质量的因素，目前的基于计算机视觉的交警手势识别方法对低质量的交警手势图像的识别准确率低。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种交警手势识别方法，能够提高对低质量的交警手势图像的识别准确率，进而提升汽车自动驾驶的安全性。

本发明是通过以下技术方案实现的：一种交通手势识别方法，包括步骤：

获取多个连续帧的交警手势图像，根据每一帧所述交警手势图像提取骨架关键点数据，所述骨架关键点数据包括所述交警手势图像中的骨架关键点的位置信息；

根据每一帧所述骨架关键点数据通过训练好的pointnet网络提取骨架全局特征，其中，所述训练好的pointnet网络依处理顺序包括input transform模块、第一多层感知机、feature transform模块、第二多层感知机和最大池化模块，所述第二多层感知机为两层感知机，所述第二多层感知机的第一层包括64个神经元，第二层包括128个神经元；

针对每一帧所述骨架关键点数据，获得骨架与骨架之间夹角的三角函数值，根据所述三角函数值获得骨架角度特征；

对每一帧所述骨架全局特征和所述骨架角度特征进行向量的拼接，得到手势空间上下文特征；

根据所述手势空间上下文特征通过LSTM网络提取手势时序特征；

根据所述手势时序特征计算每一交警手势类别的预测概率值，根据所述预测概率值确定识别结果。

相对于现有技术，本发明提供一种交警手势识别方法通过剪裁pointnet网络减少特征信息冗余，提高交警手势图像中骨架关键点的全局特征的提取精度，加强了手势空间上下文特征的学习，同时通过LSTM网络使时间顺序与空间上下文特征相关联，以学习到各个手势空间上下文在时间上的逻辑关系，能够提高交警手势识别的准确率，且不易受到拍摄环境的光照条件、背景的影响。

进一步地，根据每一帧所述交警手势图像提取骨架关键点数据后，还包括步骤：在所述骨架关键点中手部骨架关键点的连线上增加一定数量的骨架关键点。

进一步地，在所述pointnet网络的训练中，所述第二多层感知机为三层感知机，所述第二多层感知机的第三层包括1024个神经元；所述pointnet网络的训练完成后，包括步骤：裁剪所述第二多层感知机的第三层。

进一步地，所述手势时序特征的向量表达式为：

其中，h_t为第t帧的所述手势时序特征，σ为sigmoid激活函数；tanh为hyperbolictangent激活函数；c_t用于保存记忆信息，c_t的表达式为：

W₁、W₂、W₃、W₄为LSTM网络训练得到的全连接层的权重；β₁、β₂、β₃、β₄为LSTM网络训练得到的全连接层的偏置；F_t为第t帧的手势空间上下文特征。

进一步地，获取多个连续帧的交警手势图像后，还包括步骤：对交警手势图像进行尺度归一化处理，得到分辨率一致的所述交警手势图像。

基于同一发明构思，本发明还提供一种交警手势识别装置，包括：

骨架关键点提取模块，用于获取多个连续帧的交警手势图像，根据每一帧所述交警手势图像提取骨架关键点数据，所述骨架关键点数据包括所述交警手势图像中的骨架关键点的位置信息；

骨架全局特征提取模块，用于根据每一帧所述骨架关键点数据通过训练好的pointnet网络提取骨架全局特征，其中，所述训练好的pointnet网络依处理顺序包括inputtransform模块、第一多层感知机、feature transform模块、第二多层感知机和最大池化模块，所述第二多层感知机为两层感知机，所述第二多层感知机的第一层包括64个神经元，第二层包括128个神经元；

骨架角度特征提取模块，用于针对每一帧所述骨架关键点数据，获得骨架与骨架之间夹角的三角函数值，根据所述三角函数值获得骨架角度特征；

手势空间上下文特征提取模块，用于对每一帧所述骨架全局特征和所述骨架角度特征进行向量的拼接，得到手势空间上下文特征；

手势时序特征提取模块，用于根据所述手势空间上下文特征通过LSTM网络提取手势时序特征；

结果预测模块，用于根据所述手势时序特征计算每一交警手势类别的预测概率值，根据所述预测概率值确定识别结果。

进一步地，所述骨架关键点提取模块还用于在所述骨架关键点中手部骨架关键点的连线上增加一定数量的骨架关键点。

进一步地，在所述pointnet网络的训练中，所述第二多层感知机为三层感知机，所述第二多层感知机的第三层包括1024个神经元；

还包括pointnet网络训练模块，用于在所述pointnet网络的训练完成后，裁剪所述第二多层感知机的第三层。

基于同一发明构思，本发明还提供一种电子设备，包括：

处理器；

存储器，用于存储由所述处理器执行的计算机程序；

其中，所述处理器执行所述计算机程序时实现上述方法的步骤。

基于同一发明构思，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现上述方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本申请的交警手势识别方法的一个示例性应用环境示意图；

图2为一个实施例的交警手势识别方法的示意图；

图3为一个示例性的骨架关键点的部位示意图；

图4为一个实施例的pointnet网络的结构示意图；

图5为一个实施例的交警手势识别装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参阅图1，其为本申请的交警手势识别方法的一个示例性应用环境示意图，包括摄像设备11和电子设备12，摄像设备11可以是任何具有摄像和传输功能的设备，例如，可以具体为车载摄像头、车载监控器、手机、平板电脑等，电子设备12可以是任何具有运行和存储计算机程序的设备，可以是计算机，还可以是专用服务器。其中，摄像设备11可以通过有线的方式与电子设备12进行数据传输，也可以通过无线局域网接入路由器，并通过路由器访问公网上的电子设备12。摄像设备11可以拍摄交警手势视频，并传输至电子设备12，电子设备12根据本申请的交警手势识别方法对接收到交警手势视频进行处理，得到识别结果。

请参阅图2，其为一个实施例的交警手势识别方法的示意图，该方法包括如下步骤：

S1：获取多个连续帧的交警手势图像，根据每一帧交警手势图像提取骨架关键点数据；

具体的，多个连续帧的交警手势图像表示一组连续姿势，在具体实施中，多个连续帧的交警手势图像可以从含有交警手势的视频中截取。

优选的，获取的多个连续帧的交警手势图像后，还包括步骤：对交警手势图像进行尺度归一化处理，以得到分辨率、尺寸一致的交警手势图像。示例性的，可将交警手势图像归一化处理为分辨率为500×500像素，对于包含RGB三通道信息的交警手势图像，可表示为张量(500,500,3)。

骨架关键点为与形成交警手势相关的关键身体部位，请参阅图3，其为一个示例性的骨架关键点的部位示意图，骨架关键点可以包括但不限于鼻子0、脖子1、右肩2、右肘3、右腕4、左肩5、左肘6、左腕7、右髋8、右膝9、右脚踝10、左髋11、左膝12、左脚踝13、右眼14、左眼15、右耳16和左耳17，其中右肩2、右肘3、右腕4、左肩5、左肘6、左腕7为手部骨架关键点。相邻骨架关键点的连线即为骨架，包括手部骨架，例如右肩2与右肘3连线的右大臂、右肘3与右腕4连线的右小臂、左肩5与左肘6连线的左大臂、左肘6与左腕7连线的左小臂，和身体其他骨架，例如右髋8与右膝9连线的右大腿、右膝9与右脚踝10连线的右小腿、左髋11与左膝12连线的左大腿，以及左膝12和左脚踝13连线的左小腿等。骨架关键点数据包括骨架关键点在交警手势图像中的位置信息和所提取的骨架关键点的置信度，骨架关键点数据可表示为(x,y,acc)，其中x表示骨架关键点的交警手势图像x轴坐标，y表示骨架关键点的交警手势图像y轴坐标，acc表示骨架关键点的置信度。可选的，可通过Openpose算法根据每一帧交警手势图像进行骨架关键点数据的提取。

进一步，根据每一帧交警手势图像提取骨架关键点数据后，还包括步骤：对骨架关键点数据进行特征增强。具体为，沿右肩2至右肘3、右肘3至右腕4、左肩5至左肘6以及左肘6至左腕7的连线骨架上增加一定数量的骨架关键点，即进一步增强形成交警手势最为关键的手部骨架的特征描述。

S2：根据每一帧的骨架关键点数据通过训练好的pointnet网络提取骨架全局特征。

具体的，为了使骨架关键点数据满足pointnet网络输入的点云数据结构，在一个实施例中，可将骨架关键点数据中的骨架关键点坐标信息的x轴坐标信息进行复制，得到形式为(x,x,y)的数据结构。

请参阅图4，其为一个实施例的pointnet网络的结构示意图，pointnet网络包括input transform模块、第一多层感知机(MLP)、feature transform模块、第二多层感知机和最大池化模块，其中，input transform模块用于对所输入的骨架关键点数据进行仿射变换；第一多层感知机为两层感知机，每一层包括64个神经元，用于将input transform模块输出的数据映射为64维的特征向量；feature transform模块用于对第一多层感知机输出的特征向量进行仿射变换；第二多层感知机为三层感知机，第一层包括64个神经元，第二层包括128个神经元，第三层包括1024个神经元，用于将feature transform模块输出的特征向量映射为高维特征向量；最大池化模块用于根据第二多层感知机输出的高维特征向量得到骨架全局特征。

可选的，在pointnet网络的训练中，采用ModelNet40数据集作为训练样本，学习率设置为0.001，batch值设置为24，梯度下降采用Adam优化器，训练轮次设置为150个epochs。

优选的，为了降低第二多层感知机输出的高维特征向量的信息表达冗余性，对训练好的pointnet网络的第二多层感知机的第三层进行裁剪，使训练好的pointnet网络的第二多层感知机为两层感知机，其中，第一层包括64个神经元，第二层包括128个神经元，则训练好的pointnet网络的第二多层感知机输出128维的高维特征向量。在pointnet网络训练好后，才对第二多层感知机进行裁剪，可以保证pointnet网络训练时第二多层感知机不会过早收敛，而导致前两层参数无法更新，使第二多层感知机无法得到充分训练。

S3：根据每一帧的骨架关键点数据获得骨架角度特征。

具体为，针对每一帧的骨架关键点数据，获得骨架与与骨架之间夹角信息的三角函数值，根据每一帧的骨架与与骨架之间夹角信息的三角函数值获得骨架角度特征，骨架角度特征即为每一帧的骨架与与骨架之间夹角信息的三角函数值的向量表示。

S4：根据每一帧的骨架全局特征和骨架角度特征得到每一帧的手势空间上下文特征；

具体为，对每一帧的骨架全局特征和骨架角度特征进行向量的拼接，得到每一帧的手势空间上下文特征。

S5：根据每一帧的手势空间上下文特征通过LSTM网络提取手势时序特征；

具体的，LSTM网络输出的第t帧的手势时序特征h_t的向量表达式为：

其中，σ为sigmoid激活函数；tanh为hyperbolic tangent激活函数；·为矩阵乘法；*为点乘；

为向量的拼接；W₁、W₂、W₃、W₄为LSTM网络训练得到的全连接层的权重；β₁、β₂、β₃、β₄为LSTM网络训练得到的全连接层的偏置；F_t为第t帧的手势空间上下文特征；c_t用于保存记忆信息。

S6：根据手势时序特征计算每一交警手势类别的预测概率值，根据预测概率值确定识别结果。

具体的，可通过全连接层来根据手势时序特征计算每一交警手势类别的预测概率值，将各个交警手势类别的预测概率值进行排序，确定其中最大预测概率值对应的交警手势类别为识别结果。

相对于现有技术，本发明的交警手势识别方法通过剪裁pointnet网络减少特征信息冗余，提高交警手势图像中骨架关键点的全局特征的提取精度，加强了手势空间上下文特征的学习，同时通过LSTM网络使时间顺序与空间上下文特征相关联，以学习到各个手势空间上下文在时间上的逻辑关系，能够提高交警手势识别的准确率，且不易受到拍摄环境的光照条件、背景的影响。

基于同一发明构思，本发明还提供一种交警手势识别装置。请参阅图5，其为一个实施例的交警手势识别装置的结构示意图，该装置包括骨架关键点提取模块10、骨架全局特征提取模块20、骨架角度特征提取模块30、手势空间上下文特征提取模块40、手势时序特征提取模块50和结果预测模块60，其中，骨架关键点提取模块10用于获取多个连续帧的交警手势图像，根据每一帧交警手势图像提取骨架关键点数据；骨架全局特征提取模块20用于根据每一帧的骨架关键点数据通过训练好的pointnet网络提取骨架全局特征；骨架角度特征提取模块用于根据每一帧的骨架关键点数据获得骨架角度特征；手势空间上下文特征提取模块40用于根据每一帧的骨架关键点数据通过训练好的pointnet网络提取骨架全局特征，根据每一帧的骨架关键点数据获得骨架角度特征，并对每一帧的骨架全局特征和骨架角度特征进行向量的拼接，得到每一帧的手势空间上下文特征；手势时序特征提取模块50用于根据每一帧的手势空间上下文特征通过LSTM网络提取手势时序特征；结果预测模块60用于根据手势时序特征计算每一交警手势类别的预测概率值，根据预测概率值确定识别结果。

优选的，骨架关键点提取模块10还用于获取的多个连续帧的交警手势图像后，对交警手势图像进行尺度归一化处理，以得到分辨率、尺寸一致的交警手势图像。

优选的，交警手势识别装置还包括特征增强模块，用于对骨架关键点数据进行特征增强。具体为，沿右肩2至右肘3、右肘3至右腕4、左肩5至左肘6以及左肘6至左腕7的连线骨架上增加一定数量的骨架关键点，即进一步增强形成交警手势最为关键的手部骨架的特征描述。

优选的，交警手势识别装置还包括pointnet网络训练模块，用于对pointnet网络进行训练，在对pointnet网络进行训练后，裁剪第二多层感知机的第三层。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关细节之处请参见方法实施例的说明。

基于同一发明构思，本发明还提供一种电子设备，所述电子设备可以是服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。该电子设备包括一个或多个处理器和存储器，其中处理器用于执行程序实现方法实施例的交警手势识别方法；存储器用于存储可由所述处理器执行的计算机程序。

基于同一发明构思，本发明还提供一种计算机可读存储介质，与前述交警手势识别方法的实施例相对应，所述计算机可读存储介质其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所记载的交警手势识别方法的步骤。

本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。

Claims

1.一种交通手势识别方法，其特征在于，包括步骤：

2.根据权利要求1所述的方法，其特征在于，根据每一帧所述交警手势图像提取骨架关键点数据后，还包括步骤：在所述骨架关键点中手部骨架关键点的连线上增加一定数量的骨架关键点。

3.根据权利要求1所述的方法，其特征在于：在所述pointnet网络的训练中，所述第二多层感知机为三层感知机，所述第二多层感知机的第三层包括1024个神经元；所述pointnet网络的训练完成后，包括步骤：裁剪所述第二多层感知机的第三层。

4.根据权利要求1所述的方法，其特征在于：所述手势时序特征的向量表达式为：

5.根据权利要求1所述的方法，其特征在于，获取多个连续帧的交警手势图像后，还包括步骤：对交警手势图像进行尺度归一化处理，得到分辨率一致的所述交警手势图像。

6.一种交警手势识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于：所述骨架关键点提取模块还用于在所述骨架关键点中手部骨架关键点的连线上增加一定数量的骨架关键点。

8.根据权利要求6所述的装置，其特征在于：在所述pointnet网络的训练中，所述第二多层感知机为三层感知机，所述第二多层感知机的第三层包括1024个神经元；

9.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储由所述处理器执行的计算机程序；

其中，所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现权利要求1-5中任一项所述方法的步骤。