CN117523679A

CN117523679A - 一种驾驶员手势识别方法、系统及存储介质

Info

Publication number: CN117523679A
Application number: CN202410021187.7A
Authority: CN
Inventors: 周麒麟; 贾益俊; 宋红霞; 唐中军; 王亚军; 卜显利
Original assignee: Chengdu Yunda Technology Co Ltd
Current assignee: Chengdu Yunda Technology Co Ltd
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-02-06

Abstract

本发明公开了一种驾驶员手势识别方法、系统及存储介质，属于图像识别技术领域。所述方法包括S1：操作台屏幕轮廓及位置图像采集阶段，采集操作台屏幕轮廓及位置图像；S2：驾驶员手部图像采集阶段，采集驾驶员的手部图像得到第一手部图像；S3：手势类型识别阶段，将第一手部图像传入训练好的手势类型识别网络模型，识别手势类型得到手势类型识别结果；S4：指向屏幕识别阶段，根据第一手部图像和操作台屏幕轮廓及位置图像，识别驾驶员手部指向的屏幕。能够确保司机正确使用手指口呼系统，根据铁路规范，实现统一的手势评定，并解决大规模、大频率下的司机培训需求。

Description

一种驾驶员手势识别方法、系统及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种驾驶员手势识别方法、系统及存储介质。

背景技术

近年来，随着轨道交通行业的快速发展，铁路运输在国家经济和社会发展之中扮演着重要角色，国家对铁路司机的专业技能与行车安全愈发重视。在铁路运输对安全性要求极高。司机需要在行车过程中与列车调度员和其他列车成员进行有效的通信，以确保列车在轨道上的安全运行。而这其中手指口呼系统起了非常大的作用。即时性：在紧急情况下，即时通信至关重要。手指口呼系统可以让司机和调度员之间立即进行语音通信，这对于处理紧急事件、避免冲突和做出快速决策非常关键。沟通效率：手指口呼系统可以提高沟通的效率。司机可以通过手势、语音命令来报告列车状况、请求指令或提供信息，而不必花时间敲击键盘或使用文字消息。这有助于减少不必要的通信延迟，并提高整个铁路系统的效率。减轻司机负担：长时间的列车行车过程对司机来说可能非常疲劳，因此减轻他们的工作负担非常重要。手指口呼系统的使用可以简化通信过程，使司机能够更轻松地专注于列车操作，减少了他们的工作压力紧急情况应对：如果列车遇到紧急情况，如障碍物、技术故障或危险情况，司机需要立即与调度员和其他相关人员进行沟通。手指口呼系统可以在这些关键时刻提供快速、可靠的通信方式，以便采取适当的措施来处理紧急情况。安全性：手指口呼系统允许司机通过语音指令进行通信，而不需要分散注意力或离开操纵台，因此有助于提高行车过程中的安全性。

为了加强司机的行车规范意识，会对新的驾驶司机进行多次培训与测试，以前的司机培训过程中，由培训师对培训司机的行车行为进行判定是一种常见的做法。优点是这些培训师通常具有广泛的知识和经验，能够识别和纠正司机的潜在问题，根据具体情况进行调整和个性化指导，并提供实际的示范和建议。但是缺点也很明显，人工判定可能会受到主观因素的影响，不同培训师可能对相同行为有不同的解释和评价，这可能导致不一致性；人工培训需要投入大量时间和资源，包括聘请专业培训师、提供培训场地和设备。这可能不适用于大规模培训或需要频繁更新的情况，不能时刻对学员进行评估。

发明内容

本发明的目的在于克服现有技术的不足，提供一种驾驶员手势识别方法、系统及存储介质。

本发明的目的是通过以下技术方案来实现的：本发明第一方面提供：一种驾驶员手势识别方法，包括以下步骤：

S1：操作台屏幕轮廓及位置图像采集阶段，采集操作台屏幕轮廓及位置图像；

S2：驾驶员手部图像采集阶段，采集驾驶员的手部图像得到第一手部图像；

S3：手势类型识别阶段，将第一手部图像传入训练好的手势类型识别网络模型，识别手势类型得到手势类型识别结果；

S4：指向屏幕识别阶段，根据第一手部图像和操作台屏幕轮廓及位置图像，识别驾驶员手部指向的屏幕；

所述的手势类型识别网络模型的训练步骤包括：

标注第一手部图像坐标位置的目标框及手势的类型得到第二手部图像；

对第二手部图像进行预处理得到第三手部图像；

将第三手部图像输入至构建的手势类型基础网络架构进行模型训练，直至训练识别到的手势类型图像满足预设类别置信度和手部图像位置边框偏移量；

其中，所述类别置信度是指识别到的第一手部图像属于正确手势类型的概率，所述手部图像位置边框偏移量是指识别到的第一手部图像预测框与第一手部图像的目标框之间的偏移量。

优选的，对第二手部图像进行预处理的步骤包括：

将第二手部图像缩小或放大到预设大小，并将第二手部图像进行网格划分；

基于第一手部图像坐标位置，计算第二手部图像的中心点，并得到所述中心点所在的网格；

将第三手部图像输入至构建的手势类型基础网络架构进行模型训练，直至训练识别到的手势类型图像满足预设类别置信度和手部图像位置边框偏移量，包括以下步骤：

基于所述中心点所在的网格以及与该网格预设距离范围内的网格进行第一手部图像的类别预测，包括：

对第三手部图像进行图像特征提取，得到各层的深层信息，所述深层信息包括类别信息和坐标信息；

融合各层的深层信息，适应多尺度下的目标检测，得到多尺度特征信息；

融合多尺度特征信息，并对融合后的多尺度特征信息进一步提取，得到第三手部图像的类别置信度和手部图像位置边框偏移量；

每一个网格预定义有锚框，将每个网格输出的手部图像位置边框偏移量与对应的锚框进行计算得到预测框。

优选的，采用非极大值抑制算法，将多余的预测框去除；对重叠的预测框的类型置信度进行比较，得到类别置信度最大的预测框作为目标预测框。

优选的，所述的S3：手势类型识别阶段，还包括以下步骤：

根据第一手部图像得到驾驶员手臂图像；

基于驾驶员手臂图像识别手臂伸展角度；

判断手臂伸展角度是否小于预设角度阈值，如果小于预设角度阈值，则过滤掉该驾驶员手臂图像对应的第一手部图像或手势类型识别结果。包含两个方案：一，先进行手臂伸展角度的识别，过滤掉不符合要求的图像后再进行手势类型识别；二，先进行手势类型识别，再对识别的结果进行不符合角度要求的图像过滤。

优选的，所述的手臂伸展角度的识别步骤包括：将驾驶员手臂图像中单手臂的手腕、手肘和肩膀三个点连成一条曲线，计算手腕到手肘和肩膀到手肘两个向量之间的角度作为手臂伸展角度。

优选的，所述的S3：手势类型识别阶段，还包括以下步骤：将第一手部图像中与手势识别到的手部区域坐标框对应的图像区域进行截取，得到模糊度对比图像；

将所述模糊度对比图像进行傅里叶变换，从而将图像转换为频域；对于模糊度对比图像函数f(x，y)，其傅立叶变换由以下公式给出：

，其中：(u，v)是频域中的坐标、(x，y)是空域中的坐标、i是虚数单位（i2 = -1）、e是自然对数的底、傅立叶变换将模糊度对比图像分解为不同频率分量的复数值，F(u，v) 表示频域中的复数值；频域中的低频分量对应模糊度对比图像中的低频信息，频域中的高频分量对应模糊度对比图像中的细节和纹理；

计算功率谱密度PSD来得到模糊度；功率谱密度PSD的计算公式为，其中∣ F(u,v)∣ 表示频域中每个点的幅度；

判断所述模糊度是否大于预设模糊度阈值，如果模糊度大于预设模糊度阈值，则过滤掉该第一手部图像对应的手势类型识别结果。

优选的，所述的S4：指向屏幕识别阶段，还包括以下步骤：

基于所述第一手部图像计算手部指尖的中间坐标点；

基于所述操作台屏幕轮廓及位置图像，得到与操作台屏幕对应的多边形轮廓及坐标位置；

以所述中间坐标点为端点，向平行于X轴正方向延伸设置射线，计算所述射线与所述多边形轮廓相交的次数，将第一个相交次数为奇数的多边形轮廓作为驾驶员手部指向的屏幕。

优选的，根据第一手部图像的坐标框得到第一手部图像的坐标框左上角点的X坐标，将第一手部图像的坐标框左上角点的X坐标加上第一手部图像的坐标框的上边缘宽度的二分之一，得到所述中间坐标点的X坐标；将第一手部图像的坐标框左上角点的Y坐标作为所述中间坐标点的Y坐标。

本发明第二方面提供：一种驾驶员手势识别系统，用于上述任一种驾驶员手势识别方法，包括：

操作台屏幕轮廓及位置图像采集模块，用于采集操作台屏幕轮廓及位置图像；

驾驶员手部图像采集模块，用于采集驾驶员的手部图像得到第一手部图像；

手势类型识别模块，用于将第一手部图像传入训练好的手势类型识别网络模型，识别手势类型得到手势类型识别结果；

指向屏幕识别模块，用于根据第一手部图像和操作台屏幕轮廓及位置图像，识别驾驶员手部指向的屏幕。

本发明第三方面提供：一种计算机可读存储介质，所述的计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现上述任一种驾驶员手势识别方法。

本发明的有益效果是：

1）确保司机正确使用手指口呼系统，根据铁路规范，实现统一的手势评定，并解决大规模、大频率下的司机培训需求，降低培训成本。

2）使用傅立叶变换方法将手部图像转换到频域，然后计算频域中的特定频率分量来评估图像的模糊度，模糊图像通常会导致频率分量的扩散，对手势检测结果进行二次筛选，达到自动识别司机行为的目的，并保持高的准确性。

附图说明

图1为本发明驾驶员手势识别方法流程图；

图2为目标预测框获取流程图；

图3为使用射线法确定驾驶员手部指向的屏幕的示意图；

图4为手臂伸展角度计算示意图；

图5为四边形区域组示意图。

具体实施方式

下面将结合实施例，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先采集驾驶司机实际培训操作时的视频，训练手势、人体姿态、手的目标检测模型，这里的话为了保持精度与性能的平衡，尽可能提高端到端的程度，选用了yolov5（并不限于该模型）作为基础目标检测模型，选用yolo-pose作为姿态检测基础模型。然后在逻辑设计时，先检测出手，然后通过右手的关键点曲线对结果进行一次筛选，再将手部图像截取出来，使用傅立叶变换方法将手部图像转换到频域，然后计算频域中的特定频率分量来评估图像的模糊度，模糊图像通常会导致频率分量的扩散，对手势检测结果进行二次赛选，达到自动识别司机行为的目的，并保持高的准确性。其中会使用多摄像头进行目标检测和手势识别，同时整合来自不同摄像头的信息，进一步判断司机具体指向的是哪个信号屏幕，以提高手势识别的准确性和鲁棒性。

参阅图1-图3，本发明第一方面提供：一种驾驶员手势识别方法，包括以下步骤：

所述的手势类型识别网络模型的训练步骤包括：

对第二手部图像进行预处理得到第三手部图像；

本发明可以识别和解释司机的手势，提供实时反馈，同步记录和分析司机的手势，自动评估司机的驾驶表现，分析了解他们的强项和改进点。并且能够大幅度降低在大规模、多频率中的培训成本，提高驾驶员培训的效率和效果，具体步骤分为：对采集的司机培训时的操作视频图像数据，依次进行标注、数据增强和多尺度变换后，通过Yolov5网络完成手势、与单独手检测模型的训练；yolov5采用CSPNet结构作为图像特征提取器，能够在保持精度的情况下减少模型的参数量以及计算量；包含自底向上与自顶向下结构的多层金字塔网络PANet，融合多尺度特征图的信息，高层高级语义的信息与低层纹理信息的融合，能够适应尺度不一的目标。yolov5首先将图片缩放到统一的大小，然后将图片划分为NxN的网格，如果目标的中心点在某个网格中，则该网格以及该网格附近的网格对该目标进行预测。每个网格会输出目标的分类概率，能够反应目标是否存在的置信度，以及边框的偏移量。为了提高模型的准确率，对于不同大小的目标框，yolov5首先会给每一个网格预定义一组锚框，然后将每个网格输出的边框偏移量与预定义的锚框进行计算得到最终的预测框。

进一步的，由于该方法是将图片划分为NxN的网格进行目标的预测，并且每个网格都要输出目标的分类概率，置信度以及边框偏移量。因此网络的输出是稠密的，但一般来说图像中的目标比较少，所以得到网络输出之后需要对稠密的预测输出进行筛选。前面说到的置信度能够反应该物体是否在该网格，因此先设置一个置信度阈值，过滤掉那些低置信度的输出；然后由于预测框十分的多并且框与框之间的重叠程度也很高，因此采用非极大值抑制NMS算法将多于的框去除掉。其中非极大值抑制首先将预测框按照置信度的大小从高到低排序，然后计算每个框之间的IOU值，IoU的值通常在0到1之间，值越接近1表示模型的预测与实际目标更接近，值越接近0表示两者重叠较少。然后根据置信度与IOU值对重叠的框进行筛选，如果两个框的IOU值大于一个阈值，则保留置信度较高的框，这样操作直到遍历所有的预测框，最终的剩下的边框就是目标预测框。这样就能得到基本的司机手势的检测结果。当然可用在本发明中的目标检测算法包括但不限于yolov5。

在一些实施例中，对第二手部图像进行预处理的步骤包括：

在一些实施例中，采用非极大值抑制算法，将多余的预测框去除；对重叠的预测框的类型置信度进行比较，得到类别置信度最大的预测框作为目标预测框。

在一些实施例中，所述的S3：手势类型识别阶段，还包括以下步骤：

根据第一手部图像得到驾驶员手臂图像；

基于驾驶员手臂图像识别手臂伸展角度；

在实际驾驶时，由于司机手势动作比较快，在不使用高刷相机的情况下，司机的实时手势图像容错产生模糊，在小批量数据集的检测模型下，容易产生一定的手势误检，所以需要对结果进行过滤，以提高手势的检测准确率。利用手臂伸展角度对检测出的手势进行过滤。采集的司机培训时的操作视频图像数据，依次进行标注、数据增强和多尺度变换后，通过YOLO-Pose网络完成姿态检测模型的训练，检测出人体姿态点，并使用手臂伸展的角度对检测出司机的手势进行过滤。

在一些实施例中，所述的手臂伸展角度的识别步骤包括：将驾驶员手臂图像中单手臂的手腕、手肘和肩膀三个点连成一条曲线，计算手腕到手肘和肩膀到手肘两个向量之间的角度作为手臂伸展角度。

YOLO-Pose基于YOLOv5目标检测框架，相对于YOLOv5来说， Human PoseEstimation可以看作为一个单类的Person detection问题，每个人有17个相关的关键点，每个关键点有再次识别的位置和可信度。所以，与一个Anchor关联的17个关键点总共有51个元素。因此，对于每个Anchor，KeypointHead预测51个元素，Box head预测6个元素。对于具有n个关键点的Anchor，总体预测向量定义为：

，如图4所示，其中Cx表示检测到人的坐标框的中心点x轴坐标；Cy表示检测到人的坐标框的中心点y轴坐标；W表示检测到人的坐标框的宽度；H表示检测到人的坐标框高度；box_conf表示检测到的人体框的置信度或可信度分数；class_conf表示检测到的这个框的类别是人的置信度或可信度分数；Kx、Ky、K_conf分别代表人体关节点的x坐标、y坐标、与当前关节点的置信度或可信度分数，并且最多为17个关节点，n最大为17。在这些结果输出中，采用右手腕、右手肘、右肩膀三个点，连成一条曲线，计算手腕到手肘与肩膀到手肘这两个向量之间的角度，这里采用了余弦角度来计算与表示，公式为：cos=ab/|a|*|b|，余弦是三角函数的一种。计算余弦角度通常比计算其他距离度量（如曼哈顿距离或欧氏距离）更快速，因为它仅涉及点积和向量长度的计算。当余弦角度在预先设置的阈值内，则代表司机正在做的手势是有效的。

在一些实施例中，所述的S3：手势类型识别阶段，还包括以下步骤：将第一手部图像中与手势识别到的手部区域坐标框对应的图像区域进行截取，得到模糊度对比图像；

利用手部图像的模糊度计算来对检测手势结果进行筛选。首先我们通过yolov5检测手势得到了手部区域的坐标框，然后根据坐标框在原图像中将手部区域的图像截取出来进行模糊度的一个计算，当模糊度小于阈值，则认为结果是有效的。这里采用了傅立叶变换方法将图像转换到频域，然后计算频域中的特定频率分量来评估图像的模糊度的方法。傅立叶变换一般是将一个时域（或空域）信号转换为频域信号进行分析。而在图像处理中，可以将图像视为二维信号，并应用二维傅立叶变换来将图像从空域转换到频域。

图像模糊通常会导致频率分量的扩散。这意味着原始图像中的高频分量在模糊后会分散到周围的频域中，从而导致频域表示中的能量分散。因此，通过分析频域中的能量分布，可以评估图像的模糊度。模糊图像通常会在频域中具有较广的频谱，而清晰图像的频谱通常更加集中。在应用中，会计算图像频域表示的功率谱密度（Power Spectral Density，PSD）或频域中的特定频率分量的能量，然后使用这些信息来评估图像的模糊度。这样对手势的检测结果进一步进行过滤，提升自动识别司机手势的可靠性。

在一些实施例中，所述的S4：指向屏幕识别阶段，还包括以下步骤：

基于所述第一手部图像计算手部指尖的中间坐标点；

为判断司机具体指向的是哪个操作屏幕，我们首先使用俯视的镜头对整个操作台面进行拍摄，对每个屏幕进行分区，得到多个多边形的坐标区域组。单个多边形区域组表示为：{ X1,Y1，X2，Y2····XP，YP}，如图5所示为一个四边形区域，X1，Y1为第一个点的x轴与y轴坐标点，X2，Y2为第二个点的x轴与y轴坐标点，X3，Y3为第二个点的x轴与y轴坐标点，X4，Y4为第二个点的x轴与y轴坐标点，以此类推，XP，YP为第P个点的x轴与y轴坐标点，这P个点的坐标形成一个区域坐标框；然后使用YOLOV5检测手的模型将手部的坐标框求出来，计算出手部指尖的中间坐标点，使用检测框的左上角点P（X，Y）的X坐标加上检测框宽W的1/2，Y坐标与P点的Y值一致。然后使用这个点与预先画好的操作屏的多边形坐标组进行交叉判定，如果这个点在这个区域内，则代表当前指向的为这个屏幕。

如图3所示，这里使用"射线法"（Ray Casting）算法来确定点是否在一个多边形的区域中，该算法使用一条从点（x，y）开始并沿着正 x 轴方向延伸的射线。它计算这条射线与多边形的边界相交的次数。如果相交次数为奇数，点在多边形内；否则，在多边形外。然后循环点与多个坐标组进行计算，最终得到手势指向的是某个屏幕，没在区域内的手势，表示无效手势，并且这样对检测的手势又做了进一步的正确结果筛选。当我们得到多个摄像机联合处理过后司机的有效手势与手势指向的具体屏幕之后，就可以实时的对自动分析和评估司机的行车行为，提高驾驶司机的培训效率，大幅度的降低相关培训的人工成本。

在一些实施例中，根据第一手部图像的坐标框得到第一手部图像的坐标框左上角点的X坐标，将第一手部图像的坐标框左上角点的X坐标加上第一手部图像的坐标框的上边缘宽度的二分之一，得到所述中间坐标点的X坐标；将第一手部图像的坐标框左上角点的Y坐标作为所述中间坐标点的Y坐标。

以下为本发明的实施例之一。

1.安装摄像机用于图像获取，1号摄像头（安装于司机正面1.5-3米），2号摄像头（安装与司机上方，1.到3米）

2.采集实际或模拟的司机操作数据，拿到图像数据之后，对数据进行清晰、标注、增强，训练出司机手势检测模型、人手检测模型、人体姿态检测模型

3.使用显卡并结合对应的部署加速框架，对算法模型进行部署。

4.获取1号摄像头（安装于司机正面）图像送入到手势算法检测中，检测出司机做的手势，然后截取出司机手部的图像，使用傅里叶变换的方法对图像模糊度进行判断，低于阈值的为有效手势。

5.获取1号摄像头（安装于司机正面）图像送入到人体姿态的算法检测中，提取出右臂手腕、手肘、肩膀的关键点，使用余弦距离计算向量的夹角，当角度在预置的范围内为有效手势。

6.截取利用2号摄像头（安装与司机上方）的画面，在图像上对屏幕的对应区域进行描点，获取操作屏相关多边形区域坐标点。

7.获取2号摄像头图像，送入到手的算法检测中，检测司机的手部，计算出手尖的点，并使用射线法与操作屏的多边形区域进行计算，判断点是否落于多边形区域内，如果在区域内，则表示司机指向的为当前屏，并且进一步过滤掉一些无效手势。

8.最后得到驾驶司机实时的有效手势与正确指向的屏幕，进行输出。

这个方法能有效的解决自动实时识别司机手势的问题，并通过多种限制条件，提高自动识别的准确性。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种驾驶员手势识别方法，其特征在于：包括以下步骤：

所述的手势类型识别网络模型的训练步骤包括：

对第二手部图像进行预处理得到第三手部图像；

2.根据权利要求1所述的驾驶员手势识别方法，其特征在于：对第二手部图像进行预处理的步骤包括：

3.根据权利要求2所述的驾驶员手势识别方法，其特征在于：采用非极大值抑制算法，将多余的预测框去除；对重叠的预测框的类型置信度进行比较，得到类别置信度最大的预测框作为目标预测框。

4.根据权利要求1所述的驾驶员手势识别方法，其特征在于：所述的S3：手势类型识别阶段，还包括以下步骤：

根据第一手部图像得到驾驶员手臂图像；

基于驾驶员手臂图像识别手臂伸展角度；

判断手臂伸展角度是否小于预设角度阈值，如果小于预设角度阈值，则过滤掉该驾驶员手臂图像对应的第一手部图像或手势类型识别结果。

5.根据权利要求4所述的驾驶员手势识别方法，其特征在于：所述的手臂伸展角度的识别步骤包括：将驾驶员手臂图像中单手臂的手腕、手肘和肩膀三个点连成一条曲线，计算手腕到手肘和肩膀到手肘两个向量之间的角度作为手臂伸展角度。

6.根据权利要求1所述的驾驶员手势识别方法，其特征在于：所述的S3：手势类型识别阶段，还包括以下步骤：将第一手部图像中与手势识别到的手部区域坐标框对应的图像区域进行截取，得到模糊度对比图像；

7.根据权利要求1所述的驾驶员手势识别方法，其特征在于：所述的S4：指向屏幕识别阶段，还包括以下步骤：

基于所述第一手部图像计算手部指尖的中间坐标点；

8.根据权利要求7所述的驾驶员手势识别方法，其特征在于：根据第一手部图像的坐标框得到第一手部图像的坐标框左上角点的X坐标，将第一手部图像的坐标框左上角点的X坐标加上第一手部图像的坐标框的上边缘宽度的二分之一，得到所述中间坐标点的X坐标；将第一手部图像的坐标框左上角点的Y坐标作为所述中间坐标点的Y坐标。

9.一种驾驶员手势识别系统，其特征在于：用于实现如权利要求1-8任一项所述的驾驶员手势识别方法，包括：

10.一种计算机可读存储介质，其特征在于：所述的计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1-8任一项所述的驾驶员手势识别方法。