CN112651326A

CN112651326A - 一种基于深度学习的驾驶员手部检测方法及系统

Info

Publication number: CN112651326A
Application number: CN202011530576.0A
Authority: CN
Inventors: 杨晓晖; 马哲; 冯志全; 徐涛; 韩士元
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-13
Anticipated expiration: 2040-12-22
Also published as: CN112651326B

Abstract

本发明公开一种基于深度学习的驾驶员手部检测方法及系统，包括：获取手部标注图像；在深度学习网络模型的主干网络中每个特征层上添加注意力机制，在注意力机制后连接由空间金字塔池化层和金字塔注意力网络组成的残差单元；对手部标注图像依次经主干网络和残差单元进行自下而上和自上而下的特征提取，根据得到的特征图对深度学习网络模型进行训练；对待测手部图像根据训练后的深度学习网络模型得到驾驶员手部的位置。通过将注意力机制模块添加到YOLOv4中主干网络CSPDarknet53中，优化深度学习网络，降低复杂驾驶环境中光照、遮挡与自遮挡等对驾驶员手部检测的影响，提高驾驶员手部检测的准确性。

Description

一种基于深度学习的驾驶员手部检测方法及系统

技术领域

本发明涉及深度学习技术领域，特别是涉及一种基于深度学习的驾驶员手部检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着社会经济的发展，越来越多的人倾向于使用汽车作为代步工具，汽车数量与日俱增，交通拥挤和道路安全问题也日益严峻，道路交通安全已经极大地威胁着社会公众生命和财产。交通事故发生的其中一个重要原因就是驾驶员的不良驾驶操作行为，由于缺乏安全意识，许多驾驶员在驾驶过程中出现不专注的驾驶行为，因此驾驶员驾驶行为监测在安全驾驶领域发挥重要作用。众所周知，驾驶过程中手部是驾驶员进行车辆驾驶最为重要的器官，因此准确的驾驶员手部检测对驾驶安全具有重要意义。

手部检测是指从单帧的图像中检测并分割出手部区域，从而为基于手部的行为分析提供数据支撑，手部检测与跟踪的研究在计算机视觉界得到了广泛的研究。发明人认为，基于视觉的驾驶员手部检测面临着一系列的挑战：首先，手的外观几乎是一致的，缺乏特征性的局部特征；其次，驾驶环境下所采集的图像中，驾驶员手部经常出现外部遮挡以及自遮挡；另外，驾驶过程中通常会出现光照变化剧烈、行驶颠簸等问题，从而导致所采集图像质量的下降。

发明内容

为了解决上述问题，本发明提出了一种基于深度学习的驾驶员手部检测方法及系统，通过将注意力机制模块添加到YOLOv4中主干网络CSPDarknet53中，优化深度学习网络，降低复杂驾驶环境中光照、遮挡与自遮挡等对驾驶员手部检测的影响，提高驾驶员手部检测的准确性。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于深度学习的驾驶员手部检测方法，包括：

获取手部标注图像；

在深度学习网络模型的主干网络中每个特征层上添加注意力机制，在注意力机制后连接由空间金字塔池化层和金字塔注意力网络组成的残差单元；

对手部标注图像依次经主干网络和残差单元进行自下而上和自上而下的特征提取，根据得到的特征图对深度学习网络模型进行训练；

对待测手部图像根据训练后的深度学习网络模型得到驾驶员手部的位置。

第二方面，本发明提供一种基于深度学习的驾驶员手部检测系统，包括：

图像获取模块，用于获取手部标注图像；

网络改进模块，用于在深度学习网络模型的主干网络中每个特征层上添加注意力机制，在注意力机制后连接由空间金字塔池化层和金字塔注意力网络组成的残差单元；

网络训练模块，用于对手部标注图像依次经主干网络和残差单元进行自下而上和自上而下的特征提取，根据得到的特征图对深度学习网络模型进行训练；

手部检测模块，用于对待测手部图像根据训练后的深度学习网络模型得到驾驶员手部的位置。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明以深度学习网络模型中的YOLOv4算法为基础，对现有YOLOv4算法进行改进，在YOLOv4的主干提取网络CSPDarknet53中添加注意力机制SE模块，使用改进后的YOLOv4算法对驾驶员手部标注图像进行深度网络的训练，通过将注意力机制SE模块添加到YOLOv4中主干提取网络CSPDarknet53，优化深度网络中学习到的内容，降低复杂驾驶环境中光照、遮挡与自遮挡等对驾驶员手部检测的影响，提高驾驶员手部检测的准确性，且投入成本低、不需要复杂的模型参数。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的改进后的深度学习网络模型结构图；

图2为本发明实施例1提供的添加注意力机制SE模块的残差单元结构图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例提供一种基于深度学习的驾驶员手部检测方法，包括：

S1：获取手部标注图像；

S2：在深度学习网络模型的主干网络中每个特征层上添加注意力机制，在注意力机制后连接由空间金字塔池化层和金字塔注意力网络组成的残差单元；

S3：对手部标注图像依次经主干网络和残差单元进行自下而上和自上而下的特征提取，根据得到的特征图对深度学习网络模型进行训练；

S4：对待测手部图像根据训练后的深度学习网络模型得到驾驶员手部的位置。

所述步骤S1中，首先获取图像样本集，采用行车记录仪采集驾驶员手部视频，将手部视频处理成手部图像，并对手部图像进行标注，对标注后的手部图像进行反转、缩放、色域变化等预处理得到512×512的图像样本集；

将图像样本集按照4：1的比例分为训练集、测试集，训练集和验证集的比例是9：1，将训练集输入至深度学习网络中训练得到模型权重，再对权重训练测试集，计算mAP和MR分析网络性能并修改参数进行对比试验。

在本实施例中，将行车记录仪安装在天窗处，从俯视的角度采集驾驶员行驶的视频，总共使用6辆大众型轿车采集9个驾驶员的驾驶视频，驾驶员的动作包括操纵方向盘(单双手)、控制操纵杆、玩手机、喝水、吃饭等，驾驶环境包括白天、夜间、复杂的高光环境；将采集的视频进行筛选，将每一帧转化成图像保存，对保存的图像进行筛选得到驾驶员手势数据集；

使用labelImg软件对所得手势数据集进行标注，采用矩形框选中驾驶员的每一个手部，并定义命名，将得到的txt格式的文件作为驾驶员手部的ground truth；最后将标注完的数据集按照4：1进行分类。

如图1所示，所述步骤S2中，对深度学习网络模型进行改进，改进后的深度学习网络模型包括：主干网络模块、残差单元和预测模块；具体地：

所述主干网络模块中：主干特征提取网络模块将DarknetConv2D的激活函数由LeakyReLU修改为Mish，卷积块由DarknetConv2D_BN_Leaky修改为DarknetConv2D_BN_Mish。

主干网络由多个残差块组成，使用CSPnet将原来的残差块的堆叠进行拆分，拆成为左右两部分，即主干部分继续进行原来的残差块的堆叠，另一部分则定义为残差单元，经过少量处理直接连接到最后。

在主干网络中，包括五个特征层stage，在YOLOv4中定义注意力机制SE模块，在每一个特征层stage输出特征图时添加注意力机制SE模块，即在YOLOv4的主干提取网络CSPDarknet53中添加SE注意力机制，用于学习channel之间的相关性，筛选出针对通道的注意力。

由于主干网络每一个stage卷积池化的特征图大小不同，每一个stage的输出分别是(256，256，64)，(128，128，128)，(64，64，256)，(32，32，512)，(16，16，1024)，所添加的注意力机制SE模块会对不同大小的特征图卷积池化进行自适应融合，但是不会改变卷积层和卷积层之间特征图的大小，只会对通道生成掩码mask进行打分，以提高对特征图的学习效果；

通过对照试验发现，将SE模块添加在所有stage之间的效果最好，且添加SE模块仅仅会增加很少的计算量，该计算量和整个YOLOv4的训练量相比可以忽略不计。

所述残差单元中，将注意力机制SE模块添加在残差单元的前部，集成策略上如图2所示，更好的促使网络自动学习特征图中需要注意的地方；具体地，残差单元包括空间金字塔池化层和金字塔注意力网络：

由空间金字塔池化层SPP组成多尺度卷积层特征组合模块，空间金字塔池化结构添加在主干特征提取网络最后一个特征层的卷积里，在对CSPdarknet53的最后一个特征层进行三次DarknetConv2D_BN_Leaky卷积后，分别利用四个不同尺度的最大池化进行处理，最大池化的池化核大小分别为13x13、9x9、5x5、1x1(1x1即无处理)，能够极大地增加感受野，分离出最显著的上下文特征。

由金字塔注意力网络PANet组成加权特征融合模块，传统特征金字塔从下往上进行特征提取后，也通过注意力机制实现自上而下的特征提取，三个有效特征层均使用PANet使得特征可以反复提取。

所述预测模块中，则是通过提取多特征层进行目标检测，共提取金字塔注意力网络输出的三个特征层，分别位于中间层，中下层，底层，三个特征层的shape分别为(64,64,256)、(32,32,512)、(16,16,1024)。

所述步骤S3中，对改进后的深度学习网络模型进行训练和测试，验证网络模型的效果；具体包括：

将数据集和xml标注文件转换成VOC数据集格式，生成train.txt和test.txt文件指定训练集或者测试集的图像以及标注文件的位置；

定义网络训练的标签，即为手，生成2007_train.txt文件用于指向数据集中图像的文件存放位置、该图像所标注目标的位置和标签的命名；

下载YOLOv4的权重文件，使用该权重文件通过读取train.txt文件对训练集进行训练；

训练结束得到训练所得的权重文件，采用所得的训练权重文件根据读取test.txt文件对测试集进行测试，得到权重文件对测试集中驾驶员手部检测的txt标注文件；

测试集测试出来的txt文件和开始对测试集标注的作为ground truth的txt文件进行计算得到模型权重的MR和mAP两个评价指标，以此对模型权重进行实验分析。

本实施例设置对照试验，对所设计的网络修改激活函数、Mosaic数据增强方式、batch_size等参数调整进行不同参数下网络的训练；将采集的数据集相同比例格式使用YOLOv3、Faster-RCNN等网络结构进行训练，与所提出的网络结构进行比较；使用公共数据集VIVA同样在包括所提出网络结构不同的网络结构进行训练；对所有对照试验的结果进行分析，及时优化所提出的网络结构。

本实施例的手部检测算法以深度学习中的YOLOv4算法为基础，创新性地在YOLOv4的主干提取网络CSPDarknet53中添加SE注意力机制模块，利用驾驶员手部标注图像对改进后的网络模型进行训练，从而获得驾驶员手部检测的模型权重，进一步使用训练好的网络模型对驾驶过程中采集的图像进行测试，输出图像中驾驶员手部的位置信息。本实施例实现深度网络中学习内容的优化，降低复杂驾驶环境对驾驶员手部检测的影响，提高驾驶员手部检测的效果。

实施例2

本实施例提供一种基于深度学习的驾驶员手部检测系统，包括：

图像获取模块，用于获取手部标注图像；

此处需要说明的是，上述模块对应于实施例1中的步骤S1至S6，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于深度学习的驾驶员手部检测方法，其特征在于，包括：

获取手部标注图像；

2.如权利要求1所述的一种基于深度学习的驾驶员手部检测方法，其特征在于，以深度学习中的YOLOv4算法为基础，在YOLOv4算法的主干网络CSPDarknet53中添加注意力机制。

3.如权利要求1所述的一种基于深度学习的驾驶员手部检测方法，其特征在于，所述注意力机制对经自下而上提取得到的不同大小的特征图卷积池化进行自适应融合。

4.如权利要求1所述的一种基于深度学习的驾驶员手部检测方法，其特征在于，所述空间金字塔池化层连接在主干网络最后一个特征层的卷积里，在对主干网络的最后一个特征层进行三次DarknetConv2D_BN_Leaky卷积后，分别利用四个不同尺度的最大池化进行处理。

5.如权利要求1所述的一种基于深度学习的驾驶员手部检测方法，其特征在于，所述金字塔注意力网络通过注意力机制实现自上而下的特征提取。

6.如权利要求1所述的一种基于深度学习的驾驶员手部检测方法，其特征在于，根据金字塔注意力网络的中间层、中下层和底层输出的特征图进行手部目标的检测。

7.如权利要求1所述的一种基于深度学习的驾驶员手部检测方法，其特征在于，对手部标注图像进行反转、缩放、色域变化的预处理后得到训练集。

8.一种基于深度学习的驾驶员手部检测系统，其特征在于，包括：

图像获取模块，用于获取手部标注图像；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。