CN110309723A

CN110309723A - 一种基于人体特征细分类的驾驶员行为识别方法

Info

Publication number: CN110309723A
Application number: CN201910483030.5A
Authority: CN
Inventors: 路小波; 陆明琦; 张德明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-10-08
Anticipated expiration: 2039-06-04
Also published as: CN110309723B

Abstract

本发明提供了一种基于人体特征细分类的驾驶员行为识别方法，包括：建立驾驶员行为识别的图像数据集；构建基于人体特征细分类的识别模型；训练基于人体特征细分类的识别模型；对基于人体特征细分类的识别模型进行测试。本发明能够对人体关键点部位进行正确的动作分类，结合局部特征和图像全局特征进行驾驶员行为细分类，在交通安全领域有重要的应用价值。本发明通过Stacked Hourglass Networks模型进行关键点定位，随后，对关键点区域进行学习，将人体部位的具体动作作为卷积分类的中层特征，显著地提升了模型的识别精度。

Description

一种基于人体特征细分类的驾驶员行为识别方法

技术领域

本发明属于图像处理领域，涉及模式识别方法，具体涉及一种人体特征细分类的驾驶员行为识别方法。

背景技术

随着社会经济的发展和科学技术的进步，机动车的拥有量一直保持着快速增长的形式。根据公安部交管局的统计数据显示，截止到2017年底，我国的机动车保有量达到了3.10亿辆，其中汽车2.17亿辆；机动车驾驶员人数达到了3.85亿人，其中汽车驾驶人3.43亿人，然而同时道路交通事故发生率一直居高不下。研究表明，不良的驾驶员行为是引发道路交通事故的重要原因之一，因此如果能够在交通事故发生前检测出不良的驾驶员行为并及时的给出提醒则可以减少事故发生的概率。因此，研究驾驶员行为识别算法对于改善道路交通安全具有十分重要的意义。

传统的驾驶员行为识别方法由于具有实时性差，需要与驾驶员的肢体进行接触，鲁棒性低等缺点往往无法进行推广应用。近年来，随着高性能的GPU的出现使得深度学习方法在图像领域取得了巨大的发展，在各个领域内均取得了非常良好的性能表现，使得深度学习应用于驾驶员行为识别成为可能，但目前尚缺乏相关实现手段。

发明内容

为解决上述问题，本发明提供了一种基于人体特征细分类的驾驶员行为识别方法，提取人体关键点区域动作信息作为中层特征，提高了驾驶员行为识别准确率，实现了实时识别。

为了达到上述目的，本发明提供如下技术方案：

一种基于人体特征细分类的驾驶员行为识别方法，包括如下步骤：

步骤1：建立驾驶员行为识别的图像数据集

获取样本图像数据，建立图像数据集，样本图像中包含各种驾驶员行为，将图片数据集划分为训练集和测试集，且测试样本图片中驾驶员与训练样本中的驾驶员独立；

步骤2：构建基于人体特征细分类的识别模型

所述模型包括关键点区域定位模块以及驾驶员行为识别模块，所述关键点区域定位模块采用StackedHourglassNetworks模型，所述驾驶员行为识别模块采用VGG-19模型；

步骤3：训练基于人体特征细分类的识别模型

搭建网络模型，通过随机梯度下降方法优化网络参数；

步骤4：对基于人体特征细分类的识别模型进行测试

给定一张驾驶员行为图像，将测试图像归一化尺寸后作为模型的输入，通过前向传播获得测试图像的行为识别结果。

进一步的，所述步骤2具体包括如下过程：

步骤201：StackedHourglass Networks模型中Residual子模块为初级模块，该模块第一行结构为卷积网络结构，由两层卷积核尺度为3*3以及一层卷积核尺度为1*1的卷积层构成，卷积层之间穿插了Batch Normalization层以及ReLU激活层；第二行为ResNet连接，由卷积核尺度为1*1的卷积层构成，该子模块中所有卷积层均不改变特征的尺寸；

步骤202：StackedHourglass Networks模型的核心模块为Hourglass子网络，该子网络由Residual子模块构成，该子网络分为两路，且两路均包含若干个Residual子模块；

步骤203：StackedHourglass Networks模型由两个四阶Hourglass子网络构成，原始图片在经过一次降采样后作为第一个Hourglass子网络的输入，随后Hourglass子网络的输出结果经过两次线性变换操作得到一个输出响应图，而第二个Hourglass子网络的输入分别为第一个Hourglass子网络的输入、输出以及预测结果，该Hourglass子网络最终输出一个响应图；

步骤204：在模型中引入中继监督的机制，每一级Hourglass子网络输出的响应图均与真实的响应图进行比较，并将误差作为代价进行训练；

步骤205：选定头部、右手、右手肘、左手、左手肘5个关键点区域；训练StackedHourglass Networks模型时，标注数据集中的关键点位置；设某关键点p的正确响应图为模型中输出的响应图为那么每个阶段的Loss函数为：

四阶段的Loss为：

步骤206：利用Stacked Hourglass Networks模型对驾驶员图像进行关键点定位；随后根据一定的规则绘制出头部、左手、左手肘、右手、右手肘的矩形区域并截图；在获取关键点部位的图像之后，根据制定的动作类别进行标注；

步骤207：利用关键部位动作类别特征进行驾驶员行为分类，网络模型分为两路，其中一路经过Stacked Hourglass Networks模型进行关键点定位并通过一定的规则获取五个关键部位的矩形区域的坐标；另一路首先将全局图像的尺寸调整合适后送入VGG-19网络进行特征提取；全局图像在经过VGG-19模型处理后将在第五个池化层位置处得到一个全局特征f_whole，随后ROI Pooling层根据关键部位的矩形区域坐标信息以及全局特征f_whole获取五个关键部位的特征f_part，并运用一个全连接层将五个关键部位特征向量转化为一个特征向量f_part+；在得到关键点区域初级特征之后，利用全连接层将其转换为关键部位动作类别特征；在模型的特征融合位置，将全局特征、关键点区域初级特征以及关键部位动作类别特征进行级联作为驾驶员行为识别的特征；在训练阶段，对关键部位动作类别特征训练一个驾驶员行为分类器，将级联特征分类器的输出与关键部位动作类别特征分类器的输出相加作为最终的驾驶员行为识别结果。

进一步的，所述步骤201中，ResNet连接的参数为恒等映射或对输入的图像特征进行降维或升维。

进一步的，所述步骤202中，Hourglass子网络的下路先对输入特征运用最大池化操作进行降采样，并且在与上路结构提取的特征进行融合前再运用最近邻插值操作进行升采样。

进一步的，所述步骤204中，以网络最后一级的输出作为最终响应图。

进一步的，所述步骤207中，采用样本的驾驶员行为类别标签进行监督，并利用动作类别标签进行监督。

进一步的，所述步骤3是对模型的卷积神经网络部分进行训练，具体包括如下过程：

定义P(α|I_i)表示分类器判断驾驶员行为属于α的概率，那么驾驶员行为分类器的loss如式(3)所示；定义P(β|I_i)为分类器判断关键点部位动作类别属于β的概率，则动作类别分类器的loss如式(4)所示；模型训练的总loss则由式(5)表示；

loss_C＝λ₁loss_w1+λ₂loss_w2+λ₃loss_w3+λ₄loss_p (5)

其中M为batch的数量，l_i与t_i分别为正确的动作标签和动作类别；驾驶员行为的分类器loss为loss_w1、loss_w2，loss_w2为级联特征的分类器loss，loss_w3为根据动作类别特征进行驾驶员行为分类的分类器loss，而动作类别分类器的loss为loss_p。

与现有技术相比，本发明具有如下优点和有益效果：

1.本发明能够对人体关键点部位进行正确的动作分类，结合局部特征和图像全局特征进行驾驶员行为细分类，在交通安全领域有重要的应用价值。

2.本发明通过Stacked Hourglass Networks模型进行关键点定位，随后，对关键点区域进行学习，将人体部位的具体动作作为卷积分类的中层特征，显著地提升了模型的识别精度。

附图说明

图1为本发明流程图。

图2为本发明中不同驾驶员行为的样例图片。

图3为本发明中Residual子模块结构示意图。

图4为本发明中一阶Hourglass子网络结构示意图。

图5为本发明中Stacked Hourglass Networks模型结构示意图。

图6为本发明中关键点部位动作类别示意图。

图7为本发明中基于人体特征细分类的驾驶员行为识别模型示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明借鉴物体细分类领域中引入中层特征提升分类准确率的方法，通过Stacked Hourglass Networks模型进行关键点定位，利用卷积网络对关键点区域进行学习，将局部部位的具体动作作为中层特征，例如转头、低头等。模型最终将全局特征、关键点区域特征以及中层特征相结合作为驾驶员行为分类的依据。

具体的说，本发明提供的基于人体特征细分类的驾驶员行为识别方法，其流程如图1所示，包括如下步骤：

步骤1：建立驾驶员行为识别的图像数据集。

样本数据来源与两部分，一部分来自Kaggle平台提供的驾驶员行为数据集，图片大小为640*480，共计25000张，如图2中非中国驾驶员图像，另一部分为自建驾驶员行为数据库，由内置车载摄像头在不同角度和不同光线条件下录制，摄像头型号为LogitechC920。拍摄图片大小为1320*946，为了统一数据，将其裁剪成640*480，如图2中国驾驶员图像，共计约5000张，并且10种行为的样本数量基本一致，分别为：正常驾驶、左手打电话、右手打电话、左手接发信息、右手接发信息、左手抽烟、右手抽烟、喝水、与副驾驶乘客进行交谈和双手脱离方向盘。

将拍摄得到的图片数据集划分为训练集和测试集各包含29000张训练图片和1000张测试图片。原始图片均降采样为224*224，用0到9代表样本对应的行为标签。为了准确性，测试样本涵盖10种驾驶员行为，每种驾驶员行为100张，且测试样本图片中驾驶员与训练样本中的驾驶员独立。

步骤2：构建特征细粒度分类模型。主要分为两个模块，即关键点区域定位以及驾驶员行为识别。其中关键点区域定位模块采用Stacked Hourglass Networks模型。驾驶员行为识别模块将在VGG-19模型的基础上进行一定的调整。具体描述如下：

步骤201：Stacked Hourglass Networks模型中Residual子模块为初级模块，结构跟ResNet结构类似，如图3所示。其中，M代表输入特征的深度，N代表输出特征的深度，k代表卷积核的尺寸大小。该模块第一行结构为卷积网络结构，由两层卷积核尺度为3*3以及一层卷积核尺度为1*1的卷积层构成。卷积层之间穿插了Batch Normalization层(左侧深灰色矩形)以及ReLU激活层(右侧浅灰色矩形)。第二行为ResNet连接，由卷积核尺度为1*1的卷积层构成，该连接的参数较为灵活，可以为恒等映射，也可对输入的图像特征进行降维或升维。该子模块中所有卷积层均不改变特征的尺寸，只对深度进行调整，可以处理任意尺度的图像。基于此模块设计，模型可以在提取高层次特征的同时保留原有层次的特征信息，并且不改变特征的尺寸大小。

步骤202：Hourglass子网络是Stacked Hourglass Networks模型的核心模块。该子网络由Residual子模块构成，且根据阶数不同，具有不同的形式。一阶Hourglass子网络的结构示意图如图4所示。该子网络也分为两路，且两路均包含多个Residual子模块(图4中浅灰色模块)。通过此结构，模型能够逐步提取深层次的特征信息。另外为了减小模型的计算量，提高处理速度，该子网络的下路先对输入特征运用最大池化操作进行降采样，并且在与上路结构提取的特征进行融合前再运用最近邻插值操作进行升采样。

步骤203：本发明中最终由两个四阶Hourglass子网络构成Stacked HourglassNetworks模型，如图5所示，深灰色模块为Hourglass子网络。原始图片在经过一次降采样后作为第一个Hourglass子网络的输入，随后Hourglass子网络的输出结果经过两次线性变换操作(中灰色模块)得到一个输出响应图。而第二个Hourglass子网络的输入则包含了三路，分别为第一个Hourglass子网络的输入、输出以及预测结果。并且该Hourglass子网络最终也输出一个响应图。

步骤204：在模型中引入中继监督的机制，每一级Hourglass子网络输出的响应图均与真实的响应图进行比较，并将误差作为代价进行训练。在测试中，以网络最后一级的输出作为最终响应图。

步骤205：观察与分析大量驾驶员行为样本之后，选定头部、右手、右手肘、左手、左手肘5个关键点区域。在训练Stacked Hourglass Networks模型时，手工标注了数据集中的关键点位置。其中训练样本约10000张，每种驾驶员行为约1000张。测试样本为600张，每种行为100张。设某关键点p的正确响应图为模型中输出的响应图为那么每个阶段的Loss函数为：

四阶段的Loss为：

步骤206：利用Stacked Hourglass Networks模型对驾驶员图像进行关键点定位。随后根据一定的规则绘制出头部、左手、左手肘、右手、右手肘的矩形区域并截图。在获取关键点部位的图像之后，根据制定的动作类别进行标注。每种部位共计标注5000张，每种动作类别数量基本一致。具体的动作类别如表1所示，五个关键点部位的动作示意图如图6所示，从上到下每一行关键部位图片依次为头部、右手、右手肘、左手、左手肘。

表1 关键点部位动作类别

步骤207：利用关键部位动作类别特征进行驾驶员行为分类，如图7所示。网络模型分为两路，其中一路经过Stacked Hourglass Networks模型进行关键点定位并通过一定的规则获取五个关键部位的矩形区域的坐标。另一路则首先将全局图像的尺寸调整为224*224之后送入VGG-19网络进行特征提取。全局图像在经过VGG-19模型处理后将在第五个池化层位置处得到一个全局特征f_whole。随后ROI Pooling层根据关键部位的矩形区域坐标信息以及全局特征f_whole获取五个关键部位的特征f_part(①)，并运用一个全连接层将五个关键部位特征向量转化为一个特征向量f_part+。在得到关键点区域初级特征(①)之后，利用全连接层将其转换为关键部位动作类别特征(②)。在模型的特征融合位置，将全局特征、关键点区域初级特征以及关键部位动作类别特征进行级联作为驾驶员行为识别的特征。在训练阶段，对关键部位动作类别特征训练一个驾驶员行为分类器，将级联特征分类器的输出与关键部位动作类别特征分类器的输出相加作为最终的驾驶员行为识别结果。图中，橘黄色虚线以及实线矩形均为驾驶员行为分类器，采用样本的驾驶员行为类别标签进行监督。绿色虚线矩形框为关键部位动作类别分类器，利用动作类别标签进行监督。

网络模型的最后一层全连接层的输出节点个数为18，即动作类别的总数。由于关键点区域截图的尺寸大小不同，首先需要将训练样本的尺寸大小统一调整为224*224。随后将调整后的训练样本送入VGG-19模型进行训练，其中batch大小为32，学习率为0.001，迭代约7500次。

步骤3：训练基于人体特征细分类的识别模型。使用Caffe开源工具搭建网络模型，整个网络模型的训练过程在Intel Core I7服务器上运行，使用NVIDIATITAN X GPU，Ubuntu 18.04操作系统，通过随机梯度下降方法优化网络参数。关键点定位模型已经提前训练完毕，故对模型的卷积神经网络部分进行训练。

定义P(α|I_i)表示分类器判断驾驶员行为属于α的概率，那么驾驶员行为分类器的loss如式(3)所示。定义P(β|I_i)为分类器判断关键点部位动作类别属于β的概率，则动作类别分类器的loss如式(4)所示。模型训练的总loss则由式(5)表示。

loss_C＝λ₁loss_w1+λ₂loss_w2+λ₃loss_w3+λ₄loss_p (5)

其中M为batch的数量，l_i与t_i分别为正确的动作标签和动作类别。

驾驶员行为的分类器loss为loss_w1、loss_w2，loss_w2为级联特征的分类器loss，loss_w3为根据动作类别特征进行驾驶员行为分类的分类器loss，而动作类别分类器的loss为loss_p。为保证级联特征在驾驶员行为分类中所占的决策因素，λ₂为2，其他权重系数设置为1。

模型训练时，学习率均设置为0.0001，迭代次数约7000次。

步骤4：对基于人体特征细分类的识别模型进行测试。给定一张驾驶员行为图像，将测试图像归一化为224×224的尺寸作为模型的输入，通过前向传播获得测试图像的行为识别结果。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于人体特征细分类的驾驶员行为识别方法，其特征在于，包括如下步骤：

步骤1：建立驾驶员行为识别的图像数据集

步骤2：构建基于人体特征细分类的识别模型

所述模型包括关键点区域定位模块以及驾驶员行为识别模块，所述关键点区域定位模块采用Stacked Hourglass Networks模型，所述驾驶员行为识别模块采用VGG-19模型；

步骤3：训练基于人体特征细分类的识别模型

搭建网络模型，通过随机梯度下降方法优化网络参数；

步骤4：对基于人体特征细分类的识别模型进行测试

2.根据权利要求1所述的基于人体特征细分类的驾驶员行为识别方法，其特征在于，所述步骤2具体包括如下过程：

步骤201：Stacked Hourglass Networks模型中Residual子模块为初级模块，该模块第一行结构为卷积网络结构，由两层卷积核尺度为3*3以及一层卷积核尺度为1*1的卷积层构成，卷积层之间穿插了Batch Normalization层以及ReLU激活层；第二行为ResNet连接，由卷积核尺度为1*1的卷积层构成，该子模块中所有卷积层均不改变特征的尺寸；

步骤202：Stacked Hourglass Networks模型的核心模块为Hourglass子网络，该子网络由Residual子模块构成，该子网络分为两路，且两路均包含若干个Residual子模块；

步骤203：Stacked Hourglass Networks模型由两个四阶Hourglass子网络构成，原始图片在经过一次降采样后作为第一个Hourglass子网络的输入，随后Hourglass子网络的输出结果经过两次线性变换操作得到一个输出响应图，而第二个Hourglass子网络的输入分别为第一个Hourglass子网络的输入、输出以及预测结果，该Hourglass子网络最终输出一个响应图；

四阶段的Loss为：

3.根据权利要求2所述的基于人体特征细分类的驾驶员行为识别方法，其特征在于，所述步骤201中，ResNet连接的参数为恒等映射或对输入的图像特征进行降维或升维。

4.根据权利要求2所述的基于人体特征细分类的驾驶员行为识别方法，其特征在于，所述步骤202中，Hourglass子网络的下路先对输入特征运用最大池化操作进行降采样，并且在与上路结构提取的特征进行融合前再运用最近邻插值操作进行升采样。

5.根据权利要求2所述的基于人体特征细分类的驾驶员行为识别方法，其特征在于，所述步骤204中，以网络最后一级的输出作为最终响应图。

6.根据权利要求2所述的基于人体特征细分类的驾驶员行为识别方法，其特征在于，所述步骤207中，采用样本的驾驶员行为类别标签进行监督，并利用动作类别标签进行监督。

7.根据权利要求1所述的基于人体特征细分类的驾驶员行为识别方法，其特征在于，所述步骤3是对模型的卷积神经网络部分进行训练，具体包括如下过程：

loss_C＝λ₁loss_w1+λ₂loss_w2+λ₃loss_w3+λ₄loss_p (5)

其中M为batch的数量，l_i与t_i分别为正确的动作标签和动作类别；驾驶员行为的分类器loss为loss_w1、loss_w2，loss_w2为级联特征的分类器loss，loss_w3为根据动作类别特征进行驾驶员行为分类的分类器loss，而动作类别分类器的loss为loss_p。。