CN115457518B

CN115457518B - 基于姿态感知与几何约束下的驾驶员行为识别方法及系统

Info

Publication number: CN115457518B
Application number: CN202211045364.2A
Authority: CN
Inventors: 高尚兵; 李少凡; 张莹莹; 陈浩霖; 张海艳; 朱全银; 李翔; 胡序洋; 李�杰; 张秦涛; 刘宇
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2024-01-26
Anticipated expiration: 2042-08-30
Also published as: CN115457518A

Abstract

本发明公开了一种基于姿态感知与几何约束下的驾驶员行为识别方法及系统，首先，采用HRNet对图片中的驾驶员进行姿态估计，获取驾驶员的关节点信息；其次，将视频输入到ResNet50中获取全局特征图，利用关节点的位置获取各个关节点相关的视觉特征；然后，对驾驶员的上半身人体关节点进行解构，同时根据各点的坐标位置获取几何特征；最后，将视觉表观特征与几何特征融合，通过线性层预测相应的行为。本发明克服了传统驾驶员行为检测方法检测准确率低、检测手段单一的问题，大幅提升了在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下的检测能力；同时能够应对复杂环境下对驾驶员人体和关键表征的定位检测；能适应不同时段车辆行驶环境。

Description

基于姿态感知与几何约束下的驾驶员行为识别方法及系统

技术领域

本发明属于图像处理及交通安全领域，具体涉及一种基于姿态感知与几何约束下的驾驶员行为识别方法及系统。

背景技术

根据世界卫生组织(WHO)全球道路安全状况报告，大约每年有135万人死于道路交通事故，其中有5000万人受伤，其中许多终身残疾。而分心驾驶是这些事故发生的主要原因。

Seshadri等人创建一个用于检测手机使用情况的数据集，并提出了一个基于HOG方法的Adaboost分类器对手机进行检测，准确率为93.9％。黄等人提出了一种基于RCNN的手机和人脸检测器并达到了准确度94.2％。赵等人提出了一种隐藏的条件随机场的模型来检测驾驶员使用智能手机的使用情况。Abouelnaga等人建立了一个AUC分心驾驶数据集，使用ImageNet预训练过的的AlexNet和InceptionV3模型提取图片特征，同时用肤色分割器对驾驶员的人脸和手部图片进行分割并进行联合训练，最后用基因算法来评估不同的各个部分不同的权重并进行结合来预测最后的结果。

现有的方法没有利用神经网络模型去学习驾驶员身体部位的几何坐标位置关系来对驾驶员行为进行识别，也没有注意到驾驶员局部身体关节点对应的微小密集的视觉表征。本方发明利用姿态估计对驾驶员人体进行解构，让神经网络学习几何特征的同时，用人体骨架的位置来获取密集准确的驾驶员人体局部特征，并将这些特征进行融合，实现高准确率和强鲁棒性的检测效果。

发明内容

发明目的：本发明提供一种基于姿态感知与几何约束下的驾驶员行为识别方法及系统，克服了传统驾驶员行为检测方法检测准确率低、检测手段单一的问题，大幅提升了在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下的检测能力。

技术方案：本发明提出一种基于姿态感知与几何约束下的驾驶员行为识别方法，具体包括以下步骤：

(1)输入预先获取的驾驶员行车视频，抽取首帧图片作为数据源，通过YOLOv5目标检测检测到最大占比人体驾驶员的位置；采用HRNet对图片中的驾驶员进行姿态估计，获取驾驶员的关节点信息；

(2)将视频输入到ResNet50中获取全局特征图，利用关节点的位置获取各个关节点相关的视觉特征；

(3)对驾驶员的上半身人体关节点进行解构，同时根据各点的坐标位置获取几何特征；

(4)将视觉表观特征与几何特征融合，通过线性层预测相应的行为。

进一步地，步骤(1)所述驾驶员的关节点信息包含关节点的位置的坐标和置信度。

进一步地，步骤(1)所述对图片中的驾驶员进行姿态估计只考虑对驾驶员上半身12个关节点进行姿态估计；所述12个关节点包括颈部、左肩、左肘、左手腕、右肩、右肘、右手腕、鼻子、左眼、右眼、左耳和右耳。

进一步地，所述步骤(2)实现过程如下：

(21)采用ResNet-50网络作为主干网络，将整张图片作为全局特征提取的输入，使用的ResNet-50在ImageNet进行过预训练模型，并对模型进行微调，将模型的最后的全连接层进行修改以适应驾驶员行为识别任务；整张图片经过主干网络后得到特征图F，在其后面再添加一个残差块结构得到全局特征f_C：

f_C＝(Res_C(F))

(22)为了获取对应人体关节点的相关视觉特征，利用关节点的位置获取视觉表观特征；具体的操作为以人体关节点为中心，设定每个获取特征的检测框的尺寸为W_h×H_h，具体的大小由检测出的人体关节点的范围决定：

W_h＝H_h＝λ_h·max{x_max-x_min，y_max-y_min}

其中，λ_h为超参数，x_max，x_min为检测出来的人体关节点横坐标最大和最小的值，检测框区域设为x_h；

(23)每个部位相关区域的特征按以下公式进行提取：

f_A＝σ(w_A·GAP(Res_l(RoI(F，x_h)))+b_A)

其中，f_A为单个关节点相关区域的特征，σ为Relu激活函数，{W_A，b_A}为表观权重矩阵和偏置，GAP为全局平均池化，Res为残差块，RoI为感兴趣区域。

进一步地，所述步骤(3)实现过程如下：

对驾驶员上半身人体进行解构操作，将其分为4个区域，分别为头部、颈部、左肩和右肩；其中头部区域以眼部为中心点，颈部区域以颈部为中心点，左肩和右肩区域分别以左肘和右肘为中心点；以颈部点为中心学习更具鲁棒的几何特征：

计算几何特征的过程如下，计算相对距离向量/>的方法为：[log(|x^m-xⁿ|)，log(|y^m-yⁿ|)]，将得出的向量进行拼接得到/>x^m，y^m区域中各点坐标，xⁿ，yⁿ为各区域中心坐标；计算绝对姿态不变向量/>的方法为[log(|xⁱ-x^*|)，log(|yⁱ-y^*|)]，xⁱ，yⁱ为上半身关节点各点坐标，xⁿ，yⁿ为颈部坐标；为了利用复杂的非线性空间关系，将这些几何特征嵌入到高维特征，具体表示为：

其中，f_G为空间特征，{W_G，b_G}为几何权重矩阵和偏置，CONCAT为拼接操作。

进一步地，所述步骤(4)实现过程如下：

将各组空间特征和表观视觉特征进行融合：

f_SR＝CONCAT[f_G，f_A(1)，f_A(2)，...，f_A(12)]

其中，f_SR为最后融合的特征，f_G为空间特征，f_A(n)为各个区域的视觉表观特征，总共12个区域，依次进行拼接；

最后通过线性层预测各类的概率分布：

其中，p为长度为10的最终预测向量，{W_C，b}为融合特征权重矩阵和偏置。

基于相同的发明构思，本发明还提出一种基于姿态感知与几何约束下的驾驶员行为识别系统，包括驾驶员姿态估计模块、视觉表观特征模块和几何特征模块；所述驾驶员姿态估计模块对驾驶员人体进行检测并获取驾驶员的关节点信息，包含关节点坐标位置和置信度；所述视觉表观特征模块获取驾驶员的关节点对应的局部表征；所述几何特征模块对驾驶员人体进行解构，设置各区域局部中心坐标和全局不变中心坐标点，并学习驾驶员不同行为下的几何特征。

有益效果：与现有技术相比，本发明的有益效果：本发明克服了传统驾驶员行为检测方法检测准确率低、检测手段单一的问题，大幅提升了在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下的检测能力；同时能够应对复杂环境下对驾驶员人体和关键表征的定位检测；能适应不同时段车辆行驶环境，适用性高，实用性强。

附图说明

图1为基于姿态感知与几何约束下的驾驶员行为识别方法的流程图；

图2为基于姿态感知与几何约束下的驾驶员行为识别系统框架图；

图3为驾驶员姿态估计示意图；

图4为驾驶员空间解构示意图；

图5为AUC数据集上的测试混淆矩阵图；

图6为三客一危数据集上的测试混淆矩阵图；

图7为三客一危数据集例图；

图8为AUC公开数据集数据集例图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

考虑到相邻的人体关节点的表观和几何特征与驾驶员行为之间强相关性，本发明提出一种基于姿态感知与几何约束下的驾驶员行为识别方法，将驾驶员分为正常驾驶行为和分心驾驶行为，在分心驾驶行为中又具体分为玩手机、喝水等9种分心行为。如图2所示，本发明构建了一种基于姿态感知与几何约束下的驾驶员行为识别系统，包括驾驶员姿态估计模块，视觉表观特征模块和几何特征模块；驾驶员姿态估计模块主要用来对驾驶员人体进行检测并获取驾驶员的关节点信息，包含关节点坐标位置和置信度；视觉表观特征模块主要用来获取驾驶员的关节点对应得局部表征；几何特征模块对驾驶员人体进行解构，设置各区域局部中心坐标和全局不变中心坐标点，并确立计算模型来学习驾驶员不同行为下的几何特征。如图1所示，具体包括以下步骤：

步骤1：输入预先获取的驾驶员行车视频，抽取首帧图片作为数据源，通过YOLOv5目标检测检测到最最大占比人体驾驶员的位置。用HRNet对图片中的驾驶员进行姿态估计，获取驾驶员的关节点信息，包含点的位置的坐标和置信度。

本发明基于驾驶员的姿态信息，人体骨架及其关节轨迹在在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下具有较强的鲁棒性。人体骨架能帮助本算法定位关键表征的同时，其本身带有的几何特征属性也为驾驶员行为的识别提供强有力的线索。

本发明采用的人体姿态估计的算法为HRNet，该方法是微软亚洲研究院提出的基于高分辨率网络的模型，兼具准确率和实时性，是现人体姿态估计的最优模型之一。在HRNet中，训练的COCO网络模型共有18个关节点，如图3中(a)所示。

考虑到驾驶员在正常驾驶情况下，摄像头一般只能捕捉到上半身图像，而且由于驾驶员行车过程中体态变化比较微小，重要的信息都在驾驶员的上半身体现。同时由于驾驶环境导致遮挡，下半身的关节点的检测会不可避免的收到较强的干扰，从而对驾驶员的行为检测造成不利影响。为了消除下半身对行为识别的影响，本发明只考虑对上半身12个关节点进行姿态估计，如图3中(b)所示：1颈部，2左肩，3左肘，4左手腕，5右肩，6右肘，7右手腕，0鼻子，14左眼，15右眼，16左耳，17右耳。

步骤2：将视频输入到ResNet50中获取全局特征图，利用关节点的位置获取各个关节点相关的视觉特征。

全局特征在驾驶员行为识别中扮演着重要角色，描述了驾驶员动作与车辆和整张图片的关系，本发明采用广泛使用的ResNet-50网络作为主干网络，将整张图片作为全局特征提取的输入。使用的ResNet-50在ImageNet进行过预训练模型，并对模型进行微调，将模型的最后的全连接层进行修改以适应驾驶员行为识别任务。整张图片经过主干网络后得到特征图F，在其后面再添加一个残差块结构得到全局特征f_C：

f_C＝(Res_C(F))

为了获取对应人体关节点的相关视觉特征，利用关节点的位置获取视觉表观特征。具体的操作为以人体关节点为中心，设定每个获取特征的检测框的尺寸为W_h×H_h，具体的大小由检测出的人体关节点的范围决定：

W_h＝H_h＝λ_h·max{x_max-x_min，y_max-y_min}

其中，λ_h为超参数，x_max，x_min为检测出来的人体关节点横坐标最大和最小的值，检测框区域设为x_h。

每个部位相关区域的特征按以下步骤来进行提取：

f_A＝σ(w_A·GAP(Res_l(RoI(F，x_h)))+b_A)

步骤3：对驾驶员的上半身人体关节点进行解构，同时根据各点的坐标位置获取几何特征。

为了更好利用空间位置特征，对人体上半身人体进行解构操作，将其分为4个区域，分别为头部、颈部、左肩和右肩。其中头部区域以眼部为中心点，颈部区域以颈部为中心点，左肩和右肩区域分别以左肘和右肘为中心点。同时为了能够使得几何特征在面对面对不同姿态的仿射变换具有不变性，本发明以颈部点为中心学习更具鲁棒的几何特征，具体如图4所示。

计算几何特征的过程如下，计算相对距离向量/>的方法为：[log(|x^m-xⁿ|)，log(|y^m-yⁿ|)]，将得出的向量进行拼接得到/>x^m，y^m区域中各点坐标，xⁿ，yⁿ为各区域中心坐标。计算绝对姿态不变向量/>的方法为[log(|xⁱ-x^*|)，log(|yⁱ-y^*|)]，xⁱ，yⁱ为上半身关节点各点坐标，xⁿ，yⁿ为颈部坐标。为了利用复杂的非线性空间关系，将这些几何特征嵌入到高维特征，具体表示为：

步骤4：将视觉表观特征与几何特征融合，通过线性层预测相应的行为。

将各组空间特征和表观视觉特征进行融合：

f_SR＝CONCAT[f_G，f_A(1)，f_A(2)，...，f_A(12)]

其中，f_SR为最后融合的特征，f_G为空间特征，f_A(n)为各个区域的视觉表观特征，总共12个区域，依次进行拼接。

最后通过线性层预测各类的概率分布：

为验证本发明的有效性，在两个数据集上进行了实验。分别是自建的三客一危分心驾驶数据集和AUC分心驾驶数据集，如图7、图8所示。如表1所示，三客一危指的是客运车、校车、旅游车和危化品运输车这类大型车，这类车辆驾驶舱结构和小型车有明显差异，发生交通事故的后果相对比较严重。因此，对这类车型环境中的驾驶员进行分心行为进行针对性的分析是有必要的。数据来自交通监管平台所提供的车内监控视频数据，共780段视频，大小634GB，每段视频分辨率为1280*720，帧率为15FPS。相较于国际公开数据集来看，存在着视角不一，环境复杂多变等多类干扰因素。

表1淮安三客一危分心驾驶数据集

AUC数据集有十个动作类别，分别为：C0：安全驾驶、C1：右手打字、C2：右手打电话、C3：左手打字、C4：左手打电话、C5：调试收音机、C6：喝水、C7：拿东西、C8：化妆和弄头发、C9：和乘客说话。图5、图6为本发明在AUC数据集和自建三客一危数据集上的测试混淆矩阵，其中左侧行代表真实类别，而列代表预测的类别。矩阵每个方格中的数值分别代表预测类别所占比重和对应的样本数量。混淆矩阵中，对角线上的数值即为预测正确的结果，而其他数值则为预测错误的结果。在AUC数据集中，计算得知，本方法的整体的准确率为96.51％，各个类别的召回率均在93％以上。在三客一危数据集上的整体的准确率为95.86％，各个类别的召回率均在94％以上。

综上，本发明的驾驶员行为检测方法克服了传统驾驶员行为检测方法检测准确率低、检测手段单一的问题，大幅提升了在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下的检测能力；同时能够应对复杂环境下对驾驶员人体和关键表征的定位检测；能适应不同时段车辆行驶环境，适用性高，实用性强。

Claims

1.一种基于姿态感知与几何约束下的驾驶员行为识别方法，其特征在于，包括以下步骤：

(4)将视觉表观特征与几何特征融合，通过线性层预测相应的行为；

步骤(1)所述驾驶员的关节点信息包含关节点的位置的坐标和置信度；

步骤(1)所述对图片中的驾驶员进行姿态估计只考虑对驾驶员上半身12个关节点进行姿态估计；所述12个关节点包括颈部、左肩、左肘、左手腕、右肩、右肘、右手腕、鼻子、左眼、右眼、左耳和右耳；

所述步骤(2)实现过程如下：

f_C＝(Res_C(F))

W_h＝H_h＝λ_h·max{x_max-x_min,y_max-y_min}

(23)每个部位相关区域的特征按以下公式进行提取：

f_A＝σ(W_A·GAP(Res_l(RoI(f_C,x_h)))+b_A)

其中，f_A为单个关节点相关区域的特征，σ为Relu激活函数,{W_A,b_A}为表观权重矩阵和偏置，GAP为全局平均池化，Res为残差块，RoI为感兴趣区域；

所述步骤(3)实现过程如下：

计算几何特征的过程如下，计算相对距离向量/>的方法为：[log(|x^m-xⁿ|),log(|y^m-yⁿ|)]，将得出的向量进行拼接得到/>x^m，y^m区域中各点坐标，xⁿ，yⁿ为各区域中心坐标；计算绝对姿态不变向量/>的方法为[log(|xⁱ-x^*|),log(|yⁱ-y^*|)],xⁱ，yⁱ为上半身关节点各点坐标，x^*，y^*为颈部坐标；为了利用复杂的非线性空间关系，将这些几何特征嵌入到高维特征，具体表示为：

其中，f_G为空间特征，{W_G,b_G}为几何权重矩阵和偏置，CONCAT为拼接操作；

所述步骤(4)实现过程如下：

将各组空间特征和表观视觉特征进行融合：

f_SR＝CONCAT[f_G,f_A(1),f_A(2),...,f_A(12)]

最后通过线性层预测各类的概率分布：

其中，p为长度为10的最终预测向量，{W_C,b_C}为融合特征权重矩阵和偏置。

2.一种采用如权利要求1所述方法的基于姿态感知与几何约束下的驾驶员行为识别系统，其特征在于，包括驾驶员姿态估计模块、视觉表观特征模块和几何特征模块；所述驾驶员姿态估计模块对驾驶员人体进行检测并获取驾驶员的关节点信息，包含关节点坐标位置和置信度；所述视觉表观特征模块获取驾驶员的关节点对应的局部表征；所述几何特征模块对驾驶员人体进行解构，设置各区域局部中心坐标和全局不变中心坐标点，并学习驾驶员不同行为下的几何特征。