CN113449656A

CN113449656A - 一种基于改进的卷积神经网络的驾驶员状态识别方法

Info

Publication number: CN113449656A
Application number: CN202110749180.3A
Authority: CN
Inventors: 李翔; 朱全银; 冯远航; 章磊; 高尚兵; 闫康; 司文宇; 魏丹丹; 赵春晓; 马天龙; 徐莹莹; 张云城
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-09-28
Anticipated expiration: 2041-07-01
Also published as: CN113449656B

Abstract

本发明公开了一种基于改进的卷积神经网络的驾驶员状态识别方法，包括：输入驾驶员驾驶视频V1，进行超分辨率处理后输出视频V2。搭建卷积神经网络，构造人体关键点检测识别模型M1。利用yolo算法对视频V2中的人物进行检测，输出单人体视频集V3，捕捉关键帧后，输出单人体关键帧集V4。使用模型M1对V4识别，构造人体关键点坐标集K1。对各种姿势关键点进行坐标点信息标记，计算得到人体姿势对应关键点坐标分布模型M2。对坐标集K1二次检测，使用正常坐标点计算人体关键点之间距离信息，和模型M2对照从而判定驾驶员驾驶状态。本发明利用已经标注好的人体关键点信息，结合机器学习和特征识别技术实现驾驶员驾驶时的姿势检测。

Description

一种基于改进的卷积神经网络的驾驶员状态识别方法

技术领域

本发明涉及图像识别技术领域，具体涉及一种基于卷积神经网络的驾驶员状态识别方法。

背景技术

近年来，有各种人体姿势识别模型与算法涌现，在人体姿势识别这条道路上开辟了新的发展方式。特别是新颖的学习算法的出现，将原来一些无法实现的问题通过神经网络的方法加以实现。如卷积神经网络适合于图像的处理。虽然国内基础理论提出较少，可是于外界的学习之后衍生出了不少有实际应用价值的应用。近年来国内外也有许多较为基础的应用提出，比如说Facebook的Densepose、Google的Kinect、上交大的Alphapose等。这些研究都可以在人体姿势识别上加以应用。

现有公共交通驾驶室内配有监控相机，可以提供大量可分析的视频数据。但是在监控信息运用的过程中，监控视频的分析依靠人力完成，对监控视频中的有价值信息的挖掘量少，对公共交通驾驶员的监督力度不够，导致不规范行为的产生。故引入了以卷积神经网络为基础的驾驶员状态识别方法。而在实际图像处理技术中，存在如下问题：1)监控装置无法提供足够的分辨率，使得图像处理的准确率下降；2)直接使用卷积神经网络对图像进行分类，将图像一些不重要的部分，一起放入了卷积网络中进行训练，得到的模型准确度是不够高的，提取到的特征没有进一步查验，可能将非人体部分的错误结果一并输出；3)监控视频时间长，利用计算机对于所有监控视频进行分析，现阶段并不现实。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于卷积神经网络的驾驶员状态识别方法，针对大量公共汽车监控视频中存在的可分析的驾驶员驾驶状态数据，利用已经标注好的人体关键点信息，利用机器学习和特征识别技术来实现驾驶员驾驶时的姿势检测。

技术方案：本发明提供了一种基于改进的卷积神经网络的驾驶员状态识别方法，包括如下步骤：

步骤1：输入驾驶员驾驶视频V1，利用SRGAN进行初步分辨率提升，输出高分辨率驾驶员驾驶视频V2；

步骤2：利用改进的卷积神经网络，构造人体关键点识别模型M1；

步骤3：利用yolo算法对视频V2中的人物进行检测，框选出单个人体存在的像素，输出单人体视频集V3；

步骤4：将视频集V3进行二值化处理，利用信息熵公式对单人体视频集进行裁剪，捕捉发生动作帧数超过总帧数50％的单人体视频，还原视频为原编码格式，输出为单人体关键帧集V4；

步骤5：利用模型M1对关键帧集V4中的人体进行检测，输出人体关键点坐标集K1；

步骤6：对驾驶员驾驶状态中各种姿势关键点进行标记，利用多元线性回归算法计算每种姿势对应关键点分布模型M2；

步骤7：对坐标集K1进行二次检测，使用正常坐标点计算人体关键点之间距离信息，和模型M2进行对照从而输出驾驶员驾驶状态。

进一步地，所述步骤1中利用SRGAN进行初步分辨率提升具体为：

S1.1：输入一组数据，分别为高分辨率下人体图像IA，通过下采样操作获得低分辨率人体图像IB；

S1.2：构造生成网络，将低分辨率人体图像IB作为输入，对其进行卷积运算、激活函数ReLU、两个卷积层的残差运算，经过归一化、池化和两个亚像素卷积层，输出生成样本图像IC；

S1.3：构造判别网络，输入生成样本图像IC，通过卷积运算和激活函数，再经过Sigmoid函数来判断是否为原始图像；

S1.4：对生成图像IC，计算内容损失函数，计算MSEloss像素空间的均方误差；

S1.5：对生成图像IC，计算其峰值信噪比值PSNR，若和原图像计算得到的PSNR值小于30dB，则返回S1.2重新进行生成；若生成图像和原图像PSNR值均值大于30dB，则输出训练好生成器P；

S1.6：输入低分辨率原视频V1，将其分片为帧，输入生成器P，输出高分辨率帧FA，重组为视频，得到高分辨率驾驶员驾驶检测视频V2。

进一步地，所述步骤2中利用改进的卷积神经网络构造人体关键点识别模型M1具体为：

S2.1：对人体关节点处数据进行标记，同时在训练集图片上标注关节点周围像素，标注要避免关节点标签之间互相重复，输出标注好的人体关键点数据集SPC；

S2.2：输入关键点数据集SPC，使用卷积神经网络的卷积层、池化层、ReLU激活函数提取SPC的特征矩阵，使用卷积核大小为11x11，步长为4，池化层为核为3x3的池化层，重复五次卷积层和池化层操作；其中第二次卷积操作中卷积核大小改为5x5，其余卷积操作中卷积核大小改为3x3，输出特征据矩阵PM1；

S2.3：对特征矩阵进行平均池化操作，核大小为3x3，步长为2，输出特征矩阵PM2；

S2.4：将特征矩阵PM2输入到全连接层，进行特征映射，重复两次操作，全连接层神经元数量为4096个，采用ReLU激活函数，使用Dropout操作后连接至神经元数量为20的全连接层，输出分类器MA；

S2.5：计算分类器MA在数据集SPC上的损失，更新神经网络连接函数的权值，若损失函数计算差值较上次计算大于0.05，转入S2.2；反之，减少第一层卷积层卷积核的大小，每次减少的步长为1，下限为3x3，增大其余层卷积核的步长，上限为6，重新更新网络的权重；选择分类效果最优的模型作为检测模型，输出人体关键点识别模型M1；

S2.6：输入一组未标注人体关键点的图像数据SPD，利用人体关键点识别模型M1对SPD进行人体关键点识别，输出标注好的人体关键点数据集SPE；将数据集SPE转入S2.2，训练后输出更新参数的人体关键点识别模型M1，查看模型M1在数据集SPC上识别准确率是否有提升，若有，则输出更新了参数模型M1，反之，则输出未更新参数的模型M1。

进一步地，所述步骤3具体包括如下内容：

S3.1：将视频V1切分为视频帧，输出为视频帧集合FA；将视频帧划分为SxS个网格，如果目标的中心落入某一单元格，则该网格负责检测该目标，并对这个网格卷积计算来提取特征，同时输出每个网格的目标存在置信度C1；

S3.2：对目标存在置信度大于80％的相邻网格，扩展网格边界进行预测，如果在网格内部检测到了目标，则输出目标单元格坐标(x1,y1)；如果在扩展网格单元后检测不到目标，则对该区域进行无目标判定；若扩展后单元格置信度和原单元格置信度差别过大，则返回S3.1；

S3.3：对检测到目标区域进行裁剪，减少图片像素值，对像素值小于25x25的图片，返回步骤1，输出像素值正常图片帧集合FB，合并为视频集合V3输出。

进一步地，所述步骤6具体内容为：

S6.1：输入一组标记好的人体姿势关键点图片集合K2，其中每张图片标记的关键点有20个，对应驾驶员状态有正常驾驶、抽烟、看手机、单手驾驶、不目视前方等5类；

S6.2：利用集合K2中每张图片的关键点坐标所有关键点之间的距离D1，每张图片存在190个距离，组成距离矩阵PM3，采用主成分分析使距离矩阵PM3从N1x190降维至N1x20，N1为集合K2种图片的数量，降维参数记录为参数矩阵PM4，输出驾驶员状态标签和关键点距离矩阵PM5；

S6.3：使用最小二乘法对矩阵PM5进行多元线性回归，初始化每种驾驶员状态对应线性分布超平面H1，计算矩阵PM5种每组距离和超平面H1的距离，每次计算完更新每个驾驶员状态对应超平面参数，若6个超平面法向量的两两余弦距离之差存在小于0.2的情况，则返回S6.1，反之，输出线性回归模型M2。

进一步地，所述步骤7中对坐标集K1进行二次检测，检查是否有异常坐标点存在的具体内容为：输入坐标集合K1，计算每张图片中关键点和中心点距离标准差STD，计算每张图片中关键点和中心点的距离D2，若距离D2绝对值大于两倍STD的图片，判定为异常图片，返回步骤5，对距离D2小于两倍STD的图片，判定为正常图片，输出为检测正常图片集合K3。

进一步地，所述步骤7中使用正常坐标点计算人体关键点之间距离信息，和模型M2进行对照从而输出驾驶员驾驶状态具体为：

S7.1：对K3中图片的关键点，计算其间距离，输出坐标点间距离矩阵PM6，利用参数矩阵PM4对矩阵PM6进行降维，降维后的矩阵大小为N2x20，其中N2为K3中图片的数量，输出降维后的坐标间距离矩阵PM7；

S7.2：计算矩阵PM6和模型M2中每个超平面的余弦距离，将余弦距离的倒数进行批归一化操作，选择最大值对应驾驶员状态标签的置信度作为驾驶员状态置信度S1，输出置信度S1及S1对应驾驶员状态标签。

进一步地，所述驾驶员状态标签正常驾驶、抽烟、看手机、单手驾驶、不目视前方对应置信度设置为1、0.2、0.2、0.2、0.2。

有益效果：

本专发明利用了基于对抗生成网络的分辨率提升方法，使低分辨率下的图像问题轮廓清晰度得以提升。提出一种基于人体关键点的人体姿势识别方法，先利用卷积神经网络训练关键点识别模型，进而用在人体目标检测的基础上训练好的模型来对人体关键点进行识别。在得到关键点识别结果后，对其进行统计分析，得到人体状态的描述。这种方法对比传统的图像分类方法，免去了图像中不必要部分的提取，对于图像特征的描述更为精细化，提高了图像识别的准确性。对视频信息进行信息熵计算，计算更有分析价值的视频帧，进而减轻了整体的计算量。本发明通过改进的卷积神经网络，通过缩小卷积核尺寸、增加卷积层数的方式加强了神经网络对于图像信息的提取，加入了池化层步长的概念防止过拟合，提高了模型的泛化性能；在驾驶状态识别上采用基于人体关键点识别的回归分析，降低了状态识别的出错率，有利于应用场景的迁移。

附图说明

图1为本发明流程图；

图2为改进的神经网络示意图；

图3为人体目标检测图；

图4为SR-GAN特征提取部分结构图；

图5为物体轮廓提取图；

图6为人体关键点识别示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明公开了一种基于改进的卷积神经网络的驾驶员状态识别方法，利用了基于对抗生成网络的分辨率提升方法，使低分辨率下的图像问题轮廓清晰度得以提升。提出一种基于人体关键点的人体姿势识别方法，先利用卷积神经网络训练关键点识别模型，进而用在人体目标检测的基础上训练好的模型来对人体关键点进行识别。在得到关键点识别结果后，对其进行统计分析，得到人体状态的描述。这种方法对比传统的图像分类方法，免去了图像中不必要部分的提取，对于图像特征的描述更为精细化，提高了图像识别的准确性。对视频信息进行信息熵计算，计算更有分析价值的视频帧，进而减轻了整体的计算量。

参见附图1，本发明主要包括如下步骤：

步骤1：输入驾驶员驾驶视频V1，利用SRGAN进行初步分辨率提升，输出高分辨率驾驶员驾驶视频V2，参见附图4，附图4为SR-GAN特征提取部分结构图。

步骤2：利用改进的卷积神经网络，构造人体关键点识别模型M1，具体的改进的卷积神经网络结构图参见附图2。

步骤3：利用yolo算法对视频V2中的人物进行检测，框选出单个人体存在的像素，输出单人体视频集V3，参见附图3，附图3是某一图片利用yolo算法对图片中的人物进行检测，框选出单个人体存在的像素，并输出的单人体图片。

S3.3：对检测到目标区域进行裁剪，减少图片像素值，对像素值小于25x25的图片，返回步骤1.6，“输入生成器P，输出高分辨率帧FA”，输出像素值正常图片帧集合FB，合并为视频集合V3输出。

步骤6：对驾驶员状态中各种姿势关键点进行标记，利用多元线性回归算法计算每种姿势对应关键点分布模型M2。

S6.1：输入一组标记好的人体姿势关键点图片集合K2，其中每张图片标记的关键点有20个，对应驾驶员状态有正常驾驶、抽烟、看手机、单手驾驶、不目视前方5类；

S6.3：使用最小二乘法对矩阵PM5进行多元线性回归，初始化每种驾驶员状态对应线性分布超平面H1，超平面H1含20个参数，参数初始化为0.5，计算矩阵PM5种每组距离和超平面H1的距离，每次计算完更新每个驾驶员状态对应超平面参数，若5个超平面法向量的两两余弦距离之差存在小于0.2的情况，则返回S6.1，反之，输出线性回归模型M2。

步骤7：对坐标集K1进行二次检测，使用正常坐标点计算人体关键点之间距离信息，和模型M2进行对照从而输出驾驶员状态。

对坐标集K1进行二次检测，检查是否有异常坐标点存在的具体内容为：输入坐标集合K1，计算每张图片中关键点和中心点距离标准差STD，计算每张图片中关键点和中心点的距离D2，若距离D2绝对值大于两倍STD的图片，判定为异常图片，返回步骤5，对距离D2小于两倍STD的图片，判定为正常图片，输出为检测正常图片集合K3。

使用正常坐标点计算人体关键点之间距离信息，和模型M2进行对照从而输出驾驶员状态具体为：

S7.1：对K3中图片的关键点，计算其间距离，输出坐标点间距离矩阵PM6，利用参数矩阵PM4对矩阵PM6进行降维，降维后的矩阵大小为N2x20,其中N2为K3中图片的数量,输出降维后的坐标间距离矩阵PM7；

S7.2：计算矩阵PM6和模型M2中每个超平面的余弦距离，将余弦距离的倒数进行批归一化操作，选择最大值对应驾驶员状态标签的置信度作为驾驶员状态置信度S1，其中驾驶状态标签正常驾驶、抽烟、看手机、单手驾驶、不目视前方对应置信度设置为1、0.2、0.2、0.2、0.2，输出置信度S1及S1对应驾驶员状态标签。

参见附图5与附图6，附图5由原图像进行轮廓提取后得到的轮廓图，图6为人体关键点识别结果图。

通过对COCO数据集部分图片进行标签，得到人体关键点数据集。对人体关键点数据集进行训练，得到人体关键点识别模型。在单帧以及视频情况下完成对人体的检测以及人体动作识别，在人体检测上已经取得了95％以上准确率，在人体关键点识别方面完成了多角度下人体关键点的提取，通过角度标记计算可以高效率进行人体姿势识别。可以对在检测视频中人体动作进行机器分析。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于改进的卷积神经网络的驾驶员状态识别方法，其特征在于，包括如下步骤：

步骤6：对驾驶员状态中各种姿势关键点进行标记，利用多元线性回归算法计算每种姿势对应关键点分布模型M2；

2.根据权利要求1所述的基于改进的卷积神经网络的驾驶员状态识别方法，其特征在于，所述步骤1中利用SRGAN进行初步分辨率提升具体为：

3.根据权利要求1所述的基于改进的卷积神经网络的驾驶员状态识别方法，其特征在于，所述步骤2中利用改进的卷积神经网络构造人体关键点识别模型M1具体为：

S2.2：输入关键点数据集SPC，使用卷积神经网络的卷积层、池化层、ReLU激活函数提取SPC的特征矩阵，初始化卷积核大小为11x11，步长为4，池化层为核为3x3的池化层，重复五次卷积层和池化层操作；其中第二次卷积操作中卷积核大小改为5x5，其余卷积操作中卷积核大小改为3x3，输出特征据矩阵PM1；

4.根据权利要求1所述的基于改进的卷积神经网络的驾驶员状态识别方法，其特征在于，所述步骤3具体包括如下内容：

5.根据权利要求1所述的基于改进的卷积神经网络的驾驶员状态识别方法，其特征在于，所述步骤6具体内容为：

S6.1：输入一组标记好的人体姿势关键点图片集合K2，输入未标记好的图片集合K3，其中每张图片标记的关键点有20个，对应驾驶员状态有正常驾驶、抽烟、看手机、单手驾驶、不目视前方等5类；

S6.3：使用最小二乘法对矩阵PM5进行多元线性回归，初始化每种驾驶员驾驶状态对应线性分布超平面H1，计算矩阵PM5种每组距离和超平面H1的距离，每次计算完更新每个驾驶员状态对应超平面参数，若6个超平面法向量的两两余弦距离之差存在小于0.2的情况，则返回S6.1，反之，输出线性回归模型M2。

6.根据权利要求1至5任一所述的基于改进的卷积神经网络的驾驶员状态识别方法，其特征在于，所述步骤7中对坐标集K1进行二次检测，检查是否有异常坐标点存在的具体内容为：输入坐标集合K1，计算每张图片中关键点和中心点距离标准差STD，计算每张图片中关键点和中心点的距离D2，若距离D2绝对值大于两倍STD的图片，判定为异常图片，返回步骤5，对距离D2小于两倍STD的图片，判定为正常图片，输出为检测正常图片集合K3。

7.根据权利要求6所述的基于改进的卷积神经网络的驾驶员状态识别方法，其特征在于，所述步骤7中使用正常坐标点计算人体关键点之间距离信息，和模型M2进行对照从而输出驾驶员状态具体为：

8.根据权利要求7所述的基于改进的卷积神经网络的驾驶员状态识别方法，其特征在于，所述驾驶员状态标签正常驾驶、抽烟、看手机、单手驾驶、不目视前方对应置信度设置为1、0.2、0.2、0.2、0.2。