CN113486856A

CN113486856A - 一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法

Info

Publication number: CN113486856A
Application number: CN202110875753.7A
Authority: CN
Inventors: 郝立颖; 杨正凯
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-10-08
Anticipated expiration: 2041-07-30
Also published as: CN113486856B

Abstract

本发明提供一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，包括构建语义分割网络模型；获取instance‑level_human_parsing数据集，对构建的语义分割网络模型进行训练；利用训练后的语义分割网络模型预测state farm distracted driver detection数据集中的每一张图像；对预测后的state farm distracted driver detection数据集中的每一张图像进行面部定位，并裁剪图片，重新定义图像尺寸；对预测后的state farm distracted driver detection数据集进行数据扩充；构建卷积神经网络模型；将数据扩充后的数据集分为训练集、验证集和测试集，并将训练集和验证集送入卷积神经网络模型中进行训练；利用训练后的卷积神经网络模型对测试集进行预测，输出识别结果图像。本发明解决现有技术在检测驾驶员的行为时往往表现不佳，不能准确检测驾驶员的行为的问题。

Description

一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法

技术领域

本发明涉及智能交通技术领域，具体而言，尤其涉及一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法。

背景技术

复杂环境场景下的驾驶员检测就是要从实际的交通环境场景下，对图像内的驾驶员进行检测并准确识别出其行为。通过建立深度神经网络模型并利用完整的数据集进行训练，使其能够适应各种复杂的实际环境。Maitree Leekha等人提出了使用图割算法来对state farm distracted driver detection数据集中的驾驶员进行分割处理，但是在一些特定的光线角度影响下，并不能更好的将驾驶员分割出来。

在实际驾驶员驾车时，驾驶员的行为较多，检测麻烦，现有技术在检测驾驶员的行为时往往表现不佳，不能准确地将检测驾驶员的行为。

发明内容

根据上述提出的技术问题，提供一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法。

本发明采用的技术手段如下：

一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，包括如下步骤：

S1、构建语义分割网络模型；

S2、获取instance-level_human_parsing数据集，对构建的语义分割网络模型进行训练；

S3、利用训练后的语义分割网络模型，预测state farm distracted driverdetection数据集中的每一张图像；

S4、对预测后的state farm distracted driver detection数据集中的每一张图像进行面部定位，并裁剪图片，重新定义图像尺寸；

S5、对预测后的state farm distracted driver detection数据集进行数据扩充；

S6、构建卷积神经网络模型；

S7、将经过数据扩充后的state farm distracted driver detection数据集分为训练集、验证集和测试集，并将训练集和验证集送入卷积神经网络模型中进行训练；

S8、利用训练后的卷积神经网络模型，对所述测试集进行预测，输出识别结果图像。

进一步地，所述步骤S1中，构建的语义分割网络模型包括编码器单元和解码器单元；

编码器单元包括Res2Net50网络和Transformer网络，Res2Net50网络和Transformer网络对输入图像进行特征提取，得到下采样特征图和特征块；

解码器单元包括上采样模块和Coordinate Attention机制，特征块重塑尺寸后合并编码器单元的下采样特征图，上采样模块和Coordinate Attention机制对合并后的特征图中的特征进行聚集，再进行上采样操作，依次类推，直到获取图像的大小。

进一步地，所述Res2Net50网络用于融合特征图中不同尺度的信息，提取特征图中的全局和局部信息；所述Transformer网络用于捕捉特征图中的长距离信息，以获取更有效的特征块；所述Coordinate Attention机制用于多特征图中感兴趣的物体进行定位聚焦。

进一步地，所述步骤S2对语义分割网络模型进行训练的训练批次设置为N个，N大于等于30，且训练的输入图片大小为512*512，训练后的输出图片大小为512*512。

进一步地，所述步骤S3的具体实现过程如下：

加载训练后的语义分割网络模型；

加载state farm distracted driver detection数据集中的每一张图像；

将state farm distracted driver detection数据集中的每一张图像裁剪成大小为512*512的图片；

将裁减后的每一张图像送入语义分割网络模型中进行预测，输出大小为512*512的预测图像。

进一步地，所述步骤S4中，重新定义的图像尺寸为256*256。

进一步地，所述步骤S5中，对state farm distracted driver detection数据集进行数据扩充的方式，包括：

根据实际情况选择旋转、平移、缩放、随机遮挡、水平翻转、颜色色差和噪声扰动操作。

进一步地，所述步骤S6中，构建的卷积神经网络模型包括卷积层、最大池化层、全连接层以及输出层；

所述卷积层用于对输入数据进行特征提取；

所述最大池化层连接在卷积层之后，用于进行特征选择和信息过滤；

所述全连接层连接在最后一个最大池化层之后，用于对提取的特征进行非线性组合以得到输出；

所述输出层连接在全连接层之后，用于使用逻辑函数或归一化指数函数softmaxfunction输出分类标签。

进一步地，所述步骤S7中，将经过数据扩充后的state farm distracted driverdetection数据集分为训练集、验证集和测试集，具体包括：

将经过数据扩充后的state farm distracted driver detection数据集中的60％作为训练集；

将经过数据扩充后的state farm distracted driver detection数据集剩下的40％中的20％作为验证集；

将经过数据扩充后的state farm distracted driver detection数据集中剩下的20％作为测试集。

进一步地，所述步骤S8的具体实现过程如下：

加载训练后的卷积神经网络模型；

加载测试集中的每一张图像；

将测试集中的每一张图像送入卷积神经网络模型中进行预测，得到每一个类别的图像。

较现有技术相比，本发明具有以下优点：

1、本发明提供的基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，采用语义分割模型对数据集进行处理，使得数据集中的司机被分割出来。

2、本发明提供的基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，并没有直接使用神经网络中常用的大型分类网络，而是采用了自己搭建的小型分类网络，大大提高了神经网络在复杂环境下识别司机行为检测的准确性。

3、本发明提供的基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，基于语义分割网络和卷积分类网络共同去检测司机行为，进一步提高了检测准确性。

基于上述理由本发明可在智能交通等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

图2为本发明实施例提供的语义分割网络模型结构示意图。

图3为本发明实施例提供的利用语义分割网络模型预测后的效果图。

图4为本发明实施例提供的面部定位和裁减的效果图。

图5为本发明实施例提供的state farm distracted driver detection数据集的各类数量图。

图6为本发明实施例提供的卷积神经网络模型结构示意图。

图7为本发明实施例提供的是否使用语义分割网络对数据集处理的识别结果对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，包括如下步骤：

S1、构建语义分割网络模型；

S6、构建卷积神经网络模型；

具体实施时，作为本发明优选的实施方式，如图2所示，所述步骤S1中，构建的语义分割网络模型包括编码器单元和解码器单元；

编码器单元包括Res2Net50网络和Transformer网络，Res2Net50网络和Transformer网络对输入图像进行特征提取，得到下采样特征图和特征块；其中，所述Res2Net50网络用于融合特征图中不同尺度的信息，提取特征图中的全局和局部信息；所述Transformer网络用于捕捉特征图中的长距离信息，以获取更有效的特征块；

解码器单元包括上采样模块和Coordinate Attention机制，特征块重塑尺寸后合并编码器单元的下采样特征图，上采样模块和Coordinate Attention机制对合并后的特征图中的特征进行聚集，再进行上采样操作，依次类推，直到获取图像的大小。其中，所述Coordinate Attention机制用于多特征图中感兴趣的物体进行定位聚焦。

具体实施时，作为本发明优选的实施方式，所述步骤S2对语义分割网络模型进行训练的训练批次设置为N个，N大于等于30，且训练的输入图片大小为512*512，训练后的输出图片大小为512*512。在本实施例中，一共训练30个批次。

具体实施时，作为本发明优选的实施方式，所述步骤S3的具体实现过程如下：

加载训练后的语义分割网络模型；

加载state farm distracted driver detection数据集中的每一张图像；

将裁减后的每一张图像送入语义分割网络模型中进行预测，输出大小为512*512的预测图像，如图3所示。

具体实施时，作为本发明优选的实施方式，所述步骤S4中，由于在state farmdistracted driver detection数据集中，一些图像中的司机会有靠前或者靠后的情况，如果直接用固定尺寸裁剪，会出现将图像中的司机信息给裁剪了。通过定位图像中的面部部分，从而去灵活的裁剪图片，不仅可以保留图像中的有用信息还可以裁剪掉图像中无用的部分。还原图像中原有的信息，输出的图像大小为256*256。效果图如图4所示。

具体实施时，作为本发明优选的实施方式，所述步骤S5中，对state farmdistracted driver detection数据集进行数据扩充的方式，包括：

在本实施例中，数据集中一共包含26个司机共79726张图片，其中训练集有22425张图片。包含10个状态，10个状态如下表所示：

训练集中各类别包含的图片数量如图5所示。为了训练泛化能力强的模型，最好是使用大量的数据进行训练，这样模型就能从样本中的差异中得到更好的泛化能力，避免过拟合的情况发生。但是在实际中，由于训练的样本有限，本次的训练数据也只有2万张图像，用来训练还是不太够。为了解决这个问题，使用数据增强的方法。本实施例中，采用颜色色差方法。分别包括亮度增强、对比度增强、锐度增强和色度增强四种颜色色差方法。为了满足随机性，在训练集中的每一个类别中随机挑选出一些图像进行上述的四种操作。通过对训练集的扩充使得每一个类别的数量都是2500张图像。

具体实施时，作为本发明优选的实施方式，如图6所示，所述步骤S6中，构建的卷积神经网络模型包括卷积层、最大池化层、全连接层以及输出层；

所述卷积层用于对输入数据进行特征提取；

具体实施时，作为本发明优选的实施方式，所述步骤S7中，将经过数据扩充后的state farm distracted driver detection数据集分为训练集、验证集和测试集，具体包括：

具体实施时，作为本发明优选的实施方式，所述步骤S8的具体实现过程如下：

加载训练后的卷积神经网络模型；

加载测试集中的每一张图像；

将测试集中的每一张图像送入卷积神经网络模型中进行预测，得到每一个类别的图像。识别的结果如图7所示。每一个类别的图像都有50张。

如图7所示是本实施例中是否使用语义分割网络对state farm distracteddriver detection数据集处理的识别结果对比图，从图中可以很明显地看出使用语义分割网络对state farm distracted driver detection数据集处理后，分类检测模型具有更好的检测性能，从而大大提高了复杂环境场景下驾驶员不规范行为的检测能力。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，其特征在于，包括如下步骤：

S1、构建语义分割网络模型；

S6、构建卷积神经网络模型；

2.根据权利要求1所述的基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，其特征在于，所述步骤S1中，构建的语义分割网络模型包括编码器单元和解码器单元；

3.根据权利要求2所述的基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，其特征在于，所述Res2Net50网络用于融合特征图中不同尺度的信息，提取特征图中的全局和局部信息；所述Transformer网络用于捕捉特征图中的长距离信息，以获取更有效的特征块；所述Coordinate Attention机制用于多特征图中感兴趣的物体进行定位聚焦。

4.根据权利要求1所述的基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，其特征在于，所述步骤S2对语义分割网络模型进行训练的训练批次设置为N个，N大于等于30，且训练的输入图片大小为512*512，训练后的输出图片大小为512*512。

5.根据权利要求1所述的基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，其特征在于，所述步骤S3的具体实现过程如下：

加载训练后的语义分割网络模型；

加载state farm distracted driver detection数据集中的每一张图像；

6.根据权利要求1所述的基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，其特征在于，所述步骤S4中，重新定义的图像尺寸为256*256。

7.根据权利要求1所述的基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，其特征在于，所述步骤S5中，对预测后的state farm distracted driver detection数据集进行数据扩充的方式，包括：

8.根据权利要求1所述的基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，其特征在于，所述步骤S6中，构建的卷积神经网络模型包括卷积层、最大池化层、全连接层以及输出层；

所述卷积层用于对输入数据进行特征提取；

9.根据权利要求1所述的基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，其特征在于，所述步骤S7中，将经过数据扩充后的state farm distracted driverdetection数据集分为训练集、验证集和测试集，具体包括：

10.根据权利要求1所述的基于语义分割和卷积神经网络的驾驶员不规范行为检测方法，其特征在于，所述步骤S8的具体实现过程如下：

加载训练后的卷积神经网络模型；

加载测试集中的每一张图像；