CN108875674B

CN108875674B - 一种基于多列融合卷积神经网络的驾驶员行为识别方法

Info

Publication number: CN108875674B
Application number: CN201810692685.9A
Authority: CN
Inventors: 路小波; 胡耀聪; 陆明琦
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2021-11-16
Anticipated expiration: 2038-06-29
Also published as: CN108875674A

Abstract

本发明提供了一种基于多列融合卷积神经网络的驾驶员行为识别方法，包括：构建驾驶员行为识别数据集；对数据集的图片做数据增强；构建深度学习架构；训练设计好的深度学习模型；测试模型得出识别结果。本发明采用了深层的深度学习架构，有利于提取出更抽象的分层特征用于驾驶员行为分类；采用了多个不同滤波核的卷积神经网络分支融合的深度学习架构，有利于提取出图像多尺度特征，用于驾驶员行为分类。本发明中所设计的多列融合卷积神经网络有更抽象的局部特征表示能力，可进一步提高驾驶员行为识别的准确率，在公共安全和智能交通中有重要的应用价值。

Description

一种基于多列融合卷积神经网络的驾驶员行为识别方法

技术领域

本发明属于图像处理和模式识别领域，涉及一种行为识别方法，更为具体的说，是涉及一种基于多列融合卷积神经网络的驾驶员行为识别方法。

背景技术

随着经济的高速发展和人类物质水平的提高，汽车已成为了目前最常用的出行交通工具。随着汽车数量的增多，交通事故的发生更加频繁。根据中国交通部的官方报道，在2016年，共212846起交通事故发生造成了63093人丧生。不规范的驾驶行为存在着严重的安全隐患，这也是超过80％的交通事故发生的主要原因。因此对驾驶员的驾驶行为进行监控具有极其重要的应用价值，这也是高级驾驶辅助系统(Advanced Driver AssistanceSystem，ADAS)的关键技术之一。

目前随着图像处理和计算机视觉技术的发展，基于监控视频的驾驶员监控系统已成为驾驶员行为识别的主流发展方向。而基于计算机视觉的驾驶员行为识别算法也成为了热门研究课题。目前，基于视觉的驾驶员行为识别还不够精确，究其原因，主要存在三个难点：

(1)如图1所示，所有的驾驶员驾驶行为都由一个内置的车载摄像头捕捉，所以不同的驾驶行为在图像上拥有非常相似的全局背景信息，即不同驾驶行为在全局上的类间方差较小。

(2)如图1所示，不同的驾驶行为的区别体现在图像上某些小的局部信息，如方向盘，手，人脸，眼睛等。由于不同驾驶员在局部动作习惯上拥有较大的差别，即相同驾驶行为在局部上的类内方差较大。

(3)对于驾驶员行为识别的研究历史较短。目前公开的数据集中训练样本不够充足，这也限制了深度卷积神经网络对识别准确率的进一步提高。

发明内容

为解决上述问题，本发明公开了一种基于多列融合卷积神经网络的驾驶员行为识别方法，采用多个带有不同滤波核的浅层卷积神经网络去提取图像的多尺度特征，进而融合不同感受野下生成的特征图以组合成更深层次的多列卷积神经网络实现对不同驾驶员行为的识别，如正常驾驶、打电话、玩手机、与副驾驶交谈等。

为了达到上述目的，本发明提供如下技术方案：

一种基于多列融合卷积神经网络的驾驶员行为识别方法，包括如下步骤：

步骤1：搜集驾驶员行为识别相关的数据集，数据集中的训练图片，包含若干类不同的驾驶行为；

步骤2：对搜集到的驾驶员行为识别数据集KAGGLE-DRIVING中的图片进行样本增强，将增强后得到的数据作为卷积神经网络的训练集，其具体包括：

步骤201：采用以下方法进行数据增强：

3、对输入图像进行水平镜像和小角度旋转生成增强数据；

4、将输入的图像归一化为256×256，随机选取224×224的图像块作为训练图像；

步骤202：将增强后的数据纳入卷积神经网络的训练集，若训练集中包含K个训练样本，则记为X＝{χ₁，χ₂，...χ_K}；而对于训练集中的第k个样本表示为χ_k＝{I_k，l_k}，其中I_k表示第k个RGB图像，分辨率为224×224×3，l_k表示其对应的标签；

步骤3：构建深度学习模型，模型由三列卷积神经网络分支(即三个卷积神经网络列)组成，每个列包含8个卷积层和3个全连接层，三个卷积神经网络分支使用尺寸为3×3，5×5，7×7的滤波器去卷积输入为224×224×3的图像；

步骤4：将驾驶员行为识别数据集送入设计好的深度学习架构中进行训练，通过随机梯度下降法进行迭代并优化网络参数，其具体包括：

步骤401：使用图像分类的ImageNet数据集单独的对三个滤波核为3×3，5×5，7×7的卷积神经网络分支进行预训练，预训练结束后记录每个网络分支的参数；

步骤402：使用驾驶员行为识别数据集对预训练得到的网络参数进行微调，三个卷积神经网络分支分别对驾驶员行为数据进行端到端的微调学习；第i个卷积神经网络分支的卷积层能够自动提取特征，将224×224×3的输入映射成6×6×256的特征图，具体表示为：

其中conv(·|)表示卷积操作，I表示输入图像，Fⁱ表示第i个卷集神经网络分支所计算得到的特征图，

为卷积层参数，涉及每个卷积层所用到的卷积核；

第i个卷积神经网络分支的全连接层能够将卷积层输出的224×224×3的特征图降维到1000维的向量特征表示，具体表示为：

其中FC(·|)表示全连接操作，即参数

与特征图Fⁱ的内积，fⁱ表示全连接层的输出特征向量，

为全连接层参数，涉及各全连接权重；

第i个卷积神经网络分支的softmax分类器的输出为不同类别预测的概率分布，具体表示为：

其中soffmax(·|)表示卷积神经网络分支的输出，即为不同类别预测的概率分布，

为分类参数，涉及softmax层对当前图像多分类的连接参数；

步骤403：将训练好的三个卷积神经网络分支所生成的6×6×256的卷积特征图进行中间层组合得到6×6×784的融合特征图，具体表示为：

F(3d-2，x，y)＝F¹(d，x，y)

F(3d-1，x，y)＝F²(d，x，y)

F(3d，x，y)＝F³(d，x，y)

堆叠的特征图与全连接层连接形成更深层次的三列融合卷积神经网络，所述三列融合卷积神经网络包含三个尺度共24个卷积层和3个全连接层；

步骤404：对组合后的三列融合卷积神经网络进行再训练；组合卷积神经网络的学习过程是通过迭代去优化softmax交叉损失熵函数以获得最优参数

θ_fc，θ_cls，其中卷积层参数θ_conv以单列卷积网络学习到的参数值作为初始化，而全连接参数和分类参数随机进行初始化；组合卷积神经网络的迭代过程具体表示为：

其中L_cls表示分类损失，f_k为全连接层提取的特征，l_k为第k个图像对应的标签，1{·}表示指示函数；P(·)表示图片属于不同行为类别的后验概率，||·||为正则化项，而最后通过迭代得到的最优参数为

步骤5：对多列卷积神经网络进行测试：给定一张驾驶员识别图像，将测试图像归一化为224×224的尺寸作为多列融合卷积神经网络的输入，通过多列融合网络的前向传播获得测试图像的行为识别结果，最终识别出驾驶者的行为类别。

进一步的，所述步骤1中驾驶行为包括如下类别：

C0：正常驾驶

C1：玩手机——右手

C2：打电话——右手

C3：玩手机——左手

C4：打电话——左手

C5：调整按钮

C6：喝水

C7：伸头

C8：化妆

C9：与副驾驶交谈。

进一步的，所述步骤3中第一列的卷积神经网络结构如下：

卷积层1：用32个3×3×3的核去卷积224×224×3的输入，再经过2×2的最大值池化和ReLU得到112×112×32的特征；

卷积层2：用64个3×3×32的核去卷积卷积层1输出的112×112×32特征，再经过2×2的最大值池化和ReLU得到51×51×64的特征；

卷积层3_1：用128个3×3×64的核去卷积卷积层2输出的51×51×64特征，得到51×51×128的特征；

卷积层3_2：用128个3×3×128的核去卷积卷积层3_1输出的51×51×128特征，再经过2×2的最大值池化和ReLU得到25×25×128的特征；

卷积层4_1：用256个3×3×128的核去卷积卷积层3_2输出的25×25×128特征，得到25×25×256的特征；

卷积层4_2：用256个3×3×256的核去卷积卷积层4_1输出的25×25×256特征，再经过2×2的最大值池化和ReLU得到12×12×256的特征；

卷积层5_1：用256个3×3×256的核去卷积卷积层4_2输出的12×12×256特征，得到12×12×256的特征；

卷积层5_2：用256个3×3×256的核去卷积卷积层5_1输出的12×12×256特征，再经过2×2的最大值池化和ReLU得到6×6×256的特征；

全连接层6：含有4096个神经元，并与卷积层5_2输出的6×6×256的特征图全连接；

全连接层7：含有1000个神经元，并与全连接层6输出的4096个神经元全连接；

全连接层8：含有10个神经元，与全连接层7输出的1000个神经元全连接，神经元的输出为图片属于不同驾驶行为类别的概率；

其余两列卷积神经网络结构与第一列相同，不同之处在于分别使用了5×5，7×7的滤波核。

进一步的，所述步骤401中预训练的初始学习率为η₁，冲量项为m₁，迭代样本数为N₁。

进一步的，所述步骤402微调过程中初始学习率为η₂，冲量项为m₂，迭代样本数为N₂。

进一步的，所述步骤404中再训练时调整学习率η₃，冲量项m₃，迭代送入样本数N₃。

与现有技术相比，本发明具有如下优点和有益效果：

(1)本发明中所设计的多列融合卷积神经网络有更抽象的局部特征表示能力，可进一步提高驾驶员行为识别的准确率，在公共安全和智能交通中有重要的应用价值。

(2)本发明采用了深层的深度学习架构，有利于提取出更抽象的分层特征用于驾驶员行为分类；采用了多个不同滤波核的卷积神经网络分支融合的深度学习架构，有利于提取出图像多尺度特征，用于驾驶员行为分类。

附图说明

图1是不同驾驶行为的样例图片。

图2是本发明提供的基于多列融合卷积神经网络的驾驶员行为识别方法流程图。

图3是本发明中深度学习模型的框架示意图。

图4三列卷积神经网络融合方式的示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提供的基于多列融合卷积神经网络的驾驶员行为识别方法，如图2所示，包括如下步骤：

步骤1：搜集驾驶员行为识别相关的数据集。驾驶员行为识别数据来源于网络公开数据集KAGGLE-DRIVING(https：//www.kaggle.com)，该数据集包含22424张训练图片，包含10类如图1所示不同的驾驶行为，分别为：

C0：正常驾驶

C1：玩手机——右手

C2：打电话——右手

C3：玩手机——左手

C4：打电话——左手

C5：调整按钮

C6：喝水

C7：伸头

C8：化妆

C9：与副驾驶交谈

步骤201：采用以下数据增强的方法：1、对输入图像进行水平镜像和小角度旋转生成增强数据。2、将输入的图像归一化为256×256，随机选取224×224的图像块作为训练图像。加入增强图像可以提高算法的旋转不变性和尺度不变性，并有效的提高了深度神经网络的鲁棒能力。

步骤202：将增强后的数据纳入卷积神经网络的训练集，若训练集中包含K个训练样本，则可记为X＝{χ₁，χ₂，...χ_K}。而对于训练集中的第k个样本可以表示为χ_k＝{I_k，l_k}，其中I_k表示第k个RGB图像，分辨率为224×224×3，l_k表示其对应的标签。

步骤3：构建深度学习模型，所设计的模型由三个卷积神经网络分支，即三个列组成。每个列包含8个卷积层和3个全连接层，其结构可看做19层VGG卷积神经网络的简化模型。三个卷积神经网络分支使用尺寸为3×3，5×5，7×7的滤波器去卷积输入为224×224×3的图像。以第一列的卷积神经网络为例，其结构表述如下：

卷积层1：用32个3×3×3的核去卷积224×224×3的输入，再经过2×2的最大值池化和ReLU得到112×112×32的特征。

卷积层2：用64个3×3×32的核去卷积卷积层1输出的112×112×32特征，再经过2×2的最大值池化和ReLU得到51×51×64的特征。

卷积层3_1：用128个3×3×64的核去卷积卷积层2输出的51×51×64特征，得到51×51×128的特征。

卷积层3_2：用128个3×3×128的核去卷积卷积层3_1输出的51×51×128特征，再经过2×2的最大值池化和ReLU得到25×25×128的特征。

卷积层4_1：用256个3×3×128的核去卷积卷积层3_2输出的25×25×128特征，得到25×25×256的特征。

卷积层4_2：用256个3×3×256的核去卷积卷积层4_1输出的25×25×256特征，再经过2×2的最大值池化和ReLU得到12×12×256的特征。

卷积层5_1：用256个3×3×256的核去卷积卷积层4_2输出的12×12×256特征，得到12×12×256的特征。

卷积层5_2：用256个3×3×256的核去卷积卷积层5_1输出的12×12×256特征，再经过2×2的最大值池化和ReLU得到6×6×256的特征。

全连接层6：含有4096个神经元，并与卷积层5_2输出的6×6×256的特征图全连接。

全连接层7：含有1000个神经元，并与全连接层6输出的4096个神经元全连接。

全连接层8：含有10个神经元，与全连接层7输出的1000个神经元全连接。神经元的输出为图片属于不同驾驶行为类别的概率。

其余两列卷积神经网络则分别使用了5×5，7×7的滤波核。这样一种多列卷积神经网络的设计有利于提取出图像的多尺度特征。

步骤401：使用图像分类的ImageNet数据集单独的对三个滤波核为3×3，5×5，7×7的卷积神经网络分支进行预训练。预训练的初始学习率为η₁，冲量项为m₁，迭代样本数为N₁。预训练结束后记录每个网络分支的参数。

步骤402：使用本发明中的驾驶员行为识别数据集对预训练得到的网络参数进行微调。微调过程中初始学习率为η₂，冲量项为m₂，迭代样本数为N₂。三个卷积神经网络分支分别对驾驶员行为数据进行端到端的微调学习。对于第i个卷积神经网络分支，需要学习的参数卷包括卷积层参数

涉及每个卷积层所用到的卷积核。全连接层参数

涉及各全连接权重。分类参数

涉及softmax层对当前图像多分类的连接参数。第i个卷积神经网络分支的卷积层可以自动的提取特征，将224×224×3的输入映射成6×6×256的特征图，可具体表示为：

其中COnv(·|)表示卷积操作，I表示输入图像，Fⁱ表示第i个卷集神经网络分支所计算得到的特征图。

第i个卷积神经网络分支的全连接层可以将卷积层输出的224×224×3的特征图降维到1000维的向量特征表示，可具体表示为：

其中FC(·|)表示全连接操作，即参数

与特征图Fⁱ的内积，fⁱ表示全连接层的输出特征向量。

第i个卷积神经网络分支的softmax分类器的输出为不同类别预测的概率分布。可具体表示为：

其中soffmax(·|)表示卷积神经网络分支的输出，即为不同类别预测的概率分布。

步骤403：将训练好的三个卷积神经网络分支所生成的6×6×256的卷积特征图进行中间层组合得到6×6×784的融合特征图，可具体表示为：

F(3d-2，x，y)＝F¹(d，x，y)

F(3d-1，x，y)＝F²(d，x，y)

F(3d，x，y)＝F³(d，x，y)

堆叠的特征图与全连接层连接形成更深层次的三列融合卷积神经网络(包含三个尺度共24个卷积层和3个全连接层)。

步骤404：对组合后的三列融合卷积神经网络进行再训练。调整学习率η₃，冲量项m₃，迭代送入样本数N₃。组合卷积神经网络的学习过程就是通过迭代去优化softmax交叉损失熵函数以获得最优参数

θ_fc，θ_cls，其中卷积层参数θ_conv以单列卷积网络学习到的参数值作为初始化，而全连接参数和分类参数随机进行初始化。组合卷积神经网络的迭代过程具体可表示为：

其中L_cls表示分类损失，f_k为全连接层提取的特征，l_k为第k个图像对应的标签，1{·}表示指示函数，如大括号内的表达式为真则取值1，反之取值0。P(·)表示图片属于不同行为类别的后验概率，||·||为正则化项，而最后通过迭代得到的最优参数为

步骤5：对多列卷积神经网络进行测试。给定一张驾驶员识别图像，将测试图像归一化为224×224的尺寸作为多列融合卷积神经网络的输入，通过多列融合网络的前向传播获得测试图像的行为识别结果，最终能够识别出驾驶者的行为类别。

采用本发明方法与现有方法分别对图像中的驾驶者行为进行识别，识别率如下表所示：

从上表中可以看出，本发明提供的识别方法识别率达85％以上，优于现有识别方法。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于多列融合卷积神经网络的驾驶员行为识别方法，其特征在于，包括如下步骤：

步骤201：采用以下方法进行数据增强：

1、对输入图像进行水平镜像和小角度旋转生成增强数据；

2、将输入的图像归一化为256×256，随机选取224×224的图像块作为训练图像；

步骤3：构建深度学习模型，模型由三列卷积神经网络分支组成，每个列包含8个卷积层和3个全连接层，三个卷积神经网络分支使用尺寸为3×3，5×5，7×7的滤波器去卷积输入为224×224×3的图像；

为卷积层参数，涉及每个卷积层所用到的卷积核；

其中FC(·|)表示全连接操作，即参数

与特征图Fⁱ的内积，fⁱ表示全连接层的输出特征向量，

为全连接层参数，涉及各全连接权重；

其中soft max(·|)表示卷积神经网络分支的输出，即为不同类别预测的概率分布，

为分类参数，涉及softmax层对当前图像多分类的连接参数；

F(3d-2，x，y)＝F¹(d，x，y)

F(3d-1，x，y)＝F²(d，x，y)

F(3d，x，y)＝F³(d，x，y)

2.根据权利要求1所述的基于多列融合卷积神经网络的驾驶员行为识别方法，其特征在于，所述步骤1中驾驶行为包括如下类别：

C0：正常驾驶

C1：玩手机——右手

C2：打电话——右手

C3：玩手机——左手

C4：打电话——左手

C5：调整按钮

C6：喝水

C7：伸头

C8：化妆

C9：与副驾驶交谈。

3.根据权利要求1所述的基于多列融合卷积神经网络的驾驶员行为识别方法，其特征在于，所述步骤3中第一列的卷积神经网络结构如下：

4.根据权利要求1所述的基于多列融合卷积神经网络的驾驶员行为识别方法，其特征在于，所述步骤401中预训练的初始学习率为η₁，冲量项为m₁，迭代样本数为N₁。

5.根据权利要求1所述的基于多列融合卷积神经网络的驾驶员行为识别方法，其特征在于，所述步骤402微调过程中初始学习率为η₂，冲量项为m₂，迭代样本数为N₂。

6.根据权利要求1所述的基于多列融合卷积神经网络的驾驶员行为识别方法，其特征在于，所述步骤404中再训练时调整学习率η₃，冲量项m₃，迭代送入样本数N₃。