CN110009648B

CN110009648B - 基于深浅特征融合卷积神经网络的路侧图像车辆分割方法

Info

Publication number: CN110009648B
Application number: CN201910161809.5A
Authority: CN
Inventors: 李旭; 郑智勇; 胡玮明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2023-02-24
Anticipated expiration: 2039-03-04
Also published as: CN110009648A

Abstract

本发明公开了基于深浅特征融合卷积神经网络的路侧图像车辆分割方法，该方法针对智能路侧终端图像中车辆相互粘连造成其边界难以准确获取的难题，首先通过对池化层、不同类型卷积层进行优化设计，得到一个高效的卷积神经网络来分层提取车辆特征，进而将网络浅层所提取的边缘细节特征与深层所提取的语义特征融合，得到深浅特征融合卷积神经网络。本发明方法在提高分割速度的同时，获得了完整、准确的车辆分割边界，有效克服了单一网络结构难以准确描述车辆边界的不足，满足智能路侧终端对准确性和实时性的要求。

Description

基于深浅特征融合卷积神经网络的路侧图像车辆分割方法

技术领域

本发明属于计算机视觉及智能路侧感知技术领域，涉及智能路侧终端图像车辆分割方法，尤其涉及一种基于深浅特征融合卷积神经网络的路侧图像车辆分割方法。

背景技术

汽车保有量的连续增长使得我国道路交通压力凸显，交通事故尤其是车辆相互碰撞事故严重威胁了驾驶员及乘客的生命安全。为了缓解这种状况，除了制定严格的交通法规外，提高车辆的智能化水平来感知周围车辆，进而辅助驾驶员安全驾驶，可有效防止碰撞事故的发生。然而，当前大部分智能车辆仅利用自车的传感器进行车辆感知，其视野有限并存在视距盲区，对交通场景中车辆相互遮挡的情况适应性不足，存在极大的安全隐患。在这种背景下，智能路侧车辆感知技术的发展为减少车辆碰撞事故的发生提供了新的解决思路，借助路侧感知设备作用范围广的优势，将感知到的车辆信息以通信的手段广播给附近车辆，提醒驾驶员谨慎行驶以避让其它车辆。

考虑到成本、可行性等影响因素，目前大部分车辆感知方法是基于计算机视觉的，其中，基于视觉的车辆分割作为车辆感知的重要手段之一得到广泛研究。传统车辆分割方法大多利用图像的颜色、纹理以及边缘等低级特征，特征表达能力有限，对路侧终端图像中车辆相互遮挡、车辆尺度变化的情况适应性不足。

近年来，深度学习技术的不断发展为智能路侧终端图像车辆分割任务提供了一种新的解决方案，与传统方法相比，深度学习的突出优势是具有强大的特征表达能力。基于深度神经网络的车辆分割方法对复杂的交通场景有良好的适应性，能够获得更准确的分割性能。然而，由于路侧成像设备视野广阔，能够拍摄到更多的车辆，在图像中这些车辆相互粘连，其边缘呈现出更为复杂的特性，传统的单一网络结构难以获得准确的分割边界。此外，当前大部分分割网络重点关注精度的提升，层数较多并且结构复杂，实时性难以满足路侧终端的需求。

发明内容

为解决上述问题，本发明公开了一种基于深浅特征融合卷积神经网络的路侧图像车辆分割方法，不仅实现了运算加速，还获得了完备的车辆局部细节信息和全局信息，有效克服了单一网络结构在车辆粘连的情况下难以获得准确分割边界的不足，满足智能路侧终端对车辆分割准确性和实时性的要求。

为了达到上述目的，本发明提供如下技术方案：

基于深浅特征融合卷积神经网络的路侧图像车辆分割方法，包括以下步骤：

(1)建立车辆分割数据集；

(2)构建深浅特征融合卷积神经网络，首先通过对池化层、不同类型卷积层进行优化设计，得到一个高效的卷积神经网络来分层提取车辆特征，进而将网络浅层所提取的边缘特征与深层所提取的语义特征融合，获得深浅特征融合卷积神经网络，包括以下子步骤：

子步骤1：设计池化层，池化层数量为2，均采用最大池化操作，采样尺寸均为2×2，步长均为2；

子步骤2：设计扩张卷积层，扩张卷积层数量为5，扩张率分别为2、4、6、8、4，卷积核数量分别为128、128、256、256、512，卷积核大小均为3×3，步长均为1；

子步骤3：设计标准卷积层，标准卷积层数量为4，卷积核数量分别为64、64、2、2，卷积核大小分别为3×3、3×3、3×3、1×1，步长均为1；

子步骤4：设计分解卷积层，分解卷积层数量为4，卷积核数量分别为256、256、512、512，卷积核大小分别为3×1、1×3、3×1、1×3，步长均为1；

子步骤5：设计反卷积层，反卷积层数量为2，卷积核数量分别为2、2，卷积核大小均为3×3，步长均为2；

子步骤6：确定网络的浅层特征和深层特征所在位置，浅层特征位于从左至右第5个卷积层，深层特征位于从左至右第12个卷积层；

子步骤7：融合浅层特征与深层特征，使用步骤(2)的子步骤3中设计的1×1标准卷积对浅层特征进行降维，使其具有与深层特征相同的维度，然后构建跳跃连接结构将浅层特征与深层特征融合；

子步骤8：确定网络架构，根据步骤(2)中的网络层参数建立模型，得到网络架构如下：

标准卷积层1_1：用64个3×3的卷积核与A×A像素的输入样本做卷积，步长为1，再经过ReLU激活，得到维度为A×A×64的特征图；

标准卷积层1_2：用64个3×3的卷积核与标准卷积层1_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为A×A×64的特征图；

池化层1：用2×2的核对标准卷积层1_2输出的特征图做最大池化，步长为2，得到维度为

的特征图；

扩张卷积层2_1：用128个3×3的卷积核与池化层1输出的特征图做卷积，步长为1，扩张率为2，再经过ReLU激活，得到维度为

的特征图；

扩张卷积层2_2：用128个3×3的卷积核与扩张卷积层2_1输出的特征图做卷积，步长为1，扩张率为4，再经过ReLU激活，得到维度为

的特征图；

池化层2：用2×2的核对扩张卷积层2_2输出的特征图做最大池化，步长为2，得到维度为

的特征图；

扩张卷积层3_1：用256个3×3的卷积核与池化层2输出的特征图做卷积，步长为1，扩张率为6，再经过ReLU激活，得到维度为

的特征图；

标准卷积层3_1_1：用2个1×1的卷积核对扩张卷积层3_1输出的特征图进行降维，步长为1，再经过ReLU激活，得到维度为

的特征图；

扩张卷积层3_2：用256个3×3的卷积核与扩张卷积层3_1输出的特征图做卷积，步长为1，扩张率为8，再经过ReLU激活，得到维度为

的特征图；

分解卷积层3_3：用256个3×1的卷积核与扩张卷积层3_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为

的特征图；

分解卷积层3_4：用256个1×3的卷积核与分解卷积层3_3输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为

的特征图；

分解卷积层3_5：用512个3×1的卷积核与分解卷积层3_4输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为

的特征图；

分解卷积层3_6：用512个1×3的卷积核与分解卷积层3_5输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为

的特征图；

扩张卷积层3_7：用512个3×3的卷积核与分解卷积层3_6输出的特征图做卷积，步长为1，扩张率为4，再经过ReLU激活，得到维度为

的特征图；

标准卷积层3_8：用2个3×3的卷积核与扩张卷积层3_7输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为

的特征图；

反卷积层4：用2个3×3的卷积核对标准卷积层3_1_1与标准卷积层3_8融合后输出的特征图做反卷积，步长为2，得到维度为

的特征图；

反卷积层5：用2个3×3的卷积核与反卷积层4输出的特征图做反卷积，步长为2，得到维度为A×A×2的特征图；

(3)训练设计的深浅特征融合卷积神经网络，获得网络参数；

(4)使用深浅特征融合卷积神经网络进行路侧图像车辆分割。

与现有技术相比，本发明具有如下优点和有益效果：

(1)本发明提出了一种适用于智能路侧终端图像的车辆分割方法，借助路侧设备感知范围广的优势，实现车辆的超视距全局感知，克服了当前大部分智能车辆主要依靠自车传感器进行车辆感知从而容易出现视距盲点的不足，有效降低了车辆漏检率。

(2)本发明针对智能路侧终端图像中车辆粘连时其分割边界难以准确获取的问题，首先通过对池化层、不同类型卷积层进行优化设计，得到一个高效的卷积神经网络来分层提取车辆特征，进而融合浅层特征所包含的边缘细节信息和深层特征所包含的语义信息，得到深浅特征融合卷积神经网络。该网络在实现运算速度大幅提升的同时，获得了完整、准确的车辆分割边界，极大地提高了车辆分割的精度。与基于单一网络结构的车辆分割方法相比，本发明所提方法获得了更准确的分割边界以及更好的实时性。

附图说明

图1是本发明的深浅特征融合卷积神经网络结构示意图。

图2是本发明的深浅特征融合卷积神经网络训练流程图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明公开了一种基于深浅特征融合卷积神经网络的路侧图像车辆分割方法，该方法针对智能路侧终端图像中车辆相互粘连使得其边界难以准确获取的问题，首先通过对池化层、不同类型卷积层进行优化设计，得到一个高效的卷积神经网络来分层提取车辆特征，进而将网络浅层所提取的车辆边缘细节特征与深层所提取的语义特征融合，得到深浅特征融合卷积神经网络。该网络不仅实现了运算加速，还获得了完备的车辆局部细节信息和全局信息，有效克服了单一网络结构在车辆粘连的情况下难以获得准确分割边界的不足，满足智能路侧终端对车辆分割准确性和实时性的要求。

具体地说，本发明提供的基于深浅特征融合卷积神经网络的路侧图像车辆分割方法，包括如下步骤：

(1)建立车辆分割数据集，对智能路侧终端获取的车辆样本进行标注或者使用已有数据样本，然后将样本尺寸调整为227×227像素并记为D_k。

子步骤1：设计池化层，在面向语义分割的卷积神经网络中，池化层一方面能够缩小特征图尺寸以减小计算量，另一方面能够扩大感受野以捕捉更完整的车辆信息，然而频繁地池化操作容易造成车辆空间位置信息的损失，阻碍了分割精度的提高。相反，虽然无池化操作保留了尽量多的空间位置信息，但加大了计算负担。因此，在设计时采用较少的池化层以平衡分割精度和计算负担，设池化层数量为n_p，取值范围为2～3，均采用最大池化操作，采样尺寸均为2×2，步长均为2；

子步骤2：设计扩张卷积层，由于步骤(2)的子步骤1中减少了池化层数量使得感受野减小，为了获得合适的感受野来准确地捕捉车辆信息，设计扩张卷积是一个有效地解决办法。虽然堆叠扩张卷积层以及使用大扩张率增大了局部感受野，但引入了噪声，并且感受野过大使得网络忽略了车辆的局部细节信息，造成分割边界模糊不清。与之相反，感受野过小则使得卷积层难以感知车辆的全局信息。基于上述考虑，设扩张卷积层数量为n_d，取值范围为2～6，扩张率为d_r(r＝2,4,...,n_d)，d_r为偶数，取值范围为2～10，卷积核数量为n_a(a＝1,2,...,n_d)，n_a一般取值为2的整数次幂，卷积核大小均为3×3，步长均为1；

子步骤3：设计标准卷积层，一般而言，网络的特征表达能力随着卷积层数量的增加而增强，但堆叠较多的卷积层加大了计算量，实时性降低，而卷积层数量少则难以提取到表达能力强的车辆特征。考虑到步骤(2)的子步骤2中已经设计了扩张卷积层，设标准卷积层数量为n_s，取值范围为2～5，卷积核数量为n_b(b＝1,2,...,n_s)，n_b一般取值为2的整数次幂，所有标准卷积层中有n_s-1层卷积核大小均为3×3，剩余1层卷积核大小1×1，步长均为1；

子步骤4：设计分解卷积层，分解卷积是对标准卷积进行分解，将一个二维的卷积核分解为两个一维的卷积核，极大地加快了网络的运算速度，但频繁使用分解卷积可能破坏车辆特征的连续性，导致精度下降。设分解卷积层数量为n_f，取值范围为2～6，卷积核数量为n_c(c＝1,2,...,n_f)，n_c一般取值为2的整数次幂，卷积核大小为3×1或1×3，步长均为1；

子步骤5：设计反卷积层，由于在步骤(2)的子步骤1中执行了n_p次池化操作，使得特征图缩小了1/n_p倍，为了将其恢复到原始图片大小，同时避免引入大量噪声，采用n_p个参数可学习的反卷积层对特征图中包含的车辆特征进行解耦，反卷积层的卷积核数量均为2，卷积核大小均为3×3，步长均为2；

子步骤6：确定浅层特征和深层特征所在位置，根据深度神经网络分层提取特征的特点，浅层提取的是车辆的边缘等低级特征，深层提取的是车辆的语义等高级特征，初步确定浅层特征的位置即位于第几个卷积层，记为s_l，取值范围为3～6，然后通过特征可视化手段确定s_l的具体数值。一般将最后一个标准卷积层所提取的特征作为深层特征，可获取更加充分的车辆全局信息，即深层特征位于从左至右第12个卷积层；

子步骤7：融合浅层特征与深层特征，在s_l的取值范围内通过特征可视化方法得到其取值为5后，使用步骤(2)的子步骤3中设计的1×1标准卷积对从左至右第5个卷积层的特征图进行降维，使其具有与深层特征相同的维度，然后构建跳跃连接结构将浅层特征与深层特征融合；

子步骤8：确定网络架构，根据步骤(2)中的网络层参数建立模型，得到的网络结构示意图如图1所示。其中，池化层数量n_p＝2；扩张卷积层数量n_d＝5，扩张率d_r分别为2、4、6、8、4，对应的卷积核数量n_a分别为128、128、256、256、512；标准卷积层数量n_s＝4，对应的卷积核数量n_b分别为64、64、2、2；分解卷积层数量n_f＝4，分解卷积的卷积核数量n_c分别为256、256、512、512。具体网络结构表述如下：

标准卷积层1_1：用64个3×3的卷积核与227×227像素的输入样本做卷积，步长为1，再经过ReLU激活，得到维度为227×227×64的特征图；

标准卷积层1_2：用64个3×3的卷积核与标准卷积层1_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为227×227×64的特征图；

池化层1：用2×2的核对标准卷积层1_2输出的特征图做最大池化，步长为2，得到维度为113×113×64的特征图；

扩张卷积层2_1：用128个3×3的卷积核与池化层1输出的特征图做卷积，步长为1，扩张率为2，再经过ReLU激活，得到维度为113×113×128的特征图；

扩张卷积层2_2：用128个3×3的卷积核与扩张卷积层2_1输出的特征图做卷积，步长为1，扩张率为4，再经过ReLU激活，得到维度为113×113×128的特征图；

池化层2：用2×2的核对扩张卷积层2_2输出的特征图做最大池化，步长为2，得到维度为56×56×128的特征图；

扩张卷积层3_1：用256个3×3的卷积核与池化层2输出的特征图做卷积，步长为1，扩张率为6，再经过ReLU激活，得到维度为56×56×256的特征图；

标准卷积层3_1_1：用2个1×1的卷积核对扩张卷积层3_1输出的特征图进行降维，步长为1，再经过ReLU激活，得到维度为56×56×2的特征图；

扩张卷积层3_2：用256个3×3的卷积核与扩张卷积层3_1输出的特征图做卷积，步长为1，扩张率为8，再经过ReLU激活，得到维度为56×56×256的特征图；

分解卷积层3_3：用256个3×1的卷积核与扩张卷积层3_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×256的特征图；

分解卷积层3_4：用256个1×3的卷积核与分解卷积层3_3输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×256的特征图；

分解卷积层3_5：用512个3×1的卷积核与分解卷积层3_4输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×512的特征图；

分解卷积层3_6：用512个1×3的卷积核与分解卷积层3_5输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×512的特征图；

扩张卷积层3_7：用512个3×3的卷积核与分解卷积层3_6输出的特征图做卷积，步长为1，扩张率为4，再经过ReLU激活，得到维度为56×56×512的特征图；

标准卷积层3_8：用2个3×3的卷积核与扩张卷积层3_7输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×2的特征图；

反卷积层4：用2个3×3的卷积核对标准卷积层3_1_1与标准卷积层3_8融合后输出的特征图做反卷积，步长为2，得到维度为113×113×2的特征图；

反卷积层5：用2个3×3的卷积核与反卷积层4输出的特征图做反卷积，步长为2，得到维度为227×227×2的特征图。

(3)训练设计的深浅特征融合卷积神经网络，通过随机梯度下降法迭代并优化网络参数。训练过程包括前向传播和反向传播两个阶段，在前向传播阶段，将样本集(x,y)输入网络，其中x为输入图像，y为对应的标签。通过网络逐层运算得到实际输出f(x)，使用带有L2正则化项的交叉熵代价函数来衡量理想输出y与实际输出f(x)之间的误差：

式(1)中，第一项为交叉熵代价函数，第二项为L2正则化项，用以防止过拟合，θ表示卷积神经网络模型要学习的参数，M表示训练样本数量，N表示每幅图像的像素个数，Q表示样本中语义类别的数量，对于道路分割而言，Q＝2，1{y＝q}是指示函数，当y＝q时取值为1，否则取值为0，λ是正则化系数，

表示第i个样本中第j个像素的灰度值，

表示

对应的标签，

表示

属于第q个类别的概率，定义为：

式(2)中，

表示最后一个反卷积层的第q个特征图在

处的输出，定义为：

在反向传播阶段，通过随机梯度下降算法从后往前逐层更新网络参数以达到极小化实际输出与理想输出之间误差的目的，参数更新公式如下：

式(4)中，α为学习率，J₀(θ)为交叉熵代价函数，

为计算的梯度。

当选定代价函数、正则化方法以及优化算法后，使用深度学习框架训练设计好的卷积神经网络。为了使训练结果更准确，正式训练前先进行预训练，然后再对预训练得到的参数进行微调，训练流程如图2所示，具体包括以下子步骤：

子步骤1：选择与自动驾驶相关的数据集，如ApolloScape、Cityscapes、CamVid，对其进行处理使其只包含车辆类别，然后将样本尺寸调整为227×227像素并记为D_c，接着使用D_c对设计好的深浅特征融合卷积神经网络进行预训练，设置预训练超参数，其中最大迭代次数为I_c，学习率为α_c，权重衰减为λ_c，最终将预训练得到的网络参数保存下来；

子步骤2：使用步骤(1)中所构建的数据集D_k对步骤(3)的子步骤1中预训练得到的网络参数进行微调，设置最大迭代次数为I_k，学习率为α_k，权重衰减为λ_k，然后根据训练损失曲线和验证损失曲线的变化情况即当训练损失曲线缓慢下降趋于收敛而验证损失曲线处于上升的临界点时，得到网络参数最优深浅特征融合卷积神经网络模型。

(4)使用深浅特征融合卷积神经网络进行路侧图像车辆分割，将智能路侧终端获取的车辆样本尺寸调整为227×227像素并将其输入到已训练的深浅特征融合卷积神经网络中，得到车辆分割结果。