CN110147794A

CN110147794A - 一种基于深度学习的无人车室外场景实时分割方法

Info

Publication number: CN110147794A
Application number: CN201910421275.5A
Authority: CN
Inventors: 马明宇; 高文龙; 薛珂
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-20

Abstract

本发明的一种基于深度学习的无人车室外场景实时分割方法，包括，步骤1：采集室外场景图像，按8:1:1的比例分为训练集、验证集和测试集，并对图像进行预处理；步骤2：建立卷积神经网络，以对室外场景图像进行分割；步骤3：将训练集图像输入到卷积神经网络中，对卷积神经网络进行训练，并通过验证集对网络参数进行调节；步骤4：将测试集输入到训练好的网络中，实现对图像的分割。该分割方法能够在相对较低成本的基础上快速实现对室外场景的分割，同时能够较大程度上减少精度上的损失，有着较小模型存储空间，提高语义分割的效率，提升整个室外场景识别的性能。

Description

一种基于深度学习的无人车室外场景实时分割方法

技术领域

本发明属于语义分割技术领域，涉及一种基于深度学习的无人车室外场景实时分割方法。

背景技术

目前，深度学习几乎成了计算机视觉领域的标配，也是当下人工智能领域最热门的研究方向。同时图像理解对于人工智能也有着重要的意义，这其中图像语义分割可以说是图像理解的基石技术。语义分割是从像素级别上来对物体进行分类。从字面上理解就是计算机根据图像的语义来对图像中的每一个像素进行分类与分割。近年来语义分割技术在无人车驾驶、无人机、医疗影像分析以及一些穿戴式设备领域中应用广泛，而利用语义分割进行室外场景理解更是无人车技术的重中之重。例如对车道线分割，以此来区别不同道路，或者对室外场景进行分割，来进行避障、跟踪等一系列操作。

对于语义分割，目前主要的方法有：1)基于ASPP结构和空洞卷积的DeepLab网络系列。该方法虽然分割效果很好，但速度却很慢。DeepLab V1甚至用了CRF后处理，处理一张图片需要1.5s。后续虽然在不断改进但速度上还是没有达到实时；2)基于金字塔池化模块的PSPNet。该方法依旧只关注于精度方面的提高，其参数量和计算量依旧很大；3)基于ResNet的ENet，该方法采用大的编码层和小的解码层，虽然精度上有一定的损失，但速度却提升了很多。在精度和速度之间有了一个权衡，实现了初步的实时语义分割网络。

上述这些方法要么无法达到实时语义分割的效果，要么需要在体积较大且昂贵的服务器上才能达到实时效果。目前最好的实时语义分割网络应该为ENet，但在速度和精度上还有提升空间。

发明内容

为了解决上述技术问题，本发明提供一种基于深度学习的无人车室外场景实时分割方法，以提高语义分割的效率，提升整个室外场景识别的性能。

本发明提供一种基于深度学习的无人车室外场景实时分割方法，包括如下步骤：

步骤1：采集室外场景图像，按8:1:1的比例分为训练集、验证集和测试集，并对图像进行预处理；

步骤2：建立卷积神经网络，以对室外场景图像进行分割；

步骤3：将训练集图像输入到卷积神经网络中，对卷积神经网络进行训练，并通过验证集对网络参数进行调节；

步骤4：将测试集输入到训练好的网络中，实现对图像的分割。

在本发明的基于深度学习的无人车室外场景实时分割方法中，所述步骤1具体包括：

步骤1.1：采集7种类别的室外场景图像，包括：路、树、建筑、汽车、公交车、行人和人行道；

步骤1.2：按8:1:1的比例将图像分为训练集、验证集和测试集；

步骤1.3：对采集到的图像进行像素级别的标注，并进行数据增强处理；

步骤1.4：将标注好的图像转化为深度学习框架标准数据格式；

步骤1.5：计算训练集中所有图片的RGB三通道的均值和不同类别图像的权重。

在本发明的基于深度学习的无人车室外场景实时分割方法中，所述步骤2中建立的卷积神经网络采用编码结构-解码结构；编码结构采用轻型网络结构，包括依次连接的一个卷积层和17个模块；第1、3、5、6、8、9、10、11、12、13、15、16、17个模块采用第一特征提取模块；第2、4、7、14个模块采用第二特征提取模块；

解码结构采用跳跃结构，包括3个反卷积层以实现上采样和2个卷积层以进行通道扩充，第一反卷积层和第二反卷积层用于实现2倍上采样，第三反卷积层用于实现8倍上采样。

在本发明的基于深度学习的无人车室外场景实时分割方法中，所述第一特征提取模块进行特征提取步骤为：

(1)接收经卷积操作后得到的特征图，特征图通过1×1的卷积层进行通道扩充，再经过一个ReLu激活函数和BN层，分别对特征图进行非线性激活和批次归一化；

(2)将上一步得到的特征图输入深度可分解卷积层，再经过一个ReLu激活函数和BN层；

(3)最后将上一步得到的特征图输入1×1的卷积层进行通道压缩，再经过一个线性激活函数和BN层。

(4)将上一步得到的特征图和输入的特征图进行相加后输出。

在本发明的基于深度学习的无人车室外场景实时分割方法中，所述第二特征提取模块进行特征提取步骤为：

(1)接收经上一模块卷积操作后得到特征图，特征图通过1×1的卷积层进行通道扩充，再经过一个ReLu激活函数和BN层，分别对特征图进行非线性激活和批次归一化；

(2)将批次归一化后的特征图输入深度可分解卷积层，再经过一个ReLu激活函数和BN层；

(3)最后将得到的特征图输入1×1的卷积层进行通道压缩，再经过一个线性激活函数和BN层，输出特征图。

在本发明的基于深度学习的无人车室外场景实时分割方法中，所述解码结构的解码操作包括：

(1)将由编码结构得到的最终的特征图通过第一反卷积层进行2倍的上采样，然后与编码部分产生的对应大小的特征图进行叠加，叠加前通过一个卷积层对编码部分的通道进行扩充；

(2)将叠加后的特征图通过第二反卷积层进行2倍的上采样，与编码部分产生的对应大小的特征图进行叠加，叠加前通过一个卷积层对编码部分的通道进行扩充；

(3)最后通过第三反卷积层进行8倍的上采样将特征图恢复到原图大小。

在本发明的基于深度学习的无人车室外场景实时分割方法中，所述深度可分解卷积层包括深度卷积层和逐点卷积层。

在本发明的基于深度学习的无人车室外场景实时分割方法中，所述步骤3具体包括：

步骤3.1：采用softmax分类器对卷积神经网络解码结构得到特征图的像素进行分类；

步骤3.2：将交叉熵损失函数与L2正则损失函数相加形成一个新的损失函数，用来度量输出的预测值和实际值之间的差别；

步骤3.3：用Adam优化算法来对新的损失函数进行优化，加快模型的收敛速度；

步骤3.4：训练集数据每经过十轮训练，就将验证集数据输入神经网络，通过验证集数据得到的结果对网络进行调参。

在本发明的基于深度学习的无人车室外场景实时分割方法中，所述步骤3.2中在计算交叉熵损失函数时为了避免不同类别之间的不平衡，引入了一个类别权重参数w_class，其计算公式为：

其中，c为给定的超参数，设定为1.02，将类别权重限制在1-50之间；p_class为原图片得到的各类图像的类别权重。

在本发明的基于深度学习的无人车室外场景实时分割方法中，所述步骤4具体为：

用测试集数据来测试训练好的神经网络的效果，在实际对摄像头采集的图像进行分割时将摄像头采集到的图像每五个为一组，平均分割结果，以减少测试时产生的抖动。

本发明的一种基于深度学习的无人车室外场景实时分割方法，能够在相对较低成本的基础上快速实现对室外场景的分割，同时能够较大程度上减少精度上的损失，有着较小模型存储空间，提高语义分割的效率，提升整个室外场景识别的性能。

附图说明

图1是本发明的一种基于深度学习的无人车室外场景实时分割方法的流程图；

图2是本发明中的卷积神经网的结构框图；

图3a是本发明的第一特征提取模块的结构图；

图3b是本发明的第二特征提取模块的结构图。

具体实施方式

如图1所示，本发明的一种基于深度学习的无人车室外场景实时分割方法，包括如下步骤：

步骤1：采集室外场景图像，按8:1:1的比例分为训练集、验证集和测试集，并对图像进行预处理，具体包括：

步骤1.1：使用室外相机采集7种类别的室外场景图像，包括：路、树、建筑、汽车、公交车、行人和人行道；

步骤1.3：利用图像标注软件对采集到的图像进行像素级别的标注，并进行数据增强处理；

步骤1.5：计算训练集中所有图片的RGB三通道的均值和不同类别图像的权重，为后续图像预处理和训练时做准备。

步骤2：建立卷积神经网络，以对室外场景图像进行分割；

具体实施时，建立的卷积神经网络采用编码结构-解码结构；编码结构采用轻型网络结构，参数量较少，存储时占用的空间相比于其他语义分割模型来说较小，模型占用的空间也较小，能够实现实时分割。经过对比三种不同的轻量级网络结构MobileNet、ShuffleNet、MobileNet-V2后，决定采用与MobileNet-V2结构相似的结构。

如图2所示，本发明的编码结构包括依次连接的一个卷积层和17个模块。这17个模块按步长1或步长2分为两种。其中，第1模块Conv2_1[1,1]、第3模块Conv3_2[1,1]、第5模块Conv4_2[1,1]、第6模块Conv4_3[1,1]、第8模块Conv5_2[1,1]、第9模块Conv5_3[1,1]、第10模块Conv5_4[1,1]、第11模块Conv6_1[1,1]、第12模块Conv6_2[1,1]、第13模块Conv6_3[1,1]、第15模块Conv7_2[1,1]、第16模块Conv7_3[1,1]、第17模块Conv8_1[1,1]模块采用步长为1的第一特征提取模块。

第2模块Conv3_1[2,2]、第4模块Conv4_1[2,2]、第7模块Conv5_1[2,2]、第14模块Conv7_1[2,2]采用步长为2的第二特征提取模块。

具体实施时，图3a为第一特征提取模块结构图，第一特征提取模块进行特征提取步骤为：

(4)将上一步得到的特征图和输入的特征图进行相加后输出。

具体实施时，图3b为第二特征提取模块结构图，所述第二特征提取模块进行特征提取步骤为：

在第一特征提取模块和第二特征提取模块中都采用了深度可分解卷积层，包括深度卷积(depthwise convolution)和逐点卷积(pointwise convolution)。假设输入特征图的大小为Df×Df×M，输出特征图的大小为Df×Df×N，卷积核的大小为Dk×Dk。传统卷积的计算量为Df×Df×M×N×Dk×Dk，而深度可分解卷积计算量为Df×Df×M×Dk×Dk+M×N×Df×Df。由此可以看出当卷积核大小为3×3时，深度可分解卷积的计算量可缩减为传统卷积的1/9左右。这是一种特殊的卷积层，比传统3×3卷积计算量少了1/9。

具体实施时，在第一特征提取模块和第二特征提取模块进行特征提取时，最后一个1×1的卷积层选择用线性激活函数不会破坏特征，因为层数不是很多的话，过分使用Relu会破坏特征，从而影响效果。

如图2所示，解码结构采用跳跃结构，包括3个反卷积层和2个卷积层1×1Conv以进行通道扩充。其中第一反卷积层和第二反卷积层用于实现2倍上采样，第三反卷积层用于实现8倍上采样。

具体实施时，解码结构的解码操作包括：

上述解码过程，将上采样得到的特征图与编码器部分对应的特征图相加，从而得到新的特征图，可以得到更好的分割效果，使得精度和速度之间有一个权衡。可以弥补由下采样所带来的图像细节信息丢失。使分割结果更加精确，同时又不至于损失大量的计算时间。

步骤3：对采集到的图像进行归一化处理，将训练集图像输入一个端对端的到卷积神经网络中，输入是三通道的图像矩阵，输出为单通道，数值代表每个像素点所属的类别；对卷积神经网络进行训练，并通过验证集对网络参数进行调节，所述步骤3具体包括：

步骤3.1：采用softmax分类器对卷积神经网络解码结构得到的与原图同样大小的特征图的像素进行分类；

具体实施时，在计算交叉熵损失函数时为了避免不同类别之间的不平衡，引入了一个类别权重参数w_class，将交叉熵损失函数与权重参数w_class相乘后在与L2正则损失函数相加。权重参数的计算公式为：

步骤3.3：用Adam优化算法来对新的损失函数进行优化，加快模型的收敛速度，方便训练；

具体实施时，训练集数据约3000组，共训练200轮epoch，并且编码部分使用了在ImageNet上训练的预训练模型。

步骤4：将测试集输入到训练好的网络中，实现对图像的分割，步骤4具体为：

本发明所述的基于深度学习的无人车室外场景实时分割方法有几个关键技术点：1)通过使用含深度可分解卷积的轻量级网络来进行特征提取，这样可以在不损失精度的情况下，减少参数量，增加计算速度。2)通过采用跳跃结构，来减小下采样造成细节信息丢失所带来的影响。进一步提高分割精度。3)损失函数部分采用L2正则损失和带有类权重的交叉熵损失的和，不但可以防止网络训练过拟合，还可以避免类间的不平衡。

本发明通过对语义分割网络进行重新的构建，引入轻量化的网络，在保证精度的情况下，尽可能提升网络速度，从而提升无人车室外环境感知系统的性能。

以上所述仅为本发明的较佳实施例，并不用以限制本发明的思想，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的无人车室外场景实时分割方法，其特征在于，包括如下步骤：

步骤2：建立卷积神经网络，以对室外场景图像进行分割；

2.如权利要求1所述的基于深度学习的无人车室外场景实时分割方法，其特征在于，所述步骤1具体包括：

3.如权利要求1所述的基于深度学习的无人车室外场景实时分割方法，其特征在于，所述步骤2中建立的卷积神经网络采用编码结构-解码结构；编码结构采用轻型网络结构，包括依次连接的一个卷积层和17个模块；第1、3、5、6、8、9、10、11、12、13、15、16、17个模块采用第一特征提取模块；第2、4、7、14个模块采用第二特征提取模块；

4.如权利要求3所述的基于深度学习的无人车室外场景实时分割方法，其特征在于，所述第一特征提取模块进行特征提取步骤为：

(4)将上一步得到的特征图和输入的特征图进行相加后输出。

5.如权利要求3所述的基于深度学习的无人车室外场景实时分割方法，其特征在于，所述第二特征提取模块进行特征提取步骤为：

6.如权利要求3所述的基于深度学习的无人车室外场景实时分割方法，其特征在于，所述解码结构的解码操作包括：

7.如权利要求4或5所述的基于深度学习的无人车室外场景实时分割方法，其特征在于，所述深度可分解卷积层包括深度卷积层和逐点卷积层。

8.如权利要求1所述的基于深度学习的无人车室外场景实时分割方法，其特征在于，所述步骤3具体包括：

9.如权利要求8所述的基于深度学习的无人车室外场景实时分割方法，其特征在于，所述步骤3.2中在计算交叉熵损失函数时为了避免不同类别之间的不平衡，引入了一个类别权重参数w_class，其计算公式为：

10.如权利要求1所述的基于深度学习的无人车室外场景实时分割方法，其特征在于，所述步骤4具体为：