CN110941995A

CN110941995A - 基于轻量级网络的实时目标检测与语义分割的多任务学习方法

Info

Publication number: CN110941995A
Application number: CN201911060977.1A
Authority: CN
Inventors: 侯舟帆; 陈龙; 张亚琛
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-03-31

Abstract

本发明涉及一种基于轻量级网络的实时目标检测与语义分割的多任务学习方法。包括特征提取模块、语义分割模块、目标检测模块以及多尺度感受野模块；特征提取模块选择轻量级卷积神经网络MobileNet，通过MobileNet网络提取特征，送入语义分割模块去完成道路可行驶区域与可选择行驶区域的分割问题，同时将特征送入目标检测模块去完成道路场景下出现的物体检测；通过多尺度感受野模块增加特征图的感受域，用不同尺度的卷积解决多尺度难题，最终损失函数通过语义分割模块的损失函数与目标检测模块的损失函数进行加权求和，对总模块进行优化。本发明提供的方法相比现有技术做到了更快速，更准确地完成道路物体检测以及道路行驶区域分割这两种常见的无人驾驶感知任务。

Description

基于轻量级网络的实时目标检测与语义分割的多任务学习方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于轻量级网络的实时目标检测与语义分割的多任务学习方法。

背景技术

计算机视觉在自动驾驶中越来越流行，这主要是由于基于神经网络的深度学习技术的兴起。越来越多的公共数据集和发达的硬件资源的出现促进了相关的研究成果，并进一步推动了计算机视觉技术的发展。自动驾驶汽车中使用了许多计算机视觉任务，例如目标检测和道路分割，这对于感知驾驶环境至关重要。当前的趋势是持续提高这些任务的准确性，同时将推理时间保持在尽可能短的时间内。仅仅满足模型感知的准确性，没有一个快的模型预测速度，会给无人驾驶车辆决策带来极大的危险，遇到突发事故时无法及时决策处理，所以需要让模型有快速的预测速度，保证车辆有足够的时间来做出决策。此外，自动驾驶汽车的硬件资源受到限制，充分利用这些硬件资源也是一项重要任务。而且道路场景下的物体存在尺度大小差异过大的问题，常规模型无法准确完成同时对大物体与小物体的感知问题，如此会爆发出很多潜在问题。

发明内容

本发明为克服上述现有技术中的缺陷，提供一种基于轻量级网络的实时目标检测与语义分割的多任务学习方法，更快速、更准确地完成道路物体检测以及道路行驶区域分割这两种常见的无人驾驶感知任务。

为解决上述技术问题，本发明采用的技术方案是：一种基于轻量级网络的实时目标检测与语义分割的多任务学习方法，包括特征提取模块、语义分割模块、目标检测模块以及多尺度感受野模块；所述的特征提取模块选择轻量级卷积神经网络MobileNet，通过MobileNet网络提取特征，送入上层的语义分割模块去完成道路可行驶区域与可选择行驶区域的分割问题，同时将特征送入下层的目标检测模块去完成道路场景下出现的物体检测；通过多尺度感受野模块增加特征图的感受域，用不同尺度的卷积解决多尺度难题，最终损失函数通过语义分割模块的损失函数与目标检测模块的损失函数进行加权求和，对总模块进行优化。

进一步的，所述的特征提取模块通过轻量级卷积神经网络MobileNet对RGB图像进行特征提取；MobileNet采用深度可分离卷积代替常规卷积来减小模型参数量。MobileNet网络拥有更小的体积，更少的计算量，更高的精度，在轻量级神经网络中拥有极大的优势。MobileNet在提取特征的过程中，越往后得到的特征图尺寸越小，感受野越大，语义信息更加丰富。MobileNet采用深度可分离卷积代替常规卷积来减小模型参数量，从而缩短模型预测时间，对硬件资源要求变低。

进一步的，以SSD检测算法作为检测基线模型，在目标检测模块中加入多尺度感受野模块；所述的多尺度感受野模块由不同比例的空洞卷积组成，这些不同尺度的空洞卷积在不改变尺度大小的情况下去增加多尺度的感受野来解决多尺度问题。SSD是一个典型的单阶段检测器，引入不同阶段的特征图对物体检测画框，能够有效缓解物体检测中多尺度的问题，除此之外，在目标检测模块中加入多尺度感受野模块，多尺度感受野模块由不同比例的空洞卷积组成，这些不同尺度的空洞卷积在不改变尺度大小的情况下去增加多尺度的感受野来解决多尺度问题。分别用比率为5和7的空洞卷积去增加大尺度物体的感受野，用比率为3的空洞卷积增加小物体的感受野，同时采用不同大小的卷积层最后合并在一起，很好地解决了道路场景下普遍存在的多尺度问题。

进一步的，骨干网络MobileNet提取的特征送入上层的语义分割模块完成道路可行驶区域和可选择行驶区域的分割，对前两层特征图采取合并操作，同样在语义分割模块中加入多尺度感受野模块，对第二层特征图采取不同比率的空洞卷积。骨干网络MobileNet提取的特征送入上层的语义分割模块完成道路可行驶区域和可选择行驶区域的分割，对前两层特征图采取合并操作，这样能够保证特征图尺度的情况下，增加语义信息。同样在语义分割模块中也加入了多尺度感受野模块，对第二层特征图采取不同比率的空洞卷积，分别选择比率为1，3，6的膨胀卷积去解决多尺度问题，最终特征图合并在一起后进行解码操作，完成对道路行驶区域的分割。

进一步的，所述的目标检测模块中加入的多尺度感受野模块，分别用比率为5和7的空洞卷积去增加大尺度物体的感受野，用比率为3的空洞卷积增加小物体的感受野，同时采用不同大小的卷积层最后合并在一起。

进一步的，所述的语义分割模块中加入的多尺度感受野模块，分别选择比率为1，3，6的膨胀卷积去解决多尺度问题，最终特征图合并在一起后进行解码操作，完成对道路行驶区域的分割。

进一步的，多任务学习的损失函数由各支路的损失函数加权求和得到，检测支路的损失函数为分类损失加上回归损失，Loss检测＝Loss分类+Loss回归；分割支路的损失函数为Loss分割＝weight[class]*CrossEntorpyLoss(x,class)；最终损失函数Loss总＝Loss检测+Loss分割；通过对这个总的loss进行优化，进行迭代训练，反向传播，最终完成Loss收敛，模型训练完成。加入weight[class]为了平衡可行驶区域与可选择行驶区域这两个标签的loss，通过实验发现weight[label＝可选择行驶区域]＝3时，能够得到最好的分割结果。

进一步的，模型的训练步骤包括：

S1.以Berkeley公开的数据集BDD100K为训练数据，道路对象检测任务的数据包含10个类别的2D边界框，可驾驶区域分割任务包含两个不同类别：“可直接驾驶”区域”和“其他可驾驶区域”；将数据按照8：1：1划分为相对应的训练数据，验证数据和测试数据；BDD100K是用于道路物体检测，实例分割，可行驶区域分割和车道标记检测的标注良好的数据集。

S2.过轻量级卷积神经网络MobileNet提取特征，对骨干网络MobileNet参数以及检测支路，分割支路的参数进行训练；

S3.模型训练每迭代十轮，就通过验证集进行一次验证，取验证集上效果最好的模型作为最终的模型；

S4.将最终模型在测试集上测试，测试效果和在验证集上的效果一致即可。

模型训练完成，测试没有问题后，即可进行模型压缩，将其布置在无人驾驶车辆上，此模型不压缩大小仅为34M，很好的节省了硬件资源。

与现有技术相比，有益效果是：

1.基于MobileNet的目标检测和语义分割联合训练的多任务学习方法，将提取后的特征统一送入检测支路和分割支路，使用单模型同时解决道路物体检测与道路可行驶区域的分割问题，相比两个模型分别解决单个问题，节省了模型大小，便于在硬件资源受限的无人驾驶车辆上部署；

2.道路环境物体感知时，物体检测相对耗时。本方法采用单阶段检测器，针对道路场景下物体尺度差异大的问题，选用SSD检测方法作为基准方法，做到了快速准确地进行道路物体检测；

3.进行目标检测与语义分割之前，都引入了多尺度感受野模块，由不同大小的卷积层和相对应不同比例的空洞卷积组成，进行多尺度的特征融合，很好地解决了多尺度问题，例如道路上行人和公交车这种尺度大小差别大的物体无法同时做到准确检测这种难题；

4.综上所述，本发明提供的方法相比现有技术做到了更快速，更准确地完成道路物体检测以及道路行驶区域分割这两种常见的无人驾驶感知任务。

附图说明

图1是本发明的方法流程示意图。

图2是本发明多尺度感受野模块示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

如图1和图2所示，一种基于轻量级网络的实时目标检测与语义分割的多任务学习方法，包括特征提取模块、语义分割模块、目标检测模块以及多尺度感受野模块；所述的特征提取模块选择轻量级卷积神经网络MobileNet，通过MobileNet网络提取特征，送入上层的语义分割模块去完成道路可行驶区域与可选择行驶区域的分割问题，同时将特征送入下层的目标检测模块去完成道路场景下出现的物体检测；通过多尺度感受野模块增加特征图的感受域，用不同尺度的卷积解决多尺度难题，最终损失函数通过语义分割模块的损失函数与目标检测模块的损失函数进行加权求和，对总模块进行优化。

具体的，所述的特征提取模块通过轻量级卷积神经网络MobileNet对RGB图像进行特征提取；MobileNet采用深度可分离卷积代替常规卷积来减小模型参数量。MobileNet网络拥有更小的体积，更少的计算量，更高的精度，在轻量级神经网络中拥有极大的优势。MobileNet在提取特征的过程中，越往后得到的特征图尺寸越小，感受野越大，语义信息更加丰富。MobileNet采用深度可分离卷积代替常规卷积来减小模型参数量，从而缩短模型预测时间，对硬件资源要求变低。

其中，以SSD检测算法作为检测基线模型，在目标检测模块中加入多尺度感受野模块；所述的多尺度感受野模块由不同比例的空洞卷积组成，这些不同尺度的空洞卷积在不改变尺度大小的情况下去增加多尺度的感受野来解决多尺度问题。SSD是一个典型的单阶段检测器，引入不同阶段的特征图对物体检测画框，能够有效缓解物体检测中多尺度的问题，除此之外，在目标检测模块中加入多尺度感受野模块，如图2所示，多尺度感受野模块由不同比例的空洞卷积组成，这些不同尺度的空洞卷积在不改变尺度大小的情况下去增加多尺度的感受野来解决多尺度问题。分别用比率为5和7的空洞卷积去增加大尺度物体的感受野，用比率为3的空洞卷积增加小物体的感受野，同时采用不同大小的卷积层最后合并在一起，很好地解决了道路场景下普遍存在的多尺度问题。

另外，骨干网络MobileNet提取的特征送入上层的语义分割模块完成道路可行驶区域和可选择行驶区域的分割，如图1所示，对前两层特征图采取合并操作，同样在语义分割模块中加入多尺度感受野模块，对第二层特征图采取不同比率的空洞卷积。骨干网络MobileNet提取的特征送入上层的语义分割模块完成道路可行驶区域和可选择行驶区域的分割，对前两层特征图采取合并操作，这样能够保证特征图尺度的情况下，增加语义信息。同样在语义分割模块中也加入了多尺度感受野模块，对第二层特征图采取不同比率的空洞卷积，分别选择比率为1，3，6的膨胀卷积去解决多尺度问题，最终特征图合并在一起后进行解码操作，完成对道路行驶区域的分割。

其中，多任务学习的损失函数由各支路的损失函数加权求和得到，检测支路的损失函数为分类损失加上回归损失，Loss检测＝Loss分类+Loss回归；分割支路的损失函数为Loss分割＝weight[class]*CrossEntorpyLoss(x,class)；最终损失函数Loss总＝Loss检测+Loss分割；通过对这个总的loss进行优化，进行迭代训练，反向传播，最终完成Loss收敛，模型训练完成。加入weight[class]为了平衡可行驶区域与可选择行驶区域这两个标签的loss，通过实验发现weight[label＝可选择行驶区域]＝3时，能够得到最好的分割结果。

在本实施例中，模型的训练步骤包括：

实施例1

在实施基于实时目标检测与语义分割的多任务学习方法的时候，首先要准备好训练数据，验证数据以及测试数据，然后进行模型训练以及测试，最终将其部署在无人驾驶车辆上。

1)训练数据，验证数据，测试数据的准备与处理；

步骤1.按照比例8：1：1划分BDD100K数据集，得到相对应的训练集，验证集以及测试集；

步骤2.统计训练集中各图片检测物体的尺度大小，方便后续进行验证；

步骤3.对训练数据进行数据增强，图片翻转，图片裁剪，亮度饱和度变化以及归一化处理，做到充分利用数据。

2)模型训练的详细过程：

步骤11.使用pytorch作为深度学习框架，在ImageNet1K上预先训练MobileNet，选取效果最好的MobileNet模型作为我们的预训练模型；

步骤2.训练设备选取4块Titan Xp作为实验GPU，每块显卡显存为12GB，GPU数量越多，batch_size会越来越大，训练后的模型效果会更好；

步骤3.模型训练参数主要是通过MobileNet骨干网络的迁移学习，对MobileNet参数微调，将检测支路和分割支路的参数按照高斯分布随机初始化，从参数随机初始化进行训练；

步骤4.使用SGD进行梯度下降，每张GPU的batch_size设置为28，权重衰减为0.0005，学习率为0.004进行30轮的训练；模型损失函数为检测损失函数与分割损失函数加权求和，多次实验结果验证将分割损失函数系数设置为3得到最好的模型结果；

步骤5.选取在验证集上结果最好的模型作为最终模型，如需压缩，继续进行模型压缩进一步降低硬件需求；

3)将处理后的模型部署在无人驾驶车辆上，进行道路场景的验证，通过调试观察模型在各个物体类别上检测与分割的指标，对指标差的物体类别进行进一步优化，调试好后即可通过摄像头完成对道路物体的检测以及前方道路可行驶区域与可选择行驶区域的分割.

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于轻量级网络的实时目标检测与语义分割的多任务学习方法，其特征在于，包括特征提取模块、语义分割模块、目标检测模块以及多尺度感受野模块；所述的特征提取模块选择轻量级卷积神经网络MobileNet，通过MobileNet网络提取特征，送入上层的语义分割模块去完成道路可行驶区域与可选择行驶区域的分割问题，同时将特征送入下层的目标检测模块去完成道路场景下出现的物体检测；通过多尺度感受野模块增加特征图的感受域，用不同尺度的卷积解决多尺度难题，最终损失函数通过语义分割模块的损失函数与目标检测模块的损失函数进行加权求和，对总模块进行优化。

2.根据权利要求1所述的基于轻量级网络的实时目标检测与语义分割的多任务学习方法，其特征在于，所述的特征提取模块通过轻量级卷积神经网络MobileNet对RGB图像进行特征提取；MobileNet采用深度可分离卷积代替常规卷积来减小模型参数量。

3.根据权利要求1所述的基于轻量级网络的实时目标检测与语义分割的多任务学习方法，其特征在于，以SSD检测算法作为检测基线模型，在目标检测模块中加入多尺度感受野模块；所述的多尺度感受野模块由不同比例的空洞卷积组成，这些不同尺度的空洞卷积在不改变尺度大小的情况下去增加多尺度的感受野来解决多尺度问题。

4.根据权利要求3所述的基于轻量级网络的实时目标检测与语义分割的多任务学习方法，其特征在于，骨干网络MobileNet提取的特征送入上层的语义分割模块完成道路可行驶区域和可选择行驶区域的分割，对前两层特征图采取合并操作，同样在语义分割模块中加入多尺度感受野模块，对第二层特征图采取不同比率的空洞卷积。

5.根据权利要求3所述的基于轻量级网络的实时目标检测与语义分割的多任务学习方法，其特征在于，所述的目标检测模块中加入的多尺度感受野模块，分别用比率为5和7的空洞卷积去增加大尺度物体的感受野，用比率为3的空洞卷积增加小物体的感受野，同时采用不同大小的卷积层最后合并在一起。

6.根据权利要求4所述的基于轻量级网络的实时目标检测与语义分割的多任务学习方法，其特征在于，所述的语义分割模块中加入的多尺度感受野模块，分别选择比率为1，3，6的膨胀卷积去解决多尺度问题，最终特征图合并在一起后进行解码操作，完成对道路行驶区域的分割。

7.根据权利要求2至6任一项所述的基于轻量级网络的实时目标检测与语义分割的多任务学习方法，其特征在于，多任务学习的损失函数由各支路的损失函数加权求和得到，检测支路的损失函数为分类损失加上回归损失，Loss_检测＝Loss_分类+Loss_回归；分割支路的损失函数为Loss_分割＝weight[class]*

CrossEntorpyLoss(x,class)；最终损失函数Loss_总＝Loss_检测+Loss_分割；通过对这个总的loss进行优化，进行迭代训练，反向传播，最终完成Loss收敛，模型训练完成。

8.根据权利要求7所述的基于轻量级网络的实时目标检测与语义分割的多任务学习方法，其特征在于，模型的训练步骤包括：

S1.以Berkeley公开的数据集BDD100K为训练数据，道路对象检测任务的数据包含10个类别的2D边界框，可驾驶区域分割任务包含两个不同类别：“可直接驾驶”区域”和“其他可驾驶区域”；将数据按照8：1：1划分为相对应的训练数据，验证数据和测试数据；