CN111898439B

CN111898439B - 基于深度学习的交通场景联合目标检测和语义分割方法

Info

Publication number: CN111898439B
Application number: CN202010604812.2A
Authority: CN
Inventors: 南智雄; 彭极智; 米唯实; 徐林海; 辛景民; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2022-06-07
Anticipated expiration: 2040-06-29
Also published as: CN111898439A

Abstract

本发明提出了一种基于深度学习的交通场景联合目标检测和语义分割方法。该方法实现目标包括：构建基于深度学习的联合目标检测和语义分割网络，其通过将SE模块纳入Skip‑Connection机制中形成语义信息丰富的编码器‑解码器特征图，并设置了一种新的候选框初始化机制生成密集且多尺度的目标候选框，采用空洞卷积扩大感受野获取了全局信息，对分割分支采用Self‑Attention模块优化了语义分割的特征分布，并在语义分割和目标检测之间采用了Cross‑Attention模块优化了二者的性能，同时，目标检测和语义分割任务之间可以互惠互利，有效提高了交通场景中联合目标检测和语义分割结果的精度。仿真结果表明，相比现有方法，本发明对交通场景中的联合目标检测和语义分割精度均有较大提高。

Description

基于深度学习的交通场景联合目标检测和语义分割方法

技术领域

本发明属于计算机视觉领域，具体设计一种基于深度学习的交通场景联合目标检测和语义分割方法。

背景技术

目标检测和语义分割是计算机视觉中的两个重要任务，为自动驾驶和高级驾驶辅助系统等应用提供基础技术支持。早期，目标检测和语义分割被当做两个独立的问题进行研究，实际上二者是高度相关的，它们的工作可以互惠互利。语义分割能够为目标检测提供局部和全局的语义信息，而目标检测则提供先验知识来完善语义分割。另外，联合目标检测和语义分割模型可以通过共享相同的特征提取网络来节省计算消耗。因此，得益于深度学习技术的日益成熟，联合目标检测和语义分割技术逐渐成为当前的研究热点。

N.Dvornik等人在ICCV2017提出的BlitzNet是一个联合目标检测和语义分割的编码器-解码器网络，该网络用每个解码器层执行多尺度目标检测，并将每个解码器层进行融合来执行语义分割，该方法将目标检测和语义分割任务进行了简单的联合，没有充分挖掘目标检测和语义分割的联系；L.Chen等人在WACV2018提出的DspNet方法是一个轻量化的联合目标检测和语义分割网络，该网络的检测分支沿用W.Liu2016提出的SSD方法，分割分支则受到H.Zhao2017提出的PSPNet影响，该方法虽然速度较快，显存消耗较少，但其结构过于简单，对交通场景中小目标的检测和分割效果均不佳；J.Cao等人在CVPR2019提出的TripleNet也采用了编码器-解码器结构，并且采取了内部连接的模块来加强两个任务的相关性，该方法在检测和分割上效果较好，但模型的推理过程较为复杂，并且由于交通场景是高度动态化、复杂的场景，交通场景中的物体通常长宽比差别比较大，因此以上方法难以胜任交通场景中的联合目标检测和语义分割任务。

发明内容

本发明的目的是为克服上述已有技术的不足之处，提供了一种基于深度学习的交通场景联合目标检测和语义分割方法，用以提高现有技术的目标检测和语义分割的精度，提高交通场景中车辆对周围环境的感知能力。

为达到上述目的，本发明采用如下技术方案来实现的：

基于深度学习的交通场景联合目标检测和语义分割方法，包括以下步骤：

步骤一，构建联合目标检测和语义分割神经网络Q；联合目标检测和语义分割神经网络Q由三部分组成，分别是编码器-解码器图像特征提取网络，语义分割网络和目标检测网络，所述编码器-解码器图像特征提取网络连接目标检测网络和语义分割网络；

步骤二，根据交通场景特点，设置用于目标检测的多尺度目标候选框A；令S_k为每一层解码器特征图所对应的基本比例，m为解码器特征图的数量，k为特征图的索引，定义S_k为：

其中S_smallest，S_min，S_max是自定义参数，定义S_smallest＝0.04，S_min＝0.1，S_max＝0.95，m＝7；

在解码器网络的前五层特征图的每一个锚点，设置了7个不同尺度的候选框，其宽高比分别为

在解码器网络的后两层特征图的每一个定位点，设置了5个不同尺度的候选框，其宽高比分别为

针对所有的解码器特征图，在宽高比为1的候选框上额外增加一个新的候选框，其基本比例为

每一个目标候选框的计算方式如下：

其中w是候选框的宽度，h是候选框的高度，则根据上述方法对不同的解码器特征图生成不同尺度的密集的目标候选框A；

步骤三，设置训练联合目标检测和语义分割网络所需的损失函数Loss；损失函数Loss设置为：

Loss＝ω_dL_det+ω_sL_seg

其中ω_d和ω_s分别为目标检测和语义分割所占比参数，将其设置为ω_d＝1，ω_s＝2；L_det目为标检测的损失，L_det的定义如下：

其中N为目标候选框的正样本数量，c为分类的置信度预测值，l目标候选框所对应的边界框的预测值，g为标签的位置参数，权重系数

设置为1，L_cls为分类的损失，L_reg为回归的损失；

L_seg为语义分割的损失，L_seg的定义如下：

L_seg＝L_{infer_fm}+L_Aux

其中L_{infer_fm}为推理特征图I与标签的交叉熵，L_Aux为特征图Aux双线性上采样到标签尺寸后与标签的交叉熵；其计算方法类似，以L_{infer_fm}为例，其计算公式为：

其中N为语义分割类别数，即N_s+1为额外的一个为背景类，p(x)和q(x)分别表示训练集中第x点的标签和预测结果；

步骤四，对联合目标检测和语义分割网络进行监督训练；

步骤五，利用步骤四训练完毕的联合目标检测和语义分割网络进行目标检测和语义分割，输出结果。

本发明进一步的改进在于，所述步骤四中，设监督训练的轮次为K，模型评估的频次为K₁，模型训练的学习率为L；将训练集输入联合目标检测和语义分割网络，通过损失函数Loss进行监督训练，并每隔K₁轮通过验证集对该轮模型的精度进行评估，之后将精度最高的联合目标检测和语义分割网络作为训练好的联合目标检测和语义分割网络Q^*并且保存权重参数。

本发明进一步的改进在于，所述步骤五中，令t时刻采集的RGB图像为I_t，将图像通过图像缩放技术调成尺寸为3×H×W，并将其作为神经网络Q^*的输入，则目标检测网络将得到待检测物体的包围框b_t和对应类别c，若b_t中待检测物体的置信度高于识别阈值ψ，则物体成功检测并被分配类别，最后将检测得到的包围框运行NMS算法，将重叠值大于阈值

的多余包围框过滤，得到最后的目标检测结果，语义分割网络将得到输入图片的每一个像素点的分类类别，并将其双线性上采样到I_t的尺寸得到最后的语义分割结果。

与现有技术相比，本发明至少具有以下的优点：

本发明构建的基于深度学习的联合目标检测和语义分割网络，其通过将SE模块纳入Skip-Connection机制中形成语义信息丰富的编码器-解码器特征图，并设置了一种新的候选框初始化机制生成密集且多尺度的目标候选框，这对提高交通场景中目标检测的精度非常重要，采用空洞卷积扩大感受野获取了全局信息，对分割分支采用Self-Attention模块优化了语义分割的特征分布，并在语义分割和目标检测之间采用了Cross-Attention模块使细粒度的语义分割任务能在一定程度上引导目标检测任务中特征的分布，提高了二者的性能，同时，目标检测和语义分割任务之间可以互惠互利，有效提高了交通场景中联合目标检测和语义分割结果的精度。仿真结果表明，本发明有效提高了交通场景中联合目标检测和语义分割方法的精度。

附图说明

图1为本发明方法的整体流程图；

图2为本发明实施例采用的基于深度学习的交通场景联合目标检测和语义分割神经网络的整体结构图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明提供的基于深度学习的交通场景联合目标检测和语义分割方法，包括以下步骤：

1.构建联合目标检测和语义分割神经网络Q；

构建联合目标检测和语义分割神经网络Q，其结构如图2所示，该联合目标检测和语义分割神经网络Q结构包括：编码器-解码器图像特征提取网络，目标检测网络和语义分割网络，所述编码器-解码器图像特征提取网络连接目标检测网络和语义分割网络，其中，图2中部结构代表编码器-解码器图像特征提取网络，下部结构代表语义分割网络，上部结构代表目标检测网络，上述各部分网络结构和功能说明如下：

所述编码器-解码器图像特征提取网络，由编码器网络与解码器网络组成。其中，编码器网络的构建方式如下：采用残差神经网络ResNet50的后四个Block生成的四个特征图，分别记为E1，E2，E3，E4；另外，在ResNet50后增加额外的三个残差层，其会生成三个特征图，分别记为E5，E6，E7，从特征图E1到特征图E7的特征图尺寸是逐层减半的。本实施例中，记t时刻采集的RGB图像为I_t，利用图像缩放技术，将图像尺寸调整为3×300×300，其中，3为RGB色彩通道，300为高度H，300为宽度W，输入编码器网络，编码器网络输出t时刻对应的特征图E7，大小为2048×2×2的矩阵。解码器网络的构建方式如下：通过采用Skip-Connection网络逐层映射编码器网络特征图来生成对应的解码器网络特征图，所述Skip-Connection网络，包括依次层叠的上采样层，卷积层和SE模块。J.Hu等人在CVPR2018提出的SE模块能够获取每个特征通道的重要性，并提升有用特征的权重。例如，采用E7和E6生成D6，首先将E7双线性上采样到E6的尺寸，然后将其与E6进行级联，并将级联后的特征通过包括SE模块在内的一系列层叠的卷积层得到D6。通过如上所述的方法，可以通过Skip-Connection网络逐层映射编码器网络特征图生成对应的包含丰富语义信息的解码器网络特征图，依次记为D6，D5，D4，D3，D2，Aux，对D6使用全局平均池化得到D7。为了进一步提升语义特征的丰富性，对Aux特征图通过AC模块，生成最后一层解码器特征图D1。所述AC模块由五层并行分支组成：一层1×1的卷积层，三层并行的膨胀卷积，其膨胀率分别为3、7、11，一层全局平均池化层，将五层并行分支的输出进行级联，用1×1的卷积去降低维度得到输出。从特征图D7到特征图D1的特征图尺寸是逐层增倍的。解码器网络的输入为t时刻编码器网络的输出特征图E7，输出为t时刻对应的特征图D1，大小为256×75×75的矩阵，即解码器特征图的尺寸分别为D7：256×1×1、D6：256×3×3、D5：256×5×5、D4：256×10×10、D3：256×19×19、D2：256×38×38、D1：256×75×75；

所述语义分割网络的构建方式如下：令要分割的种类数量为N_s＝18，对解码器网络产生的前5的特征图D7～D2进行1×1的卷积，将其通道数降至64。将降维后的D7、D6、D5、D4、D3、D2与Aux、D1分别通过Self-Attention模块，再分别将其上采样并级联，得到推理特征图I，其大小为896×75×75。所述Self-Attention模块的构建方式如下：输入特征图P经过Softmax函数进行特征在时空上的重新分配得到注意力图P1，将注意力图P1与输入特征图P进行矩阵点乘得到注意力特征P2，将注意力特征P2与输入特征图P1进行矩阵相加得到P3，再将P3进行上采样得到输出P4。将推理特征图I经过依次层叠的第一层卷积层，dropout层和第二层卷积层，其中第二层卷积层输出特征通道数设置为N_s+1(额外的一个为背景类)。本实施例中所采用的BDD数据集中语义分割分为18类，即N_s＝18，推理特征图I通过的第一层卷积层通道数设置为512，第二层卷积层输出特征通道数设置为19。

所述目标检测网络的构建方式如下：将用于语义分割的推理特征图I分别进行平均池化，得到与D1～D7相匹配的7个特征。将这7个特征与对应的解码器特征图D1～D7分别通过Cross-Attention模块，得到用于目标检测的7个特征图。所述Cross-Attention模块的构建方式如下：将输入推理特征图I进行平均池化得到I1，将I1和解码器特征图De分别通过全连接网络FC，得到I2和De1，将I2和De1进行矩阵点乘并通过Softmax进行特征在时空上的重新分配，这个特征图将与输入解码其特征图De经过一系列矩阵点乘和矩阵相加的操作，最终得到用于目标检测的特征图。令要检测的目标类别数量为N_d，则对用于目标检测的7个特征图分别用两个3×3的卷积核进行卷积，分别得到对应的分类和回归结果，其中分类结果数N_d+1(额外的一个为背景类)，回归结果为{x_t,y_t,w_t,h_t}，其中x_t,y_t,为t时刻待检测物体包围框的中心点的横、纵坐标，w_t,h_t为t时刻包围框的宽度，最后进行NMS算法(非极大值抑制算法)将重叠值大于阈值

的多余包围框过滤，得到最后的预测框，本实施例中所采用的BDD数据集中目标检测分为8类，即N_d＝8，NMS(非极大值抑制算法)抑制重叠框的阈值

设为0.45；

2.根据交通场景特点，设置用于目标检测的多尺度目标候选框A；

其中A的设置方法如下：令S_k为每一层解码器特征图所对应的基本比例，m为解码器特征图的数量，k为特征图的索引，定义S_k为：

其中S_smallest，S_min，S_max是自定义参数，定义S_smallest＝0.04，S_min＝0.1，S_max＝0.95，m＝7。

在解码器网络的前五层特征图(即D7，D6，D5，D4，D3)的每一个定位点，设置了7个不同尺度的候选框，其宽高比分别为

在解码器网络的后两层特征图(即D2，D1)的每一个定位点，设置了5个不同尺度的候选框，其宽高比分别为

每一个目标候选框的计算方式如下：

其中w是候选框的宽度，h是候选框的高度。

在本实施例中，针对3×300×300的输入图像，将产生的多尺度候选框数量为：75×75×6+38×38×6+19×19×8+19×19×8+10×10×8+5×5×8+3×3×8+1×1×8＝46382，解码器网络特征图对应各基本比例依次为：S₁＝0.04、S₂＝0.1、S₃＝0.27、S₄＝0.44、S₅＝0.61、S₆＝0.78、S₇＝0.95。对于解码器网络各特征图的每个定位点，其目标候选框的宽高分别为：

D1:{12×12,19×19,17×8,8×17,21×7,7×21}、

D2:{30×30,49×49,42×21,21×42,52×17,17×52}、

D3:{81×81,103×103,115×57,57×115,140×47,47×140,162×41,41×162}、

D4:{132×132,155×155,187×93,93×187,229×76,76×229,264×66,66×264}、

D5:{183×183,207×207,259×129,129×259,317×106,106×317,366×92,92×366}、

D6:{234×234,258×258,331×165,165×331,405×135,135×405,468×117,117×468}、

D7:{195×195,309×309,403×202,202×403,494×165,165×494,570×143,143×570}。

则根据上述方法可以对不同的解码器特征图生成不同尺度的密集的目标候选框A，有利于检测不同尺度的物体。

3.设置训练联合目标检测和语义分割网络所需的损失函数Loss：

Loss＝ω_dL_det+ω_sL_seg (3)

其中ω_d和ω_s分别为目标检测和语义分割所占比参数，将其设置为ω_d＝1，ω_s＝2。L_det为目标检测的损失，L_det的定义如下：

设置为1，L_cls为分类的损失，L_reg为回归的损失。

L_seg为语义分割的损失，L_seg的定义如下：

L_seg＝L_{infer_fm}+L_Aux (5)

其中L_{infer_fm}为推理特征图I与标签的交叉熵，L_Aux为特征图Aux双线性上采样到标签尺寸后与标签的交叉熵。其计算方法类似，以L_{infer_fm}为例，其计算公式为：

其中N语义分割类别数，即N_s+1(额外的一个为背景类)，本实施例中为19，p(x)和q(x)分别表示训练集中第x点的标签和预测结果。

4.对联合目标检测和语义分割网络进行监督训练；

设监督训练的轮次为K，模型评估的频次为K₁，模型训练的学习率为L，本实施例中参数K设置为320，K₁设置为10，L设置为0.001，且在K为80/160/240时分别降低为原来的一半；

将训练集输入联合目标检测和语义分割网络，通过损失函数Loss进行监督训练，并每隔10轮通过验证集对该轮模型的精度进行评估，之后将精度最高的联合目标检测和语义分割网络作为训练好的联合目标检测和语义分割网络Q^*并且保存权重参数。

5.对训练完毕的联合目标检测和语义分割网络Q^*进行目标检测和语义分割，输出结果；

在本实施例中，t时刻采集的RGB图像为I_t，将图像通过图像缩放技术调成尺寸为3×300×300，并将其作为神经网络Q^*的输入，则目标检测网络将得到待检测物体的包围框b_t和对应类别c，若b_t中待检测物体的置信度高于识别阈值0.5，则物体成功检测并被分配类别，最后将检测得到的包围框运行NMS(非极大值抑制)算法，将重叠值大于阈值0.45的多余包围框过滤，得到最后的目标检测结果，语义分割网络将得到输入图片的每一个像素点的分类类别，并将其双线性上采样到I_t的尺寸得到最后的语义分割结果。

以下结合仿真实验，对本发明的技术效果作说明：

1.仿真条件和内容：

本发明在Berkeley DeepDrive数据集上进行了仿真实验：

BDD数据集是一个从真实世界中采集的庞大的自动驾驶数据集，其包含了多种路面状况，天气情况，时间情况等等，这些特点有利于创建鲁棒的感知算法。BDD数据集对于目标检测提供了100k张图像，对于语义分割提供了10k张图像。对检测数据集和分割数据集求得交集(2964张图像)，则BDD-交集数据集同时具有两个任务的注释。通过随机采样的方法将数据集分为训练集(2500张图像)和测试集(464张图像)。每个类别的实例数目如下表：

表1 数据集中每个类别的实例数

通过对采样出数据集实例数目的分析，类别“train”的分布过于稀疏，因此在实际实验的时候将忽略该类。对于目标检测来说，类别共有7类；对于语义分割来说，采用其中19类进行语义分割。

利用本发明和现有的BlitzNet、DspNet、PairNet、TripleNet算法在BDD-交集数据集上进行了联合目标检测和语义分割的实验仿真，所有代码均采用python3.6.9开发平台，pytorch深度学习框架。所有实验运行在单个NVIDIA Geforce RTX 2080Ti GPU上。在实验中，均采用SGD作为网络优化器，单批次图像数量为5，且所有图像均被缩放至300×300。

2.本发明提出的方法与三种现有的联合目标检测和语义分割方法进行了对比，仿真结果分析如下：

表2 联合目标检测和语义分割方法性能对比

表2中，mAP为通用的目标检测评价指标，mIoU为通用的语义分割评价指标。从表2中可知，本发明在BDD-交集数据集上相对于现有技术，在目标检测和语义分割上精度均有提升，达到了交通场景联合目标检测和语义分割领域的最高精度。

本发明在交通场景中联合目标检测和语义分割的精度相比现有方法均有较大精度提升，本发明提出的网络将SE模块纳入Skip-Connection机制中形成语义信息丰富的编码器-解码器特征图。交通场景是复杂且高动态的，其目标长宽比差别通常较大，例如：火车长宽比通常较大，而行人长宽比通常较小，因此设置了一种新的候选框初始化机制生成密集且多尺度的目标候选框，这对提高交通场景中目标检测的精度非常重要。采用空洞卷积扩大感受野获取了全局信息，对分割分支采用Self-Attention模块优化了语义分割的特征分布，并在语义分割和目标检测之间采用了Cross-Attention模块使细粒度的语义分割任务能在一定程度上引导目标检测任务中特征的分布，同时，将目标检测和语义分割任务之间互惠互利，有效提高了交通场景中联合目标检测和语义分割结果的精度。仿真结果表明，本发明有效提高了交通场景中联合目标检测和语义分割方法的精度。

Claims

1.基于深度学习的交通场景联合目标检测和语义分割方法，其特征在于，包括以下步骤：

每一个目标候选框的计算方式如下：

Loss＝ω_dL_det+ω_sL_seg

其中ω_d和ω_s分别为目标检测和语义分割所占比参数，将其设置为ω_d＝1，ω_s＝2；L_det为目标检测的损失，L_det的定义如下：

设置为1，L_cls为分类的损失，L_reg为回归的损失；

L_seg为语义分割的损失，L_seg的定义如下：

L_seg＝L_{infer_fm}+L_Aux

其中L_{infer_fm}为推理特征图I与标签的交叉熵，L_Aux为特征图Aux双线性上采样到标签尺寸后与标签的交叉熵；L_{infer_fm}的计算公式为：

其中N为语义分割类别数，p(x)和q(x)分别表示训练集中第x点的标签和预测结果；

步骤四，对联合目标检测和语义分割网络进行监督训练；

2.根据权利要求1所述的基于深度学习的交通场景联合目标检测和语义分割方法，其特征在于，所述步骤四中，设监督训练的轮次为K，模型评估的频次为K₁，模型训练的学习率为L；将训练集输入联合目标检测和语义分割网络，通过损失函数Loss进行监督训练，并每隔K₁轮通过验证集对该轮模型的精度进行评估，之后将精度最高的联合目标检测和语义分割网络作为训练好的联合目标检测和语义分割网络Q^*并且保存权重参数。

3.根据权利要求1所述的基于深度学习的交通场景联合目标检测和语义分割方法，其特征在于，所述步骤五中，令t时刻采集的RGB图像为I_t，将图像通过图像缩放技术调成尺寸为3×H×W，并将其作为神经网络Q^*的输入，则目标检测网络将得到待检测物体的包围框b_t和对应类别c，若b_t中待检测物体的置信度高于识别阈值ψ，则物体成功检测并被分配类别，最后将检测得到的包围框运行NMS算法，将重叠值大于阈值