CN114463205A

CN114463205A - 一种基于双分支Unet噪声抑制的车辆目标分割方法

Info

Publication number: CN114463205A
Application number: CN202210066965.5A
Authority: CN
Inventors: 芮挺; 刘凡; 杨成松; 王君锋; 赵杰; 沈春梅; 刘恂; 唐建; 史建军; 郑楠; 杜子琰
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-10

Abstract

本发明公开了一种基于双分支UNet噪声抑制的车辆目标分割方法，首先收集车辆数据集，并对这些数据集进行整理；然后选取部分UNet网络作为主干网络，并在此基础上嵌入预测分支模块和噪声抑制分支模块，其中预测分支模块主要对获取的特征信息进行微调，并以此进行像素分类；噪声抑制分支模块主要通过损失函数抑制数据中的噪声干扰，以实现特征获取的精准性；最后，将获得的车辆数据集导入到模型中，然后将主干网络中提取到的图像特征信息传递到预测分支模块和噪声抑制分支模块，这两个分支模块分别使用二元交叉熵损失函数和非对称指数损失函数交替优化模型参数，以此提高模型对困难样本的判别能力，进而提升模型的整体性能。

Description

一种基于双分支Unet噪声抑制的车辆目标分割方法

技术领域

本发明涉及计算机视觉语义分割技术领域，一种多分支混合网络结构的车辆目标分割方法的技术领域。

背景技术

随着科学技术的发展，车辆检测在航拍无人机交通执法及智能交通系统等领域得到快速发展，无人机的飞行高度较高，导致采集的图像中车辆目标尺寸偏小，细节信息较为模糊，其次由于地面环境较为复杂、光照和成像角度变化大及地面车辆外观差异性较大，使得无人机拍摄的车辆图片干扰较多，这为车辆检测带来新的挑战，如何准确地分割背景及车辆区域对交通领域具有重要意义。

目前，车辆检测方法主要分为二类：传统方法和深度学习方法。文学志等人在一种基于低对比度图像的车辆测算法一文中利用Haar小波特征提取算法得到ROI的图像边缘及纹理特征,利用支持向量机对ROI进行车辆检测；吴珺文等人在应用小波变换和PCA进行车辆的静态图像检测方法一文中利用小波变换对车辆图片进行特征提取，通过主成分分析设定来设计分类器进行分类,完成车辆检测的任务；李映等人在基于道路辅助信息和显著性检测的红外图像车辆检测方法一文中使用高斯金字塔对源图像进行背景估计，再对源图像进行OTSU阈值分割；苏昂等人在航拍图像车辆检测中的圆形滤波器HOG特征快速计算一文中采用级联boosting分类器和基于圆形滤波器的梯度直方图特征提取方法检测车辆；郭磊等人在一种基于特征的车辆检测方法一文中提出了一种应用单目视觉进行车辆检测的方法，在图像预处理中采用自适应双阈值以满足不同光照条件下的使用要求；利用能量密度验证提高车辆垂向边界识别的准确性；吴忻生等人在基于最优阈值和随机标号法的多车辆分割一文中提出一种结合最优分割双阈值法和条件随机场模型等对车辆分割的算法。

周康明等人在语义分割模型的训练生成方法、车辆外观检测方法、装置一文中通过配置类别对应的权重调整各类别在模型训练任务中的重要性，提高车辆外观检测的准确性；张永飞等人在一种基于背景分割的车辆再识别方法一文中提出金字塔场景解析网络和分割后期处理模块训练特有的车辆语义分割模型，利用深度残差网络结合三元组损失函数，实现车辆的精准再识别；Lichao Mou等人在Vehicle Instance Segmentation FromAerial Image and Video Using a Multitask Learning Residual FullyConvolutional Network一文中针对大多数车辆语义分割方法在遥感图像中很难单独分离物体的问题，提出了一种语义边界感知统一多任务学习FCN，用于车辆实例分割；ZHANG Le等人在Research on Vehicle Segmentation Based on Complex Scenes of FullConvolutional Neural Network一文中针对现有复杂交通场景下车辆分割精度不够的问题，提出了一种全卷积神经网络来对图像中车辆进行分割；D Wu等人在Vehicle Detectionin High-Resolution Images Using Superpixel Segmentation and CNN IterationStratey一文中针对随机选择样本导致检测性能不稳定的问题，提出了一种基于卷积神经网络的训练样本迭代选择策略，从特定的样本中提取具有较高车辆和背景区分能力的代表性特征及进行检测；郝立颖等人在一种基于联合角点池化的复杂交通场景下车辆图像分割方法一文中针对现有技术在检测复杂交通场景下车辆时表现不佳的问题，提出了车辆分割分支和背景分割分支；王雪等人在区域卷积神经网络用于遥感影像车辆检测一文中针对大范围快速的车辆检测与计数，利用高分辨率卫星影像数据，提出了一种基于区域卷积神经网络的车辆检测算法；邓建华等人在一种基于卷积神经网络的车辆检测及着地点定位方法一文中采用了搭建针对车辆检测的神经网络，获取检测网络得到的检测框基于YOLOV3tiny改进的目标检测网络。

这些传统的方法虽然在一定程度上解决了车辆检测的问题，但是还存在计算量大、处理过程繁琐，在复杂环境下检测效率低且效果差等问题，深度学习技术被广泛应用在车辆检测领域。

发明内容

本发明所要解决的技术问题是：提供一种基于双分支Unet噪声抑制的车辆目标分割方法，在Unet网络的基础之上，嵌入了预测分支模块和噪声抑制分支模块，并引入了非对称指数损失函数，为车辆分割问题提供了一种高效的解决方案。

本发明为解决上述技术问题采用以下技术方案：

一种基于双分支Unet噪声抑制的车辆目标分割方法，包括如下步骤：

步骤S1，获取数据集，包括车辆场景的真实图片和与之对应的标签图片，并利用图像数据增强技术对数据集进行扩充；

步骤S2，构建主干网络模型；

步骤S3，构建预测分支模块的网络模型结构，该模块使用二值交叉熵损失函数；

步骤S4，构建噪声抑制分支模块的网络模型结构，为噪声抑制分支模块设计一种非对称指数损失函数；

步骤S5，将车辆数据的训练集导入主干网络，主干网络将提取的图像特征传递到预测分支模块和噪声抑制分支模块，预测分支模块利用二值交叉熵损失函数更新网络参数，噪声抑制分支模块通过非对称指数损失函数进一步优化网络参数，二个模块交替优化网络参数，直到训练结束，得到该数据集对应的模型参数；

步骤S6，加载保存的模型参数，将车辆数据的测试集导入到对应的模型中，从而得到对应的测试结果。

作为本发明的一种优选方案，步骤S1所述图像数据增强技术包括旋转、平移、投影变换、缩放、翻转和像素填充。

作为本发明的一种优选方案，步骤S2所述主干网络模型结构，主干网络模型包括收缩路径和扩张路径二个部分，其中，

收缩路径主要由卷积操作和池化操作组成，具体为：对于输入的图像，在第1层使用两次卷积操作，对第1层输出的特征图进行池化操作后进入第2层，在第2层使用两次卷积操作，对第2层输出的特征图进行池化操作后进入第3层，在第3层使用两次卷积操作，对第3层输出的特征图进行池化操作后进入第4层，在第4层使用两次卷积操作，对第4层输出的特征图进行池化操作后进入第5层，在第5层使用两次卷积操作；

扩张路径主要由反卷积、拼接及卷积操作组成，具体为：在第6层对第5层输出的特征图进行反卷积操作，将结果与第4层输出的特征图按通道拼接在一起，最后进行两次卷积操作进入第7层，在第7层对第6层输出的特征图进行反卷积，将反卷积结果与第3层输出的特征图按通道拼接在一起，最后进行两次卷积操作后进入第8层，在第8层对第7层输出的特征图进行反卷积，将反卷积的结果与第2层输出的特征图按通道拼接在一起，最后进行二次卷积操作进入第9层，在第9层对第8层输出的特征图进行反卷积，将反卷积的结果与第1层输出的特征图按通道拼接在一起，最后进行两次卷积操作，得到输出结果；

其中，在第1层至第9层使用的卷积操作，选取的卷积核大小均为3*3，步长均为1；池化选取的卷积核大小均为2*2，上采样使用的是反卷积操作，且反卷积选取的卷积核大小均为2*2，第1层至第9层采用的过滤器的个数依次为64、128、256、512、1024、512、256、128，64。

作为本发明的一种优选方案，步骤S3所述预测分支模块，具体结构为：主干网络输出的特征图输入到预测头模块，进行四次卷积操作，其中，第1次至第4次选取的卷积核大小均为3*3，采用的过滤器的个数依次为64,64,64,2，二值交叉熵损失函数，公式如下：

其中y_i是像素点i在groundtruth中的像素值，

是像素点i在预测结果中的像素值。

作为本发明的一种优选方案，步骤S4所述噪声抑制分支模块，具体结构为：主干网络输出的特征图输入到噪声抑制模块，进行2次卷积操作，选取的卷积核大小均为3*3，采用的过滤器个数分别为64和2。非对称指数损失函数，公式如下：

其中，α、β和γ是超参数，发现当α＝1，β＝1，γ＝0.07，实验结果最好。α和β控制错误预测的惩罚严重程度，而γ指定不对称程度，x是预测结果和groundtruth的差值，当x＞0时，groundtruth为背景类；当x≤0时，groundtruth为目标类。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明使用Unet网络作为主干结构，可以较好的对车辆进行识别并且能有效地改善少量样本对训练带来的不便。

2、本发明为噪声抑制分支模块设计一种新的非对称指数损失函数，有效地提高了模型对困难样本的识别能力，进而提高了模型的整体性能。

3、本发明使用具有二个损失函数的双分支结构，预测分支的作用是使预测结果不断向标签靠近，噪声抑制分支的作用是提高模型对具有噪声干扰样本的识别能力，并且二个分支结构交替优化网络参数，使得模型训练的结果更加的准确。

附图说明

图1是本发明基于双分支Unet噪声抑制的车辆目标分割方法的流程图。

图2是本发明基于双分支Unet噪声抑制的车辆目标分割方法中的非对称指数损失函数图像。

图3是本发明基于双分支Unet噪声抑制的车辆目标分割方法中的网络模型结构图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

由于地面环境较为复杂、光照和成像角度变化大及地面车辆外观差异性较大，车辆分割受到的干扰较多，我们收集整理了不同环境条件及视角的车辆数据集，并制作对应的标签图片，选取部分Unet作为主干网络，为了提高实验结果的准确性，在Unet网络之后加入预测分支模块和噪声抑制分支模块。同时，为了提高模型抑制干扰的能力，预测分支模块使用二值交叉熵损失函数，噪声抑制分支模块使用一种新的非对称指数损失函数提高模型对困难样本的识别能力，二个分支模块交替优化网络参数。基于这一想法，本发明提出一种基于双分支Unet噪声抑制的车辆目标分割方法。

如图1所示，一种基于双分支Unet噪声抑制的车辆目标分割方法，包括如下步骤：

步骤S2，构建主干网络模型；

步骤S4，构建噪声抑制分支模块的网络模型结构，为噪声抑制分支模块设计非对称指数损失函数；

步骤S5，将车辆数据的训练集分别导入主干网络，主干网络将提取的图像特征传递到预测分支模块和噪声抑制分支模块，预测分支模块利用二值交叉熵损失函数更新网络参数，噪声抑制分支模块通过非对称指数损失函数进一步优化网络参数，两个模块交替优化网络参数，直到训练结束，得到该数据集对应的模型参数；

步骤6，加载保存的模型参数，将车辆数据的测试集导入到对应的模型中，从而得到对应的测试结果。

如图2所示，步骤S1、收集数据集，包括各种环境及视角下的车辆图片和与之对应的ground truth标签图片；并通过旋转、平移、投影变换、缩放、翻转和像素填充等方式对数据集进行扩充，以增加其样本总数，提高Unet网络模型的准确率。

旋转是指可以把原图旋转不同的角度来增加样本；平移包括将图像沿X轴或Y轴或同时沿二个方向移动；投影变换就是让所有点的x坐标(或者y坐标)保持不变，而对应的y坐标(或者x坐标)则按比例发生平移，且平移的大小和该点到x轴(或者y轴)的垂直距离成正比；缩放就是按照一定的比例放大或者缩小图像，再对放大的图像进行裁剪，对缩小的图像边界内容进行假设保证缩放后的图片尺寸与原始图片相同；翻转是将图像进行水平或者垂直方向的翻转操作；像素填充是指当图像进行平移、缩放、投影等操作时，对图像中出现的一些缺失地方进行像素的补全，使之与原图像的尺寸保持不变。

步骤S2、选取部分Unet网络，构建主干网络模型，模型结构如图3所示，具体构建步骤如下：

(1)构建Unet模型；

Unet建立在FCNs的网络架构之上。Unet是一个U型的结构，由收缩路径和扩张路径组成，其中，收缩路径用于获取上下文信息，扩张路径用于精确的定位，且二条路径相互对称。此外，Unet采用拼接的方式融合深层特征与浅层的特征，将特征在通道维度拼接在一起，该网络没有使用全连接层。

(2)在收缩路径中，对于网络的每一层，先对图像进行两次卷积操作，每次卷积设置多个卷积核，每一层使用的卷积核个数不同，分别为64、128、256、512、1024。大小为3*3的卷积核按照步长为1沿着输入特征图的高和宽移动，输出特征图的通道数与卷积核的个数相同，输出的特征图尺寸使用以下公式进行计算：

其中，w_out为输出图片尺寸，w_in为输入图片的尺寸，k为卷积核的尺寸，t为填充的像素数，s为步长。

之后对特征图组进行池化操作，一般包括最大池化和平均池化二种类型，选取2*2的池化大小对特征图进行下采样，使得特征图的尺寸变成原来的一半，在收缩路径中会得到5个不同尺寸的特征图组。

随着网络层数的不断加深，能够提取到图像由浅至深的特征信息；

(3)在扩展路径中，有上采样、拼接及卷积操作。上采样的方式有很多，在Unet模型中，使用了反卷积进行上采样，其中反卷积的卷积核大小为2*2，反卷积之后的图像尺寸使用以下公式进行计算：

w_in＝(w_out-1)×s+k-2×t

因此，在上采样之后，图像的尺寸增大一倍，为了弥补收缩路径下采样过程中丢失的信息，Unet将上采样的特征图与收缩路径中通道数相同的特征图进行拼接，对收缩路径中丰富的特征信息进行利用，拼接后特征图的通道数增加，最后使用3*3的卷积核进行二次卷积操作，每层使用的卷积核个数分别是512、256、128、64，最终输出图像与原始输入图像的尺寸相同。

步骤S3、基于步骤S2中构建的主干网络模型，构建预测分支模块。该模块的作用主要是对图像中的样本进行分类，由4个相同的卷积层组成，卷积核的大小为3*3，步长为1，卷积核的个数为64，最后使用Sigmoid激活函数将输出值映射到(0,1)之间，为了使得到结果更加准确，采用损失函数对网络参数进行优化，图像中只有车辆及背景二类，属于二分类问题，使用二元交叉熵损失函数作为该模块的损失函数，其公式如下：

其中y_i是像素点i在groundtruth中的像素值，

是像素点i在预测结果中的像素值。

步骤S4、构建噪声抑制分支模块。该模块的主要作用是进行噪声抑制，提高模型对困难样本的识别能力。由二个相同的卷积层组成，卷积核的大小为3*3，步长为1，卷积核的个数为64，最后使用Sigmoid激活函数将输出值映射到(0,1)之间，为了实现同类样本间特征的聚合及不同类样本间特征的分离，提高模型对困难样本的判别能力，设计了一个新的损失函数即非对称指数损失函数来优化特征，其公式如下：

非对称指数损失函数示意图如图1所示，可以被划分为3部分。当-0.3＜x＜0.3，此时模型对样本的预测与groundtruth属于同一类，且两者之间的差异性较小。此时，样本属于简单样本，因此赋予该样本较小的损失函数值和梯度，使模型在训练时降低对它的关注，提高对困难样本的关注。当-0.5＜x＜-0.3和0.3＜x＜0.5，此时模型对样本的预测与groundtruth属于同一类，但两者之间的差异性较大。此时，样本属于较困难样本，因此赋予该样本稍大的损失函数值，同时增大它的梯度，使模型在训练时提高对该样本的关注，并使其向更精确的预测结果方向移动。当x＜-0.5和x＞0.5，此时模型对样本的预测与groundtruth属于不同的类，两者之间存在明显的差异性。此时，样本为困难样本，因此赋予该样本更大的损失函数值和梯度，使模型在训练中增强对其的关注，并使其以较大的梯度向正确的预测方向移动。通过该损失函数，可以优化模型提取的样本特征，实现车辆类与背景类特征的可分离性，从而有助于提高模型对困难样本的判别能力，提升模型性能。

步骤S5、基于步骤S1中扩充后的车辆数据集，进行模型训练和测试。设置训练过程中批次的数量、迭代的次数及每次迭代的次数，对数据进行训练，将主干网络的输出特征图作为二个分支模块的输入，二个分支模块通过自身的结构及损失函数优化循环优化网络参数，最终对模型参数进行保存。加载保存的模型参数，得到模型在测试集上的测试结果。

最后需要对模型进行评估，因此先计算出模型的准确率和召回率，准确率表示预测情况为正例并且真实情况也为正例的结果在预测结果为正例的占比，召回率表示预测情况为正例并且真实情况也为正例的结果在真实情况结果为正例的占比，这两个指标不能对检测的结果进行全面的评价，综合评价指标f_β公式如下：

其中，β²取值为0.3，使准确率的权重高于召回率；p为准确率，r为召回率。

本发明基于Unet噪声抑制的车辆目标分割方法，通过改进网络模型的结构及设计一种新的损失函数，利用二个损失函数交替优化网络参数，提高了模型对困难样本的识别能力，进一步提升了分割的准确程度。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于双分支Unet噪声抑制的车辆目标分割方法，其特征在于，包括如下步骤：

步骤S2，构建主干网络模型；

2.根据权利要求1所述基于双分支Unet噪声抑制的车辆目标分割方法，其特征在于，步骤S1所述图像数据增强技术包括旋转、平移、投影变换、缩放、翻转和像素填充。

3.根据权利要求1所述基于双分支Unet噪声抑制的车辆目标分割方法，其特征在于，步骤S2所述主干网络模型结构，主干网络模型包括收缩路径和扩张路径二个部分，其中，

收缩路径包括卷积和池化操作，具体为：对于输入的图像，在第1层使用两次卷积操作，对第1层输出的特征图进行池化操作后进入第2层，在第2层使用两次卷积操作，对第2层输出的特征图进行池化操作后进入第3层，在第3层使用两次卷积操作，对第3层输出的特征图进行池化操作后进入第4层，在第4层使用两次卷积操作，对第4层输出的特征图进行池化操作后进入第5层，在第5层使用两次卷积操作；

扩张路径包括反卷积、拼接与卷积操作，具体为：在第6层对第5层输出的特征图进行反卷积操作，将结果与第4层输出的特征图按通道拼接在一起，最后进行两次卷积操作进入第7层，在第7层对第6层输出的特征图进行反卷积，将反卷积结果与第3层输出的特征图按通道拼接在一起，最后进行两次卷积操作后进入第8层，在第8层对第7层输出的特征图进行反卷积，将反卷积的结果与第2层输出的特征图按通道拼接在一起，最后进行二次卷积操作进入第9层，在第9层对第8层输出的特征图进行反卷积，将反卷积的结果与第1层输出的特征图按通道拼接在一起，最后进行两次卷积操作后，得到输出结果；

4.根据权利要求1所述基于双分支Unet噪声抑制的车辆目标分割方法，其特征在于，步骤S3所述预测分支模块，具体结构为：主干网络输出的特征图输入到预测分支模块，进行四次卷积操作，其中，第1次至第4次选取的卷积核大小均为3*3，采用的过滤器的个数依次为64,64,64,2，二值交叉熵损失函数，公式如下：

其中y_i是像素点i在groundtruth中的像素值，

是像素点i在预测结果中的像素值。

5.根据权利要求1所述基于双分支Unet噪声抑制的车辆目标分割方法，其特征在于，步骤S4所述噪声抑制分支模块，具体结构为：主干网络输出的特征图输入到噪声抑制模块，进行2次卷积操作，选取的卷积核大小均为3*3，采用的过滤器个数分别为64和2；非对称指数损失函数，公式如下：

其中，α、β和γ是超参数，当α＝1，β＝1，γ＝0.07，实验结果最好；α和β控制错误预测的惩罚严重程度，而γ指定不对称程度，x是预测结果和groundtruth的差值，当x＞0时，groundtruth为背景类；当x≤0时，groundtruth为目标类。