CN112434586A

CN112434586A - 一种基于域自适应学习的多复杂场景目标检测方法

Info

Publication number: CN112434586A
Application number: CN202011278312.0A
Authority: CN
Inventors: 苏卓; 汤成熙; 周凡; 林格
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-03-02
Anticipated expiration: 2040-11-16
Also published as: CN112434586B

Abstract

本发明公开了一种基于域自适应学习的多复杂场景目标检测方法。首先收集得到通用目标检测图像集、降质场景图像集；之后利用通用目标检测图像集预训练目标检测网络YOLOv3，然后在此基础上嵌入域自适应模块，再利用通用目标检测图像集、降质场景图像集对其重新进行训练，得到最终的多复杂场景目标检测网络；输入待检测目标的图像即可计算出图像中物体的类别以及位置。本发明能够针对多种不同的降质场景进行目标检测，适用性广；能够在确保检测精度的前提下，实时对图像中的目标作出检测；采用了自适应学习的方法，降低了通用图像与多种不同降质场景图像的域间差异，使得目标检测能够同时在多种场景的图像上表现良好。

Description

一种基于域自适应学习的多复杂场景目标检测方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于域自适应学习的多复杂场景目标检测方法。

背景技术

视频监控、无人驾驶、无人机等新兴人工智能应用都基于户外场景。户外场景相比于室内场景更加复杂多变。在雨、雾、雪等恶劣天气、光照变化等典型的户外场景中，均会出现获取的图像能见度降低，模糊，对比度下降等图片质量下降的现象。这会给计算机视觉的图像分类、检测、分割等上游问题带来很大的挑战。

随着深度学习技术的兴起，基于神经网络结构的目标检测技术相比传统的图像处理方法得到了显著的提升。现有的目标检测方法根据是否进行区域推荐可以分为两大类：(1)two-stage的Faster R-CNN，先通过区域推荐网络生成前景物体的候选区域，再对这些区域进行分类预测，通常能够获得更高的检测性能；(2)One-stage的方法有yolo系列、Retina-Net等，不需要进行区域推荐，通过神经网络直接产生物体的分类预测和位置信息，通常具有更快的检测速度。

现有的目标检测方法的高检测性能，大部分建立在物体轮廓清晰、遮挡较少以及照明良好的通用图像数据集，例如PASCAL VOC数据集以及COCO数据集。如果将这些目标检测方法直接应用于实际，就会因为训练数据集与测试数据集分布差异较大，使得检测性能明显下降。

目前的现有技术之一，专利“面向复杂场景的车牌识别方法及装置”，利用YOLOv3检测网络对复杂场景的车牌进行识别。利用神经网络的高检测精度直接得到检测结果。在该方法的基础上，可以通过人工收集或者合成的方法，增加不同场景下的数据，丰富训练集，从而提高目标检测的精度。该方法的缺点是，当前各种恶劣场景下的数据集资料不够丰富，如果要对新的数据进行标注需要花费大量的时间和精力。如果通过合成的方法增加数据，可以在一定程度上提高目标检测的精度，但是合成的图像与真实的图像之间仍然面临分布不一致的问题。

目前的现有技术之二，Li等人在论文“Aod-net:All-in-one dehazing network”中的方法，首先通过图像复原的方法，将降质图像通过神经网络转化为清晰图像，之后再利用现有的目标检测方法对清晰图像进行目标检测。其步骤为：假设有雾图遵循大气光散射模型；输入有雾图到一个轻量级的神经网络AOD-Net中，估计大气光散射模型的参数；根据该参数结合模型求得清晰的无雾图；将无雾图输入到现有的Faster R-CNN网络中进行目标检测。该方法的缺点是将图像复原与目标检测看作两个不同的任务，而在图像复原的方法中使用的是图像质量相关的评价指标，没有对目标检测相关任务进行约束。这可能会导致图像复原的过程中，对目标检测有用的那部分信息丢失，甚至引入错误的信息，使得目标检测效果不增反减。

目前的现有技术之三，Chen等人在论文“Domain Adaptive Faster R-CNN forObject Detection in the Wild”中的方法，通过域自适应学习的方法，旨在解决目标检测中训练数据与真实场景不一致的问题。现有的通用数据集作为源域，现实复杂场景作为目标域，进行迁移学习。在Faster-RCNN的基础上，设计了特征图级别和实例级别的两个域自适应模块，通过域类别分类器和梯度反转层结合的方法，降低了源域和目标域在特征图级别和实例级别的差异。该方法的缺点是仅考虑了在单一场景下的域自适应学习问题，而没有考虑多场景下的目标检测问题。引起图像质量降低的场景有多种，不同场景下数据的分布不同，如果简单的将降质图像归为同一类，容易出现域偏移的现象。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于域自适应学习的多复杂场景目标检测方法。本发明解决的主要问题是，如何采用深度学习的方式，解决现有的通用目标检测方法，在面对如恶劣天气、光照变化等多种复杂多变的场景，检测精度明显下降的问题；如何通过域自适应学习的技术，减少训练数据与复杂场景之间的差异，提高目标检测网络的鲁棒性。

为了解决上述问题，本发明提出了一种基于域自适应学习的多复杂场景目标检测方法，所述方法包括：

收集通用目标检测图像数据，以及多种降质场景下的图像数据，并对数据进行预处理，得到通用目标检测图像集、降质场景图像集；

利用所述通用目标检测图像集预训练目标检测网络YOLOv3；

在所述预训练完成的目标检测网络YOLOv3的基础上嵌入域自适应模块，并利用所述通用目标检测图像集、所述降质场景图像集对嵌入了域自适应模块的目标检测网络重新进行训练，训练完成后，再把该域自适应模块进行拆除，得到最终的多复杂场景目标检测网络；

输入待检测目标的图像，通过所述多复杂场景目标检测网络计算得出图像中特定物体的类别以及位置信息。

优选地，所述通用目标检测图像数据，具体为：

通用目标检测图像数据包含良好环境下的图像数据以及对应的标注数据，即，在图像上，每一个可识别的物体为一个实例，每个实例对应的标注信息包括：该实例的类别，以及包围该实例的最小矩阵位置信息。

优选地，所述多种降质场景下的图像数据，具体为：

多种降质场景下的图像数据包含了雨、雾、低光三种不同场景的数据集，其只包含有图像数据，而不需要含有目标检测任务相关的位置信息标注。

优选地，所述嵌入域自适应模块，具体为：

在所述目标检测网络YOLOv3的基础上，在8倍下采样、16倍下采样和32倍下采样得到的特征图后面，分别串联增加域自适应模块，该域自适应模块的结构包括梯度反转层、卷积层、softmax操作和域分类器；

所述梯度反转层在网络训练正向传播过程中传递的是正值，而在反向传播的过程中传播的是负值，该层的作用是将域自适应模块的损失最大化；

所述卷积层和所述softmax操作将特征图映射到一个1*4的特征向量，表示该特征图属于某个域的类别概率。

优选地，所述利用所述通用目标检测图像集、所述降质场景图像集对嵌入了域自适应模块的目标检测网络重新进行训练，具体为：

按照不同场景对所述通用目标检测图像集、所述降质场景图像集的图像数据加上域标注，其中所述通用目标检测图像的域标注为0，所述降质场景图像中雨的域标注为1，雾的域标注为2，低光的域标注为3；

训练时，需要同时将所述通用目标检测图像集、所述降质场景图像集中的图像数据以及图像所包含的域标注输入到嵌入了域自适应模块的目标检测网络中，如果图像数据的域标注不为0，则只需要通过域自适应模块，计算域分类损失，并将损失的梯度回传，更新网络的参数；

如果数据的域标注为0，则不仅要通过域自适应模块，也要通过整个目标检测网络，同时计算域分类损失以及检测损失，并将损失的梯度回传，更新网络的参数。

本发明提出的一种基于域自适应学习的多复杂场景目标检测方法，能够同时针对多种不同的降质场景进行目标检测，适用性广；采用了YOLOv3检测模型作为检测的网络框架，能够在确保检测精度的前提下，实时对图像中的目标作出检测；采用了自适应学习的方法，降低了清晰图像与多种不同降质场景图像的域间差异，使得目标检测能够同时在清晰图像以及降质图像上表现良好。

附图说明

图1是本发明实施例的一种基于域自适应学习的多复杂场景目标检测方法的总体流程图；

图2是本发明实施例的目标检测网络与域自适应模块的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的一种基于域自适应学习的多复杂场景目标检测方法的总体流程图，如图1所示，该方法包括：

S1，收集通用目标检测图像数据，以及多种降质场景下的图像数据，并对数据进行预处理，得到通用目标检测图像集、降质场景图像集；

S2，利用所述通用目标检测图像集预训练目标检测网络YOLOv3；

S3，在所述预训练完成的目标检测网络YOLOv3的基础上嵌入域自适应模块，并利用所述通用目标检测图像集、所述降质场景图像集对嵌入了域自适应模块的目标检测网络重新进行训练，训练完成后，再把该域自适应模块进行拆除，得到最终的多复杂场景目标检测网络；

S4，输入待检测目标的图像，通过所述多复杂场景目标检测网络计算得出图像中特定物体的类别以及位置信息。

步骤S1，具体如下：

S1-1，准备通用目标检测图像数据，本实施例中采用COCO数据集，该数据集包含良好环境下的图像数据以及对应的标注数据，即，在图像上，每一个可识别的物体为一个实例，每个实例对应的标注信息包括：该实例的类别，以及包围该实例的最小矩阵位置信息。

S1-2，准备多种降质场景下的图像数据，包含了雨、雾、低光三种不同场景的数据集。这类数据只包含有图像数据，而不需要含有目标检测任务相关的位置信息标注。

S1-3，按照不同场景对通用目标检测图像集、降质场景图像集的图像数据加上域标注，其中通用目标检测图像的域标注为0，降质场景图像中雨的域标注为1，雾的域标注为2，低光的域标注为3，并将这些标注转换为one-hot编码表示。

S1-4，为了方便运算，将所有图片按照等比例缩放的方式处理成统一416*416的尺寸。

步骤S2，具体如下：

S2-1，利用S1-1中的带有检测标注的通用目标检测图像数据构建训练集，并将数据制作成bs×3×416×416大小的张量，其中“bs”表示每次训练时批量大小，可以根据实际使用时机器内存大小进行调整，在本方法中bs＝16；“3”表示彩色图片的三通道；“416×416”表示图像像素值。

S2-2，利用k-means聚类算法，对训练集中所有预测框进行聚类，得到9个不同大小的先验框，分别对应图像中不同大小的物体。

S2-3，本实施例中利用pytorch平台搭建目标检测网络：

该网络由若干卷积层、残差卷积层、下采样层、融合层、上采样层、映射层组成。网络中所有卷积操作后都进行一次批量标准化(Batch Normalization)以及leakly RELU(leakly Rectified Linear Unit)操作，并且默认设置步长为1，填充为1。其中，卷积层进行一次卷积操作，卷积核大小为3*3。残差卷积层由残差卷积模块叠加构成，每个残差卷积模块的输出为经过1*1和3*3的卷积后得到的结果加上该残差卷积模块的输入。下采样层没有采用常用的最大池化操作，而是通过将卷积的步长改为2的方式，将图像的宽和高减少一半，达到下采样的效果的同时，避免经过最大池化后丢失大量位置信息的缺点。上采样层通过双线性插值法将图像的宽和高增加一倍。融合层将不同尺度的特征图进行融合。映射层为1*1的卷积操作。

在该网络中，经过若干次卷积以及下采样操作后，分别得到8倍下采样、16倍下采样和32倍下采样三种不同尺寸的特征图。通过增加从高尺度特征流向地尺度特征的通道，可以实现不同尺寸特征的融合，有利于提高检测小目标的精度。

S2-4，训练时，输入S2-1的张量。经过神经网络的计算后，最终得到低尺度、中尺度和高尺度三种不同尺度的特征图，大小分别为13×13，26×26和52×52三种尺寸。特征图上的每一个点都对应到原图像的一个网格，每个网格负责预测3个检测框，每个预测的检测框的特征向量包含有以下信息：(x,y,w,h,confidecne,class)。其中x,y,w,h，分别对应到检测框左上角的x轴和y轴坐标、检测框的宽度和高度，confidence表示预测的置信度，class表示所有检测类别的概率信息。

S2-5，在训练过程中，每一轮迭代运算得到特征信息后，利用梯度下降法更新网络的参数，迭代至收敛为止。首先计算损失误差，并将损失误差函数的梯度通过网络进行回传。目标检测损失误差的计算公式如下：

其中，总的目标检测损失

等于预测框的损失

置信度的损失

和分类损失

三部分之和。i表示大小为S²的特征图上的第i个网格单元，S²取值分别为13×13，26×26和52×52。j表示网格单元预测的B个预测框中的第j个预测框，在本实施例中B＝3。k表示所有类别中的第k个类别。

为指示函数，表示如果这个网格出现物体则值为1，否则值为0。

取值与

相反。位置信息和置信度的损失采用均方差误差，而分类损失则采用交叉熵损失。

步骤S3，具体如下：

S3-1，在预训练好的YOLOv3检测网络的基础上嵌入域自适应模块，作为完整的嵌入了域自适应模块的目标检测网络，图2为该网络结构的示意图，其中虚线部分为域自适应模块的结构以及在整个网络中所处的位置。通过在原网络的基础上，在8倍下采样、16倍下采样和32倍下采样得到的特征图后面，分别串联增加域自适应模块。域自适应模块的结构包括梯度反转层、卷积层、softmax操作和域分类器。

梯度反转层在网络训练正向传播过程中传递的是正值，而在反向传播的过程中传播的是负值，该层的作用是将域自适应模块的损失最大化。卷积层和softmax操作将特征图映射到一个1*4的特征向量，表示该特征图属于某个域的类别概率。

S3-2，利用S1-1和S1-2中的通用目标检测图像集、所述降质场景图像集构建训练数据集。所有的数据都带有域标注，其中清晰图像的数据集带有检测的标注，而降质图像的数据集不带检测的标注。

S3-3，训练时，需要同时将图像数据以及域标注输入到网络中，如果数据的域标注不为0，则只需要通过域自适应模块，计算域分类损失，并将损失的梯度回传，更新网络的参数。如果数据的域标注为0，则不仅要通过域自适应模块，也要通过整个目标检测网络，同时计算域分类损失以及检测损失，并将损失的梯度回传，更新网络的参数。

S3-4，损失误差的计算公式如下：

其中，总的损失误差等于域分类损失误差

与目标检测损失

之和。目标检测损失误差计算公式在S2-5提出。λ为超参数，避免两部分损失误差相差太大，本方法中设置为0.01。域分类损失误差采用交叉熵损失，其中，i表示输入的第i张图像，j表示域标签类别，在本实施例中j的取值可为0,1,2,3。D_i,j表示真实的域标签，例如第i张图像域标签为1，则D_i,0＝0,D_i,1＝1,D_i,2＝0,D_i,3＝0。

表示在特征图(u,v)位置上的激活，在经过域分类器后，预测域标签是类别j的概率。

S3-4，训练完成后，再把该域自适应模块进行拆除，得到最终的多复杂场景目标检测网络。

本发明实施例提出的一种基于域自适应学习的多复杂场景目标检测方法，能够同时针对多种不同的降质场景进行目标检测，适用性广；采用了YOLOv3检测模型作为检测的网络框架，能够在确保检测精度的前提下，实时对图像中的目标作出检测；采用了自适应学习的方法，降低了清晰图像与多种不同降质场景图像的域间差异，使得目标检测能够同时在清晰图像以及降质图像上表现良好。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于域自适应学习的多复杂场景目标检测方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于域自适应学习的多复杂场景目标检测方法，其特征在于，所述方法包括：

利用所述通用目标检测图像集预训练目标检测网络YOLOv3；

2.如权利要求1所述的一种基于域自适应学习的多复杂场景目标检测方法，其特征在于，所述通用目标检测图像数据，具体为：

3.如权利要求1所述的一种基于域自适应学习的多复杂场景目标检测方法，其特征在于，所述多种降质场景下的图像数据，具体为：

4.如权利要求1所述的一种基于域自适应学习的多复杂场景目标检测方法，其特征在于，所述嵌入域自适应模块，具体为：

5.如权利要求1所述的一种基于域自适应学习的多复杂场景目标检测方法，其特征在于，所述利用所述通用目标检测图像集、所述降质场景图像集对嵌入了域自适应模块的目标检测网络重新进行训练，具体为：