CN109977918A

CN109977918A - 一种基于无监督域适应的目标检测定位优化方法

Info

Publication number: CN109977918A
Application number: CN201910282375.4A
Authority: CN
Inventors: 徐雪妙; 余宇山; 胡枭玮
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2019-07-05
Anticipated expiration: 2039-04-09
Also published as: CN109977918B

Abstract

本发明公开了一种基于无监督域适应的目标检测定位优化方法，旨在解决现有域适应目标检测方法在从有标签数据集向无标签数据集迁移的情况下对物体所处位置的定位能力不足的技术问题。本发明包括步骤：1)数据处理；2)模型构建；3)定义损失函数；4)模型训练；5)模型验证。本发明提出了新的特征提取网络模型，适用于针对无标签的数据集，定位更优化，物体定位的表现效果好。

Description

一种基于无监督域适应的目标检测定位优化方法

技术领域

本发明涉及计算机图像处理技术领域，主要涉及一种基于无监督域适应的目标检测定位优化方法。

背景技术

目标检测与识别是计算机视觉计算领域的重要课题之一。随着人类科学技术的发展，目标检测这一重要技术不断地得到充分利用，人们把它运用到各种场景中，实现各种预期目标，如场地警戒、安全检测、交通管制、视频监控等方面。

近些年，随着深度学习的快速发展，深度卷积神经网络在目标检测与识别技术上也有进一步的突破，然而针对目标检测的数据集的标签制作十分繁琐、费时。因此人们尝试使用现有的有标签的数据集，指导网络在未制作标签的数据集上训练，以求提高网络在其数据中的物体检测效果，这就是域适应方法。目前存在的域适应目标检测网络，其域适应结构来源于域适应分类网络；相比于分类任务，目标检测的任务要求预测出物体的具体位置，对特征的精细度要求更高，因此目前的域适应目标检测网络在物体定位能力上表现不足，从而降低了目标检测的鲁棒性和有效性。

发明内容

本发明所要解决的技术问题是提供一种从有标签数据集向无标签数据集迁移的情况下、对物体所处位置的定位能力强，增加目标检测的鲁棒性和有效性，适用范围广的基于无监督域适应的目标检测定位优化方法。

本发明所要解决的技术问题可以采用如下技术方案来实现：

一种基于无监督域适应的目标检测定位优化方法，其特征在于，包括如下步骤：

1)数据预处理

对于训练使用的两个数据集，将其中现有的有标签的数据集定为源域，无标签的数据集定为目标域；将目标域的部分数据划分为验证集，其他目标域数据以及源域数据作为训练集，并通过预处理将图像与标签转化为训练深度卷积网络所需格式；

2)模型构建

使用Caffe深度学习框架搭建卷积神经网络结构，根据训练目标以及模型的输入输出，构建一个定位优化的目标检测深度卷积神经网络；

3)定义损失函数

根据训练目标以及模型架构，定义所需损失函数；

4)模型训练

初始化各个网络参数，通过迭代输入训练集中的图片，根据损失函数计算得到损失值，通过反向传播计算出各个网络层参数的梯度，使用随机梯度下降法对各个网络层的参数进行更新；

5)模型验证

去除网络模型中多余的部分，并将验证集中的图片输入网络模型进行验证，测试其泛化能力。

在本发明的一个优选实施例中，所述步骤1)包括以下步骤：

1.1)将数据集中的图像缩放到长宽为m×n的像素大小，标签数据也根据相应的比例缩放到相应的大小；

1.2)以一定概率随机水平翻转裁剪后的图像。

在本发明的一个优选实施例中，所述步骤2)包括以下步骤：

2.1)构造特征提取网络模型

特征提取网络相当于一个编码器，用于从输入的图像中提取出高层的语义信息，特征提取网络包括源域分支网络和目标域分支网络两个分支，每个分支包括多个级联的下采样层；分别输入源域与目标域中经过步骤1)处理的图像，在网络模型的末端有一个网络选择层，选择源域分支网络和目标域分支网络中的一个分支进行输出，并输入下一阶段；

2.2)构造决策网络模型

决策网络主要负责找到输入的图像中所有的物体和它们的位置；首先根据步骤2.1)特征提取网络输出的特征图，先在特征图上提取一些提前设定好的不同大小、长宽比例区域，使用卷积层与非线性激活函数层(conv)生成候选框，并计算出每个候选框为物体的概率分数，将候选框按照概率分数降序排序，使用标签中的边界框筛选出包含物体的候选框，然后将包含物体的候选框与步骤2.1)输出的特征图一同送入感兴趣区域池化层(RoIPooling)；

将经过感兴趣区域池化层池化后的编码特征输入到后续网络，经过后续网络包括全连接层、非线性激活函数层、信号丢失层对特征进行处理，全连接层将学到的“编码特征表示”映射到样本标记空间，并输出得到最终的类别分数用于判断物体的类别以及精确选框的坐标用于判断物体的位置；

2.3)构造域适应结构网络模型

域适应结构主要负责将步骤2.1)中提取到的目标域分支输出的特征分布与源域分支输出的特征分布拉近；域适应结构包括一个梯度反传层(GRL)、一系列全连接层(fc)以及一个鉴别器，通过使用鉴别器判断输出的特征是来自源域分支或目标域分支，并用损失函数产生损失值；

通过反向传播计算出各个网络层参数的使得两个域的特征分布区分开来的梯度，并在梯度反传层进行梯度的逆转，以达到将两个域(源域分支和目标域分支)的特征分布拉近，最后达到的效果是，在源域数据的指导下，网络能够在无标签的目标域下也有良好目标检测效果；

2.4)网络模型的定位优化方法

网络模型的定位优化方法，主要是通过伪标签的形式，向网络提供物体定位信息的指导；首先使用源域数据在一个常用目标检测网络结构进行网络模型的训练，并使用该训练完成的模型对训练数据中目标域的图片进行目标检测，得到一系列回归框与其类别和得分的检测结果；其次使用一个阈值筛选出得分大于阈值的回归框，并作为目标域的伪标签，伪标签将只包含回归框的坐标信息而没有类别，并指导网络更加关注于学习在这些回归框区域中物体的特征。

在本发明的一个优选实施例中，所述步骤3)包括以下步骤：

3.1)定义针对源域输入时的决策网络损失函数

决策网络用于在步骤2.1)输出的特征图中得到认定为物体区域的坐标和该物体的类别分数，即回归任务和分类任务；定义回归损失函数使输出的选框尽可能的接近标准参考框的位置，因此，回归任务的损失函数能够定义为平滑化曼哈顿距离损失(SmoothL1Loss)，公式如下所示：

其中，L_reg为回归损失，v和t分别表示预测框的位置和其对应的标准参考框的位置，x和y表示左上角坐标值，w和h分别表示矩形框的宽和高；

定义分类损失函数使输出的选框的前景分数尽可能的与标签数据接近，因此，分类任务的损失函数定义为柔性最大化损失(SoftmaxLoss)，公式如下所示：

x_i＝x_i-max(x₁,...,x_n)

L_cls＝-logp_k

其中，x为网络的输出，n表示总类别数，p表示每一类的概率，L_cls为分类损失，k表示标签的类别；

3.2)定义针对目标域输入时的决策网络损失函数

由于目标域的数据没有标签，我们无法使用针对源域的决策网络损失函数，因此我们借助伪标签与网络对自身预测框的得分提出了自适应的带权重平滑化曼哈顿距离损失(Weighted SmoothL1Loss)：

其中，L_loc为定位优化损失，v和p分别表示预测框的位置和其对应的伪标签的框的位置，α为权重系数，c为训练中网络对预测框的得分，smooth_L1如步骤3.1)中所定义；

3.3)定义域适应结构网络的损失函数

域适应结构网络中的鉴别器输出特征图来自源域或者目标域的概率分数，其本质上是一个二分类任务，同样如步骤4.1)，分类任务的损失函数定义为SoftmaxLoss；此外，其梯度反传层将对传播中的损失值进行取反操作；

3.4)定义总损失函数

步骤3.1)、步骤3.2)和步骤3.3)中定义的针对两个域输入的损失函数与域适应结构网络损失函数能够通过加权的方式组合起来，用公式表示如下：

Loss＝(w₁L_cls+w₂L_reg)+(w₃L_loc+w₄L_D)

其中，Loss为总损失值，w1、w2、w3、w4为权重，L_cls为分类损失值， L_reg为回归损失值，L_loc为定位优化损失值，L_D为鉴别器损失值。

在本发明的一个优选实施例中，所述步骤4)包括以下步骤：

4.1)初始化模型各层参数

各层参数的初始化采用的是传统的深度卷积神经网络中使用到的方法，对特征提取网络的卷积层参数利用在一个大数据库ImageNet上预训练好的 VGG16网络模型的卷积层参数值作为初始值，决策网络中的卷积层以及分类网络的全连接层以及批量正则化层，则采用定均值，定标准差的高斯分布进行初始化，而对残差模块的卷积层使用Xavier初始化；

4.2)训练网络模型

首先通过步骤2.4)制作目标域的伪标签，然后交替输入经过步骤1)处理的来自源域或者目标域的图像，经过步骤2.1)的特征提取网络得到相应的特征图，输入步骤2.3)的构造域适应结构进行特征分布的拉近，同时在经过步骤2.2)的决策网络得到目标的分类以及定位框位置，并通过步骤3)计算相应的损失值，将该值通过反向传播能够得到步骤2)网络模型中的各层参数的梯度，再通过随机梯度下降算法使得到的梯度对各层参数进行优化，即可实现一轮网络模型的训练。

在本发明的一个优选实施例中，所述步骤5)的具体做法如下：

将步骤2.1)中特征提取网络的源域分支与步骤2.3)中的域适应结构丢弃，只留下步骤2.1)中特征提取网络的目标域分支；随机从验证数据集中取出一些原始图像，经过步骤1)处理后，输入到步骤4)训练好的网络模型，让该网络模型去检测图中的目标的位置并预测其类别，通过输出的结果与对应的标签数据进行比对，从而判断该训练好的网络模型的物体定位能力。

本发明一种基于无监督域适应的目标检测定位优化方法的有益效果是：

1、提出了新的特征提取网络模型——残差二分支卷积神经网络，通过在目标域分支额外加入残差结构的形式，能够更好地容忍目标域中的物体与源域物体在外形、颜色与尺寸等的不同，缓解因物体的特征在特征图上不够明显而被错误定位的问题。而且该网络模型中的二分支与残差结构的模块在其他特征提取网络中一样适用。

2、提出了一个定位优化方法，通过制作伪标签以提供关于物体位置信息的指导，让网络能够更加关注学习在这些区域中物体的特征，进而提升网络对物体的定位能力。同时提出一个可应用域伪标签上的自适应带权重平滑化曼哈顿距离损失，更好地解决伪标签的不准确性，减少错误伪标签对网络的影响。

附图说明

图1是本发明一种基于无监督域适应的目标检测定位优化方法的流程图。

图2是本发明实施例之一的构造特征提取网络示意图。

图3是本发明实施例之一的构造决策网络示意图。

图4是本发明实施例之一的构造域适应结构网络示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

参见图1，本实施例提供的一种基于无监督域适应的目标检测定位优化方法，包括如下步骤：

1数据预处理

对于训练使用的两个数据集，将其中现有的有标签的数据集定为源域，无标签的数据集定为目标域；将目标域的部分数据划分为验证集，其他目标域数据以及源域数据作为训练集，并通过预处理将图像与标签转化为训练深度卷积网络所需格式。

步骤1.1，将数据集中的图像缩放到长宽为m×n的像素大小，标签数据也根据相应的比例缩放到相应的大小；优选的，根据网络一般设定的值，将数据集中的图像缩放到600×1000像素大小。

步骤1.2，以一定概率随机水平翻转裁剪后的图像；优选的，以0.5的概率随机水平翻转裁剪后的图像，以使得裁剪后图像的表现特征分布均匀。

2构建网络模型

使用Caffe深度学习框架搭建卷积神经网络结构，根据训练目标以及模型的输入输出，构建一个定位优化的目标检测深度卷积神经网络。

2.1构造特征提取网络

特征提取网络相当于一个编码器，用于从输入的图像中提取出高层的语义信息，特征提取网络包括源域分支网络和目标域分支网络两个分支，每个分支包括多个级联的下采样层。优选的，源域分支网络的下采样层由一系列的串联的卷积层、非线性激活函数层以及池化层组成；目标域分支网络的下采样层由一系列的串联的卷积层、非线性激活函数层、池化层以及由卷积层与批量正则化层构成的残差块组成。

分别输入源域与目标域中经过步骤1处理的图像；优选的，参见图2，特征提取网络输入3×600×1000的图像，其中3为图像的RGB三通道值，输出为一系列特征图(512×38×63)。在网络模型的末端有一个网络选择层，选择源域分支网络和目标域分支网络中的一个分支进行输出，并输入下一阶段。

2.2构造决策网络

决策网络主要负责找到输入的图像中所有的物体和它们的位置；首先根据步骤2.1)特征提取网络输出的特征图，先在特征图上提取一些提前设定好的不同大小、长宽比例区域，使用卷积层与非线性激活函数层(conv)生成候选框，并计算出每个候选框为物体的概率分数，将候选框按照概率分数降序排序，使用标签中的边界框筛选出包含物体的候选框，然后将包含物体的候选框与步骤2.1)输出的特征图一同送入感兴趣区域池化层(RoIPooling)。池化层的作用是将候选框区域映射到所述步骤2.1)输出的特征图上得到相应区域的编码特征，再池化到固定大小。

将经过感兴趣区域池化层池化后的编码特征输入到后续网络，经过后续网络包括全连接层、非线性激活函数层、信号丢失层(fc6、fc7)对特征进行处理；非线性激活函数层的加入防止了模型退化为简单的线性模型，提高模型的描述能力，信号丢失层以一定概率让神经元不工作，让训练过程收敛更快，防止过拟合，全连接层将学到的“编码特征表示”映射到样本标记空间，并通过最后两个全连接层(fc8、fc9)输出得到最终的类别分数用于判断物体的类别以及精确选框的坐标用于判断物体的位置。

优选的，参见图3，输入步骤2.1输出的分支网络512×38×63大小的特征图，最终输出长度为c+1的向量A和长度为4的向量B，其中向量A中的c+1个值分别表示类别分数，c为所使用的数据集规定的类别数目，向量B中以4个值表示一个选框的位置(左上角点的坐标x和y，选框的宽和高w和h)。

2.3构造域适应结构网络

域适应结构主要负责将步骤2.1)中提取到的目标域分支输出的特征分布与源域分支输出的特征分布拉近；域适应结构包括一个梯度反传层(GRL)、一系列全连接层(fc)以及一个鉴别器，通过使用鉴别器判断输出的特征是来自哪个分支(源域分支或目标域分支)，并用损失函数产生损失值。

通过反向传播计算出各个网络层参数的使得两个域的特征分布区分开来的梯度，并在梯度反传层进行梯度的逆转，以达到将两个域(源域分支和目标域分支)的特征分布拉近，最后达到的效果是，在源域数据的指导下，网络能够在无标签的目标域下也有良好目标检测效果。

优选的，如图4所示，本发明使用了两个域适应结构，他们的输入分别是：长度为特征提取网络中输出的512×38×63的矩阵信息，以及决策网络中对生成的128个正样本提取特征得到所有长度为4096的向量的集合、组成的128×4096的向量，输出均为判断其属于哪个域的长度为2的向量。

2.4定位优化方法

网络模型的定位优化方法，主要是通过伪标签的形式，向网络提供物体定位信息的指导；首先使用源域数据在一个常用目标检测网络结构进行网络模型的训练，例如Faster R-CNN结构，并使用该训练完成的模型对训练数据中目标域的图片进行目标检测，得到一系列回归框与其类别和得分的检测结果；其次使用一个阈值筛选出得分大于阈值的回归框，并作为目标域的伪标签，该伪标签将只包含回归框的坐标信息而没有类别，并指导网络更加关注于学习在这些回归框区域中物体的特征。阈值可选取的数值范围为[0.5,0.7]，优选的，使用0.7作为阈值。

3定义区域生成网络和分类网络的损失函数

根据训练目标以及模型架构，定义所需损失函数；当步骤2)中所有网络结构输出完毕后，将根据损失函数计算损失值对网络的参数进行更新。

3.1定义针对源域输入时的决策网络的损失函数

x_i＝x_i-max(x₁,...,x_n)

L_cls＝-logp_k

3.2定义针对目标域输入时的决策网络的损失函数

定义定位优化损失函数使输出的选框尽可能的接近伪标签中的参考框的位置，此处用Weighted SmoothL1Loss。

由于目标域的数据没有标签，我们无法使用针对源域的决策网络损失函数，且定义定位优化损失函数使输出的选框尽可能的接近伪标签中的参考框的位置，因此我们借助伪标签与网络对自身预测框的得分提出了自适应的带权重平滑化曼哈顿距离损失(Weighted SmoothL1Loss)：

3.3定义针对域适应结构网络的损失函数

定义鉴别器损失函数使输出的特征图来自源域或者目标域的概率分数尽可能的与域标签数据接近，域适应结构网络中的鉴别器输出特征图来自源域或者目标域的概率分数，其本质上是一个二分类任务，同样如步骤4.1)，分类任务的损失函数定义为SoftmaxLoss；此外，其梯度反传层将对传播中的损失值进行取反操作；

3.4定义总损失函数

步骤3.1)、步骤3.2)和步骤3.3)中定义的针对两个域输入的损失函数与域适应结构网络损失函数能够通过加权的方式组合起来，使得网络可以完成无监督域适应目标检测的定位优化任务；具体的，加权的方式是对分类、回归、定位优化、鉴别器的4个损失进行加权求和，用公式表示如下：

Loss＝(w₁L_cls+w₂L_reg)+(w₃L_loc+w₄L_D)

其中，Loss为总损失值，w1、w2、w3、w4为权重，L_cls为分类损失值， L_reg为回归损失值，L_loc为定位优化损失值，L_D为鉴别器损失值；w1、w2为定值，w3、w4可取0.1-0.2，优选的，w1＝w2＝1，w3＝w4＝0.1。

4训练网络模型

初始化各个网络参数，通过迭代输入训练集中的图片，根据损失函数计算得到损失值，通过反向传播计算出各个网络层参数的梯度，使用随机梯度下降法对各个网络层的参数进行更新。

4.1初始化模型各层参数

各层参数的初始化采用的是传统的深度卷积神经网络中使用到的方法，对特征提取网络的卷积层参数利用在一个大数据库ImageNet上预训练好的 VGG16网络模型的卷积层参数值作为初始值，决策网络中的卷积层以及分类网络的全连接层以及批量正则化层，则采用均值为0，标准差为0.02的高斯分布进行初始化，而对残差模块的卷积层使用Xavier初始化(Xavier初始化方法是一种有效的针对深度神经网络卷积层的初始化方法)，所有的批量正则化层的参数采用均值为1。

4.2训练网络模型

通过步骤2.4制作目标域的伪标签，然后交替输入经过步骤1处理的来自源域或者目标域的图像，经过步骤2.1的特征提取网络得到相应的特征图，输入步骤2.3的构造域适应结构进行特征分布的拉近，同时在经过步骤2.2的决策网络得到目标的分类以及定位框位置，并通过步骤3计算相应的损失值，将该值通过反向传播能够得到步骤2网络模型中的各层参数的梯度，再通过随机梯度下降算法使得到的梯度对各层参数进行优化，即可实现一轮网络模型的训练。

4.3迭代训练

持续迭代训练，即重复步骤4.2直到网络关于目标检测的定位能力达到预期的目标为止。

5模型验证

去除网络模型中多余的部分，并将验证数据集中的图片输入网络模型对训练得到的模型进行验证，测试其泛化能力。具体做法是将步骤2.1中特征提取网络的源域分支与步骤2.3中的域适应结构丢弃，只留下步骤2.1中特征提取网络的目标域分支。随机从验证数据集中取出一些原始图像，经过步骤1 处理后，输入到步骤4训练好的网络模型，让该网络模型去检测图中的目标的位置并预测其类别，通过输出的结果与对应的标签数据进行比对，从而判断该训练好的网络模型的物体定位能力。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及同等物界定。

Claims

1.一种基于无监督域适应的目标检测定位优化方法，其特征在于，包括以下步骤：

1)数据预处理

2)模型构建

3)定义损失函数

根据训练目标以及模型架构，定义所需损失函数；

4)模型训练

5)模型验证

2.如权利要求1所述的一种基于无监督域适应的目标检测定位优化方法，其特征在于，所述步骤1)包括以下步骤：

1.2)以一定概率随机水平翻转裁剪后的图像。

3.如权利要求2所述的一种基于无监督域适应的目标检测定位优化方法，其特征在于，所述步骤2)包括以下步骤：

2.1)构造特征提取网络模型

2.2)构造决策网络模型

2.3)构造域适应结构网络模型

2.4)网络模型的定位优化方法

4.如权利要求3所述的一种基于无监督域适应的目标检测定位优化方法，其特征在于，所述步骤3)包括以下步骤：

3.1)定义针对源域输入时的决策网络损失函数

x_i＝x_i-max(x₁,...,x_n)

L_cls＝-logp_k

3.2)定义针对目标域输入时的决策网络损失函数

3.3)定义域适应结构网络的损失函数

3.4)定义总损失函数

Loss＝(w₁L_cls+w₂L_reg)+(w₃L_loc+w₄L_D)

其中，Loss为总损失值，w1、w2、w3、w4为权重，L_cls为分类损失值，L_reg为回归损失值，L_loc为定位优化损失值，L_D为鉴别器损失值。

5.如权利要求4所述的一种基于无监督域适应的目标检测定位优化方法，其特征在于，所述步骤4)包括以下步骤：

4.1)初始化模型各层参数

各层参数的初始化采用的是传统的深度卷积神经网络中使用到的方法，对特征提取网络的卷积层参数利用在一个大数据库ImageNet上预训练好的VGG16网络模型的卷积层参数值作为初始值，决策网络中的卷积层以及分类网络的全连接层以及批量正则化层，则采用定均值，定标准差的高斯分布进行初始化，而对残差模块的卷积层使用Xavier初始化；

4.2)训练网络模型

6.如权利要求5所述的一种基于无监督域适应的目标检测定位优化方法，其特征在于，所述步骤5)的具体做法如下：