CN116342942A

CN116342942A - 基于多级域适应弱监督学习的跨域目标检测方法

Info

Publication number: CN116342942A
Application number: CN202310258566.3A
Authority: CN
Inventors: 刘龙; 赵志澎
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-06-27

Abstract

本发明公开了基于多级域适应弱监督学习的跨域目标检测方法，利用MUNIT风格迁移由源域D_S生成接近目标域D_T的中间域D_G数据，用源域D_S数据集预训练得到目标检测模型，用其为目标域D_T和中间域D_G数据打上伪标签，实现一种弱监督跨域迁移条件，有助于跨域检测；多层次使用域自适应分类器，在图像级既保证全局领域特征对齐，又保证局部领域特征的对齐，且不改变源域与目标域中数据之间的区别信息，增强了自适应模型的鲁棒性。在实例级也进行域特征对齐，针对目标检测这个特定任务做出改善；训练过程采取源域D_S到中间域D_G，再到目标域D_T的顺序渐进地适应域差异，由目标检测损失和域迁移损失共同使网络收敛，提高检测模型的性能。

Description

基于多级域适应弱监督学习的跨域目标检测方法

技术领域

本发明属于机器学习中的迁移学习技术领域，具体涉及基于多级域适应弱监督学习的跨域目标检测方法。

背景技术

在计算机视觉领域中，目标检测是计算机视觉领域中的一项基本任务，它由图像分类任务发展而来,区别在于不再仅仅只对一张图像中的单一类型目标进行分类,而是要同时完成一张图像里可能存在的多个目标的分类和定位,其中分类是指给目标分配类别标签,定位是指确定目标的外围矩形框的顶点坐标。因此,目标检测任务更具有挑战性,也有着更广阔的应用前景,比如自动驾驶、人脸识别、行人检测、医疗检测等等。同时,目标检测也可以作为图像分割、图像描述、目标跟踪、动作识别等更复杂的计算机视觉任务的研究基础。现有的图像目标检测其通常可以被分为两类：一类是two-stage检测器，最具代表性的是Faster R-CNN。另一种是one-stage检测器，如YOLO、SSD。two-stage检测器具有较高的定位和目标识别精度，而one-stage检测器具有较高的推理速度。

近年来，使用有监督深度学习的对象检测已经显示出令人印象深刻的结果，但它在跨领域环境中仍然具有挑战性。对于许多实际任务来说，基于深度学习的目标检测器需要大量带边界框和类标注的样本，标注大规模数据集以训练卷积神经网络的成本高得令人望而却步且耗时，同时不同域中的光照、风格、尺度和外观等的变化也会严重影响检测器的性能。

目前域自适应学习已经成为解决数据标注和领域偏移问题的有效手段。域自适应学习利用已有标注的与目标数据相似的数据集，例如具有相同的类别，来作为源域，通过与未标注的目标域数据进行显式的数据特征对齐，利用源域和目标域同时进行迁移学习，进而获得在目标域上表现尚可的模型。现有的域自适应任务尚存在许多不足之处。具体的，第一，现有迁移学习大多应用在图片分类领域，目标检测领域应用较少；第二，现有的域自适现有技术在无监督领域自适应过程中，无法适应前后数据集差异过大的情况，对数据集要求很高，并且领域自适应后模型精度不高，模型泛化性不强。第三，应用于目标检测的域自适应的方法都使用对抗性训练来对齐跨域转换的全局特征，并实现图像信息传递。然而，这种方法不能有效地匹配局部特征的分布，导致跨域对象检测的改进有限。

发明内容

本发明的目的是提供基于多级域适应弱监督学习的跨域目标检测方法，解决了实际应用情况中当源域具实例级标签，而目标域中只有样本级标签时，训练后的目标检测模型跨域检测准确率低的问题。

本发明所采用的技术方案是，基于多级域适应弱监督学习的跨域目标检测方法，具体按照以下步骤实施：

步骤1、获取源域D_S数据和目标域D_T数据，构成目标检测数据集，构建MUNIT网络，利用源域D_S数据和目标域D_T的数据集对MUNIT网络进行训练并生成介于目标域和源域之间的中间域数据集D_G；

步骤2、构建Faster RCNN网络作为目标网络，采用源域Ds的数据作为训练集对目标检测器进行训练并得到初步预训练的检测模型，将中间域D_G和目标域D_T数据送入检测网络中打上伪标签；

步骤3、构建图像级和实际级的域分类器，加入步骤2初步预训练的检测模型中，得到具有域自适应的目标检测器；

步骤4、按照源域D_S、中间域D_G、目标域D_T的顺序渐进将数据集输入具有域自适应的目标检测器进行训练，渐进地适应域差异，得到训练好的目标检测模型；

步骤5、采用训练好的目标检测模型对目标域的数据集进行目标检测，得到检测结果。

本发明的特点还在于：

步骤1中MUNIT网络包括生成器和判别器，生成器包括风格编码器、内容编码器、特征交叉模块、解码器，生成器利用源域D_S数据生成接近目标域D_S的中间域D_G数据，判别器用于判断输入的数据是真实的源域D_S数据还是生成的中间域D_G数据。

步骤1具体过程为：

步骤1.1、把源域Ds和目标域D_T的数据集以不同的风格和内容的分类标准将其分为相应类数，从源域Ds中选定一个子集X1，并从目标域D_T选定中也抽取一个子集X2；

步骤1.2、将子集X1和X2分别输入内风格编码器、内容编码器进行降维操作，得到两种图像特征向量；通过若干个卷积层对其中一种图像特征向量进行降采样，使用深度残差网络会用到的残差块生成低维的内容编码；先通过若干个卷积层对另一种图像特征向量进行降采样，然后经过一个全局池化层和一个全连接层，最后生成低维的风格编码；

步骤1.3、将子集X1的低维的内容编码与子集X2的低维的风格编码融合，产生风格迁移的图像编码特征，向风格迁移的图像编码特征中加入高斯噪声后进行交叉，得到新结合的编码特征，对新结合的编码特征用解码器升维生成结果图像；

步骤1.4、将生成结果图像根据风格编码器和内容编码器再次分解成两个编码特征，对于低维的内容编码、低维的风格编码计算误差反向传播，重新调整MUNIT网络参数；将生成的结果图像分别输入风格编码器和内容编码器，生成新的风格编码和新的内容编码，计算步骤1.2中低维的内容编码、低维的风格编码与新的风格编码和新的内容编码之间的差距损失，设置偏差阈值，当差距损失超过偏差阈值时，将这个损失反向传播，重新调整MUNIT网络参数；

步骤1.5、将子集X1、子集X2、步骤1.3中生成结果图像输入GAN网络，进行判别和对抗训练；利用梯度反转来更新对抗损失；训练后的MUNIT神经网络使用步骤1.1中分类好的源域D_S和目标域D_T的数据集来生成中间域D_G数据集。

步骤1.3中将子集X1的低维的内容编码与子集X2的低维的风格编码融合具体过程为：

将子集X2的低维的风格编码先由多层感知器动态生成参数，再经过自适应实例规范化层，得到可进行融合的低维的风格编码，将可进行融合的低维的风格编码和子集X1的低维的内容编码在残差块中进行糅合，然后进行上采样得到风格迁移的图像编码特征。

GAN网络的损失函数表示为：

其中，图像的风格特征和内容特征x服从p(x)分布，G为图像的域内生成器，E^C(x),E^s(x)分别为图像的内容和风格特征；

风格重建损失和内容重建损失：

接着是对抗损失，就是用判别器判断真假，GAN网络的定义：

GAN网络用到两组生成器和判别器，MUNIT网络的目标函数就是上述几个损失的和：

其中E表示编码器，G表示生成器，D表示判别器。

Faster RCNN网络包括候选检测框生成网络和Fast R-CNN网络，Fast R-CNN网络由特征提取部分、Roi池化层、分类器3个部分构成，特征提取部分，用于提取整张图片的特征，得到特征图，候选检测框生成网络通过softmax函数判断锚框属于正例或者反例，再利用边框回归修正锚框获得候选区域，Roi池化层收集输入的特征图和候选区域，提取候选框特征图，送入分类器判定目标类别。

步骤2中具体过程为：

步骤2.1、构建Faster RCNN网络作为目标网络，采用源域Ds的数据作为训练集，特征提取部分使用训练集中数据训练Faster RCNN网络完成初始化权重，对源域Ds的样本

抽样后的256个正负例anchor框训练候选检测框生成网络、Fast R-CNN网络中特征提取部分，其中，特征提取部分权重参与调整；

步骤2.2、使用步骤2.1训练好的候选检测框生成网络，生成正例预测框，供分类器网络进行训练；此时特征提取部分权值也使用源域Ds的样本

进行训练更新网络参数，将得到的候选检测框生成网络和Fast R-CNN网络作为目标检测器；

步骤2.3、再次生成利用源域Ds的实例级标签输入目标检测器，得到候选区域的特征图，将候选区域的特征图送入分类器中进行类别判断与检测框回归，获得前向传播的损失，反传梯度，更新权重参数，减小损失，得到一个初步的预训练检测模型；

步骤2.4、利用初步的预训练检测模型对中间域D_G样本和目标域D_T的样本进行检测，对检测结果打上伪标签，即图像中物体的位置框坐标和类别，保存目标检测结果。

预训练检测模型的损失函数表示为：

其中

为小批量中锚点的索引，p_i是锚点/>

作为目标的预测概率，/>

为真值，当anchor为正时，/>

为1，当anchor为负时，/>

为0，t_i是预测边界框的四个参数化坐标的向量，/>

是与正锚框相关联的真实框的坐标，L_C是两个类别的分类损失，L_r是边界框回归的损失，{p_i},{t_i}分别表示分类层和回归层的输出。

域分类器的结构由梯度反转层(GRL)、多层的全连接层后接Relu激活函数，最后接含一个神经元全连接层加Logistic损失函数构成，且所有层的权重因子设置为相等，域分类器用于判断输入的特征是来自源域D_S还是来自目标域D_T或中间域D_G,来自源域D_S则为1，为0。

步骤3具体过程为：

首先，图像级全局域判别器在图像阶段自适应使用特征提取部分最后一个卷积层之后的特征映射来对齐不同域的全局特征分布；

其次，建立多个图像级局部域判别器在卷积网络中提取多个中间层的输出特征映射来监督中间层的局部特征对齐；

最后，在目标检测模型Roi池化层提取后的特征进行特征对齐，放置实例级域分类器。

本发明有益效果是：

1.利用MUNIT风格迁移的方法由源域D_S生成接近目标域D_T的中间域D_G数据，同时用源域D_S数据集预训练得到的目标检测模型，用其为目标域D_T和中间域D_G数据打上伪标签，实现一种弱监督跨域迁移条件，有助于跨域检测。

2.多层次使用域自适应分类器，在图像级既保证全局领域特征对齐，又保证局部领域特征的对齐，同时且不改变源域与目标域中数据之间的区别信息，增强了自适应模型的鲁棒性。在实例级也进行域特征对齐，针对目标检测这个特定任务做出改善。

3.训练过程采取源域D_S到中间域D_G，再到目标域D_T的顺序渐进地适应域差异，由目标检测损失和域迁移损失共同使网络收敛，逐步提高检测模型的性能。

附图说明

图1是本发明基于领域自适应的目标检测方法的网络结构图；

图2是本发明MUNIT网络的网络结构示意图；

图3是本发明中带有域自适应的Faster RCNN的网络结构示意图；

图4是本发明中网络训练过程的网络结构示意图。

图5是未加入域自适应检测效果图对比图；

图6是加入域自适应检测效果图对比图。

具体实施方式

下面结合附图及具体实施方式对本发明进行详细说明。

本发明基于多级域适应弱监督学习的跨域目标检测方法，使用的网络结构如图1所示，具体按照以下步骤实施：

如图2所示，MUNIT网络包括生成器和判别器，生成器包括风格编码器、内容编码器、特征交叉模块、解码器，生成器利用源域D_S数据生成接近目标域D_S的中间域D_G数据，判别器用于判断输入的数据是真实的源域D_S数据还是生成的中间域D_G数据。

而判别器的作用是负责判断输入的数据是真实的源域D_S数据还是生成的中间域D_G数据。生成器要不断优化自己生成的数据让判别网络判断不出来，判别网络也要优化自己让自己判断得更准确，二者关系形成对抗(即对抗网络)。值得注意的是，MUNIT的生成器有自己的特色，它由特定神经网络组合而成的风格编码器、内容编码器和解码器三部分构成，其目的是输入一张图片，在保证图片主体内容不变的前提下，给图片换一种风格模式，反之亦行。

步骤1具体过程为：

步骤1.1、把源域D_S和目标域D_T的数据集以不同的风格和内容的分类标准将其分为相应类数，从源域Ds中选定一个子集X1，并从目标域D_T选定中也抽取一个子集X2；两个子集的图像或内容风格具有一定相似性但相互之间又具有差异性。利用两类子集设计并预训练好一个具备编码内容和风格以及解码恢复功能的神经网络，过程中需要保证同一张图片T1可以被还原出相似的域中图片T1，即所谓的让T1的域内部重构的损失降到最小；

步骤1.2、将子集X1和X2分别输入内风格编码器、内容编码器进行降维操作，得到两种图像特征向量；通过若干个卷积层对其中一种图像特征向量进行降采样，使用深度残差网络会用到的残差块(Residual Blocks)生成低维的内容编码；先通过若干个卷积层对另一种图像特征向量进行降采样，然后经过一个全局池化层和一个全连接层，最后生成低维的风格编码；

步骤1.3、将子集X1的低维的内容编码与子集X2的低维的风格编码融合，产生风格迁移的图像编码特征，向风格迁移的图像编码特征中加入高斯噪声后进行交叉，目的是提升网络的鲁棒性，得到新结合的编码特征，对新结合的编码特征用解码器升维生成结果图像；

将子集X1的低维的内容编码与子集X2的低维的风格编码融合具体过程为：

GAN网络的损失函数表示为：

此外生成图像

具有域X₁的内容和域X₂的风格，因此对/>

的内容编码应该与域X₁越接近越好，而风格编码应该与域X₂越接近越好，因此有风格重建损失和内容重建损失：

其中内容特征c₁服从分布p(c₁)，风格特征s₂服从分布p(s₂)，G(c₁,s₂)表示由内容特征c₁和风格特征s₂构成的生成器。同样的很容易写出

的定义。

接着是对抗损失，就是用判别器判断真假，GAN网络的定义：

其中E表示编码器，G表示生成器，D表示判别器。

步骤2、构建Faster RCNN网络作为目标网络：Faster RCNN网络包括候选检测框生成网络(RPN)和Fast R-CNN网络，Fast R-CNN网络由特征提取部分(backbone)、Roi池化层(Roi Pooling)、分类器(Classification)3个部分构成，特征提取部分，用于提取整张图片的特征，得到特征图，例如VGG16，去除其中的全连接层，只留下卷基层，输出下采样后的特征图。用一串卷积层和池化层从原图中提取出特征图；候选检测框生成网络通过softmax函数判断锚框属于正例或者反例，再利用边框回归修正锚框获得候选区域，Roi池化层收集输入的特征图和候选区域，提取候选框特征图，送入分类器判定目标类别。利用候选框特征图计算候选区域的类别，同时再次边框回归获得检测框最终的精确位置。

步骤2具体过程为：

预训练检测模型的损失函数表示为：

其中

为小批量中锚点的索引，p_i是锚点/>

作为目标的预测概率，/>

为真值，当anchor为正时，/>

为1，当anchor为负时，/>

为0，t_i是预测边界框的四个参数化坐标的向量，/>

步骤3、构建图像级和实际级的域分类器，加入步骤2初步预训练的检测模型中，得到具有域自适应的目标检测器，结构如图3所示；

步骤3中各类域判别器在Faster R-CNN中的位置是由其判别目的所决定的，首先图像级全局域判别器在图像阶段自适应使用特征提取部分最后一个卷积层之后的特征映射，为了来对齐不同域的全局特征分布。其次，采用了分层自适应的思想，建立多个图像级局部域判别器在卷积网络中提取多个中间层的输出特征映射，来监督中间层的局部特征对齐。因为仅有全局域判别器会忽略了局部特征的对齐，使得某些域敏感的局部特征削弱了自适应模型的泛化能力。最后，在目标检测模型Roi池化层提取后的特征进行特征对齐，放置实例级域分类器。因为目标检测的任务是找出图片中物体的位置并识别出类型，主要关注的是物体所在区域的特征，而目标检测模型Roi池化层提取后的特征就是物体所在预测框内的特征。

步骤4、按照源域D_S、中间域D_G、目标域D_T的顺序渐进将数据集输入具有域自适应的目标检测器进行训练，如图4所示，渐进地适应域差异，利用梯度进行方向传播梯度更新，不断更新网络参数，减小网络损失，得到训练好的目标检测模型；

该过程中的总体损失是步骤2中的目标检测损失和域适应损失的总和。预适应损失又包括全局域适应损失、多级局部损失和实例级损失。具体表达式如下所示：

其中D_i表示第i个图像的域标签，

表示特征图(u，v)点的像素属于目标域的概率。

其中

表示第k层后第i张图像的特征图位于(u,v)处的激活，f为其对应的域分类器。

其中，j表示第i个图像中的第j个区域提议来自目标域的概率。

总体损失表达式为：

L＝L_det+λ(L_multi+L_ins+L_img) (13)

其中λ为域适应损失所占比例，L_det为步骤2中的目标损失。

使用时，将同类型的其他目标域数据集的数据输入到训练好的目标检测器中，能够输出检测结果。

本发明中通过步骤1的设计利生成了介于目标域和源域之间的中间域数据集D_G，拉近目标域和源域的特征差异，以此来解决域自适应中无法适应前后数据集差异过大的问题；通过步骤3的设计在目标检测模型当中加入多级域分类器，克服了需要同时实现跨域转换的全局特征和局部特征对齐的困难，最终达到能够在相似目标域可以检测目标对象的效果。对于同一个未使用过的样本图片，使用没有域自适应的目标检测模型和有域自适应的目标检测模型分别进行检测得到的检测结果如图5和图6所示，根据图5、图6对比可知，图6中的检测结果更好，即图片中的对象更多的被检测出来，定位框也更准确。

由此可知，有域自适应的目标检测模型检测结果更好，即图片中的对象更多的被检测出来，定位框也更准确。

通过上述方式，本发明基于多级域适应弱监督学习的跨域目标检测方法，利用MUNIT风格迁移的方法由源域D_S生成接近目标域D_T的中间域D_G数据，同时用源域D_S数据集预训练得到的目标检测模型，用其为目标域D_T和中间域D_G数据打上伪标签，实现一种弱监督跨域迁移条件，有助于跨域检测。多层次使用域自适应分类器，在图像级既保证全局领域特征对齐，又保证局部领域特征的对齐，同时且不改变源域与目标域中数据之间的区别信息，增强了自适应模型的鲁棒性。在实例级也进行域特征对齐，针对目标检测这个特定任务做出改善；训练过程采取源域D_S到中间域D_G，再到目标域D_T的顺序渐进地适应域差异，由目标检测损失和域迁移损失共同使网络收敛，逐步提高检测模型的性能。

Claims

1.基于多级域适应弱监督学习的跨域目标检测方法，其特征在于，具体按照以下步骤实施：

2.根据权利要求1所述基于多级域适应弱监督学习的跨域目标检测方法，其特征在于，步骤1中所述MUNIT网络包括生成器和判别器，所述生成器包括风格编码器、内容编码器、特征交叉模块、解码器，所述生成器利用源域D_S数据生成接近目标域D_S的中间域D_G数据，所述判别器用于判断输入的数据是真实的源域D_S数据还是生成的中间域D_G数据。

3.根据权利要求2所述基于多级域适应弱监督学习的跨域目标检测方法，其特征在于，步骤1具体过程为：

4.根据权利要求2所述基于多级域适应弱监督学习的跨域目标检测方法，其特征在于，步骤1.3中所述将子集X1的低维的内容编码与子集X2的低维的风格编码融合具体过程为：

5.根据权利要求2所述基于多级域适应弱监督学习的跨域目标检测方法，其特征在于，所述GAN网络的损失函数表示为：

风格重建损失和内容重建损失：

接着是对抗损失，就是用判别器判断真假，GAN网络的定义：

其中E表示编码器，G表示生成器，D表示判别器。

6.根据权利要求2所述基于多级域适应弱监督学习的跨域目标检测方法，其特征在于，所述Faster RCNN网络包括候选检测框生成网络和Fast R-CNN网络，所述Fast R-CNN网络由特征提取部分、Roi池化层、分类器3个部分构成，所述特征提取部分，用于提取整张图片的特征，得到特征图，所述候选检测框生成网络通过softmax函数判断锚框属于正例或者反例，再利用边框回归修正锚框获得候选区域，所述Roi池化层收集输入的特征图和候选区域，提取候选框特征图，送入分类器判定目标类别。

7.根据权利要求5所述基于多级域适应弱监督学习的跨域目标检测方法，其特征在于，步骤2中具体过程为：

8.根据权利要求7所述基于多级域适应弱监督学习的跨域目标检测方法，其特征在于，所述预训练检测模型的损失函数表示为：

其中

为小批量中锚点的索引，p_i是锚点/>

作为目标的预测概率，/>

为真值，当anchor为正时，/>

为1，当anchor为负时，/>

为0，t_i是预测边界框的四个参数化坐标的向量，/>

9.根据权利要求1所述基于多级域适应弱监督学习的跨域目标检测方法，其特征在于，所述域分类器的结构由梯度反转层(GRL)、多层的全连接层后接Relu激活函数，最后接含一个神经元全连接层加Logistic损失函数构成，且所有层的权重因子设置为相等，所述域分类器用于判断输入的特征是来自源域D_S还是来自目标域D_T或中间域D_G,来自源域D_S则为1，为0。

10.根据权利要求1所述基于多级域适应弱监督学习的跨域目标检测方法，其特征在于，步骤3具体过程为：