CN112149722A

CN112149722A - 一种基于无监督域适应的图像自动标注方法

Info

Publication number: CN112149722A
Application number: CN202010953059.8A
Authority: CN
Inventors: 杨育彬; 龙坤
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-29
Anticipated expiration: 2040-09-11
Also published as: CN112149722B

Abstract

本发明提供了一种基于无监督域适应的图像自动标注方法，包括：源域图像及标注的采集，目标域图像的采集；搭建检测框架，构造域分类器抽取全局特征及局部特征；使用Pytorch深度学习框架应用算法对已有数据训练，得到训练好的域适应检测模型；用已有的最新模型对测试数据集(目标域未标注图片)进行检测，得到初步检测结果；利用初步检测结果文件进行二次处理提取生成PASCAL VOC格式的xml标注文件。本发明基于域适应方法，在大量目标域数据未标注的情况下，只需要拥有与其相似的源域图片及标注数据，就可以投入训练进行数据的自动标注。相较于原来的技术，本方法灵活性好、分类精度较高、模型简单且实用性高。

Description

一种基于无监督域适应的图像自动标注方法

技术领域

本发明涉及机器学习和计算机视觉领域，尤其涉及一种基于无监督域适应的图像自动标注方法。

背景技术

如今深度学习模型都需要在大规模的监督数据集上训练——对于每一个数据，都会有一个与之对应的标签。对于像ImageNet这样包含高到百万级别图片的数据集如果利用人工标注需要很多人花数月的时间完成，假定现在要创建一个有一百万类的数据集，那么就必须给总共1亿帧视频数据集中的每一帧做标注，这基本是无法实现的。无监督学习研究的主要目标就是要训练出能够用于其他任务的模型，这种模型的特点应该尽可能的通用，并且提供尽可能像监督模型一样好的结果。另外，未标注的视频易于以较低的成本收集，因此无监督学习在许多计算机视觉和机器人应用中具有实际的应用价值。

迁移学习就是把已训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的，所以通过迁移学习可以将已经学到的模型参数通过某种方式来分享给新模型从而加快并优化模型的学习效率。域适应是一种特殊的迁移学习——当源域和目标域的数据分布不同，但两个任务相同时的一种策略，其中实现手段最常见的方法就是学习一个特征转换，使得在转换过的特征空间上，源数据集和目标数据集的分布的区分度达到最小。现实世界中这个问题又分为不同的类型：1)边缘分布相同，条件分布不同且相关。2)边缘分布不同且相关，条件分布相同。3)边缘分布和条件分布都不相同且相关。由此可以考虑在缺少关注数据集的标注时，如何通过寻找一个与关注数据集类似的带有标签的数据集，通过关联训练出一个能以较高精度检测关注数据集对象的模型，然后就能实现标注功能。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于无监督域适应的图像自动标注方法，通过本发明方法构建的图像(视频)标注方法，意在通过自动化的手段，来解决传统人工手动标注问题的时间成本和人力成本耗费巨大的问题，方法主要是涉及到域的分布对齐等。

具体包括以下步骤：

步骤1，获取源域图像和标注，以及目标域图像：源域图像及标注、目标域图像为输入数据，也为训练过程中所必要的数据，并对数据进行调整为PASCAL VOC格式数据，分别储存在两个文件夹(源域数据集文件夹Source，目标域数据集文件夹Target)。

步骤2，搭建检测框架，构建域分类器来抽取全局特征和局部特征。

步骤3，使用Pytorch深度学习框架应用算法思想，得到训练好的域适应检测模型。

步骤4，用已有的最新模型对测试数据集(目标域未标注图片)进行检测，得到初步检测结果。

步骤5，对初步检测结果进行二次处理，提取生成PASCAL VOC格式的xml标注文件；

步骤6，观察生成的标注文件数量，如果xml标注文件数目不够则将已标注好的目标域数据投入原源域中作为新的源域数据进行二次域适应训练。

本发明步骤1包括：

源域一般为开源数据集或者前人工作者保存下来的数据集，一般来说都比较完全，可使用性较高；目标域数据集是关注的要点，目标域数据集只有图片但没有对应的标注数据，得到后将其调整、组织为一般PASCAL VOC数据集形式，分别放在源文件夹和目标文件夹。

得到了输入数据后，就需要考虑如何用算法实现以获得输出，而图像的标注任务可以转换为图像的检测任务，因此步骤2包括：

步骤2-1，搭建Faster R-CNN(Faster Region-based Convolutional NeuralNetworks，“更快的基于区域的卷积神经网络”)框架(此处参考文献是“Faster R-CNN：Towards Real-Time Object Detection with Region Proposal Networks”)：输入图片表示为Height×Width×Depth的张量(多维数组)形式，Height、Width、Depth、分别表示高度、宽度、深度，经过预训练CNN(Convolutional Neural Networks，卷积神经网络)卷积神经网络模型的处理，得到卷积特征图conv feature map；然后区域生成网络RPN(RegionPropose Network)对提取的卷积特征图进行处理，RPN层用于寻找可能包含对象的预定义的区域即边界框；在获得可能的相关对象和其在原始图像中的对应位置后，用CNN模型提取的特征和包含相关对象的边界框，采用感兴趣区域ROI(Region of Interest，感兴趣区域)池化处理，并提取相关对象的特征，得到一个新的向量进而计算出区域特征图proposalfeature maps，送入后续网络；最后基于R-CNN(Region-based Convolutional NeuralNetworks，基于区域的卷积神经网络)模块，对边界框内的内容进行分类，并调整边界框坐标，以更好地使用对象。

步骤2-2，构建域分类器(此处参考文献是“Strong-Weak DistributionAlignment for Adaptive Object Detection”)：基于步骤2-1的Faster R-CNN框架，在RPN层之前抽取全局特征，在抽取全局特征之前的网络层抽取局部特征，并且依次在高维特征空间使用弱全局对齐，在低维特征空间使用强局部对齐：

在弱全局特征对齐中，域分类器的构建是为了在全局特征对齐中对齐源域和目标域，域分类器需要忽略源域和目标域中容易区分的样例并关注于两域中难以区分的样例；根据Faster R-CNN框架，使用特征提取器F提取出全局特征向量，网络R(RPN和Faster R-CNN的其它一些组件)将全局特征向量作为输入并且进行初步的检测，i为样例索引值，R(F(x_i ^s))为对于源域样例x_i的检测结果，y_i ^s为样例真实结果，

指代检测中包括分类和回归的损失，n_s表示源域样例的数目，得到检测损失函数

(包括分类和回归)：

另外不同于一般交叉熵，这里加入调制因子f(p_t)让容易区分的样本产生一个极小的损失：-f(p_t)log(p_t)，其中，d为域标志，如果d＝1，即源域，p_t＝p，否则p_t＝1-p；

使用损失函数Focal Loss，用FL(p_t)表示，γ为控制权重因子，控制难以分类的样本集合的权重，计算公式为：FL(p_t)＝-f(p_t)log(p_t)，f(p_t)＝(1-p_t)γ，特征抽取器尝试欺骗域分类器，即试图增加损失，为让目标域样本与源域样本能对齐，调制因子f(p_t)用另一种形式，为了得到域分类器D_g，弱全局域适应分类器的损失在源域和目标域分别为

和

联合损失为

从而直接在局部特征上实现对齐；

对于强局部特征对齐：将特征提取器F拆解为

表示特征提取器F₂与特征提取器F₁的复合，F₁的输出作为局部域分类器D_l的输入，F₁输出宽和高分别为W和H的映射，D_l输出一个与输入特征具有同样宽度和高度的域预测图，并利用最小平方损失来训练域分类器，得到局部特征损失，其中源域损失

目标域损失

联合损失

D_l(F_l(x_i ^s))_wh指代域分类器在每个位置的输出，损失被设计成让所有特征的接受域与另一个域(这里为t目标域)的分布对齐；

基于上下文的正则化：从源域分类器和目标域分类器的中间层抽取特征向量，所述特征向量因为包含输入图片的信息因此又称为内容向量Context Vector，然后去跟RPN的输出进行拼接，进而预测类别和检测框，所有对抗损失

如下：

整个目标定义为最大最小化损失，如下所示：

其中λ是一个权衡参数。

有了以上算法步骤的分析，现在的主要任务是将算法落地，对于此计算机视觉上的机器学习任务使用Pytorch深度学习框架并利用cuda加速训练，提高效率。要从代码结构上来进行该任务的部署，因此步骤3包括：

步骤3-1，构建Pytorch深度学习框架的Faster R-CNN检测框架。这里是基于已有的开源项目。先对源域和目标域进行获取数据集对象操作combined_roidb，得到源域pascal_voc数据集实例imdb和其成员变量roidb、目标域pascal_voc数据集实例imdb_t和其成员变量roidb_t参数，然后对数据集进行载入，对数据进行预处理操作(分批训练，图像的剪裁，bounding box真值的同步更新等)，然后根据基础网络args.net为vgg(VisualGeometry Group)还是残差网络resnet来构建Faster R-CNN的CNN网络形式，最后完成检测框架的基本搭建。

步骤3-2，选择优化算法：源于适应性矩估计的Adam、随机梯度下降SGD，进而设置每个epoch(一个完整的数据集通过了网络并且返回了一次称为一次epoch)的迭代次数，加入域分类器，以此计算出需要考虑的损失函数，包括：RPN分类和回归损失(rpn_loss_cls，rpn_loss_box)，R-CNN分类和回归损失(R-CNN_loss_cls，R-CNN_loss_bbox)；

域适应训练域分类器的损失：全局对齐损失(dloss_s，dloss_t(计算用到步骤2所述的Focalloss))、局部对齐损失(dloss_s_p，dloss_t_p)。

步骤3-3：设置初始epoch和最大训练epoch，投入计算训练，定计算量保存相应Pytorch模型。

得到域适应的训练模型后，即可利用模型对目标域数据集的图像进行检测的应用，从而作为标注的基础，因此步骤4为：

使用步骤3所训练保存得到的Pytorch模型pth文件，然后对目标域测试集进行测试检测结果，并且与真实人工标注值ground-truth进行对比，利用平均准确率和标注量来评估性能结果。测试过程实际也是一个基于Faster R-CNN的检测过程，在此得到每个对象类别class的检测结果文件，文件格式为txt。

得到这些检测结果txt文件后，已经完成了图像标注的核心步骤，但这些文件目前不能直接作为输出来投入实际运用，目标输出是PASCAL VOC格式的一对一的标注xml文件，因此步骤5包括：

步骤5-1，步骤4得到的txt文件总数为所有类别数，即每个txt文件包括一个类的所有检测结果，这些结果由于未提前设置阈值而会存在一些置信率很小的检测结果，也存在一些重复检测的情况——在此基本思想是将所有的txt文件剔除掉置信率低的条项(置信率即算法认为检测正确的概率，这里一般设置大于90％)，拼接合成一个基础txt文件，并且条项根据图片名进行排序，得到的标注条项格式为：图片名类别名标注对角线段点1横坐标x1标注对角线段点1纵坐标y1标注对角线段点2横坐标x2标注对角线段点纵坐标y2。

步骤5-2，由步骤5-1得到的txt文件对于同一个图片内的多个标注对象运用了多个条项来表示，这对于后期PASCAL VOC标注文件中每一个xml对应一个图片内的所有标注结果不利，因此二次处理为：在基础txt文件中，循环比较这次条项的图片名和前一个条项图片名是否一样，如果一样则保存在同一个条项中，否则写入前面所有的同图片名的条项为一个新的条项。这时得到的txt文件中标注条项格式为：图片名类别名1 1x1 1y1 1x21y2类别名2 2x1 2y1 2x2 2y2......

步骤5-3，PASCAL VOC标注数据除了需要利用到图片名、类别名和位置信息外，还需要所标注图片的大小(读图片操作)。依次创建Annotations、ImageSets、JPEGImages、SegmentationClass和SegmentationObject文件夹，在ImagesSets文件夹中创建子文件夹Layout、Main和Segmentation文件夹(保证PASCAL VOC的一般性)。在完成对检测目标域图片的迁移操作后，进行创建一对一的PASCAL_VOC格式的标注文件操作create_annotation，这里输入信息即标注图片image、所有对象的检测位置boxes、图片宽width、图片高height，create_xml_file创建出最后的xml标注文件(利用python的xml.dom及xml.dom.minidom模块)。

单次域适应得到的标注文件数目和标注质量往往不能够太令人满意，因此需要考虑进行二次标注或强化标注等方法，来达到应用级标准，步骤6包括如下步骤：

嵌入主动学习：进行域适应标注，然后对于未检测出来的数据集中的数据进行主动学习标注，如果此时标注量达到任务所需，则将获得的标注数据作为训练数据，剩余未标注的数据作为测试数据来投入Faster R-CNN、Yolo(You Only Look Once)(此处参考文献是“Yolov3：An incremental improvement”)、SSD(Single Shot)(此处参考文献是“SSD：Single Shot MultiBox Detector”)目标检测框架直接进行训练来对剩余的数据进行标注；如果标注量不够，就再投入到原数据中进行二次域适应，得到剩余部分的标注，后面再根据实际情况选择进行Faster R-CNN、Yolo、SSD目标框架的训练标注；

本发明，步骤6还可以采用如下步骤：

嵌入主动学习：先进行主动学习标注一部分目标域数据(待标注目标域数据的五分之一)，然后把标注好的目标域数据放入源域数据集中作为额外的训练数据，对剩余的目标数据集进行二次域适应，标注剩余数据，如果域适应标注剩余数据后还存在漏标的数据，进行二次主动学习标注再投入Faster R-CNN、Yolo(You Only Look Once)、SSD(SingleShot)目标检测框架来对剩余数据进行标注。

有益效果：现有情况下，对于多模态海量数据完全人工标注的时间成本高昂，大量不同域的已标注数据难以在目标域难以直接使用。采用本方法，通过机器学习和计算机视觉领域的方法联合，只需要与目标域分布类似的源域已标注图像数据集，就能将目标域中的大量未标注图像完成自动标注任务，大大减少了人力成本和时间成本，并且具有高效性和准确性，具有非常高的实际应用价值。本发明在机器学习目标检测模型的基础上，运用域适应方法，并结合检测-标注转化手段，提供了一种自动化的手段，大大提高了图像(视频)的标注效率且降低了成本，得到了令人满意的标注结果。因此，相较于传统标注策略，本方法时间成本和人力成本低，标注精度较高，模型训练简单应用市场广阔。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明加入域分类器的基于Faster R-CNN的检测框架网络结构图。

图2是本发明由初始检测结果得到最终PASCAL VOC标注格式xml文件的流程图。

图3是本发明中具体实施例提供的一种基于无监督域适应的图像自动标注方法的工作流程示意图。

图4a是域适应标注结果示意图。

图4b是真值标注示意图。

具体实施方式

如图2和图3所示，本发明方法所构建的图像(视频)的自动标注的工作流程大致分为三大阶段：第一阶段，准备工作：包括带标注的源域数据集采集和无标注的目标域数据集采集；第二阶段，域适应训练工作：包括以Faster R-CNN为基础的检测框架搭建，域适应模型训练；第三阶段，调整及输出工作：包括最初检测结果的输出以及经过变换调整后的PASCAL VOC格式标注文件的输出。本发明实施例中基于无监督域适应的图像自动标注方法的具体构建步骤如下：

步骤1，源域图像及标注和目标域图像的获取：源域图像及标注、目标域图像为输入数据，也为训练过程中所必要的数据，并对数据进行调整为PASCAL VOC格式数据，分别储存在两个文件夹(源域数据集文件夹Source，目标域数据集文件夹Target)。

步骤2，搭建好以Faster R-CNN为基础的检测框架，再依次构建域分类器来抽取全局特征和局部特征，得到相应损失函数确定优化目标。

步骤4，用已有的最新模型对测试数据集(目标域未标注图片)进行检测，分别得到每个对象类别的初步检测结果。

步骤5，由于检测结果文件不能直接作为标注文件，因此需要利用初步检测结果文件进行二次处理提取生成PASCAL VOC格式的xml标注文件。

步骤6，根据步骤5得到的xml标注文件，统计数目并观察标注实际结果，若数目不够或标注结果欠佳则将已标注好的目标域数据投入原源域中作为新的源域数据进行二次域适应训练等其它优化操作。

本发明步骤1包括：

源域一般为开源数据集或者前人工作者保存下来的数据集，一般来说获得率较高，且在规模上比较完全，可使用性较高；目标域数据集是关注的要点，目标域数据集只有图片但没有对应的标注数据，得到后将其调整、组织为一般PASCAL VOC数据集形式，分别放在源文件夹和目标文件夹以备用。

得到了输入数据后，就需要考虑如何用算法实现以获得输出，而图像的标注任务可以转换为图像的检测任务，根据图1所示，在Faster R-CNN框架上嵌入域分类器进而生成在目标域的具有较高检测精度的模型。因此步骤2如下：

步骤2-1，Faster R-CNN框架。首先，输入图片表示为Height×Width×Depth的张量(多维数组)形式，经过预训练CNN模型的处理，得到卷积特征图(conv feature map)；然后RPN(Region Propose Network)对提取的卷积特征图进行处理，RPN用于寻找可能包含对象的预定义的区域(边界框)；在获得可能的相关对象和其在原始图像中的对应位置后，用CNN提取的特征和包含相关对象的边界框，采用ROI池化处理，并提取相关对象的特征，得到一个新的向量进而计算出区域特征图proposal feature maps，送入后续网络；最后基于R-CNN模块，对边界框内的内容进行分类、调整边界框坐标，以更好地使用对象。

步骤2-2，构建域分类器：在RPN层之前抽取全局特征，在更浅的网络层抽取局部特征，并且依次在高维特征空间使用弱全局对齐，在低维特征空间使用强局部对齐。在弱局部特征对齐中，域分类器的构建是为了在局部特征对齐中对齐源域和目标域的特征，域分类器需要忽略两域中容易区分的样例并关注于两域中难以区分的样例。根据Faster R-CNN框架，使用特征提取器F提取出全局特征向量，网络R(RPN和Faster R-CNN的其它一些组件)来将这些特征作为输入并且进行初步的检测，得到检测损失函数(包括分类和回归)：

另外不同于一般交叉熵，这里加入调制因子f(p_t)让对容易区分的样本，产生一个极小的损失：-f(p_t)log(p_t)，(其中p_t＝p，if d＝1(表示为源域)；p_t＝1-p(otherwise))，这里使用损失函数FocalLoss(FL)，FL(p_t)＝-f(p_t)log(p_t)，f(p_t)＝(1-p_t)^γ来达到效果。特征抽取器尝试欺骗域分类器，即试图增加损失，为让目标样本与源样本能很好地对齐，调制因子f(p_t)用另一种形式，在这弱全局域适应分类器的损失在源域和目标域分别为：

从而直接在局部特征上实现对齐。对于强局部特征对齐：将特征提取器F拆解为

F₁的输出作为局部域分类器D_l的输入，F₁输出宽高分别分别为W和H的映射，D_l输出一个与输入特征具有同样宽度和高度的域预测图，并利用最小平方损失来训练域分类器：

D_l(F_l(x_i ^s))_wh指代域分类器在每个位置的输出，损失被设计成让所有特征的接受域与另一个域(目标域t)对齐。基于上下文的正则化：如图1所示，从源域和目标域的中间层抽取特征向量v₁和v₂，这里称为内容向量ContextVector，然后根据不同的区域特征来跟RPN的输出进行拼接，进而预测类别和检测框。所有对抗损失：

整个目标定义为最大最小化损失：

其中λ是一个权衡参数。

步骤3-1，构建Pytorch深度学习框架的Faster R-CNN检测框架。这里是基于已有的开源项目。先对源域和目标域进行获取数据集对象操作combined_roidb，得到源域pascal_voc数据集实例imdb和其成员变量roidb、目标域pascal_voc数据集实例imdb_t和其成员变量roidb_t等参数，数据载入后对数据进行预处理操作(分批训练、图像的对称翻转、图像的剪裁、bounding box真值的同步更新等)，然后根据基础网络args.net为vgg还是resnet来构建Faster R-CNN的CNN网络形式，最后完成检测框架的基本搭建。

步骤3-2，选择优化方法：源于适应性矩估计的Adamh或者随机梯度下降SGD，设置每个epoch的迭代次数，加入域分类器，以此计算出需要考虑的损失函数：RPN分类和回归损失(rpn_loss_cls，rpn_loss_box)，R-CNN分类和回归损失(R-CNN_loss_cls，R-CNN_loss_bbox)，域适应中对其损失的计算：全局对齐损失(dloss_s，dloss_t(计算用到步骤2所述的Focalloss))，局部对齐损失(dloss_s_p，dloss_t_p)。

步骤3-3：设置好开始epoch，和最大训练epoch后，便可以投入计算训练，定计算量保存相应模型。

使用步骤3所训练保存得到的Pytorch模型pth文件，然后对目标域测试集进行测试检测结果，与ground-truth进行对比，利用平均准确率和标注量来评估性能结果。测试过程实际也是一个基于Faster R-CNN的检测过程，在此得到每个class的检测结果文件，初步文件格式为txt。

步骤5-1，初步得到的txt文件总数为所有类别数，即每个txt文件包括一个类的所有检测结果，这些结果由于未提前设置阈值而会存在一些置信率很小的检测结果，也存在一些重复检测的情况——在此基本思想是将所有的检测txt文件剔除掉置信率低的条项拼接合成一个基础txt文件，并且条项根据图片名进行排序，得到的标注条项格式为：图片名类别名x1 x2 y1 y2。

步骤5-2，由步骤5-1得到的txt文件对于同一个图片内的多个标注对象运用了多个条项来表示，这对于后期PASCAL VOC标注文件中每一个xml对应一个图片内的所有标注结果不利，因此二次处理为：在步骤5-1的基础上得到的txt文件中，循环比较这次条项的图片名和前一个条项图片名是否一样，若一样则保存在同一个条项中，若不一致则写入前面所有的同图片名的条项为一个新的条项。这时得到的txt文件中标注条项格式为：图片名类别名1 1x1 1x2 1y1 1y2类别名2 2x1 2x2 2y1 2y2......

步骤5-3，PASCALVOC标注数据除了需要利用到图片名、类别名和位置信息外，还需要所标注图片的大小(读图片操作)。依次创建Annotations、ImageSets、JPEGImages、SegmentationClass和SegmentationObject文件夹，在ImagesSets文件夹中创建子文件夹Layout、Main和Segmentation文件夹。在完成对目标域图片的迁移操作后，进行create_annotation操作，这里输入信息即image(标注图片)、boxes(所有对象的检测位置)、width(图片宽)、height(图片高)，create_xml_file创建出最后的xml标注文件(利用python的xml.dom及xml.dom.minidom模块)。

单次域适应得到的标注文件数目和标注质量往往不能够太令人满意，因此需要考虑进行二次标注或强化标注等方法，来达到应用级标准，因此步骤6包括：

嵌入主动学习：首先进行域适应标注，然后对于未检测出来的数据集中的数据进行主动学习标注，如果a.此时标注量已足够，则可以将这些数据作为训练数据，剩余少部分数据作为测试数据来投入Faster R-CNN等目标检测框架直接进行训练来对剩余的数据进行标注；b.如果标注量不够，就再投入到原数据中进行二次域适应，得到剩余部分的标注，后面再根据实际情况选择进行Faster R-CNN等目标框架的训练标注。

另外，步骤6还可以采取如下步骤：

嵌入主动学习：先进行主动学习标注一部分数据，然把标注好的目标域数据放入源域数据集中作为额外的训练数据，对剩余的目标数据集进行二次域适应，标注剩余数据。若域适应标注剩余数据后还存在漏标的数据，可以考虑进行二次主动学习标注再投入Faster R-CNN等目标检测框架来对剩余数据进行标注。

现有情况下，对于多模态海量数据完全人工标注的时间成本高昂，大量不同域的已标注数据难以在目标域难以直接使用。采用本方法，通过机器学习和计算机视觉领域的方法联合，只需要与目标域分布类似的源域已标注图像数据集，就能将目标域中的大量未标注图像完成自动标注任务，大大减少了人力成本和时间成本，并且具有高效性和准确性，具有非常高的实际应用价值。本发明在机器学习目标检测模型的基础上，运用域适应方法，并结合检测-标注转化手段，提供了一种自动化的手段，大大提高了图像(视频)的标注效率且降低了成本，得到了令人满意的标注结果。因此，相较于传统标注策略，本方法时间成本和人力成本低，标注精度较高，模型训练简单应用市场广阔。

实施例

本实施例包括以下部分：

步骤1，源域和目标域数据集的采集。

源域一般为开源数据集或者前人工作者保存下来的数据集，一般来说获得率较高，且在规模上比较完全，可使用性较高；目标域数据集是关注的要点，目标域数据集只有图片但没有对应的标注数据。得到后将其调整、组织为一般PASCAL VOC数据集形式(xml文件：folder，filename，size等标签)，分别放在源文件夹和目标文件夹以备用。

步骤2，域适应算法框架搭建。

(1)，Faster R-CNN框架。首先，输入图片表示为Height×Width×Depth的张量(多维数组)形式，经过预训练CNN模型的处理，得到卷积特征图(conv feature map)；然后RPN(Region Propose Network)对提取的卷积特征图进行处理，RPN用于寻找可能包含对象的预定义的区域(边界框)；在获得可能的相关对象和其在原始图像中的对应位置后，用CNN提取的特征和包含相关对象的边界框，采用ROI池化处理，并提取相关对象的特征，得到一个新的向量进而计算出区域特征图proposal feature maps，送入后续网络；最后基于R-CNN模块，对边界框内的内容进行分类、调整边界框坐标，以更好地使用对象。

(2)，构建域分类器：在RPN层之前抽取全局特征，在更浅的网络层抽取局部特征，并且依次在高维特征空间使用弱全局对齐，在低维特征空间使用强局部对齐。在弱局部特征对齐中，域分类器的构建是为了在局部特征对齐中对齐源域和目标域的特征，域分类器需要忽略两域中容易区分的样例并关注于两域中难以区分的样例。根据Faster R-CNN框架，使用特征提取器F提取出全局特征向量，网络R(RPN和Faster R-CNN的其它一些组件)来将这些特征作为输入并且进行初步的检测，得到检测损失函数(包括分类和回归)：

另外不同于一般交叉熵，这里加入调制因子f(p_t)让对容易区分的样本，产生一个极小的损失：-f(p_t)log(p_t)，(其中p_t＝p，if d＝1(源域)；p_t＝1-p(otherwise))，这里使用损失函数Focal Loss(FL)，FL(p_t)＝-f(p_t)log(p_t)，f(p_t)＝(1-p_t)^γ来达到效果。特征抽取器尝试欺骗域分类器，即试图增加损失，为让目标样本与源样本能很好地对齐，调制因子f(p_t)用另一种形式，在这弱全局域适应分类器的损失在源域和目标域分别为：

D_l(F_l(x_i ^s))_wh指代域分类器在每个位置的输出，损失被设计成让所有特征的接受域与其它域对齐。基于上下文的正则化：从源域和目标域的中间层抽取特征向量，然后根据不同的区域的特征去跟RPN的输出进行拼接，进而预测类别和检测框。所有对抗损失：

整个目标定义为最大最小化损失：

其中λ是一个权衡参数。

步骤3，落实算法到Pytorch深度学习框架中。

(1)构建Pytorch深度学习框架的Faster R-CNN检测框架。这里是基于已有的开源项目。先对源域和目标域进行获取数据集对象操作combined_roidb，得到imdb、roidb、imdb_t、roidb_t等数据，对数据集载入后对数据进行预处理操作(分批训练、图像的对称翻转、图像的剪裁、bounding box真值的同步更新等)，然后根据基础网络args.net为vgg还是resnet来构建Faster R-CNN的CNN网络形式，最后完成检测框架的基本搭建。SGD

(2)选择优化方法：选择基于适应性矩估计的Adam或者随机梯度下降SGD，设置每个epoch的迭代次数，加入域分类器，以此计算出需要考虑的损失函数：RPN分类和回归损失(rpn_loss_cls，rpn_loss_box)，RCNN分类和回归损失(RCNN_loss_cls，RCNN_lossSGD_bbox)，域适应中对其损失的计算：全局对齐损失(dloss_s，dloss_t(计算用到步骤2所述的Focalloss))，局部对齐损失(dloss_s_p，dloss_t_p)。

(3)设置好开始epoch，和最大训练epoch后，便可以投入计算训练，定计算量保存相应模型。

步骤4，利用训练好的模型进行初步检测。

步骤5，生成PASCAL VOC格式标注文件。

(1)初步得到的txt文件总数为所有类别数，即每个txt文件包括一个类的所有检测结果，这些结果由于未提前设置阈值而会存在一些置信率很小的检测结果，也存在一些重复检测的情况——在此基本思想是将所有的检测txt文件剔除掉置信率低的条项拼接合成一个基础txt文件，并且条项根据图片名进行排序，得到的标注条项格式为：图片名类别名x1 x2 y1 y2。

(2)得到的txt文件对于同一个图片内的多个标注对象运用了多个条项来表示，这对于后期PASCALVOC标注文件中每一个xml对应一个图片内的所有标注结果不利，因此二次处理为：在步骤5-1的基础上得到的txt文件中，循环比较这次条项的图片名和前一个条项图片名是否一样，若一样则保存在同一个条项中，若不一致则写入前面所有的同图片名的条项为一个新的条项。这时得到的txt文件中标注条项格式为：图片名类别名1 1x1 1x21y1 1y2类别名2 2x1 2x2 2y1 2y2......

(3)PASCALVOC标注数据除了需要利用到图片名、类别名和位置信息外，还需要所标注图片的大小(读图片操作)。依次创建Annotations、ImageSets、JPEGImages、SegmentationClass和SegmentationObject文件夹，在ImagesSets文件夹中创建子文件夹Layout、Main和Segmentation文件夹(保证PASCAL VOC的一般性)。在完成图片的迁移后，进行create_annotation操作，这里输入信息即image(标注图片)、boxes(所有对象的检测位置)、width(图片宽)、height(图片高)，create_xml_file创建出最后的xml标注文件(利用python的xml.dom及xml.dom.minidom模块)。

步骤6，调整，优化标注结果。

(1)嵌入主动学习：首先进行域适应标注，然后对于未检测出来的数据集中的数据进行主动学习标注，如果a.此时标注量已足够，则可以将这些数据作为训练数据，剩余少部分数据作为测试数据来投入Faster R-CNN等目标检测框架直接进行训练来对剩余的数据进行标注；b.如果标注量不够，就再投入到原数据中进行二次域适应，得到剩余部分的标注，后面再根据实际情况选择进行Faster R-CNN等目标框架的训练标注。

(2)采取另一种方式：嵌入主动学习：先进行主动学习标注一部分数据，然后把标注好的目标域数据放入源数据集中作为额外的训练数据，对剩余的目标数据集进行二次域适应，标注剩余数据。若域适应标注剩余数据后还存在漏标的数据，可以考虑进行二次主动学习标注再投入Faster R-CNN等目标检测框架来对剩余数据进行标注。

这里如图4a和图4b所示，利用该方法得到的标注结果演示图为图4a，与其对比的真值人工标注为图4b，这里标注类别候选为a，b，c，d，e，可以看出对于相似的类别(a和b)标注难度稍大，但从图4a和图4b对于第3，4张图的对比可以看出，该方法能在快速的优势上也保持了标注精度。

本发明提供了一种基于无监督域适应的图像自动标注方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于无监督域适应的图像自动标注方法，其特征在于，包括如下步骤：

步骤1，获取源域图像和标注，以及目标域图像；

步骤2，搭建检测框架，构建域分类器来抽取全局特征和局部特征；

步骤3，得到训练好的域适应检测模型；

步骤4，用已有的最新模型对测试数据集进行检测，得到初步检测结果；

步骤6，如果xml标注文件数目不够则将已标注好的目标域数据投入原源域中作为新的源域数据进行二次域适应训练。

2.根据权利要求1所述的方法，其特征在于，步骤2包括以下步骤：

步骤2-1，搭建Faster R-CNN框架：输入图片表示为Height×Width×Depth的张量形式，Height、Width、Depth、分别表示高度、宽度、深度，经过预训练CNN卷积神经网络模型的处理，得到卷积特征图conv feature map；然后区域生成网络RPN对提取的卷积特征图进行处理，RPN层用于寻找可能包含对象的预定义的区域即边界框；在获得可能的相关对象和其在原始输入图片中的对应位置后，用CNN模型提取的特征和包含相关对象的边界框，采用感兴趣区域ROI池化处理，并提取相关对象的特征，得到一个新的向量进而计算出区域特征图proposal feature maps，送入后续网络；最后基于R-CNN模块，对边界框内的内容进行分类，并调整边界框坐标；

步骤2-2，构建域分类器：基于步骤2-1的Faster R-CNN框架，在RPN层之前抽取全局特征，在抽取全局特征之前的网络层抽取局部特征，并且依次在高维特征空间使用弱全局对齐，在低维特征空间使用强局部对齐：

在弱全局特征对齐中，域分类器的构建是为了在全局特征对齐中对齐源域和目标域，根据Faster R-CNN框架，使用特征提取器F提取出全局特征向量，网络R将全局特征向量作为输入并且进行初步的检测，i为样例索引值，R(F(x_i ^s))为对于源域样例x_i的检测结果，y_i ^s为样例真实结果，

加入调制因子f(p_t)让容易区分的样本产生一个极小的损失：-f(p_t)log(p_t)，其中，d为域标志，如果d＝1，即源域，p_t＝p，否则p_t＝1-p；

使用损失函数Focal Loss，用FL(p_t)表示，γ为控制权重因子，控制难以分类的样本集合的权重，计算公式为：FL(p_t)＝-f(p_t)log(p_t)，f(p_t)＝(1-p_t)^γ，为让目标域样本与源域样本能对齐，f(p_t)用另一种形式，为了得到域分类器D_g，弱全局域适应分类器的损失在源域和目标域分别为

和

联合损失为

从而直接在局部特征上实现对齐；

对于强局部特征对齐：将特征提取器F拆解为F₂ ^oF₁，F₂ ^oF₁表示特征提取器F₂与特征提取器F₁的复合，F₁的输出作为局部域分类器D_l的输入，F₁输出宽和高分别为W和H的映射，D_l输出一个与输入特征具有同样宽度和高度的域预测图，并利用最小平方损失来训练域分类器，得到源域损失

目标域损失

联合损失

D_l(F_l(x_i ^s))_wh指代域分类器在每个位置的输出，损失被设计成让所有特征的接受域与另一个域对齐；

如下：

整个目标定义为最大最小化损失，如下所示：

其中λ是一个权衡参数。

3.根据权利要求2所述的方法，其特征在于，步骤3包括如下步骤：

步骤3-1，构建Pytorch深度学习框架的Faster R-CNN检测框架；

步骤3-2，选择优化算法，源于适应性矩估计的Adam、随机梯度下降SGD，进而设置每个epoch的迭代次数，加入域分类器，以此计算出需要考虑的损失函数，包括：RPN分类和回归损失，RCNN分类和回归损失；

域适应训练域分类器的损失：全局对齐损失、局部对齐损失；

4.根据权利要求3所述的方法，其特征在于，步骤4包括如下步骤：

使用步骤3所训练保存得到的Pytorch模型pth文件，然后对目标域测试集进行测试检测结果，并且与真实人工标注值ground-truth进行对比，利用平均准确率和标注量来评估性能结果，得到每个对象类别class的检测结果文件，文件格式为txt。

5.根据权利要求4所述的方法，其特征在于，步骤5包括如下步骤：

步骤5-1，步骤4得到的txt文件总数为所有类别数，即每个txt文件包括一个类的所有检测结果，将所有的txt文件剔除掉置信率低的条项，拼接合成一个基础txt文件，并且条项根据图片名进行排序；

步骤5-2，在基础txt文件中，循环比较这次条项的图片名和前一个条项图片名是否一样，如果一样则保存在同一个条项中，否则写入前面所有的同图片名的条项为一个新的条项；

步骤5-3，在完成对检测目标域图片的迁移操作后，进行创建一对一的PASCAL_VOC格式的标注文件操作create_annotation，这里输入信息即标注图片image、所有对象的检测位置boxes、图片宽width、图片高height，create_xml_file创建出最后的xml标注文件。

6.根据权利要求5所述的方法，其特征在于，步骤6包括如下步骤：

嵌入主动学习：进行域适应标注，然后对于未检测出来的数据集中的数据进行主动学习标注，如果此时标注量达到任务所需，则将获得的标注数据作为训练数据，剩余未标注的数据作为测试数据来投入Faster R-CNN、Yolo、SSD目标检测框架直接进行训练来对剩余的数据进行标注；如果标注量不够，就再投入到原数据中进行二次域适应，得到剩余部分的标注，后面再根据实际情况选择进行Faster R-CNN、Yolo、SSD目标框架的训练标注。

7.根据权利要求5所述的方法，其特征在于，步骤6包括如下步骤：

嵌入主动学习：先进行主动学习标注一部分目标域数据，然后把标注好的目标域数据放入源域数据集中作为额外的训练数据，对剩余的目标数据集进行二次域适应，标注剩余数据，如果域适应标注剩余数据后还存在漏标的数据，进行二次主动学习标注再投入Faster R-CNN、Yolo、SSD目标检测框架来对剩余数据进行标注。