CN114626461A - 基于领域自适应的跨域目标检测方法 - Google Patents

基于领域自适应的跨域目标检测方法 Download PDF

Info

Publication number
CN114626461A
CN114626461A CN202210258271.1A CN202210258271A CN114626461A CN 114626461 A CN114626461 A CN 114626461A CN 202210258271 A CN202210258271 A CN 202210258271A CN 114626461 A CN114626461 A CN 114626461A
Authority
CN
China
Prior art keywords
domain
target
sample
discriminator
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210258271.1A
Other languages
English (en)
Inventor
刘龙
黄珂卿
陈万军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202210258271.1A priority Critical patent/CN114626461A/zh
Publication of CN114626461A publication Critical patent/CN114626461A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于领域自适应的跨域目标检测方法,包括:步骤1,获取包括源域Ds和目标域DT的目标检测数据集,进行数据增强和数据集扩充;步骤2,采用扩充后的数据集对CycleGAN网络进行训练并输出生成数据域DG;步骤3,构建Faster RCNN网络作为目标检测器,将源域Ds和生成数据域DG作为训练集对目标检测器进行训练;步骤4,对目标域DT的数据集进行复杂度评估对目标检测器进行再训练;步骤5,采用步骤4训练好的目标检测器对待检测数据进行目标检测,最终得到检测结果。本发明解决了当拥有具有实例级标签的源域,而目标域中不具备实例级标签时,在目标检测中对深度模型性能的影响,以及导致训练后实例类别和边界框位置预测准确率低下的问题。

Description

基于领域自适应的跨域目标检测方法
技术领域
本发明属于迁移学习技术领域,涉及一种基于领域自适应的跨域目标检测方法。
背景技术
在计算机视觉领域中,目标检测技术一直是目前的重要课题和研究方向,目标检测的工作就是要在静态图像或连续帧的视频图像序列中对所出现的部分目标进行检测和识别,确定目标位置并判断对象类别。目标检测在近几年受到学术界了广泛关注和研究,并且随着技术的不断突破而在现实世界中得到了广泛的应用,如视频监控、人机交互、智能交通、自主导航和机器人视觉等方面。随着深度神经网络的兴起和GPU强大的算力使得目标检测继续蓬勃发展。
目前,深度学习模型已广泛应用于计算机视觉的各个领域,其中便包括目标检测。现有的目标检测算法利用深度学习网络作为其骨干和检测网络,分别从输入图像(或视频)中提取特征,进行分类和定位。目前的目标检测算法大体上可以分为two-stage和one-stage方法,其中two-stage方法首先在输入图像上提出目标候选边界框,然后通过ROI在目标候选框上里提取特征,用于后续的目标分类和边界框回归任务,具有比较高的目标识别和定位精度,但算法的推理速度较慢,相反one-stage方法,直接从输入图像中提取出预测框,具有较高的推理速度,但目标识别精度与two-stage方法相比较低。
虽然现有的大多数目标检测算法在自然图像上都能够取得比较高的识别准确率,但这些算法的前提是都需要有大规模的已标注数据对网络进行训练,而在实际生活中,在其他图像领域并不一定能够获得大规模的已标注数据,因为在许多图像域中构建具有实例级标签的大型数据集通常是很困难并且不切实际的,其中存在诸如图像来源匮乏、版权问题和标注成本等诸多困难。所以现有的目标检测算法就具有一定的局限性,以此我们考虑使用迁移学习中的领域自适应方法,将在具有实例级标签的源域数据上训练好的模型应用于只有样本级标签的目标域,并能够得到较高的目标识别准确率。实例级标签由标签(即实例的对象类)和边界框(即实例的位置)组成,样本级标签仅知道图像中实例类别而不知道实例位置。
发明内容
本发明的目的是提供一种基于领域自适应的跨域目标检测方法,解决了当拥有具有实例级标签的源域,而目标域中不具备实例级标签时,在目标检测中对深度模型性能的影响,以及导致训练后实例类别和边界框位置预测准确率低下的问题。
本发明所采用的技术方案是:
基于领域自适应的跨域目标检测方法,具体步骤包括:
步骤1,获取包括源域Ds和目标域DT的目标检测数据集,进行数据增强和数据集扩充;
步骤2,构建CycleGAN网络,采用扩充后的数据集对CycleGAN网络进行训练并输出生成数据域DG
步骤3,构建Faster RCNN网络作为目标检测器,采用源域Ds和生成数据域DG作为训练集对目标检测器进行训练;
步骤4,对目标域DT的数据集进行复杂度评估划分为不同等级的数据,根据复杂度评估的结果,对目标检测器进行再训练;
步骤5,采用步骤4训练好的目标检测器对待检测数据进行目标检测,最终得到检测结果。
本发明的特点还在于:
步骤2中CycleGAN网络结构由两个相同结构的生成器和两个相同结构的判别器构成,生成器结构为依次连接的三层卷积层、六层ResNet模块、两层反卷积层和一层卷积层,每个卷积层后接一种非线性激活函数,判别器结构为依次连接的五层卷积层和一层全连接层,卷积层后接一种非线性激活函数,全连接层后接Softmax函数。
步骤2对CycleGAN网络的训练过程为:
步骤2.1、从源域Ds中抽取一个子集X,并从目标域DT中也抽取一个子集Y,以X为例,将X输入给CycleGAN网络的第一个判别器DX
步骤2.2、由步骤2.1将X输入给判别器DX后,给生成器GX输入随机高斯白噪声,生成器生成图像后,将其再输入给判别器DX,判别器DX对输入图像进行判断,若输入图像为生成图像,判别器DX输出为0,若输入图像为真实图像判别器DX输出为1;
步骤2.3、同理对Y也进行同样的操作,将Y输入给判别器DY,给生成器GY输入随机高斯白噪声,生成器生成图像后再输入判别器DY,判别器DY对输入图像进行判断,若输入图像为生成图像,判别器DY输出为0,若输入图像为真实图像判别器DY输出为1。
CycleGAN网络包括对实现映射F:Y→X时的损失函数LG(G,DY)、表示实现映射G:X→Y时的损失函数LG(F,DX)、循环一致性损失函数LC(G,F)如公式(1)~(3):
Figure BDA0003549607920000041
其中LG(G,DY)表示实现映射F:Y→X时的损失函数,其中
Figure BDA0003549607920000042
表示真实样本y通过判别器DY的损失函数,其中
Figure BDA0003549607920000043
表示生成样本G(x)通过判别器DY的损失函数,DY(y)表示真实样本y通过判别器DY的得分,DY(G(x))表示生成样本G(x)通过判别器DY的得分;
Figure BDA0003549607920000044
其中LG(F,DX)表示实现映射G:X→Y时的损失函数,其中
Figure BDA0003549607920000045
表示真实样本x通过判别器DX的损失函数,其中
Figure BDA0003549607920000046
表示生成样本F(y)通过判别器DX的损失函数,DX(x)表示真实样本x通过判别器DX的得分,DX(F(y))表示生成样本F(y)通过判别器DX的得分;
循环一致性损失为:
Figure BDA0003549607920000047
其中LC(G,F)表示在对齐生成样本和真实样本的分布时所产生的损失,F(G(x))-x表示生成样本G(x)和真实样本x之间的损失值,G(F(y))-y表示生成样本F(y)和真实样本y之间的损失值,||·||1为向量的L1范数;
则最终的优化函数为:
L(G,F,DX,DY)=LG(G,DY,X,Y)+LG(F,DX,Y,X)+LC(G,F) (4)。
步骤3中的Faster RCNN网络结构包括依次连接VGG16特征提取网络F(·)和RPN网络,VGG16特征提取网络F(·)包括的两个卷积层、一个RELU激活函数、一个最大池化层、两个卷积层、一个最大池化层、三个卷积层、一个RELU激活函数、一个最池化层、两个卷积层、一个RELU激活函数、一个最池化层;输入图像经VGG16特征提取网络F(·)得到特征图再经过RPN网络,首先经过512个3×3的卷积后,分为两条支路,第一条支路使用18个1×1的卷积后,实现对图像中前景或背景的分类,第二条支路使用36个1×1的卷积后,实现对所检测图像的边界框回归。
步骤3中目标检测器的训练过程为:
步骤3.1、将源域Ds的样本
Figure BDA0003549607920000051
以及生成数据域DG中与目标域相似的样本
Figure BDA0003549607920000052
混合并使用VGG16网络作为特征提取器F(·)提取出高维特征向量F(DS),F(DT);
步骤3.2将高维特征向量F(DS),F(DT)输入给后续全连接网络、ReLU非线性激活函数和全连接网络中,得到保存足够特征信息的特征图S、将特征图S经过3*3的卷积处理后,得到一个高维特征向量;
步骤3.3、再经过两次1*1卷积操作,得到两个特征图,根据这两个特征图的输出分数,可获得候选区域R,再对特征图S和候选区域R进行感兴趣区域池化P(·)得到每个感兴趣区域的特征向量P(S,R),将特征向量P(S,R)输入分类器层得到感兴趣区域的类别和边界框,迭代完成目标检测器的训练。
步骤3中目标检测器的损失函数为分类损失和回归损失的和,如下所示:
Figure BDA0003549607920000061
Figure BDA0003549607920000062
Figure BDA0003549607920000063
Figure BDA0003549607920000064
其中
Figure BDA0003549607920000065
为小批量中锚点的索引,pi是锚点
Figure BDA0003549607920000066
作为目标的预测概率,
Figure BDA0003549607920000067
为真值,当anchor为正时,
Figure BDA0003549607920000068
为1,当anchor为负时,
Figure BDA0003549607920000069
为0,ti是预测边界框的四个参数化坐标的向量,
Figure BDA00035496079200000610
是与正锚框相关联的真实框的坐标,LC是两个类别的分类损失,Lr是边界框回归的损失,{pi},{ti}分别表示分类层和回归层的输出。
步骤4具体的为:
步骤4.1、对目标域DT验证集进行复杂度评估,首先使用预训练的VGG网络,移除其最后一层作为特征提取器,进行样本的特征提取,同时对所输入的图像进行数据增强,最后将所输出的高维特征向量使用L2范数进行归一化,然后使用归一化的特征来训练岭回归分类器,使模型能够预测到ground-truth难度的分数;
步骤4.2、根据评估结果将目标域DT验证集样本按难度进行划分,按照难度将样本划分为k个批次,样本难度评估公式如下所示:
Figure BDA0003549607920000071
其中I为输入图像,B为边界框坐标,wi、hi为边界框坐标中的宽度和高度,n为样本数目;
步骤4.3,在对验证集样本进行复杂度评估后,根据复杂度评估结果可将样本分为简单、中等和困难,随后先将容易的样本输入给目标检测器,得到目标检测器对于目标域DT样本的预测结果,随后将预测结果作为简单样本的伪标签,再次训练目标检测器,然后再将中等难度样本输入给目标检测器,执行与简单样本相同的操作,最后将困难样本输入目标检测器,同样执行与简单样本相同的操作,以此完成对验证集数据的迭代,完成目标检测器的最终训练。
本发明的有益效果是:
本发明提出了一种基于领域自适应的目标检测方法,在保证全局领域分布的基础上,同时并不改变源域与目标域中数据之间的区别信息。经过领域对抗损失、循环一致性损失和目标检测器回归损失训练以后,通过将目标域验证集数据按照从易到难的顺序进行排序,按照这个顺序输入给目标检测器进行预测,以此给目标域验证集样本打上伪标签,然后使用已有伪标签的验证集样本再对目标检测器进行训练,循环迭代对目标检测器完成最终训练,使其能够在目标域测试集中展现出更好的分类和预测性能。
附图说明
图1是本发明基于领域自适应的目标检测方法的网络结构图;
图2是本发明步骤2的CycleGAN网络的网络结构示意图;
图3是本发明步骤3的Faster RCNN的网络结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于领域自适应的跨域目标检测方法,具体步骤包括:
步骤1,获取包括源域Ds和目标域DT的目标检测数据集,进行数据增强和数据集扩充;
步骤2,构建CycleGAN网络,采用扩充后的数据集对CycleGAN网络进行训练并输出生成数据域DG
步骤3,构建Faster RCNN网络作为目标检测器,采用源域Ds和生成数据域DG作为训练集对目标检测器进行训练;
步骤4,对目标域DT的数据集进行复杂度评估划分为不同等级的数据,根据复杂度评估的结果,对目标检测器进行再训练;
步骤5,采用步骤4训练好的目标检测器对待检测数据进行目标检测,最终得到检测结果。
步骤1具体为:源域数据集Ds服从某种分布Ps(x),类别标签为Ls,即
Figure BDA0003549607920000081
目标域数据集DT服从分布PT(x),类别标签为LT,即
Figure BDA0003549607920000082
将源域、目标域数据集分批次输入到随机数据增广网络中,随机数据增广网络对原始的源域以及目标域数据集样本旋转、裁剪和加入高斯白噪声变换后恢复至原始输入大小,形成新的样本加入至原始数据集中,从而实现数据集扩充的目的;
其中步骤2中CycleGAN网络结构由两个相同结构的生成器和两个相同结构的判别器构成,其中生成器结构为依次连接的三层卷积层、六层ResNet模块、两层反卷积层和一层卷积层,每个卷积层后接一种非线性激活函数,判别器结构为依次连接的五层卷积层和一层全连接层,卷积层后接一种非线性激活函数,全连接层后接Softmax函数。
其中步骤2中对CycleGAN网络的训练过程为:
步骤2.1、从源域Ds中抽取一个子集X,并从目标域DT中也抽取一个子集Y,以X为例,将X输入给CycleGAN网络的第一个判别器DX
步骤2.2、由步骤2.1将X输入给判别器DX后,给生成器GX输入随机高斯白噪声,生成器生成图像后,将其再输入给判别器DX,判别器DX对输入图像进行判断,若输入图像为生成图像,判别器DX输出为0,若输入图像为真实图像判别器DX输出为1;
步骤2.3、同理对Y也进行同样的操作,将Y输入给判别器DY,给生成器GY输入随机高斯白噪声,生成器生成图像后再输入判别器DY,判别器DY对输入图像进行判断,若输入图像为生成图像,判别器DY输出为0,若输入图像为真实图像判别器DY输出为1;
步骤2中整个网络训练过程中的主要目标为实现两种映射函数:
G:X→Y、F:Y→X
使得生成的图像与目标域图像相似,其对抗性损失函数为:
Figure BDA0003549607920000091
其中LG(G,DY)表示实现映射F:Y→X时的损失函数,其中
Figure BDA0003549607920000092
表示真实样本y通过判别器DY的损失函数,其中
Figure BDA0003549607920000101
表示生成样本G(x)通过判别器DY的损失函数,DY(y)表示真实样本y通过判别器DY的得分,DY(G(x))表示生成样本G(x)通过判别器DY的得分。
Figure BDA0003549607920000102
其中LG(F,DX)表示实现映射G:X→Y时的损失函数,其中
Figure BDA0003549607920000103
表示真实样本x通过判别器DX的损失函数,其中
Figure BDA0003549607920000104
表示生成样本F(y)通过判别器DX的损失函数,DX(x)表示真实样本x通过判别器DX的得分,DX(F(y))表示生成样本F(y)通过判别器DX的得分。
此外进一步进行优化,其循环一致性损失为
Figure BDA0003549607920000105
其中LC(G,F)表示在对齐生成样本和真实样本的分布时所产生的损失,F(G(x))-x表示生成样本G(x)和真实样本x之间的损失值,G(F(y))-y表示生成样本F(y)和真实样本y之间的损失值,||·||1为向量的L1范数;
故最终的优化函数为:
L(G,F,DX,DY)=LG(G,DY,X,Y)+LG(F,DX,Y,X)+LC(G,F) (4)
步骤3中的Faster RCNN网络结构包括VGG16特征提取网络F(·)和RPN网络。
VGG16网络结构由13个卷积层和3个全连接层组成,因为将其作为特征提取网络,故去掉全连接层。输入图像首先经过64个3×3的卷积核的卷积两次后,接ReLU激活函数,经过一次卷积核为2×2最大池化,然后经过128个3×3的卷积核卷积两次后,接ReLU激活函数,再经过一次卷积核为2×2最大池化,在经过256个3×3的卷积核卷积三次后,接ReLU激活函数,再经过一次卷积核为2×2最大池化,再重复两次使用512个3×3的卷积核卷积后,接ReLU激活函数,再经过一次卷积核为2×2最大池化,即可得特征图。
RPN网络的输入为经过VGG16后得到的特征图,首先经过512个3×3的卷积后,分为两条支路,第一条支路使用18个1×1的卷积后,实现对图像中前景或背景的分类,第二条支路使用36个1×1的卷积后,实现对所检测图像的边界框回归。
步骤3中目标检测器的训练过程为:
步骤3.1、将源域Ds的样本
Figure BDA0003549607920000111
以及生成数据域DG中与目标域相似的样本
Figure BDA0003549607920000112
混合并使用VGG16网络作为特征提取器F(·)提取出高维特征向量F(DS),F(DT);
步骤3.2将高维特征向量F(DS),F(DT)输入给后续全连接网络、ReLU非线性激活函数和全连接网络中,得到保存足够特征信息的特征图S、将特征图S经过3*3的卷积处理后,得到一个高维特征向量;
步骤3.3、再经过两次1*1卷积操作,得到两个特征图,根据这两个特征图的输出分数,可获得候选区域R,再对特征图S和候选区域R进行感兴趣区域池化P(·)得到每个感兴趣区域的特征向量P(S,R),将特征向量P(S,R)输入分类器层得到感兴趣区域的类别和边界框,迭代完成目标检测器的训练。
步骤3中目标检测器的损失函数为分类损失和回归损失的和,如下所示:
Figure BDA0003549607920000121
Figure BDA0003549607920000122
Figure BDA0003549607920000123
Figure BDA0003549607920000124
其中
Figure BDA0003549607920000125
为小批量中锚点的索引,pi是锚点
Figure BDA0003549607920000126
作为目标的预测概率,
Figure BDA0003549607920000127
为真值,当anchor为正时,
Figure BDA0003549607920000128
为1,当anchor为负时,
Figure BDA0003549607920000129
为0,ti是预测边界框的四个参数化坐标的向量,
Figure BDA00035496079200001210
是与正锚框相关联的真实框的坐标,LC是两个类别的分类损失,Lr是边界框回归的损失,{pi},{ti}分别表示分类层和回归层的输出。
其中步骤4具体的包括:
步骤4.1、对目标域DT验证集进行复杂度评估,首先使用预训练的VGG网络,移除其最后一层作为特征提取器,进行样本的特征提取,同时对所输入的图像进行数据增强,最后将所输出的高维特征向量使用L2范数进行归一化,然后使用归一化的特征来训练岭回归分类器,使模型能够预测到ground-truth难度的分数;
步骤4.2、根据评估结果将目标域DT验证集样本按难度进行划分,按照难度将样本划分为k个批次,样本难度评估公式如下所示:
Figure BDA00035496079200001211
其中I为输入图像,B为边界框坐标,wi、hi为边界框坐标中的宽度和高度,n为样本数目。
步骤4.3,在对验证集样本进行复杂度评估后,根据复杂度评估结果可将样本分为简单、中等和困难,随后先将容易的样本输入给目标检测器,得到目标检测器对于目标域DT样本的预测结果,随后将预测结果作为简单样本的伪标签,再次训练目标检测器,然后再将中等难度样本输入给目标检测器,执行与简单样本相同的操作,最后将困难样本输入目标检测器,同样执行与简单样本相同的操作,以此完成对验证集数据的迭代,完成目标检测器的最终训练。

Claims (8)

1.基于领域自适应的跨域目标检测方法,其特征在于,具体步骤包括:
步骤1,获取包括源域Ds和目标域DT的目标检测数据集,进行数据增强和数据集扩充;
步骤2,构建CycleGAN网络,将扩充后的数据集对CycleGAN网络进行训练并输出生成数据域DG
步骤3,构建Faster RCNN网络作为目标检测器,将源域Ds和生成数据域DG作为训练集对目标检测器进行训练;
步骤4,对目标域DT的数据集进行复杂度评估划分为不同等级的数据,根据复杂度评估的结果,对目标检测器进行再训练;
步骤5,采用步骤4训练好的目标检测器对待检测数据进行目标检测,最终得到检测结果。
2.如权利要求1所述的基于领域自适应的跨域目标检测方法,其特征在于,步骤2中所述CycleGAN网络结构由两个相同结构的生成器和两个相同结构的判别器构成,生成器结构为依次连接的三层卷积层、六层ResNet模块、两层反卷积层和一层卷积层,每个卷积层后接一种非线性激活函数,判别器结构为依次连接的五层卷积层和一层全连接层,卷积层后接一种非线性激活函数,全连接层后接Softmax函数。
3.如权利要求2所述的基于领域自适应的跨域目标检测方法,其特征在于,步骤2对所述CycleGAN网络的训练过程为:
步骤2.1、从源域Ds中抽取一个子集X,并从目标域DT中也抽取一个子集Y,以X为例,将X输入给CycleGAN网络的第一个判别器DX
步骤2.2、由步骤2.1将X输入给判别器DX后,给生成器GX输入随机高斯白噪声,生成器生成图像后,将其再输入给判别器DX,判别器DX对输入图像进行判断,若输入图像为生成图像,判别器DX输出为0,若输入图像为真实图像判别器DX输出为1;
步骤2.3、同理对Y也进行同样的操作,将Y输入给判别器DY,给生成器GY输入随机高斯白噪声,生成器生成图像后再输入判别器DY,判别器DY对输入图像进行判断,若输入图像为生成图像,判别器DY输出为0,若输入图像为真实图像判别器DY输出为1。
4.如权利要求2所述的基于领域自适应的跨域目标检测方法,其特征在于,所述CycleGAN网络包括对实现映射F:Y→X时的损失函数LG(G,DY)、表示实现映射G:X→Y时的损失函数LG(F,DX)、循环一致性损失函数LC(G,F)如公式(1)~(3):
Figure FDA0003549607910000021
其中LG(G,DY)表示实现映射F:Y→X时的损失函数,其中
Figure FDA0003549607910000022
表示真实样本y通过判别器DY的损失函数,其中
Figure FDA0003549607910000023
表示生成样本G(x)通过判别器DY的损失函数,DY(y)表示真实样本y通过判别器DY的得分,DY(G(x))表示生成样本G(x)通过判别器DY的得分;
Figure FDA0003549607910000024
其中LG(F,DX)表示实现映射G:X→Y时的损失函数,其中
Figure FDA0003549607910000031
表示真实样本x通过判别器DX的损失函数,其中
Figure FDA0003549607910000032
表示生成样本F(y)通过判别器DX的损失函数,DX(x)表示真实样本x通过判别器DX的得分,DX(F(y))表示生成样本F(y)通过判别器DX的得分;
循环一致性损失为:
Figure FDA0003549607910000033
其中LC(G,F)表示在对齐生成样本和真实样本的分布时所产生的损失,F(G(x))-x表示生成样本G(x)和真实样本x之间的损失值,G(F(y))-y表示生成样本F(y)和真实样本y之间的损失值,||·||1为向量的L1范数;
则最终的优化函数为:
L(G,F,DX,DY)=LG(G,DY,X,Y)+LG(F,DX,Y,X)+LC(G,F) (4)。
5.如权利要求1所述的基于领域自适应的跨域目标检测方法,其特征在于,步骤3中的Faster RCNN网络结构包括依次连接VGG16特征提取网络F(·)和RPN网络,所述VGG16特征提取网络F(·)包括的两个卷积层、一个RELU激活函数、一个最大池化层、两个卷积层、一个最大池化层、三个卷积层、一个RELU激活函数、一个最池化层、两个卷积层、一个RELU激活函数、一个最池化层;输入图像经VGG16特征提取网络F(·)得到特征图再经过RPN网络,首先经过512个3×3的卷积后,分为两条支路,第一条支路使用18个1×1的卷积后,实现对图像中前景或背景的分类,第二条支路使用36个1×1的卷积后,实现对所检测图像的边界框回归。
6.如权利要求5所述的基于领域自适应的跨域目标检测方法,其特征在于,步骤3中目标检测器的训练过程为:
步骤3.1、将源域Ds的样本
Figure FDA0003549607910000041
以及生成数据域DG中与目标域相似的样本
Figure FDA0003549607910000042
混合并使用VGG16网络作为特征提取器F(·)提取出高维特征向量F(DS),F(DT);
步骤3.2将高维特征向量F(DS),F(DT)输入给后续全连接网络、ReLU非线性激活函数和全连接网络中,得到保存足够特征信息的特征图S、将特征图S经过3*3的卷积处理后,得到一个高维特征向量;
步骤3.3、再经过两次1*1卷积操作,得到两个特征图,根据这两个特征图的输出分数,获得候选区域R,再对特征图S和候选区域R进行感兴趣区域池化P(·)得到每个感兴趣区域的特征向量P(S,R),将特征向量P(S,R)输入分类器层得到感兴趣区域的类别和边界框,迭代完成目标检测器的训练。
7.如权利要求5所述的基于领域自适应的跨域目标检测方法,其特征在于,步骤3中目标检测器的损失函数为分类损失和回归损失的和,如下所示:
Figure FDA0003549607910000043
Figure FDA0003549607910000044
Figure FDA0003549607910000045
Figure FDA0003549607910000046
其中
Figure FDA0003549607910000047
为小批量中锚点的索引,pi是锚点
Figure FDA0003549607910000048
作为目标的预测概率,
Figure FDA0003549607910000049
为真值,当anchor为正时,
Figure FDA0003549607910000051
为1,当anchor为负时,
Figure FDA0003549607910000052
为0,ti是预测边界框的四个参数化坐标的向量,
Figure FDA0003549607910000053
是与正锚框相关联的真实框的坐标,LC是两个类别的分类损失,Lr是边界框回归的损失,{pi},{ti}分别表示分类层和回归层的输出。
8.如权利要求1所述的基于领域自适应的跨域目标检测方法,其特征在于,所述步骤4具体的为:
步骤4.1、对目标域DT验证集进行复杂度评估,首先使用预训练的VGG网络,移除其最后一层作为特征提取器,进行样本的特征提取,同时对所输入的图像进行数据增强,最后将所输出的高维特征向量使用L2范数进行归一化,然后使用归一化的特征来训练岭回归分类器,使模型能够预测到ground-truth难度的分数;
步骤4.2、根据评估结果将目标域DT验证集样本按难度进行划分,按照难度将样本划分为k个批次,样本难度评估公式如下所示:
Figure FDA0003549607910000054
其中I为输入图像,B为边界框坐标,wi、hi为边界框坐标中的宽度和高度,n为样本数目;
步骤4.3,在对验证集样本进行复杂度评估后,根据复杂度评估结果将样本分为简单、中等和困难,随后先将容易的样本输入给目标检测器,得到目标检测器对于目标域DT样本的预测结果,随后将预测结果作为简单样本的伪标签,再次训练目标检测器,然后再将中等难度样本输入给目标检测器,执行与简单样本相同的操作,最后将困难样本输入目标检测器,同样执行与简单样本相同的操作,以此完成对验证集数据的迭代,完成目标检测器的最终训练。
CN202210258271.1A 2022-03-16 2022-03-16 基于领域自适应的跨域目标检测方法 Pending CN114626461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210258271.1A CN114626461A (zh) 2022-03-16 2022-03-16 基于领域自适应的跨域目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210258271.1A CN114626461A (zh) 2022-03-16 2022-03-16 基于领域自适应的跨域目标检测方法

Publications (1)

Publication Number Publication Date
CN114626461A true CN114626461A (zh) 2022-06-14

Family

ID=81901806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210258271.1A Pending CN114626461A (zh) 2022-03-16 2022-03-16 基于领域自适应的跨域目标检测方法

Country Status (1)

Country Link
CN (1) CN114626461A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311657A (zh) * 2022-09-02 2022-11-08 澳门科技大学 多源藻类图像目标检测方法、系统、电子设备及存储介质
CN116778335A (zh) * 2023-07-04 2023-09-19 中国科学院空天信息创新研究院 一种基于交叉域师生互训的倒塌建筑物检测方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311657A (zh) * 2022-09-02 2022-11-08 澳门科技大学 多源藻类图像目标检测方法、系统、电子设备及存储介质
CN115311657B (zh) * 2022-09-02 2024-01-05 澳门科技大学 多源藻类图像目标检测方法、系统、电子设备及存储介质
CN116778335A (zh) * 2023-07-04 2023-09-19 中国科学院空天信息创新研究院 一种基于交叉域师生互训的倒塌建筑物检测方法和系统
CN116778335B (zh) * 2023-07-04 2024-04-26 中国科学院空天信息创新研究院 一种基于交叉域师生互训的倒塌建筑物检测方法和系统

Similar Documents

Publication Publication Date Title
Zhang et al. CrackGAN: Pavement crack detection using partially accurate ground truths based on generative adversarial learning
Liao et al. Textboxes: A fast text detector with a single deep neural network
CN108829677B (zh) 一种基于多模态注意力的图像标题自动生成方法
Wang et al. Deep learning algorithms with applications to video analytics for a smart city: A survey
CN105447473B (zh) 一种基于PCANet-CNN的任意姿态人脸表情识别方法
Dekhtyar et al. Re data challenge: Requirements identification with word2vec and tensorflow
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
Zhang et al. Small Object Detection via Precise Region-Based Fully Convolutional Networks.
Li et al. Pushing the “Speed Limit”: high-accuracy US traffic sign recognition with convolutional neural networks
CN114626461A (zh) 基于领域自适应的跨域目标检测方法
Sajanraj et al. Indian sign language numeral recognition using region of interest convolutional neural network
Rasheed et al. Handwritten Urdu characters and digits recognition using transfer learning and augmentation with AlexNet
CN114821014A (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
Yu et al. Exemplar-based recursive instance segmentation with application to plant image analysis
Zhao et al. Cbph-net: A small object detector for behavior recognition in classroom scenarios
Yu et al. EGNet: Efficient robotic grasp detection network
Yan et al. An incremental intelligent object recognition system based on deep learning
Tyagi et al. Hybrid FAST-SIFT-CNN (HFSC) approach for vision-based Indian sign language recognition
Sun et al. Multi-AUV target recognition method based on GAN-meta learning
Athanesious et al. Deep learning based automated attendance system
Yan et al. Rare Chinese character recognition by Radical extraction network
Wang et al. Multi-scale decision network with feature fusion and weighting for few-shot learning
Kale et al. Age, gender and ethnicity classification from face images with CNN-based features
Saha et al. Transfer Learning–A Comparative Analysis
Petluru et al. Transfer Learning-based Facial Expression Recognition with modified ResNet50

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination