CN113052243A - 基于CycleGAN和条件分布自适应的目标检测方法 - Google Patents

基于CycleGAN和条件分布自适应的目标检测方法 Download PDF

Info

Publication number
CN113052243A
CN113052243A CN202110339562.9A CN202110339562A CN113052243A CN 113052243 A CN113052243 A CN 113052243A CN 202110339562 A CN202110339562 A CN 202110339562A CN 113052243 A CN113052243 A CN 113052243A
Authority
CN
China
Prior art keywords
domain
data set
target
image
cyclegan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110339562.9A
Other languages
English (en)
Inventor
汪梦婷
许金山
胡凤丹
陈镇钦
楼航晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110339562.9A priority Critical patent/CN113052243A/zh
Publication of CN113052243A publication Critical patent/CN113052243A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

一种基于CycleGAN和条件分布自适应的目标检测方法,主要解决现实问题中往往无法提供检测器所需的大量实例级注释的问题,利用CycleGAN将源域数据进行迁移,获得逼近目标域分布的中间数据集,预处理后训练Faster RCNN网络;将中间数据集和目标域数据输入特征提取器获得特征图,域分类器根据特征区分图像属于中间数据集或目标域,域分类器和特征提取器对抗训练获得最大公共特征;将目标域的公有特征输入Faster RCNN中进行目标检测,获得图像的定位结果。本发明结合了CycleGAN进行风格迁移和条件分布适应的优点,实现了缺实例级标注下的对图像的准确目标检测。

Description

基于CycleGAN和条件分布自适应的目标检测方法
技术领域
本申请属于深度学习领域,具体涉及基于CycleGAN和条件分布自适应的目标检测方法。
背景技术
目标检测是计算机视觉中的基础又具挑战的任务。最先进的目标检测方法通常基于训练数据和测试数据都来自相同的分布。目前,目标检测中性能最佳的检测器是全监督检测器(FSDs),但通常需要大量的带实例级注释的图像中学习。实例级注释由标签和边界框组成。但在很多图像领域中,构建具有实例级注释的大型数据集通常是困难和不现实的(缺乏图像来源、版权和注释成本等障碍)。使用已有数据辅助训练模型能很好地缓解数据稀缺问题,但光照、姿态和图像质量等影响,会造成两个域之间存在降低性能的变化或偏移。因此,如何高效使用已有数据的信息称为一个关键问题。
目前,深度域自适应在图像分类和语义分割上获得了很好的效果,也有望能提高目标检测的性能。深度域自适应目标检测旨在利用源域丰富的数据和目标域贫乏的数据来学习一个鲁棒的目标检测器,学习过程依赖于深度域自适应目标检测模型或原理,源域和目标域之间的分布不同或完全不同,经过训练的目标检测器有望在目标域表现出色。因此,如何减少域偏移并构建鲁棒的目标检测器对目标检测任务非常重要。
发明内容
为了克服现有技术的不足,本申请提供一种基于CycleGAN和条件分布自适应的目标检测方法,通过Fsater RCNN网络进行目标检测,得到基于CycleGAN和条件分布自适应的目标检测模型。
为实现上述目的,本申请所采取的技术方案为:
一种基于CycleGAN和条件分布自适应的目标检测方法,包括以下步骤:
步骤S1、使用CycleGAN将源域数据集进行迁移,得到更逼近目标域分布的中间数据集,预处理后对Faster RCNN网络进行训练;
步骤S2、将目标域数据集进行预处理;
步骤S3、将预处理后的中间数据集和目标域图像输入到特征提取器中,域鉴别器根据条件分布判断特征属于中间数据集或目标域,进行对抗训练后得到最大公有特征;
步骤S4、检测器根据公有特征对目标域图像分类和定位,最终得到基于CycleGAN和条件分布自适应的目标检测模型。
进一步,所述步骤S1中,通过使用CycleGAN对源域数据集处理后的得到贴近目标域的中间数据集,并训练Faster RCNN,过程如下:
S11.将源域数据Xs和目标域数据Xt放入CycleGAN模型中,得到预训练模型M;
S12.将源域中的数据集Xs再次输入到模型M中,得到更逼近目标域数据分布的数据集Xc={(s1,q1,a1),...(sj,qj,aj),...(sn,qn,an)},其中,n代表Xc中图像样本个数,sj代表Xc中第j个图像样本,qj代表Xc中第j个样本含有的标签数据,aj代表Xc中第j个样本含有的位置数据;
S13.对中间数据集Xc预处理,将生成的中间数据集Xc进行尺寸归一化操作,得到预处理后的中间数据集Xc*={(p1*,b1*,c1*),...(pj*,bj*,cj*),...,(pn*,bn*,cn*)};其中,pj*代表Xc*中第j个图像样本,bj*代表Xc*中第j个样本含有的标签数据,cj*表述Xc*中第j个图像样本含有的位置数据;
S14.使用Xc*对Faster RCNN进行训练,得到模型N。
再进一步,所述步骤S2的过程如下:
将目标域数据集Xt={u1,...uj,...,uw}进行尺寸归一化操作,得到预处理后的目标域数据集Xt*={v1,...vj,...,vw};其中,w为Xt中图像样本的个数,uj表示Xt中第j个图像样本,vj表示Xt*中第j个图像样本。
更进一步,所述步骤S3中,提取中间数据集Xc*和目标域图像Xt*的最大公共特征,用模型N进行目标检测,过程如下:
S31.将数据集Xc*和目标域Xt*中图像输入CNN特征提取器中;
S32.特征提取器对图像进行卷积操作,得到图像的特征图f,尺寸为H×W×C,其中H、W、C分别是图像的高度、宽度和通道数;
S33.将特征图输入域鉴别器D中,域分类器根据由特征图判断图像属于数据集Xc*或Xt*;
S34.根据域分类结果调整特征提取器,直至提取出最大公共特征fmax,优化函数为;
Figure BDA0002998728740000031
其中代表源域中样本数量,ns代表中间数据集的样本数量,nt代表目标域的样本数量,c代表域分类器数量,Ds代表中间域Xc*,Dt代表目标域Xt*,xi代表输入样本,
Figure BDA0002998728740000032
代表输入样本xi的预测概率分布,Gf代表域分类器,Ld代表分类器的交叉熵,di代表输入样本xi的域标签;
S35.将特征fmax输入模型N,得到目标检测结果。
本发明的有益效果为:利用CycleGAN对源域图像进行处理,得到更接近于目标域的中间数据集,将中间数据集对Fast RCNN训练,然后提取中间数据集和目标域数据的最大公有特征,并将目标域的此特征放入检测器,充分拉近源域和目标域的数据分布,得到最大公有特征,显著提高深度域自适应中目标检测的准确性。
附图说明
图1为本申请的基于CycleGAN和条件分布自适应的目标检测算法的流程图;
图2为本申请CycleGAN处理示意图;
图3为本申请CycleGAN循环一致性处理示意图;
图4为本申请对图像进行预处理示意图;
图5为使用特征提取器提取图像特征后,域分类根据条件分布区分域后,调整特征提取器获得最大公共特征的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
参照图1~图5,一种基于CycleGAN和条件分布自适应的目标检测方法,该方法利用了CycleGAN将源域图像转换为和目标域更相似的中间数据集,再利用特征提取器和域分类器对抗训练,提取最大公共特征,实现目标域缺标签情况下的准确分类。
具体的,如图1所示,本实例的基于CycleGAN和条件分布自适应的目标检测方法,包括以下步骤:
步骤S1、使用CycleGAN将源域数据集进行迁移,得到更逼近目标域分布的中间数据集,预处理后对Faster RCNN网络进行训练;
步骤S2、将目标域数据集进行预处理;
步骤S3、将预处理后的中间数据集和目标域图像输入到特征提取器中,域鉴别器根据条件分布判断特征属于中间数据集或目标域,进行对抗训练后得到最大公有特征;
步骤S4、检测器根据公有特征对目标域图像分类和定位,最终得到基于CycleGAN和条件分布自适应的目标检测模型,
所述步骤S1中,对源域数据集进行风格迁移方法,其特征在于,利用CycleGAN对源域中的图像进行转换,预处理后训练Faster RCNN模型,过程如下:
S11.将源域数据Xs和目标域数据Xt放入CycleGAN模型中,得到预训练模型M;
S12.将源域中的数据集Xs再次输入到模型M中,得到更逼近目标域数据分布的数据集Xc={(s1,q1,a1),...(sj,qj,aj),...(sn,qn,an)},其中,n代表Xc中图像样本个数,sj代表Xc中第j个图像样本,qj代表Xc中第j个样本含有的标签数据,aj代表Xc中第j个样本含有的位置数据;
S13.对中间数据集Xc预处理,将生成的中间数据集Xc进行尺寸归一化操作,得到预处理后的中间数据集Xc*={(p1*,b1*,c1*),...(pj*,bj*,cj*),...,(pn*,bn*,cn*)};其中,pj*代表Xc*中第j个图像样本,bj*代表Xc*中第j个样本含有的标签数据,cj*表述Xc*中第j个图像样本含有的位置数据;
S14.使用Xc*对Faster RCNN进行训练,得到模型N。
所述步骤S2的过程如下:
将目标域数据集Xt={u1,...uj,...,uw}进行尺寸归一化操作,得到预处理后的目标域数据集Xt*={v1,...vj,...,vw};其中,w为Xt中图像样本的个数,uj表示Xt中第j个图像样本,vj表示Xt*中第j个图像样本。
所述步骤S3中,利用特征提取器提取中间域数据集和目标域的最大公共特征,放入域鉴别器进行域判断,优化损失函数提取出最大公共特征,实现目标域的图像定位;过程如下:
S31.将数据集Xc*和目标域Xt*中图像输入CNN特征提取器中;
S32.特征提取器对图像进行卷积操作,得到图像的特征图f,尺寸为H×W×C,其中H、W、C分别是图像的高度、宽度和通道数;
S33.将特征图输入域鉴别器D中,域分类器根据由特征图判断图像属于数据集Xc*或Xt*;
S34.根据域分类结果调整特征提取器,直至提取出最大公共特征fmax,优化函数为;
Figure BDA0002998728740000051
其中代表源域中样本数量,ns代表中间数据集的样本数量,nt代表目标域的样本数量,c代表域分类器数量,Ds代表中间域Xc*,Dt代表目标域Xt*,xi代表输入样本,
Figure BDA0002998728740000061
代表输入样本xi的预测概率分布,Gf代表域分类器,Ld代表分类器的交叉熵,di代表输入样本xi的域标签;
S35.将特征fmax输入模型N,得到目标检测结果。
本实施例提供的基于CycleGAN和条件分布自适应的图像目标检测方法,利用CycleGAN对源域图像进行处理,得到更接近于目标域的中间数据集,将中间数据集对FastRCNN训练,然后提取中间数据集和目标域数据的最大公有特征,并将目标域的此特征放入检测器,充分拉近源域和目标域的数据分布,得到最大公有特征,显著提高深度域自适应中目标检测的准确性。
本实施中先将源域图像通过CycleGAN进行迁移,获得更加接近目标域的中间数据集,中间数据集获得源域中的图像级和实例级特征,再利用中间数据集预处理后训练Faster RCNN,获得目标检测模型。将中间数据集和目标域数据集输入CNN特征提取器,提取出图像的特征图,域分类器根据特征图判断特征属于源域或目标域,通过优化函数调整特征提取器,直至提取出两个数据集间最大公共特征,输入训练的模型中进行目标检测。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种基于CycleGAN和条件分布自适应的目标检测方法,其特征在于,所述方法包括以下步骤:
步骤S1、使用CycleGAN将源域数据集进行迁移,得到更逼近目标域分布的中间数据集,预处理后对Faster RCNN网络进行训练;
步骤S2、将目标域数据集进行预处理;
步骤S3、将预处理后的中间数据集和目标域图像输入到特征提取器中,域鉴别器根据条件分布判断特征属于中间数据集或目标域,进行对抗训练后得到最大公有特征;
步骤S4、检测器根据公有特征对目标域图像分类和定位,最终得到基于CycleGAN和条件分布自适应的目标检测模型。
2.如权利要求1所述的的基于CycleGAN和条件分布自适应的目标检测方法,其特征在于,所述步骤S1中,利用CycleGAN对源域中的图像进行转换,预处理后训练Faster RCNN模型,过程如下:
S11.将源域数据Xs和目标域数据Xt放入CycleGAN模型中,得到预训练模型M;
S12.将源域中的数据集Xs再次输入到模型M中,得到更逼近目标域数据分布的数据集Xc={(s1,q1,a1),...(sj,qj,aj),...(sn,qn,an)},其中,n代表Xc中图像样本个数,sj代表Xc中第j个图像样本,qj代表Xc中第j个样本含有的标签数据,aj代表Xc中第j个样本含有的位置数据;
S13.对中间数据集Xc预处理,将生成的中间数据集Xc进行尺寸归一化操作,得到预处理后的中间数据集Xc*={(p1*,b1*,c1*),...(pj*,bj*,cj*),...,(pn*,bn*,cn*)};其中,pj*代表Xc*中第j个图像样本,bj*代表Xc*中第j个样本含有的标签数据,cj*表述Xc*中第j个图像样本含有的位置数据;
S14.使用Xc*对Faster RCNN进行训练,得到模型N。
3.如权利要求2所述的的基于CycleGAN和条件分布自适应的目标检测方法,其特征在于,所述步骤S2的过程如下:
将目标域数据集Xt={u1,...uj,...,uw}进行尺寸归一化操作,得到预处理后的目标域数据集Xt*={v1,...vj,...,vw};其中,w为Xt中图像样本的个数,uj表示Xt中第j个图像样本,vj表示Xt*中第j个图像样本。
4.如权利要求1~3之一所述的基于CycleGAN和条件分布自适应的目标检测方法,其特征在于:所述步骤S3中,利用特征提取器提取中间域数据集和目标域的最大公共特征,放入域鉴别器进行域判断,优化损失函数提取出最大公共特征,实现目标域的图像定位,过程如下:
S31.将数据集Xc*和目标域Xt*中图像输入CNN特征提取器中;
S32.特征提取器对图像进行卷积操作,得到图像的特征图f,尺寸为H×W×C,其中H、W、C分别是图像的高度、宽度和通道数;
S33.将特征图输入域鉴别器D中,域分类器根据由特征图判断图像属于数据集Xc*或Xt*;
S34.根据域分类结果调整特征提取器,直至提取出最大公共特征fmax,优化函数为;
Figure FDA0002998728730000021
其中代表源域中样本数量,ns代表中间数据集的样本数量,nt代表目标域的样本数量,c代表域分类器数量,Ds代表中间域Xc*,Dt代表目标域Xt*,xi代表输入样本,
Figure FDA0002998728730000022
代表输入样本xi的预测概率分布,Gf代表域分类器,Ld代表分类器的交叉熵,di代表输入样本xi的域标签;
S35.将特征fmax输入模型N,得到目标检测结果。
CN202110339562.9A 2021-03-30 2021-03-30 基于CycleGAN和条件分布自适应的目标检测方法 Pending CN113052243A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110339562.9A CN113052243A (zh) 2021-03-30 2021-03-30 基于CycleGAN和条件分布自适应的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110339562.9A CN113052243A (zh) 2021-03-30 2021-03-30 基于CycleGAN和条件分布自适应的目标检测方法

Publications (1)

Publication Number Publication Date
CN113052243A true CN113052243A (zh) 2021-06-29

Family

ID=76517007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110339562.9A Pending CN113052243A (zh) 2021-03-30 2021-03-30 基于CycleGAN和条件分布自适应的目标检测方法

Country Status (1)

Country Link
CN (1) CN113052243A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762466A (zh) * 2021-08-02 2021-12-07 国网河南省电力公司信息通信公司 电力物联网流量分类方法及装置
CN114037737A (zh) * 2021-11-16 2022-02-11 浙江大学 一种基于神经网络的近岸海底鱼类检测及跟踪统计方法
CN114973168A (zh) * 2022-08-01 2022-08-30 北京科技大学 一种跨场景交通目标检测方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762466A (zh) * 2021-08-02 2021-12-07 国网河南省电力公司信息通信公司 电力物联网流量分类方法及装置
CN113762466B (zh) * 2021-08-02 2023-06-20 国网河南省电力公司信息通信公司 电力物联网流量分类方法及装置
CN114037737A (zh) * 2021-11-16 2022-02-11 浙江大学 一种基于神经网络的近岸海底鱼类检测及跟踪统计方法
CN114037737B (zh) * 2021-11-16 2022-08-09 浙江大学 一种基于神经网络的近岸海底鱼类检测及跟踪统计方法
CN114973168A (zh) * 2022-08-01 2022-08-30 北京科技大学 一种跨场景交通目标检测方法和系统

Similar Documents

Publication Publication Date Title
CN109154978B (zh) 用于检测植物疾病的系统和方法
CN113052243A (zh) 基于CycleGAN和条件分布自适应的目标检测方法
Ren et al. A convolutional neural network-based chinese text detection algorithm via text structure modeling
Karatzas et al. ICDAR 2011 robust reading competition-challenge 1: reading text in born-digital images (web and email)
WO2021135193A1 (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN111652317B (zh) 基于贝叶斯深度学习的超参数图像分割方法
CN112766334B (zh) 一种基于伪标签域适应的跨域图像分类方法
CN112149722A (zh) 一种基于无监督域适应的图像自动标注方法
CN109299303B (zh) 基于可变形卷积与深度网络的手绘草图检索方法
CN108805102A (zh) 一种基于深度学习的视频字幕检测与识别方法及系统
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
Akhlaghi et al. Farsi handwritten phone number recognition using deep learning
Jun et al. Automatic classification and recognition of complex documents based on Faster RCNN
CN110533049B (zh) 提取印章图像的方法和装置
WO2024051427A1 (zh) 硬币识别方法、系统及存储介质
Akanksh et al. Automated invoice data extraction using image processing
CN109902690A (zh) 图像识别技术
CN108154116A (zh) 一种图像识别方法及系统
Venkataraman et al. Leaf recognition algorithm for retrieving medicinal information
Ou et al. Qin Seal Script Character Recognition with Fuzzy and Incomplete Information
Sahota et al. An empirical enhancement using scale invariant feature transform in text extraction from images
Pan et al. Text detection from natural scene images using topographic maps and sparse representations
Wang et al. Research and implementation on face detection approach based on cascaded convolutional neural networks
CN109800818A (zh) 一种图像语义自动标注及检索方法及系统
Kai A painting image retrieval approach based on visual features and semantic classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination