CN109740682B - 一种基于域转化和生成模型的图像识别方法 - Google Patents

一种基于域转化和生成模型的图像识别方法 Download PDF

Info

Publication number
CN109740682B
CN109740682B CN201910016055.4A CN201910016055A CN109740682B CN 109740682 B CN109740682 B CN 109740682B CN 201910016055 A CN201910016055 A CN 201910016055A CN 109740682 B CN109740682 B CN 109740682B
Authority
CN
China
Prior art keywords
convolution
layer
domain
model
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910016055.4A
Other languages
English (en)
Other versions
CN109740682A (zh
Inventor
韩旭
张鸿杰
过洁
郭延文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910016055.4A priority Critical patent/CN109740682B/zh
Publication of CN109740682A publication Critical patent/CN109740682A/zh
Application granted granted Critical
Publication of CN109740682B publication Critical patent/CN109740682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于域转化和生成模型的图像识别方法,包括以下步骤:步骤1:构造从源域到目标域的转换模型;步骤2:构造从目标域到源域的转换模型;步骤3:构造二分类判别模型;步骤4:构造生成器;步骤5:构造分类类别为K+1的分类模型,K为类别数目;步骤6:根据步骤1,2,3,4,5得到基于源域和目标域的分类模型;步骤7:根据步骤6中得到的模型就可以得到待分类图像的分类结果。

Description

一种基于域转化和生成模型的图像识别方法
技术领域
本发明属于视觉识别领域,尤其涉及一种基于域转化和生成模型的图像识别方法。
背景技术
随着计算机视觉与图像处理技术的成熟,这些技术应用在其他领域也越来越广泛,让计算机取代人力,用低成本高效率的技术取代昂贵的技术也成为必然的发展趋势。随着机器学习算法的发展,尤其是深度学习的发展,越来越多的深度学习模型被用来解决计算机视觉领域的问题。在图片分类识别领域,深度学习模型表现优异。
然而模型的表现很大程度取决于所搜集的数据,如果所要识别的图片不属于训练集中类别,模型会将其分为训练集中的一类,而且有时候判断的分数非常的高。但是在实际应用中,很难保证测试集中的数据都在训练集中。而且生活中的类别众多,能获得标签是有限的。有些物体例如椅子,同属于椅子这个大类,但是只能收集有限的关于椅子这个大类的数据,因此需要通过源域中有类别标签的数据(易采集),来对目标域中(与源域分布不同)进行分类。
发明内容
针对现有技术的不足,本发明提供了一种基于域转化和生成模型的分类方法,从而解决测试图片不属于训练集或者与训练集中数据不属于同一个域的问题。
技术方案:本发明公开了一种基于域转化和生成模型的分类方法,包括如下步骤:
步骤1,构建从源域到目标域的转换的模型;
步骤2,构建从目标域到源域的转换的模型;
步骤3,构造二分类判别模型;
步骤4:构造生成器模型;
步骤5,构造分类类别为K+1的分类模型,K为类别数目;
步骤6,根据步骤1~步骤5得到基于源域和目标域的分类模型;
步骤7,根据步骤6中得到的分类模型对待分类图像进行分类,得到分类结果;
本发明中,步骤1包括:
构建从目标域到源域的转换模型:Gs→t,该模型包括第一编码器、第一转换器和第一解码器,s表示源域,t表示目标域,G代表转换模型;
所述第一编码器包括三个卷积层,第一层卷积核的大小是3*3,卷积核的数量是32;
第二层卷积核的大小是3*3,卷积核的数量是64;第三层卷积核的大小是3*3,卷积核的数量是128;
所述第一转换器包括6层残差模块,残差模块包括2层卷积层,卷积核的大小3*3,卷积核的数量是128;
所述第一解码器包括两个反卷积层和一个卷积层,第一个反卷积层的核大小是3*3,卷积核的数量是64;第二个反卷积核的大小是3*3,卷积核的数量是128;卷积层的卷积核大小为3*3,卷积核的数量是3。
本发明中,步骤2包括如下步骤;
构建从源域到目标域的转换模型:Gt→s,该模型包括第二编码器,第二转换器和第二解码器;
所述第二编码器包括三个卷积层,第一层卷积核的大小是3*3,卷积核的数量是32;第二层卷积核的大小是3*3,卷积核的数量是64;第三层卷积核的大小是3*3,卷积核的数量是128;
所述第二转换器包括6层残差模块,残差模块包括2层卷积层,卷积核的大小3*3,卷积核的数量是128;
所述第二解码器包括两个反卷积层和一个卷积层,第一个反卷积层的核大小是3*3,卷积核的数量是64,第二个反卷积核的大小是3*3,卷积核的数量是128;卷积层的卷积核大小为3*3,卷积核的数量是3。
本发明中,步骤3包括如下步骤:
构造二分类判别模型,该模型包含5个卷积层,具体结构为:第一层为卷积层,卷积核大小是3*3,卷积核的数量为64;第二层为卷积层,卷积核大小是3*3,卷积核的数量为128;第三层为卷积层,卷积核大小是3*3,卷积核的数量为256;第四层为卷积层,卷积核大小是3*3,卷积核的数量为512;第五层为卷积层,卷积核大小是3*3,卷积核的数量为1。
本发明中,步骤4包括:
构造生成器模型,该模型包含6种构造块。+第一层为卷积层,卷积核的大小是5*5,卷积核的数量是64;第二层为卷积层,卷积核大小是5*5,卷积核的数量是64;第三层为卷积层,卷积核大小是3*3,卷积核的数量是128,第四层是卷积层,卷积核的大小是3*3,卷积核的数量是128;第五层为输入为3200维,输出为100维的全连接层;第六层为输入为100维输出为100维的全连接层。
本发明中,步骤5包括:
构造分类类别为K+1的分类模型,K为类别数目,该模型包含一个输入为100维输出为K+1维的全连接层和一个softmax层。
本发明中,步骤6包括:
根据步骤1~步骤5得到基于源域和目标域的分类模型。
源域中的图片经过转换为目标域中的图片后,和原目标域中的图片一起作为步骤5生成器的输入,经过步骤4和步骤5,迭代优化Loss训练模型:
Loss训练模型包括四部分:GANloss,Cycleloss,Clsloss,Advloss(XT);
GANloss代表域转换模型(即步骤1和步骤2中的源域向目标域转化的转化模型和目标域向源域转化的转化模型)的损失;Cycleloss代表图片经过域转化后又转化为原来的域的损失;Clsloss代表对于源域中的图片的分类模型的损失;Advloss代表交叉熵损失函数。
Figure BDA0001939103850000031
生成器GS→T是用来将来自源域的图片XS转化为目标域的图片XT,使源域中的图片和目标域中的图片相像;DT是判别器,用于分别出图片是来自于原图片XT,还是来自于图片GS→T(xt),;DT(XT)表示输入图片XT来自目标域,判别器DT计算出它来自于目标域的概率;DT(GS→T(Xs))表示输入图片GS→T(xs)是从源域图片向目标域转化而来的图片,判别器DT计算出它是由源域图片转换而来的概率;
Figure BDA0001939103850000032
代表目标域中所有图片作为输入,判别器DT计算出它们来及于目标域的概率对数期望值;
Figure BDA0001939103850000033
代表源域中所有图片转化后的图片作为输入,判别器DT计算出它们是由源域图片转换而来的概率对数期望值;步骤1中所述源域转目标域转换模型的优化目标公式如下:
Figure BDA0001939103850000034
得到最优化的GS→T,DT
Figure BDA0001939103850000035
表示极大化GANloss(GS→T,DT,XS,XT),即更好的分别图片是来自于目标域还是源域转化的图片,
Figure BDA0001939103850000036
表示极小化GANloss(GS→T,DT,XS,XT),使源域转化的图片与目标域的图片越来越相像,使DT难以分清图片是来自于目标域还是源域转化的图片。
目标域转源域的优化目标为:
Figure BDA0001939103850000041
DS代表步骤3中构造的分类器模型,用于判别输入图片是来自源域还是来自于目标域转化源域的图片。生成器GT→S是用来将来自目标域的图片XT转化为源域的图片XS,使目标域中的图片和源域中的图片相像;
Figure BDA0001939103850000042
其优化目标为:min(Cycleloss(GS→T,GT→S,XS,XT)),
Figure BDA0001939103850000043
其中,P(y=ys|xs)代表步骤3中构造的分类器模型将源域中的输入图片分为类别标签中对应类别的概率,
Figure BDA0001939103850000044
代表步骤3中构造的分类器模型将所有源域中的输入图片分为对应类别标签中对应类别的概率对数期望值。
C为步骤5中构造的分类模型,其优化目标为:min(Clsloss(G,GS→T,C,XS,XT)),目的是将来自于源域中的图片分到对应的类别中去;
Figure BDA0001939103850000045
α代表输入被分为Unknown未知类的概率,本例中设为0.5。
P(y=K+1|xt)代表步骤3中构造的分类器模型将目标域中的图片分为Uknown未知类的概率,
K+1代表未知类Uknown,即没有在源域中出现的类别;本方法中t的值设为0.5。其优化目标为对于步骤5中的分类模型min(Advloss(XT)),即分类器尽可能的使输入被分为Unknown未知类的概率接近α;对于步骤4中的生成器模型max(Advloss(XT))即min(-Advloss(XT)),即生成器尽可能的欺骗分类器,其中有两种做法,一种是将输入尽可能和源域相联合,使输入被拒绝分为Unknown未知类,减少输入被分为Unknown未知类的概率,一种是对于输入图片将其分为Unknown类来增加输入分为Unknown未知类的概率。
整个模型的所用Loss训练模型为:
Loss(GS→T,GT→S,G,DS,DT,C,xS,XT,YS)=GANloss(GS→T,DT,XS,XT)+GANloss(GTS,DS,XT,XS)+γ*Cycleloss(GS→T,GT→S,XS,XT)+Clsloss(G,GS→T,C,XS,XT)+μ*Advloss(XT),
G代表步骤4中的生成器模型;
其优化目标为
Figure BDA0001939103850000051
本方法中γ=10,μ={1,-1}。
本发明中,步骤7包括:
将目标域中图像处理成32*32*3的大小作为输入,经过步骤6得到的生成器G和分类器C得到分类结果。
本发明尝试利用域转化和生成模型的思想,构建一个对任意给定的测试图像,如果其所属类别不属于模型训练集即源域中,将其分为unknown类,否则将其分为对应类别。
有益效果
本发明提供的一种基于域转化和生成模型的图像分类方法,有益效果在于:
1)本基于域转化和生成模型的图像分类方法,通过源域和目标域的特征转化,能够在仅有源域标签信息的和域信息的基础上对图像进行分类,解决了传统视觉算法无法解决的问题。
2)本基于域转化和生成模型的图像分类算法,对图片的特征空间进行了域转化,将目标域空间的特征向源域转化,大大提高了模型的识别准确率,解决了目标域空间标签缺失的问题。
3)本基于域转化和生成模型的图像分类算法,通过域转化模块,分类模块协同工作,不仅精度高,而且适用性广泛,鲁棒性好,有利于应用于各种场景中。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1为基于域转化和生成模型的图像分类的流程图。
图2为以数字数据集为例的源域,目标域和未知类的说明图。
图3为残差块示意图。
图4为域转化生成器的构造块示意图。
图5为域转化二分类判别器的构造块示意图示意图。
图6为生成器的构造块示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
下面将结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,在不同的实施例中深度学习模型,可以根据需要分类的图片的种类选择不同的模型,例如对模型较小复杂度较低的模型可以选择减少构造块的数量,或者构造块内的层数,对复杂度较高的可以继续增加构造块的数量,或者构造块内的层数。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本发明的保护范围。
参照图2所示,最左边即为源域中的图,该图有类别标签,最右边为域转化之后的图,目标域中的图没有类别标签。
实施例
参照图1所示,本发明提供了一种基于域转化和生成模型的图像识别方法,包括如下步骤:
步骤1,构建从源域到目标域的转换的模型;
步骤2,构建从目标域到源转换的模型;
步骤3,构造二分类判别模型;
步骤4:构造生成器模型;
步骤5,构造分类类别为K+1的分类模型,K为类别数目;
步骤6,根据步骤1~步骤5得到基于源域和目标域的分类模型;
步骤7,根据步骤6中得到的分类模型对待分类图像进行分类,得到分类结果;
本发明中,步骤1包括:
构建从目标域到源域的转换模型,具体模块结构如图4所示:Gs→t,该模型包括第一编码器、第一转换器和第一解码器;
所述第一编码器包括三个卷积层,第一层卷积核的大小是3*3,卷积核的数量是32;
第二层卷积核的大小是3*3,卷积核的数量是64;第三层卷积核的大小是3*3,卷积核的数量是128;
所述第一转换器包括6层残差模块,具体结构如图3所示,残差模块包括2层卷积层,卷积核的大小3*3,卷积核的数量是128;
所述第一解码器包括两个反卷积层和一个卷积层,第一个反卷积层的核大小是3*3,卷积核的数量是64;第二个反卷积核的大小是3*3,卷积核的数量是128;卷积层的卷积核大小为3*3,卷积核的数量是3。
本发明中,步骤2包括如下步骤;
构建从源域到目标域的转换模型,具体模块结构如图4所示:Gt→s,该模型包括第二编码器,第二转换器和第二解码器;
所述第二编码器包括三个卷积层,第一层卷积核的大小是3*3,卷积核的数量是32;第二层卷积核的大小是3*3,卷积核的数量是64;第三层卷积核的大小是3*3,卷积核的数量是128;
所述第二转换器包括6层残差模块,残差模块包括2层卷积层,卷积核的大小3*3,卷积核的数量是128;
所述第二解码器包括两个反卷积层和一个卷积层,第一个反卷积层的核大小是3*3,卷积核的数量是64,第二个反卷积核的大小是3*3,卷积核的数量是128;卷积层的卷积核大小为3*3,卷积核的数量是3。
本发明中,步骤3包括如下步骤:
构造二分类判别模型,具体模块结构如图5所示,该模型包含5个卷积层,具体结构为:第一层为卷积层,卷积核大小是3*3,卷积核的数量为64;第二层为卷积层,卷积核大小是3*3,卷积核的数量为128;第三层为卷积层,卷积核大小是3*3,卷积核的数量为256;第四层为卷积层,卷积核大小是3*3,卷积核的数量为512;第五层为卷积层,卷积核大小是3*3,卷积核的数量为1。
本发明中,步骤4包括:
构造生成器模型,具体模块结构如图6所示,该模型包含6种构造块,第一层为卷积层,卷积核的大小是5*5,卷积核的数量是64;第二层为卷积层,卷积核大小是5*5,卷积核的数量是64;第三层为卷积层,卷积核大小是3*3,卷积核的数量是128,第四层是卷积层,卷积核的大小是3*3,卷积核的数量是128;第五层为输入为3200维,输出为100维的全连接层;第六层为输入为100维输出为100维的全连接层。
本发明中,步骤5包括:
构造分类类别为K+1的分类模型,K为类别数目,该模型包含一个输入为100维输出为K+1维的全连接层和一个softmax层。
本发明中,步骤6包括:
根据步骤1~步骤5得到基于源域和目标域的分类模型。
源域中的图片经过转换为目标域中的图片和目标域中的图片一起作为步骤5生成器的输入,经过步骤4和步骤5,迭代优化Loss训练模型。
Loss训练模型包括四部分:GANloss,Cycleloss,Clsloss,Advloss(XT);
GANloss代表域转换模型(即步骤1和步骤2中的源域向目标域转化的转化模型和目标域向源域转化的转化模型)的损失;Cycleloss代表图片经过域转化后又转化为原来的域的损失;Clsloss代表对于源域中的图片的分类模型的损失;Advloss代表交叉熵损失函数。
Figure BDA0001939103850000081
生成器GS→T是用来将来自源域的图片XS转化为目标域的图片XT,使源域中的图片和目标域中的图片相像;DT是判别器,用于分别出图片是来自于原图片XT,还是来自于图片GS→T(xt),;DT(XT)表示输入图片XT来自目标域,判别器DT计算出它来自于目标域的概率;DT(GS→T(xs))表示输入图片GS→T(xs)是从源域图片向目标域转化而来的图片,判别器DT计算出它是由源域图片转换而来的概率;
Figure BDA0001939103850000082
代表目标域中所有图片作为输入,判别器DT计算出它们来及于目标域的概率对数期望值;
Figure BDA0001939103850000083
代表源域中所有图片转化后的图片作为输入,判别器DT计算出它们是由源域图片转换而来的概率对数期望值;步骤1中所述源域转目标域转换模型的优化目标公式如下:
Figure BDA0001939103850000084
得到最优化的GS→T,DT
Figure BDA0001939103850000085
表示极大化GANloss(GS→T,DT,XS,XT),即更好的分别图片是来自于目标域还是源域转化的图片,
Figure BDA0001939103850000086
表示极小化GANloss(GS→T,DT,XS,XT),使源域转化的图片与目标域的图片越来越相像,使DT难以分清图片是来自于目标域还是源域转化的图片。
目标域转源域的优化目标为:
Figure BDA0001939103850000087
GT→S是用来将来自目标域的图片XT转化为源域的图片XS,使目标域中的图片和源域中的图片相像。
DS代表步骤3中构造的分类器模型,用于判别输入图片是来自源域还是来自于目标域转化源域的图片。
Figure BDA0001939103850000091
其优化目标为:min(Cycleloss(GS→T,GT→S,XS,XT)),
Figure BDA0001939103850000092
其中,P(y=ys|xs)代表步骤3中构造的分类器模型将源域中的输入图片分为类别标签中对应类别的概率,
Figure BDA0001939103850000093
代表步骤3中构造的分类器模型将所有源域中的输入图片分为对应类别标签中对应类别的概率对数期望值。
C为步骤5中构造的分类模型,其优化目标为:min(Clsloss(G,GS→T,C,XS,XT)),目的是将来自于源域中的图片分到对应的类别中去;
Figure BDA0001939103850000094
α代表输入被分为Unknown未知类的概率,本例中设为0.5。
P(y=K+1|xt)代表步骤3中构造的分类器模型将目标域中的图片分为Uknown未知类的概率,
K+1代表未知类Uknown,即没有在源域中出现的类别;本方法中t的值设为0.5。其优化目标为对于步骤5中的分类模型min(Advloss(XT)),即分类器尽可能的使输入被分为Unknown未知类的概率接近α;对于步骤4中的生成器模型max(Advloss(XT))即min(-Advloss(XT)),即生成器尽可能的欺骗分类器,其中有两种做法一个是将输入尽可能和源域相联合,使输入被拒绝分为Unknown未知类,减少输入被分为Unknown未知类的概率,一种是对于输入图片将其分为Unknown类来增加输入分为Unknown未知类的概率。
整个模型的所用Loss训练模型为:
Loss(GS→T,GT→S,G,DS,DT,C,XS,XT,YS)=GANloss(GS→T,DT,XS,XT)+GANloss(GT→S,DS,XT,XS)+γ*Cycleloss(GS→T,GT→S,XS,XT)+Clsloss(G,GS→T,C,XS,XT)+μ*Advloss(XT),
G代表步骤4中的生成器模型;
其优化目标为
Figure BDA0001939103850000101
本方法中γ=10,μ={1,-1}。
本发明中,步骤7包括:
将目标域中图像处理成32*32*3的大小作为输入,经过步骤6得到的生成器G和分类器C得到分类结果。
本发明提供了一种基于域转化和生成模型的图像识别方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (2)

1.一种基于域转化和生成模型的图像识别方法,其特征在于,包括如下步骤:
步骤1,构建从源域到目标域的转换的模型;
步骤2,构建从目标域到源域的转换的模型;
步骤3,构造二分类判别模型;
步骤4:构造生成器模型;
步骤5,构造分类类别为K+1的分类模型,K为类别数目;
步骤6,根据步骤1~步骤5得到基于源域和目标域的分类模型;
步骤7,根据步骤6中得到的分类模型对待分类图像进行分类,得到分类结果;
步骤1包括:
构建从目标域到源域的转换模型:Gt→s,该模型包括第一编码器、第一转换器和第一解码器,s表示源域,t表示目标域,G代表转换模型;
所述第一编码器包括三个卷积层,第一层卷积核的大小是3*3,卷积核的数量是32;
第二层卷积核的大小是3*3,卷积核的数量是64;第三层卷积核的大小是3*3,卷积核的数量是128;
所述第一转换器包括6层残差模块,残差模块包括2层卷积层,卷积核的大小3*3,卷积核的数量是128;
所述第一解码器包括两个反卷积层和一个卷积层,第一个反卷积层的核大小是3*3,卷积核的数量是64;第二个反卷积核的大小是3*3,卷积核的数量是128;卷积层的卷积核大小为3*3,卷积核的数量是3;
步骤2包括如下步骤;
构建从源域到目标域的转换模型:Gs→t该模型包括第二编码器,第二转换器和第二解码器;
所述第二编码器包括三个卷积层,第一层卷积核的大小是3*3,卷积核的数量是32;第二层卷积核的大小是3*3,卷积核的数量是64;第三层卷积核的大小是3*3,卷积核的数量是128;
所述第二转换器包括6层残差模块,残差模块包括2层卷积层,卷积核的大小3*3,卷积核的数量是128;
所述第二解码器包括两个反卷积层和一个卷积层,第一个反卷积层的核大小是3*3,卷积核的数量是64,第二个反卷积核的大小是3*3,卷积核的数量是128;卷积层的卷积核大小为3*3,卷积核的数量是3;
步骤3包括如下步骤:
构造二分类判别模型,该模型包含5个卷积层,具体结构为:第一层为卷积层,卷积核大小是3*3,卷积核的数量为64;第二层为卷积层,卷积核大小是3*3,卷积核的数量为128;第三层为卷积层,卷积核大小是3*3,卷积核的数量为256;第四层为卷积层,卷积核大小是3*3,卷积核的数量为512;第五层为卷积层,卷积核大小是3*3,卷积核的数量为1;
步骤4包括:
构造生成器模型,该模型包含6种构造块,第一层为卷积层,卷积核的大小是5*5,卷积核的数量是64;第二层为卷积层,卷积核大小是5*5,卷积核的数量是64;第三层为卷积层,卷积核大小是3*3,卷积核的数量是128,第四层是卷积层,卷积核的大小是3*3,卷积核的数量是128;第五层为输入为3200维,输出为100维的全连接层;第六层为输入为100维输出为100维的全连接层;
步骤5包括:
构造分类类别为K+1的分类模型,K为类别数目,该模型包含一个输入为100维输出为K+1维的全连接层和一个softmax层;
步骤6包括:
源域中的图片经过转换为目标域中的图片后,和原目标域中的图片一起作为步骤5生成器的输入,经过步骤4和步骤5,迭代优化Loss训练模型:
Loss训练模型包括四部分:GANloss,Cycleloss,Clsloss,Advloss
其中,GANloss代表域转换模型的损失;Cycleloss代表图片经过域转化后又转化为原来的域的损失;Clsloss代表对于源域中的图片的分类模型的损失;Advloss代表交叉熵损失函数;
Figure FDA0002534014290000021
生成器GS→T是用来将来自源域的图片集合XS中的图片转化为目标域的图片,使源域中的图片和目标域中的图片相像,目标域的图片集合为XT,xs表示来自源域的图片集合XS的一个样本图片,xt表示来自目标域的图片集合的一个图片;DT是判别器,用于分别出图片是来自于原图片XT,还是来自于图片GS→T(xt);DT(XT)表示输入图片XT来自目标域,判别器DT计算出它来自于目标域的概率;DT(GS→T(xs))表示输入图片GS→T(xs)是从源域图片向目标域转化而来的图片,判别器DT计算出它是由源域图片转换而来的概率;
Figure FDA0002534014290000031
代表目标域中所有图片作为输入,判别器DT计算出它们来自于目标域的概率对数期望值;
Figure FDA0002534014290000032
代表源域中所有图片转化后的图片作为输入,判别器DT计算出它们是由源域图片转换而来的概率对数期望值;步骤1中所述源域转目标域转换模型的优化目标公式如下:
Figure FDA0002534014290000033
得到最优化的GS→T,DT
Figure FDA0002534014290000034
表示极大化GANloss(GS→T,DT,XS,XT),
Figure FDA0002534014290000035
表示极小化GANloss(GS→T,DT,XS,XT);
目标域转源域的优化目标为:
Figure FDA0002534014290000036
DS代表步骤3中构造的分类器模型,用于判别输入图片是来自源域还是来自于目标域转化源域的图片;生成器GT→S是用来将来自目标域的图片XT转化为源域的图片XS,使目标域中的图片和源域中的图片相像;
Figure FDA0002534014290000037
其优化目标为:min(Cycleloss(GS→T,GT→S,XS,XT)),
Figure FDA0002534014290000038
其中,P(y=ys|xs)代表步骤3中构造的分类器模型将源域中的输入图片分为类别标签中对应类别的概率,
Figure FDA0002534014290000039
代表步骤3中构造的分类器模型将所有源域中的输入图片分为对应类别标签中对应类别的概率对数期望值;C为步骤5中构造的分类模型,其优化目标为:min(Clsloss(G,GS→T,C,XS,XT)),目的是将来自于源域中的图片分到对应的类别中去;
Figure FDA00025340142900000310
α代表输入被分为Unknown未知类的概率;
P(y=K+1|xt)代表步骤3中构造的分类器模型将目标域中的图片分为Uknown未知类的概率,K+1代表未知类Uknown,即没有在源域中出现的类别,其优化目标为对于步骤5中的分类模型min(Advloss(XT)),即分类器模型尽可能的使输入被分为Unknown未知类的概率接近α;对于步骤4中的生成器模型max(Advloss(XT))即min(-Advloss(XT)),即生成器尽可能的欺骗分类器模型,其中有两种做法,一种是将输入尽可能和源域相联合,使输入被拒绝分为Unknown未知类,减少输入被分为Unknown未知类的概率,一种是对于输入图片将其分为Unknown未知类来增加输入分为Unknown未知类的概率;
整个Loss训练模型为:
Loss(GS→T,GT→S,G,DS,DT,C,XS,XT,YS)
=GANloss(GS→T,DT,XS,XT)+GANloss(GT→S,DS,XT,XS)+γ*Cycleloss(GS→T,GT→S,XS,XT)+Clsloss(G,GS→T,C,XS,XT)+μ*Advloss(XT),
G代表步骤4中的生成器模型,其优化目标为:
Figure FDA0002534014290000041
2.根据权利要求1所述的方法,其特征在于,步骤7包括:
将目标域中图像处理成32*32*3的大小作为输入,经过步骤6得到的生成器G和分类器C得到分类结果。
CN201910016055.4A 2019-01-08 2019-01-08 一种基于域转化和生成模型的图像识别方法 Active CN109740682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910016055.4A CN109740682B (zh) 2019-01-08 2019-01-08 一种基于域转化和生成模型的图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910016055.4A CN109740682B (zh) 2019-01-08 2019-01-08 一种基于域转化和生成模型的图像识别方法

Publications (2)

Publication Number Publication Date
CN109740682A CN109740682A (zh) 2019-05-10
CN109740682B true CN109740682B (zh) 2020-07-28

Family

ID=66363858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910016055.4A Active CN109740682B (zh) 2019-01-08 2019-01-08 一种基于域转化和生成模型的图像识别方法

Country Status (1)

Country Link
CN (1) CN109740682B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597946B (zh) * 2020-05-11 2022-04-08 腾讯医疗健康(深圳)有限公司 图像生成器的处理方法、图像生成方法及装置
CN114239753B (zh) * 2022-02-23 2022-07-22 山东力聚机器人科技股份有限公司 可迁移的图像识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170137350A (ko) * 2016-06-03 2017-12-13 (주)싸이언테크 신경망 생성 모델을 이용한 객체 움직임 패턴 학습장치 및 그 방법
CN107506799A (zh) * 2017-09-01 2017-12-22 北京大学 一种基于深度神经网络的开集类别发掘与扩展方法与装置
CN108171320A (zh) * 2017-12-06 2018-06-15 西安工业大学 一种基于生成式对抗网络的图像域转换网络和转换方法
CN108491874A (zh) * 2018-03-19 2018-09-04 天津大学 一种基于生成式对抗网络的图像单分类方法
CN108615073A (zh) * 2018-04-28 2018-10-02 北京京东金融科技控股有限公司 图像处理方法及装置、计算机可读存储介质、电子设备
CN108710896A (zh) * 2018-04-24 2018-10-26 浙江工业大学 基于产生式对抗学习网络的领域学习方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392242B (zh) * 2017-07-18 2020-06-19 广东工业大学 一种基于同态神经网络的跨领域图片分类方法
CN108304890B (zh) * 2018-03-16 2021-06-08 科大讯飞股份有限公司 一种分类模型的生成方法及装置
CN108564121B (zh) * 2018-04-09 2022-05-03 南京邮电大学 一种基于自编码器的未知类别图像标签预测方法
CN108875935B (zh) * 2018-06-11 2020-08-11 兰州理工大学 基于生成对抗网络的自然图像目标材质视觉特征映射方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170137350A (ko) * 2016-06-03 2017-12-13 (주)싸이언테크 신경망 생성 모델을 이용한 객체 움직임 패턴 학습장치 및 그 방법
CN107506799A (zh) * 2017-09-01 2017-12-22 北京大学 一种基于深度神经网络的开集类别发掘与扩展方法与装置
CN108171320A (zh) * 2017-12-06 2018-06-15 西安工业大学 一种基于生成式对抗网络的图像域转换网络和转换方法
CN108491874A (zh) * 2018-03-19 2018-09-04 天津大学 一种基于生成式对抗网络的图像单分类方法
CN108710896A (zh) * 2018-04-24 2018-10-26 浙江工业大学 基于产生式对抗学习网络的领域学习方法
CN108615073A (zh) * 2018-04-28 2018-10-02 北京京东金融科技控股有限公司 图像处理方法及装置、计算机可读存储介质、电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Bi-Modal Content Based Image Retrieval using Multi-class Cycle-GAN;Girraj Pahariya;《2018 Digital Image Computing: Techniques and Applications》;20181213;第1-7页 *
Op en Set Domain Adaptation by Backpropagation;Kuniaki Saito,Shohei Yamamoto,Yoshitaka Ushiku;《arXiv:1804.10427v2 [cs.CV]》;20180706;第1-19页 *
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks;Jun-Yan Zhu ,Taesung Park,Phillip Isola,Alexei A. Efros;《2017 IEEE International Conference on Computer Vision》;20171029;第2242-2251页 *
基于改进的 CycleGAN模型非配对的图像到图像转换;何剑华,龙法宁,朱晓姝;《玉林师范学院学报》;20180401;第122-126页 *

Also Published As

Publication number Publication date
CN109740682A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
Liu et al. Connecting image denoising and high-level vision tasks via deep learning
Yang et al. A survey of DNN methods for blind image quality assessment
CN112561910B (zh) 一种基于多尺度特征融合的工业表面缺陷检测方法
CN110163286B (zh) 一种基于混合池化的领域自适应图像分类方法
CN111652317B (zh) 基于贝叶斯深度学习的超参数图像分割方法
CN109753878B (zh) 一种恶劣天气下的成像识别方法及系统
TW202207077A (zh) 一種文本區域的定位方法及裝置
CN110827265B (zh) 基于深度学习的图片异常检测方法
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN112801146A (zh) 一种目标检测方法及系统
CN112101262B (zh) 一种多特征融合手语识别方法及网络模型
CN109815923B (zh) 基于lbp特征与深度学习的金针菇菇头分选识别方法
CN109740682B (zh) 一种基于域转化和生成模型的图像识别方法
CN113780423A (zh) 一种基于多尺度融合的单阶段目标检测神经网络及工业品表面缺陷检测模型
CN116563410A (zh) 基于两级生成对抗网络的电气设备电火花图像生成方法
Wu et al. Forestdet: Large-vocabulary long-tailed object detection and instance segmentation
CN114445620A (zh) 一种改进Mask R-CNN的目标分割方法
Yuan et al. CTIF-Net: A CNN-Transformer Iterative Fusion Network for Salient Object Detection
Wang et al. Structure-priority image restoration through genetic algorithm optimization
CN117173147A (zh) 钢带加工用表面处理设备及其方法
CN110516640B (zh) 一种基于特征金字塔联合表示的车辆再辨识方法
Jiang et al. High precision deep learning-based tabular position detection
CN115984547A (zh) 目标检测模型、训练方法及系统、目标检测方法及系统
CN112699898B (zh) 一种基于多层特征融合的图像方向识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant