CN109740682B

CN109740682B - 一种基于域转化和生成模型的图像识别方法

Info

Publication number: CN109740682B
Application number: CN201910016055.4A
Authority: CN
Inventors: 韩旭; 张鸿杰; 过洁; 郭延文
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2020-07-28
Anticipated expiration: 2039-01-08
Also published as: CN109740682A

Abstract

本发明公开了一种基于域转化和生成模型的图像识别方法，包括以下步骤：步骤1：构造从源域到目标域的转换模型；步骤2：构造从目标域到源域的转换模型；步骤3：构造二分类判别模型；步骤4：构造生成器；步骤5：构造分类类别为K+1的分类模型，K为类别数目；步骤6：根据步骤1,2,3,4,5得到基于源域和目标域的分类模型；步骤7：根据步骤6中得到的模型就可以得到待分类图像的分类结果。

Description

一种基于域转化和生成模型的图像识别方法

技术领域

本发明属于视觉识别领域，尤其涉及一种基于域转化和生成模型的图像识别方法。

背景技术

随着计算机视觉与图像处理技术的成熟，这些技术应用在其他领域也越来越广泛，让计算机取代人力，用低成本高效率的技术取代昂贵的技术也成为必然的发展趋势。随着机器学习算法的发展，尤其是深度学习的发展，越来越多的深度学习模型被用来解决计算机视觉领域的问题。在图片分类识别领域，深度学习模型表现优异。

然而模型的表现很大程度取决于所搜集的数据，如果所要识别的图片不属于训练集中类别，模型会将其分为训练集中的一类，而且有时候判断的分数非常的高。但是在实际应用中，很难保证测试集中的数据都在训练集中。而且生活中的类别众多，能获得标签是有限的。有些物体例如椅子，同属于椅子这个大类，但是只能收集有限的关于椅子这个大类的数据，因此需要通过源域中有类别标签的数据(易采集)，来对目标域中(与源域分布不同)进行分类。

发明内容

针对现有技术的不足，本发明提供了一种基于域转化和生成模型的分类方法，从而解决测试图片不属于训练集或者与训练集中数据不属于同一个域的问题。

技术方案：本发明公开了一种基于域转化和生成模型的分类方法，包括如下步骤：

步骤1，构建从源域到目标域的转换的模型；

步骤2，构建从目标域到源域的转换的模型；

步骤3，构造二分类判别模型；

步骤4：构造生成器模型；

步骤5，构造分类类别为K+1的分类模型，K为类别数目；

步骤6，根据步骤1～步骤5得到基于源域和目标域的分类模型；

步骤7，根据步骤6中得到的分类模型对待分类图像进行分类，得到分类结果；

本发明中，步骤1包括：

构建从目标域到源域的转换模型：Gs→t，该模型包括第一编码器、第一转换器和第一解码器，s表示源域，t表示目标域，G代表转换模型；

所述第一编码器包括三个卷积层，第一层卷积核的大小是3*3，卷积核的数量是32；

第二层卷积核的大小是3*3，卷积核的数量是64；第三层卷积核的大小是3*3，卷积核的数量是128；

所述第一转换器包括6层残差模块，残差模块包括2层卷积层，卷积核的大小3*3，卷积核的数量是128；

所述第一解码器包括两个反卷积层和一个卷积层，第一个反卷积层的核大小是3*3，卷积核的数量是64；第二个反卷积核的大小是3*3，卷积核的数量是128；卷积层的卷积核大小为3*3，卷积核的数量是3。

本发明中，步骤2包括如下步骤；

构建从源域到目标域的转换模型：Gt→s，该模型包括第二编码器，第二转换器和第二解码器；

所述第二编码器包括三个卷积层，第一层卷积核的大小是3*3，卷积核的数量是32；第二层卷积核的大小是3*3，卷积核的数量是64；第三层卷积核的大小是3*3，卷积核的数量是128；

所述第二转换器包括6层残差模块，残差模块包括2层卷积层，卷积核的大小3*3，卷积核的数量是128；

所述第二解码器包括两个反卷积层和一个卷积层，第一个反卷积层的核大小是3*3，卷积核的数量是64，第二个反卷积核的大小是3*3，卷积核的数量是128；卷积层的卷积核大小为3*3，卷积核的数量是3。

本发明中，步骤3包括如下步骤：

构造二分类判别模型，该模型包含5个卷积层，具体结构为：第一层为卷积层，卷积核大小是3*3，卷积核的数量为64；第二层为卷积层，卷积核大小是3*3，卷积核的数量为128；第三层为卷积层，卷积核大小是3*3，卷积核的数量为256；第四层为卷积层，卷积核大小是3*3，卷积核的数量为512；第五层为卷积层，卷积核大小是3*3，卷积核的数量为1。

本发明中，步骤4包括：

构造生成器模型，该模型包含6种构造块。+第一层为卷积层，卷积核的大小是5*5，卷积核的数量是64；第二层为卷积层，卷积核大小是5*5，卷积核的数量是64；第三层为卷积层，卷积核大小是3*3，卷积核的数量是128，第四层是卷积层，卷积核的大小是3*3，卷积核的数量是128；第五层为输入为3200维，输出为100维的全连接层；第六层为输入为100维输出为100维的全连接层。

本发明中，步骤5包括：

构造分类类别为K+1的分类模型，K为类别数目，该模型包含一个输入为100维输出为K+1维的全连接层和一个softmax层。

本发明中，步骤6包括：

根据步骤1～步骤5得到基于源域和目标域的分类模型。

源域中的图片经过转换为目标域中的图片后，和原目标域中的图片一起作为步骤5生成器的输入，经过步骤4和步骤5，迭代优化Loss训练模型：

Loss训练模型包括四部分：GAN_loss，Cycle_loss，Cls_loss，Adv_loss(X_T)；

GAN_loss代表域转换模型(即步骤1和步骤2中的源域向目标域转化的转化模型和目标域向源域转化的转化模型)的损失；Cycle_loss代表图片经过域转化后又转化为原来的域的损失；Cls_loss代表对于源域中的图片的分类模型的损失；Adv_loss代表交叉熵损失函数。

生成器G_S→T是用来将来自源域的图片X_S转化为目标域的图片X_T，使源域中的图片和目标域中的图片相像；D_T是判别器，用于分别出图片是来自于原图片X_T，还是来自于图片G_S→T(x_t)，；D_T(X_T)表示输入图片X_T来自目标域，判别器D_T计算出它来自于目标域的概率；D_T(G_S→T(X_s))表示输入图片G_S→T(x_s)是从源域图片向目标域转化而来的图片，判别器D_T计算出它是由源域图片转换而来的概率；

代表目标域中所有图片作为输入，判别器D_T计算出它们来及于目标域的概率对数期望值；

代表源域中所有图片转化后的图片作为输入，判别器D_T计算出它们是由源域图片转换而来的概率对数期望值；步骤1中所述源域转目标域转换模型的优化目标公式如下：

得到最优化的G_S→T，D_T，

表示极大化GAN_loss(G_S→T，D_T，X_S，X_T)，即更好的分别图片是来自于目标域还是源域转化的图片，

表示极小化GAN_loss(G_S→T，D_T，X_S，X_T)，使源域转化的图片与目标域的图片越来越相像，使D_T难以分清图片是来自于目标域还是源域转化的图片。

目标域转源域的优化目标为：

D_S代表步骤3中构造的分类器模型，用于判别输入图片是来自源域还是来自于目标域转化源域的图片。生成器G_T→S是用来将来自目标域的图片X_T转化为源域的图片X_S，使目标域中的图片和源域中的图片相像；

其优化目标为：min(Cycle_loss(G_S→T，G_T→S，X_S，X_T))，

其中，P(y＝y_s|x_s)代表步骤3中构造的分类器模型将源域中的输入图片分为类别标签中对应类别的概率，

代表步骤3中构造的分类器模型将所有源域中的输入图片分为对应类别标签中对应类别的概率对数期望值。

C为步骤5中构造的分类模型，其优化目标为：min(Cls_loss(G，G_S→T，C，X_S，X_T))，目的是将来自于源域中的图片分到对应的类别中去；

α代表输入被分为Unknown未知类的概率，本例中设为0.5。

P(y＝K+1|x_t)代表步骤3中构造的分类器模型将目标域中的图片分为Uknown未知类的概率，

K+1代表未知类Uknown，即没有在源域中出现的类别；本方法中t的值设为0.5。其优化目标为对于步骤5中的分类模型min(Adv_loss(X_T))，即分类器尽可能的使输入被分为Unknown未知类的概率接近α；对于步骤4中的生成器模型max(Adv_loss(X_T))即min(-Adv_loss(X_T))，即生成器尽可能的欺骗分类器，其中有两种做法，一种是将输入尽可能和源域相联合，使输入被拒绝分为Unknown未知类，减少输入被分为Unknown未知类的概率，一种是对于输入图片将其分为Unknown类来增加输入分为Unknown未知类的概率。

整个模型的所用Loss训练模型为：

Loss(G_S→T，G_T→S，G，D_S，D_T，C，x_S，X_T，Y_S)＝GAN_loss(G_S→T，D_T，X_S，X_T)+GAN_loss(G_T→_S，D_S，X_T，X_S)+γ*Cycle_loss(G_S→T，G_T→S，X_S，X_T)+Cls_loss(G，G_S→T，C，X_S，X_T)+μ*Adv_loss(X_T)，

G代表步骤4中的生成器模型；

其优化目标为

本方法中γ＝10，μ＝{1，-1}。

本发明中，步骤7包括：

将目标域中图像处理成32*32*3的大小作为输入，经过步骤6得到的生成器G和分类器C得到分类结果。

本发明尝试利用域转化和生成模型的思想，构建一个对任意给定的测试图像，如果其所属类别不属于模型训练集即源域中，将其分为unknown类，否则将其分为对应类别。

有益效果

本发明提供的一种基于域转化和生成模型的图像分类方法，有益效果在于：

1)本基于域转化和生成模型的图像分类方法，通过源域和目标域的特征转化，能够在仅有源域标签信息的和域信息的基础上对图像进行分类，解决了传统视觉算法无法解决的问题。

2)本基于域转化和生成模型的图像分类算法，对图片的特征空间进行了域转化，将目标域空间的特征向源域转化，大大提高了模型的识别准确率，解决了目标域空间标签缺失的问题。

3)本基于域转化和生成模型的图像分类算法，通过域转化模块，分类模块协同工作，不仅精度高，而且适用性广泛，鲁棒性好，有利于应用于各种场景中。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1为基于域转化和生成模型的图像分类的流程图。

图2为以数字数据集为例的源域，目标域和未知类的说明图。

图3为残差块示意图。

图4为域转化生成器的构造块示意图。

图5为域转化二分类判别器的构造块示意图示意图。

图6为生成器的构造块示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

下面将结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，在不同的实施例中深度学习模型，可以根据需要分类的图片的种类选择不同的模型，例如对模型较小复杂度较低的模型可以选择减少构造块的数量，或者构造块内的层数，对复杂度较高的可以继续增加构造块的数量，或者构造块内的层数。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本发明的保护范围。

参照图2所示，最左边即为源域中的图，该图有类别标签，最右边为域转化之后的图，目标域中的图没有类别标签。

实施例

参照图1所示，本发明提供了一种基于域转化和生成模型的图像识别方法，包括如下步骤：

步骤1，构建从源域到目标域的转换的模型；

步骤2，构建从目标域到源转换的模型；

步骤3，构造二分类判别模型；

步骤4：构造生成器模型；

步骤5，构造分类类别为K+1的分类模型，K为类别数目；

本发明中，步骤1包括：

构建从目标域到源域的转换模型，具体模块结构如图4所示：Gs→t，该模型包括第一编码器、第一转换器和第一解码器；

所述第一转换器包括6层残差模块，具体结构如图3所示，残差模块包括2层卷积层，卷积核的大小3*3，卷积核的数量是128；

本发明中，步骤2包括如下步骤；

构建从源域到目标域的转换模型，具体模块结构如图4所示：Gt→s，该模型包括第二编码器，第二转换器和第二解码器；

本发明中，步骤3包括如下步骤：

构造二分类判别模型，具体模块结构如图5所示，该模型包含5个卷积层，具体结构为：第一层为卷积层，卷积核大小是3*3，卷积核的数量为64；第二层为卷积层，卷积核大小是3*3，卷积核的数量为128；第三层为卷积层，卷积核大小是3*3，卷积核的数量为256；第四层为卷积层，卷积核大小是3*3，卷积核的数量为512；第五层为卷积层，卷积核大小是3*3，卷积核的数量为1。

本发明中，步骤4包括：

构造生成器模型，具体模块结构如图6所示，该模型包含6种构造块，第一层为卷积层，卷积核的大小是5*5，卷积核的数量是64；第二层为卷积层，卷积核大小是5*5，卷积核的数量是64；第三层为卷积层，卷积核大小是3*3，卷积核的数量是128，第四层是卷积层，卷积核的大小是3*3，卷积核的数量是128；第五层为输入为3200维，输出为100维的全连接层；第六层为输入为100维输出为100维的全连接层。

本发明中，步骤5包括：

本发明中，步骤6包括：

根据步骤1～步骤5得到基于源域和目标域的分类模型。

源域中的图片经过转换为目标域中的图片和目标域中的图片一起作为步骤5生成器的输入，经过步骤4和步骤5，迭代优化Loss训练模型。

得到最优化的G_S→T，D_T，

目标域转源域的优化目标为：

G_T→S是用来将来自目标域的图片X_T转化为源域的图片X_S，使目标域中的图片和源域中的图片相像。

D_S代表步骤3中构造的分类器模型，用于判别输入图片是来自源域还是来自于目标域转化源域的图片。

其优化目标为：min(Cycle_loss(G_S→T，G_T→S，X_S，X_T))，

α代表输入被分为Unknown未知类的概率，本例中设为0.5。

K+1代表未知类Uknown，即没有在源域中出现的类别；本方法中t的值设为0.5。其优化目标为对于步骤5中的分类模型min(Adv_loss(X_T))，即分类器尽可能的使输入被分为Unknown未知类的概率接近α；对于步骤4中的生成器模型max(Adv_loss(X_T))即min(-Adv_loss(X_T))，即生成器尽可能的欺骗分类器，其中有两种做法一个是将输入尽可能和源域相联合，使输入被拒绝分为Unknown未知类，减少输入被分为Unknown未知类的概率，一种是对于输入图片将其分为Unknown类来增加输入分为Unknown未知类的概率。

整个模型的所用Loss训练模型为：

Loss(G_S→T，G_T→S，G，D_S，D_T，C，X_S，X_T，Y_S)＝GAN_loss(G_S→T，D_T，X_S，X_T)+GAN_loss(G_T→S，D_S，X_T，X_S)+γ*Cycle_loss(G_S→T，G_T→S，X_S，X_T)+Cls_loss(G，G_S→T，C，X_S，X_T)+μ*Adv_loss(X_T)，

G代表步骤4中的生成器模型；

其优化目标为

本方法中γ＝10，μ＝{1，-1}。

本发明中，步骤7包括：

本发明提供了一种基于域转化和生成模型的图像识别方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于域转化和生成模型的图像识别方法，其特征在于，包括如下步骤：

步骤1，构建从源域到目标域的转换的模型；

步骤2，构建从目标域到源域的转换的模型；

步骤3，构造二分类判别模型；

步骤4：构造生成器模型；

步骤5，构造分类类别为K+1的分类模型，K为类别数目；

步骤1包括：

构建从目标域到源域的转换模型：Gt→s，该模型包括第一编码器、第一转换器和第一解码器，s表示源域，t表示目标域，G代表转换模型；

所述第一解码器包括两个反卷积层和一个卷积层，第一个反卷积层的核大小是3*3，卷积核的数量是64；第二个反卷积核的大小是3*3，卷积核的数量是128；卷积层的卷积核大小为3*3，卷积核的数量是3；

步骤2包括如下步骤；

构建从源域到目标域的转换模型：Gs→t该模型包括第二编码器，第二转换器和第二解码器；

所述第二解码器包括两个反卷积层和一个卷积层，第一个反卷积层的核大小是3*3，卷积核的数量是64，第二个反卷积核的大小是3*3，卷积核的数量是128；卷积层的卷积核大小为3*3，卷积核的数量是3；

步骤3包括如下步骤：

构造二分类判别模型，该模型包含5个卷积层，具体结构为：第一层为卷积层，卷积核大小是3*3，卷积核的数量为64；第二层为卷积层，卷积核大小是3*3，卷积核的数量为128；第三层为卷积层，卷积核大小是3*3，卷积核的数量为256；第四层为卷积层，卷积核大小是3*3，卷积核的数量为512；第五层为卷积层，卷积核大小是3*3，卷积核的数量为1；

步骤4包括：

构造生成器模型，该模型包含6种构造块，第一层为卷积层，卷积核的大小是5*5，卷积核的数量是64；第二层为卷积层，卷积核大小是5*5，卷积核的数量是64；第三层为卷积层，卷积核大小是3*3，卷积核的数量是128，第四层是卷积层，卷积核的大小是3*3，卷积核的数量是128；第五层为输入为3200维，输出为100维的全连接层；第六层为输入为100维输出为100维的全连接层；

步骤5包括：

构造分类类别为K+1的分类模型，K为类别数目，该模型包含一个输入为100维输出为K+1维的全连接层和一个softmax层；

步骤6包括：

Loss训练模型包括四部分：GAN_loss,Cycle_loss,Cls_loss,Adv_loss；

其中，GAN_loss代表域转换模型的损失；Cycle_loss代表图片经过域转化后又转化为原来的域的损失；Cls_loss代表对于源域中的图片的分类模型的损失；Adv_loss代表交叉熵损失函数；

生成器G_S→T是用来将来自源域的图片集合X_S中的图片转化为目标域的图片，使源域中的图片和目标域中的图片相像，目标域的图片集合为X_T，x_s表示来自源域的图片集合X_S的一个样本图片，x_t表示来自目标域的图片集合的一个图片；D_T是判别器，用于分别出图片是来自于原图片X_T，还是来自于图片G_S→T(x_t)；D_T(X_T)表示输入图片X_T来自目标域，判别器D_T计算出它来自于目标域的概率；D_T(G_S→T(x_s))表示输入图片G_S→T(x_s)是从源域图片向目标域转化而来的图片，判别器D_T计算出它是由源域图片转换而来的概率；

代表目标域中所有图片作为输入，判别器D_T计算出它们来自于目标域的概率对数期望值；

得到最优化的G_S→T,D_T，

表示极大化GAN_loss(G_S→T,D_T,X_S,X_T)，

表示极小化GAN_loss(G_S→T,D_T,X_S,X_T)；

目标域转源域的优化目标为：

D_S代表步骤3中构造的分类器模型，用于判别输入图片是来自源域还是来自于目标域转化源域的图片；生成器G_T→S是用来将来自目标域的图片X_T转化为源域的图片X_S，使目标域中的图片和源域中的图片相像；

其优化目标为：min(Cycle_loss(G_S→T,G_T→S,X_S,X_T))，

代表步骤3中构造的分类器模型将所有源域中的输入图片分为对应类别标签中对应类别的概率对数期望值；C为步骤5中构造的分类模型，其优化目标为：min(Cls_loss(G,G_S→T,C,X_S,X_T))，目的是将来自于源域中的图片分到对应的类别中去；

α代表输入被分为Unknown未知类的概率；

P(y＝K+1|x_t)代表步骤3中构造的分类器模型将目标域中的图片分为Uknown未知类的概率，K+1代表未知类Uknown，即没有在源域中出现的类别，其优化目标为对于步骤5中的分类模型min(Adv_loss(X_T))，即分类器模型尽可能的使输入被分为Unknown未知类的概率接近α；对于步骤4中的生成器模型max(Adv_loss(X_T))即min(-Adv_loss(X_T))，即生成器尽可能的欺骗分类器模型，其中有两种做法，一种是将输入尽可能和源域相联合，使输入被拒绝分为Unknown未知类，减少输入被分为Unknown未知类的概率，一种是对于输入图片将其分为Unknown未知类来增加输入分为Unknown未知类的概率；

整个Loss训练模型为：

Loss(G_S→T,G_T→S,G,D_S,D_T,C,X_S,X_T,Y_S)

＝GAN_loss(G_S→T,D_T,X_S,X_T)+GAN_loss(G_T→S,D_S,X_T,X_S)+γ*Cycle_loss(G_S→T,G_T→S,X_S,X_T)+Cls_loss(G,G_S→T,C,X_S,X_T)+μ*Adv_loss(X_T)，

G代表步骤4中的生成器模型，其优化目标为：

2.根据权利要求1所述的方法，其特征在于，步骤7包括：