CN110163286A

CN110163286A - 一种基于混合池化的领域自适应图像分类方法

Info

Publication number: CN110163286A
Application number: CN201910439494.6A
Authority: CN
Inventors: 龚声蓉; 杨海花; 应文豪; 钟珊; 周立凡
Original assignee: Changshu Institute of Technology
Current assignee: Yantu Huiyun Suzhou Information Technology Co ltd
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-08-23
Anticipated expiration: 2039-05-24
Also published as: CN110163286B

Abstract

本发明公开了一种基于混合池化的领域自适应图像分类方法，将待分类的目标域图像送入训练后的图像分类预测模型中输出n×1维的特征向量，然后利用one‑hot编码得到目标域图像的所属类别，图像分类预测模型包括依次连接的若干卷积层，卷积层连接最大池化层,再级联一层平均池化层，平均池化层连接带有softmax激励函数的全连接层，目标域图像经过若干卷积层提取图像特征，然后经过最大池化层进行下采样得到第一描述子特征再经过平均池化层提取图像特征中的局部信息得到第二描述子特征，最后由全连接层得到特征向量。本发明方法能容忍输入的微小变化，减小过拟合，提高模型的容错性，优化迁移效果。

Description

一种基于混合池化的领域自适应图像分类方法

技术领域

本发明涉及一种图像分类方法，特别是涉及一种基于混合池化的领域自适应图像分类方法。

背景技术

领域自适应是迁移学习的一个子类。如何利用少量的带标签数据以及其他相关领域中的数据，建立一个可靠的模型对具有不同数据分布的目标领域进行预测是迁移学习所要研究的内容。而领域自适应的主要目标是尽量找到共有特征，让两个领域的数据分布差异最小化，从而实现知识的迁移，其中目标域为少量甚至没有标记样本的数据集，也就是要学习的领域。源域是与目标域数据分布不同但是含有大量相似标记样本的数据集。

图像是现在非常重要的信息载体，图像分类可以应用在医学图像识别，人脸识别，车牌识别，行人检测，遥感图像分类等方面。传统的分类方法都基于两个基本假设：(1) 训练样本和测试样本需要满足独立同分布的条件(Identically and independentlydistributed,IID)；(2)具有充足的训练数据。但是，在很多现实领域，这两个条件往往无法同时满足。如随着时间的推移，原先有效的训练数据可能会过期，与新来的测试数据产生语义、分布上的差异，而对当前场景下的数据进行标定又需要花费很大的开销。现有机器学习和深度学习方法对数据极度饥渴，需要海量的标注数据才能达到令人满意的效果。但其它领域中有大量相关的带标记的图像，对这些图像弃之不用非常可惜。因此从源域迁移知识到目标域，辅助目标域图像的分类任务非常必要。

目前已有多种方法解决领域自适应问题，主要分为三类：(1)最小化概率分布距离。根据分布类型的不同，进行边缘、条件和联合概率分布的适配，最终达到数据分布无限接近的状态。(2)找到共有特征。从源域和目标域中选择共享的特征，建立统一模型。 (3)将两个域映射到相同子空间寻找潜在共有特征。因为现在的数据集间的内容差异很大，导致对数据的分布很难适配，找到共有特征也比较困难，所以比较流行的方法是通过一个变换关系将源域和目标域映射到相同子空间，在该子空间下，可以通过减小两域间的分布差异来学习隐藏的共有特征。

提取特征是领域自适应中最重要的环节，特征的好坏直接影响分类器的性能。但传统的领域自适应方法的不足有两点：一是无法处理大规模数据；二是学习到的特征表达往往泛化能力不强。基于深度学习的方法用卷积神经网络提取深度特征取得了显著的成果，但是深度学习模型计算量巨大，因此需要在网络优化的同时进一步提高网络的分类能力。就领域自适应中的特征提取方面，当前主要存在两个问题。

1、鲁棒性。对于一些简单的视觉任务而言，比如图像分类、人脸识别等，人工设计的特征往往就能取得比较好的结果。但由于领域自适应问题的特殊性，跨领域、样本量不足等条件对图像特征的鲁棒性提出了更高的要求。这是因为在不同领域中，光照条件不一样，物体呈现的视角也不同，这就导致很难得到两域的共有特征。另外传统的领域自适应方法只能提取物体的底层特征，无法有效的对目标域中的物体进行识别和分类。

2、局部信息利用率不高。随着高速发展的信息技术，各种数据呈爆炸性增长，导致现有的数据集又大又复杂。所以现有的领域自适应方法大都是利用卷积神经网络提取深度特征，在卷积神经网络中通常使用最大池化进行下采样，该池化方法更多的保留全局信息，从而减小卷积层参数误差造成估计均值的偏移。与此同时，它也容易丢失大量重要信息，加深网络过拟合的程度，导致提取特征的抽象性不足，不能够对输入的微小变化产生更大的容忍。

发明内容

本发明的目的是提供一种基于混合池化的领域自适应图像分类方法，容忍输入的微小变化，减小过拟合，提高模型的容错性，优化迁移效果。

本发明的技术方案是这样的：一种基于混合池化的领域自适应图像分类方法，包括以下步骤：将待分类的目标域图像送入训练后的图像分类预测模型中输出n×1维的特征向量，其中n为类别数量，然后利用one-hot编码得到所述目标域图像的所属类别，所述图像分类预测模型包括依次连接的若干卷积层，最后一层所述卷积层连接最大池化层，所述最大池化层级联一层平均池化层，所述平均池化层连接带有softmax激励函数的全连接层，所述目标域图像经过所述若干卷积层提取图像特征，提取的所述图像特征经过所述最大池化层进行下采样得到第一描述子特征然后经过所述平均池化层提取图像特征中的局部信息得到第二描述子特征，最后由所述平均池化层的输出扁平化为一维向量，并送入所述全连接层得到所述n×1维的特征向量。

进一步地，所述图像分类预测模型经过以下训练方法得到：将源域样本和目标域样本分别输入所述图像分类预测模型得到源域样本和目标域样本的特征向量，分别计算源域样本的特征向量和目标域样本的特征向量间的wasserstein距离，用wasserstein距离刻画源域和目标域之间的相似度表示为：

L_DA(x^s,x^t)＝∑w(f₂(f₁(x^s)),f₂(f₁(x^t)))

其中，w表示x^s、x^t在特征空间中分布的距离度量函数，x^s∈X^s表示源域样本，x^t∈X^t表示目标域样本，通过最小化L_DA值反向更新所述图像分类预测模型的卷积层参数直到所述图像分类预测模型收敛。

进一步地，所述通过最小化L_DA值反向更新所述图像分类预测模型的卷积层参数的更新公式如下所示：

其中，表示在中，与进行逐元素相乘的块，由此输出的卷积值存放在(u,v)位置上，表示第l层第i个特征的灵敏度，l表示卷积层的层数。

进一步地，将所述源域样本的特征向量和目标域样本的特征向量送入一个全连接层 fc，输出为10×1的一维向量，然后与经过one-hot编码得到的10×1真实标签的特征向量作交叉熵得到两者之间的loss值，loss函数表达式如下：

其中，y^s表示样本x^s对应的真实标签，n^s表示源域中的样本数，f_c表示全连接层的映射函数，k表示类别数，通过减小loss值，反向更新所述图像分类预测模型的卷积层参数直到所述图像分类预测模型收敛。

进一步地，所述图像分类预测模型设有两个卷积层，包括第一卷积层和第二卷积层，所述第一卷积层设有32个卷积核，所述第二卷积层设有64个卷积核。

进一步地，所述图像分类预测模型的卷积层参数为所述卷积层的权值和偏置项。

本发明所提供的技术方案的有益效果是，

本发明将可能被忽略的信息利用起来，提出最大池化和平均池化级联的混合池化策略，使得提取的图像特征更为抽象和完整，也更鲁棒，并且具有某种程度的平移不变性，从而防止过拟合，提高泛化性。

本发明通过以wasserstein距离反向更新模型参数进行域适配，使得拥有相同标签但却属于不同分布的样本能够在映射空间中比较靠近或者分布相似，通过不断学习得到更具抽象性，更鲁棒的特征，从而使得在源域中训练得到的分类器在目标域上能有很高的分类准确率。

本发明在减小域间差异进行域适配的同时，使得分类误差最小化，通过减小loss值反向更新模型参数，模型可以学到更多的域间共享特征，从而解决迁移中的泛化问题。

附图说明

图1为本发明图像分类预测模型结构示意图；

图2为本发明图像分类预测模型训练框架图；

图3为平衡参数Mmax的敏感性实验结果图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不作为对本发明的限定。

本发明基于混合池化的领域自适应图像分类方法，包括以下步骤：

将目标域测试集中的样本送入训练好的图像分类预测模型中，请结合图1所示图像分类预测模型包括依次连接的第一卷积层C1和第二卷积层C2，第二卷积层连接最大池化层P1，最大池化层P1级联一层平均池化层P2，平均池化层P2连接带有softmax激励函数的全连接层fc。

目标域测试集中的样本首先进入第一卷积层C1，提取图像中的底层特征。C1中有32个卷积核，对应的参数有w₁₁,w₁₂,...,w₁₃₂和b₁₁,b₁₂,...,b₁₃₂，下标中的第一个1表示第一卷积层；然后，利用第二卷积层C2提取更高级的特征。C2中有64个卷积核，对应的参数有w₂₁,w₂₂,...,w₂₆₄和b₂₁,b₂₂,...,b₂₆₄，下标中的第一个2表示第二卷积层。这些参数在经过训练后使模型能够提取到较好的特征；接着，经过两层池化层，使得数据处理量减少并且保留有用的信息；然后，将平均池化层P2的输出扁平化为一维向量，并送入全连接层fc，使得模型的输出为一个n×1维的特征向量，其中n为类别数量。最后利用 one-hot编码得到该图像的所属类别。

该图像分类预测模型的训练过程包括提取特征、混合池化、域适配和最小化分类误差4个步骤。

1、提取特征

传统方法提取的特征虽然可以针对性的缓解光照、视角等因素变化所带来的影响。但对于较复杂的计算机视觉任务而言，其辨析力和鲁棒性仍然不够，这也使得领域自适应方法达不到好的迁移效果。深度卷积神经网络的出现，改变了特征不够鲁棒性的现状，它可以通过卷积层渐进的、逐层的提取图像特征，由底层特征到高层隐义特征。为了减小深度所带来的超大计算量，本发明只使用了两层卷积作为特征提取器。对于源域和目标域的样本X^s和X^t，输入的样本图像的大小为28×28，第一卷积层C1设有32个卷积核，卷积核大小为5×5，卷积过程就是图像每个位置进行线性变换映射成新值的过程，将卷积核看成权重，若拉成向量记为w，图像对应位置的像素拉成向量记为x，则该位置卷积结果为y＝wx+b，即向量内积+偏置，将x映射为y。卷积后会产生32个特征图，每个特征图提取输入的不同特征，例如边缘、线条和角等；第二卷积层C2设有64个卷积核，其它配置与第一卷积层C1相同。与第一卷积层C1不同的是，该层卷积得到的特征更抽象化，比如“自行车的车轮”和“自行车的车把”。

2、混合池化

通过卷积操作获得了图像的特征后，若直接使用该特征去做分类会面临计算量的挑战，并且容易出现过拟合。所以一般会在卷积之后使用pooling技术将小邻域内的特征点进行整合得到新的特征，pooling技术使用缩减采样将图像由28×28缩小为14×14，使得所提取特征的维度减小，参数的数量和计算量下降，同时提高模型的容错性。现有的卷积神经网络都是利用最大池化进行下采样，这种采样方式忽略了样本数据中的细节信息，所以本发明将可能被忽略的信息利用起来，提出混合池化策略，使得提取的图像特征更为抽象和完整，也更鲁棒，并且具有某种程度的平移不变性。从而防止过拟合，提高泛化性。具体的操作步骤如下：

通过卷积神经网络M分别得到特征表示M^s和M^t，它们是由64个大小为28×28的特征图组成，若直接用该特征做分类，会造成计算爆炸。所以首先对第二卷积层C2输出的特征图采用最大池化操作得到对应的特征表示，本发明使用2×2的窗口，并且步幅设置为2，在2×2的窗口中取最大值作为采样后的样本值，使得特征图的大小从28×28 缩小为14×14。该操作可以在更好的保留纹理信息且保证特征图数量不变的情况下，得到第一描述子特征：

其中，m是子区域的总数量，N_m是子区域中的数据个数，α_i、β_j分别为子区域中的数据，子区域是由2×2的窗口在特征图上得到的区域组成的。

最大池化，相当于该网络又进行了一次特征提取，这在一定程度上减小了下一层数据的处理量。但在进行最大池化操作时，舍弃了数据中的大量信息，其中就包括一些对分类结果造成影响的细节信息，并且抽取的特征并不具有抽象性，所以本发明提出在最大池化层P1后级联一层平均池化层P2，进一步提取特征中的局部信息。其中，下采样的窗口大小为2×2，步长为2，使得特征图的大小从14×14缩小为7×7，特征图数量仍为64。平均池化与最大池化不同是它将每个局部输入图块变换为取图块各通道的平均值而不是最大值，从而减小邻域大小受限造成的估计值方差增大的影响。最终得到第二描述子特征：

3、域适配

经过以上各层，原始数据被映射到隐藏特征空间中，并得到64个特征图，接下来通过一层带有1024个神经元的全连接层将这些特征图映射成一个1×1024维的特征向量。这个特征向量包含了输入图像所有特征的组合信息，虽然丢失了图像的位置信息，但是该向量将图像中含有最具有特点的图像特征保留了下来以此完成图像分类任务。为了进一步衡量源域和目标域的特征向量间的相似性，并对两个领域进行适配，将1×1024的特征向量经过两层全连接层，输出为一个值。然后对输出的值进行距离度量，如欧式距离、切比雪夫距离和曼哈顿距离等都属于不需要学习的度量，由于这些度量不能够有效利用数据蕴含的判别信息，因此不能在在分类识别中取得较高的准确率。本发明主要利用了基于wasserstein距离的领域自适应方法，分别计算目标图像的特征向量和源图像的特征向量间的wasserstein距离，能够充分利用训练数据内在的分布信息来学习具有很强判别性的模型参数。

用wasserstein距离来刻画源域和目标域之间的相似度可以表示为：

L_DA(x^s,x^t)＝∑w(f₂(f₁(x^s)),f₂(f₁(x^t)))

其中，w表示x^s、x^t在特征空间中分布的距离度量函数，x^s∈X^s、x^t∈X^t分别表示源域和目标域样本集中的数据。

通过最小化L_DA值反向更新模型的参数，即权值w和偏置项b，直到模型收敛，更新公式如下所示：

此操作使得拥有相同标签但却属于不同分布的样本能够在映射空间中比较靠近或者分布相似，通过不断学习得到更具抽象性，更鲁棒的特征。从而使得在源域中训练得到的分类器在目标域上能有很高的分类准确率。

4、最小化分类误差

经过以上步骤得到的模型往往不再适用于源域，这说明提取到的特征大部分不是领域间共享的，所以本发明在减小域间差异进行域适配的同时，使得分类误差最小。具体实现细节为：因为分类的类别数量为十类，所以将上文中提及的全连接层得到的1×1024 维的特征向量送入一个全连接层fc，输出为10×1的一维向量，然后与经过one-hot编码得到的10×1真实标签的特征向量作交叉熵得到两者之间的loss值，loss函数表达式如下：

其中，y^s表示样本x^s对应的真实标签，n^s表示源域中的样本数，f_c表示全连接层的映射函数，k表示类别数。

通过减小loss值，反向更新模型的参数，即第一、第二卷积层的权值w和偏置项b，直到模型收敛。这种情况下模型可以学到更多的域间共享特征，从而解决迁移中的泛化问题。

对本发明方法(以下简写为HPDDA)进行论证实验，使用数据集是：MNIST-USPS 和Office-caltech。

MNIST-USPS数据集是迁移学习领域里使用较频繁的数据集，MNIST包含7万张黑底白字手写数字图片，其中55000张为训练集，5000张为验证集，10000张为测试集。本文将数据输入神经网络之前，先将图像的像素用长度为784的一维数组来代替，再将该数组作为神经网络的输入特征输入神经网络。USPS数据集中的训练集有55000张图片，测试集有1860张。

Office-caltech数据集是领域自适应问题中的一个标准数据集。它包含了10个类别，包括背包、自行车、计算器等物品图像，横跨了四个不同领域：Amazon,Webcam，DSLR 和Caltech,分别记作A,W,D,C。

另外，实验硬件环境：Ubuntu 16.04，GTX1080ti显卡，显存12G，Core(TM)i7处理器，主频为3.4G，内存为16G。

代码运行环境：深度学习框架(tensorflow)，python3.5。

选择近年来具有代表性的研究成果来评估提出的方法，包括DeepDomainConfusion(DDC)、WassersteinDistanceGuidedRepresentationLearning(WDGRL)。为了证明域适配的有效性，又与未进行适配的方法进行对比。表1和表2 显示了当前使用卷积神经网络提取特征中表现较好的几种方法以及本发明方法的结果。

对于MNIST-USPS数据集，具体的实现细节为：用多层感知器作为基本的网络框架来提取具备抽象性的特征，然后再增加一层带有softmax激励函数的全连接层作为预测分类的输出。从表1中的结果可以看出，本发明方法和其它几种方法相比有较好的改善。因为MNIST和USPS两个域的差异并不是特别大，所以大部分方法的迁移效果都比较好，而本发明方法提出的混合池化策略因同时兼顾了全局信息和局部细节特征，使得提取的特征更具鲁棒性，最终分类准确率提高了约2％-3％。

表1 HPDDA与其它方法在MNIST-USPS数据集上的性能比较

对于office-caltech数据集，实验设置和第一个实验相同。从表2可以看出，与其它方法相比，本发明方法的算法在分类效果上都有明显的提升。其中，Webcam和Amazon 两个域之间的差异很大，以前的方法改善并不是很明显，原因是对于这种差距比较大的数据集，很难学习到它们之间的共有特征，而且用于提取特征网络往往只有一层池化或者没有池化，这样学习到的特征还不具备抽象性，所以导致面对实际问题时，分类效果会大打折扣。而本发明方法的准确率提高了约3％，这表明该方法对于差异比较大的领域提取的特征是具有鲁棒性的。

表2 HPDDA与其它方法在office-caltech数据集上的性能比较

混合池化的有效性分析

为了验证HPDDA的有效性，该实验不再级联两个池化层，而是融合两个池化层的结果。为了平衡两个池化结果对网络的作用，将Mmax、Mmean、Mmax’、Mmean’作为平衡参数(Mmax+Mmean＝1，Mmax’+Mmean’＝1)。

表3各种融合方式在MNIST-USPS数据集上的性能比较

表3记录了不同融合方式的分类准确率，虽然最终结果也有所提升，但和本发明提出的HPDDA相比，还是有一些差距。主要原因是该方法的所有池化操作都是基于卷积后所得的特征图，平均池化虽然可以得到细节信息，但是也会得到很多无用甚至干扰分类结果的信息，直接导致分类准确率的下降，当Mmax＝Mmax’＝0.2时，分类准确率降到最低。本发明提出的HPDDA是在最大池化后级联一层平均池化层，该方法是在提取出的重要信息上进行筛选，从而摒弃了很多无用信息，使得提取的特征更为抽象，更具细节性。为了进一步说明HPDDA的有效性，本发明对融合池化中的平衡参数进行了性能影响实验。为了方便讨论，设置Mmax＝Mmax’，Mmean＝Mmean’，实验结果见图3。从图3可以看出，当Mmax所占比例越来越大时，准确率在不断提高。这说明最大池化是实现下采样较好的方式，它可以抽取出特征图中的全局信息，而直接将平均池化应用于卷积后的特征图上时，抽取出的信息很多是无用的，导致分类效果降低。综合实验一和实验三，可以验证HPDDA方法中先最大池化后平均池化的有效性。

Claims

1.一种基于混合池化的领域自适应图像分类方法，其特征在于，包括以下步骤：将待分类的目标域图像送入训练后的图像分类预测模型中输出n×1维的特征向量，其中n为类别数量，然后利用one-hot编码得到所述目标域图像的所属类别，所述图像分类预测模型包括依次连接的若干卷积层，最后一层所述卷积层连接最大池化层，所述最大池化层级联一层平均池化层，所述平均池化层连接带有softmax激励函数的全连接层，所述目标域图像经过所述若干卷积层提取图像特征，提取的所述图像特征经过所述最大池化层进行下采样得到第一描述子特征然后经过所述平均池化层提取图像特征中的局部信息得到第二描述子特征，最后由所述平均池化层的输出扁平化为一维向量，并送入所述全连接层得到所述n×1维的特征向量。

2.根据权利要求1所述的基于混合池化的领域自适应图像分类方法，其特征在于，所述图像分类预测模型经过以下训练方法得到：将源域样本和目标域样本分别输入所述图像分类预测模型得到源域样本和目标域样本的特征向量，分别计算源域样本的特征向量和目标域样本的特征向量间的wasserstein距离，用wasserstein距离刻画源域和目标域之间的相似度表示为：

L_DA(x^s,x^t)＝∑w(f₂(f₁(x^s)),f₂(f₁(x^t)))

3.根据权利要求2所述的基于混合池化的领域自适应图像分类方法，其特征在于，所述通过最小化L_DA值反向更新所述图像分类预测模型的卷积层参数的更新公式如下所示：

4.根据权利要求2所述的基于混合池化的领域自适应图像分类方法，其特征在于，将所述源域样本的特征向量和目标域样本的特征向量送入一个全连接层fc，输出为10×1的一维向量，然后与经过one-hot编码得到的10×1真实标签的特征向量作交叉熵得到两者之间的loss值，loss函数表达式如下：

5.根据权利要求1所述的基于混合池化的领域自适应图像分类方法，其特征在于，所述图像分类预测模型设有两个卷积层，包括第一卷积层和第二卷积层，所述第一卷积层设有32个卷积核，所述第二卷积层设有64个卷积核。

6.根据权利要求2所述的基于混合池化的领域自适应图像分类方法，其特征在于，所述图像分类预测模型的卷积层参数为所述卷积层的权值和偏置项。