CN110909783A

CN110909783A - 一种基于增强重建分类网络的盲领域图像分类与重建方法

Info

Publication number: CN110909783A
Application number: CN201911118540.9A
Authority: CN
Inventors: 陶洋; 胡昊; 鲍灵浪; 孙雨浩; 郭坦
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-03-24

Abstract

在实际场景中，测试数据通常与训练数据的分布不同，并且在训练数据上训练的模型在测试数据中的表现可能会更差，从而导致较差的视觉分类性能。该问题主要是由于域偏差引起的，而域适应通过设计减少分布差异的模型来解决此问题。目前的方法依赖自目标域数据样本参与训练。但是，目标域的测试数据一般无法获取。对于这个盲领域适应问题，提出了一种基于增强重建分类网络的盲领域图像分类与重建方法。使用已训练的源域模型的重建管道增强目标域特征，使其更接近源域的正确类。最后可以使用源域模型的分类管道进行分类。在基准数据集上进行的实验证明，方法在跨域视觉识别方面明显优于最新方法。

Description

一种基于增强重建分类网络的盲领域图像分类与重建方法

技术领域

本发明属于图像分类和模式识别领域，特别涉及一种基于增强重建分类网络的盲领域图像分类与重建方法

背景技术

传统机器学习分类算法的基本假设是，训练和测试数据是从同一分布中提取的。但是，在许多现实世界中的计算机视觉应用中，训练和测试数据很少以相同的方式分布。例如，用于面部识别系统的高分辨率ID卡照片和低分辨率嘈杂的监视图像之间的分配可能会有所不同。类似地，从互联网下载用于训练的图像与来自真实场景中不同照明或角度的图像之间的分布也不同。在这种情况下，训练和测试集之间的较大分布差异将削弱训练和测试集所具有的类间差异。因此，设计对分布不匹配具有鲁棒性的分类器非常重要。此问题可以通过领域自适应DA方法解决。

DA算法旨在减少域之间的差异并消除分布不匹配对类间差异的影响。通常，传统的DA方法可以分为半监督和非监督方法。对于半监督方法，训练数据由大量标记的源域数据和有限的标记目标域数据组成。对于无监督方法，训练数据由标记的源域数据和未标记的目标域数据组成。确保无监督的方法更符合实际情况。

从适用场景可以看出，在半监督和非监督域适配中，需要目标域数据参与训练。例如，子空间学习算法主要将项目域与子空间之间的差异最小化以进行域自适应，从而找到一种从源子空间转换为目标子空间的方法或对齐通过投影将源子空间和目标子空间。因此，这些方法的性能将由于目标域的欠采样而受到影响，而后者无法准确计算目标子空间。同样，试图减小源域和目标域之间的分布差异的方法，通常经验最大均值(MMD)等。作为不同分布之间的距离度量。但是这些方法还依赖于足够的目标域数据来准确计算目标域的概率分布。

本发明提出了一种特征增强方法，以减少源域和盲目标域之间的分布不匹配。图2和3展示了我们方法的架构框图。我们的方法主要包括三个步骤：1)首先在源域上学习重构分类网络(RCN)模型。特别是，RCN模型包含重建流水线和分类流水线，仅在全局源域中建立高级语义知识与原始观测数据之间的关联。2)通过训练有素的RCN模型增强目标域样本，以便增强的目标域数据可以在RCN模型重建管道中实现更好的性能。3)使用已经在源域中训练的分类管道对增强数据进行分类。我们在基准数据集上对提出的算法进行了广泛的评估。大量的实验结果表明，即使所提出的方法进行盲学习，它也优于现有的非盲学习方法。

发明内容

本发明提出的一种基于增强重建分类网络的盲领域图像分类与重建方法，针对目标域数据无法获取，导致在训练的模型泛化性差的问题。使用重建分类网络在源域数据上进行联合学习，获得模型后，对目标域数据进行增强，从而得到与源域分布相近的目标与数据，提升图像分类算法精度。

本发明方法的技术方案如下：

步骤1、图像数据集预处理，形成训练集。

对原始数据进行预处理，每个训练样本的原始数据信息为

得到包含图像数据的原始数据信息和高层语义信息(标签)矩阵，其中y_i∈{0,1}^m，m为类别数量。

步骤2、建立源域模型和训练，保证该网络模型包含一个输入通道和两个输出通道。

定义为

源域数据和

相应的源域标签。f_c:

为分类管道，f_r:

为RCN的无监督源域数据重建管道。通过两条管道，建立了原始感知数据与高级语义分类的关系。

定义有关RCN模型的3个函数：编码器部分g_enc:

重建部分g_rec:

和分类部分g_cla:

对于m类分类问题，通常使用独热编码来表示。给定一个输入源域数据

可以得到模型f_c和f_r，如下所示：

其中θ_c＝{θ_enc,θ_cla}表示监督分类和θ_r＝{θ_enc,θ_cla}无监督重建模型的参数。θ_enc是编码器g_enc的共享参数。

目标是找到最优的θ_cla、θ_rec和θ_enc参数。给定标记的源域样本

y_i∈{0,1}^m。将经验损失定义：

其中

采用softmax方式，

采用最小均方误差。我们的目标是解决以下目标：

目标函数使用Adam优化方法，交替最小化

和

当重建损失稳定时，训练过程停止。

步骤3、利用步骤2中的f_r(x_s)数据重建通道对目标域数据x_t进行数据增强；

定义为目标域待检测数据。定义一个特征增强器:

确保增强的目标域数据的同时减少信息丢失，得到模型f_a：

f_a(x_t)＝(g_aug)(x_t)

定义θ_a表示增强模型g_aug的矩阵参数。此时，通过步骤2已经获得了经过训练的参数θ_enc,θ_cla和θ_enc，即获得重建分类网络模型，利用以获得的模型ARCN模型建立如下：

此时存在目标域样本

我们将经验损失定义为：

目标获得θ_a，采用交替优化方法解决以下目标函数：

步骤4、一种基于增强重建分类网络的盲领域图像分类与重建方法，将待识别的目标域图像信息输入已训练好的重建分类网络模型，可以同时得到图像分类和图像重建结果。

y^t＝f_c(f_a(x^t))

附图说明

图1 RCN网络架构图

图2 ARCN网络架构图

图3 ARCN图像重建能力

具体实施方式

基于超限隐表示学习的图像分类与重建方法，架构如图1所示：包含一个输入层、两个输出层，共有一个输入通道和两个输出通道。之后通过联合学习，对网络参数进行更新优化。得到好的分类效果的同时保证了数据的完整性。

下面通过一个实施实例对本发明作进一步说明，其目的仅在于更好地理解本发明的研究内容而非限制本发明的保护范围。具体技术步骤如下：

步骤1、本实施例采用此任务是使用Office和Caltech-256数据集执行的。也是最流行的领域适应数据集。

Office和Caltech-256包含四个不同的域包括C(Caltech-256)，A(Amazon)，W(Webcam)和D(DSLR)。通过源域和目标域的组合，我们构造了4×3＝12个跨域对象数据集C→{A，W，D}，A→{C，W，D}，W→{C，A，D}，D→{C，A，W}。并采用800维SURF特征。

步骤2、本实施例将12个训练集的样本标准化，数据维度为D＝800，本实施例取800为输入层大小，并将语义信息标准化为Y，确定隐藏层维度后，随机网络隐藏层和权重参数θ_enc,θ_rec,θ_cla。

确定超限学习机图像分类通道输出层大小为10的维度，重建通道维度为800，等于输入通道参数。

确定学习率为α_c,α_r，确定惩罚参数λ,β。这时已经将RCN模型设置完毕。包含一个输入通道，两个输出通道。采用交替优化方法进行训练。当参数变化不明显时，停止训练，得到RCN模型。

步骤3、利用RCN模型对目标域数据特征增强得到ARCN模型；

根据模型增强模型，设置输入维度为800，输出维度为800，将目标域数据输入增强器，将增强器的输出连接至RCN模型；

初始化学习率，惩罚系数和权重矩阵。对下式θ_a进行优化。

循环运行，直至θ_a收敛。得到β矩阵。

步骤4、将增强后的目标域测试的样本数据，作为RCN网络输入层的大小，即D＝800。将强后的目标域测试输入模型，得到输出的分类信息的数据重建信息。数据重建能力如图3所示，图3中(b)为原始图像，(a)为数据重建后的图像，(c)为重建的误差图像。通过图3，可以看到本模型对数据增强的性能较佳。

本实例将ARCN与传统相关算法作为对比，在12个数据集上进行实验，本实例实验运行10次后取平均值与标准差，实验结果如表1：

观察上述图表可知：在测试准确率方面，ARCN算法测试准确率比传统学习算法高，且部分情况远远高于传统的NN和PCA算法；

我们采用了一种新的特征增强方式，使得目标域数据更加的接近于源域数据，效果见图3，可以明显地看到模型对目标域数据的迁移效果。

因此可以说明ARCN算法在准确率、稳定性方面均优于传统算法；而且ARCN算法可以非常有效的迁移目标域特征。