CN109919200B

CN109919200B - 一种基于张量分解和域适应的图像分类方法

Info

Publication number: CN109919200B
Application number: CN201910115988.9A
Authority: CN
Inventors: 徐书艳; 韩立新; 徐国夏
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-02-15
Filing date: 2019-02-15
Publication date: 2022-08-19
Anticipated expiration: 2039-02-15
Also published as: CN109919200A

Abstract

本发明公开一种基于张量分解和域适应的图像分类方法，步骤是：使用深度学习网络提取源域图像和目标域图像的特征，使用张量表示，分别为X_S、X_T，拼接源域和目标域的特征，记为X，X_S、X_T、X均为四阶张量；利用Tensor Ring分解方法，将X分解为四个三阶张量{U₁,U₂,U₃,U₄}；将X_S与U₁,U₂,U₃进行相乘，得到newX_S；对X_T与U₁,U₂,U₃进行相乘，得到newX_T；对newX_S、newX_T进行重塑，将源域和目标域的特征转换为矩阵的形式，分别为X_train、X_test；使用X_train训练网络对X_test进行分类。此种方法可对没有标签的图像进行分类。

Description

一种基于张量分解和域适应的图像分类方法

技术领域

本发明属于迁移学习的域适应领域和图像分类领域，特别涉及一种基于张量分解和域适应的图像分类方法。

背景技术

在新领域完成图像分类任务时，往往没有足够的已标注数据可以利用，数据的标注是一个耗时且昂贵的操作，但机器学习模型的训练和更新，均依赖于数据的标注。而且机器学习方法都有一个基本假设：训练数据和测试数据必须服从相同的分布。然而，在许多情况下，这种同分布假设并不能得到满足。迁移学习不需要满足这种假设就可以进行，因而能够在彼此不同但又相互关联的两个领域间实现知识的迁移和复用。所以可以寻找与目标域数据相似的数据集作为源域，利用源域数据和目标域数据之间的相似性，以及源域数据的标签，将源域中的知识迁移到目标域的任务中。

域适应是迁移学习领域最火的研究点，其目标是在源域和目标域的类别空间和特征空间一样但数据分布不同的情况下，利用有标注的源域数据去学习一个分类器来预测目标域数据的标签。所以可以利用域适应方法实现对目标域图像的分类。

现有的大多数域适应方法都是只适用于向量，用这些方法表示高维数据时，需先将数据向量化，这严重破坏了高维数据的本征结构。而且表示高维数据时，向量表示会导致大量参数估计的误差和计算复杂度的提高。虽然张量已广泛应用于计算机视觉，可完整地表示高维数据并且能维持高维空间数据的本征结构信息，但基于张量的域适应方法很少，张量表示可使用张量分解，将多维代替高维，避免了维度增加带来的误差和代价。

2017年，Lu H提出将张量应用于域适应(参见“Lu H,et al.When unsuperviseddomain adaptation meets tensor representations.The IEEE InternationalConference on Computer Vision(ICCV).Vol.2.2017.”)，假设源域和目标域共享一部分子空间，使用张量表示源域和目标域的特征，经过张量Tucker分解得到特征张量分为核张量和一系列的因子矩阵，这一系列矩阵就可以表示域间共享的子空间。但基于Tucker分解的域适应方法不仅复杂度太高，而且削弱了子空间的全局表示，效果并没有达到很高的水平。

针对已有的域适应方法的缺点，有必要提供一种高效的、新颖的方法，能在维持数据本征结构的同时，最大限度地减小源域和目标域之间数据分布的差异。

发明内容

本发明的目的，在于提供一种基于张量分解和域适应的图像分类方法，其可对没有标签的图像进行分类。

为了达成上述目的，本发明的解决方案是：

一种基于张量分解和域适应的图像分类方法，包括如下步骤：

步骤1，使用深度学习网络提取源域图像和目标域图像的特征，使用张量表示，分别为X_S、X_T，拼接源域和目标域的特征，记为X，X_S、X_T、X均为四阶张量；其中，四阶张量X_S、X_T、X的第4阶的维度均表示样本数量；

步骤2，利用Tensor Ring分解方法，将X分解为四个三阶张量{U₁,U₂,U₃,U₄}，该三阶张量集合表示源域和目标域共享的子空间；

步骤3，将X_S与U₁,U₂,U₃进行相乘，在相乘过程中对X_S和U_n进行维度的调整和重塑，n＝1,2,3，而且将每次矩阵相乘结果重塑为张量，最终实现X_S的降阶，得到newX_S；对X_T与U₁,U₂,U₃进行相乘，在相乘过程中对X_T和U_n进行维度的调整和重塑，n＝1,2,3，而且将每次矩阵相乘结果重塑为张量，最终实现X_T的降阶，得到newX_T；

步骤4，对newX_S、newX_T进行重塑，将源域和目标域的特征转换为矩阵的形式，分别为X_train、X_test；

步骤5，使用X_train训练网络对X_test进行分类。

上述步骤2中，假设

输入Tensor Ring分解中的秩r₁，r₂，r₃，r₄，经过Tensor Ring分解得到{U₁,U₂,U₃,U₄}，其中

上述步骤3中，X_S与U₁,U₂,U₃相乘时，设定X_S与U₁,U₂,U₃的相乘顺序为U₁,U₂,U₃，则相乘的详细过程如下：

步骤311，将X_S的维度转为(I₂×I₃×n_s)×I₁，将U₁的维度转为I₁×(r₄×r₁)；

步骤312，将步骤311中维度转换后的X_S和U₁相乘得到一个维度为(I₂×I₃×n_s)×(r₄×r₁)的矩阵，将该矩阵重塑为一个维度为I₂×I₃×n_s×r₄×r₁的五阶张量fiveX_S；

步骤313，将fiveX_S的维度转为(I₃×n_s×r₄)×(r₁×I₂)，将U₂的维度转为(r₁×I₂)×r₂；

步骤314，将步骤313中维度转换后的fiveX_S和U₂相乘得到一个维度为(I₃×n_s×r₄)×r₂的矩阵，将该矩阵重塑为一个维度为I₃×n_s×r₄×r₂的四阶张量fourX_S；

步骤315，将fourX_S的维度转为(n_s×r₄)×(r₂×I₃)，将U₃的维度转为(r₂×I₃)×r₃；

步骤316，将步骤315中维度转换后的fourX_S和U₃相乘得到一个维度为(n_s×r₄)×r₃的矩阵，将该矩阵重塑为一个维度为n_s×r₄×r₃的三阶张量，即为newX_S。

上述步骤4中，将newX_S的维度转为I₄×(r₄×r₃)，得到X_train；将newX_T的维度转为n_t×(r₄×r₃)，得到X_test。

上述步骤3中，X_T与U₁,U₂,U₃相乘时，设定X_T与U₁,U₂,U₃的相乘顺序为U₁,U₂,U₃，则相乘的详细过程如下：

步骤321，将X_T的维度转为(I₂×I₃×n_t)×I₁，将U₁的维度转为I₁×(r₄×r₁)；

步骤322，将步骤321中维度转换后的X_T和U₁相乘得到一个维度为(I₂×I₃×n_t)×(r₄×r₁)的矩阵，将该矩阵重塑为一个维度为I₂×I₃×n_t×r₄×r₁的五阶张量fiveX_T；

步骤323，将fiveX_T的维度转为(I₃×n_t×r₄)×(r₁×I₂)，将U₂的维度转为(r₁×I₂)×r₂；

步骤324，将步骤323中维度转换后的fiveX_T和U₂相乘得到一个维度为(I₃×n_t×r₄)×r₂的矩阵，将该矩阵重塑为一个维度为I₃×n_t×r₄×r₂的四阶张量fourX_T；

步骤325，将fourX_T的维度转为(n_t×r₄)×(r₂×I₃)，将U₃的维度转为(r₂×I₃)×r₃；

步骤326，将步骤325中维度转换后的fourX_T和U₃相乘得到一个维度为(n_t×r₄)×r₃的矩阵，将该矩阵重塑为一个维度为n_t×r₄×r₃的三阶张量，即为newX_T。

上述步骤5中，基于传统的机器学习方法，使用X_train训练网络对X_test进行分类。

采用上述方案后，与现有的大多数图像分类方法相比，本发明所提供的一种基于张量分解和域适应的图像分类方法具有明显优势。首先，使用张量表示特征，完整地表示高维数据并且能维持高维空间数据的本征结构信息，而且张量表示可使用张量分解，将多维代替高维，避免了维度增加带来的误差和代价；使用Tensor Ring分解出的三阶张量集合构造子空间，比Tucker分解更高效；灵活运用张量维度的调整和重塑，降低了对运行设备的性能要求，减少了运行时间；在图像无标签的情况下，根据与目标域数据相似的源域数据，使用迁移学习的方法，实现了对图像的高效分类。

附图说明

图1是本发明的流程图；

图2是本发明中张量分解示意图。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

参见图1，给出了本发明实施例的算法流程，包括以下步骤：

步骤101、图像特征提取：使用深度学习网络提取源域图像和目标域图像的特征，使用张量表示，分别为X_S、X_T，拼接源域和目标域的特征，记为X，X_S、X_T、X均为四阶张量。

一个样本的特征为一个三阶张量，即上述四阶张量的第4阶的维度表示样本数量。

步骤102、构造子空间：利用Tensor Ring分解方法，将X分解为四个三阶张量{U₁,U₂,U₃,U₄}。该三阶张量集合表示源域和目标域共享的子空间。假设

其中，I₁至I₃表示图像特征的维度，n_s表示源域样本的数量，n_t表示目标域样本的数量；输入Tensor Ring分解中的秩r₁，r₂，r₃，r₄，经过Tensor Ring分解可得{U₁,U₂,U₃,U₄}，其中

步骤103、特征映射：将X_S与U₁,U₂,U₃进行相乘，其中需要对X_S和U_n(n＝1,2,3)进行维度的调整和重塑，而且每次矩阵相乘结果需重塑为张量，最终实现X_S的降阶，得到newX_S，该过程是将X_S映射到步骤102给出的子空间中。对X_T实施与X_S相同的操作,得到newX_T。可根据具体的特征维度，设定X_S与U₁,U₂,U₃的相乘顺序，若相乘顺序为U₁,U₂,U₃，详细过程如下：

1)使用维度的调整和重塑，将X_S的维度转为(I₂×I₃×n_s)×I₁，将U₁的维度转为I₁×(r₄×r₁)。

2)将1)中结果相乘得到一个维度为(I₂×I₃×n_s)×(r₄×r₁)的矩阵，将该矩阵重塑为一个维度为I₂×I₃×n_s×r₄×r₁的五阶张量fiveX_S。

3)使用维度的调整和重塑，将fiveX_S的维度转为(I₃×n_s×r₄)×(r₁×I₂)，将U₂的维度转为(r₁×I₂)×r₂。

4)将3)中结果相乘得到一个维度为(I₃×n_s×r₄)×r₂的矩阵，将该矩阵重塑为一个维度为I₃×n_s×r₄×r₂的四阶张量fourX_S。

5)使用维度的调整和重塑，将fourX_S的维度转为(n_s×r₄)×(r₂×I₃)，将U₃的维度转为(r₂×I₃)×r₃。

6)将5)中结果相乘得到一个维度为(n_s×r₄)×r₃的矩阵，将该矩阵重塑为一个维度为n_s×r₄×r₃的三阶张量，即为newX_S。此时一个样本的特征为一个矩阵，即，经过特征变换的newX_S、newX_T的第3阶维度表示样本数量。

步骤104、特征重塑：对newX_S、newX_T进行重塑，将源域和目标域的特征转换为矩阵的形式，分别为X_train、X_test。此时一个样本的特征为一个向量，即，经过特征重塑的X_train、X_test的第2维表示样本数量，例如，将newX_S的维度转为n_s×(r₄×r₃)，得到X_train。

步骤105、模型训练与特征分类：基于传统的机器学习方法，使用X_train训练网络，对X_test进行分类，从而实现了目标域图像的分类。

综合上述，本发明一种基于张量分解和域适应的图像分类方法，包含以下步骤：图像特征提取，使用深度学习网络提取源域和目标域的图像特征，并使用张量表示特征；构造子空间，利用Tensor Ring分解方法，将特征分解为4个三阶张量，表示子空间；特征映射，依次将源域特征和目标域特征映射到子空间中；特征重塑，将张量特征重塑为矩阵形式；模型训练与特征分类，使用经过一系列变换的源域特征训练模型，然后对目标域特征进行分类，从而实现了目标域图像的分类。本发明的无监督图像分类方法，提供了一种高效的特征变换方式，可有效地减小源域和目标域之间数据分布的差异，实现了目标域中图像的分类。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于张量分解和域适应的图像分类方法，其特征在于包括如下步骤：

步骤1，使用深度学习网络提取源域图像和目标域图像的特征，使用张量表示，分别为X_S、X_T，拼接源域和目标域的特征，记为X，X_S、X_T、X均为四阶张量；

步骤5，使用X_train训练网络对X_test进行分类。

2.如权利要求1所述的一种基于张量分解和域适应的图像分类方法，其特征在于：所述步骤1中，四阶张量X_S、X_T、X的第4阶的维度均表示样本数量。

3.如权利要求1所述的一种基于张量分解和域适应的图像分类方法，其特征在于：所述步骤2中，假设

其中，I₁至I₃表示图像特征的维度，n_s表示源域样本的数量，n_t表示目标域样本的数量；输入Tensor Ring分解中的秩r₁，r₂，r₃，r₄，经过Tensor Ring分解得到{U₁,U₂,U₃,U₄}，其中

4.如权利要求3所述的一种基于张量分解和域适应的图像分类方法，其特征在于：所述步骤3中，X_S与U₁,U₂,U₃相乘时，假设X_S与U₁,U₂,U₃的相乘顺序为U₁,U₂,U₃，则相乘的详细过程如下：

5.如权利要求4所述的一种基于张量分解和域适应的图像分类方法，其特征在于：所述步骤4中，将newX_S的维度转为n_s×(r₄×r₃)，得到X_train；将newX_T的维度转为n_t×(r₄×r₃)，得到X_test。

6.如权利要求3所述的一种基于张量分解和域适应的图像分类方法，其特征在于：所述步骤3中，X_T与U₁,U₂,U₃相乘时，设定X_T与U₁,U₂,U₃的相乘顺序为U₁,U₂,U₃，则相乘的详细过程如下：

7.如权利要求1所述的一种基于张量分解和域适应的图像分类方法，其特征在于：所述步骤5中，基于传统的机器学习方法，使用X_train训练网络对X_test进行分类。