CN116342938A

CN116342938A - 基于多个潜在域混合的域泛化图像分类方法

Info

Publication number: CN116342938A
Application number: CN202310238084.1A
Authority: CN
Inventors: 刘龙; 黄珂卿
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-06-27

Abstract

本发明基于多个潜在域混合的域泛化图像分类方法，步骤包括：1)获取领域泛化数据集，进行数据增强和数据集扩充；2)构建AlexNet网络，加载预训练权重，对AlexNet网络进行对抗式训练；3)提取AlexNet网络的浅层特征，获得卷积特征统计信息，计算域判别特征；4)将卷积特征统计信息进行聚类，分为若干个簇，并根据簇为数据分配伪域标签；同时对伪域标签进行更新；5)将伪域标签输入给领域判别器完成领域判别器的训练，同时完成整体图像的分类网络的训练，将未参与训练的数据作为测试集输入给分类网络，得到分类结果。本发明的方法，提高网络的泛化性能，具有更好的分类和预测性能。

Description

基于多个潜在域混合的域泛化图像分类方法

技术领域

本发明属于迁移学习技术领域，涉及一种基于多个潜在域混合的域泛化图像分类方法。

背景技术

目前，深度学习模型已广泛应用于计算机视觉的各个领域，其中便包括图像分类。随着深度神经网络的兴起和GPU强大的算力使得基于深度学习的图像分类方法继续蓬勃发展。然而，一个性能较优的深度网络模型的训练和更新依赖于大量的数据标注，尽管海量的图像数据易于获取，但这些数据往往只具备初级形态，标注数据需要耗费大量的人力和物力，这成为制约计算机视觉发展的一大重要因素。同时，在机器学习领域中，网络的训练数据和测试数据均来自同一分布，即满足独立同分布的假设前提，但在实际的工程应用中，不同场景下的数据分布往往存在差异，这导致模型在新的场景中泛化能力较差。

领域泛化放宽了传统机器学习中独立同分布这一基本假设，目的是将知识从标签丰富的相似领域迁移到未知的目标域，主要解决的是当训练数据和测试数据存在偏差且目标域数据难以获取时，如何利用仅有的源域数据训练具有良好泛化性能的网络模型。所以，近年来领域泛化方法越来越受到学者们的广泛关注，并取得了一些值得关注的研究成果。

现有的图像分类算法利用深度学习网络作为其骨干网络，分别从输入图像中提取特征，进行分类。目前的很多有监督图像分类算法已经可以在多数公开数据集上取得极优的准确率，但这些算法的前提是都需要有大规模的已标注数据对网络进行训练，而在实际生活中，在其他图像领域并不一定能够获得大规模的已标注数据，正因为存在上述问题，所有当应用场景发生变化时，有监督图像分类算法具有一定的局限性。而领域泛化研究的问题具体是从若干个具有不同数据分布的数据集中学习一个泛化能力强的模型，以便在未知的测试集上取得良好的效果，即使用具有丰富标签的源域数据训练网络模型，而在与源域数据具有一定相关性的未知目标域上进行测试，并能够取得较高的目标识别准确率。

发明内容

本发明的目的是提供一种基于多个潜在域混合的域泛化图像分类方法，解决了现有技术拥有具有丰富标签的源域数据，并且目标域的数据难以获取时，在图像分类中对深度模型性能的影响大，导致训练后网络模型对未知目标域数据类别预测准确率低下的问题。

本发明所采用的技术方案是，一种基于多个潜在域混合的域泛化图像分类方法，按照以下步骤具体实施：

步骤1，获取领域泛化数据集，包括源域数据集Ds和目标域数据集D_T，进行数据增强和数据集扩充；

步骤2，构建AlexNet网络，加载预训练权重，同时将源域数据集Ds数据输入AlexNet网络中，对AlexNet网络进行对抗式训练；

步骤3，提取AlexNet网络的浅层特征，获得卷积特征统计信息，并计算域判别特征；

步骤4，通过标准聚类算法K-means将卷积特征统计信息进行聚类，分为若干个簇，并根据簇为数据分配伪域标签；同时，随着网络训练过程对伪域标签进行更新；

步骤5，将聚类算法输出的伪域标签输入给领域判别器，完成领域判别器的训练，同时完成整体图像的分类网络的训练，将未参与训练的目标域D_T数据作为测试集输入给分类网络，最终得到分类结果。

本发明的有益效果是，1)在训练过程中并不使用目标域数据，仅使用源域数据训练网络模型，在保证全局领域分布近似的基础上，提高网络的泛化性能。2)考虑了更现实的场景，多个源域数据并不一定完全分开，而更有可能混合在同一个源域中，经过熵损失、领域对抗损失和分类损失作为总体损失函数训练以后，通过标准聚类算法对多个潜在域混合的源域数据进行聚类分析，将聚类分析后的簇标签作为样本的伪域标签，并进一步通过目标函数进行更新、优化，完成领域判别器的训练。3)将未知的目标域数据，即未参与训练的目标域数据作为测试集输入给网络模型，验证网络模型的泛化性能，使其能够在目标域测试中展现出更好的分类和预测性能。

附图说明

图1是本发明方法的网络结构图；

图2是本发明方法中采用的深度特征提取网络的结构框图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于多个潜在域混合的域泛化图像分类方法，按照以下步骤具体实施：

步骤1，获取领域泛化数据集，包括源域数据集Ds和目标域数据集D_T，进行数据增强和数据集扩充，具体过程是，

源域数据集Ds服从某种分布P_s(x)，类别标签为L_s，m为样本数目，即

目标域数据集D_T服从分布P_T(x)，类别标签为L_T，即

将源域数据集Ds、目标域数据集D_T分批次输入到随机数据增广网络中(随机数据增广网络是现有的常规技术)，随机数据增广网络对源域数据集Ds和目标域数据集D_T的样本实施旋转、裁剪和加入高斯白噪声变换后，恢复至原始输入大小，形成新的样本，重新加入至源域数据集Ds中，实现数据集扩充的目的。

步骤2，构建AlexNet网络，加载预训练权重，同时将(由多个潜在域样本组成的)源域数据集Ds数据输入AlexNet网络中，对AlexNet网络进行对抗式训练，

AlexNet网络的结构是，由一个输入层、五个卷积层、两个全连接层和一个输出层构成，见图2；每个卷积层后接一种非线性激活函数，在每个非线性激活函数后面再接一层最大池化层(总共有五个非线性激活函数和五个最大池化层)；在最后一个最大池化层后接一个全连接层，紧接着再加一个全连接层(总共是两个全连接层)，随后在最后一个全连接层后加设一个Softmax函数，

对AlexNet网络的训练过程为：

2.1)参照图2，搭建好AlexNet网络的架构，加载预训练模型(预训练模型是现有的常规技术)，然后从源域数据集Ds中抽取一个批次数据X，输入给AlexNet网络中；

2.2)AlexNet网络对输入数据X(输入图像)进行卷积、池化操作，同时计算损失函数、计算梯度，对AlexNet网络的分类误差进行反向传播，迭代更新AlexNet网络的参数，完成AlexNet网络的训练，

AlexNet网络的操作，包括三个损失函数的计算，即分类损失L_cls(F_f,F_c)、对抗性学习中域判别器的对抗性损失L_adv(F_f,F_d)、熵损失L_ent(F_f,F_c)，计算式分别如下：

a)分类损失L_cls(F_f,F_c)的计算式为：

其中，F_f为特征提取器，F_c为分类器，N_s表示输入的样本数量，C表示数据样本的标签集合，y_i表示第i个样本的标签；

b)对抗性损失L_adv（F_f,F_d)的计算式为：

其中，F_d为领域判别器，

表示伪域，K表示已知数量的域，k表示第k个域，/>

表示伪域标签；

c)熵损失L_ent（F_f,F_c)的计算式为：

其中，H(·)代表交叉熵损失函数；

到此，得到两个最终的优化函数，表达式如下：

步骤3，提取AlexNet网络的浅层特征，获得卷积特征统计信息，并计算域判别特征，具体过程为：

3.1)将源域数据集Ds的样本

并使用AlexNet网络作为特征提取器F(·)，提取得到的浅层特征称为卷积特征统计信息；

3.2)将所提取的卷积特征统计信息用于计算风格损失，为每个通道c跨空间维度独立计算均值μ(x)和标准差σ(x)，计算式分别为：

其中，H、W分别表示特征向量的高和宽，c表示特征向量的通道，x为输入的数据样本；

3.3)计算出均值μ(x)和标准差σ(x)以后，为了组合从不同卷积层获得的多尺度风格特征，将均值μ(x)和标准差σ(x)的堆栈定义为域判别特征ddf(x)，域判别特征ddf(x)的计算式为：

ddf(x)＝{μ(φ₁(x)),σ(φ₁(x)),…,μ(φ_M(x)),σ(φ_M(x))} (8)

其中，μ表示式(5)中均值的计算，σ表示式(6)中的标准差计算，φ(·)表示映射函数MMD。

步骤4，通过标准聚类算法K-means将卷积特征统计信息进行聚类，分为若干个簇，并根据簇为数据分配伪域标签；同时，随着网络训练过程对伪域标签进行更新，具体过程是：

4.1)得到域判别特征ddf(x)后，通过K-means算法进行聚类分析，

首先计算源域数据样本的聚类中心，其次使得每个聚类集合中的样本点与聚类中心的距离平方和最小，反复迭代更新聚类中心；直到聚类中心不再发生变化，或是达到一定的迭代次数时，认为K-means算法已经收敛，

K-means算法的目标函数为：

其中，x为给定源域数据集Ds中的每个数据样本

S_i表示聚类集合N＝{N₁,N₂,…,N_k}中的一个子集，a_i是集合S_i的中心点，也就是聚类中心；

4.2)根据K-means算法所得到的聚类中心，将多个潜在混合的源域数据集Ds的数据划分为

个簇，并利用簇分配a_i作为伪域标签/>

将聚类的簇分配结果a_i转为伪域标签/>

的过程进行反复迭代，进行更新，更新过程所需的目标函数的表达式为：

其中，N_s为第s个聚类集合，

表示一个epoch之前的伪域标签，a_i表示第N_s个聚类集合的聚类中心，π表示Kuhn-Munkres算法。

步骤5，将聚类算法输出的伪域标签输入给领域判别器，完成领域判别器的训练，同时完成整体图像的分类网络的训练，将未参与训练的目标域D_T数据作为测试集输入给分类网络，最终得到分类结果，

具体过程是：

5.1)将步骤4输出的伪域标签输入给领域判别器，结合之前特征提取器所提取的领域不变特征，完成领域判别器的训练，具体的损失函数定义如式(2)所示；

5.2)完成本发明方法所述的图像的分类网络的训练，将未参与训练的目标域D_T数据作为测试集输入给分类网络，最终得到分类结果。

实验验证：

为了验证本发明方法的有效性，将本发明方法与现有技术的两个方法CIDDG和MLDG在目前公开的PACS数据集做了性能测试，具体结果见表1。从表1中可看出，本发明方法在PACS数据集上准确率有所提升，说明本发明方法的准确性更高，可靠性更好。

表1、领域泛化方法PACS数据集的实验结果

Claims

1.一种基于多个潜在域混合的域泛化图像分类方法，其特征在于，按照以下步骤具体实施：

2.根据权利要求1所述的基于多个潜在域混合的域泛化图像分类方法，其特征在于，步骤1中，具体过程是：

所述的源域数据集Ds服从某种分布P_s(x)，类别标签为L_s，m为样本数目，即

所述的目标域数据集D_T服从分布P_T(x)，类别标签为L_T，即

将源域数据集Ds、目标域数据集D_T分批次输入到随机数据增广网络中，随机数据增广网络对源域数据集Ds和目标域数据集D_T的样本实施旋转、裁剪和加入高斯白噪声变换后，恢复至原始输入大小，形成新的样本，重新加入至源域数据集Ds中，实现数据集扩充。

3.根据权利要求1所述的基于多个潜在域混合的域泛化图像分类方法，其特征在于，步骤2中，具体过程是：

所述的AlexNet网络的结构是，由一个输入层、五个卷积层、两个全连接层和一个输出层构成；每个卷积层后接一种非线性激活函数，在每个非线性激活函数后面再接一层最大池化层；在最后一个最大池化层后接一个全连接层，紧接着再加一个全连接层，随后在最后一个全连接层后加设一个Softmax函数，

对AlexNet网络的训练过程为：

2.1)搭建好AlexNet网络的架构，加载预训练模型，然后从源域数据集Ds中抽取一个批次数据X，输入给AlexNet网络中；

2.2)AlexNet网络对输入数据X进行卷积、池化操作，同时计算损失函数、计算梯度，对AlexNet网络的分类误差进行反向传播，迭代更新AlexNet网络的参数，完成AlexNet网络的训练，

a)分类损失L_cls(F_f,F_c)的计算式为：

b)对抗性损失L_adv(F_f,F_d)的计算式为：

其中，F_d为领域判别器，

表示伪域，K表示已知数量的域，k表示第k个域，/>

表示伪域标签；

c)熵损失L_ent(F_f,F_c)的计算式为：

其中，H(·)代表交叉熵损失函数；

到此，得到两个最终的优化函数，表达式如下：

4.根据权利要求1所述的基于多个潜在域混合的域泛化图像分类方法，其特征在于，步骤3中，具体过程为：

3.1)将源域数据集Ds的样本

ddf(x)＝{μ(φ₁(x))，σ(φ₁(x))，…，μ(φ_M(x))，σ(φ_M(x))} (8)

5.根据权利要求1所述的基于多个潜在域混合的域泛化图像分类方法，其特征在于，步骤4中，具体过程是：