CN117557916B

CN117557916B - 一种结合文本图像生成的遥感目标分类方法

Info

Publication number: CN117557916B
Application number: CN202410039983.3A
Authority: CN
Inventors: 唐浩竣; 赵文达; 肖易; 李云龙
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-03-19
Anticipated expiration: 2044-01-11
Also published as: CN117557916A

Abstract

本发明属于深度学习技术领域，公开了一种结合文本图像生成的遥感目标分类方法。该遥感目标分类方法的训练过程主要分为尾部类特征提取训练阶段、尾部类图像生成阶段和批动态采样分类阶段。本发明提出的互蒸馏网络通过均匀采样、逆采样和模型互相蒸馏方法能够提取到尾部类的丰富特征信息，缓解了特征提取过程中忽视尾部数据的问题。同时本发明的尾部类图像生成网络可以生成类多样性和类一致性的尾部类图像，引入更多的样本量，最后，批动态采样分类网络使尾部类数据和头部类保持均衡，缓解分类器的歧视，最终提高分类效果。此外本发明克服了生成器生成尾部图像时易发生模式崩溃和类别混淆的弊端，对遥感目标识别等研究领域有着重大意义。

Description

一种结合文本图像生成的遥感目标分类方法

技术领域

本发明属于深度学习技术领域，涉及一种结合文本图像生成的遥感目标分类方法，用于生产高质量的尾类图像。

背景技术

目前，与本发明相关的技术包括三方面：第一是知识蒸馏算法；第二是生成对抗网络算法；第三是零样本分类的CLIP 算法。

知识蒸馏算法根据教师模型是否与学生模型同时更新，可分为离线蒸馏、在线蒸馏和自蒸馏。离线蒸馏方法通常采用单向的知识迁移和两阶段的训练程序。然而，训练时间长的、复杂的、高容量教师模型是无法避免的，并且教师与学生之间的能力差距始终存在，而且学生往往对教师有极大依赖。而在线蒸馏能够进一步提高学生模型的性能，特别是在没有大容量高性能教师模型的情况下。在线蒸馏是一种具有高效并行计算的单阶段端到端训练方案，教师模型和学生模型同步更新，整个知识蒸馏框架都是端到端可训练的，但现有的在线方法（如相互学习）通常无法处理在线环境中的高容量教师。在自蒸馏中，教师和学生模型使用相同的网络，这可以看作是在线蒸馏的一个特例。例如论文（Zhang, L., Song,J., Gao, A., Chen, J., Bao, C. & Ma, K. (2019b).Be your ownteacher: Improvethe performance of convolutional eural networks via self distillation.InICCV.）将网络深层的知识蒸馏到浅层部分。

自2014 年Ian Goodfellow 提出了生成对抗网络GAN 以来，出现了各种GAN的变体算法，如DCGAN、CycleGAN、StyleGAN 等。DCGAN 提出了使用转置卷积层（逆卷积层）实现的生成网络、普通卷积层来实现的判别网络，大大地降低了网络参数量，同时图片的生成效果也大幅提升。Zhu 等人在文献《UnpairedImage-to-Image Translation using Cycle-Consistent Adversarial Networks》中提出CycleGAN，通过引入循环训练机制以及循环一致性损失，实现了图像的风格迁移。Tero Karras 等人在文献《A Style-Based GeneratorArchitecture for GenerativeAdversarial Networks》中提出StyleGAN，能够很好地控制图像生成特定的特征，并实现了对隐空间较好的解耦。

CLIP 算法由Open AI 在2021 年提出，该算法利用文本作为监督信号来训练可迁移的视觉模型，利用文本-图像对进行训练，是一种基于对比学习的多模态模型。基于该算法可以通过无监督对比学习的预训练方式将文本数据和图片数据表示到同一个特征空间，分别将图像及其标签输入图像编码器和文本编码器中进行编码，再通过内积计算得到预测标签值，从而实现零样本的图像分类。

现有的对长尾目标分类的方法主要有重采样、重加权、迁移学习和数据增强，重采样分为头部数据欠采样和尾部数据过采样，前者造成头部信息丢失，后者造成尾部数据过拟合。重加权通过修改损失函数逼迫模型关注尾部数据以提高准确率，但其牺牲头部性能来改善尾部性能，不能从根本上解决数据稀缺的问题。迁移学习技术用来解决长尾目标分类，其通常寻找源域的一些可借鉴知识来提高尾类的性能。可以在不牺牲头部类的情况下来提高尾部类的性能。有这很好的发展前景。对于数据增强，简单地使用现有的类无关增强技术来改进长尾学习是不利的，因为头类中的样本更多，增强程度会变大，可能会进一步加剧不平衡。相反，为了克服上述困难，我们创造性的引入生成对抗网络来生成多样化且类一致的尾部类图像，可以在不牺牲头部性能的前提下引入更加多样化的尾部类样本，缓解数据之间的不平衡，从而最终提高长尾分类的精度。

发明内容

针对数据长尾分布导致模型分类时造成头部偏见而忽视尾部数据的情况，一个简单且高效的解决方式就是增加尾部类图像的数量，从而造成头尾数据的相对平衡，缓解分类器的歧视。传统的重采样方法会重复采样尾部图像，这种方法仅仅是增加了尾部类图像的数量，且样本会重复，可能会导致尾部数据的过拟合。为了解决此类问题，我们引入生成对抗网络来生成大量的类一致性且类多样性的尾部类图像数据。提出了一个尾类图像智能增强生成网络，首先我们利用知识蒸馏的技术提取出原始数据中的尾部类数据特征，然后将该特征送入到尾类图像智能增强生成网络生成大量类一致性和类多样性的尾部类样本，然后将这些样本送入到批动态采样分类网络中训练最终的分类器，以提高分类器在长尾分布数据下的预测精度。

本发明的技术方案：

一种结合文本图像生成的遥感目标分类方法，步骤如下：

该遥感目标分类方法的训练过程主要分为尾部类特征提取训练阶段、尾部类图像生成阶段和批动态采样分类阶段；

（1）尾部类特征提取训练阶段使用以ResNet50 为基础网络构建的互蒸馏网络，互蒸馏网络分为两个分支，分别为均匀采样分支和逆采样分支，两个分支均使用ResNet50进行特征提取，然后两个分支互相进行知识的传递，最终提取到尾部类特征信息；

（2）尾部类图像生成阶段

在长尾分类问题当中，尾部类的样本量太少，尽管逆采样使得尾部类的样本数量增加，但是由于逆采样的图像仍然服从原始数据的分布，使得采样的样本多样性极度不足。至此，我们希望通过生成对抗网络来生成多样化的尾部类图像从而缓解这种数据分布的不平衡，最终提高分类的准确率。近年来，在图像生成方面，各种高质量的GAN 不断被提出，在人脸生成，图像迁移，超分辨等众多领域展现了自己的光辉。但是GAN 在长尾分布的数据集上表现非常差，由于尾部类样本的数量稀少，鉴别器非常容易“记住”这些样本，导致鉴别器过拟合从而导致生成的退化，还有一个原因，尾部特征缺少多样性，从而使得生成器一直生成同一类的图像，造成模式崩溃和类别混淆。为了生成类一致性和类多样性的图像，选择StyleGAN 作为生成对抗网络的基线，并引入CLIP 和基于ε 范围约束的多样性损失来提高生成图像的类一致性和类多样性；

（3）批动态采样分类阶段

给定长尾数据集D ，将长尾数据集D 划分为头部数据尾部数据/>除此之外，还有上一阶段生成的生成数据是尾部类数据；

为了防止丢失真实数据集的信息，三个数据集都需要送入分类网络当中，该分类网络同样选取ResNet50 作为基线；其中，具有更多的头部类信息，/>具有更多的真实尾部类信息，/>具有更多的生成尾部类信息；因此再送入分类网络前，需要平衡头尾样本数量，从而达到头尾相对平衡，从而防止分类器产生歧视；

分类器选用ResNet50 进行特征提取，全连接进行网络分类；通过这种方法，每个batch 将包含等量的头部和尾部类别样本。通过这种方法，每个batch 将包含等量的头部和尾部类别样本，从而实现了更好的数据平衡，有助于提高模型在长尾分布下的性能。

本发明的有益效果：本发明提出的互蒸馏网络通过均匀采样、逆采样和模型互相蒸馏方法能够提取到尾部类的丰富特征信息，缓解了特征提取过程中忽视尾部数据的问题。同时本发明的尾部类图像生成网络可以生成类多样性和类一致性的尾部类图像，引入更多的样本量，最后，批动态采样分类网络使尾部类数据和头部类保持均衡，缓解分类器的歧视，最终提高分类效果。此外本发明克服了生成器生成尾部图像时易发生模式崩溃和类别混淆的弊端，对遥感目标识别等研究领域有着重大意义。该方法在处理类别不平衡的数据集中尤为突出，例如在医学影像分析和遥感卫星图像识别等关键领域发挥重要作用。本发明目标是通过该方法推动深度学习技术在稀缺领域的长尾分类问题处理上取得突破性进展。

附图说明

图1 是互蒸馏网络架构。

图2是特征提取网络；其中，（a）是尾部类特征提取网络；（b）是尾部类图像生成网络。

图3 是为W 空间特征编码添加多样性的过程。

图4 是利用CLIP 对生成对象进行类一致性约束。

图5 是批动态采样分类网络。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

图1 是互蒸馏网络架构，首先拿到长尾数据集，经过均匀采样和逆采样得到两个数据集分别为均匀采样数据集和逆采样数据集，然后将均匀采样数据集送入均匀模型中进行特征的提取，逆采样数据集送入到逆模型/>进行特征的提取，然后将均匀采样的数据送入到/>中进行特征提取，并将提取到的知识蒸馏到/>。同样将逆采样得到的数据送入到/>中进行特征提取，并将提取到的知识蒸馏到/>中。每隔几个Epoch 两个模型互相交换自己学习的知识表示，有助于在模型中提取到更多的尾部类信息。

图2中（a）是尾部类特征提取网络，我们将尾部类的数据送入到训练好的中提取得到特征编码，然后为该特征引入多样性噪声添加，然后送入图2中（b）所示的StyleGAN 的生成器网络当中，然后得到生成的图像，生成的图像经过CLIP 进行类一致性保证，然后送入判别器当中进行训练。

图3 是为W 空间特征编码添加多样性的过程，向尾部类的W 空间特征编码后添加多样性，生成与原来尾部类的W 空间特征编码不一致的尾部类的W 空间噪声特征编码。

图4 是利用CLIP 对生成对象进行类一致性约束，保证生成的图像与原始尾部类数据集中的图像之间含有相同类别的信息。

图5 是批动态采样分类网络，我们将得到的三个数据集进行平衡，得到一个批次中头尾图像平衡的数据集送入分类器中进行训练，从而得到最终的结果。

实施例

一种结合文本图像生成的遥感目标分类方法，步骤如下：

（1）尾部类特征提取训练阶段

使用以ResNet50 为基础网络构建的互蒸馏网络，互蒸馏网络分为两个分支，分别为均匀采样分支和逆采样分支，两个分支均使用ResNet50 进行特征提取，然后两个分支互相进行知识的传递，最终提取到尾部类特征信息；

（1.1）首先，定义均匀采样分支和逆采样分支的过程；给定长尾数据集N为长尾数据集D 的样本总数；/>代表长尾数据集D中的某个样本，/>代表对应/>的真实标签，/>是下标索引；均匀采样的数据符合原始数据的分布，头部类的数据较多；逆采样用于缓解极端不平衡，显著增加尾部样本的采样数量；均匀采样分支在一个训练周期内以等概率获得每个样本，并保留原始数据分布的特征；

均匀采样的采样概率定义如下：

其中，N为长尾数据集D 的样本总数，是第j 类的样本数，/>是第C 类的采样概率；

（1.2）在逆采样过程中，每一类的采样概率与其样本量的倒数成正比，一个类中的样本越多，该类的采样概率越小，根据样本数计算f 类的采样概率，计算表达式表示为：

其中，为第f 类类别的逆采样权重，/>为每个类别的逆采样权重，j的值从1取到N，N为长尾数据集D 的样本总数，/>计算如下：

其中，是所有类别的最大样本数，/>为第/>类样本的类别数；

（1.3）通过均匀采样和逆采样得到均匀采样数据集和逆采样数据集/>，然后分别通过两个特征编码器：头部类特征提取器/>和尾部类特征提取器/>分别来提取均匀采样数据集/>和逆采样数据集/>的特征，接着将均匀采样的数据送入到尾部类特征提取器/>中进行特征提取，并将提取到的知识蒸馏到头部类特征提取器/>；同样将逆采样的数据送入到头部类特征提取器/>中进行特征提取，并将提取到的知识蒸馏到尾部类特征提取器/>中；每隔几个Epoch 两个模型互相交换自己学习的知识表示，有助于在模型中提取到更多的尾部类信息；正采样的必要性在于它能够帮助模型捕捉和理解数据的真实分布。由于头部数据过多，因此正采样的Encoder 可以学习到更多的头部类特征表示，这有助于尾部特征提取中去借鉴头部良好表示。但是由于尾部特征的稀缺，其对尾部特征的提取能力非常弱。逆采样的数据中包含的尾部类数据较多，但是由于尾部数据本身非常稀缺，即使一直注重尾部类采样也难以缓解极度的不平衡，因此我们需要借助头部类特征表示，通过将头部类的知识有效的借鉴的尾部Encoder 当中，提升尾部类的特征表示，同时，将其表示也蒸馏到头部模型当中后，强制让正向Encoder 了解到这种尾部类的数据分布，从而提升特征的多样性。

对于均匀向采样，其损失函数如下：

对于逆向采样，其损失函数如下：

其中，与/>分别代表均匀采样的数据样本量和逆采样的数据样本量，/>代表Ground Truth，/>代表样本的输出概率，/>代表相应模型提取到的特征；

（2）尾部类图像生成阶段

（2.1）提取尾部类特征

给定尾部类图像数据集，首先将其送入到尾部类特征提取器/>中得到尾部类的特征编码；再将该特征编码送入到StyleGAN 的映射网络映射到W 空间中，得到尾部类的W 空间特征编码；

（2.2）多样性添加

向尾部类的W 空间特征编码后添加多样性，生成与原来尾部类的W 空间特征编码不一致的尾部类的W 空间噪声特征编码；具体为：先为每个尾部类的W空间特征编码添加噪音和偏置，然后约束该尾部类的W 空间特征编码以自身为中心，在不超过ε 范围的圆域内得到多个不同的加噪的尾部类W 空间噪声特征编码，然后将多个不同的加噪的尾部类W 空间噪声特征编码平均得到最终的尾部类的W 空间噪声特征编码送入StyleGAN 的生成器当中进行训练；

加噪公式如下：

其中，为最终的尾部类的W 空间噪声特征编码，W 为尾部类的W 空间特征编码，/>为高斯噪音，/>为偏置，/>为ε 约束，该约束使得W 与/>满足下述关系：

加噪后，为了防止噪声进入对尾部类的W 空间特征编码的影响，提出基于ε 范围约束的多样性损失来对所加的噪声进行约束，即所得的和/>均为使得相似性最大时所对应的值，公式如下：

其中，为基于ε范围约束的多样性损失：

至此，得到尾部类的W 空间噪声特征编码；

（2.3）类一致性约束

将得到尾部类的W 空间噪声特征编码送入StyleGAN 的生成器中得到生成的图像，为了保证生成的图像与原始尾部类数据集/>中的图像之间含有相同类别的信息，利用CLIP 来保证类别之间的一致性；具体为：将生成的图像送入的CLIP 的图像编码器中得到图像的特征/>同样，对尾部类图像数据集/>的所有尾部类别名称均送入到CLIP 的文本编码器中生成文本的特征/>将特征/>和特征/>进行对比计算得到一个/>的矩阵，然后利用对比损失最大化他们之间的相似性，从而保证类别之间的一致性，对比损失函数如下：

式（10）最大化矩阵对角线上的值，最小化/>矩阵非对角线上的值；/>为温度系数，/>为尾部类图像的类别数，/>代表第/>个图像和第/>个类别名称之间余弦相似性；

（2.4）生成器与判别器的训练

生成器和判别器的损失函数均选用WGAN-GP 作为损失函数；

生成器损失函数如下：

其中，为生成器生成的图像，/>为鉴别生成图像为真的分值，/>为一致性损失；

判别器的损失函数如下：

其中，为真实尾部类数据集图像，/>为生成图像，/>为真实图像和生成图像之间的插值，/>为生成图像的分布，/>为原始尾部类图像分布，/>为插值图像的分布，~代表服从关系，/>为判别器对图像的得分，/>为惩罚系数，/>为判别器输出关于/>的梯度；

（3）批动态采样分类阶段

给定长尾数据集D ，将长尾数据集D 划分为头部数据尾部数据/>除此之外，还有上一阶段生成的生成数据/>是尾部类数据；

设B 为一个batchsize 大小，从三个数据集中分别取B 个数据；因此在送入批动态采样分类网络BSS 之前，包含3B 个数据；但是其中2B 的数据都是尾部类图像，1B 是头部类图像；为了解决头尾样本不均衡的问题，通过BSS 将整个3B 大小的图像压缩为1B 的图像送入到分类网络中，因此为了保证头尾均衡，应该满足如下的数学关系：

其中，为从一个B 的头部数据中选择的样本数，/>为从一个B 的尾部数据中选择的样本数，/>为从一个B 的生成数据中选择的样本数；这样保证采取的头部数量等于尾部数量，且三者相加为一个B 的数据；具体过程如下：

初始化：设置batch 大小B；

确定样本数：确定头部类样本数为，尾部样本数为/>

选择样本：分别从每个B 的中采样/>个样本量；合并：将/>合并成一个大小为 B 的batch；

训练分类器：使用合并后的头尾平衡的batch 进行网络训练；

Claims

1.一种结合文本图像生成的遥感目标分类方法，其特征在于，步骤如下：

（1）尾部类特征提取训练阶段

（1.1）首先，定义均匀采样分支和逆采样分支的过程；给定长尾数据集N为长尾数据集D的样本总数；/>代表长尾数据集D中的某个样本，/>代表对应/>的真实标签，/>是下标索引；

均匀采样的采样概率定义如下：其中，N为长尾数据集D 的样本总数，/>是第j 类的样本数，/>是第C 类的采样

概率；

（1.2）在逆采样过程中，每一类的采样概率与其样本量的倒数成正比，一个类中的样本越多，该类的采样概率越小，根据样本数计算f 类的采样概率，计算表达式表示为：其中，/>为第f 类类别的逆采样权重，/>为每个类别的逆采样权重，j 的值从1取到N，N为长尾数据集D 的样本总数，/>计算如下：/> 其中，/>是所有类别的最大样本数，/>为第f 类样本的类别数；

（1.3）通过均匀采样和逆采样得到均匀采样数据集和逆采样数据集/>，然后分别通过两个特征编码器：头部类特征提取器/>和尾部类特征提取器/>分别来提取均匀采样数据集/>和逆采样数据集/>的特征，接着将均匀采样的数据送入到尾部类特征提取器/>中进行特征提取，并将提取到的知识蒸馏到头部类特征提取器/>；同样将逆采样的数据送入到头部类特征提取器/>中进行特征提取，并将提取到的知识蒸馏到尾部类特征提取器/>中；

对于均匀向采样，其损失函数如下：

对于逆向采样，其损失函数如下： />其中，/>与/>分别代表均匀采样的数据样本量和逆采样的数据样本量，/>代表GroundTruth，/>代表样本的输出概率，/>代表相应模型提取到的特征；（2）尾部类图像生成阶段

为了生成类一致性和类多样性的图像，选择StyleGAN 作为生成对抗网络的基线，并引入CLIP 和基于ε 范围约束的多样性损失来提高生成图像的类一致性和类多样性；

（2.1）提取尾部类特征给定尾部类图像数据集，首先将其送入到尾部类特征提取器/>中得到尾部类的特征编码；再将该特征编码送入到StyleGAN 的映射网络映射到W空间中，得到尾部类的W 空间特征编码；

（2.2）多样性添加向尾部类的W 空间特征编码后添加多样性，生成与原来尾部类的W空间特征编码不一致的尾部类的W 空间噪声特征编码；具体为：先为每个尾部类的W空间特征编码添加噪音和偏置，然后约束该尾部类的W 空间特征编码以自身为中心，在不超过ε范围的圆域内得到多个不同的加噪的尾部类W 空间噪声特征编码，然后将多个不同的加噪的尾部类W 空间噪声特征编码平均得到最终的尾部类的W 空间噪声特征编码送入StyleGAN 的生成器当中进行训练；加噪公式如下：/> 其中，/>为最终的尾部类的W 空间噪声特征编码，W 为尾部类的W 空间特征编码，/>为高斯噪音，b 为偏置，/>为ε 约束，该约束使得W 与/>满足下述关系：/>加噪后，为了防止噪声进入对尾部类的W 空间特征编码的影响，提出基于ε 范围约束的多样性损失来对所加的噪声进行约束，即所得的/>和/>均为使得相似性最大时所对应的值，公式如下：/> 其中，/>为基于ε范围约束的多样性损失：至此，得到尾部类的W 空间噪声特征编码/>；（2.3）类一致性约束将得到尾部类的W 空间噪声特征编码/>送入StyleGAN 的生成器中得到生成的图像，为了保证生成的图像与原始尾部类数据集/>中的图像之间含有相同类别的信息，利用CLIP 来保证类别之间的一致性；具体为：将生成的图像送入的CLIP 的图像编码器中得到图像的特征/>；同样，对尾部类图像数据集/>的所有尾部类别名称均送入到CLIP的文本编码器中生成文本的特征/>；将特征/>和特征/>进行对比计算得到一个的矩阵，然后利用对比损失最大化他们之间的相似性，从而保证类别之间的一致性，对比损失函数如下：/> 式（10）最大化/>矩阵对角线上的值，最小化/>矩阵非对角线上的值；/>为温度系数，/>为尾部类图像的类别数，sim(q,v)代表第/>个图像和第/>个类别名称之间余弦相似性；

（2.4）生成器与判别器的训练生成器和判别器的损失函数均选用WGAN-GP 作为损失函数；生成器损失函数如下：其中，/>为生成器生成的图像，/>为鉴别生成图像为真的分值，/>为一致性损失；

判别器的损失函数如下：其中，/>为真实尾部类数据集图像，/>为生成图像，/>为真实图像和生成图像之间的插值，/>为生成图像的分布，/>为原始尾部类图像分布，/>为插值图像的分布，~代表服从关系，为判别器对图像的得分，/>为惩罚系数，/>为判别器输出关于/>的梯度；

（3）批动态采样分类阶段给定长尾数据集D ，将长尾数据集D 划分为头部数据尾部数据/>；除此之外，还有上一阶段生成的生成数据/>是尾部类数据；为了防止丢失真实数据集的信息，三个数据集都需要送入分类网络当中，该分类网络同样选取ResNet50 作为基线；其中，/>具有更多的头部类信息，/>具有更多的真实尾部类信息，/>具有更多的生成尾部类信息；因此再送入分类网络前，需要平衡头尾样本数量，从而达到头尾相对平衡，从而防止分类器产生歧视；

设B 为一个batchsize 大小，从三个数据集中分别取B 个数据；因此在送入批动态采样分类网络BSS 之前，包含3B 个数据；但是其中2B 的数据都是尾部类图像，1B 是头部类图像；为了解决头尾样本不均衡的问题，通过BSS 将整个3B 大小的图像压缩为1B 的图像送入到分类网络中，因此为了保证头尾均衡，应该满足如下的数学关系：其中，/>为从一个B 的头部数据中选择的样本数，/>为从一个B 的尾部数据中选择的样本数，/>为从一个B 的生成数据中选择的样本数；这样保证采取的头部数量等于尾部数量，且三者相加为一个B 的数据；具体过程如下：初始化：设置batch 大小B；确定样本数：确定头部类样本数为/>，尾部样本数为/> 选择样本：分别从每个B 的/>中采样/>个样本量；合并：将/>合并成一个大小为 B 的batch；

训练分类器：使用合并后的头尾平衡的batch 进行网络训练；分类器选用ResNet50进行特征提取，全连接进行网络分类；通过这种方法，

每个batch 将包含等量的头部和尾部类别样本。