CN113887504B

CN113887504B - 强泛化性的遥感图像目标识别方法

Info

Publication number: CN113887504B
Application number: CN202111232231.1A
Authority: CN
Inventors: 赵文达; 童婷婷; 徐从安; 刘瑜; 姚力波; 何友; 卢湖川
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2023-03-24
Anticipated expiration: 2041-10-22
Also published as: CN113887504A

Abstract

本发明属于图像信息处理技术领域，针对提升遥感网络准确度和泛化性的问题，提供了一种强泛化性的遥感图像目标识别方法。使用特征提取主干与多个预测分支的结构。在对有监督的数据进行训练时，我们将不同预测分支的特征通过余弦相似度的方式进行分离增加多样性，在后续的训练过程中获取无监督图像的真值，使最终的预测准确度和泛化性均得到提升。本发明的遥感图像目标识别泛化性增强方法，利用了半监督的方法通过大量无标签数据的训练增强网络特征提取能力，目前存在的蒸馏方法不能有效解决训练网络泛化性低的问题，本发明的一致性轮次学习方法有效的解决了这个问题，本发明方法能够提升识别网络的准确度和泛化性。

Description

强泛化性的遥感图像目标识别方法

技术领域

本发明属于图像信息处理技术领域，特别是涉及遥感图像目标识别的方法。

背景技术

目前，与本专利相关的方法包括两方面：第一是基于深度学习的图像识别算法；第二是基于泛化性的图像目标识别算法。

基于深度学习的图像识别算法主要分为三类：一类是检测或分割技术辅助识别的方法。检测或分割网络帮助分类网络找到重点Regions，辅助最后分类总特征。Dvornik等人在文献《Learning to navigate for fine-grained classification》中提出特征识别网络结合检测网络，检测网络将具有分辨性的物体的区域分割出来，特征识别网络提取这些分割出的区域，最终与整体特征结合，增强了对更具辨识性特征的识别。一类是利用注意力机制方法。Zheng等人在文献《Learning multi-attention convolutional neuralnetwork for fine-grained image recognition》中基于注意力的方法定位和放大重要的部分来学习分类所需的细节，将各个特征通道的信息组合在一起，得到图像的标识性特征。第三类是高阶特征交互方法。Min等人在文献《Multi-objective matrixnormalization for fine-grained visual recognition》中通过多目标矩阵幂归一化等操作，达到稳定特征信息，增加网络泛化能力的效果。

基于泛化性的图像目标识别的研究也有多种方式，例如，Yan在《ClusterFit:Improving Generalization of Visual Representations》中指出聚类有助于从提取的特征中减少预训练特定任务得到的信息，从而最大限度地减少对相同特征的过度拟合，减少相同特征的过度拟合可以使网络获取更多不同信息，从而增加网络的泛化性。Rafael在《When Does Label Smoothing Help？》中提出将标签平滑作用于图像识别的可行性，说明标签平滑可以鼓励同一类的图像特征分组时更加接近。《Domain Adaptive Image-to-image Translation》中提出一种新的域适应方式来增强网络的泛化能力，主要的做法是设计一个域转换模型将需要预测的图片映射到一个有效的输入域，这样网络就可以处理与之前训练不同域的内容。

针对于遥感图像的目标识别，同样可以使用自然域的图像的识别方法来完成，但是遥感图像和自然图像在域上具有较大的差别，直接使用准确度必然下降。相对于普通光学图像，遥感图像数据量少，训练样本的减少会使网络分类准确度下滑。遥感图像真值标注难度也比较大，所以带有标签的图像数量更加少。我们的方法将整个过程分为两个阶段，第一阶段可以通过使用这些少量的有标签图像训练一个具有多样性输出的网络，第二个阶段可以利用大量的无标注图像以及使用有监督阶段训练后网络提供伪标签。这个过程中我们还提出轮次训练学习方法，有效的利用多个不同输出所携带的信息，增加识别网络的泛化能力。

发明内容

针对提升遥感网络准确度和泛化性的问题，提出了一种只需要利用有限的标注图像和大量的无标注图像，结合知识蒸馏完成遥感图像识别的方法。我们使用特征提取主干与多个预测分支的结构。在对有监督的数据进行训练时，我们将不同预测分支的特征通过余弦相似度的方式进行分离增加多样性，在后续的训练过程中获取无监督图像的真值，使最终的预测准确度和泛化性均得到提升。

本发明的技术方案：

一种强泛化性的遥感图像目标识别方法，步骤如下：

整个训练过程主要分为有监督图像的训练阶段和半监督图像的训练阶段；

(1)有监督图像的训练阶段

构建一个基础的分类网络用于有监督图像的训练：Resnet50的前三个模块作为网络的特征提取主干的卷积模型，Resnet50的第四个模块为预测支路的卷积模型；

有监督图像的训练只使用有标签的数据，训练出一个简单的识别网络，包括一个特征提取部分即resnet50的前三个模块，以及三个预测分支，每个分支部分结构相同，均是resnet50的第四个模块，训练时使用交叉熵损失约束三个预测分支；三个预测分支要保证特征的多样性，使用余弦相似度进行不同分支的特征分离；

其中，有监督图像的训练阶段使用的交叉熵损失函数：

其中，L_c为交叉熵损失，p(x_i)为第i个类别对应的真值，q(x_i)为第i个类别的预测值，N为数据集中图片的类别个数；

有监督图像的训练阶段特征多样性的约束采用余弦相似度：

其中，L_Mul代表特征间的相似度，越大代表约束的双方的相似度差别越大， F_i表示第i个输出支路上的特征，F_j表示第j个输出支路上的特征；

通过式(1-1)和(1-2)的约束可训练一个产生多个结果的真值生成网络 G_Net；

(2)半监督图像的训练阶段

在第二个阶段进行半监督图像的训练时G_Net将作为半监督网络结构中的一部分；具体的网络结构与上述提到的有监督网络结构基本相同；不同之处为半监督图像的训练阶段的网络结构是有四个分支的，四个分支中前三个分支的参数为有监督图像的训练阶段的三个分支的参数，加载参数后训练过程中参数保持不变，三个分支为第四个分支的预测产生伪真值；第四个分支训练过程参数变化，输入无标签图像后产生最终的预测结果；整个网络特征提取部分同样以有监督图像的训练阶段的参数作为初始值，但是在半监督图像的训练阶段过程参数会进一步优化；第四个分支的损失函数为交叉熵损失；

半监督图像的训练阶段使用交叉熵损失：

/>

其中，L_R是交叉熵损失，p(x_{M_i})为第M个伪真值对应的第i个类别的概率， q(x_i)为第i个类别的预测值，M可能的取值为{1,2,3}；

三个支路伪真值要得到有效的使用，提出轮次一致性学习方法，在训练的过程轮次使用这些伪真值，这样每个伪真值所携带的信息都能用来监督无标签的图像，使最终预测网络学习到全部伪标签所携带的信息，具体的做法就是每个epoch使用其中一个伪真值，三个伪真值被使用的概率相同。

本发明的有益效果：本发明的遥感图像目标识别泛化性增强方法，利用了半监督的方法通过大量无标签数据的训练增强网络特征提取能力，目前存在的蒸馏方法不能有效解决训练网络泛化性低的问题，本发明的一致性轮次学习方法有效的解决了这个问题，本发明方法能够提升识别网络的准确度和泛化性。

附图说明

图1为网络整体训练流程图。

图2为有监督阶段结构示意图。

图3为半监督阶段结构示意图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

图1为网络整体训练流程图，第一步，通过图像标签训练一个伪真值生成网络G_Net，第二步，利用第一步训练好的网络生成伪标签，作为无标签图像的伪真值进行半监督的训练。图2的具体流程包括，首先用有标签的图像使用交叉熵损失(1-1)对网络整体进行训练，保证网络整体识别效果。其次，为增加网络泛化性，将多个支路的特征通过余弦相似度(1-2)进行分离，得到一个识别效果较好的基本识别网络。其中特征分离部分表示的是每两个支路之间的特征均做特征分离操作。

图3主要是无监督部分训练的展示，使用轮次训练使网络充分利用有监督部分的产生的伪真值，将其中所携带的信息充分使用，这样整个网络泛化性能力也会得到显著提升。

准确度方面的实际结果：

以数据集FGSC的训练为例，我们的训练方式在数据集FGSC上有明显的效果提升。

泛化性方面的实际结果：

泛化性的提升的验证，可以先在数据集FGSC上训练网络，然后用数据集HRSC 在加载以上网络的训练参数后训练测试。

总的来说，本方法设计了一种深度特征半监督方式的遥感图像目标识别泛化性方法，可以有效的针对遥感图像进行目标识别。

Claims

1.一种强泛化性的遥感图像目标识别方法，其特征在于，步骤如下：

(1)有监督图像的训练阶段

其中，有监督图像的训练阶段使用的交叉熵损失函数：

有监督图像的训练阶段特征多样性的约束采用余弦相似度：

其中，L_Mul代表特征间的相似度，越大代表约束的双方的相似度差别越大，F_i表示第i个输出支路上的特征，F_j表示第j个输出支路上的特征；

通过式(1-1)和(1-2)的约束可训练一个产生多个结果的真值生成网络G_Net；

(2)半监督图像的训练阶段

在第二个阶段进行半监督图像的训练时G_Net将作为半监督网络结构中的一部分；半监督图像的训练阶段的网络结构是有四个分支的，四个分支中前三个分支的参数为有监督图像的训练阶段的三个分支的参数，加载参数后训练过程中参数保持不变，三个分支为第四个分支的预测产生伪真值；第四个分支训练过程参数变化，输入无标签图像后产生最终的预测结果；整个网络特征提取部分同样以有监督图像的训练阶段的参数作为初始值，但是在半监督图像的训练阶段过程参数会进一步优化；第四个分支的损失函数为交叉熵损失；

半监督图像的训练阶段使用交叉熵损失：

其中，L_R是交叉熵损失，p(x_{M_i})为第M个伪真值对应的第i个类别的概率，q(x_i)为第i个类别的预测值，M可能的取值为{1,2,3}；

在训练的过程轮次使用这些伪真值，每个epoch使用其中一个伪真值，三个伪真值被使用的概率相同。