CN115019183A

CN115019183A - 基于知识蒸馏和图像重构的遥感影像模型迁移方法

Info

Publication number: CN115019183A
Application number: CN202210900359.9A
Authority: CN
Inventors: 刘世烁; 冯鹏铭; 贺广均; 符晗; 常江; 金世超; 梁银川; 邹同元; 韩昱; 车程安; 张鹏
Original assignee: Beijing Institute of Satellite Information Engineering
Current assignee: Beijing Institute of Satellite Information Engineering
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-09-06
Anticipated expiration: 2042-07-28
Also published as: CN115019183B

Abstract

本发明涉及一种基于知识蒸馏和图像重构的遥感影像模型迁移方法，包括：在样本充足和标注完整的数据集A中训练第一目标检测模型，获得教师模型；利用知识蒸馏对所述教师模型进行压缩，获得学生模型，并在样本不足的数据集B中进行训练；利用训练后的学生模型对与所述数据集B的数据类型相同的待测试数据进行判别，获得第一判别结果；重构所述待测试数据，使所述待测试数据与所述数据集A的数据类型相同，利用所述教师模型对重构后的待测试数据进行判别，获得第二判别结果；将所述第一判别结果和所述第二判别结果的全连接层进行加权融合，获得用于判别所述待测试数据的第二目标检测模型。该方法可实现不同类型遥感影像的模型迁移。

Description

基于知识蒸馏和图像重构的遥感影像模型迁移方法

技术领域

本发明涉及深度学习与模型迁移识别技术领域，尤其涉及一种基于知识蒸馏和图像重构的遥感影像模型迁移方法。

背景技术

由不同卫星获取的遥感图像存在数据类型差异较大、获取的数据数量不均衡和标注难度也各有不同的问题，导致不同数据之间的模型无法直接相互迁移使用，而且某些遥感卫星数据量（样本较少）难以支撑大规模训练，尤其是对于相似任务不同类型的新卫星获取的遥感图像数据，在使用这些数据时存在标注困难和常常需要重复标注等一系列的应用难题，效率低。

在不同类型数据的模型迁移任务中，现有主流的深度学习方法主要为基于预训练模型进行迁移学习训练，但是需要重复标注、耗时耗力，且预训练模型在新的数据量较小的情况下也无法达到较好的学习效果，往往也仍旧需要对新的数据进行重新标注和训练。

发明内容

为解决上述现有技术存在的技术问题，本发明的目的在于提供一种基于知识蒸馏和图像重构的遥感影像模型迁移方法，实现不同类型遥感影像的模型迁移。

为实现上述发明目的，本发明的技术方案是：

本发明提供一种基于知识蒸馏和图像重构的遥感影像模型迁移方法，包括：

在样本充足和标注完整的数据集A中训练第一目标检测模型，获得教师模型；

利用知识蒸馏对所述教师模型进行压缩，获得学生模型，并在样本不足的数据集B中进行训练；

利用训练后的学生模型对与所述数据集B的数据类型相同的待测试数据进行判别，获得第一判别结果；

重构所述待测试数据，使所述待测试数据与所述数据集A的数据类型相同，利用所述教师模型对重构后的待测试数据进行判别，获得第二判别结果；

将所述第一判别结果和所述第二判别结果的全连接层进行加权融合，获得用于判别所述待测试数据的第二目标检测模型。

根据本发明的一个方面，所述数据集A和所述数据集B分别包含不同数据类型的遥感影像。

根据本发明的一个方面，在样本充足和标注完整的数据集A中训练第一目标检测模型，获得教师模型，包括：

判断所述数据集A中遥感影像的目标名称和目标区域，使用最小外接倾斜矩形框标注所述目标区域，标注所述目标名称和所述矩形框的四个角点位置；

对标注的遥感影像进行切片和翻转的预处理；

将处理后的遥感影像输入所述第一目标检测模型进行训练，获得教师模型。

根据本发明的一个方面，所述第一目标检测模型采用主干网络为resnet50的残差网络结构，采用Faster R-CNN算法对所述第一目标检测模型进行训练。

根据本发明的一个方面，利用知识蒸馏对所述教师模型进行压缩，获得学生模型，并在样本不足的数据集B中进行训练，包括：

在所述教师模型的全连接层的softmax输出中引入玻尔兹曼分布的温度系数，获得学生模型，当所述温度系数越趋向于0且所述温度系数越大，所述学生模型更接近于所述教师模型；

对所述教师模型和所述学生模型的交叉熵进行最小化，利用样本不足的数据集B训练优化所述学生模型，得到所述交叉熵最小的系数所对应的学生模型。

根据本发明的一个方面，所述学生模型为：

其中，

为所述教师模型的全连接层的softmax输出，i表示第i个类别，

为所述玻尔兹曼分布的温度系数，

表示判别为第i个类别的可能性，j为总类别数量；

所述最小化的交叉熵为：

其中，

为所述教师模型的分布。

根据本发明的一个方面，利用训练后的学生模型对与所述数据集B的数据类型相同的待测试数据进行判别，获得第一判别结果，包括：

将与所述数据集B的数据类型相同的待测试数据输入训练后的学生模型中；

利用所述训练后的学生模型采用two-stage目标检测算法对所述待测试数据的目标进行推理定位和判别，输出每个定位框的第一判别结果；

判断所述第一判别结果是否满足第一预设阈值，并记录满足所述第一预设阈值的目标位置和判别概率，作为最终的第一判别结果。

根据本发明的一个方面，重构所述待测试数据，使所述待测试数据与所述数据集A的数据类型相同，包括：

对所述数据集B和所述数据集A的数据类型进行比较和判断；

对所述数据集A中的数据进行处理，获得与所述数据集B的数据类型相同的数据集A_b；

基于峰值信噪比建立损失函数，建立所述数据集A_b和所述数据集B的数据类型之间的相似度，并基于所述相似度构建和优化所述数据集A到所述数据集B的退化模型

；

利用所述退化模型

采用以下图像重构模型重构所述待测试数据，使所述待测试数据与所述数据集A的数据类型相同，

其中，

为所述退化模型

的反投影，

为随机噪声，

为图像重构模型，在训练过程中，利用基于峰值信噪比建立的损失函数对所述退化模型的反投影进行迭代优化，获得所述图像重构模型。

根据本发明的一个方面，利用所述教师模型对重构后的待测试数据进行判别，获得第二判别结果，包括：

将重构后与所述数据集A的数据类型相同的待测试数据输入所述教师模型中；

利用所述教师模型对所述待测试数据进行推理定位、回归和分类，输出每个定位框的第二判别结果；

判断所述第二判别结果是否满足第二预设阈值，并记录满足所述第二预设阈值的目标位置和判别概率，作为最终的第二判别结果。

根据本发明的一个方面，所述加权融合的公式为：

其中，

为权重系数，

为所述第一判别结果，

为所述第二判别结果，

为所述第二目标检测模型的全连接层。

与现有技术相比，本发明具有如下优点：

根据本发明的方案，利用知识蒸馏构建了教师-学生网络模型，使用样本充足、标注完整的遥感数据训练得到教师网络模型，对教师网络模型蒸馏出数据量小，标注目标少的不同类型遥感数据所对应的学生网络模型。不同于传统的知识蒸馏只保留学生模型作为最终模型，本发明利用图像重构模型使得新类型数据可以转化为教师模型对应类型的数据，对教师模型进行再次利用，并最终将学生模型、教师模型和图像重构模型三者融为一个模型，实现不同类型遥感影像的模型迁移。

根据本发明的一个方案，利用图像重构模型，可以将数据量少的数据转化为已有模型（教师模型）对应的数据类型，便可以直接利用已有模型对新类型的数据进行推理，大大较少了对新数据的数据量和标注量的需求，节省了人力物力，将对新数据的重新训练过程转化为新数据类型变为旧数据类型的过程，可以更好地利用已经训练好的网络模型。

附图说明

为了更清楚地说明本发明实施方式或现有技术中的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性表示本发明实施例公开的一种基于知识蒸馏和图像重构的遥感影像模型迁移方法的实现流程图；

图2示意性表示本发明实施例公开的知识蒸馏的实现流程图；

图3示意性表示本发明实施例公开的构建和优化图像重构模型的实现流程图；

图4示意性表示本发明实施例公开的获得第二目标检测模型与联合判别的实现流程图。

具体实施方式

此说明书实施方式的描述应与相应的附图相结合，附图应作为完整的说明书的一部分。在附图中，实施例的形状或是厚度可扩大，并以简化或是方便标示。再者，附图中各结构的部分将以分别描述进行说明，值得注意的是，图中未示出或未通过文字进行说明的元件，为所属技术领域中的普通技术人员所知的形式。

此处实施例的描述，有关方向和方位的任何参考，均仅是为了便于描述，而不能理解为对本发明保护范围的任何限制。以下对于优选实施方式的说明会涉及到特征的组合，这些特征可能独立存在或者组合存在，本发明并不特别地限定于优选的实施方式。本发明的范围由权利要求书所界定。

参见图1，本发明实施例公开的一种基于知识蒸馏和图像重构的遥感影像模型迁移方法，包括以下步骤：

步骤100、在样本充足和标注完整的数据集A中训练第一目标检测模型，获得教师模型。需要注意的是，数据集A包含的是数据量足够大、标注数据足够多且标注准确，用于训练得到稳定的深度检测识别模型的遥感影像数据。

在一个实施例中，步骤100中在样本充足和标注完整的数据集A中训练第一目标检测模型，获得教师模型的具体实施过程包括：

步骤101、判断所述数据集A中遥感影像的目标名称和目标区域（即目标位置），使用最小外接倾斜矩形框标注所述目标区域，标注所述目标名称和所述矩形框的四个角点位置。

步骤102、对标注的遥感影像进行切片和翻转的预处理。

步骤103、将处理后的遥感影像输入所述第一目标检测模型进行训练，获得教师模型。具体的，该第一目标检测模型采用主干网络为resnet50的残差网络结构。将处理后的遥感影像输入第一目标检测模型后，采用Faster R-CNN算法对第一目标检测模型进行训练，获得教师模型。

步骤200、利用知识蒸馏对所述教师模型进行压缩，获得学生模型，并在样本不足的数据集B中进行训练。需要注意的是，数据集B包含的是数据量较少且不足以训练得到稳定的深度检测识别模型的遥感影像数据。

在一个实施例中，参见图2，步骤200中利用知识蒸馏对所述教师模型进行压缩，获得学生模型，并在样本不足的数据集B中进行训练的具体实施过程包括：

步骤201、在所述教师模型的全连接层的softmax输出中引入玻尔兹曼分布的温度系数，获得学生模型，当所述温度系数越趋向于0且所述温度系数越大，所述学生模型更接近于所述教师模型。将教师模型的最后一层也就是全连接层（或softmax层）的softmax输出作为教师的知识指导学生模型，引入的玻尔兹曼分布中的温度系数可以使教师模型的输出更平滑，温度系数越趋向于0时，模型越收敛为one-hot向量，温度系数越大，新模型（学生模型）更接近于原模型（教师模型）。

具体的，处理后的教师模型的输出

，即所述学生模型为：

其中，

为所述教师模型的全连接层的softmax输出，i表示第i个类别，

为所述玻尔兹曼分布的温度系数，

表示判别为第i个类别的可能性，j为总类别数量；

步骤202、对所述教师模型和所述学生模型的交叉熵C（Cross-entropy）进行最小化，利用样本不足的数据集B训练优化所述学生模型，也就是对所述处理后的教师模型的输出在数据集B上进行优化，得到使得所述交叉熵最小的系数，将该系数对应的教师模型的输出模型q作为训练最后得到的学生模型。

具体的，在教师模型对学生模型的指导训练过程中，所述最小化的交叉熵C为：

其中，

为所述教师模型的分布。

在一个实施例中，所述数据集A和所述数据集B分别所包含的遥感影像的数据类型不同。

步骤300、利用训练后的学生模型对与所述数据集B的数据类型相同的待测试数据进行判别，获得第一判别结果。

在一个实施例中，参见图4，步骤300中利用训练后的学生模型对与所述数据集B的数据类型相同的待测试数据进行判别，获得第一判别结果的具体实施过程包括：

步骤301、将与所述数据集B的数据类型相同的待测试数据输入训练后的学生模型中，也就是所述步骤202最后得到的学生模型q中。

步骤302、利用所述训练后的学生模型采用two-stage目标检测算法对所述待测试数据的目标进行推理定位和判别，输出每个定位框的第一判别结果，即softmax判别结果Ps。

步骤303、判断所述第一判别结果是否满足第一预设阈值，并记录满足所述第一预设阈值的目标位置和判别概率，作为最终的第一判别结果。需要注意的是，这里满足的条件指的是第一判别结果大于等于第一预设阈值。

步骤400、重构所述待测试数据，使所述待测试数据与所述数据集A的数据类型相同，利用所述教师模型对重构后的待测试数据进行判别，获得第二判别结果。

在一个实施例中，参见图3，步骤400中重构所述待测试数据，使所述待测试数据与所述数据集A的数据类型相同的具体实施过程包括：

步骤401、对所述数据集B和所述数据集A的数据类型进行比较和判断。

步骤402、对所述数据集A中的数据进行处理，获得与所述数据集B的数据类型相同的数据集A_b。

步骤403、基于峰值信噪比（PSNR）建立损失函数，建立所述数据集A_b和所述数据集B的数据类型之间的相似度，并基于所述相似度构建和优化所述数据集A到所述数据集B的退化模型

。

步骤404、利用所述退化模型

其中，

为所述退化模型

的反投影，

为随机噪声，

为图像重构模型，在训练过程中，利用基于峰值信噪比建立的损失函数对所述退化模型的反投影进行迭代优化，获得所述图像重构模型。由于重构前的待测试数据与数据集B中的数据类型相同，所以可以利用使得数据集B与数据集A的数据类型相同的重构过程及其相应的图像重构模型对待测试数据进行重构，使其数据类型与数据集A的相同。

在一个实施例中，参见图4，步骤400中利用所述教师模型对重构后的待测试数据进行判别，获得第二判别结果的具体实施过程包括：

步骤405、将重构后与所述数据集A的数据类型相同的待测试数据输入所述教师模型中。

步骤406、利用所述教师模型对所述待测试数据进行推理定位、回归和分类，输出每个定位框的第二判别结果，即softmax判别结果Pt。

步骤407、判断所述第二判别结果是否满足第二预设阈值，并记录满足所述第二预设阈值的目标位置和判别概率，作为最终的第二判别结果。需要注意的是，这里满足的条件指的是第二判别结果大于等于第二预设阈值。

步骤500、将所述第一判别结果和所述第二判别结果的全连接层进行加权融合，获得用于判别所述待测试数据的第二目标检测模型。

在一个实施例中，所述加权融合的公式为：

其中，

为权重系数，

为所述第一判别结果，

为所述第二判别结果，

为所述第二目标检测模型的全连接层。全连接层即为softmax层，所述第二目标检测模型即为融合后的softmax层。对所述第一判别结果和所述第二判别结果的全连接层进行加权融合时，相同区域取最大并集。利用融合后的结果，即融合后的softmax层或第二目标检测模型对待测试数据进行综合判别，得到最终的判别结果综合利用的信息广，实现高精度判别。

本发明实施例提供的基于知识蒸馏和图像重构的遥感影像模型迁移方法，在数据量较大、标注数据较多的遥感影像数据集A中训练的模型作为教师模型，在数据量较小的遥感影像数据集B中使用知识蒸馏的方法压缩教师模型，得到学生模型。利用学生模型对与数据集B同类型的待测试数据进行判别，得到判别结果一，利用图像重构模型对数据集B进行处理，获得与数据集A同一类型的数据，再利用该重构方法对待测试数据重构为与数据集A相同类型的数据，并使用教师模型进行判别，得到判别结果二，最后将判别结果一和判别结果二的softmax层进行加权融合，再利用融合后的softmax层的进行总判别，得到高精度识别与数据集A类型不同的待测试数据的目标检测模型，从而实现不同类型的遥感图像之间的模型迁移。

该方法改变了传统深度学习中使用预训练模型进行模型迁移和传统模型迁移中需要对新的数据进行再次训练的方法，通过知识蒸馏和图像变换的方法以达到不同类型遥感影像模型迁移的目的，实现不同卫星遥感影像之间的模型迁移，而且比传统方法减少了对新模型数据量的依赖。

对于本发明的方法所涉及的上述各个步骤的序号并不意味着方法执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本发明的实施方式的实施过程构成任何限定。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。