CN116740344A - 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 - Google Patents
一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 Download PDFInfo
- Publication number
- CN116740344A CN116740344A CN202310604507.7A CN202310604507A CN116740344A CN 116740344 A CN116740344 A CN 116740344A CN 202310604507 A CN202310604507 A CN 202310604507A CN 116740344 A CN116740344 A CN 116740344A
- Authority
- CN
- China
- Prior art keywords
- remote sensing
- sensing image
- network
- semantic segmentation
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 68
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000004927 fusion Effects 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000004821 distillation Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 241001122767 Theaceae Species 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
- G06V10/7788—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于知识蒸馏的轻量化遥感影像语义分割方法,包括:构建包括一个提取局部空间特征的分支CNN、一个提取全局空间特征的分支Transformer、融合局部空间特征和全局空间特征的特征融合模块以及对融合特征进行解码的解码器的网络;将ResNet50和SegFormer‑B3替换CNN和Transformer,得到教师网络;将ResNet18和SegFormer‑B0替换CNN和Transformer,得到学生网络;构建基于动态温度的融合特征蒸馏模块,来联合训练学生网络和教师网络,动态搜索温度参数,在特征层面使用结构化蒸馏方法,使学生网络在训练期间关注教师网络融合特征中每个通道的特征表示,得到基于知识蒸馏的轻量化遥感影像语义分割模型。使用本发明的方案,在降低遥感影像语义分割精度损失的情况下,实现了模型轻量化。
Description
技术领域
本发明涉及遥感影像信息处理技术领域,尤其涉及一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置。
背景技术
遥感影像语义分割是指将遥感影像中的每个像素按照其所属的类别进行标注,从而实现对遥感影像中的地物、目标、场景等的识别和分析。遥感影像语义分割是遥感影像理解的基础和关键任务之一,具有广泛的应用价值,例如城市规划、土地利用、环境监测、军事侦察等。
近年来,深度学习技术在遥感影像语义分割领域取得了显著的进展,尤其是基于卷积神经网络CNN的方法。CNN具有强大的特征提取能力,能够从遥感影像中提取丰富的局部空间信息,从而提高语义分割的精度。然而,CNN由于其感受野的限制,在建模长距离的上下文信息存在局限性。
为了克服CNN的局限性,一些研究开始引入Transformer结构增强深度学习模型的特征表示能力。Transformer结构是一种基于自注意力机制的编码器-解码器架构,能够有效处理序列数据,如自然语言处理的文本数据。Transformer结构已经被成功地应用到了计算机视觉领域,如图像分类、目标检测、图像生成等。
然而,将Transformer结构应用于遥感影像语义分割任务还面临一些挑战。一方面,如何充分利用CNN和Transformer的特征提取能力,增强遥感影像语义分割精度是一个关键问题;此外,对于遥感星上在轨处理、无人机机载处理等场景,在存储、计算等资源受限的边缘侧开展遥感影像实时语义分割,模型轻量化也是一个重要的问题。
发明内容
为了解决上述问题,本发明提供了一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置,其中的方法包括以下步骤:
S1、获取遥感影像,并对遥感影像进行预处理,将预处理后的遥感影像划分为训练集和测试集;
S2、构建基于CNN-Transformer特征融合的遥感影像语义分割网络,包括一个用于提取局部空间特征的CNN分支、一个用于提取全局空间特征的Transformer分支、将提取的局部空间特征和全局空间特征进行融合的特征融合模块以及对融合的特征进行解码的解码器FPNHead;
S3、将ResNet50和SegFormer-B3替换S2中CNN和Transformer,得到教师网络;
S4、并利用S1中训练集对所述教师网络进行训练,得到遥感影像语义分割模型,利用S1中的测试集对所述模型的精度进行评估;
S5、将ResNet18和SegFormer-B0替换S2中CNN和Transformer,得到学生网络;
S6、构建基于动态温度的融合特征蒸馏模块,利用S1中的训练集对学生网络进行训练,在训练时动态搜索温度参数,在特征层面使用结构化蒸馏方法,使学生网络在训练期间关注教师网络融合特征中通道维度的特征表示,得到基于知识蒸馏的轻量化遥感影像语义分割模型;
S7、基于S1中的测试集对基于知识蒸馏的轻量化遥感影像语义分割模型进行精度评估,利用基于知识蒸馏的轻量化遥感影像语义分割模型对新采集的遥感影像进行快速语义分割。
本发明还提出一种基于知识蒸馏的轻量化遥感影像语义分割装置,包括:
处理器;
存储器,其上存储有可在所述处理器上运行的计算机程序;
其中,所述计算机程序被所述处理器执行时实现一种基于知识蒸馏的轻量化遥感影像语义分割方法。
本发明提供的技术方案带来的有益效果是:
本发明将训练样本输入到教师网络和学生网络中,得到各自的编码特征和语义分割结果;通过梯度获取知识蒸馏的温度参数;计算教师网络和学生网络在不同尺度上输出的编码特征之间的通道损失、计算教师网络和学生网络输出的语义分割结果间的KL散度、以及真实值和学生网络输出的语义分割结果间的交叉熵损失函数,将三者加权相加得到一个总的损失函数。根据总的损失函数对学生网络进行反向传播和参数更新,从而实现知识蒸馏。使用本发明的方案,在降低遥感影像语义分割精度损失的情况下,实现了模型轻量化。
附图说明
图1是本发明实施一种基于知识蒸馏的轻量化遥感影像语义分割方法的流程图;
图2是本发明实施例用于遥感影像语义分割的CNN-Transformer特征融合网络的结构图;
图3是本发明实施例Transformer Block的结构图;
图4是本发明实施例Bottlenect的结构图;
图5是本发明实施例特征融合模块的结构图;
图6是本发明实施例教师网络的网络结构图;
图7是本发明实施例学生网络的网络结构图;
图8是本发明实施例基于知识蒸馏的轻量化遥感影像语义分割方法的示意图;
图9是本发明实施例基于动态温度的融合特征蒸馏模块结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
本实施例的一种基于知识蒸馏的轻量化遥感影像语义分割方法的流程图如图1,具体包括以下步骤:
S1:获取遥感影像,对遥感影像进行旋转、放缩、翻转、随机光度失真等图像增强操作,得到数据集,并将其划分为训练集和测试集。
S2、构建基于CNN-Transformer特征融合的遥感影像语义分割网络,该网络由一个编码器和一个解码器组成。
编码器包括基于Transformer和CNN的双分支全局-局部特征提取结构,以及一个特征融合模块。双分支全局-局部特征提取结构由两个子网络组成,分别是基于Transformer的全局特征提取子网络和基于CNN的局部特征提取子网络。
进一步的实施例中:
参考图2,Transformer子网络使用了多层Transformer编码器从输入遥感影像中提取长距离的上下文信息,多层次Transformer编码器由用于将输入图像分割成分辨率为4×4的补丁编码模块(Patch Embedding)和四个Transformer块(Transformer Block)组成。数据集输入首先通过一个Patch Embedding,然后通过第1个Transformer Block得到第1个全局特征T1,再依次通过第2个Transformer Block得到第2个全局特征T2,第3个Transformer Block得到第3个全局特征T3,第4个Transformer Block得到第4个全局特征T4。经过4个Transformer块的特征提取,最终获得4个分辨率为[H/4×W/4,H/8×W/8,H/16×W/16,H/32×W/32]的特征图。
每个Transformer块利用自注意力机制提取输入特征的深层全局语义特征,将特征图分辨率降低到输入Transformer块特征的1/2,每个Transformer块中包含多个自注意力计算模块(Self-Attention Calculation)和混合前馈神经网络(Mix-FFN),以及一个补丁合并模块(Patch Merging)。参考图3,Transformer Block由N个由1个Self-AttentionCalculation自注意力计算模块和1个MIX-FNN相连构成的模块,后面连接1个PatchMerging组成。
参考图2,CNN子网络使用了多层CNN编码器从输入遥感影像中提取局部空间信息。输入依次通过1个Stem、1个Maxpool、第1组Bottlenect,得到第1个局部空间特征C1、第2组Bottlenect,得到第2个局部空间特征C2、第3组Bottlenect,得到第3个局部空间特征C3、第4组Bottlenect,得到第4个局部空间特征C4。每组Bottlenect由N个Bottlenect组成。
参考图4,Bottlenect由两个分支的输出相加后,连接一个ReLU构成。两个分支的输入相同。其中一个分支由1个Conv1×1和1个Norm组成;另一个分支由2个Conv1×1,1个Conv3×3,2个Norm&ReLU,1个Norm组成。输入依次通过第1个Conv1×1、第1个Norm&ReLU、Conv3×3、第2个Norm&ReLU、第2个Conv1×1、Norm后输出。Norm&ReLU表示归一化函数和激活函数的组合。
ResNet可以替换CNN-Transformer,ResNet由几个称为瓶颈(Bottlenect)的残差块(residual blocks)组成,其中包含一个残差结构,残差结构利用短连接(shortcutconnection)将特征从浅层转移到深层,能够解决深度CNN网络梯度消失问题,公式为H(x)=F(x)+x,其中F(x)为经过卷积层和激活函数后得到的输出。根据第1-4层瓶颈个数组合,ResNet可分为ResNet18、ResNet34、ResNet50、ResNet101和ResNet152,例如ResNet50第1-4层的瓶颈数为[3,4,6,3]。
参考图2,特征融合模块则将不同尺度上提取的特征进行融合,从而得到具有全局-局部信息的融合特征,基于CNN-Transformer特征融合的遥感影像语义分割网络有4个特征融合模块。第1个特征融合模块融合特征C1和T1形成融合特征F1,第2个特征融合模块融合特征C2和T2形成融合特征F2,第3个特征融合模块融合特征C3和T3形成融合特征F3,第4个特征融合模块融合特征C4和T4形成融合特征F4。
参考图5,图5是本发明中用于遥感影像语义分割的特征融合模块的结构图。局部空间特征和全局特征是特征融合模块的输入,局部空间特征和全局特征首先分别通过各自的Conv1×1,混合后依次通过共同的Concat、第1个Conv1×1,Norm&Act、第2个Conv1×1,与第二支路的输出相加后输出。第二支路的输入是局部空间特征和全局特征的混合,第二支路由1个Concat和1个Conv1×1组成,第二支路的输入通过Concat和Conv1×1后输出。
多尺度特征融合模块设计用于融合来自CNN分支的局部特征和来自Transformer分支的全局特征,能够高效灵活融合不同分辨率和通道数的特征。特征融合模块中,CNN分支和Transformer分支各自提取的特征(命名为C和T)首先分别通过卷积核大小为1×1的卷积网络来调整维度,然后将C和T进行级联合并。在这个阶段,通过级联合并的特征被分离到第三个维度。合并后的特征被送入卷积核大小为1×1的卷积网络,然后进行归一化和激活。最后,来自CNN和Transformer分支的特征通过一层卷积核大小为1×1卷积层融合。此外,特征融合模块还设计了一个残差结构来加速模型的收敛。整个网络中共有4个特征融合模块,分别接受空间分辨率为H/4×W/4、H/8×W/8、H/16×W/16和H/32×W/32的CNN、Transformer特征。
参考图2,解码器使用了来自特征金字塔网络的FPNhead作为解码头,将编码器输出的多尺度融合特征进行上采样和进一步融合,从而得到与输入影像相同尺寸的语义分割结果。其中F1输入一个Conv3×3&ReLU后输出,F2输入1个Scale Head后输出,F3输入2个Scale Head后输出,F4输入3个Scale Head后输出,将四个输出进行叠加,输入到一个Conv1×1后输出。其中Scale Head由1个Conv3×3、1个ReLU、1个上采样模块组成,Conv3×3、ReLU、上采样模块依次相连。Conv3×3&ReLU表示3×3卷积和激活函数的组合。
S3、将ResNet50和SegFormer-B3替换S2中CNN和Transformer,得到教师网络。教师网络的网络结构图参考图6。
S4、并利用S1中训练集对所述教师网络进行训练,得到遥感影像语义分割模型,利用S1中的测试集对所述模型的精度进行评估。
步骤S4的训练损失函数为:
其中,N是遥感影像中的像素数,M是类别数量,yn,m是第n个像素、第m类的真实类别标签,pn,m是遥感影像语义分割模型预测的n个像素是第m类的概率,ln表示自然对数运算。
S5、将ResNet18和SegFormer-B0替换S2中CNN和Transformer,得到学生网络。学生网络的网络结构图参考图7。
S6、构建基于动态温度的融合特征蒸馏模块,利用S1中的训练集对学生网络的训练。该模块能够在训练时动态搜索温度参数,在特征层面使用结构化蒸馏方法,使学生网络在训练期间关注教师网络融合特征中通道维度的特征表示,得到基于知识蒸馏的轻量化遥感影像语义分割模型。
图8是本发明基于知识蒸馏的轻量化遥感影像语义分割方法的示意图,其中包含四个部分,即教师网络、学生网络、损失函数以及基于动态温度的融合特征蒸馏模块。F1 T、F2 T、F3 T、F4 T分别表示由教师网络的编码器提取的融合特征,由编码器的CNN分支(ResNet50)和Transformer分支(SegFormer-B3)各自提取的特征经过特征融合后得到。同样,F1 S、F2 S、F3 S、F4 S由学生网络编码器中的CNN分支(ResNet18)和Transformer分支(SegFormer-B0)各自提取的特征经过特征融合后得到。MT和MS分别表示教师网络和学生网络的融合特征经过特征解码器解码后输出的每个像素的分类概率分布,其维度为H×W×N。其中,(H,W)表示图片的分辨率,N是语义分割任务的类别数。虚线部分为反向传播过程。
图9是基于动态温度的融合特征蒸馏模块结构图。该模块可以将教师模型中的特征层面知识高效地迁移到学生模型中,从而更好地利用丰富的多尺度特征,提高学生模型的分割准确性和鲁棒性。本发明设计的基于动态温度的融合特征蒸馏模块包含两个组件:动态温度生成模块与基于特征通道的知识蒸馏损失函数。
动态温度的核心是将知识蒸馏中的超参数T设置为可以学习的网络参数θtemp,训练过程中通过逐渐加大学生模型与教师模型之间的蒸馏损失,从而控制学生模型的学习难度。其优化目标为:
其中,ft(x;θtea)表示教师网络参数为θtea、输入为x时的输出概率分布;fs(x;θstu)表示学生网络参数为θstu、输入为x时的输出概率分布,y是真实类别标签。
应用交替算法,即固定一组变量并求解另一组变量来求解上述公式,可以将其转换为:
上述的优化过程可以通过学习率为μ的随机梯度下降算法(SGD)进行,其公式为:
在具体实现时,上述动态蒸馏通过非参数梯度反转层(non-parametric GradientReversal Layer,GRL)实现,如附图8中的虚线所示。
基于特征通道的知识蒸馏损失函数可以表示为:
其中,Ldffd表示基于动态温度的融合特征蒸馏模块中计算的特征损失,Fi T,i=1,2,3,4表示教师网络第i个特征融合模块输出的特征,Fi S,i=1,2,3,4表示学生网络第i个特征融合模块输出的特征,H表示特征图高度,W表示特征图宽度,c=1,2,...,C表示特征图的通道数,j=1,2,...,H·W表示像素数,为教师网络第i个特征融合模块输出的在第j个像素、第c通道的特征,/>为学生网络第i个特征融合模块输出的在第j个像素、第c通道的特征,T=θtemp,是蒸馏温度参数,Softmax是激活函数,ti表示教师网络的输出概率分布,si表示学生网络的输出概率分布,yi表示真实类别标签。
综上所述,本发明的知识蒸馏过程包括以下步骤:
(1)对于每个训练样本,将其输入到教师网络和学生网络中,得到各自的编码特征和语义分割结果。
(2)通过梯度获取知识蒸馏的温度参数θtemp。
(3)计算教师网络和学生网络在不同尺度上输出的编码特征之间的通道损失Ldffd。
(4)计算教师网络和学生网络输出的语义分割结果之间的KL散度损失函数Lkl,以及真实值和学生网络输出的语义分割结果之间的交叉熵损失函数Lce,计算公式分别为:
Lce=-yiln(si)
其中,T是蒸馏温度参数,Softmax是激活函数,ti表示教师网络的输出概率分布,si表示学生网络的输出概率分布,yi表示真实类别标签。
(5)将Ldffd、Lkl和Lce三者加权相加得到一个总损失函数L=αLdffd+βLkl+γLce,其中,α、β、γ分别是三部分特征的权重,是手动调整的超参数。根据总的损失函数L对学生网络进行反向传播和参数更新,从而实现知识蒸馏。重复步骤(1)至步骤(4),直到学生网络收敛,最终得到训练后的轻量化后的模型。
S7、基于S1中的测试集对训练后的基于知识蒸馏的轻量化遥感影像语义分割模型进行精度评估,利用基于知识蒸馏的轻量化遥感影像语义分割模型对新采集的遥感影像进行快速语义分割。
实施例中还包括一种基于知识蒸馏的轻量化遥感影像语义分割装置,包括:
处理器;
存储器,其上存储有可在所述处理器上运行的计算机程序;
其中,计算机程序被处理器执行时实现一种基于知识蒸馏的轻量化遥感影像语义分割方法。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种基于知识蒸馏的轻量化遥感影像语义分割方法,其特征在于,包括以下步骤:
S1、获取遥感影像,并对遥感影像进行预处理,将预处理后的遥感影像划分为训练集和测试集;
S2、构建基于CNN-Transformer特征融合的遥感影像语义分割网络,包括一个用于提取局部空间特征的分支CNN、一个用于提取全局空间特征的分支Transformer、将提取的局部空间特征和全局空间特征进行融合的特征融合模块以及对融合的特征进行解码的解码器FPNHead;
S3、将ResNet50和SegFormer-B3替换S2中CNN和Transformer,得到教师网络;
S4、并利用S1中训练集对所述教师网络进行训练,得到遥感影像语义分割模型,利用S1中的测试集对所述模型的精度进行评估;
S5、将ResNet18和SegFormer-B0替换S2中CNN和Transformer,得到学生网络;
S6、构建基于动态温度的融合特征蒸馏模块,利用S1中的训练集对学生网络进行训练,基于遥感影像语义分割模型,在训练时动态搜索温度参数,在特征层面使用结构化蒸馏方法,使学生网络在训练期间关注教师网络融合特征中通道维度的特征表示,得到基于知识蒸馏的轻量化遥感影像语义分割模型;
S7、基于S1中的测试集对基于知识蒸馏的轻量化遥感影像语义分割模型进行精度评估,利用基于知识蒸馏的轻量化遥感影像语义分割模型对新采集的遥感影像进行快速语义分割。
2.根据权利要求1所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法,其特征在于,步骤S1中对遥感影像进行预处理包括:对遥感影像进行旋转、放缩、翻转、随机光度失真。
3.根据权利要求1所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法,其特征在于,教师网络和学生网络的特征融合模块数量均为4个。
4.根据权利要求1所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法,其特征在于,步骤S4的训练损失函数为:
其中,N是遥感影像中的像素数,M是类别数量,yn,m是第n个像素、第m类的真实类别标签,pn,m是遥感影像语义分割模型预测的n个像素是第m类的概率,ln表示自然对数运算。
5.根据权利要求1所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法,其特征在于,步骤S6中的训练损失函数为:
L=αLdffd+βLkl+γLce
其中,α、β、γ分别是Ldffd、Lkl、Lce的权重,为手动调整的超参数,Ldffd表示基于动态温度的融合特征蒸馏模块中计算的特征损失,用于衡量融合特征之间的通道间相似性,Lkl表示KL散度损失函数,用于衡量学生网络与教师网络输出的概率分布之间的差异性,Lce是学生网络的输出概率分布与真实类别标签的交叉熵损失;
根据总的损失函数L对学生网络进行反向传播和参数更新,实现知识蒸馏,直到学生网络收敛,最终得到训练后的基于知识蒸馏的轻量化遥感影像语义分割模型。
6.根据权利要求5所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法,其特征在于,步骤S6中动态温度是将知识蒸馏中的超参数T设置为可以学习的网络参数θtemp,训练过程中通过逐渐加大学生网络与教师网络之间的蒸馏损失,从而控制学生网络的学习难度,优化目标为:
其中,ft(x;θtea)表示教师网络参数为θtea、输入为x时的输出概率分布;fs(x;θstu)表示学生网络参数为θstu、输入为x时的输出概率分布,y是真实类别标签;
通过学习率为μ的随机梯度下降算法对θtemp进行更新:
其中,u为学习率。
7.根据权利要求6所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法,其特征在于,Ldffd、Lkl、Lce具体表示为:
Lce=-yiln(si)
其中,Fi T,i=1,2,3,4表示教师网络第i个特征融合模块输出的特征,Fi S,i=1,2,3,4表示学生网络第i个特征融合模块输出的特征,H表示特征图高度,W表示特征图宽度,c=1,2,...,C表示特征图的通道数,j=1,2,...,H·W表示像素数,为教师网络第i个特征融合模块输出的在第j个像素、第c通道的特征,/>为学生网络第i个特征融合模块输出的在第j个像素、第c通道的特征,T=θtemp,是蒸馏温度参数,Softmax是激活函数,ti表示教师网络的输出概率分布,si表示学生网络的输出概率分布,yi表示真实类别标签。
8.一种基于知识蒸馏的轻量化遥感影像语义分割装置,其特征在于,所述装置包括:
处理器;
存储器,其上存储有可在所述处理器上运行的计算机程序;
其中,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310604507.7A CN116740344A (zh) | 2023-05-23 | 2023-05-23 | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310604507.7A CN116740344A (zh) | 2023-05-23 | 2023-05-23 | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116740344A true CN116740344A (zh) | 2023-09-12 |
Family
ID=87900368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310604507.7A Pending CN116740344A (zh) | 2023-05-23 | 2023-05-23 | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740344A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573908A (zh) * | 2024-01-16 | 2024-02-20 | 卓世智星(天津)科技有限公司 | 基于对比学习的大语言模型蒸馏方法 |
CN117576403A (zh) * | 2024-01-15 | 2024-02-20 | 常熟理工学院 | Sar图像建成区语义分割方法及装置、存储介质与终端 |
-
2023
- 2023-05-23 CN CN202310604507.7A patent/CN116740344A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576403A (zh) * | 2024-01-15 | 2024-02-20 | 常熟理工学院 | Sar图像建成区语义分割方法及装置、存储介质与终端 |
CN117576403B (zh) * | 2024-01-15 | 2024-04-26 | 常熟理工学院 | Sar图像建成区语义分割方法及装置、存储介质与终端 |
CN117573908A (zh) * | 2024-01-16 | 2024-02-20 | 卓世智星(天津)科技有限公司 | 基于对比学习的大语言模型蒸馏方法 |
CN117573908B (zh) * | 2024-01-16 | 2024-03-19 | 卓世智星(天津)科技有限公司 | 基于对比学习的大语言模型蒸馏方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764063B (zh) | 一种基于特征金字塔的遥感影像时敏目标识别系统及方法 | |
CN108537742B (zh) | 一种基于生成对抗网络的遥感图像全色锐化方法 | |
CN113850825A (zh) | 基于上下文信息和多尺度特征融合的遥感图像道路分割方法 | |
CN116740344A (zh) | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 | |
CN109670576B (zh) | 一种多尺度视觉关注图像描述方法 | |
CN110132263B (zh) | 一种基于表示学习的星图识别方法 | |
CN113780211A (zh) | 一种基于改进型Yolov4-tiny的轻量级飞机检测方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
Shen et al. | Remote sensing image caption generation via transformer and reinforcement learning | |
CN112364719A (zh) | 一种遥感图像目标快速检测方法 | |
Doi et al. | The effect of focal loss in semantic segmentation of high resolution aerial image | |
CN106971189B (zh) | 一种低分辨率含噪星图识别方法 | |
US11948078B2 (en) | Joint representation learning from images and text | |
Li et al. | Multi-scale object detection in satellite imagery based on YOLT | |
CN114863407A (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
CN116229519A (zh) | 一种基于知识蒸馏的二维人体姿态估计方法 | |
CN115393690A (zh) | 一种轻量化神经网络的空对地观测多目标识别方法 | |
CN113887585A (zh) | 基于编解码网络的图像-文本多模态融合方法 | |
CN116665114B (zh) | 基于多模态的遥感场景识别方法、系统及介质 | |
CN117351352A (zh) | 基于轻量化YOLOv5网络模型的SAR船舶图像目标识别方法 | |
CN117152435A (zh) | 一种基于U-Net3+的遥感语义分割方法 | |
CN117033609A (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN116958700A (zh) | 一种基于提示工程和对比学习的图像分类方法 | |
Qiao et al. | LiteSCANet: An efficient lightweight network based on spectral and channel-wise attention for hyperspectral image classification | |
CN116580243A (zh) | 一种掩码图像建模引导域适应的跨域遥感场景分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |