CN115170898A - 一种高效的遥感图像自监督学习训练方法 - Google Patents
一种高效的遥感图像自监督学习训练方法 Download PDFInfo
- Publication number
- CN115170898A CN115170898A CN202210558764.7A CN202210558764A CN115170898A CN 115170898 A CN115170898 A CN 115170898A CN 202210558764 A CN202210558764 A CN 202210558764A CN 115170898 A CN115170898 A CN 115170898A
- Authority
- CN
- China
- Prior art keywords
- training
- network
- feature
- remote sensing
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Astronomy & Astrophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种自监督学习训练加速方法,通过提取网络损失的梯度归一化值来实现对样本难度的评估,之后基于样本的难度评分在训练时采样难度合适的数据进行训练,有限的计算资源下加快网络的收敛,实现更高效地自监督学习。相对于通用的自监督学习训练方法,在同样的计算设备下,本发明公开的方法能够节省约50%的训练时间,本发明可以有效地应用到基于深度学习的自监督学习任务中去,有效地加快收敛,节约计算资源。
Description
技术领域
本发明属于计算机视觉领域,特别涉及一种高效地遥感图像自监督学习训练方法。
背景技术
目前,我国有多颗遥感卫星体系在轨运行,每日产生的遥感影像数据多达数百TB。大量的数据给遥感图像解译任务提供了厚实的基础,但是由于遥感图像标注费时费力,利用标注的数据进行训练学习成本高昂,这一现象促进了遥感图像自监督学习的发展。遥感图像自监督学习旨在利用无标注的遥感数据学习更好的遥感图像特征表征,能够迁移到下游的目标检测、场景分类、地物分类等图像解译任务中去并获得更好的性能。
挖掘图像固有的空间或语义关联属性,这种特性让自监督学习可以从海量的遥感数据中吸收到通用的表征,但因为标签信息的缺失,自监督训练需要的迭代次数一般远多于全监督训练。按照一般遥感图像自监督学习的训练流程,在百万级的数据集上迭代训练200代(epoch)大约需要Tesla V100运行1600(卡·时)。庞大的计算资源需求不仅为中小型研究机构的入场设置了壁垒,也使自监督模型和方法难以迭代和调优。因此,需要对遥感图像自监督的训练策略进行一定的优化,更加有效地利用计算资源,设计一种高效的遥感图像自监督学习训练方法。
发明内容
经过实验发现,遥感图像自监督学习是十分消耗计算资源的,网络平等地处理每一张训练样本不够高效,因此我们从训练样本的难度入手,优化自监督学习的训练过程。在遥感图像中,感兴趣的目标往往呈现聚集式分布,部分区域例如城市,其对应的遥感图像存在大量的感兴趣目标,属于较难挖掘的数据。而在山地、田地、海面这些区域,图像中包含的感兴趣目标较少且外观单一,样本相对简单。目前的算法平等地对待所有训练数据,这导致了训练效率较低。在网络训练前期,网络无法掌握过于困难的数据,而这些数据产生的梯度又会接近噪声,使网络不稳定甚至发生梯度爆炸;在网络训练后期,较为简单的数据又对其帮助不大,过小的梯度也会稀释其他样本的训练效果。因此,在适当的训练阶段为不同类型的样本赋予适当的采样权重,可以有助于提升网络的训练效率。
然而,在遥感图像自监督学习中,仅使用网络产生的损失大小来度量训练样本的难易程度是较为片面的。一方面,网络产生的损失只能反映当前时刻模型对其表征能力的强弱,并不能体现数据本身的语义丰富程度或训练价值。另一方面,自监督学习使用了强度很高的数据增强策略,网络产生的损失就不能直接地代表图像本身的难易程度,而会受到数据增强的干扰。
为解决上述技术问题,本发明通过提取网络损失的梯度归一化(GradientNormalization,GradNorm)来实现对样本难度的评估,并根据样本的难度设计了一种优化的训练策略,可以实现更加高效地自监督学习训练。本发明所采用的技术方案是:一种高效的遥感图像自监督学习训练方法,具体包括:
构建并训练遥感图像自监督网络用于提取遥感图像特征,所述遥感图像自监督网络由学生-教师网络构成,其中学生网络包含特征提取器fθ、特征投影器gθ、特征预测器qθ,教师网络包含特征提取器fξ和特征投影器gξ;将进行不同数据增强的成对的遥感图像视图vθ和v′ξ分别输入学生网络和教师网络,在两个网络中,特征提取器都用于提取视图的深度特征图得到yθ、y′ξ,而特征投影器则是将提取得到的特征图转换成特征投影向量,得到zθ和z′ξ;学生网络的特征预测器根据学生网络的特征投影向量qθ(zθ)预测教师网络的特征投影向量z′ξ。损失函数为预测得到的向量和教师网络的特征投影向量之间的均方误差。在迭代训练的过程中,基于样本难度的选取参与训练的样本训练网络。学生网络根据反向传播更新参数,教师网络的参数为学生网络参数的指数移动平均。
具体的,训练过程采取以下步骤:
步骤01:迭代训练的第一代,利用全部训练数据进行训练。根据训练过程中每一个样本的自监督损失的梯度归一化值,给每个训练样本的难度进行评分。具体的,样本难度分值通过计算学生网络的特征预测器内最后一个全连接层的梯度得到,该层直接与样本特征和样本损失相关联,且在反向传播路径上位于浅层,不易受到梯度消失的影响;
步骤02:迭代训练的第二代到第K代(经验值取10),根据前一代的难度评分排序,选取训练集难度分布在50%到70%分位点之间的数据,该区间的数据全部参与训练,占数据总量的20%。另外随机采样选取0%到50%分位点、70%到100%分位点的数据中各有占数据总量5%的样本被随机参与训练,即共有数据总量30%的数据参与训练;
步骤03:在每一轮采样时,参与训练的样本同样需要计算其难度评分,并在下一代训练时更新全部样本的难度评分;。
步骤04:每训练K代,重复步骤01~03。
学生网络输出前的最后一个全连接层位于特征预测器qθ中,假设特征预测器qθ共具有n个全连接层第n-1层的输出特征为M为特征u的维度,圆圈表示函数嵌套的符号,则第n层输出的特征为N为特征v的维度;遥感图像自监督网络的学习目标,是使学生网络的输出和教师网络的输出具有更近的距离,损失函数为:
其中,vi,vi,vk表示向量v在第i,j,k维度的值,δij为克罗内克符号,
当且仅当i=j时,δij=1,其它情况下δij=0;故第二项的总体雅可比矩阵为:
I∈RN×N为与v同阶的单位矩阵;故公式(2)可以表示为:
其中G的每个元素:
每个样本产生的梯度归一化结果为:
与现有技术相比,本发明的优点和有益效果如下:本发明公开了一种高效的遥感图像自监督学习训练方法,在训练过程中,通过提取网络损失的梯度归一化值来实现对样本难度的评估,之后基于样本的难度评分在训练时采样难度合适的数据进行训练,有限的计算资源下加快网络的收敛,实现更高效地自监督学习。相对于通用的自监督学习训练方法,在同样的计算设备下,本发明公开的方法能够节省约50%的训练时间,本发明可以有效地应用到基于深度学习的自监督学习任务中去,有效地加快收敛,节约计算资源。
附图说明
图1为本发明实施例的网络框架图;
图2为本发明实施例的网络训练流程示意图;
图3为本发明实施例的样本难度评分计算网络结构示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,遥感图像自监督网络由学生-教师网络构成,学生网络包含特征提取器fθ、特征投影器gθ、特征预测器qθ,教师网络包含特征提取器fξ和特征投影器gξ。将进行不同数据增强的成对的遥感图像视图vθ和v′ξ分别输入学生网络和教师网络,在两个网络中,特征提取器都用于提取视图的深度特征图得到yθ、y′ξ,而特征投影器则是将提取得到的特征图转换成特征投影向量,得到zθ和z′ξ。学生网络的特征预测器根据学生网络的特征投影向量qθ(zθ)预测教师网络的特征投影向量z′ξ。损失函数为预测得到的向量和教师网络的特征投影向量归一化之后的均方误差,即其中在迭代训练的过程中,基于样本难度的选取参与训练的样本训练网络。学生网络根据反向传播更新参数,教师网络的参数为学生网络参数的指数移动平均。
网络的训练流程的如图2所示,主要包括以下几个步骤:
步骤01:迭代训练的第一代,利用全部训练数据进行训练。根据训练过程中每一个样本的自监督损失的梯度归一化值,给每个训练样本的难度进行评分。具体的,样本难度分值通过计算学生网络的特征预测器内最后一个全连接层的梯度得到,该层直接与样本特征和样本损失相关联,且在反向传播路径上位于浅层,不易受到梯度消失的影响;
步骤02:迭代训练的第二代到第K代(经验值取10),采样全部数据的30%参与训练。首先根据前一代的难度评分排序,选取训练集难度分布在50%到70%分位点之间的数据,该区间的数据全部参与训练,占全部数据总量的20%。另外随机采样选取0%到50%分位点、70%到100%分位点的数据中各有占数据总量5%的样本被随机参与训练,即共有数据总量30%的数据参与训练,上述数值均为实验所得最优数值,也可以取其他数值;
步骤03:在每一轮采样时,参与训练的样本同样需要计算其难度评分,并在下一代训练时更新全部样本的难度评分。
步骤04:每训练K代,重复步骤01~03。
如图3所示,学生网络输出前的最后一个全连接层位于特征预测器qθ中,不失一般性地,假设预测器qθ共具有n个全连接层第n-1层的输出特征为M为特征u的维度,圆圈表示函数嵌套的符号,则第n层输出的特征为N为特征v的维度。该网络的学习目标,是使学生网络的输出和教师网络的输出具有更近的距离,损失函数定义为:
其中,vi,vi,vk表示向量v在第i,j,k维度的值,δij为克罗内克符号,
当且仅当i=j时,δij=1,其它情况下δij=0。故第二项的总体雅可比矩阵为:
I∈RN×N为与v同阶的单位矩阵。故公式(2)可以表示为:
其中G的每个元素:
每个样本产生的梯度归一化结果为:
式中均为单位向量,为两向量夹角的余弦值,代表在上的投影。忽略比例因子2/||v||后,接收到的梯度与隐层特征u的L1范数成正比,与学生网络输出的在教师网络输出的上的投影差异 的L1范数成正比。因此,上式具有明确的物理意义,隐层特征u的激活程度越高,即语义越丰富,网络产生的梯度就越大;当学生网络和教师网络的输出结果差异越大,网络产生的梯度也会越大。由此,可以得到表示样本难度的评分
通过本发明设计的基于梯度评估的样本采样策略,网络在每一个阶段都可以接收到难度适中的样本,这些样本在语义丰富性和学习难度上取得了均衡,使网络在有限的计算资源下实现更快的收敛速度,在ImageNet上面的实验验证证明了本发明的方法可以在节省约50%的训练时间下获得同样的训练效果。
综上所述,本发明所述的一种高效地遥感图像自监督学习训练方法,主要是通过提取网络损失的梯度归一化来实现对样本难度的评估,之后基于样本的难度在训练时挑选适中的数据进行训练,有限的计算资源下实现更快的收敛速度,更高效地进行自监督学习。最终实验验证本发明所述的方法能够节省约50%的训练时间,本发明可以有效地应用到基于深度学习的自监督学习任务中去,有效地加快收敛,节约计算资源。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (4)
1.一种高效的遥感图像自监督学习训练方法,其特征在于,具体包括:
构建并训练遥感图像自监督网络用于提取遥感图像特征,所述遥感图像自监督网络由学生-教师网络构成,其中学生网络包含特征提取器fθ、特征投影器gθ、特征预测器qθ,教师网络包含特征提取器fξ和特征投影器gξ;将进行不同数据增强的成对的遥感图像视图vθ和v′ξ分别输入学生网络和教师网络,在两个网络中,特征提取器都用于提取视图的深度特征图得到yθ、y′ξ,而特征投影器则是将提取得到的特征图转换成特征投影向量,得到zθ和z′ξ;学生网络的特征预测器根据学生网络的特征投影向量qθ(zθ)预测教师网络的特征投影向量z′ξ;在迭代训练的过程中,基于训练样本难度选取参与训练的样本训练网络,学生网络根据反向传播更新参数,教师网络的参数为学生网络参数的指数移动平均;
具体的,训练过程采取以下步骤:
步骤01:迭代训练的第一代,利用全部训练样本进行训练,根据训练过程中每一个训练样本的自监督损失的梯度归一化值,给每个训练样本的难度进行评分;
步骤02:对训练样本进行采样:迭代训练的第二代到第K代,根据前一代的样本难度评分排序,选取训练集样本难度分布在M1%到M2%分位点之间的数据,该区间的数据全部参与训练,占数据总量的(M2-M1)%,另外随机采样选取0%到M1%分位点、M2%到100%分位点的数据中各有占数据总量5%的样本被随机参与训练,即共有数据总量(M2-M1+5*2)%的数据参与训练;
步骤03:在每一轮采样时,参与训练的样本同样需要计算其难度评分,并在下一代训练时更新全部样本的难度评分;
步骤04:每训练K代,重复步骤01~步骤03。
3.如权利要求1所述的一种高效的遥感图像自监督学习训练方法,其特征在于:样本难度评分是通过计算学生网络的特征预测器内最后一个全连接层的梯度得到,该层直接与样本特征和样本损失相关联,且在反向传播路径上位于浅层,不易受到梯度消失的影响;
学生网络输出前的最后一个全连接层位于特征预测器qθ中,假设特征预测器qθ共具有n个全连接层第n-1层的输出特征为M为特征u的维度,圆圈°表示函数嵌套的符号,则第n层输出的特征为N为特征v的维度;遥感图像自监督网络的学习目标,是使学生网络的输出和教师网络的输出具有更近的距离,损失函数定义为:
其中,vi,vi,vk表示向量v在第i,j,k维度的值,δij为克罗内克符号,当且仅当i=j时,δij=1,其它情况下δij=0;故第二项的总体雅可比矩阵为:
I∈RN×N为与v同阶的单位矩阵;故公式(2)可以表示为:
其中G的每个元素:
每个样本产生的梯度归一化结果为:
4.如权利要求1所述的一种高效的遥感图像自监督学习训练方法,其特征在于:M1取50,M2取70。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210558764.7A CN115170898A (zh) | 2022-05-20 | 2022-05-20 | 一种高效的遥感图像自监督学习训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210558764.7A CN115170898A (zh) | 2022-05-20 | 2022-05-20 | 一种高效的遥感图像自监督学习训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115170898A true CN115170898A (zh) | 2022-10-11 |
Family
ID=83484021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210558764.7A Pending CN115170898A (zh) | 2022-05-20 | 2022-05-20 | 一种高效的遥感图像自监督学习训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115170898A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359062A (zh) * | 2022-10-24 | 2022-11-18 | 浙江华是科技股份有限公司 | 通过半监督实例分割标定监控目标的方法及系统 |
-
2022
- 2022-05-20 CN CN202210558764.7A patent/CN115170898A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359062A (zh) * | 2022-10-24 | 2022-11-18 | 浙江华是科技股份有限公司 | 通过半监督实例分割标定监控目标的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919108B (zh) | 基于深度哈希辅助网络的遥感图像快速目标检测方法 | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN112487807B (zh) | 一种基于膨胀门卷积神经网络的文本关系抽取方法 | |
Hazirbas et al. | Fusenet: Incorporating depth into semantic segmentation via fusion-based cnn architecture | |
CN108052512B (zh) | 一种基于深度注意力机制的图像描述生成方法 | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
Xiao et al. | Mcapsnet: Capsule network for text with multi-task learning | |
CN114492574A (zh) | 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法 | |
CN110796166B (zh) | 一种基于注意力机制的多任务图像处理方法 | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
Hendria et al. | Combining transformer and CNN for object detection in UAV imagery | |
CN114913379B (zh) | 基于多任务动态对比学习的遥感图像小样本场景分类方法 | |
CN113920472A (zh) | 一种基于注意力机制的无监督目标重识别方法及系统 | |
CN113705218A (zh) | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 | |
CN115830531A (zh) | 一种基于残差多通道注意力多特征融合的行人重识别方法 | |
CN110598746A (zh) | 一种基于ode求解器自适应的场景分类方法 | |
CN115965968A (zh) | 基于知识引导的小样本目标检测识别方法 | |
CN116433909A (zh) | 基于相似度加权多教师网络模型的半监督图像语义分割方法 | |
CN113779520B (zh) | 基于多层属性分析的跨空间目标虚拟身份关联方法 | |
CN115170898A (zh) | 一种高效的遥感图像自监督学习训练方法 | |
Zhu et al. | Training strategies for cnn-based models to parse complex floor plans | |
CN117830537A (zh) | 一种弱监督的3d场景图生成方法、装置、设备及介质 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN115424275B (zh) | 一种基于深度学习技术的渔船船牌号识别方法及系统 | |
CN115761654B (zh) | 一种车辆重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |