CN116597136A - 一种半监督遥感图像语义分割方法与系统 - Google Patents
一种半监督遥感图像语义分割方法与系统 Download PDFInfo
- Publication number
- CN116597136A CN116597136A CN202310334329.0A CN202310334329A CN116597136A CN 116597136 A CN116597136 A CN 116597136A CN 202310334329 A CN202310334329 A CN 202310334329A CN 116597136 A CN116597136 A CN 116597136A
- Authority
- CN
- China
- Prior art keywords
- prediction result
- model
- unlabeled image
- unlabeled
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 154
- 238000001914 filtration Methods 0.000 claims abstract description 115
- 230000003044 adaptive effect Effects 0.000 claims description 33
- 238000002372 labelling Methods 0.000 claims description 21
- 101001136592 Homo sapiens Prostate stem cell antigen Proteins 0.000 claims description 19
- 102100036735 Prostate stem cell antigen Human genes 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 235000015220 hamburgers Nutrition 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种半监督遥感图像语义分割方法与系统,包括将有标签图像数据输入初始教师模型进行训练,将无标签图像数据输入每个训练周期内预设的若干个检查点的教师模型进行预测,计算预测结果的每一种类别的自适应阈值,并根据自适应阈值过滤预测结果,有效的过滤了不可靠伪标签,解决了伪标签重点类别不平衡问题,根据过滤预测结果计算无标签图像数据的稳定性分数,将第一份无标签图像数据集输入训练好的教师模型,计算第一份无标签图像预测结果的每一种类别的自适应阈值,并根据自适应阈值过滤,直至得到语义分割结果,提升了遥感图像语义分割准确度,提升了伪标签的可靠性与获取高质量语义标签的效率,降低了人力成本。
Description
技术领域
本发明涉及遥感图像语义分割相关技术领域,尤其是涉及一种半监督遥感图像语义分割方法与系统。
背景技术
在遥感图像的研究中,遥感图像的语义分割针对遥感影像中每一个像素点进行分类,一直是遥感图像中一个重要的研究方向。传统的半监督遥感图像语义分割的方法经常使用机器学习算法,但分类的准确度还需要进一步提高。近些年以来,随着深度学习的发展,卷积神经网络(CNN)具有出色特征提取能力的已经被广泛应用于图像处理的各个领域,如场景分类等。Long提出了全卷积网络(FCN),把CNN网络中的全连接层换成全卷积层。与以往的图像分类方法不同,FCN可以实现任意大小的图像分割。SegNet提出了反卷积结构,通过跳过连接来利用中间层的特征。Gangfu等提出了一种多尺度的网络结构,取代了传统的卷积,膨胀的卷积增加感受野而不降低空间分辨率。空洞空间金字塔结构(ASPP)主要是提出了多个空洞卷积分支,它们有不同空洞率,来提取多尺度特征,对图像中目标的分割精度提升明显。Deeplabv3网络经过多次改进,目前已经成为深度学习语义分割领域最为成功的网络模型。其最新的版本Deeplabv3+在多个公开数据集上取得了最高精度。多尺度整合可以有效解决目标分割问题。单个神经网络模型具有多个不同大小的感受野来适应多个尺寸的目标分割。鉴于全卷积网络具有相比于传统机器学习的优秀性能,许多学者将CNN应用于半监督遥感图像语义分割,深度卷积网络在遥感图像的很多领域都起着越来越重要的作用。还有的提出两个独立的全卷积网络分支,采用光学遥感的分割图像和高度信息作为两个分支的输入。经过一系列的卷积运算后,两个分支的预测分割结果加以融合。以上这些方法在标注数据充足时能够取得较为理想的效果。
然而,现有网络的分割精度在很大程度上依赖于大量高质量的像素级标注的训练数据。而遥感图像具有不同于自然景象的视角、分布和通道等特点,具有复杂的场景和不规则的物体分布,其成像宽度可达数十公里,这大大增加了标注的难度。因此,数据标注需要具备大量的经验和地理遥感知识,只有专业培训过的人员才能参与,想要获取高质量语义标签需要耗费大量的时间和人力成本,又由于标注数据不足和遥感图像的高复杂性会使得产生很多低质量的伪标签,将引入大量噪声数据,使得再训练阶段非常不稳定并且过度拟合到错误的数据,将带来确认偏差问题,主要采用单一置信度阈值方案来解决这一问题。然而,大多数真实世界的语义分割数据集的类别都是长尾分布,这意味着一些类别在数据集中出现的频率非常高,而另外一些类别则非常罕见。若仍采取单一阈值来选择伪标签,则会使得伪标签的数据分布偏向主要类别的预测,而忽略了其它类,自适应性较差。
发明内容
本发明旨在至少解决现有技术中存在的技术问题。为此,本发明提出一种半监督遥感图像语义分割方法与系统,能够从高质量数据到低质量数据来多阶段利用无标注数据,提升伪标签的可靠性与获取高质量语义标签的效率,降低人力成本。
本发明的第一方面,提供了一种半监督遥感图像语义分割方法,包括如下步骤:
获取有标签图像数据和无标签图像数据;
构建初始教师模型,将所述有标签图像数据输入所述初始教师模型进行训练,得到训练好的教师模型,有标注数据集与训练周期内预设的若干个检查点的教师模型;
将所述无标签图像数据输入每个所述训练周期内预设的若干个检查点的教师模型进行预测,得到每个所述训练周期内预设的检查点的教师模型的预测结果;
计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值;并根据所述每个检查点的教师模型的预测结果的每一种类别的自适应阈值过滤所述每个所述训练周期内预设的检查点的教师模型的预测结果,得到每个所述训练周期内预设的检查点的教师模型的过滤预测结果;
根据所述每个所述训练周期内预设的检查点的教师模型的过滤预测结果计算所述无标签图像数据的稳定性分数;并将所述无标签图像数据按所述稳定性分数的从高到低均分成K份,得到K份无标签图像数据集,其中,K为所述无标签图像数据按所述稳定性分数的从高到低均分的总数;
构建第一个学生模型,将所述无标签图像数据集的第一份无标签图像数据集输入所述训练好的教师模型,得到第一份无标签图像预测结果;计算第一份无标签图像预测结果的每一种类别的自适应阈值;并根据所述第一份无标签图像预测结果的每一种类别的自适应阈值过滤所述第一份无标签图像预测结果,得到第一份无标签图像过滤预测结果;并将所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第一个学生模型进行训练,得到第二个学生模型;
将所述无标签图像数据集的第二份无标签图像数据集输入所述第二个学生模型,得到第二份无标签图像预测结果;计算第二份无标签图像预测结果的每一种类别的自适应阈值;并根据所述第二份无标签图像预测结果的每一种类别的自适应阈值过滤所述第二份无标签图像预测结果,得到第二份无标签图像过滤预测结果;并将所述第二份无标签图像过滤预测结果、所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第二个学生模型进行训练,得到第三个学生模型;
依次类推,直至将所述无标签图像数据集的第K份无标签图像数据集输入第K个学生模型,得到第K份无标签图像预测结果;计算第K份无标签图像预测结果的每一种类别的自适应阈值;并根据所述第K份无标签图像预测结果的每一种类别的自适应阈值过滤所述第K份无标签图像预测结果,得到第K份无标签图像过滤预测结果;并将每份无标签图像过滤预测结果与所述有标签图像数据输入所述第K个学生模型进行训练,得到最终分割模型与所述无标签图像数据的语义分割结果。
根据本发明实施例的控制方法,至少具有如下有益效果:
本方法通过获取有标签图像数据和无标签图像数据,将有标签图像数据输入初始教师模型进行训练,将无标签图像数据输入每个训练周期内预设的若干个检查点的教师模型进行预测,计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值,并根据每个检查点的教师模型的预测结果的每一种类别的自适应阈值过滤每个训练周期内预设的检查点的教师模型的预测结果,有效的过滤了不可靠伪标签,解决了伪标签重点类别不平衡问题,根据每个训练周期内预设的检查点的教师模型的过滤预测结果计算无标签图像数据的稳定性分数,构建第一个学生模型,将无标签图像数据集的第一份无标签图像数据集输入训练好的教师模型,得到第一份无标签图像预测结果;计算第一份无标签图像预测结果的每一种类别的自适应阈值;并根据第一份无标签图像预测结果的每一种类别的自适应阈值过滤第一份无标签图像预测结果,依次类推,直至得到最终分割模型与无标签图像数据的语义分割结果,提升了遥感图像语义分割准确度,提升了伪标签的可靠性与获取高质量语义标签的效率,降低了人力成本。
根据本发明的一些实施例,所述构建初始教师模型,将所述有标签图像数据输入所述初始教师模型进行训练,得到训练好的教师模型,有标注数据集与训练周期内预设的若干个检查点的教师模型,包括:
获取所述初始教师模型的第一训练参数;
将所述有标签图像数据输入所述初始教师模型进行训练,得到第一有监督损失与第一个教师模型;
判断迭代次数是否达到预先设置的最大迭代次数,若所述迭代次数达到预先设置的最大迭代次数,则所述第一个教师模型为所述训练好的教师模型;若所述迭代次数小于预先设置的最大迭代次数,则根据所述第一有监督损失更新所述第一训练参数,得到第二训练参数,根据所述第二训练参数与所述有标签图像数据训练所述初始教师模型,得到第二有监督损失与第二个教师模型,依次类推,直至所述迭代次数达到预先设置的最大迭代次数,得到所述训练好的教师模型和所述有标注数据集;
将整个训练周期均分为若干个时间点,并保存每个时间点的教师模型,得到所述训练周期内预设的若干个检查点的教师模型。
根据本发明的一些实施例,所述将所述有标签图像数据输入所述初始教师模型进行训练,得到第一有监督损失的计算公式为:
其中,为第一有监督损失,θ为初始教师模型的预设的训练参数,/>为交叉熵损失值,W为有标签图像的宽度,H为有标签图像的高度,y(w,h,c)为像素级标注在有标签图像的(w,h)位置上的像素属于c类的概率,f(w,h,c)为分割网络在有标签图像的(w,h)位置上的像素属于c类的概率,/>为有标注数据集,C为类的总数目,/>为水平翻转、竖直翻转、随机镜像和旋转的弱数据增强,/>为颜色抖动、灰度和模糊、CutOut与ClassMix的强数据增强,/>为第i张空间维度为H×W的有标注数据及其对应的像素级标注/>
根据本发明的一些实施例,所述计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值的计算公式为:
θi,c=RANKk(Sort(pi,x,y,c)),x,y∈H,W
c=argmax pi,x,y
其中,θi,c为第c类的自适应阈值,RANKk为取序列的第k个位置元素的值,Sort为将序列进行降序排列,为第i张无标签图像数据,pi,x,y,c为第i张无标签图像数据的(x,y)处的像素属于第c类的概率,/>为第i张无标签图像数据的伪标签,pi,x,y为第i张无标签图像数据的(x,y)处的属于各类的概率分布值。
根据本发明的一些实施例,所述根据所述每个所述训练周期内预设的检查点的教师模型的过滤预测结果计算所述无标签图像数据的稳定性分数的计算公式为:
其中,为第i张无标签图像的稳定性分数,/>为无标签图像的过滤预测结果,n为预设的检查点的数目,/>为第n个检查点的教师模型输出的第i张无标签图像的过滤预测结果。
根据本发明的一些实施例,所述将所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第一个学生模型进行训练,得到第二个学生模型,包括:
获取所述第一个学生模型的第一无监督损失权重;
将所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第一个学生模型进行训练,得到第一学生模型总损失与第一次迭代的第一个学生模型,其中,所述将所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第一个学生模型进行训练,得到第一学生模型总损失与第一次迭代的第一个学生模型的计算公式为:
其中,为将有标签图像数据输入第一个学生模型的第二有监督损失,/>为第一学生模型的无监督损失,/>为第一学生模型总损失,w(t)为第一无监督损失权重,/>为/>的像素级过滤预测结果,S为自训练中的第一个学生模型,T为第一个学生模型,φ为预设的训练参数,/>为第一份无标签图像过滤预测结果;
判断迭代次数是否达到预先设置的最大迭代次数,若所述迭代次数达到预先设置的最大迭代次数,则所述第一次迭代的第一个学生模型为所述第二个学生模型;若所述迭代次数小于预先设置的最大迭代次数,则根据所述第一学生模型总损失更新所述第一无监督损失权重,得到第二无监督损失权重,根据所述第二无监督损失权重、所述第一份无标签图像预测结果与所述有标签图像数据训练所述第一次迭代的第一个学生模型,得到第二次迭代的第一个学生模型,依次类推,直至所述迭代次数达到预先设置的最大迭代次数,得到所述第二个学生模型。
根据本发明的一些实施例,教师模型与学生模型均使用PSCA结构与Hamburger模块,其中,所述PSCA结构通过三组并行的带状卷积捕获多尺度上下文信息,并将多尺度特征融合后送入1×1卷积层中以建立不同通道之间的关系;所述1×1卷积的输出将作为所述PSCA结构的输入的注意力权重。
本发明的第二方面,提供一种半监督遥感图像语义分割系统,所述半监督遥感图像语义分割系统包括:
数据获取模块,用于获取有标签图像数据和无标签图像数据;
教师模型训练模块,用于构建初始教师模型,将所述有标签图像数据输入所述初始教师模型进行训练,得到训练好的教师模型,有标注数据集与训练周期内预设的若干个检查点的教师模型;
结果预测模块,用于将所述无标签图像数据输入每个所述训练周期内预设的若干个检查点的教师模型进行预测,得到每个所述训练周期内预设的检查点的教师模型的预测结果;
过滤模块,用于计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值;并根据所述每个检查点的教师模型的预测结果的每一种类别的自适应阈值过滤所述每个所述训练周期内预设的检查点的教师模型的预测结果,得到每个所述训练周期内预设的检查点的教师模型的过滤预测结果;
稳定性分数计算模块,用于根据所述每个所述训练周期内预设的检查点的教师模型的过滤预测结果计算所述无标签图像数据的稳定性分数;并将所述无标签图像数据按所述稳定性分数的从高到低均分成K份,得到K份无标签图像数据集,其中,K为所述无标签图像数据按所述稳定性分数的从高到低均分的总数;
构建第一个学生模型,将所述无标签图像数据集的第一份无标签图像数据集输入所述训练好的教师模型,得到第一份无标签图像预测结果;计算第一份无标签图像预测结果的每一种类别的自适应阈值;并根据所述第一份无标签图像预测结果的每一种类别的自适应阈值过滤所述第一份无标签图像预测结果,得到第一份无标签图像过滤预测结果;并将所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第一个学生模型进行训练,得到第二个学生模型;
第三学生模型训练模块,用于第二学生模型训练模块,用于将所述无标签图像数据集的第二份无标签图像数据集输入所述第二个学生模型,得到第二份无标签图像预测结果;计算第二份无标签图像预测结果的每一种类别的自适应阈值;并根据所述第二份无标签图像预测结果的每一种类别的自适应阈值过滤所述第二份无标签图像预测结果,得到第二份无标签图像过滤预测结果;并将所述第二份无标签图像过滤预测结果、所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第二个学生模型进行训练,得到第三个学生模型;
迭代模块,用于依次类推,直至将所述无标签图像数据集的第K份无标签图像数据集输入第K个学生模型,得到第K份无标签图像预测结果;计算第K份无标签图像预测结果的每一种类别的自适应阈值;并根据所述第K份无标签图像预测结果的每一种类别的自适应阈值过滤所述第K份无标签图像预测结果,得到第K份无标签图像过滤预测结果;并将每份无标签图像过滤预测结果与所述有标签图像数据输入所述第K个学生模型进行训练,得到最终分割模型与所述无标签图像数据的语义分割结果。
本系统通过获取有标签图像数据和无标签图像数据,将有标签图像数据输入初始教师模型进行训练,将无标签图像数据输入每个训练周期内预设的若干个检查点的教师模型进行预测,计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值,并根据每个检查点的教师模型的预测结果的每一种类别的自适应阈值过滤每个训练周期内预设的检查点的教师模型的预测结果,有效的过滤了不可靠伪标签,解决了伪标签重点类别不平衡问题,根据每个训练周期内预设的检查点的教师模型的过滤预测结果计算无标签图像数据的稳定性分数,构建第一个学生模型,将无标签图像数据集的第一份无标签图像数据集输入训练好的教师模型,得到第一份无标签图像预测结果;计算第一份无标签图像预测结果的每一种类别的自适应阈值;并根据第一份无标签图像预测结果的每一种类别的自适应阈值过滤第一份无标签图像预测结果,依次类推,直至得到最终分割模型与无标签图像数据的语义分割结果,提升了遥感图像语义分割准确度,提升了伪标签的可靠性与获取高质量语义标签的效率,降低了人力成本。
本发明的第三方面,提供了一种半监督遥感图像语义分割电子设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行上述的半监督遥感图像语义分割方法。
本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述的半监督遥感图像语义分割方法。
需要注意的是,本发明的第二方面至第四方面与现有技术之间的有益效果与上述的一种半监督遥感图像语义分割系统与现有技术之间的有益效果相同,此处不再细述。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例的一种半监督遥感图像语义分割方法的流程图;
图2是本发明一实施例的一种半监督遥感图像语义分割方法的PSCA结构图;
图3是本发明一实施例的一种半监督遥感图像语义分割系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,如果有描述到第一、第二等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明的描述中,需要说明的是,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
现有网络的分割精度在很大程度上依赖于大量高质量的像素级标注的训练数据。而遥感图像具有不同于自然景象的视角、分布和通道等特点,具有复杂的场景和不规则的物体分布,其成像宽度可达数十公里,这大大增加了标注的难度。因此,数据标注需要具备大量的经验和地理遥感知识,只有专业培训过的人员才能参与,想要获取高质量语义标签需要耗费大量的时间和人力成本,又由于标注数据不足和遥感图像的高复杂性会使得产生很多低质量的伪标签,将引入大量噪声数据,使得再训练阶段非常不稳定并且过度拟合到错误的数据,将带来确认偏差问题,主要采用单一置信度阈值方案来解决这一问题。然而,大多数真实世界的语义分割数据集的类别都是长尾分布,这意味着一些类别在数据集中出现的频率非常高,而另外一些类别则非常罕见。若仍采取单一阈值来选择伪标签,则会使得伪标签的数据分布偏向主要类别的预测,而忽略了其它类,自适应性较差。
为了解决上述技术缺陷,参照图1,本发明还提供了一种半监督遥感图像语义分割方法,包括:
步骤S101、获取有标签图像数据和无标签图像数据;
步骤S102、构建初始教师模型,将有标签图像数据输入初始教师模型进行训练,得到训练好的教师模型,有标注数据集与训练周期内预设的若干个检查点的教师模型;
步骤S103、将无标签图像数据输入每个训练周期内预设的若干个检查点的教师模型进行预测,得到每个训练周期内预设的检查点的教师模型的预测结果;
步骤S104、计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值;并根据每个检查点的教师模型的预测结果的每一种类别的自适应阈值过滤每个训练周期内预设的检查点的教师模型的预测结果,得到每个训练周期内预设的检查点的教师模型的过滤预测结果;
步骤S105、根据每个训练周期内预设的检查点的教师模型的过滤预测结果计算无标签图像数据的稳定性分数;并将无标签图像数据按稳定性分数的从高到低均分成K份,得到K份无标签图像数据集,其中,K为无标签图像数据按稳定性分数的从高到低均分的总数;
步骤S106、构建第一个学生模型,将无标签图像数据集的第一份无标签图像数据集输入训练好的教师模型,得到第一份无标签图像预测结果;计算第一份无标签图像预测结果的每一种类别的自适应阈值;并根据第一份无标签图像预测结果的每一种类别的自适应阈值过滤第一份无标签图像预测结果,得到第一份无标签图像过滤预测结果;并将第一份无标签图像过滤预测结果与有标签图像数据输入第一个学生模型进行训练,得到第二个学生模型;
步骤S107、将无标签图像数据集的第二份无标签图像数据集输入第二个学生模型,得到第二份无标签图像预测结果;计算第二份无标签图像预测结果的每一种类别的自适应阈值;并根据第二份无标签图像预测结果的每一种类别的自适应阈值过滤第二份无标签图像预测结果,得到第二份无标签图像过滤预测结果;并将第二份无标签图像过滤预测结果、第一份无标签图像过滤预测结果与有标签图像数据输入第二个学生模型进行训练,得到第三个学生模型;
步骤S108、依次类推,直至将无标签图像数据集的第K份无标签图像数据集输入第K个学生模型,得到第K份无标签图像预测结果;计算第K份无标签图像预测结果的每一种类别的自适应阈值;并根据第K份无标签图像预测结果的每一种类别的自适应阈值过滤第K份无标签图像预测结果,得到第K份无标签图像过滤预测结果;并将每份无标签图像过滤预测结果与有标签图像数据输入第K个学生模型进行训练,得到最终分割模型与无标签图像数据的语义分割结果。
本方法通过获取有标签图像数据和无标签图像数据,将有标签图像数据输入初始教师模型进行训练,将无标签图像数据输入每个训练周期内预设的若干个检查点的教师模型进行预测,计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值,并根据每个检查点的教师模型的预测结果的每一种类别的自适应阈值过滤每个训练周期内预设的检查点的教师模型的预测结果,有效的过滤了不可靠伪标签,解决了伪标签重点类别不平衡问题,根据每个训练周期内预设的检查点的教师模型的过滤预测结果计算无标签图像数据的稳定性分数,构建第一个学生模型,将无标签图像数据集的第一份无标签图像数据集输入训练好的教师模型,得到第一份无标签图像预测结果;计算第一份无标签图像预测结果的每一种类别的自适应阈值;并根据第一份无标签图像预测结果的每一种类别的自适应阈值过滤第一份无标签图像预测结果,依次类推,直至得到最终分割模型与无标签图像数据的语义分割结果,提升了遥感图像语义分割准确度,提升了伪标签的可靠性与获取高质量语义标签的效率,降低了人力成本。
在一些实施例中,构建初始教师模型,将有标签图像数据输入初始教师模型进行训练,得到训练好的教师模型,有标注数据集与训练周期内预设的若干个检查点的教师模型,包括:
获取初始教师模型的第一训练参数;
将有标签图像数据输入初始教师模型进行训练,得到第一有监督损失与第一个教师模型;
判断迭代次数是否达到预先设置的最大迭代次数,若迭代次数达到预先设置的最大迭代次数,则第一个教师模型为训练好的教师模型;若迭代次数小于预先设置的最大迭代次数,则根据第一有监督损失更新第一训练参数,得到第二训练参数,根据第二训练参数与有标签图像数据训练初始教师模型,得到第二有监督损失与第二个教师模型,依次类推,直至迭代次数达到预先设置的最大迭代次数,得到训练好的教师模型和有标注数据集;
将整个训练周期均分为若干个时间点,并保存每个时间点的教师模型,得到训练周期内预设的若干个检查点的教师模型。
在一些实施例中,将有标签图像数据输入初始教师模型进行训练,得到第一有监督损失的计算公式为:
其中,为第一有监督损失,θ为初始教师模型的预设的训练参数,/>为交叉熵损失值,W为有标签图像的宽度,H为有标签图像的高度,y(w,h,c)为像素级标注在有标签图像的(w,h)位置上的像素属于c类的概率,f(w,h,c)为分割网络在有标签图像的(w,h)位置上的像素属于c类的概率,/>为有标注数据集,C为类的总数目,/>为水平翻转、竖直翻转、随机镜像和旋转的弱数据增强,/>为颜色抖动、灰度和模糊、CutOut与ClassMix的强数据增强,/>为第i张空间维度为H×W的有标注数据及其对应的像素级标注/>
具体的,对于复杂的遥感图像来说,有标注数据一般在数据集总量的1/8以下,因此有标注数据是十分稀缺的,这将导致自训练算法会对有标注数据产生严重的过拟合问题以及过度拟合错误的伪标签,这些会大大降低学生模型S的分割效果。具体来说,由于标注数据的缺少,在监督训练过程中,信息十分不足,教师模型T将不可避免的过拟合有标注数据,进而在半监督训练过程中,教师模型T很可能产生充满错误的伪标签去监督学生模型S的训练。由于T和S共享同一个网络结构和相似的初始化方式,S将不可避免的累积T的误差,导致重新训练时S和T严重耦合,即对未标注图像做出相似的分类预测,这将导致模型向着错误的方向优化并降低了分割的效果。最近,一致性正则化认为优化具有不同扰动的未标记数据的预测之间的交叉熵可以提高模型性能。因此,在数据上施加SDA,这将提供额外的优化目标来强制让不同扰动下的S和T进行一致的预测。具体来说,对于监督训练中的有标注数据我们施加常规的弱数据增强,本发明采用水平翻转、竖直翻转、随机镜像和旋转,对于半监督训练中的无标注数据在弱数据增强的基础上施加适合遥感图像的强数据增强,本发明基于SDA方法对遥感图像进行了实验,最终选择出了几种适合遥感图像的强数据增强方法,包括颜色抖动、灰度和模糊、CutOut和ClassMix。
在一些实施例中,计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值的计算公式为:
θi,c=RANKk(Sort(pi,x,y,c)),x,y∈H,W
c=argmax pi,x,y
其中,θi,c为第c类的自适应阈值,RANKk为取序列的第k个位置元素的值,Sort为将序列进行降序排列,为第i张无标签图像数据,pi,x,y,c为第i张无标签图像数据的(x,y)处的像素属于第c类的概率,/>为第i张无标签图像数据的伪标签,pi,x,y为第i张无标签图像数据的(x,y)处的属于各类的概率分布值。
在一些实施例中,根据每个训练周期内预设的检查点的教师模型的过滤预测结果计算无标签图像数据的稳定性分数的计算公式为:
其中,为第i张无标签图像的稳定性分数,/>为无标签图像的过滤预测结果,n为预设的检查点的数目,/>为第n个检查点的教师模型输出的第i张无标签图像的过滤预测结果。
具体的,在一些实施例中,最后一个检查点往往是最为准确的,因此统计出前n-1个模型的输出与最后一个模型的差异之和,此处的差异使用语义分割领域常用的平均交并比mIoU来衡量,差异越小则越稳定,说明质量更高。经过实验,对于遥感图像数据集,将n设置为4可以获得最优的性价比。然后对所有的无标注数据进行稳定性测评,得到稳定性分数序列,通过对该序列进行从大到小进行排序,即可将无标注数据按照质量的高低等比例划分为三份{R1,R2,R3}。之后就可以多阶段从高到低逐步使用这些无标注数据来提升模型的分割效果。
在一些实施例中,将第一份无标签图像过滤预测结果与有标签图像数据输入第一个学生模型进行训练,得到第二个学生模型,包括:
获取第一个学生模型的第一无监督损失权重;
将第一份无标签图像过滤预测结果与有标签图像数据输入第一个学生模型进行训练,得到第一学生模型总损失与第一次迭代的第一个学生模型,其中,将第一份无标签图像过滤预测结果与有标签图像数据输入第一个学生模型进行训练,得到第一学生模型总损失与第一次迭代的第一个学生模型的计算公式为:
其中,为将有标签图像数据输入第一个学生模型的第二有监督损失,/>为第一学生模型的无监督损失,/>为第一学生模型总损失,w(t)为第一无监督损失权重,/>为/>的像素级过滤预测结果,S为自训练中的第一个学生模型,T为第一个学生模型,φ为预设的训练参数,/>为第一份无标签图像过滤预测结果;
判断迭代次数是否达到预先设置的最大迭代次数,若迭代次数达到预先设置的最大迭代次数,则第一次迭代的第一个学生模型为第二个学生模型;若迭代次数小于预先设置的最大迭代次数,则根据第一学生模型总损失更新第一无监督损失权重,得到第二无监督损失权重,根据第二无监督损失权重、第一份无标签图像预测结果与有标签图像数据训练第一次迭代的第一个学生模型,得到第二次迭代的第一个学生模型,依次类推,直至迭代次数达到预先设置的最大迭代次数,得到第二个学生模型。
在一些实施例中,教师模型与学生模型均使用PSCA结构与Hamburger模块,其中,所述PSCA结构通过三组并行的带状卷积捕获多尺度上下文信息,并将多尺度特征融合后送入1×1卷积层中以建立不同通道之间的关系;所述1×1卷积的输出将作为所述PSCA结构的输入的注意力权重。
具体的,注意力机制可以被视为一种自适应的选择过程,它能够根据输入特征的重要性进行筛选,并自动忽略噪声干扰。注意力机制的关键步骤是生成注意力图,它反映了不同区域的重要程度。目前有两种常用的方法来建立不同区域之间的关联性。一种是利用自注意力机制来捕捉长距离依赖。然而,自注意力在计算机视觉中的应用存在三个显著的缺陷:(1)自注意力将二维图像视为一维序列,破坏了图像的关键二维结构;(2)由于其平方级别的计算和内存开销,处理高分辨率图像也面临困难;(3)自注意力只考虑了空间维度上的自适应性,而忽略了通道维度上的自适应性,后者对于视觉任务也很重要。另一种是使用大核卷积来建立相关性并生成注意力图。这种方式也存在明显的缺陷。大核卷积带来了巨大的计算开销和参数量。为了克服上述缺陷并利用自注意力和大核卷积的优势,本发明提出了一种分解大核卷积操作以捕捉长距离关系的方法。
参照图2,本发明设计了一个并行多尺度带状卷积注意力模块PSCA来唤起空间注意力。相较于直接使用更大的内核或全局卷积,本发明的PSCA模块采用了1×k+k×1和k×1+1×k卷积,可近似实现在特征图中对k×k区域内实现密集连接的效果。与采用可分离内核不同的是,本发明的PSCA结构在卷积层之后不使用任何非线性操作。与普通的k×k卷积相比,本发明的PSCA结构的计算成本和参数数量仅涉O(k),大大降低了计算开销。如图2所示,PSCA首先设计了三组并行的带状卷积用于捕获多尺度上下文信息,然后将多尺度特征融合后送入1×1卷积层中以建立不同通道之间的关系,1×1卷积的输出将作为PSCA输入的注意力权重。
具体的,将输入图像分别与1×k和k×1条形卷积核进行卷积运算后得到的3组结果concat后通过1×1卷积通道恢复到输入大小,并利用激活函数Softmax()对输出值作归一化处理,增强特征信息在全局的权重值:
其中,为矩阵第/>个结点的值,/>为节点的个数,e为自然常数;
经过激活函数后得到的注意力图作为输入的权重系数集合,与输入进行加权求和得到经过全局注意力特征增强图:
其中,Ag为注意图的输出,为特征图矩阵第/>个节点;
将模块的输入需要和输入图像进行融合来弥补对上下文细节信息的丢失:
其中,Aout为PSCA模块的最终输出,Ain为PSCA模块的输入,为注意力图的权重,为输入图的权重。
在解码器中,为了进一步提取全局信息,本发明使用了Hamburger模块,基于NMF进行矩阵分解,从而将全局信息使用低秩矩阵来表示,在低复杂度算法下进一步提升了网络的效果。通过Hamburger模块增强对全局特征信息的提取具体如下:
输入卷积神经网络后,输出一个张量记为Z∈RC×H×W,为实数集,C、H、W为三个维度各自的通道数,输入张量经过线性变换,按列组织为矩阵X,X=[x1,...,xn]∈Rd×n,d、n为通道数;将求解全局信息看作是低秩矩阵/>即存在一个字典矩阵D=[d1,...,dn]∈Rd×n和对应的编码B=[b1,...,bn]∈Rd×n,X的生成过程和对应分解过程表示为:其中图像的噪声,冗余和损失建模为残差项E∈Rd×n;
通过优化算法求解其中,通过优化算法求解/>的具体流程为:
输入特征注意力图矩阵X,初始化分解后的非负矩阵D,B,迭代直到模型收敛;
为矩阵的行列位置,模型收敛后,输出带有全局语义属性的矩阵/>再经过线性变换得到/>BT为B的转置。
在解码器中,为了进一步提取全局信息,本发明使用了Hamburger模块,基于NMF进行矩阵分解,从而将全局信息使用低秩矩阵来表示,在低复杂度算法下进一步提升了网络的效果。
本发明引入了适合遥感图像的SDA,避免了教师模型和学生模型的过拟合。并且为了增强图像的特征表达,对于分割网络设计了一个并行的多尺度带状卷积注意力模块来捕获多尺度特征和全局信息,并通过基于矩阵分解方式的Hamburger模块,在低复杂度下进一步提取图像的全局特征,从而结合多尺度及全局特征实现更精确的分割。
本发明在Potsdam和Vaihingen遥感图像数据集上,证明了所提方法在标注数据稀缺时的有效性及优越性。
具体的,半监督语义分割的任务通常可以描述如下,给定一个包含Nl张有标注数据的集合以及一个包含Nu张无标注数据的集合其中/>表示第i张空间维度为H×W的有标注数据及其对应的像素级标注/>C表示语义分割任务的类别数,/>表示第i张无标注数据。目标是通过合适的方法去结合来自/>的少量有标注数据和来自/>的大量无标注数据来训练模型,从而获得比只使用有标注数据更好的模型。
另外,参照图3,本发明的一个实施例,提供一种半监督遥感图像语义分割系统,包括数据获取模块1100、教师模型训练模块1200、结果预测模块1300、过滤模块1400、稳定性分数计算模块1500、第二学生模型训练模块1600、第三学生模型训练模块1700以及迭代模块1800,其中:
数据获取模块1100用于获取有标签图像数据和无标签图像数据;
教师模型训练模块1200用于构建初始教师模型,将有标签图像数据输入初始教师模型进行训练,得到训练好的教师模型,有标注数据集与训练周期内预设的若干个检查点的教师模型;
结果预测模块1300用于将无标签图像数据输入每个训练周期内预设的若干个检查点的教师模型进行预测,得到每个训练周期内预设的检查点的教师模型的预测结果;
过滤模块1400用于计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值;并根据每个检查点的教师模型的预测结果的每一种类别的自适应阈值过滤每个训练周期内预设的检查点的教师模型的预测结果,得到每个训练周期内预设的检查点的教师模型的过滤预测结果;
稳定性分数计算模块1500用于根据每个训练周期内预设的检查点的教师模型的过滤预测结果计算无标签图像数据的稳定性分数;并将无标签图像数据按稳定性分数的从高到低均分成K份,得到K份无标签图像数据集,其中,K为无标签图像数据按稳定性分数的从高到低均分的总数;
构建第一个学生模型1600将无标签图像数据集的第一份无标签图像数据集输入训练好的教师模型,得到第一份无标签图像预测结果;计算第一份无标签图像预测结果的每一种类别的自适应阈值;并根据第一份无标签图像预测结果的每一种类别的自适应阈值过滤第一份无标签图像预测结果,得到第一份无标签图像过滤预测结果;并将第一份无标签图像过滤预测结果与有标签图像数据输入第一个学生模型进行训练,得到第二个学生模型;
第三学生模型训练模块1700用于第二学生模型训练模块,用于将无标签图像数据集的第二份无标签图像数据集输入第二个学生模型,得到第二份无标签图像预测结果;计算第二份无标签图像预测结果的每一种类别的自适应阈值;并根据第二份无标签图像预测结果的每一种类别的自适应阈值过滤第二份无标签图像预测结果,得到第二份无标签图像过滤预测结果;并将第二份无标签图像过滤预测结果、第一份无标签图像过滤预测结果与有标签图像数据输入第二个学生模型进行训练,得到第三个学生模型;
迭代模块1800用于依次类推,直至将无标签图像数据集的第K份无标签图像数据集输入第K个学生模型,得到第K份无标签图像预测结果;计算第K份无标签图像预测结果的每一种类别的自适应阈值;并根据第K份无标签图像预测结果的每一种类别的自适应阈值过滤第K份无标签图像预测结果,得到第K份无标签图像过滤预测结果;并将每份无标签图像过滤预测结果与有标签图像数据输入第K个学生模型进行训练,得到最终分割模型与无标签图像数据的语义分割结果。
本系统通过获取有标签图像数据和无标签图像数据,将有标签图像数据输入初始教师模型进行训练,将无标签图像数据输入每个训练周期内预设的若干个检查点的教师模型进行预测,计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值,并根据每个检查点的教师模型的预测结果的每一种类别的自适应阈值过滤每个训练周期内预设的检查点的教师模型的预测结果,有效的过滤了不可靠伪标签,解决了伪标签重点类别不平衡问题,根据每个训练周期内预设的检查点的教师模型的过滤预测结果计算无标签图像数据的稳定性分数,构建第一个学生模型,将无标签图像数据集的第一份无标签图像数据集输入训练好的教师模型,得到第一份无标签图像预测结果;计算第一份无标签图像预测结果的每一种类别的自适应阈值;并根据第一份无标签图像预测结果的每一种类别的自适应阈值过滤第一份无标签图像预测结果,依次类推,直至得到最终分割模型与无标签图像数据的语义分割结果,提升了遥感图像语义分割准确度,提升了伪标签的可靠性与获取高质量语义标签的效率,降低了人力成本。
需要注意的是,本系统实施例与上述的系统实施例是基于相同的发明构思,因此上述方法实施例的相关内容同样适用于本系统实施例,这里不再赘述。
本申请还提供一种半监督遥感图像语义分割电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现:如上述的半监督遥感图像语义分割方法。
处理器和存储器可以通过总线或者其他方式连接。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述实施例的半监督遥感图像语义分割方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的半监督遥感图像语义分割方法,例如,执行以上描述的图1中的方法步骤S101至步骤S108。
本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行:如上述的半监督遥感图像语义分割方法。
该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述电子设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的半监督遥感图像语义分割方法,例如,执行以上描述的图1中的方法步骤S101至步骤S108。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序单元或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序单元或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.一种半监督遥感图像语义分割方法,其特征在于,所述半监督遥感图像语义分割方法包括:
获取有标签图像数据和无标签图像数据;
构建初始教师模型,将所述有标签图像数据输入所述初始教师模型进行训练,得到训练好的教师模型,有标注数据集与训练周期内预设的若干个检查点的教师模型;
将所述无标签图像数据输入每个所述训练周期内预设的若干个检查点的教师模型进行预测,得到每个所述训练周期内预设的检查点的教师模型的预测结果;
计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值;并根据所述每个检查点的教师模型的预测结果的每一种类别的自适应阈值过滤所述每个所述训练周期内预设的检查点的教师模型的预测结果,得到每个所述训练周期内预设的检查点的教师模型的过滤预测结果;
根据所述每个所述训练周期内预设的检查点的教师模型的过滤预测结果计算所述无标签图像数据的稳定性分数;并将所述无标签图像数据按所述稳定性分数的从高到低均分成K份,得到K份无标签图像数据集,其中,K为所述无标签图像数据按所述稳定性分数的从高到低均分的总数;
构建第一个学生模型,将所述无标签图像数据集的第一份无标签图像数据集输入所述训练好的教师模型,得到第一份无标签图像预测结果;计算第一份无标签图像预测结果的每一种类别的自适应阈值;并根据所述第一份无标签图像预测结果的每一种类别的自适应阈值过滤所述第一份无标签图像预测结果,得到第一份无标签图像过滤预测结果;并将所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第一个学生模型进行训练,得到第二个学生模型;
将所述无标签图像数据集的第二份无标签图像数据集输入所述第二个学生模型,得到第二份无标签图像预测结果;计算第二份无标签图像预测结果的每一种类别的自适应阈值;并根据所述第二份无标签图像预测结果的每一种类别的自适应阈值过滤所述第二份无标签图像预测结果,得到第二份无标签图像过滤预测结果;并将所述第二份无标签图像过滤预测结果、所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第二个学生模型进行训练,得到第三个学生模型;
依次类推,直至将所述无标签图像数据集的第K份无标签图像数据集输入第K个学生模型,得到第K份无标签图像预测结果;计算第K份无标签图像预测结果的每一种类别的自适应阈值;并根据所述第K份无标签图像预测结果的每一种类别的自适应阈值过滤所述第K份无标签图像预测结果,得到第K份无标签图像过滤预测结果;并将每份无标签图像过滤预测结果与所述有标签图像数据输入所述第K个学生模型进行训练,得到最终分割模型与所述无标签图像数据的语义分割结果。
2.根据权利要求1所述的一种半监督遥感图像语义分割方法,其特征在于,所述构建初始教师模型,将所述有标签图像数据输入所述初始教师模型进行训练,得到训练好的教师模型,有标注数据集与训练周期内预设的若干个检查点的教师模型,包括:
获取所述初始教师模型的第一训练参数;
将所述有标签图像数据输入所述初始教师模型进行训练,得到第一有监督损失与第一个教师模型;
判断迭代次数是否达到预先设置的最大迭代次数,若所述迭代次数达到预先设置的最大迭代次数,则所述第一个教师模型为所述训练好的教师模型;若所述迭代次数小于预先设置的最大迭代次数,则根据所述第一有监督损失更新所述第一训练参数,得到第二训练参数,根据所述第二训练参数与所述有标签图像数据训练所述初始教师模型,得到第二有监督损失与第二个教师模型,依次类推,直至所述迭代次数达到预先设置的最大迭代次数,得到所述训练好的教师模型和所述有标注数据集;
将整个训练周期均分为若干个时间点,并保存每个时间点的教师模型,得到所述训练周期内预设的若干个检查点的教师模型。
3.根据权利要求2所述的一种半监督遥感图像语义分割方法,其特征在于,所述将所述有标签图像数据输入所述初始教师模型进行训练,得到第一有监督损失的计算公式为:
其中,为第一有监督损失,θ为初始教师模型的预设的训练参数,/>为交叉熵损失值,W为有标签图像的宽度,H为有标签图像的高度,y(w,h,c)为像素级标注在有标签图像的(w,h)位置上的像素属于c类的概率,f(w,h,c)为分割网络在有标签图像的(w,h)位置上的像素属于c类的概率,/>为有标注数据集,C为类的总数目,/>为水平翻转、竖直翻转、随机镜像和旋转的弱数据增强,/>为颜色抖动、灰度和模糊、CutOut与ClassMix的强数据增强,为第i张空间维度为H×W的有标注数据及其对应的像素级标注/>
4.根据权利要求3所述的一种半监督遥感图像语义分割方法,其特征在于,所述计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值的计算公式为:
θi,c=RANKk(Sort(pi,x,y,c)),x,y∈H,W
c=argmaxpi,x,y
其中,θi,c为第c类的自适应阈值,RANKk为取序列的第k个位置元素的值,Sort为将序列进行降序排列,为第i张无标签图像数据,pi,x,y,c为第i张无标签图像数据的(x,y)处的像素属于第c类的概率,/>为第i张无标签图像数据的伪标签,pi,x,y为第i张无标签图像数据的(x,y)处的属于各类的概率分布值。
5.根据权利要求4所述的一种半监督遥感图像语义分割方法,其特征在于,所述根据所述每个所述训练周期内预设的检查点的教师模型的过滤预测结果计算所述无标签图像数据的稳定性分数的计算公式为:
其中,为第i张无标签图像的稳定性分数,/>为无标签图像的过滤预测结果,n为预设的检查点的数目,/>为第n个检查点的教师模型输出的第i张无标签图像的过滤预测结果。
6.根据权利要求5所述的一种半监督遥感图像语义分割方法,其特征在于,所述将所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第一个学生模型进行训练,得到第二个学生模型,包括:
获取所述第一个学生模型的第一无监督损失权重;
将所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第一个学生模型进行训练,得到第一学生模型总损失与第一次迭代的第一个学生模型,其中,所述将所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第一个学生模型进行训练,得到第一学生模型总损失与第一次迭代的第一个学生模型的计算公式为:
其中,为将有标签图像数据输入第一个学生模型的第二有监督损失,/>为第一学生模型的无监督损失,/>为第一学生模型总损失,w(t)为第一无监督损失权重,/>为/>的像素级过滤预测结果,S为自训练中的第一个学生模型,T为第一个学生模型,φ为预设的训练参数,/>为第一份无标签图像过滤预测结果;
判断迭代次数是否达到预先设置的最大迭代次数,若所述迭代次数达到预先设置的最大迭代次数,则所述第一次迭代的第一个学生模型为所述第二个学生模型;若所述迭代次数小于预先设置的最大迭代次数,则根据所述第一学生模型总损失更新所述第一无监督损失权重,得到第二无监督损失权重,根据所述第二无监督损失权重、所述第一份无标签图像预测结果与所述有标签图像数据训练所述第一次迭代的第一个学生模型,得到第二次迭代的第一个学生模型,依次类推,直至所述迭代次数达到预先设置的最大迭代次数,得到所述第二个学生模型。
7.根据权利要求6所述的一种半监督遥感图像语义分割方法,其特征在于,教师模型与学生模型均使用PSCA结构与Hamburger模块,其中,所述PSCA结构通过三组并行的带状卷积捕获多尺度上下文信息,并将多尺度特征融合后送入1×1卷积层中以建立不同通道之间的关系;所述1×1卷积的输出将作为所述PSCA结构的输入的注意力权重。
8.一种半监督遥感图像语义分割系统,其特征在于,所述半监督遥感图像语义分割方法系统:
数据获取模块,用于获取有标签图像数据和无标签图像数据;
教师模型训练模块,用于构建初始教师模型,将所述有标签图像数据输入所述初始教师模型进行训练,得到训练好的教师模型,有标注数据集与训练周期内预设的若干个检查点的教师模型;
结果预测模块,用于将所述无标签图像数据输入每个所述训练周期内预设的若干个检查点的教师模型进行预测,得到每个所述训练周期内预设的检查点的教师模型的预测结果;
过滤模块,用于计算每个检查点的教师模型的预测结果的每一种类别的自适应阈值;并根据所述每个检查点的教师模型的预测结果的每一种类别的自适应阈值过滤所述每个所述训练周期内预设的检查点的教师模型的预测结果,得到每个所述训练周期内预设的检查点的教师模型的过滤预测结果;
稳定性分数计算模块,用于根据所述每个所述训练周期内预设的检查点的教师模型的过滤预测结果计算所述无标签图像数据的稳定性分数;并将所述无标签图像数据按所述稳定性分数的从高到低均分成K份,得到K份无标签图像数据集,其中,K为所述无标签图像数据按所述稳定性分数的从高到低均分的总数;
构建第一个学生模型,将所述无标签图像数据集的第一份无标签图像数据集输入所述训练好的教师模型,得到第一份无标签图像预测结果;计算第一份无标签图像预测结果的每一种类别的自适应阈值;并根据所述第一份无标签图像预测结果的每一种类别的自适应阈值过滤所述第一份无标签图像预测结果,得到第一份无标签图像过滤预测结果;并将所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第一个学生模型进行训练,得到第二个学生模型;
第三学生模型训练模块,用于第二学生模型训练模块,用于将所述无标签图像数据集的第二份无标签图像数据集输入所述第二个学生模型,得到第二份无标签图像预测结果;计算第二份无标签图像预测结果的每一种类别的自适应阈值;并根据所述第二份无标签图像预测结果的每一种类别的自适应阈值过滤所述第二份无标签图像预测结果,得到第二份无标签图像过滤预测结果;并将所述第二份无标签图像过滤预测结果、所述第一份无标签图像过滤预测结果与所述有标签图像数据输入所述第二个学生模型进行训练,得到第三个学生模型;
迭代模块,用于依次类推,直至将所述无标签图像数据集的第K份无标签图像数据集输入第K个学生模型,得到第K份无标签图像预测结果;计算第K份无标签图像预测结果的每一种类别的自适应阈值;并根据所述第K份无标签图像预测结果的每一种类别的自适应阈值过滤所述第K份无标签图像预测结果,得到第K份无标签图像过滤预测结果;并将每份无标签图像过滤预测结果与所述有标签图像数据输入所述第K个学生模型进行训练,得到最终分割模型与所述无标签图像数据的语义分割结果。
9.一种半监督遥感图像语义分割设备,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的一种半监督遥感图像语义分割方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的一种半监督遥感图像语义分割方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310334329.0A CN116597136A (zh) | 2023-03-31 | 2023-03-31 | 一种半监督遥感图像语义分割方法与系统 |
CN202410262344.3A CN118154867A (zh) | 2023-03-31 | 2024-03-07 | 一种半监督遥感图像语义分割方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310334329.0A CN116597136A (zh) | 2023-03-31 | 2023-03-31 | 一种半监督遥感图像语义分割方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116597136A true CN116597136A (zh) | 2023-08-15 |
Family
ID=87603365
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310334329.0A Withdrawn CN116597136A (zh) | 2023-03-31 | 2023-03-31 | 一种半监督遥感图像语义分割方法与系统 |
CN202410262344.3A Pending CN118154867A (zh) | 2023-03-31 | 2024-03-07 | 一种半监督遥感图像语义分割方法与系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410262344.3A Pending CN118154867A (zh) | 2023-03-31 | 2024-03-07 | 一种半监督遥感图像语义分割方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN116597136A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372819A (zh) * | 2023-12-07 | 2024-01-09 | 神思电子技术股份有限公司 | 用于有限模型空间的目标检测增量学习方法、设备及介质 |
CN117649528A (zh) * | 2024-01-29 | 2024-03-05 | 山东建筑大学 | 一种半监督图像分割方法、系统、电子设备及存储介质 |
-
2023
- 2023-03-31 CN CN202310334329.0A patent/CN116597136A/zh not_active Withdrawn
-
2024
- 2024-03-07 CN CN202410262344.3A patent/CN118154867A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372819A (zh) * | 2023-12-07 | 2024-01-09 | 神思电子技术股份有限公司 | 用于有限模型空间的目标检测增量学习方法、设备及介质 |
CN117372819B (zh) * | 2023-12-07 | 2024-02-20 | 神思电子技术股份有限公司 | 用于有限模型空间的目标检测增量学习方法、设备及介质 |
CN117649528A (zh) * | 2024-01-29 | 2024-03-05 | 山东建筑大学 | 一种半监督图像分割方法、系统、电子设备及存储介质 |
CN117649528B (zh) * | 2024-01-29 | 2024-05-31 | 山东建筑大学 | 一种半监督图像分割方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN118154867A (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111768432B (zh) | 基于孪生深度神经网络的动目标分割方法及系统 | |
CN108256562B (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN106971152B (zh) | 一种基于航拍图像的检测输电线路中鸟巢的方法 | |
Postels et al. | On the practicality of deterministic epistemic uncertainty | |
US20210224609A1 (en) | Method, system and device for multi-label object detection based on an object detection network | |
CN110414498B (zh) | 一种基于交叉注意力机制的自然场景文本识别方法 | |
CN116597136A (zh) | 一种半监督遥感图像语义分割方法与系统 | |
CN113657560B (zh) | 基于节点分类的弱监督图像语义分割方法及系统 | |
CN110287777B (zh) | 一种自然场景下的金丝猴躯体分割算法 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN113850242B (zh) | 一种基于深度学习算法的仓储异常目标检测方法及系统 | |
CN111291696A (zh) | 一种基于卷积神经网络的手写东巴文识别方法 | |
CN113111716B (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN111738054B (zh) | 一种基于时空自编码器网络和时空cnn的行为异常检测方法 | |
CN111553438A (zh) | 一种基于卷积神经网络的图像识别方法 | |
CN112132145B (zh) | 一种基于模型扩展卷积神经网络的图像分类方法及系统 | |
CN111428727B (zh) | 基于序列变换纠正及注意力机制的自然场景文本识别方法 | |
CN118196410A (zh) | 一种遥感图像语义分割方法、系统、设备及存储介质 | |
CN110503063A (zh) | 基于沙漏卷积自动编码神经网络的跌倒检测方法 | |
CN114998220A (zh) | 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法 | |
CN106874862A (zh) | 基于子模技术和半监督学习的人群计数方法 | |
CN111507416B (zh) | 一种基于深度学习的吸烟行为实时检测方法 | |
CN114187590A (zh) | 同色系背景下目标果实识别方法及系统 | |
CN115439715A (zh) | 基于反标签学习的半监督少样本图像分类学习方法及系统 | |
Salem et al. | Semantic image inpainting using self-learning encoder-decoder and adversarial loss |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230815 |
|
WW01 | Invention patent application withdrawn after publication |