CN114821324A - 一种基于选择性学习与回放的遥感图像农作物识别方法 - Google Patents

一种基于选择性学习与回放的遥感图像农作物识别方法 Download PDF

Info

Publication number
CN114821324A
CN114821324A CN202210454684.7A CN202210454684A CN114821324A CN 114821324 A CN114821324 A CN 114821324A CN 202210454684 A CN202210454684 A CN 202210454684A CN 114821324 A CN114821324 A CN 114821324A
Authority
CN
China
Prior art keywords
model
data
learning
image
old
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210454684.7A
Other languages
English (en)
Inventor
李建国
陈院华
杨涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Soil Fertilizer Resources and Environment of Jiangxi Academy of Agricultural Sciences
Original Assignee
Institute of Soil Fertilizer Resources and Environment of Jiangxi Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Soil Fertilizer Resources and Environment of Jiangxi Academy of Agricultural Sciences filed Critical Institute of Soil Fertilizer Resources and Environment of Jiangxi Academy of Agricultural Sciences
Priority to CN202210454684.7A priority Critical patent/CN114821324A/zh
Publication of CN114821324A publication Critical patent/CN114821324A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/188Vegetation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于遥感技术领域,公开了一种基于选择性学习与回放的遥感图像农作物识别方法,选择性学习从新数据中选择到更具有学习价值的数据作为这一阶段的训练集Dt,并对Dt进行标注,Dt就具备了成对的图像与标注文件;回放使用模型对旧数据进行推理和评估,计算出单张图片的分割精度IoU,通过IoU对旧样本进行难易程度排序,并采用均匀采样的方式获取这部分旧样本。本发明在遥感大数据的背景下能够快速的迭代更新;通过选择性学习和回放,学习新知识和保留旧知识并重;通过选择性学习与回放的方式既能让模型快速迭代更新,又能缓解灾难性遗忘。

Description

一种基于选择性学习与回放的遥感图像农作物识别方法
技术领域
本发明属于遥感技术领域,尤其涉及一种基于选择性学习与回放的遥感图像农作物识别方法。
背景技术
在遥感领域,语义分割是一项重要的图像解译任务。深度学习近年来在语义分割领域取得了巨大进步。随着海量遥感数据不断生成,深度学习模型需要连续学习新数据、迭代生成新模型才能保持较好的泛化能力。众所周知,模型训练依赖大量标注成本和训练时间,并且在增量学习过程中面临灾难性遗忘的问题。
语义分割的方法最先起源于FCN,FCN通过跳层结构将浅层特征与深层特征进行融合,获取更为全面的特征实现较好的分割效果。之后U-Net使用这种encoder-decoder的思想方法能够有效提取图像的上下文信息和空间特征。随之空洞卷积的出现通过增大感受野保留了更多的空间信息从而提升模型效果。最近,语义分割任务与注意力机制、多尺度问题、池化结构相结合的研究工作也不断涌现。语义分割在遥感影像智能理解中具有重要的研究和应用价值。受益于深度学习的快速发展,遥感语义分割模型的表现提升显著。众所周知,深度学习依赖大量标签数据,且需要较长训练周期。然而,随着遥感技术的发展,大量遥感影像数据源源不断被收集,模型需要学习标签数据提高泛化能力。此外,尤其在某些领域,如农作物遥感识别,农作物遥感估产等模型需要快速更新才能发挥实时效用。这些领域根据生物学原理,在收集分析各种农作物不同生育期不同光谱特征的基础上,通过平台上的传感器记录的地表信息,辨别作物类型,监测作物长势,并在作物收获前,预测作物的产量。因此,遥感大数据背景下的语义分割模型快速更新具有重要意义。
模型更新是指旧模型学习新数据构建新模型的过程。由于海量遥感数据迅速累积,模型需要在短时间内学习新数据完成更新,否则就会出现模型更新延时的问题。要解决更新延时的问题,需要考虑以下两个方面。一,模型精度通过学习新知识得以提高,而新知识蕴含于不断增长的海量数据之中,想要学习完所有新数据几乎不可能;二,模型的更新过程以模型训练为中心,而模型训练速度受限于新数据体量和数据标注成本。这就要求我们需要在模型精度和更新速度之间做出折中。灾难性遗忘是指模型在学习新知识的过程中遗忘旧知识。灾难性遗忘会严重影响模型的推理性能,是模型更新中的不可忽视的问题,目前增量学习领域最为关注灾难性遗忘的问题,相应的解决方法主要分为两类:回放和正则化。回放的方法主要是通过保留部分旧样本,在模型训练新任务时进行对于旧知识的巩固。正则化的方法是在模型训练新任务时添加一些约束条件,最为典型的方法就是知识蒸馏,通过缩小新模型与旧模型在旧数据的输出结果的差异达到克服遗忘的效果。
针对以上的模型更新延时和灾难性遗忘的问题:就前者而言,尽管基于主动学习的方法通过查询机制从新增未标注数据中筛选更具不确定性的数据进行标注后用于模型训练,一定程度上减少模型训练的时间成本,但没有考虑增量分割场景下的灾难性遗忘问题,模型在旧数据的表现较差。就后者而言,灾难性遗忘是目前的增量学习领域最为关注的问题,花费大量努力维持模型在旧数据的稳定性而忽视了在新数据的可塑性,对新数据的数量和标注成本欠缺把控,模型更新缓慢。值得一提的是,上述方法主要用于图像分类任务,而语义分割任务的方法目前研究甚少。
主动学习指的是从无标签数据中查询出需要被标注的数据,其查询策略可主要分为三种:基于不确定性的方法、基于多样性的方法和期望的模型变化方式。基于不确定性的方式是要找出模型最不确定的样本进行标注,是主动学习中普遍使用的方法。对于二分类的情况,则选择后验概率小于0.5的样本,对于多分类的问题,则使用交叉熵作为不确定性衡量的标准。总的来说,找出后验概率更小的样本就是不确定性更高的样本。大部分基于不确定性的方法可以直接应用于神经网络,因为神经网络的Softmax能输出置信度、交叉熵等关于不确定性的信息。主动学习在语义分割领域也有相关应用。探究了主动学习在概率模型的应用,通过大型结构化输出空间(如语义分割)进行概率分布编码。使用基于MCdropout的网络不确定性进行区域选择减少标注成本。
依据增量场景的不同,语义分割任务可分为类别增量和域增量。目前,增量学习应用于语义分割任务上比较关注类别增量的场景,如关注到类别增时的背景类语义转移(background shift problem)从而设计了一种损失函数包括对于旧类别的蒸馏损失和交叉熵损失解决了此问题,此项工作被认为是遥感领域语义分割任务上进行增量学习的开篇之作。有研究在此基础上进行了改进,通过使用一种多尺度空间蒸馏损失克服遗忘的问题,并使用基于置信度的伪标签策略解决了背景类语义专业的问题。目前,语义分割任务在域增量的工作较少,但是其必要性不可忽视。
发明内容
有鉴于此,本发明提出了一种基于选择性学习与回放的增量学习方法,针对遥感图像增量场景下面临的语义分割模型更新延时和灾难性遗忘的问题,设计了一个选择性学习和回放框架,称之为SeRe(Selective Learning with Replay)。SeRe以高价值样本采样为核心思想,弥补了现有方法中的不足,并体现出其独特优势。对于模型更新延时的问题,SeRe使用基于不确定性的选择性学习方法获取高价值的新数据用于模型训练,从而加快模型的更新速度。对于灾难性遗忘的问题,SeRe使用难易样本均匀采样的方法从旧数据中获取样本进行回放,改善了灾难性遗忘问题。SeRe的优势是实现模型快速更新的同时,也能保留旧知识,使得模型在新旧知识上都表现出强大的推理能力。
本发明公开的一种基于选择性学习与回放的遥感图像农作物识别方法,包括以下步骤:
所述选择性学习从新数据中选择到更具有学习价值的数据作为这一阶段的训练集Dt,并对Dt进行标注,Dt就具备了成对的图像与标注文件(It,Gt),其中It表示一张图像的W×H,Gt表示相同大小的相应真实标签;在学习阶段t,将完成学习后的模型的所有参数集合记为θt,模型对于测试集的图像的分割结果记为
Figure BDA0003618350770000041
其中W为宽,H为高,C为类别个数;
所述回放使用模型对旧数据进行推理和评估,计算出单张图片的分割精度IoU,通过IoU对旧样本进行难易程度排序,并采用均匀采样的方式获取这部分旧样本。
进一步的,所述更具有学习价值的数据使用样本的不确定性度量,所述样本的不确定性的度量方法如下:
Figure BDA0003618350770000042
表示t阶段模型对于无标签数据的推理结果,t-1阶段的旧模型对新数据Dt的推理结果表示为
Figure BDA0003618350770000043
旧模型对某张新图像的推理伪标签则为:
Figure BDA0003618350770000044
由于每一个像素的伪标签都有其置信度,据此计算出每个像素的不确定性:
Figure BDA0003618350770000051
其中,w为宽,h为高,c为类别个数,u为此图像像素不确定性的值;
那么样本的不确定性为:
∑Ut-1→t(w,h,u)。
进一步的,所述单张图片的IoU的计算过程如下:
将旧数据Dt-1作为使用t阶段模型的输入,经模型处理后输出结果为
Figure BDA0003618350770000052
通过one-hot编码取推理置信度最大的类别作为像素类别,得到伪标签:
Figure BDA0003618350770000053
旧数据Dt-1本身是有标签的数据,记标签为Gt-1。根据伪标签
Figure BDA0003618350770000054
和真实标签Gt-1计算出此图像的IoU。先计算此图像中每一类别的IoU,再求出所有类别的IoU的均值作为图像的IoU:
Figure BDA0003618350770000055
Figure BDA0003618350770000056
进一步的,IoU值越高,意味着模型的推理效果越好,模型对这部分数据的记忆能力较好,反之IoU值越低,则模型的推理效果越差,模型对这部分数据产生了遗忘。
进一步的,根据IoU值对所有的图像进行排序,然后按照一定间隔采样20%的样本进行回放,回放的比例为25%。
进一步的,所述模型为Deeplab-v3+模型,并采用ResNet-50作为主干网络,所述主干网络使用ImageNet的预训练模型。
本发明的有益效果如下:
1)将增量学习的方法应用于遥感语义分割的任务上,使得模型在遥感大数据的背景下能够快速的迭代更新。
2)提出了一个适用于语义分割任务的增量学习框架SeRe,模型通过选择性学习和回放,学习新知识和保留旧知识并重;通过选择性学习与回放的方式既能让模型快速迭代更新,又能缓解灾难性遗忘。实验表明,本发明优于目前的其他增量学习方法。
3)在多个数据集上评估了本发明,实验证明在使用20%的新增数据,本发明可以达到联合训练精度的80%,联合训练被认为是增量学习的精度上限,同时训练速度在同等精度的情况得到提高。
附图说明
图1本发明的模型框架图;
图2为实验结果图,图中从左到右分别为原图,标注方法处理的结果,静态学习方法处理的结果,微调方法处理的结果,联合方法处理的结果和本发明处理的结果。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
深度学习的模型训练依赖大量的人工标注数据,这一问题在遥感的语义分割领域解决起来也十分困难。如图1所示,本发明提供了一种基于不确定性的选择性学习策略,主要用于对未标注样本的学习价值评估和采样。通过确定一个数量比例,就可以获取到未标注样本中含有更多学习价值的部分数据,然后将它进行标注,得到有标签数据用于模型训练。基于不确定性的选择性学习的优点是,一方面减少了标注的时间成本和物质成本,另一方面,它通过一种选择机制减少了模型需要学习的数据量,间接的缩短了模型的训练时间。
语义分割域增量模型能在t=1…T个阶段中持续学习,并且每一个阶段末更新一次模型。在每个学习阶段中,到来一份新数据,我们假定这份新数据暂时是没有标签的。通过我们的选择性学习方法从新数据中选择到更具有学习价值的数据作为这一阶段的训练集Dt,并对Dt进行标注,Dt就具备了成对的图像与标注文件(It,Gt)。It表示一张图像的W×H,Gt表示相同大小即W×H的相应真实标签。由于我们是域增量的问题,各个学习阶段的数据集中的类别C是固定的,且类别数量是恒定的,即|C|=|C1|=|Ct|=|Ct+1|。通常来说,一个神经网络模型可以表示为一个特征提取器f(·)和一个分类器g(·)的组合。在学习阶段t,图像的特征由特征提取器ft(·)获取,由分类器gt(·)输出分类结果。我们将阶段t中模型对于测试集的图像的分割结果记为
Figure BDA0003618350770000071
将完成学习后的模型的所有参数集合记为θt
选择性学习模块的内容包括:学习价值分布不均—高学习价值样本—不确定性度量,本发明关注到新数据中的样本的学习价值分布不均衡的现象。模型在进行推理的时候,不同的样本表现结果不同。一方面在新数据中可能存在部分样本与旧样本的相似性比较高,因此模型对于这一类样本的推理效果会更好;另一方面,新数据中存在部分样本对于模型来说是比较陌生的,尽管模型在上面的推理效果不佳,但是这些样本却蕴含了更为丰富的新知识。因此。高相似性的样本蕴含的学习价值更低,如果模型过多地学习此类数据,会阻碍模型学习新知识,模型的鲁棒性也会变差。要实现短时间内的迭代更新,模型更需要学习它并不擅长推理的一些样本,这部分样本被认为是更具学习价值的不确定性样本。下面将阐述样本的不确定性如何度量。
在语义分割网络的最后的激活函数层即softmax层输出了模型对于图像中每个像素的类别预测概率,这个概率表示了像素属于每一类别的置信度。置信度越大,表明像素属于该类别的可能性越大,表示模型对于这个像素的推理确定性越高。通常我们在对未知图像进行推理时,直接取最大置信度的类别作为像素的所属类别。我们使用
Figure BDA0003618350770000081
表示t阶段模型对于无标签数据的推理结果,那么使用t-1阶段的旧模型对新数据Dt的推理结果可表示为
Figure BDA0003618350770000082
旧模型对某张新图像的推理伪标签则为
Figure BDA0003618350770000083
由于每一个像素的伪标签都有其置信度,因此据此计算出每个像素的不确定性。通常取置信度的倒数作为不确定性,置信度越低则不确定性越高,其学习价值也越高。旧模型对某张新图像中像素点的不确定性为:。
Figure BDA0003618350770000084
那么一张图像的不确定性为:
∑Ut-1→t(w,h,u)
回放
针对于模型增量学习过程中的灾难性遗忘问题,我们设计了一种回放的策略,通过IoU对旧样本进行难易程度排序,并实施均匀采样的方式获取这部分旧样本。模型学习过的样本都是有标注的数据,因此使用模型对旧数据进行推理和评估,计算出单张图片的分割精度IoU。IoU值越高,意味着模型的推理效果越好,模型对这部分数据的记忆能力较好,反之IoU值越低,则模型的推理效果越差,模型对这部分数据产生了遗忘。单张图片的IoU的计算过程如下。
将旧数据Dt-1作为使用t阶段模型的输入,经模型处理后输出结果为
Figure BDA0003618350770000091
通过one-hot编码取推理置信度最大的类别作为像素类别,得到伪标签:
Figure BDA0003618350770000092
旧数据Dt-1本身是有标签的数据,记标签为Gt-1。根据伪标签
Figure BDA0003618350770000093
和真实标签Gt-1计算出此图像的IoU。我们先计算此图像中每一类别的IoU,再求出所有类别的IoU的均值作为图像的IoU:
Figure BDA0003618350770000094
Figure BDA0003618350770000095
为了更好地模拟所有旧数据的难易特征分布,我们根据IoU值对所有的图像进行排序,然后按照一定间隔采样20%的样本进行回放。在进行旧数据回放的时候,由于时间成本的限制,无法回放大量的旧数据帮助模型克服遗忘,因此在本实验中,采取的方式是从旧数据中获取20%的旧数据进行回放。
本实验采用的湘潭数据集是高分二号卫星拍摄的遥感影像,覆盖区域为中国湘潭市。图像共有RGB 3个波段,分辨率为2米。图像中一共有9个类别:背景,农场,城区,郊区,水,树林,草地,马路和其它。数据集中包含了106张图像,原始尺寸为4096×4096,对于模型训练来说过大,因此我们将其裁剪为19866张256×256大小的图片,按照4:4:2随机划分成训练集A、训练集B、测试集C,数量分别为8026张、8025张、3815张。训练集A视为第一批到来的数据,训练集B视为第二批到来的数据。
ISPRS Potsdam数据集包含了38幅尺寸为6000×6000的高分辨率遥感影像,其空间分辨率为5cm,一共有R、G、B、NIR4个波段。数据集中一共有6个类别,分别是不透水表面,建筑物,低矮植物,树,汽车和其它。为了便于模型训练,我们将图像裁剪获得了20102张256×256大小的图片。由于数据集过大会耗费过多的训练成本,因此我们在保证图像数量足够的情况下,从中抽取了10000张图片作为实验数据集,并按照4:4:2随机划分成训练集A、训练集B、测试集C,数量分别为4000张、4000张、2000张。
由于本发明的任务本质上是一个语义分割任务,因此在模型精度方面采用了语义分割领域的通用指标mIoU作为评价指标,表示真实区域与预测区域的交并比。另外精度方面也采用了aAcc、OA最为精度指标,分别表示平均精度和总体精度。由于我们的实验场景着重地专注模型的迭代更新速度,因此我们采用GPU/时来评估模型的训练速度。综上,我们从精度和速度两个方面综合评价模型的效果。
本发明使用如下基线:
Static learning(静态学习):这是传统的非增量学习方式,假设训练数据全部一次性到来且附有标注,通过训练这些数据得到模型,并且模型之后不再进行更新。
Joint(联合):这是经典的联合训练方式,具备增量学习的能力,并且被认为是增量学习的精度上限。训练的数据可分批次到来,但是新数据到来后,会将包括新数据和旧数据数据在内的全部数据进行训练。
Fine-tuning(微调):模型学习了旧数据后会得到一个具备推理能力的模型,我们称之为基础模型。当新数据到来的时候,使用新数据对基础模型进行训练。尽管模型能对新数据进行有效的学习,但是会在旧数据上出现灾难性遗忘的问题。
对于所有的方法,本发明均采用Deeplab-v3+模型,并采用ResNet-50作为主干网络。主干网络使用ImageNet的预训练模型进行初始化。在Xiangtan数据集中,每一个训练阶段的batch-size为2,迭代20个周期,训练过程中使用SGD加速模型收敛,学习率为0.0001。在Potsdam数据集中,每一个训练阶段的batch-size为32,迭代200个周期,训练过程中使用Adam作为优化器,学习率为0.001。对于每一个数据集,我们使用40%的数据作为历史数据,40%的数据作为新增数据,剩余的20%的数据作为测试数据。
快模式更新(fast model updating)下的实验结果比较
Figure BDA0003618350770000111
各方法在湘潭Xiangtan数据集上各类的表现如上表所示,在各评价指标中取得最佳表现的方法被高亮显示。联合方法在精度上的表现是最为优异的,因为在训练的阶段,相比于其他方法,模型学习了所有的数据并且不存在灾难性遗忘的问题。尽管Joint在精度上优于其他方法,但是它花费更多的存储空间保存历史数据,并且训练速度远远慢于其他方法,这在现实世界的应用中并不可取。静态学习是一种非增量式的方法,完成训练后模型则不再更新,因此模型无法通过学习新数据提高泛化能力,表现效果是最差的。微调方法使用基于历史数据训练得到的模型初始化,一定程度上保留了模型在旧知识上的记忆,但随着新数据在新训练阶段的加入,模型在旧数据上的遗忘问题非常严重。而本发明SeRe不仅取得了最接近最高精度的结果,并且模型的训练速度在同等精度的条件下最快。总而言之,本发明在实验中模型评估中表现了更快更好的优势特点。
消融实验结果
Figure BDA0003618350770000121
通过消融实验验证本发明中选择性学习与回放机制的有效性。当进行增量学习而不进行回放时,本发明无回放时明显优于本发明随机学习时,mIoU提高了10.94,mAcc提高了11.65,这时由于选择性学习帮助模型在相同图片数量的条件下获取了更丰富的知识。此外,本发明的回放结果由于无回放结果与随机回放结果,mIoU分别提高了1.64、8.97。可以注意到回放的采样策略对结果的影响非常大,采样不当会导致模型精度非但没有提高反而下降,关于回放采样方法的探究将在下面的分析实验阐述。
在相同的基础模型上固定回放比例为25%,采用不同的样本采样方式从旧样本中的获取样本进行回放。随机回放是随机选取25%的样本进行回放。基于像素频率加权回放(.ref)是根据不同类别出现的频率计算出类别的权重,对每张影像进行评分后取分数最高的前25%的样本进行回放。由于基础模型具备一定的推理能力,并且拥有旧数据及其标注,因此使用基础模型对旧数据进行推理和评估,以mIoU作为评价指标判断模型推理结果的好坏,mIoU也反映了样本的推理难易程度。根据每张影像的mIoU值进行降序排序。分别从样本序列的头部、中间、末尾取25%的样本进行回放,分别对应了难样本优先回放、中等样本优先回放、简单样本优先回放的方法。SeRe则是从序列中按照一定步长获取了25%的旧样本,样本范围覆盖了由困难到简单的样本。由图可知,随机回放的效果是最差的,因为它没有考虑到旧样本对模型进行巩固学习的价值。而优先回放中等样本和优先回放简单样本的方式使基础模型精度下降,是因为模型从这些数据中难以学习到未掌握好或者已经遗忘的旧知识,忽略了困难样本的重要性。优先回放困难样本尽管表现较好考虑到了困难样本对模型而言更容易遗忘,但同样忽略了简单样本的用处。基于像素频率加权的回放由于缓解了类别不平衡的问题表现较好。本发明的难易样本均匀回放则最好地模拟旧数据的难易分布情况,在实验中取得了最佳表现。
选择性学习在少见类别与常见类别的表现对比:
选择性学习在少见类别上的表现效果非常突出,以新增数据比率为20%为例:背景类的mIoU精度由11.71提升到82.27,城镇类的精度由0提升到18.93,草类的精度由2.98提升至4.91。经过像素统计分析,我们发现这些类别的像素占比较少,这是基础模型在这些类别的推理精度很差的原因。通过基于不确定性的困难样本的方法对新数据进行采样,我们在选择数据的时候会倾向于选择模型学习效果差的数据,而这些数据中恰好更多地包含了少见类别的像素,因此经过选择性学习后,模型在少见类别的表现提升明显。
超参数分析:
1)选择性学习比率的影响
Figure BDA0003618350770000131
Figure BDA0003618350770000141
使用数据A训练得到基础模型后,使用基于不确定性的困难样本采样的方式进行选择那些新数据需要被学习,并设置了不同新增数据的比率为20%、40%、60%、80%、100%。可以发现当新增数据比例在20%-60%时,模型的精度提升明显且稳定。这说明选择性学习能够使用较少的数据并快速地学习其中的丰富知识,既节约了标注成本,又实现了快速更新。
2)回放比率的影响
在完成新增样本比率为20%的选择后,使用基于mIoU的难易样本均匀采样的方式进行旧样本的采样。由于存储旧样本需要耗费大量存储空间,因此我们限定回放的比例在25%以内,具体划分为5%、10%、15%、20%、25%。当回放的数据量过少,如5%,10%,15%,模型的精度并不能有效提升而且不稳定,当模型回放数据达到25%的时候,模型的精度提高明显。
本发明的有益效果如下:
1)将增量学习的方法应用于遥感语义分割的任务上,使得模型在遥感大数据的背景下能够快速的迭代更新。
2)提出了一个适用于语义分割任务的增量学习框架SeRe,模型通过选择性学习和回放,学习新知识和保留旧知识并重;通过选择性学习与回放的方式既能让模型快速迭代更新,又能缓解灾难性遗忘。实验表明,本发明优于目前的其他增量学习方法。
3)在多个数据集上评估了本发明,实验证明在使用20%的新增数据,本发明可以达到联合训练精度的80%,联合训练被认为是增量学习的精度上限,同时训练速度在同等精度的情况得到提高。
本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。
综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种基于选择性学习与回放的遥感图像农作物识别方法,其特征在于,包括以下步骤:
获取多张农作物遥感图像并输入神经网络模型;
所述选择性学习从新数据中选择到更具有学习价值的数据作为这一阶段的训练集Dt,并对Dt进行标注,所述Dt具备成对的图像与标注文件(It,Gt),其中It表示一张图像的W×H,Gt表示相同大小即W×H的相应真实标签;在学习阶段t,图像的特征由特征提取器ft(·)获取,由分类器gt(·)输出分类结果。我们将阶段t中模型对于测试集的图像的分割结果记为
Figure FDA0003618350760000011
将完成学习后的模型的所有参数集合记为θt。;
所述回放对旧数据进行推理和评估,计算出单张图片的分割精度IoU,通过IoU对旧样本进行难易程度排序,并采用均匀采样的方式获取这部分旧样本;
利用标注的样本、训练神经网络模型,神经网络模型的预测和数据的真实标签产生损失后进行反向传播,更新神经网络模型参数;
将新采集的农作物遥感图像输入训练好的神经网络模型,输出农作物识别结果。
2.根据权利要求1所述的基于选择性学习与回放的遥感图像农作物识别方法,其特征在于,所述更具有学习价值的数据使用样本的不确定性度量,所述样本的不确定性的度量方法如下:
Figure FDA0003618350760000012
表示t阶段模型对于无标签数据的推理结果,W、H、C分别表示图像的宽度、高度和类别,t-1阶段的旧模型对新数据Dt的推理结果表示为
Figure FDA0003618350760000013
旧模型对某张新图像中像素点的推理伪标签则为:
Figure FDA0003618350760000021
由于每一个像素的伪标签都有其置信度,因此据此计算出每个像素的不确定性。通常取置信度的倒数作为不确定性,置信度越低则不确定性越高,其学习价值也越高。旧模型对某张新图像中像素点的不确定性则为:
Ut-1→t(w,h,u),
Figure FDA0003618350760000022
其中,w为宽,h为高,c为类别个数,u为此图像像素不确定性的值;计算出一张图像中所有像素点的不确定性后,我们将所有像素点的不确定性进行去和运算,得到样本的不确定性为:
∑Ut-1→t(w,h,u)。
3.根据权利要求1所述的基于选择性学习与回放的遥感图像农作物识别方法,其特征在于,所述单张图片的IoU的计算过程如下:
将旧数据Dt-1作为使用t阶段模型的输入,经模型处理后输出结果为
Figure FDA0003618350760000023
通过one-hot编码取推理置信度最大的类别作为像素类别,得到伪标签:
Figure FDA0003618350760000024
旧数据Dt-1本身是有标签的数据,记标签为Gt-1;根据伪标签
Figure FDA0003618350760000025
和真实标签Gt-1计算出此图像的IoU;计算此图像中每一类别的IoU,再求出所有类别的IoU的均值作为图像的IoU:
Figure FDA0003618350760000026
Figure FDA0003618350760000027
4.根据权利要求3所述的基于选择性学习与回放的遥感图像农作物识别方法,其特征在于,IoU值越高,意味着模型的推理效果越好,模型对这部分数据的记忆能力较好,反之IoU值越低,则模型的推理效果越差,模型对这部分数据产生了遗忘。
5.根据权利要求3所述的基于选择性学习与回放的遥感图像农作物识别方法,其特征在于,根据IoU值对所有的图像进行排序,然后按照一定间隔采样20%的样本进行回放,回放的比例为25%。
6.根据权利要求1所述的基于选择性学习与回放的遥感图像农作物识别方法,其特征在于,所述神经网络模型为Deeplab-v3+模型,并采用ResNet-50作为主干网络,所述主干网络使用ImageNet的预训练模型。
CN202210454684.7A 2022-04-24 2022-04-24 一种基于选择性学习与回放的遥感图像农作物识别方法 Pending CN114821324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210454684.7A CN114821324A (zh) 2022-04-24 2022-04-24 一种基于选择性学习与回放的遥感图像农作物识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210454684.7A CN114821324A (zh) 2022-04-24 2022-04-24 一种基于选择性学习与回放的遥感图像农作物识别方法

Publications (1)

Publication Number Publication Date
CN114821324A true CN114821324A (zh) 2022-07-29

Family

ID=82510249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210454684.7A Pending CN114821324A (zh) 2022-04-24 2022-04-24 一种基于选择性学习与回放的遥感图像农作物识别方法

Country Status (1)

Country Link
CN (1) CN114821324A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049678A (zh) * 2022-08-17 2022-09-13 南昌工程学院 基于夜间紫外成像技术的输电线电晕放电图像分割方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049678A (zh) * 2022-08-17 2022-09-13 南昌工程学院 基于夜间紫外成像技术的输电线电晕放电图像分割方法

Similar Documents

Publication Publication Date Title
CN113190699B (zh) 一种基于类别级语义哈希的遥感图像检索方法及装置
CN110851645B (zh) 一种基于深度度量学习下相似性保持的图像检索方法
CN110532471B (zh) 基于门控循环单元神经网络的主动学习协同过滤方法
CN112733996B (zh) 基于GA-PSO优化XGBoost的水文时间序列预测方法
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN112115967B (zh) 一种基于数据保护的图像增量学习方法
CN115934990B (zh) 基于内容理解的遥感影像推荐方法
CN113411216B (zh) 基于离散小波变换和fa-elm的网络流量预测方法
CN115471739A (zh) 基于自监督对比学习的跨域遥感场景分类与检索方法
CN110866134A (zh) 一种面向图像检索的分布一致性保持度量学习方法
CN114821324A (zh) 一种基于选择性学习与回放的遥感图像农作物识别方法
CN113312925B (zh) 一种基于自强化学习的遥感影像文本生成及优化方法
CN111461067A (zh) 基于先验知识映射及修正的零样本遥感影像场景识别方法
CN110347853A (zh) 一种基于循环神经网络的图像哈希码生成方法
CN117634615A (zh) 一种基于模态无关对比学习的多任务代码检索方法
CN117288441A (zh) 一种Langley定标辅助方法及系统
Ridhovan et al. Disease Detection in Banana Leaf Plants using DenseNet and Inception Method
CN111507472A (zh) 一种基于重要性剪枝的精度估计参数搜索方法
CN111079840A (zh) 基于卷积神经网络和概念格的图像语义完备标注方法
CN115796980A (zh) 一种基于物联网的新型智慧城市大数据管理方法
CN114612787A (zh) 一种尺度变化策略支持的城市绿地深度学习提取方法
CN114329167A (zh) 超参数学习、智能推荐、关键词和多媒体推荐方法及装置
CN116580272A (zh) 一种基于模型融合推理的雷达目标分类方法及系统
CN110502660A (zh) 一种弱监督下的多距离度量图像检索方法
CN113658680B (zh) 基于随机森林的戒毒人员戒治效果的评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination