CN111931747B - 一种适于多任务迭代学习记忆的遥感图像分类方法 - Google Patents

一种适于多任务迭代学习记忆的遥感图像分类方法 Download PDF

Info

Publication number
CN111931747B
CN111931747B CN202011074327.5A CN202011074327A CN111931747B CN 111931747 B CN111931747 B CN 111931747B CN 202011074327 A CN202011074327 A CN 202011074327A CN 111931747 B CN111931747 B CN 111931747B
Authority
CN
China
Prior art keywords
model
classifier
task
parameter
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011074327.5A
Other languages
English (en)
Other versions
CN111931747A (zh
Inventor
彭剑
李海峰
黄浩哲
陈力
崔振琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202011074327.5A priority Critical patent/CN111931747B/zh
Publication of CN111931747A publication Critical patent/CN111931747A/zh
Application granted granted Critical
Publication of CN111931747B publication Critical patent/CN111931747B/zh
Priority to AU2021101580A priority patent/AU2021101580A4/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种适于多任务迭代学习记忆的遥感图像分类方法,包括:初始化模型分类器之前的参数、固定权重、临时权重,利用参数权重预测性能;利用第一个任务的训练数据计算模型中每个参数的敏感性;当模型学习新的任务时,使用修改后的损失函数对模型进行训练,学习得到分类器之前的参数;在分类器中拓展新的神经元
Figure 119184DEST_PATH_IMAGE002
用于学习新任务
Figure 963643DEST_PATH_IMAGE004
中的新的类,重新初始化分类器的临时权重,学习得到分类器的临时权重,利用参数权重预测性能;利用新任务的训练数据计算模型中每个参数的敏感性矩阵,计算作为下一个任务训练的损失函数中添加的参数的敏感性矩阵;每当进来一个新任务对其进行训练时,重复步骤;使用训练好的模型分类器对遥感图像进行分类。

Description

一种适于多任务迭代学习记忆的遥感图像分类方法
技术领域
本发明涉及遥感图像处理与识别技术领域,尤其涉及一种适于多任务迭代学习记忆的遥感图像分类方法。
背景技术
在当前大数据和人工智能快速发展的时代,在面临不断更新迭代的海量数据时,深度学习模型也需要不断的进行学习和更新,不断的调整模型以满足当前人们的需求。然而,现有的深度学习模型一旦在特定的任务上训练完成后,该模型就只能用于该项任务的预测,一旦模型继续学习新的任务,就会在之前已经学习过的任务上出现灾难性遗忘的现象,即模型无法保持在旧任务上的性能。而每次都将所有的数据混合在一起重新对模型进行训练的方式不仅浪费了存储空间,而且也将消耗大量的时间来训练模型,大大降低了深度学习算法的实用化和商业化的可能性。因此,灾难性遗忘问题严重影响了深度学习模型在持续学习多个任务时的性能。
为了减轻深度学习模型中存在的灾难性遗忘问题,过去的一些研究主要可以分为三大类:1)基于正则化的连续学习方法;2)基于结构化的连续学习方法;3)基于预排练的连续学习方法。其中,基于正则化的连续学习方法包括弹性权重巩固EWC、记忆感知突触MAS等方法,通过约束对旧任务重要参数的更新来减轻模型对旧任务的灾难性遗忘,然而,随着学习的新任务数量的增加,重要参数的累积误差增加,模型无法找到满足所有任务的公共解空间,因而造成模型克服灾难性遗忘的能力下降;基于结构化的连续学习方法例如CWR,通过冻结一部分神经元结构来保护模型在旧任务上的性能,但是这种方法丧失了学习新任务时对网络结构调整的灵活性;基于预排练的连续学习方法认为,不定期的让模型见到一些旧任务的样本有助于唤醒模型对旧任务的性能,例如在iCARL方法中,使用了一个范例集来存储旧任务的典型的部分样本数据。基于预排练的方法不仅能够有效地控制灾难性遗忘,而且还能提高模型在旧任务上的准确性,但该方法需要存储旧任务的历史数据。当前克服灾难性遗忘的方法存在以上弊端,因此,需要一种更加精确、实用、可靠、有效的方法来解决深度学习模型中灾难性遗忘的问题,进而适于多任务迭代学习记忆的遥感图像分类方法。
发明内容
有鉴于此,本发明的目的在于提供一种适于多任务迭代学习记忆的遥感图像分类方法,所述方法基于参数敏感性与结构化相结合,能够有效的克服深度学习模型中存在的灾难性遗忘的问题,适于解决多任务迭代学习记忆的遥感图像分类问题。
本发明的目的是这样实现的,一种适于多任务迭代学习记忆的遥感图像分类方法,包括以下步骤:
步骤1,初始化模型分类器之前的参数
Figure 684819DEST_PATH_IMAGE002
、分类器的固定权重
Figure 411467DEST_PATH_IMAGE004
以及分类器的临时权重
Figure 57955DEST_PATH_IMAGE006
,使用随机梯度下降训练第一个任务,学习得到
Figure 237264DEST_PATH_IMAGE002
Figure 246808DEST_PATH_IMAGE008
,将分类器的临时权重
Figure 342809DEST_PATH_IMAGE008
赋值给固定权重
Figure 146817DEST_PATH_IMAGE010
,利用
Figure 79001DEST_PATH_IMAGE002
Figure 377389DEST_PATH_IMAGE010
预测性能;
步骤2,利用第一个任务的训练数据计算模型中每个参数的敏感性,得到参数的敏感性矩阵
Figure 344208DEST_PATH_IMAGE012
步骤3,当模型学习新的任务时,将参数的敏感性矩阵
Figure 53538DEST_PATH_IMAGE012
作为一个正则项添加到模型原有的损失函数中,然后使用修改后的损失函数对模型进行训练,学习得到分类器之前的参数
Figure 738597DEST_PATH_IMAGE002
步骤4,在分类器中拓展新的神经元
Figure 73633DEST_PATH_IMAGE014
用于学习新任务
Figure 894958DEST_PATH_IMAGE016
中的新的类,重新初始化分类器的临时权重
Figure 40769DEST_PATH_IMAGE017
,使用随机梯度下降训练模型,学习得到分类器的临时权重
Figure 695348DEST_PATH_IMAGE008
,将分类器的临时权重
Figure 319227DEST_PATH_IMAGE008
赋值给固定权重
Figure 260638DEST_PATH_IMAGE018
,利用
Figure 826618DEST_PATH_IMAGE002
Figure 955111DEST_PATH_IMAGE018
预测性能;
步骤5,利用新任务的训练数据计算模型中每个参数的敏感性矩阵
Figure 648260DEST_PATH_IMAGE012
,将当前任务的敏感性矩阵与之前任务的敏感性矩阵进行累加并取均值,作为下一个任务训练的损失函数中添加的参数的敏感性矩阵;
步骤6,每当进来一个新任务对其进行训练时,重复步骤3、步骤4和步骤5即可;
步骤7,使用训练好的模型分类器对遥感图像进行分类。
具体地,步骤1中所述的将分类器的临时权重
Figure 929331DEST_PATH_IMAGE008
赋值给固定权重
Figure 682523DEST_PATH_IMAGE010
,包括以下步骤:
对于任务
Figure 298312DEST_PATH_IMAGE019
中的每个类j,按照下列公式将分类器的临时权重
Figure 529574DEST_PATH_IMAGE008
赋值给固定权重
Figure 429265DEST_PATH_IMAGE010
Figure 87780DEST_PATH_IMAGE021
其中,
Figure 456444DEST_PATH_IMAGE023
为临时权重
Figure 973620DEST_PATH_IMAGE008
的所有类的均值。
具体地,步骤2中所述的计算模型中每个参数的敏感性,得到参数的敏感性矩阵
Figure 478551DEST_PATH_IMAGE012
,包括以下步骤:
对于给定的样本
Figure 307966DEST_PATH_IMAGE025
,模型的输出记为
Figure 413194DEST_PATH_IMAGE027
,其中
Figure 986258DEST_PATH_IMAGE029
为模型的参数,将参数的微小改变量
Figure 345695DEST_PATH_IMAGE031
对模型最终的输出
Figure 96745DEST_PATH_IMAGE027
的改变进行二阶泰勒展开:
Figure 174422DEST_PATH_IMAGE033
其中,
Figure 816756DEST_PATH_IMAGE035
为输出函数
Figure 30700DEST_PATH_IMAGE027
在样本
Figure 716765DEST_PATH_IMAGE036
上对参数
Figure 16159DEST_PATH_IMAGE038
的梯度,H为Hessian矩阵,代表输出函数
Figure 931026DEST_PATH_IMAGE027
在样本
Figure 12858DEST_PATH_IMAGE025
上参数
Figure 620557DEST_PATH_IMAGE039
的二阶偏导数;
利用对角Fisher信息矩阵来近似的逼近Hessian矩阵,对于多分类问题,使用输出函数
Figure 407247DEST_PATH_IMAGE027
的l2范数的平方对参数的梯度来代替计算参数敏感性,通过一次反向传播就可以计算出参数的敏感性矩阵,公式如下:
Figure 375072DEST_PATH_IMAGE041
按照下列公式计算模型中的每个参数
Figure 829187DEST_PATH_IMAGE043
的敏感性矩阵
Figure 342208DEST_PATH_IMAGE012
Figure 881774DEST_PATH_IMAGE045
其中,
Figure 889175DEST_PATH_IMAGE012
代表网络模型中每个参数
Figure 197797DEST_PATH_IMAGE043
对于该任务的敏感性矩阵,
Figure 881719DEST_PATH_IMAGE047
表示第k个样本点,N表示样本总数。
具体地,步骤3中所述的当模型学习新的任务时,将参数的敏感性矩阵
Figure 892269DEST_PATH_IMAGE012
作为一个正则项添加到模型原有的损失函数中,然后使用修改后的损失函数对模型进行训练,学习得到分类器之前的参数
Figure 952629DEST_PATH_IMAGE002
,包括以下步骤:
每当新进来一个任务时,按照下列公式对在其任务的原有损失函数上添加一个正则项来限制分类器之前的参数的更新:
Figure 115757DEST_PATH_IMAGE049
其中,
Figure 983963DEST_PATH_IMAGE051
代表修改之后模型总的损失函数,
Figure 232541DEST_PATH_IMAGE053
代表模型在当前任务上的损失函数,
Figure 96592DEST_PATH_IMAGE055
代表正则项的超参数,
Figure 97915DEST_PATH_IMAGE043
代表当前任务的分类器之前的参数,
Figure 654798DEST_PATH_IMAGE057
代表之前任务的分类器之前的参数。
更进一步地,步骤4中所述的将分类器的临时权重tw赋值给固定权重cw,利用
Figure 125094DEST_PATH_IMAGE002
和cw预测性能,包括以下步骤:
对于任务
Figure 527256DEST_PATH_IMAGE019
中的每个类j,按照下列公式将分类器的临时权重tw赋值给固定权重cw:
Figure 150130DEST_PATH_IMAGE021
其中,avg(tw)为临时权重tw的所有类的均值。
具体地,步骤5中所述的利用新任务的训练数据计算模型中每个参数的敏感性矩阵,将当前任务的敏感性矩阵与之前任务的敏感性矩阵进行累加并取均值,作为下一个任务训练的损失函数中添加的参数的敏感性矩阵
Figure 877915DEST_PATH_IMAGE012
,包括以下步骤:
按照下列公式计算累加之后取均值的参数的敏感性矩阵
Figure 569927DEST_PATH_IMAGE012
Figure 290627DEST_PATH_IMAGE059
其中,
Figure 282854DEST_PATH_IMAGE061
为当前任务的敏感性矩阵,
Figure 650381DEST_PATH_IMAGE063
为之前任务的敏感性矩阵,task_num为任务数量。
与现有方法相比,本发明的优点在于:(1)本发明提出了一种新的将参数敏感性与冻结旧任务神经元结构相结合的方法,该方法可以有效减轻深度学习模型中灾难性遗忘的问题;(2)本发明提出的计算参数敏感性的方法可以与场景无关的,可以在任意场景中使用本发明提出的方法来计算模型中每个参数的重要程度;(3)本发明提出的方法在计算参数敏感性时不需要标签,使得该方法能够更适用于真实分类场景中。
附图说明
图1示出了本发明实施例的流程示意图;
图2示出了本发明实施例选用的CLRS数据集每类场景部分影像实施例示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例的流程示意图,一种适于多任务迭代学习记忆的遥感图像分类方法,包括以下步骤:
步骤1,初始化模型分类器之前的参数
Figure 108651DEST_PATH_IMAGE002
、分类器的固定权重cw=0以及分类器的临时权重tw=0,使用随机梯度下降训练第一个任务,学习得到
Figure 852616DEST_PATH_IMAGE002
和tw,将分类器的临时权重tw赋值给固定权重cw,利用
Figure 699350DEST_PATH_IMAGE002
和cw预测性能;
对于任务
Figure 752625DEST_PATH_IMAGE019
中的每个类j,按照下列公式将分类器的临时权重tw赋值给固定权重cw:
Figure 684809DEST_PATH_IMAGE021
其中,avg(tw)为临时权重tw的所有类的均值。
步骤2,利用第一个任务的训练数据计算模型中每个参数的敏感性,得到参数的敏感性矩阵
Figure 232465DEST_PATH_IMAGE012
对于给定的样本
Figure 199284DEST_PATH_IMAGE025
,模型的输出记为
Figure 659346DEST_PATH_IMAGE027
,其中
Figure 344406DEST_PATH_IMAGE029
为模型的参数,将参数的微小改变量
Figure 430173DEST_PATH_IMAGE031
对模型最终的输出
Figure 500766DEST_PATH_IMAGE027
的改变进行二阶泰勒展开:
Figure 380998DEST_PATH_IMAGE033
其中,
Figure 287774DEST_PATH_IMAGE035
为输出函数
Figure 948473DEST_PATH_IMAGE027
在样本
Figure 624305DEST_PATH_IMAGE036
上对参数
Figure 941017DEST_PATH_IMAGE038
的梯度,H为Hessian矩阵,代表输出函数
Figure 584356DEST_PATH_IMAGE027
在样本
Figure 277506DEST_PATH_IMAGE025
上参数
Figure 807844DEST_PATH_IMAGE039
的二阶偏导数;
Hessian矩阵的计算复杂度很高,因此,利用对角Fisher信息矩阵来近似的逼近Hessian矩阵,对于多分类问题,使用输出函数
Figure 561037DEST_PATH_IMAGE027
的l2范数的平方对参数的梯度来代替计算参数敏感性,只需要通过一次反向传播就可以计算出参数的敏感性矩阵。公式如下:
Figure 661979DEST_PATH_IMAGE041
按照下列公式计算模型中的每个参数
Figure 158819DEST_PATH_IMAGE043
的敏感性矩阵
Figure 543664DEST_PATH_IMAGE012
Figure 451446DEST_PATH_IMAGE045
其中,
Figure 820111DEST_PATH_IMAGE012
代表网络模型中每个参数
Figure 589484DEST_PATH_IMAGE043
对于该任务的敏感性矩阵,
Figure 842217DEST_PATH_IMAGE047
表示第k个样本点,N表示样本总数。
步骤3,当模型学习新的任务时,将参数的敏感性矩阵
Figure 671633DEST_PATH_IMAGE012
作为一个正则项添加到模型原有的损失函数中,然后使用修改后的损失函数对模型进行训练,学习得到分类器之前的参数
Figure 262014DEST_PATH_IMAGE002
每当新进来一个任务时,按照下列公式对在其任务的原有损失函数上添加一个正则项来限制分类器之前的参数的更新:
Figure 84346DEST_PATH_IMAGE049
其中,
Figure 709362DEST_PATH_IMAGE051
代表修改之后模型总的损失函数,
Figure 709679DEST_PATH_IMAGE053
代表模型在当前任务上的损失函数,
Figure 538089DEST_PATH_IMAGE055
代表正则项的超参数,
Figure 649264DEST_PATH_IMAGE043
代表当前任务的分类器之前的参数,
Figure 128787DEST_PATH_IMAGE057
代表之前任务的分类器之前的参数;
步骤4,在分类器中拓展新的神经元
Figure 549273DEST_PATH_IMAGE014
用于学习新任务
Figure 114247DEST_PATH_IMAGE016
中的新的类,重新初始化分类器的临时权重tw=0,使用随机梯度下降训练模型,学习得到分类器的临时权重tw,将分类器的临时权重tw赋值给固定权重cw,利用
Figure 29113DEST_PATH_IMAGE002
和cw预测性能;
对于任务
Figure 628722DEST_PATH_IMAGE019
中的每个类j,按照下列公式将分类器的临时权重tw赋值给固定权重cw:
Figure 718644DEST_PATH_IMAGE021
其中,avg(tw)为临时权重tw的所有类的均值。
步骤5,利用新任务的训练数据计算模型中每个参数的敏感性矩阵
Figure 505334DEST_PATH_IMAGE012
,将当前任务的敏感性矩阵与之前任务的敏感性矩阵进行累加并取均值,作为下一个任务训练的损失函数中添加的参数的敏感性矩阵;
按照下列公式计算累加之后取均值的参数的敏感性矩阵
Figure 223892DEST_PATH_IMAGE012
Figure 927274DEST_PATH_IMAGE059
其中,
Figure 440295DEST_PATH_IMAGE061
为当前任务的敏感性矩阵,
Figure 714282DEST_PATH_IMAGE063
为之前任务的敏感性矩阵,task_num为任务数量。
步骤6,每当进来一个新任务对其进行训练时,重复步骤3、步骤4和步骤5即可。
步骤7,使用训练好的模型分类器对遥感图像进行分类。
实验主要从在单增量应用场景中,深度学习模型学习多个任务后的精度表现来对本发明提出的方法的有效性进行评价。本发明的实验主要是用来证明本发明提出的方法能够有效的减轻深度学习模型中的灾难性遗忘问题。
基于CLRS数据集,如图2,在CLRS数据集提供的新的类场景(NC场景)中让模型依次学习五个任务。使用19层的ResNet模型作为基础的场景分类网络,使用了随机翻转的数据增强方式以及使用了dropout来防止模型出现过拟合,dropout值设置为0.5,所有的参数均使用Xavier初始化,利用随机梯度下降法来对网络进行优化,学习率大小设置为0.001,batch size大小设置为64,利用了单增量任务场景中的分类精度(Accuracy)指标来评估不同方法的性能。
结果表明,在NC场景中,由于没有任何控制遗忘的措施,SGD方法的性能是最差的,旧任务的场景类被模型几乎完全遗忘。三种正则化的方法EWC、MAS以及LWF在该场景中的性能表现不佳;相比正则化的方法,结构化的方法CWR在克服灾难性遗忘方面的性能有了很大提升,然而,由于模型在学习完第一个任务后,分类器之前的所有层的参数均被冻结,所以CWR方法也降低了灵活学习新任务的能力。与其他方法相比,本发明提出的方法在性能上取得了最佳。此外,与CWR相比,本文提出的方法可以灵活的调整分类器之前的参数。通过与其他连续学习方法的对比,本发明提出的方法在NC场景上可以很好的克服灾难性遗忘。此外,在学习完五个任务后,本发明提出的方法的精度曲线仍然呈上升趋势,未达到饱和,这表明,本发明提出的方法仍然能够较好的学习更长序列的任务。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (2)

1.一种适于多任务迭代学习记忆的遥感图像分类方法,其特征在于,包括以下步骤:
步骤1,初始化模型分类器之前的参数
Figure DEST_PATH_IMAGE002
、分类器的固定权重
Figure DEST_PATH_IMAGE004
以及分类器的临时权重
Figure DEST_PATH_IMAGE006
,使用随机梯度下降训练第一个任务,学习得到
Figure DEST_PATH_IMAGE002A
Figure DEST_PATH_IMAGE008
,将分类器的临时权重
Figure DEST_PATH_IMAGE008A
赋值给固定权重
Figure DEST_PATH_IMAGE010
,利用
Figure DEST_PATH_IMAGE002AA
Figure DEST_PATH_IMAGE010A
预测性能;所述的将分类器的临时权重
Figure DEST_PATH_IMAGE008AA
赋值给固定权重
Figure DEST_PATH_IMAGE010AA
,包括以下步骤:
对于任务
Figure DEST_PATH_IMAGE012
中的每个类j,按照下列公式将分类器的临时权重
Figure DEST_PATH_IMAGE008AAA
赋值给固定权重
Figure DEST_PATH_IMAGE010AAA
Figure DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE016
为临时权重
Figure DEST_PATH_IMAGE008AAAA
的所有类的均值;
步骤2,利用第一个任务的训练数据计算模型中每个参数的敏感性,得到参数的敏感性矩阵
Figure DEST_PATH_IMAGE018
;所述的计算模型中每个参数的敏感性,得到参数的敏感性矩阵
Figure DEST_PATH_IMAGE018A
,包括以下步骤:
对于给定的样本
Figure DEST_PATH_IMAGE020
,模型的输出记为
Figure DEST_PATH_IMAGE022
,其中
Figure DEST_PATH_IMAGE024
为模型的参数,将参数的微小改变量
Figure DEST_PATH_IMAGE026
对模型最终的输出
Figure DEST_PATH_IMAGE022A
的改变进行二阶泰勒展开:
Figure DEST_PATH_IMAGE028
其中,
Figure DEST_PATH_IMAGE030
为输出函数
Figure DEST_PATH_IMAGE022AA
在样本
Figure DEST_PATH_IMAGE020A
上对参数
Figure DEST_PATH_IMAGE032
的梯度,H为Hessian矩阵,代表输出函数
Figure DEST_PATH_IMAGE022AAA
在样本
Figure DEST_PATH_IMAGE020AA
上参数
Figure DEST_PATH_IMAGE032A
的二阶偏导数,
Figure DEST_PATH_IMAGE034
表示微小改变量
Figure DEST_PATH_IMAGE026A
的特定元素;
利用对角Fisher信息矩阵来近似的逼近Hessian矩阵,使用输出函数
Figure DEST_PATH_IMAGE022AAAA
的l2范数的平方对参数的梯度来代替计算参数敏感性,通过一次反向传播就可以计算出参数的敏感性矩阵,公式如下:
Figure DEST_PATH_IMAGE036
按照下列公式计算模型中的每个参数
Figure DEST_PATH_IMAGE038
的敏感性矩阵
Figure DEST_PATH_IMAGE018AA
Figure DEST_PATH_IMAGE040
其中,
Figure DEST_PATH_IMAGE018AAA
代表网络模型中每个参数
Figure DEST_PATH_IMAGE038A
对于该任务的敏感性矩阵,
Figure DEST_PATH_IMAGE042
表示第
Figure DEST_PATH_IMAGE044
个样本点,
Figure DEST_PATH_IMAGE046
表示样本总数,
Figure DEST_PATH_IMAGE048
表示输出函数
Figure DEST_PATH_IMAGE022AAAAA
的l2范数的平方;
步骤3,当模型学习新的任务时,将参数的敏感性矩阵
Figure DEST_PATH_IMAGE018AAAA
作为一个正则项添加到模型原有的损失函数中,然后使用修改后的损失函数对模型进行训练,学习得到分类器之前的参数
Figure DEST_PATH_IMAGE002AAA
步骤4,在分类器中拓展新的神经元
Figure DEST_PATH_IMAGE050
用于学习新任务
Figure DEST_PATH_IMAGE012A
中的新的类,重新初始化分类器的临时权重
Figure DEST_PATH_IMAGE006A
,使用随机梯度下降训练模型,学习得到分类器的临时权重
Figure DEST_PATH_IMAGE008AAAAA
,将分类器的临时权重
Figure DEST_PATH_IMAGE008AAAAAA
赋值给固定权重
Figure DEST_PATH_IMAGE010AAAA
,利用
Figure DEST_PATH_IMAGE002AAAA
Figure DEST_PATH_IMAGE010AAAAA
预测性能;
步骤5,利用新任务的训练数据计算模型中每个参数的敏感性矩阵
Figure DEST_PATH_IMAGE018AAAAA
,将当前任务的敏感性矩阵与之前任务的敏感性矩阵进行累加并取均值,作为下一个任务训练的损失函数中添加的参数的敏感性矩阵;具体按照下列公式计算累加之后取均值的参数的敏感性矩阵
Figure DEST_PATH_IMAGE018AAAAAA
Figure DEST_PATH_IMAGE052
其中,
Figure DEST_PATH_IMAGE054
为当前任务的敏感性矩阵,
Figure DEST_PATH_IMAGE056
为之前任务的敏感性矩阵,
Figure DEST_PATH_IMAGE058
为任务数量;
步骤6,每当进来一个新任务对其进行训练时,重复步骤3、步骤4和步骤5即可;
步骤7,使用训练好的模型分类器对遥感图像进行分类。
2.根据权利要求1所述的遥感图像分类方法,其特征在于,步骤3中所述的当模型学习新的任务时,将参数的敏感性矩阵
Figure DEST_PATH_IMAGE018AAAAAAA
作为一个正则项添加到模型原有的损失函数中,然后使用修改后的损失函数对模型进行训练,学习得到分类器之前的参数
Figure DEST_PATH_IMAGE002AAAAA
,包括以下步骤:
每当新进来一个任务时,按照下列公式对在其任务的原有损失函数上添加一个正则项来限制分类器之前的参数的更新:
Figure DEST_PATH_IMAGE060
其中,
Figure DEST_PATH_IMAGE062
代表修改之后模型总的损失函数,
Figure DEST_PATH_IMAGE064
代表模型在当前任务上的损失函数,
Figure DEST_PATH_IMAGE066
代表正则项的超参数,
Figure DEST_PATH_IMAGE038AA
代表当前任务的分类器之前的参数,
Figure DEST_PATH_IMAGE068
代表之前任务的分类器之前的参数。
CN202011074327.5A 2020-10-10 2020-10-10 一种适于多任务迭代学习记忆的遥感图像分类方法 Active CN111931747B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011074327.5A CN111931747B (zh) 2020-10-10 2020-10-10 一种适于多任务迭代学习记忆的遥感图像分类方法
AU2021101580A AU2021101580A4 (en) 2020-10-10 2021-03-27 Remote sensing image classification method for multi-task iterative learning and memorizing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011074327.5A CN111931747B (zh) 2020-10-10 2020-10-10 一种适于多任务迭代学习记忆的遥感图像分类方法

Publications (2)

Publication Number Publication Date
CN111931747A CN111931747A (zh) 2020-11-13
CN111931747B true CN111931747B (zh) 2021-01-29

Family

ID=73334306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011074327.5A Active CN111931747B (zh) 2020-10-10 2020-10-10 一种适于多任务迭代学习记忆的遥感图像分类方法

Country Status (2)

Country Link
CN (1) CN111931747B (zh)
AU (1) AU2021101580A4 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410051B (zh) * 2022-11-02 2023-01-24 华中科技大学 一种再可塑性启发的连续图像分类方法与系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5086157B2 (ja) * 2008-04-03 2012-11-28 株式会社日立製作所 画像判読支援方法
CN104217214B (zh) * 2014-08-21 2017-09-19 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb‑d人物行为识别方法
CN104850836B (zh) * 2015-05-15 2018-04-10 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法
WO2017086960A1 (en) * 2015-11-19 2017-05-26 Halliburton Energy Services, Inc. Simultaneous error correction and inversion
US10217236B2 (en) * 2016-04-08 2019-02-26 Orbital Insight, Inc. Remote determination of containers in geographical region
CN106485286B (zh) * 2016-10-29 2020-10-20 华东理工大学 一种基于局部敏感判别的矩阵分类模型
CN107179291B (zh) * 2017-05-10 2020-02-14 中国科学院合肥物质科学研究院 基于太赫兹光谱与深度自动编码器的土壤重金属元素含量预测方法
EP3657653A1 (en) * 2018-11-23 2020-05-27 Ingeteam Power Technology, S.A. Modulation method for an electronic power conversion system
CN109754079A (zh) * 2018-12-13 2019-05-14 中南大学 一种基于参数重要性克服灾难性遗忘的方法
CN111208425B (zh) * 2020-01-13 2022-02-18 郑州轻工业大学 高精度异步电机系统状态模型的构建方法及异步电机状态检测方法
CN111281385B (zh) * 2020-03-06 2023-01-31 中国人民解放军第四军医大学 一种基于组织空间分布特征和阻抗随频率变化特性的电阻抗成像方法

Also Published As

Publication number Publication date
CN111931747A (zh) 2020-11-13
AU2021101580A4 (en) 2021-05-20

Similar Documents

Publication Publication Date Title
CN109816032B (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
CN110866530A (zh) 一种字符图像识别方法、装置及电子设备
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN114387486A (zh) 基于持续学习的图像分类方法以及装置
CN114842343A (zh) 一种基于ViT的航空图像识别方法
CN114612721A (zh) 基于多层次自适应特征融合类增量学习的图像分类方法
CN115358305A (zh) 一种基于边界样本迭代生成的增量学习鲁棒性提升方法
CN114548591A (zh) 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统
Lee et al. Learning in the wild: When, how, and what to learn for on-device dataset adaptation
CN111160526B (zh) 基于mape-d环形结构的深度学习系统在线测试方法与装置
CN111931747B (zh) 一种适于多任务迭代学习记忆的遥感图像分类方法
Szadkowski et al. Continually trained life-long classification
CN110705631B (zh) 一种基于svm的散货船舶设备状态检测方法
Qin et al. Remaining useful life prediction using temporal deep degradation network for complex machinery with attention-based feature extraction
CN111652264B (zh) 基于最大均值差异的负迁移样本筛选方法
CN112819100A (zh) 无人机平台多尺度目标检测方法和装置
CN117154256A (zh) 锂电池的电化学修复方法
CN112527959A (zh) 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
CN116579468A (zh) 基于云系记忆的台风生成预测方法、装置、设备及介质
Thirumaladevi et al. Improved transfer learning of CNN through fine-tuning and classifier ensemble for scene classification
CN116992937A (zh) 神经网络模型的修复方法和相关设备
Shankarampeta et al. Few-Shot Class Incremental Learning with Generative Feature Replay.
CN113033212B (zh) 文本数据处理方法及装置
He et al. Collective neurodynamic optimization for image segmentation by binary model with constraints
Netto et al. Prediction of environmental conditions for maritime navigation using a network of sensors: A practical application of graph neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant