CN116563638B - 一种基于情景记忆的图像分类模型优化方法和系统 - Google Patents

一种基于情景记忆的图像分类模型优化方法和系统 Download PDF

Info

Publication number
CN116563638B
CN116563638B CN202310576146.XA CN202310576146A CN116563638B CN 116563638 B CN116563638 B CN 116563638B CN 202310576146 A CN202310576146 A CN 202310576146A CN 116563638 B CN116563638 B CN 116563638B
Authority
CN
China
Prior art keywords
current task
external memory
gradient value
task
image classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310576146.XA
Other languages
English (en)
Other versions
CN116563638A (zh
Inventor
张磊
左利云
王宝艳
李欣
甄先通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Petrochemical Technology
Original Assignee
Guangdong University of Petrochemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Petrochemical Technology filed Critical Guangdong University of Petrochemical Technology
Priority to CN202310576146.XA priority Critical patent/CN116563638B/zh
Publication of CN116563638A publication Critical patent/CN116563638A/zh
Application granted granted Critical
Publication of CN116563638B publication Critical patent/CN116563638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理领域,具体涉及一种基于情景记忆的图像分类模型优化方法和系统,用于对图像分类模型参数进行优化,包括:构建若干个任务,每个任务包括一个支持集;将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化。本发明利用情景记忆对图像分类模型进行优化,使模型的预测效果更为精准。

Description

一种基于情景记忆的图像分类模型优化方法和系统
技术领域
本发明涉及图像处理领域,更具体地,涉及一种基于情景记忆的图像分类模型优化方法和系统。
背景技术
细粒度图像分类:可对图像分类大类下的子类进行识别。如对“狗”该类别下细粒度的子类进行分类,即将“哈士奇”和“爱斯基摩犬”等不同犬类图像加以区分。。
小样本学习:N-way K-shot是典型的小样本学习问题,传统定义中,N-way K-shot的含义表示有N个类别,每个类别包含K个样本;则每个任务的支持集表示为(xi,yi)分别表示第i个样本和它对应的标注;其对应的查询集表示为则由此可以理解,小样本学习是利用支持集中的少量样本学习分类器参数,使其能在查询集上获得最佳性能的方法。
梯度优化:假设支持数据集待估计参数θ,损失函数/>则传统的梯度更新方法为:/>其中,θ′表示更新后的参数,α表示学习率,/>表示损失函数对参数θ的梯度。
现有技术中有将元学习与梯度优化相结合,得到基于优化的元学习方法如下:
在元学习框架中,根据任务分布对任务进行采样,会生成一系列任务序列,元学习的核心思想是在元训练阶段的训练任务中找到一个通用的元学习器。对于任务/>参数θ有内外循环交替更新。
在内循环中,用支持集中样本数据优化参数为:
一般内循环会遍历/>中所有任务,其中α为学习率,t为迭代次数。
在外循环中,用查询集中的数据优化参数为:
其中,β为和α不同的学习率。
上述基于元学习的梯度优化中,没有充分考虑任务之间的关联性,仅从单独一个任务具备的支持集和查询集之间的参数进行优化。而细粒度图像分类更关注于图像细节的差异,现有技术中基于元学习的梯度优化由于没有充分考虑任务之间的关联性,在应用到细粒度图像分类时很难准确把握到图像细节之间的差异,从而使得细粒度图像的分类欠缺准确性。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷(不足),提供一种基于情景记忆的图像分类模型优化方法和系统,利用情景记忆对图像分类模型进行优化,使模型的预测效果更为精准。
本发明采取的技术方案是:
第一方面,提供一种基于情景记忆的图像分类模型优化方法,用于对图像分类模型参数进行优化,包括:
构建若干个任务,每个任务包括一个支持集,每个支持集包括若干图像样本;
将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;
根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;
根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;
将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化。
由于现有技术中基于元学习的梯度优化由于没有考虑任务之间的关联性,在应用到细粒度图像分类时很难准确把握到图像细节之间的差异,本发明引入了情景记忆对图像分类模型进行优化,在根据当前任务的查询集进行参数优化的同时,还在存储数据中查找与当前任务相似情景下产生的梯度值,就是基于情景记忆的梯度值,将当前任务的梯度值和与当前任务相似情景下产生的梯度值进行融合,对梯度值进行更新,可以得到一个更好的梯度值用于细粒度图像分类模型,在进行图像分类时充分考虑到了任务之间的关联性,使分类结果更为准确。
进一步的,所述将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征,具体包括:
所述支持集表示为:其中,N表示该支持集有N个类别,K表示每个类别包含K个图像样本,n表示第n个任务,xi表示支持集内的第i个图像样本,yi为该图像样本的图像分类标注;
构建编码器,使用编码器将支持集Sn内每一个图像样本xi转换为特征表示ei,则该支持集特征为
支持集作为小样本学习下用于训练的样本集,其包含模型的输入和输出,本发明中的图像分类模型输入为图像样本xi,输出为图像样本对应的图像分类标注yi,所述分类标注为通过数学量化的用于表达标注信息的一个可量化值。同时,小样本学习的任务还包括查询集,查询集用于对训练完毕的模型进行测试。本发明的编码器用于将图像样本转换为特征表示,可以预先构建好,用于后续的计算。
进一步的,所述根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储,具体包括:
构建外部记忆存储器;
将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中。
本发明的外部记忆存储器用于保留过去任务的关键字和梯度值历史,即为保留情景记忆的主要部分。
进一步的,所述将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中,具体包括:
所述外部记忆存储器表示为:
其中,NM为外部记忆存储器的存储容量,mn为外部记忆存储器中存储第n个任务的关键字和梯度值的存储单元,存储单元表示为:mn=[Kn,Vn];
其中,Kn表示第n个任务的关键字,采用Transformer结构获得当前任务的关键字,具体为:Kn=Transformer(clsn,e1,…,ei,…eN)[0];
其中,clsn表示在Transformer结构中和第n个任务相关联的token,其初始值为随机取值,ei为支持集Sn中第i个图像样本的特征,N表示该支持集有N个类别,将e1,…,ei,…eN输入到Transformer结构中,将第0个输出,即clsn对应位置的输出,作为该任务的关键字;;
Vn表示为向量
其中,为第n个任务对图像分类模型第l层参数的梯度值。
外部记忆存储器中存储了先前任务的关键字和对图像分类模型每一层参数的梯度值。
进一步的,还包括:构建外部记忆存储控制器,用于管理外部记忆存储器,所述外部记忆存储控制器具体用于:
当外部记忆存储器的存储容量未满时,将当前任务的梯度值gn作为Vn,存储至外部记忆存储器中,当前任务对图像分类模型第l层参数的梯度值计算公式为:
其中,θl表示图像分类模型第l层参数,表示第n个任务中第i个图像样本的图像分类标注真实结果,/>表示第n个任务中第i个图像经过图像分类模型预测得到的图像分类标注预测结果,/>表示预测结果和真实结果之间差异的交叉熵损失函数,/>表示对交叉熵损失函数求梯度值,/>表示对参数θl求梯度值;
当外部记忆存储器的内存已满时,外部记忆存储控制器Controller选择一个要进行替换的存储单元将gn替代/>生成新的存储单元Mc,表示为:
由于每次任务均需在外部记忆存储器中存储其关键字和梯度值,为了避免外部记忆存储器的存储空间过载,构建一种外部记忆存储控制器Controller,用于管理外部记忆存储器中内容。
更具体的,所述外部记忆存储控制器选择一个要进行替换的存储单元,具体包括:外部记忆存储控制器跟踪外部记忆存储器所有存储单元,将最先进入外部记忆存储器的存储单元放在队列最前,当需要替换存储单元时,选择队列最前的存储单元进行替换。
本发明的外部记忆存储控制器在进行替换存储单元选择时,可以根据FIFO原则进行选择,也就是先存储的存储单元先进行替换。
进一步的,所述根据关键字在外部记忆存储器中查找与当前任务相似情景下产生的梯度值,具体包括:计算当前任务的关键字和外部记忆存储器内存储的所有关键字之间的余弦距离,选择余弦距离最小的关键字对应的梯度值作为与当前任务相似情景下产生的梯度值。
本发明根据关键字相似性选择余弦距离最小的关键字,其对应的梯度值即为与当前任务相似情景下产生的梯度值。
进一步的,所述将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化,具体包括:
其中,α为学习率,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值,Aggr表示将当前任务的梯度值与在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值进行融合的聚合函数,θt表示优化前的图像分类模型参数,θt+1表示优化后的图像分类模型参数。
本发明将当前任务的梯度值和根据情景记忆得到的梯度值进行融合,重新计算新的梯度值为使用新的梯度值对图像分类模型参数进行优化,使本发明充分考虑到了任务之间的关联性,将情景记忆融合进细粒度图像分类,有效增加了图像分类模型的准确性。
更具体的,所述聚合函数为平均操作Mean,或求和操作Sum,或基于Transformer的融合,具体表示为:
其中,clsg是在StructTransformer结构中令牌的梯度,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值集合,/>为梯度值集合中元素的个数,Vn为向量/> 为第n个任务对图像分类模型第l层参数的梯度值,/>为第n任务在外部记忆存储器中查找到的与当前任务相似情景下产生的第/>个梯度值。
本发明可以使用平均操作Mean,或求和操作Sum,或基于Transformer的融合三种方法对当前任务的梯度值和根据情景记忆得到的梯度值进行融合。
第二方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的基于情景记忆的图像分类模型优化方法。
第三方面,提供一种基于情景记忆的图像分类模型优化系统,用于对图像分类模型参数进行优化,包括:
任务模块,用于构建若干个任务,每个任务包括一个支持集,每个支持集包括若干图像样本;
编码器模块,将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;
外部记忆存储器模块,根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;
外部记忆存储控制器模块,用于根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;
情景记忆模块,用于将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化。
本发明可以在存储数据中保留过去任务的关键字和梯度值历史,以增强记忆的方式实现小样本学习下的细粒度图像分类。通过学习保留和回忆过去训练任务的学习过程,在小样本学习提供的有限信息量梯度值的情况下,也会朝着正确的方向推动参数更新。同时,本发明可以作为一个简单的即插即用的优化器,具有通用性和灵活性,可以无缝嵌入现有的细粒度图像分类模型中,对其进行优化。
与现有技术相比,本发明的有益效果为:
(1)本发明引入了情景记忆对图像分类模型进行优化,在根据当前任务的查询集进行参数优化的同时,还在存储数据中查找与当前任务相似情景下产生的梯度值,将当前任务的梯度值和与当前任务相似情景下产生的梯度值进行融合,对梯度值进行更新,在进行图像分类时充分考虑到了任务之间的关联性,使分类结果更为准确;
(2)本发明通过学习保留和回忆过去训练任务的学习过程,在小样本学习提供的有限信息量梯度值的情况下,也会朝着正确的方向推动参数更新;
(3)本发明的系统或计算机可读存储介质可以作为一个简单的即插即用的优化器,具有通用性和灵活性,可以无缝嵌入现有的细粒度图像分类模型中,对其进行优化。
附图说明
图1为本发明实施例1的方法流程图。
图2为本发明实施例1是否使用本发明对图像分类模型进行优化的性能对比图。
图3为本发明实施例3的系统结构图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
如图1所示,本实施例提供一种基于情景记忆的图像分类模型优化方法,用于对图像分类模型参数进行优化,包括:
S1、构建若干个任务,每个任务包括一个支持集,每个支持集包括若干图像样本;
S2、将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;
S3、根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;
S4、根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;
S5、将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化。
传统的梯度优化方法为:其中,θ′表示更新后的参数,θ表示待估计参数,α表示学习率,/>表示损失函数对参数θ的梯度,/>表示支持集。在进行优化的过程中,随着支持集的输入,损失函数不断更新,得到一个局部最优解的参数θ′,从而更新模型的参数,最终使模型收敛。但传统的梯度优化方法没有考虑到任务之间的关联性,在应用到细粒度图像分类模型时很难准确把握到图像细节之间的差异。
本实施例引入了情景记忆对图像分类模型进行优化,在根据当前任务的查询集进行参数优化的同时,还在存储数据中查找与当前任务相似情景下产生的梯度值,也就是基于情景记忆的梯度值,将当前任务的梯度值和与当前任务相似情景下产生的梯度值进行融合,对梯度值进行更新,可以得到一个更好的梯度值用于细粒度图像分类模型,在进行图像分类时充分考虑到了任务之间的关联性,使分类结果更为准确。
本实施例步骤S1所述支持集表示为:其中,N表示该支持集有N个类别,K表示每个类别包含K个图像样本,n表示第n个任务,xi表示支持集内的第i个图像样本,yi为该图像样本的图像分类标注。
支持集作为小样本学习下用于训练的样本集,其包含模型的输入和输出,本发明中的图像分类模型输入为图像样本xi,输出为图像样本对应的图像分类标注yi,所述分类标注为通过数学量化的用于表达标注信息的一个可量化值。
在具体实施过程中,小样本学习中的每个任务还包括一个查询集,所述查询集用于对训练完成的模型进行测试。
本实施例步骤S2具体包括:构建编码器,使用编码器将支持集Sn内每一个图像样本xi转换为特征表示ei,则该支持集特征为
在具体实施过程中,选择卷积神经网络将支持集中的每个图像样本xi转换为特征表示ei
本实施例S3具体包括:构建外部记忆存储器;其中所述外部记忆存储器可以预先构建,并用于后续的优化使用;
将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中,具体包括:
所述外部记忆存储器表示为:
其中,NM为外部记忆存储器的存储容量,Mn为外部记忆存储器中存储第n个任务的关键字和梯度值的存储单元,存储单元表示为:Mn=[Kn,Vn];
其中,Kn表示第n个任务的关键字,采用Transformer结构获得当前任务的关键字,具体为:Kn=Transformer(clsn,e1,…,ei,…eN)[0];
其中,clsn表示在Transformer结构中和第n个任务相关联的token,其初始值为随机取值,ei为支持集Sn中第i个图像样本的特征,N表示该支持集有N个类别,将e1,…,ei,…eN输入到Transformer结构中,将第0个输出,即clsn对应位置的输出,作为该任务的关键字;
Vn表示为向量
其中,为第n个任务对图像分类模型第l层参数的梯度值。
本实施例还包括:还包括:构建外部记忆存储控制器,用于管理外部记忆存储器,所述外部记忆存储控制器具体用于:
当外部记忆存储器的存储容量未满时,将当前任务的梯度值gn作为Vn,存储至外部记忆存储器中,当前任务对图像分类模型第l层参数的梯度值计算公式为:
其中,θl表示图像分类模型第l层参数,表示第n个任务中第i个图像样本的图像分类标注真实结果,/>表示第n个任务中第i个图像经过图像分类模型预测得到的图像分类标注预测结果,/>表示预测结果和真实结果之间差异的交叉熵损失函数,/>表示对交叉熵损失函数求梯度值,/>表示对参数θl求梯度值;
当外部记忆存储器的内存已满时,外部记忆存储控制器Controller选择一个要进行替换的存储单元将gn替代/>生成新的存储单元Mc,表示为:
在具体实施过程中,所述外部记忆存储控制器选择一个要进行替换的存储单元,具体包括:外部记忆存储控制器跟踪外部记忆存储器所有存储单元,将最先进入外部记忆存储器的存储单元放在队列最前,当需要替换存储单元时,选择队列最前的存储单元进行替换。
本实施例步骤S4具体包括:计算当前任务的关键字和外部记忆存储器内存储的所有关键字之间的余弦距离,选择余弦距离最小的关键字对应的梯度值作为与当前任务相似情景下产生的梯度值。
本实施例步骤S5具体包括:
其中,α为学习率,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值,Aggr表示将当前任务的梯度值与在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值进行融合的聚合函数,θt表示优化前的图像分类模型参数,θt+1表示优化后的图像分类模型参数。
在具体实施过程中,所述聚合函数为平均操作Mean,或求和操作Sum,或基于Transformer的融合,具体表示为:
其中,clsg是在StructTransformer结构中令牌的梯度,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值集合,/>为梯度值集合中元素的个数,Vn为向量/> 为第n个任务对图像分类模型第l层参数的梯度值,/>为第n任务在外部记忆存储器中查找到的与当前任务相似情景下产生的第个梯度值。
本实施例将当前任务的梯度值和根据情景记忆得到的梯度值进行融合,重新计算新的梯度值为使用新的梯度值对图像分类模型参数进行优化,使本发明充分考虑到了任务之间的关联性,将情景记忆融合进细粒度图像分类模型中,有效增加了图像分类模型的准确性。
在实际使用时,需要优化图像分类模型,通常的优化方法分为以下两个步骤:
在内循环中,用支持集中的图像样本优化参数为:
一般内循环会遍历/>中所有任务,其中α为学习率,t为迭代次数。
在外循环中,用查询集中的数据优化参数为:
其中β为和α不同的学习率。
而本实施例改进了内循环,引入了情景记忆进行优化,重新计算梯度信息为Aggr,使内循环用支持集中的图像样本优化参数变为:
然后按照通常的内循环外循环优化参数,得到真正优化后的图像分类模型,进行细粒度图像分类识别。
为了进一步体现本实施例对图像分类模型进行优化后的优势,将本实施例提供的优化方法应用于MAML模型(Finn et al.,2017)、Meta-SGD模型(Li&Malik,2017b)和ANIL模型(Raghu et al.,2019),这几组实验在Bird(Wah et al.,2011)、Texture(Cimpoi etal.,2014)、Aircraft(Maji et al.,2013)和Fungi(FUNGI,2018)四个细粒度图像分类数据库上进行,根据实验结果进行性能对比。实验结果如图2所示,其中w/o表示没有加入本实施例提供的优化方法,w/表示加入了本实施例提供的优化方法,5-way 1-shot表示每一个支持集中有5个类别,每个类别包含1个图像样本,而5-way 5-shot表示每一个支持集中有5个类别,每个类别包含5个图像样本。表中数字表示准确率,具体为多次实验的均值和多次实验的方差,可以看出加入了本实施例提供的优化方法后,其准确率明显高于未加入本实施例提供的优化方法的常规模型。
实施例2
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述的基于情景记忆的图像分类模型优化方法。
实施例3
如图3所示,本实施例提供一种基于情景记忆的图像分类模型优化系统,用于对图像分类模型参数进行优化,包括:
任务模块101,用于构建若干个任务,每个任务包括一个支持集,每个支持集包括若干图像样本;所述支持集表示为:其中,N表示该支持集有N个类别,K表示每个类别包含K个图像样本,n表示第n个任务,xi表示支持集内的第i个图像样本,yi为该图像样本的图像分类标注;
编码器模块102,用于将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;使用编码器将支持集Sn内每一个图像样本xi转换为特征表示ei,则该支持集特征为
外部记忆存储器模块103,用于根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;
将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中,具体包括:所述外部记忆存储器表示为:
其中,NM为外部记忆存储器的存储容量,Mn为外部记忆存储器中存储第n个任务的关键字和梯度值的存储单元,存储单元表示为:Mn=[Kn,Vn];
其中,Kn表示第n个任务的关键字,采用Transformer结构获得当前任务的关键字,具体为:Kn=Transformer(clsn,e1,…,ei,…eN)[0];
其中,clsn表示在Transformer结构中和第n个任务相关联的token,其初始值为随机取值,ei为支持集Sn中第i个图像样本的特征,N表示该支持集有N个类别,将e1,…,ei,…eN输入到Transformer结构中,将第0个输出,即clsn对应位置的输出,作为该任务的关键字;
Vn表示为向量
其中,为第n个任务对图像分类模型第l层参数的梯度值。
外部记忆存储控制器模块104,用于管理外部记忆存储器,所述外部记忆存储控制器具体用于:当外部记忆存储器的存储容量未满时,将当前任务的梯度值gn作为Vn,存储至外部记忆存储器中,当前任务对图像分类模型第l层参数的梯度值计算公式为:
其中,θl表示图像分类模型第l层参数,表示第n个任务中第i个图像样本的图像分类标注真实结果/>表示第n个任务中第i个图像经过图像分类模型预测得到的图像分类标注预测结果,/>表示预测结果和真实结果之间差异的交叉熵损失函数,/>表示对交叉熵损失函数求梯度值,/>表示对参数θl求梯度值;
当外部记忆存储器的内存已满时,外部记忆存储控制器Controller选择一个要进行替换的存储单元将gn替代/>生成新的存储单元Mc,表示为:/>
所述外部记忆存储控制器选择一个要进行替换的存储单元,具体包括:外部记忆存储控制器跟踪外部记忆存储器所有存储单元,将最先进入外部记忆存储器的存储单元放在队列最前,当需要替换存储单元时,选择队列最前的存储单元进行替换。
还用于根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;计算当前任务的关键字和外部记忆存储器内存储的所有关键字之间的余弦距离,选择余弦距离最小的关键字对应的梯度值作为与当前任务相似情景下产生的梯度值。
情景记忆模块105,用于将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化;
具体包括:
其中,α为学习率,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值,Aggr表示将当前任务的梯度值与在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值进行融合的聚合函数,θt表示优化前的图像分类模型参数,θt+1表示优化后的图像分类模型参数。
所述聚合函数为平均操作Mean,或求和操作Sum,或基于Transformer的融合,具体表示为:
其中,clsg是在StructTransformer结构中令牌的梯度,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值集合,/>为梯度值集合中元素的个数,Vn为向量/> 为第n个任务对图像分类模型第l层参数的梯度值,/>为第n任务在外部记忆存储器中查找到的与当前任务相似情景下产生的第/>个梯度值。
本发明可以在存储数据中保留过去任务的关键字和梯度值历史,以增强记忆的方式实现小样本学习下的细粒度图像分类。通过学习保留和回忆过去训练任务的学习过程,在小样本学习提供的有限信息量梯度值的情况下,也会朝着正确的方向推动参数更新。同时,本发明可以作为一个简单的即插即用的优化器,具有通用性和灵活性,可以无缝嵌入现有的细粒度图像分类模型中,对其进行优化。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种基于情景记忆的图像分类模型优化方法,其特征在于,用于对图像分类模型参数进行优化,包括:
构建若干个任务,每个任务包括一个支持集,每个支持集包括若干图像样本;
将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;
根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;
根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;
将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化;
所述根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储,具体包括:
构建外部记忆存储器;
将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中;
所述将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中,具体包括:
所述外部记忆存储器表示为:
其中,为外部记忆存储器的存储容量,/>为外部记忆存储器中存储第n个任务的关键字和梯度值的存储单元,存储单元表示为:/>
其中,表示第n个任务的关键字,采用/>结构获得当前任务的关键字,具体为:/>
其中,表示在/>结构中和第n个任务相关联的token,其初始值为随机取值,e i为支持集S n中第i个图像样本的特征,N表示该支持集有N个类别,将/>输入到结构中,将第0个输出,/>对应位置的输出,作为该任务的关键字;
表示为向量/>
其中,为第n个任务对图像分类模型第l层参数的梯度值;
还包括:构建外部记忆存储控制器,用于管理外部记忆存储器,所述外部记忆存储控制器具体用于:
当外部记忆存储器的存储容量未满时,将当前任务的梯度值作为/>,存储至外部记忆存储器中,当前任务对图像分类模型第l层参数的梯度值计算公式为:
其中,表示图像分类模型第l层参数,/>表示第n个任务中第i个图像样本的图像分类标注真实结果,/>表示第n个任务中第i个图像经过图像分类模型预测得到的图像分类标注预测结果,/>表示预测结果和真实结果之间差异的交叉熵损失函数,/>表示对交叉熵损失函数求梯度值,/>表示对参数/>求梯度值,K表示每个类别包含K个图像样本;
当外部记忆存储器的内存已满时,外部记忆存储控制器选择一个要进行替换的存储单元/>,将/>替代/>生成新的存储单元/>,表示为:/>
所述将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化,具体包括:
其中,为学习率,/>为当前任务的梯度值,/>为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值,/>表示将当前任务的梯度值与在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值进行融合的聚合函数,/>表示优化前的图像分类模型参数,/>表示优化后的图像分类模型参数。
2.根据权利要求1所述的一种基于情景记忆的图像分类模型优化方法,其特征在于,所述将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征,具体包括:
所述支持集表示为:;其中,N表示该支持集有N个类别,K表示每个类别包含K个图像样本,n表示第n个任务,x i表示支持集内的第i个图像样本,y i为该图像样本的图像分类标注;
构建编码器,使用编码器将支持集S n内每一个图像样本x i转换为特征表示e i,则该支持集特征为
3.根据权利要求1所述的一种基于情景记忆的图像分类模型优化方法,其特征在于,所述外部记忆存储控制器选择一个要进行替换的存储单元,具体包括:外部记忆存储控制器跟踪外部记忆存储器所有存储单元,将最先进入外部记忆存储器的存储单元放在队列最前,当需要替换存储单元时,选择队列最前的存储单元进行替换;
或,所述当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值,具体包括:计算当前任务的关键字和外部记忆存储器内存储的所有关键字之间的余弦距离,选择余弦距离最小的关键字对应的梯度值作为与当前任务相似情景下产生的梯度值。
4.根据权利要求1所述的一种基于情景记忆的图像分类模型优化方法,其特征在于,所述聚合函数为平均操作,或求和操作/>,或基于Transformer的融合,具体表示为:
其中是在/>结构中令牌的梯度,/>为当前任务的梯度值,/>为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值集合,/>为梯度值集合中元素的个数,/>为向量/>,/>为第n个任务对图像分类模型第l层参数的梯度值,/>为第n任务在外部记忆存储器中查找到的与当前任务相似情景下产生的第/>个梯度值。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~4任一项所述的基于情景记忆的图像分类模型优化方法。
6.一种基于情景记忆的图像分类模型优化系统,其特征在于,用于对图像分类模型参数进行优化,包括:
任务模块,用于构建若干个任务,每个任务包括一个支持集,每个支持集包括若干图像样本;
编码器模块,将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;
外部记忆存储器模块,根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;
外部记忆存储控制器模块,用于根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;
情景记忆模块,用于将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化;
所述根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储,具体包括:
构建外部记忆存储器;
将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中;
所述将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中,具体包括:
所述外部记忆存储器表示为:
其中,为外部记忆存储器的存储容量,/>为外部记忆存储器中存储第n个任务的关键字和梯度值的存储单元,存储单元表示为:/>
其中,表示第n个任务的关键字,采用/>结构获得当前任务的关键字,具体为:/>
其中,表示在/>结构中和第n个任务相关联的token,其初始值为随机取值,e i为支持集S n中第i个图像样本的特征,N表示该支持集有N个类别,将/>输入到结构中,将第0个输出,/>对应位置的输出,作为该任务的关键字;
表示为向量/>
其中,为第n个任务对图像分类模型第l层参数的梯度值;
还包括:构建外部记忆存储控制器,用于管理外部记忆存储器,所述外部记忆存储控制器具体用于:
当外部记忆存储器的存储容量未满时,将当前任务的梯度值作为/>,存储至外部记忆存储器中,当前任务对图像分类模型第l层参数的梯度值计算公式为:
其中,表示图像分类模型第l层参数,/>表示第n个任务中第i个图像样本的图像分类标注真实结果,/>表示第n个任务中第i个图像经过图像分类模型预测得到的图像分类标注预测结果,/>表示预测结果和真实结果之间差异的交叉熵损失函数,/>表示对交叉熵损失函数求梯度值,/>表示对参数/>求梯度值,K表示每个类别包含K个图像样本;
当外部记忆存储器的内存已满时,外部记忆存储控制器选择一个要进行替换的存储单元/>,将/>替代/>生成新的存储单元/>,表示为:/>
所述将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化,具体包括:
其中,为学习率,/>为当前任务的梯度值,/>为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值,/>表示将当前任务的梯度值与在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值进行融合的聚合函数,/>表示优化前的图像分类模型参数,/>表示优化后的图像分类模型参数。
CN202310576146.XA 2023-05-19 2023-05-19 一种基于情景记忆的图像分类模型优化方法和系统 Active CN116563638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310576146.XA CN116563638B (zh) 2023-05-19 2023-05-19 一种基于情景记忆的图像分类模型优化方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310576146.XA CN116563638B (zh) 2023-05-19 2023-05-19 一种基于情景记忆的图像分类模型优化方法和系统

Publications (2)

Publication Number Publication Date
CN116563638A CN116563638A (zh) 2023-08-08
CN116563638B true CN116563638B (zh) 2023-12-05

Family

ID=87498011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310576146.XA Active CN116563638B (zh) 2023-05-19 2023-05-19 一种基于情景记忆的图像分类模型优化方法和系统

Country Status (1)

Country Link
CN (1) CN116563638B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274732B (zh) * 2023-09-18 2024-07-16 广东石油化工学院 一种基于情景记忆驱动构建优化扩散模型的方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413347A (zh) * 2013-07-05 2013-11-27 南京邮电大学 基于前景背景融合的单目图像深度图提取方法
CN104599275A (zh) * 2015-01-27 2015-05-06 浙江大学 基于概率图模型的非参数化的rgb-d场景理解方法
CN113657573A (zh) * 2021-06-30 2021-11-16 大连理工江苏研究院有限公司 一种情景记忆引导下基于元学习的机器人技能获取方法
CN114067155A (zh) * 2021-11-16 2022-02-18 湖南大学 基于元学习的图像分类方法、装置、产品及存储介质
CN114329124A (zh) * 2021-12-16 2022-04-12 南京理工大学 基于梯度重优化的半监督小样本分类方法
CN114419642A (zh) * 2021-12-14 2022-04-29 北京易道博识科技有限公司 一种文档图像中键值对信息的抽取方法、装置及系统
CN114444600A (zh) * 2022-01-28 2022-05-06 南通大学 基于记忆增强原型网络的小样本图像分类方法
CN115169560A (zh) * 2022-07-06 2022-10-11 天津大学 一种用于提升低资源常识推理性能的元强化学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11687619B2 (en) * 2020-10-02 2023-06-27 Robert Bosch Gmbh Method and system for an adversarial training using meta-learned initialization

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413347A (zh) * 2013-07-05 2013-11-27 南京邮电大学 基于前景背景融合的单目图像深度图提取方法
CN104599275A (zh) * 2015-01-27 2015-05-06 浙江大学 基于概率图模型的非参数化的rgb-d场景理解方法
CN113657573A (zh) * 2021-06-30 2021-11-16 大连理工江苏研究院有限公司 一种情景记忆引导下基于元学习的机器人技能获取方法
CN114067155A (zh) * 2021-11-16 2022-02-18 湖南大学 基于元学习的图像分类方法、装置、产品及存储介质
CN114419642A (zh) * 2021-12-14 2022-04-29 北京易道博识科技有限公司 一种文档图像中键值对信息的抽取方法、装置及系统
CN114329124A (zh) * 2021-12-16 2022-04-12 南京理工大学 基于梯度重优化的半监督小样本分类方法
CN114444600A (zh) * 2022-01-28 2022-05-06 南通大学 基于记忆增强原型网络的小样本图像分类方法
CN115169560A (zh) * 2022-07-06 2022-10-11 天津大学 一种用于提升低资源常识推理性能的元强化学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于情景记忆和元学习的机械臂运动技能获取;于洪华;《中国优秀硕士学位论文全文数据库 (信息科技辑)》(第1期);第I140-1017页 *

Also Published As

Publication number Publication date
CN116563638A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
Meng et al. Adavit: Adaptive vision transformers for efficient image recognition
Liu et al. Progressive neural architecture search
CN109299257B (zh) 一种基于lstm和知识图谱的英文期刊推荐方法
CN109063113A (zh) 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法
CN116563638B (zh) 一种基于情景记忆的图像分类模型优化方法和系统
Wu et al. AutoCTS+: Joint neural architecture and hyperparameter search for correlated time series forecasting
CN114186084B (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN111080551B (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
CN114357221B (zh) 一种基于图像分类的自监督主动学习方法
CN112380427B (zh) 基于迭代图注意力网络的用户兴趣预测方法及电子装置
Lu et al. Surrogate-assisted multiobjective neural architecture search for real-time semantic segmentation
CN115080587B (zh) 一种基于知识图谱的电子元器件替代方法、装置及介质
Chen et al. Extensible Cross-Modal Hashing.
Luo et al. Improving neural language models by segmenting, attending, and predicting the future
CN117421393B (zh) 一种用于专利的生成式检索方法及系统
CN113707213A (zh) 基于深度学习的蛋白质-配体结合位点预测方法
CN117171413B (zh) 用于数字藏品管理的数据处理系统及其方法
CN113051408A (zh) 一种基于信息增强的稀疏知识图谱推理方法
Liu et al. Focusformer: Focusing on what we need via architecture sampler
CN116974249A (zh) 柔性作业车间调度方法和柔性作业车间调度装置
CN114970882A (zh) 适于多场景多任务的模型预测方法及模型系统
CN113312523A (zh) 字典生成、搜索关键字推荐方法、装置和服务器
CN113239219A (zh) 一种基于多模态查询的图像检索方法、系统、介质及设备
CN117574309B (zh) 融合多标签对比学习和knn的层次文本分类方法
Zheng et al. Retrieval and Distill: A Temporal Data Shift Free Framework for Online Recommendation System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant