CN116563638A - 一种基于情景记忆的图像分类模型优化方法和系统 - Google Patents
一种基于情景记忆的图像分类模型优化方法和系统 Download PDFInfo
- Publication number
- CN116563638A CN116563638A CN202310576146.XA CN202310576146A CN116563638A CN 116563638 A CN116563638 A CN 116563638A CN 202310576146 A CN202310576146 A CN 202310576146A CN 116563638 A CN116563638 A CN 116563638A
- Authority
- CN
- China
- Prior art keywords
- current task
- gradient value
- external memory
- task
- image classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000005457 optimization Methods 0.000 title claims abstract description 44
- 238000003860 storage Methods 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000005055 memory storage Effects 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 36
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 3
- 241000233866 Fungi Species 0.000 description 2
- 230000006883 memory enhancing effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 description 1
- 241000282465 Canis Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012468 concentrated sample Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理领域,具体涉及一种基于情景记忆的图像分类模型优化方法和系统,用于对图像分类模型参数进行优化,包括:构建若干个任务,每个任务包括一个支持集;将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化。本发明利用情景记忆对图像分类模型进行优化,使模型的预测效果更为精准。
Description
技术领域
本发明涉及图像处理领域,更具体地,涉及一种基于情景记忆的图像分类模型优化方法和系统。
背景技术
细粒度图像分类:可对图像分类大类下的子类进行识别。如对“狗”该类别下细粒度的子类进行分类,即将“哈士奇”和“爱斯基摩犬”等不同犬类图像加以区分。。
小样本学习:N-way K-shot是典型的小样本学习问题,传统定义中,N-way K-shot的含义表示有N个类别,每个类别包含K个样本;则每个任务的支持集表示为(xi,yi)分别表示第i个样本和它对应的标注;其对应的查询集表示为则由此可以理解,小样本学习是利用支持集中的少量样本学习分类器参数,使其能在查询集上获得最佳性能的方法。
梯度优化:假设支持数据集待估计参数θ,损失函数/>则传统的梯度更新方法为:/>其中,θ′表示更新后的参数,α表示学习率,/>表示损失函数对参数θ的梯度。
现有技术中有将元学习与梯度优化相结合,得到基于优化的元学习方法如下:
在元学习框架中,根据任务分布对任务进行采样,会生成一系列任务序列,元学习的核心思想是在元训练阶段的训练任务中找到一个通用的元学习器。对于任务/>参数θ有内外循环交替更新。
在内循环中,用支持集中样本数据优化参数为:
一般内循环会遍历/>中所有任务,其中α为学习率,t为迭代次数。
在外循环中,用查询集中的数据优化参数为:
其中,β为和α不同的学习率。
上述基于元学习的梯度优化中,没有充分考虑任务之间的关联性,仅从单独一个任务具备的支持集和查询集之间的参数进行优化。而细粒度图像分类更关注于图像细节的差异,现有技术中基于元学习的梯度优化由于没有充分考虑任务之间的关联性,在应用到细粒度图像分类时很难准确把握到图像细节之间的差异,从而使得细粒度图像的分类欠缺准确性。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷(不足),提供一种基于情景记忆的图像分类模型优化方法和系统,利用情景记忆对图像分类模型进行优化,使模型的预测效果更为精准。
本发明采取的技术方案是:
第一方面,提供一种基于情景记忆的图像分类模型优化方法,用于对图像分类模型参数进行优化,包括:
构建若干个任务,每个任务包括一个支持集,每个支持集包括若干图像样本;
将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;
根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;
根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;
将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化。
由于现有技术中基于元学习的梯度优化由于没有考虑任务之间的关联性,在应用到细粒度图像分类时很难准确把握到图像细节之间的差异,本发明引入了情景记忆对图像分类模型进行优化,在根据当前任务的查询集进行参数优化的同时,还在存储数据中查找与当前任务相似情景下产生的梯度值,就是基于情景记忆的梯度值,将当前任务的梯度值和与当前任务相似情景下产生的梯度值进行融合,对梯度值进行更新,可以得到一个更好的梯度值用于细粒度图像分类模型,在进行图像分类时充分考虑到了任务之间的关联性,使分类结果更为准确。
进一步的,所述将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征,具体包括:
所述支持集表示为:其中,N表示该支持集有N个类别,K表示每个类别包含K个图像样本,n表示第n个任务,xi表示支持集内的第i个图像样本,yi为该图像样本的图像分类标注;
构建编码器,使用编码器将支持集Sn内每一个图像样本xi转换为特征表示ei,则该支持集特征为
支持集作为小样本学习下用于训练的样本集,其包含模型的输入和输出,本发明中的图像分类模型输入为图像样本xi,输出为图像样本对应的图像分类标注yi,所述分类标注为通过数学量化的用于表达标注信息的一个可量化值。同时,小样本学习的任务还包括查询集,查询集用于对训练完毕的模型进行测试。本发明的编码器用于将图像样本转换为特征表示,可以预先构建好,用于后续的计算。
进一步的,所述根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储,具体包括:
构建外部记忆存储器;
将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中。
本发明的外部记忆存储器用于保留过去任务的关键字和梯度值历史,即为保留情景记忆的主要部分。
进一步的,所述将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中,具体包括:
所述外部记忆存储器表示为:
其中,NM为外部记忆存储器的存储容量,mn为外部记忆存储器中存储第n个任务的关键字和梯度值的存储单元,存储单元表示为:mn=[Kn,Vn];
其中,Kn表示第n个任务的关键字,采用Transformer结构获得当前任务的关键字,具体为:Kn=Transformer(clsn,e1,…,ei,…eN)[0];
其中,clsn表示在Transformer结构中和第n个任务相关联的token,其初始值为随机取值,ei为支持集Sn中第i个图像样本的特征,N表示该支持集有N个类别,将e1,…,ei,…eN输入到Transformer结构中,将第0个输出,即clsn对应位置的输出,作为该任务的关键字;;
Vn表示为向量
其中,为第n个任务对图像分类模型第l层参数的梯度值。
外部记忆存储器中存储了先前任务的关键字和对图像分类模型每一层参数的梯度值。
进一步的,还包括:构建外部记忆存储控制器,用于管理外部记忆存储器,所述外部记忆存储控制器具体用于:
当外部记忆存储器的存储容量未满时,将当前任务的梯度值gn作为Vn,存储至外部记忆存储器中,当前任务对图像分类模型第l层参数的梯度值计算公式为:
其中,θl表示图像分类模型第l层参数,表示第n个任务中第i个图像样本的图像分类标注真实结果,/>表示第n个任务中第i个图像经过图像分类模型预测得到的图像分类标注预测结果,/>表示预测结果和真实结果之间差异的交叉熵损失函数,/>表示对交叉熵损失函数求梯度值,/>表示对参数θl求梯度值;
当外部记忆存储器的内存已满时,外部记忆存储控制器Controller选择一个要进行替换的存储单元将gn替代/>生成新的存储单元Mc,表示为:
由于每次任务均需在外部记忆存储器中存储其关键字和梯度值,为了避免外部记忆存储器的存储空间过载,构建一种外部记忆存储控制器Controller,用于管理外部记忆存储器中内容。
更具体的,所述外部记忆存储控制器选择一个要进行替换的存储单元,具体包括:外部记忆存储控制器跟踪外部记忆存储器所有存储单元,将最先进入外部记忆存储器的存储单元放在队列最前,当需要替换存储单元时,选择队列最前的存储单元进行替换。
本发明的外部记忆存储控制器在进行替换存储单元选择时,可以根据FIFO原则进行选择,也就是先存储的存储单元先进行替换。
进一步的,所述根据关键字在外部记忆存储器中查找与当前任务相似情景下产生的梯度值,具体包括:计算当前任务的关键字和外部记忆存储器内存储的所有关键字之间的余弦距离,选择余弦距离最小的关键字对应的梯度值作为与当前任务相似情景下产生的梯度值。
本发明根据关键字相似性选择余弦距离最小的关键字,其对应的梯度值即为与当前任务相似情景下产生的梯度值。
进一步的,所述将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化,具体包括:
其中,α为学习率,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值,Aggr表示将当前任务的梯度值与在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值进行融合的聚合函数,θt表示优化前的图像分类模型参数,θt+1表示优化后的图像分类模型参数。
本发明将当前任务的梯度值和根据情景记忆得到的梯度值进行融合,重新计算新的梯度值为使用新的梯度值对图像分类模型参数进行优化,使本发明充分考虑到了任务之间的关联性,将情景记忆融合进细粒度图像分类,有效增加了图像分类模型的准确性。
更具体的,所述聚合函数为平均操作Mean,或求和操作Sum,或基于Transformer的融合,具体表示为:
其中,clsg是在StructTransformer结构中令牌的梯度,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值集合,/>为梯度值集合中元素的个数,Vn为向量/> 为第n个任务对图像分类模型第l层参数的梯度值,/>为第n任务在外部记忆存储器中查找到的与当前任务相似情景下产生的第/>个梯度值。
本发明可以使用平均操作Mean,或求和操作Sum,或基于Transformer的融合三种方法对当前任务的梯度值和根据情景记忆得到的梯度值进行融合。
第二方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的基于情景记忆的图像分类模型优化方法。
第三方面,提供一种基于情景记忆的图像分类模型优化系统,用于对图像分类模型参数进行优化,包括:
任务模块,用于构建若干个任务,每个任务包括一个支持集,每个支持集包括若干图像样本;
编码器模块,将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;
外部记忆存储器模块,根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;
外部记忆存储控制器模块,用于根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;
情景记忆模块,用于将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化。
本发明可以在存储数据中保留过去任务的关键字和梯度值历史,以增强记忆的方式实现小样本学习下的细粒度图像分类。通过学习保留和回忆过去训练任务的学习过程,在小样本学习提供的有限信息量梯度值的情况下,也会朝着正确的方向推动参数更新。同时,本发明可以作为一个简单的即插即用的优化器,具有通用性和灵活性,可以无缝嵌入现有的细粒度图像分类模型中,对其进行优化。
与现有技术相比,本发明的有益效果为:
(1)本发明引入了情景记忆对图像分类模型进行优化,在根据当前任务的查询集进行参数优化的同时,还在存储数据中查找与当前任务相似情景下产生的梯度值,将当前任务的梯度值和与当前任务相似情景下产生的梯度值进行融合,对梯度值进行更新,在进行图像分类时充分考虑到了任务之间的关联性,使分类结果更为准确;
(2)本发明通过学习保留和回忆过去训练任务的学习过程,在小样本学习提供的有限信息量梯度值的情况下,也会朝着正确的方向推动参数更新;
(3)本发明的系统或计算机可读存储介质可以作为一个简单的即插即用的优化器,具有通用性和灵活性,可以无缝嵌入现有的细粒度图像分类模型中,对其进行优化。
附图说明
图1为本发明实施例1的方法流程图。
图2为本发明实施例1是否使用本发明对图像分类模型进行优化的性能对比图。
图3为本发明实施例3的系统结构图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
如图1所示,本实施例提供一种基于情景记忆的图像分类模型优化方法,用于对图像分类模型参数进行优化,包括:
S1、构建若干个任务,每个任务包括一个支持集,每个支持集包括若干图像样本;
S2、将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;
S3、根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;
S4、根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;
S5、将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化。
传统的梯度优化方法为:其中,θ′表示更新后的参数,θ表示待估计参数,α表示学习率,/>表示损失函数对参数θ的梯度,/>表示支持集。在进行优化的过程中,随着支持集的输入,损失函数不断更新,得到一个局部最优解的参数θ′,从而更新模型的参数,最终使模型收敛。但传统的梯度优化方法没有考虑到任务之间的关联性,在应用到细粒度图像分类模型时很难准确把握到图像细节之间的差异。
本实施例引入了情景记忆对图像分类模型进行优化,在根据当前任务的查询集进行参数优化的同时,还在存储数据中查找与当前任务相似情景下产生的梯度值,也就是基于情景记忆的梯度值,将当前任务的梯度值和与当前任务相似情景下产生的梯度值进行融合,对梯度值进行更新,可以得到一个更好的梯度值用于细粒度图像分类模型,在进行图像分类时充分考虑到了任务之间的关联性,使分类结果更为准确。
本实施例步骤S1所述支持集表示为:其中,N表示该支持集有N个类别,K表示每个类别包含K个图像样本,n表示第n个任务,xi表示支持集内的第i个图像样本,yi为该图像样本的图像分类标注。
支持集作为小样本学习下用于训练的样本集,其包含模型的输入和输出,本发明中的图像分类模型输入为图像样本xi,输出为图像样本对应的图像分类标注yi,所述分类标注为通过数学量化的用于表达标注信息的一个可量化值。
在具体实施过程中,小样本学习中的每个任务还包括一个查询集,所述查询集用于对训练完成的模型进行测试。
本实施例步骤S2具体包括:构建编码器,使用编码器将支持集Sn内每一个图像样本xi转换为特征表示ei,则该支持集特征为
在具体实施过程中,选择卷积神经网络将支持集中的每个图像样本xi转换为特征表示ei。
本实施例S3具体包括:构建外部记忆存储器;其中所述外部记忆存储器可以预先构建,并用于后续的优化使用;
将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中,具体包括:
所述外部记忆存储器表示为:
其中,NM为外部记忆存储器的存储容量,Mn为外部记忆存储器中存储第n个任务的关键字和梯度值的存储单元,存储单元表示为:Mn=[Kn,Vn];
其中,Kn表示第n个任务的关键字,采用Transformer结构获得当前任务的关键字,具体为:Kn=Transformer(clsn,e1,…,ei,…eN)[0];
其中,clsn表示在Transformer结构中和第n个任务相关联的token,其初始值为随机取值,ei为支持集Sn中第i个图像样本的特征,N表示该支持集有N个类别,将e1,…,ei,…eN输入到Transformer结构中,将第0个输出,即clsn对应位置的输出,作为该任务的关键字;
Vn表示为向量
其中,为第n个任务对图像分类模型第l层参数的梯度值。
本实施例还包括:还包括:构建外部记忆存储控制器,用于管理外部记忆存储器,所述外部记忆存储控制器具体用于:
当外部记忆存储器的存储容量未满时,将当前任务的梯度值gn作为Vn,存储至外部记忆存储器中,当前任务对图像分类模型第l层参数的梯度值计算公式为:
其中,θl表示图像分类模型第l层参数,表示第n个任务中第i个图像样本的图像分类标注真实结果,/>表示第n个任务中第i个图像经过图像分类模型预测得到的图像分类标注预测结果,/>表示预测结果和真实结果之间差异的交叉熵损失函数,/>表示对交叉熵损失函数求梯度值,/>表示对参数θl求梯度值;
当外部记忆存储器的内存已满时,外部记忆存储控制器Controller选择一个要进行替换的存储单元将gn替代/>生成新的存储单元Mc,表示为:
在具体实施过程中,所述外部记忆存储控制器选择一个要进行替换的存储单元,具体包括:外部记忆存储控制器跟踪外部记忆存储器所有存储单元,将最先进入外部记忆存储器的存储单元放在队列最前,当需要替换存储单元时,选择队列最前的存储单元进行替换。
本实施例步骤S4具体包括:计算当前任务的关键字和外部记忆存储器内存储的所有关键字之间的余弦距离,选择余弦距离最小的关键字对应的梯度值作为与当前任务相似情景下产生的梯度值。
本实施例步骤S5具体包括:
其中,α为学习率,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值,Aggr表示将当前任务的梯度值与在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值进行融合的聚合函数,θt表示优化前的图像分类模型参数,θt+1表示优化后的图像分类模型参数。
在具体实施过程中,所述聚合函数为平均操作Mean,或求和操作Sum,或基于Transformer的融合,具体表示为:
其中,clsg是在StructTransformer结构中令牌的梯度,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值集合,/>为梯度值集合中元素的个数,Vn为向量/> 为第n个任务对图像分类模型第l层参数的梯度值,/>为第n任务在外部记忆存储器中查找到的与当前任务相似情景下产生的第个梯度值。
本实施例将当前任务的梯度值和根据情景记忆得到的梯度值进行融合,重新计算新的梯度值为使用新的梯度值对图像分类模型参数进行优化,使本发明充分考虑到了任务之间的关联性,将情景记忆融合进细粒度图像分类模型中,有效增加了图像分类模型的准确性。
在实际使用时,需要优化图像分类模型,通常的优化方法分为以下两个步骤:
在内循环中,用支持集中的图像样本优化参数为:
一般内循环会遍历/>中所有任务,其中α为学习率,t为迭代次数。
在外循环中,用查询集中的数据优化参数为:
其中β为和α不同的学习率。
而本实施例改进了内循环,引入了情景记忆进行优化,重新计算梯度信息为Aggr,使内循环用支持集中的图像样本优化参数变为:
然后按照通常的内循环外循环优化参数,得到真正优化后的图像分类模型,进行细粒度图像分类识别。
为了进一步体现本实施例对图像分类模型进行优化后的优势,将本实施例提供的优化方法应用于MAML模型(Finn et al.,2017)、Meta-SGD模型(Li&Malik,2017b)和ANIL模型(Raghu et al.,2019),这几组实验在Bird(Wah et al.,2011)、Texture(Cimpoi etal.,2014)、Aircraft(Maji et al.,2013)和Fungi(FUNGI,2018)四个细粒度图像分类数据库上进行,根据实验结果进行性能对比。实验结果如图2所示,其中w/o表示没有加入本实施例提供的优化方法,w/表示加入了本实施例提供的优化方法,5-way 1-shot表示每一个支持集中有5个类别,每个类别包含1个图像样本,而5-way 5-shot表示每一个支持集中有5个类别,每个类别包含5个图像样本。表中数字表示准确率,具体为多次实验的均值和多次实验的方差,可以看出加入了本实施例提供的优化方法后,其准确率明显高于未加入本实施例提供的优化方法的常规模型。
实施例2
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述的基于情景记忆的图像分类模型优化方法。
实施例3
如图3所示,本实施例提供一种基于情景记忆的图像分类模型优化系统,用于对图像分类模型参数进行优化,包括:
任务模块101,用于构建若干个任务,每个任务包括一个支持集,每个支持集包括若干图像样本;所述支持集表示为:其中,N表示该支持集有N个类别,K表示每个类别包含K个图像样本,n表示第n个任务,xi表示支持集内的第i个图像样本,yi为该图像样本的图像分类标注;
编码器模块102,用于将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;使用编码器将支持集Sn内每一个图像样本xi转换为特征表示ei,则该支持集特征为
外部记忆存储器模块103,用于根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;
将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中,具体包括:所述外部记忆存储器表示为:
其中,NM为外部记忆存储器的存储容量,Mn为外部记忆存储器中存储第n个任务的关键字和梯度值的存储单元,存储单元表示为:Mn=[Kn,Vn];
其中,Kn表示第n个任务的关键字,采用Transformer结构获得当前任务的关键字,具体为:Kn=Transformer(clsn,e1,…,ei,…eN)[0];
其中,clsn表示在Transformer结构中和第n个任务相关联的token,其初始值为随机取值,ei为支持集Sn中第i个图像样本的特征,N表示该支持集有N个类别,将e1,…,ei,…eN输入到Transformer结构中,将第0个输出,即clsn对应位置的输出,作为该任务的关键字;
Vn表示为向量
其中,为第n个任务对图像分类模型第l层参数的梯度值。
外部记忆存储控制器模块104,用于管理外部记忆存储器,所述外部记忆存储控制器具体用于:当外部记忆存储器的存储容量未满时,将当前任务的梯度值gn作为Vn,存储至外部记忆存储器中,当前任务对图像分类模型第l层参数的梯度值计算公式为:
其中,θl表示图像分类模型第l层参数,表示第n个任务中第i个图像样本的图像分类标注真实结果/>表示第n个任务中第i个图像经过图像分类模型预测得到的图像分类标注预测结果,/>表示预测结果和真实结果之间差异的交叉熵损失函数,/>表示对交叉熵损失函数求梯度值,/>表示对参数θl求梯度值;
当外部记忆存储器的内存已满时,外部记忆存储控制器Controller选择一个要进行替换的存储单元将gn替代/>生成新的存储单元Mc,表示为:/>
所述外部记忆存储控制器选择一个要进行替换的存储单元,具体包括:外部记忆存储控制器跟踪外部记忆存储器所有存储单元,将最先进入外部记忆存储器的存储单元放在队列最前,当需要替换存储单元时,选择队列最前的存储单元进行替换。
还用于根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;计算当前任务的关键字和外部记忆存储器内存储的所有关键字之间的余弦距离,选择余弦距离最小的关键字对应的梯度值作为与当前任务相似情景下产生的梯度值。
情景记忆模块105,用于将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化;
具体包括:
其中,α为学习率,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值,Aggr表示将当前任务的梯度值与在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值进行融合的聚合函数,θt表示优化前的图像分类模型参数,θt+1表示优化后的图像分类模型参数。
所述聚合函数为平均操作Mean,或求和操作Sum,或基于Transformer的融合,具体表示为:
其中,clsg是在StructTransformer结构中令牌的梯度,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值集合,/>为梯度值集合中元素的个数,Vn为向量/> 为第n个任务对图像分类模型第l层参数的梯度值,/>为第n任务在外部记忆存储器中查找到的与当前任务相似情景下产生的第/>个梯度值。
本发明可以在存储数据中保留过去任务的关键字和梯度值历史,以增强记忆的方式实现小样本学习下的细粒度图像分类。通过学习保留和回忆过去训练任务的学习过程,在小样本学习提供的有限信息量梯度值的情况下,也会朝着正确的方向推动参数更新。同时,本发明可以作为一个简单的即插即用的优化器,具有通用性和灵活性,可以无缝嵌入现有的细粒度图像分类模型中,对其进行优化。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于情景记忆的图像分类模型优化方法,其特征在于,用于对图像分类模型参数进行优化,包括:
构建若干个任务,每个任务包括一个支持集,每个支持集包括若干图像样本;
将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;
根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;
根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;
将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化。
2.根据权利要求1所述的一种基于情景记忆的图像分类模型优化方法,其特征在于,所述将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征,具体包括:
所述支持集表示为:其中,N表示该支持集有N个类别,K表示每个类别包含K个图像样本,n表示第n个任务,xi表示支持集内的第i个图像样本,yi为该图像样本的图像分类标注;
构建编码器,使用编码器将支持集Sn内每一个图像样本xi转换为特征表示ei,则该支持集特征为
3.根据权利要求2所述的一种基于情景记忆的图像分类模型优化方法,其特征在于,所述根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储,具体包括:
构建外部记忆存储器;
将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中。
4.根据权利要求3所述的一种基于情景记忆的图像分类模型优化方法,其特征在于,所述将当前任务支持集特征输入外部记忆存储器进行处理,得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值存储在外部记忆存储器中,具体包括:
所述外部记忆存储器表示为:
其中,NM为外部记忆存储器的存储容量,Mn为外部记忆存储器中存储第n个任务的关键字和梯度值的存储单元,存储单元表示为:Mn=[Kn,Vn];
其中,Kn表示第n个任务的关键字,采用Transformer结构获得当前任务的关键字,具体为:Kn=Transformer(clsn,e1,…,ei,…eN)[0];
其中,clsn表示在Transformer结构中和第n个任务相关联的token,其初始值为随机取值,ei为支持集Sn中第i个图像样本的特征,N表示该支持集有N个类别,将e1,…,ei,…eN输入到Transformer结构中,将第0个输出,即clsn对应位置的输出,作为该任务的关键字;
Vn表示为向量
其中,为第n个任务对图像分类模型第l层参数的梯度值。
5.根据权利要求3所述的一种基于情景记忆的图像分类模型优化方法,其特征在于,还包括:构建外部记忆存储控制器,用于管理外部记忆存储器,所述外部记忆存储控制器具体用于:
当外部记忆存储器的存储容量未满时,将当前任务的梯度值gn作为Vn,存储至外部记忆存储器中,当前任务对图像分类模型第l层参数的梯度值计算公式为:
其中,θl表示图像分类模型第l层参数,表示第n个任务中第i个图像样本的图像分类标注真实结果,/>表示第n个任务中第i个图像经过图像分类模型预测得到的图像分类标注预测结果,/>表示预测结果和真实结果之间差异的交叉熵损失函数,/>表示对交叉熵损失函数求梯度值,/>表示对参数θl求梯度值;
当外部记忆存储器的内存已满时,外部记忆存储控制器Controller选择一个要进行替换的存储单元将gn替代/>生成新的存储单元Mc,表示为:/>
6.根据权利要求5所述的一种基于情景记忆的图像分类模型优化方法,其特征在于,所述外部记忆存储控制器选择一个要进行替换的存储单元,具体包括:外部记忆存储控制器跟踪外部记忆存储器所有存储单元,将最先进入外部记忆存储器的存储单元放在队列最前,当需要替换存储单元时,选择队列最前的存储单元进行替换;
或,所述根据关键字在外部记忆存储器中查找与当前任务相似情景下产生的梯度值,具体包括:计算当前任务的关键字和外部记忆存储器内存储的所有关键字之间的余弦距离,选择余弦距离最小的关键字对应的梯度值作为与当前任务相似情景下产生的梯度值。
7.根据权利要求5所述的一种基于情景记忆的图像分类模型优化方法,其特征在于,所述将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化,具体包括:
其中,α为学习率,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值,Aggr表示将当前任务的梯度值与在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值进行融合的聚合函数,θt表示优化前的图像分类模型参数,θt+1表示优化后的图像分类模型参数。
8.根据权利要求7所述的一种基于情景记忆的图像分类模型优化方法,其特征在于,所述聚合函数为平均操作Mean,或求和操作Sum,或基于Transformer的融合,具体表示为:
其中,clsg是在StructTransformer结构中令牌的梯度,gn为当前任务的梯度值,为在外部记忆存储器中查找到的与当前任务相似情景下产生的梯度值集合,/>为梯度值集合中元素的个数,Vn为向量/> 为第n个任务对图像分类模型第l层参数的梯度值,/>为第n任务在外部记忆存储器中查找到的与当前任务相似情景下产生的第/>个梯度值。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~8任一项所述的基于情景记忆的图像分类模型优化方法。
10.一种基于情景记忆的图像分类模型优化系统,其特征在于,用于对图像分类模型参数进行优化,包括:
任务模块,用于构建若干个任务,每个任务包括一个支持集,每个支持集包括若干图像样本;
编码器模块,将当前任务支持集中的若干图像样本进行处理得到当前任务支持集特征;
外部记忆存储器模块,根据当前任务支持集特征得到当前任务的关键字和梯度值,将当前任务的关键字和梯度值作为存储数据进行存储;
外部记忆存储控制器模块,用于根据当前任务的关键字在所述存储数据中查找与当前任务相似情景下产生的梯度值;
情景记忆模块,用于将当前任务的梯度值和查找到的与当前任务相似情景下产生的梯度值进行融合,生成新的梯度值,根据新的梯度值对图像分类模型参数进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310576146.XA CN116563638B (zh) | 2023-05-19 | 2023-05-19 | 一种基于情景记忆的图像分类模型优化方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310576146.XA CN116563638B (zh) | 2023-05-19 | 2023-05-19 | 一种基于情景记忆的图像分类模型优化方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116563638A true CN116563638A (zh) | 2023-08-08 |
CN116563638B CN116563638B (zh) | 2023-12-05 |
Family
ID=87498011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310576146.XA Active CN116563638B (zh) | 2023-05-19 | 2023-05-19 | 一种基于情景记忆的图像分类模型优化方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563638B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274732A (zh) * | 2023-09-18 | 2023-12-22 | 广东石油化工学院 | 一种基于情景记忆驱动构建优化扩散模型的方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413347A (zh) * | 2013-07-05 | 2013-11-27 | 南京邮电大学 | 基于前景背景融合的单目图像深度图提取方法 |
CN104599275A (zh) * | 2015-01-27 | 2015-05-06 | 浙江大学 | 基于概率图模型的非参数化的rgb-d场景理解方法 |
CN113657573A (zh) * | 2021-06-30 | 2021-11-16 | 大连理工江苏研究院有限公司 | 一种情景记忆引导下基于元学习的机器人技能获取方法 |
CN114067155A (zh) * | 2021-11-16 | 2022-02-18 | 湖南大学 | 基于元学习的图像分类方法、装置、产品及存储介质 |
US20220108132A1 (en) * | 2020-10-02 | 2022-04-07 | Robert Bosch Gmbh | Method and system for an adversarial training using meta-learned initialization |
CN114329124A (zh) * | 2021-12-16 | 2022-04-12 | 南京理工大学 | 基于梯度重优化的半监督小样本分类方法 |
CN114419642A (zh) * | 2021-12-14 | 2022-04-29 | 北京易道博识科技有限公司 | 一种文档图像中键值对信息的抽取方法、装置及系统 |
CN114444600A (zh) * | 2022-01-28 | 2022-05-06 | 南通大学 | 基于记忆增强原型网络的小样本图像分类方法 |
CN115169560A (zh) * | 2022-07-06 | 2022-10-11 | 天津大学 | 一种用于提升低资源常识推理性能的元强化学习方法 |
-
2023
- 2023-05-19 CN CN202310576146.XA patent/CN116563638B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413347A (zh) * | 2013-07-05 | 2013-11-27 | 南京邮电大学 | 基于前景背景融合的单目图像深度图提取方法 |
CN104599275A (zh) * | 2015-01-27 | 2015-05-06 | 浙江大学 | 基于概率图模型的非参数化的rgb-d场景理解方法 |
US20220108132A1 (en) * | 2020-10-02 | 2022-04-07 | Robert Bosch Gmbh | Method and system for an adversarial training using meta-learned initialization |
CN113657573A (zh) * | 2021-06-30 | 2021-11-16 | 大连理工江苏研究院有限公司 | 一种情景记忆引导下基于元学习的机器人技能获取方法 |
CN114067155A (zh) * | 2021-11-16 | 2022-02-18 | 湖南大学 | 基于元学习的图像分类方法、装置、产品及存储介质 |
CN114419642A (zh) * | 2021-12-14 | 2022-04-29 | 北京易道博识科技有限公司 | 一种文档图像中键值对信息的抽取方法、装置及系统 |
CN114329124A (zh) * | 2021-12-16 | 2022-04-12 | 南京理工大学 | 基于梯度重优化的半监督小样本分类方法 |
CN114444600A (zh) * | 2022-01-28 | 2022-05-06 | 南通大学 | 基于记忆增强原型网络的小样本图像分类方法 |
CN115169560A (zh) * | 2022-07-06 | 2022-10-11 | 天津大学 | 一种用于提升低资源常识推理性能的元强化学习方法 |
Non-Patent Citations (1)
Title |
---|
于洪华: "基于情景记忆和元学习的机械臂运动技能获取", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 1, pages 140 - 1017 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274732A (zh) * | 2023-09-18 | 2023-12-22 | 广东石油化工学院 | 一种基于情景记忆驱动构建优化扩散模型的方法和系统 |
CN117274732B (zh) * | 2023-09-18 | 2024-07-16 | 广东石油化工学院 | 一种基于情景记忆驱动构建优化扩散模型的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116563638B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7055187B2 (ja) | ディープバイナリハッシュおよび量子化を介した効率的なクロスモーダル検索 | |
CN109299257B (zh) | 一种基于lstm和知识图谱的英文期刊推荐方法 | |
CN108038492A (zh) | 一种基于深度学习的感性词向量及情感分类方法 | |
JP2010165348A (ja) | アノテーション付けを行う方法およびそのためのコンピュータプログラム | |
CN108921342B (zh) | 一种物流客户流失预测方法、介质和系统 | |
CN109063113A (zh) | 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法 | |
CN116563638B (zh) | 一种基于情景记忆的图像分类模型优化方法和系统 | |
CN114186084B (zh) | 在线多模态哈希检索方法、系统、存储介质及设备 | |
CN111080551B (zh) | 基于深度卷积特征和语义近邻的多标签图像补全方法 | |
CN114357221B (zh) | 一种基于图像分类的自监督主动学习方法 | |
CN111652664A (zh) | 训练混合元学习网络的装置和方法 | |
CN112380427B (zh) | 基于迭代图注意力网络的用户兴趣预测方法及电子装置 | |
Lu et al. | Surrogate-assisted multiobjective neural architecture search for real-time semantic segmentation | |
CN111753995A (zh) | 一种基于梯度提升树的局部可解释方法 | |
Chen et al. | Extensible Cross-Modal Hashing. | |
CN115080587B (zh) | 一种基于知识图谱的电子元器件替代方法、装置及介质 | |
Luo et al. | Improving neural language models by segmenting, attending, and predicting the future | |
Yang et al. | Bayesian active learning for choice models with deep Gaussian processes | |
CN110083732B (zh) | 图片检索方法、装置及计算机存储介质 | |
CN117421393B (zh) | 一种用于专利的生成式检索方法及系统 | |
Akkerman et al. | Handling large discrete action spaces via dynamic neighborhood construction | |
Liu et al. | Focusformer: Focusing on what we need via architecture sampler | |
CN113707213A (zh) | 基于深度学习的蛋白质-配体结合位点预测方法 | |
CN113051408A (zh) | 一种基于信息增强的稀疏知识图谱推理方法 | |
Xiao et al. | Patch-wise Mixed-Precision Quantization of Vision Transformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |