CN117274664A - 一种视觉认知驱动的小样本图像分类方法、系统及介质 - Google Patents
一种视觉认知驱动的小样本图像分类方法、系统及介质 Download PDFInfo
- Publication number
- CN117274664A CN117274664A CN202311071167.2A CN202311071167A CN117274664A CN 117274664 A CN117274664 A CN 117274664A CN 202311071167 A CN202311071167 A CN 202311071167A CN 117274664 A CN117274664 A CN 117274664A
- Authority
- CN
- China
- Prior art keywords
- embedding
- training
- embedded
- small sample
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000000007 visual effect Effects 0.000 title claims abstract description 26
- 230000019771 cognition Effects 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 108
- 239000013598 vector Substances 0.000 claims abstract description 28
- 238000013507 mapping Methods 0.000 claims abstract description 23
- 238000011144 upstream manufacturing Methods 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 46
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013434 data augmentation Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种视觉认知驱动的小样本图像分类方法、系统及介质,所述方法包括预训练阶段和元学习阶段;所述预训练阶段包括:获取初始训练集,对所述初始训练集进行数据增强,得到训练数据集;将所述训练数据集嵌入编码,通过线性层对嵌入做映射,预训练上游的分类任务;所述元学习阶段包括:将所述训练数据集分为支持集和查询集;将所述支持集和所述查询集的图像映射到嵌入空间,得到对应的嵌入向量表示;通过关系网络评估高维空间中的嵌入相似度,得到小样本学习输出的分类结果:本发明能够解决现有技术中无法对嵌入空间有正确的感知以及支持集原型和查询集嵌入的关系不准确的问题。
Description
技术领域
本发明涉及信息技术领域,具体的,本发明应用于SAR图像分类领域,特别是涉及一种视觉认知驱动的面向SAR图像分类的样本和嵌入自适应网络。
背景技术
随着小样本学习的发展,越来越多的工作开始探索小样本学习在SAR图像上应用的可能;它凭借训练开销小、数据需求量少以及拥有特定任务下的自主学习能力,在SAR图像分类任务上被应用推广开来。
例如,Wang et al.利用神经网络获得SAR图像的嵌入,然后将其与高斯过程的非参数灵活性相结合,最后使用一系列核函数来度量嵌入之间的相似度;Rostami et al.在SAR对长期的环境监测任务中,训练出一种用于跨域知识转移的共享域恒定嵌入;Zhang etal.使用了一种基于领域知识的深度双流网络,在训练中学习SAR图像具体的特征;Lu etal.利用三重态损失函数训练数据集标签量较少的网络模型;Wang et al.使用卷积双向长短时记忆(Conv BiLSTM)网络以更好的实现图像到嵌入空间的表达;Cai et al.提出一种基于空间变换的改进原型网络(PN),相比像素对齐,空间变换器模块实现了特征对齐,从而可以利用更多的语义信息。
以上这些研究都是在探索如何更好的表达嵌入;另一方面的研究是通过探索如何对已有的嵌入进行评估来提升模型的性能,他们通过小样本任务中加入图神经网络,从而来挖掘样本与样本之间的关系来实现;例如,Yang et al.在获得神经网络的嵌入表达后,使用图注意力网络进行分类;他们介绍了一种基于关系网络和图神经网络的多镜头学习方法;Yang et al.旨在利用图的非欧氏结构特点学习样本和支持样本之间的特征相似性;Chen et al.使用注意力机制突出类特定的特征,同时过滤不相关的背景信息,并在下游使用图卷积网络挖掘查询集和支持集的关系;Li et al.将得到的嵌入向量构造为一个全连通图,并使用图神经网络邻域聚合迭代更新图,从而得到节点及其关系的新表示,最后进行分类;以上的方法提升了SAR图像小样本学习的性能,但是没有考虑高维的嵌入空间。
在SAR小样本学习中,根据增强数据类型,可将数据增强分做上游的数据空间增强和下游的特征空间增强;SAR图像中的灰度图反映的是SAR在某种极化方式下接收到的雷达反射强度,所以以往的研究集中在图像的噪音的处理;例如,Gishkori et al.提出了一种知识转移的学习方法,在流形域中利用相机图像改进(SAR)图像;Yang et al.中提出使用幂变换增强小像素值,而抑制大像素值;Wang et al.设定一个变换集,通过随机采样部分数据进行变换集中规定的变换操作;Ding et al.中使用Translation,Speckle Noising,Pose Synthesis三种方法进行了数据增广操作;Gao et al.提出使用对抗神经网络GAN生成数据增广数据集;Song et al.使用了对抗自编码器增加训练集的分布密度和训练数据量的大小。
以上的数据增强方式是在数据空间的范畴;经过上游的编码器,把图片转换到嵌入空间;而在嵌入空间中,数据增强的方式已经脱离了具体的数据例如图像,文本,声音等,嵌入空间的数据增强问题就变成了如何最大程度感知对应类嵌入空间,并在该嵌入空间中寻找其他嵌入点作为训练数据;所以在这里讨论嵌入空间的增强工作时,引入了其他领域(例如NLP)的工作;比如,Sun et al.提出在嵌入空间中使用Welzl的思想,使用已知样本的嵌入对每个类构造一个最小闭合球,把这个闭合球看做是对应类嵌入空间的近似,再在该嵌入空间中进行数据增广;Wang and Lillis提出使用合成少数过采样技术(SMOTE)进行数据增强,其中SMOTE插值方法可以平滑边界,这意味着算法可以更好地泛化,并且相对于训练数据,伴随更少的过拟合;以后的方法通过数据增强实现了小样本分类性能的提升,但是它们只关注SAR图像的整体特征,忽略了背景杂声的影响;除此之外,像素的值与雷达反射强度的关系也没有被考虑到,即SAR的灰度值与像素重要程度的关系。
通过以上介绍可以了解到,现有方法忽略了高维嵌入空间;嵌入作为数据在空间的唯一标识,它决定了下游任务的准确性,不同支持集采样方式和采集数量都会极大的影响模型所表达出来的嵌入空间分布,影响样本任务的准确性和模型的鲁棒性;在样本不平衡的情况下,少部分的嵌入无法得到在理想下的正确表达;这些嵌入往往被表示在不同类别之间的分界线上,或者更糟糕,嵌入被表示在错误的类中;尤其是在小样本学习的条件设置下,有两个问题:(1)编码器得不到充足的数据,无法对嵌入空间有正确的感知;(2)shot数量会影响下游对原型的计算,导致支持集原型和查询集嵌入的关系不准确。
发明内容
本发明的目的在于,针对现有技术中的上述问题,提供一种视觉认知驱动的小样本图像分类方法、系统及介质,进而解决现有技术中无法对嵌入空间有正确的感知以及支持集原型和查询集嵌入的关系不准确的问题。
为解决上述技术问题,本发明的具体技术方案如下:
一方面,本发明提供一种视觉认知驱动的小样本图像分类方法,包括:预训练阶段和元学习阶段;
所述预训练阶段包括:
获取初始训练集,对所述初始训练集进行数据增强,得到训练数据集;
将所述训练数据集嵌入编码,通过线性层对嵌入做映射,预训练上游的分类任务;
所述元学习阶段包括:
将所述训练数据集分为支持集和查询集;
将所述支持集和所述查询集的图像映射到嵌入空间,得到对应的嵌入向量表示;
通过关系网络评估高维空间中的嵌入相似度,得到小样本学习输出的分类结果。
作为一种改进的方案,所述对所述初始训练集进行数据增强进一步包括:采用目标域中心自适应增强算法对初始训练集进行增强。
作为一种改进的方案,所述获取初始训练集,对所述初始训练集进行数据增强,得到训练数据集进一步包括:
获取图片的灰度像素矩阵,基于灰度像素矩阵计算图像中心坐标;
根据所述图像中心坐标计算每个像素的增强因子,对所述增强因子执行标准化得到增强因子矩阵,基于所述增强因子矩阵获得距离矩阵;
将所述灰度像素矩阵与所述距离矩阵点乘得到所述训练数据集。
作为一种改进的方案,所述将所述训练数据集嵌入编码进一步包括:将所述训练数据集经过一个基于ResNet12结构的编码器被嵌入编码。
作为一种改进的方案,所述将所述训练数据集嵌入编码,通过线性层对嵌入做映射,预训练上游的分类任务,进一步包括:
将所述训练数据集中的的图片输入到卷积块中,首先经过前两层相同的Conv64(K3,S1,P1)/BN/ReLU,再经过一层Conv64(K3,S1,P1)/BN得到输出h;然后通过一层Conv64(K1,S1,P0)/BN输出和h尺寸相同的hidentity,将二者相加后实现残差网络;经过一个ReLU激活函数和MaxPooling(2,2)得到卷积块的最终输出;将卷积块的最终输出展开得到维度为dim的向量,将该向量输入到线性层中,预训练上游的分类任务,并计算损失。
作为一种改进的方案,所述将所述支持集和所述查询集的图像映射到嵌入空间,得到对应的嵌入向量表示,进一步包括:
采用所述编码器把所述支持集和所述查询集的图像映射到嵌入空间,每张图像得到对应的嵌入向量表示;对于所述支持集,对应类的嵌入参与平均计算得到平均原型;所述平均原型和嵌入作为边界模糊嵌入矫正模块的输入,输出矫正后的查询集嵌入。
作为一种改进的方案,所述对应类的嵌入参与平均计算得到平均原型;所述平均原型和嵌入作为边界模糊嵌入矫正模块的输入,输出矫正后的查询集嵌入,进一步包括:
计算所述支持集中所有类的平均嵌入,将所述平均嵌入进行拼接操作,得到平均原型矩阵;
获取查询集嵌入,将所述查询集嵌入拼接得到查询集嵌入矩阵;
将所述平均原型矩阵和所述查询集嵌入矩阵拼接得到注意力模块的输入矩阵;
根据自注意力模块和所述输入矩阵得到更新后的嵌入矩阵。
作为一种改进的方案,所述通过关系网络评估高维空间中的嵌入相似度,得到小样本学习输出的分类结果,进一步包括:
获取更新后的查询集和更新前的支持集,经过关系网络模块的计算,得到查询集和支持集嵌入的相似度向量;
通过损失函数和所述相似度向量进行损失计算,得到损失值;
整合所述编码器、所述边界模糊嵌入矫正模块和所述关系网络模块的参数,得到模型参数集;
基于所述损失值,采用反向传播梯度下降方向更新所述模型参数集。
另一方面,本发明还提供一种视觉认知驱动的小样本图像分类系统,包括:
预训练模块和元学习模块;
所述预训练模块,用于获取初始训练集,对所述初始训练集进行数据增强,得到训练数据集;将所述训练数据集嵌入编码,通过线性层对嵌入做映射,预训练上游的分类任务;
所述元学习模块,用于将所述训练数据集分为支持集和查询集;将所述支持集和所述查询集的图像映射到嵌入空间,得到对应的嵌入向量表示;通过关系网络评估高维空间中的嵌入相似度,得到小样本学习输出的分类结果。
另一方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述视觉认知驱动的小样本图像分类方法的步骤。
本发明技术方案的有益效果是:
1、本发明所述的视觉认知驱动的小样本图像分类方法,提出了一种元学习框架:样本嵌入自适应网络(Sea-Net),它适用于SAR图像的小样本分类任务,并且训练时间短;
提出目标域中心自适应增强算法,该算法能够基于图像的语义特点自适应的计算SAR图像中心,其参数不需要人工手动调整。并基于此,使用曼哈顿距离快速的计算像素级别的增强因子从而实现小样本增强。另外,本文提出在上游的编码器训练时,区别于训练分类器,对增强输数据的应该看做另外一种类别;
提出了基于自注意力机制的边缘模糊嵌入矫正算法,该算法通过增大不同类的类间距离,从而解决了因成像原理产生的相干斑噪声的影响。
2、本发明所述的视觉认知驱动的小样本图像分类系统,可以通过预训练模块和元学习模块的相互配合,进而实现本发明所述的视觉认知驱动的小样本图像分类方法。
3、本发明所述的计算机可读存储介质,可以实现引导预训练模块和元学习模块进行配合,进而实现本发明所述的视觉认知驱动的小样本图像分类方法,且本发明所述的计算机可读存储介质还有效提高所述视觉认知驱动的小样本图像分类方法的可操作性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1所述视觉认知驱动的小样本图像分类方法中样本和嵌入自适应网络模型训练的架构图;
图2是本发明实施例1中加入各种训练集后的样本和嵌入自适应网络模型的可视化结果示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
在本发明的描述中,需要说明的是,本发明所描述的实施例是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文的说明书和权利要求书及上述附图中的术语“包括”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本实施例提供一种视觉认知驱动的小样本图像分类方法,包括:构建样本和嵌入自适应网络模型,对所述样本和嵌入自适应网络模型进行训练,所述样本和嵌入自适应网络模型的训练架构见图1。
样本和嵌入自适应网络模型的训练包括预训练阶段和元学习阶段;
所述预训练阶段包括对上游的编码器预训练模型进行训练,在对上游的编码器预训练模型进行训练中,获取初始训练集,初始训练集首先通过TDCSA模块进行数据增强,得到训练数据集;
将所述训练数据集经过一个基于ResNet12结构的编码器fθ被嵌入编码;最后通过线性层对嵌入做映射,计算嵌入的分类独热向量结果,并计算损失。
在下游的所述元学习阶段,首先把训练数据集分为支持集和查询集两个集;采用上游训练结束的编码器fθ把支持集和查询集的图像映射到嵌入空间,每张图像都会得到对应的嵌入向量表示;对于支持集,对应类的嵌入参与平均计算得到平均原型;平均原型和嵌入作为边界模糊嵌入矫正模块的输入,输出矫正后的查询集嵌入;最后使用关系网络评估高维空间中的嵌入相似度,得到小样本学习输出的分类结果。
作为本发明的一种实施方式,初始训练集首先通TDCSA模块进行数据增强进一步包括采用目标域中心自适应增强算法对初始训练集进行增强;在小样本学习中,由于数据量较小,所以往往需要将合适的数据增强来提高模型的学习能力;SAR图像存在斑点噪声较大、特征不明显和边缘模糊的特点;因此,在数据增强中,希望增强图像中心和四周的对比度以增强图像的中心物体特征,基于以上想法,提出了目标域中心自适应增强算法;
SAR灰度图的明暗表示为雷达信号的强弱,像素越暗部分的雷达反射强度越小,反之亦然;而在自然环境中,人造物的亮度往往比自然环境的亮度要大,所以目标域中心自适应增强算法计算方式为:
上述公式中,CH,CW表示为计算后图像中心的坐标,x∈RH×W表示图片的灰度像素矩阵,H,W表示该矩阵的尺寸;
得到图像的中心后,计算每个像素的增强因子;由于图像是灰度矩阵的规则表示,在这里利用曼哈顿距离可以快速的计算节点之间的距离,距离中心越近增强因子越大,反之亦然;距离dij是曼哈顿距离矩阵D∈RH×W中的元素。dij通过当前位置与图像中心坐标计算得到:
dij=|i-Crow|+|j-Ccol|
再将D标准化,使得0≤dij≤2,得到增强因子矩阵
上述公式中,min(·)表示获取矩阵中元素的最小值,max(·)表示获取矩阵中元素的最大值;如果在增强后则将/>
将灰度像素矩阵x∈RH×W和距离矩阵D∈RH×W点乘得到增强后的图片
小样本任务的设置是基于上游的编码器计算后得到输入对应的嵌入,在下游计算嵌入之间的相似度;因为数据增强的目的并不是在上游训练一个最好的分类器,而是训练一个最好的编码器,希望增强的是图片在嵌入空间的正确位置,为了防止在下游训练时增强的手段反而成为噪音影响空间嵌入,所以对于每个对应类增强的图片,都算作是新的一类;同样,作为对一般灰度图的处理手段,数据增强阶段也引入了随机垂直翻转,随机水平翻转的方法。
作为本发明的一种实施方式,将所述训练数据集经过一个基于ResNet12结构的编码器fθ被嵌入编码;最后通过线性层对嵌入做映射,计算嵌入的分类独热向量结果,并计算损失,进一步包括:
将所述训练数据中的的图片输入到卷积块中,首先经过前两层相同的Conv64(K3,S1,P1)/BN/ReLU,再经过一层Conv64(K3,S1,P1)/BN得到输出h。然后通过一层Conv64(K1,S1,P0)/BN输出和h尺寸相同的hidentity,将二者相加后实现残差网络;最后经过一个ReLU激活函数和MaxPooling(2,2)得到卷积块的最终输出;在经过4个卷积块后,得到的结果展开得到维度为dim的向量,将该向量输入到线性层当中,预训练上游的分类任务,并计算损失。
为了解决因成像原理产生的相干斑噪声的影响,本实施例采用自注意力机制的边缘模糊嵌入矫正算法;具体包括:嵌入网络将图片映射到嵌入空间中的某个位置,使得相同类的嵌入尽可能的近邻,不相同的类互相远离。对于第i张输入图片xi的嵌入表示zi可计算为:
zi=fθ(xi)
上述公式中,fθ:RH×W→Rdim是映射函数,θ表示为该编码器可训练的参数集,H,W表示输入图片灰度矩阵的高度和宽度,dim表示映射后的嵌入维度;在上游预训练的嵌入网络选择常见的ResNet12,该网络一共有4个卷积块,每个块包含卷积神经网络、批标准化和激活函数ReLU。
卷积块计算流程为将图片xi输入到卷积块中,首先经过前两层相同的Conv64(K3,S1,P1)/BN/ReLU,再经过一层Conv64(K3,S1,P1)/BN得到输出h;然后通过一层Conv64(K1,S1,P0)/BN输出和h尺寸相同的hidentity,将二者相加后实现残差网络;最后经过一个ReLU激活函数和MaxPooling(2,2)得到卷积块的最终输出;其中,Conv64(K3,S1,P1)/BN/ReLU表示为输出维度为64、卷积核大小为3、步长为1、填充为1的卷积神经网络层,批标准化和ReLU激活函数组成的网络层;MaxPooling(2,2)表示池化核大小为2,步长为2的最大池化层。
经过4个卷积块后,得到的结果展开得到维度为dim的向量,将该向量输入到线性层当中,预训练上游的分类任务。
在下游训练元学习任务中,把线性层分类器删除得到编码器。
支持集在通过编码器计算出对应嵌入后,需要对对应类的嵌入做平均来计算对应类在嵌入空间中的原型,但是由于小样本的任务设置,对于每个类的shot数量是非常少的,而平均的计算极容易受到异常点的影响,导致原型的计算有可能和真实原型偏差过大,所以提出一种基于自注意力机制的边界模糊嵌入矫正,使得尽可能的增大类间距离,从而得到特征的准确表达。
自注意力机制在中得到了很大的成功,凭借其对全局信息的提取和在计算中的可并行化,被广泛的用到各种领域;在本实施例中使用自注意力对于全局的信息关注的能力,使得查询集的嵌入相对位置能被进行修正假设对应类支持集的原型代表的位置就是对应类嵌入空间中的理想位置,希望相似的嵌入互相之间的影响更大,而不相似的嵌入互相之间影响更小,即增大类间距离,由于我们的假设,所以原支持集的原型不受影响。
对于m wayn shot的任务来说,第i类支持集的原型计算为:
将支持集中所有类的平均嵌入进行拼接操作,得到支持集S的平均原型矩阵为
上述公式中,||表示拼接操作,单个查询集的嵌入是如果此次查询集有多张图片,则将查询集嵌入拼接起来得到此次的查询集嵌入矩阵/>
上述公式中,p是此次查询集的尺寸。将查询集嵌入矩阵和支持集平均嵌入矩阵拼接得到注意力模块的输入矩阵/>
根据自注意力模块,把输入矩阵I通过三个不同的线性投影得到自注意力中的query,key,value:
Q=IWQ,K=IWK,V=IWV
上述公式中,WQ,WK,WV∈Rdim×(p+m)是线性投影矩阵,接着将Q,K,V矩阵输入到自注意力机制公式中计算,得到更新后的嵌入矩阵
上述公式中,为缩放因子,同时在自注意力机制引入了多头注意力提高模型的泛化能力,θ表示为attn模块的可训练参数集;得到/>后,为了防止查询集嵌入对支持集嵌入的影响,在后续的计算中只取更新后的查询集/>和更新前的支持集进行接下来的相似度计算。
作为本发明的一种实施方式,传统的基于欧式空间的相似度如余弦相似度,L2距离等线性手段对嵌入空间中的嵌入置要求较高,在高维空间中容易引起误差;为了使模型能够自己学习如何在高维嵌入空间中评估相似度,所以提出在相似度评估时使用可训练模型。
为了减少模型参数,经过关系网络的计算,得到查询集和支持集嵌入的相似度向量
上述公式中,表示查询集每个样本对m个支持集原型的预测相似度,该相似度将会在下一节进行损失计算,θ表示为关系网络中可训练的参数集。
在损失函数上选择了常用的交叉熵,计算损失值如下:
上述公式中,y表示真实标签向量,使用独热码表示;
在模型中,可训练参数包括预训练中的编码器参数θEncoder,元学习中的嵌入矫正模块参数θAttn,关系网络模块参数θRelation,然后将整个模型的参数集表示为Θ={θEncoder,θAttn,θRelation}
优化器选择了SGD,在训练阶段,采用反向传播梯度下降方向更新模型参数:
上述公式中,Θnew表示更新后的参数集,Θold表示更新前的参数集,lr表示学习率,表示计算更新前参数集的偏导数。
实施例2
本实施例基于与实施例1中所述的一种视觉认知驱动的小样本图像分类方法相同的发明构思,提供一种视觉认知驱动的小样本图像分类系统,包括:预训练模块和元学习模块;
所述预训练模块,用于获取初始训练集,对所述初始训练集进行数据增强,得到训练数据集;将所述训练数据集嵌入编码,通过线性层对嵌入做映射,预训练上游的分类任务;
所述元学习模块,用于将所述训练数据集分为支持集和查询集;将所述支持集和所述查询集的图像映射到嵌入空间,得到对应的嵌入向量表示;通过关系网络评估高维空间中的嵌入相似度,得到小样本学习输出的分类结果。
实施例3
本实施例提供一种计算机可读存储介质,包括:
所述存储介质用于储存将上述实施例1所述的视觉认知驱动的小样本图像分类方法实现所用的计算机软件指令,其包含用于执行上述为所述视觉认知驱动的小样本图像分类方法所设置的程序;具体的,该可执行程序可以内置在实施例2所述的视觉认知驱动的小样本图像分类系统中,这样,视觉认知驱动的小样本图像分类系统就可以通过执行内置的可执行程序实现所述实施例1所述的视觉认知驱动的小样本图像分类方法。
此外,本实施例具有的计算机可读存储介质可以采用一个或多个可读存储介质的任意组合,其中,可读存储介质包括电、光、电磁、红外线或半导体的系统、装置或器件,或者以上任意组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种视觉认知驱动的小样本图像分类方法,应用于样本和嵌入自适应网络模型的训练,其特征在于,所述样本和嵌入自适应网络模型的训练包括:预训练阶段和元学习阶段;
所述预训练阶段包括:
获取初始训练集,对所述初始训练集进行数据增强,得到训练数据集;
将所述训练数据集嵌入编码,通过线性层对嵌入做映射,预训练上游的分类任务;
所述元学习阶段包括:
将所述训练数据集分为支持集和查询集;
将所述支持集和所述查询集的图像映射到嵌入空间,得到对应的嵌入向量表示;
通过关系网络评估高维空间中的嵌入相似度,得到小样本学习输出的分类结果。
2.根据权利要求1所述的一种视觉认知驱动的小样本图像分类方法,其特征在于,所述对所述初始训练集进行数据增强进一步包括:采用目标域中心自适应增强算法对初始训练集进行增强。
3.根据权利要求2所述的一种视觉认知驱动的小样本图像分类方法,其特征在于,所述获取初始训练集,对所述初始训练集进行数据增强,得到训练数据集进一步包括:
获取图片的灰度像素矩阵,基于灰度像素矩阵计算图像中心坐标;
根据所述图像中心坐标计算每个像素的增强因子,对所述增强因子执行标准化得到增强因子矩阵,基于所述增强因子矩阵获得距离矩阵;
将所述灰度像素矩阵与所述距离矩阵点乘得到所述训练数据集。
4.根据权利要求1所述的一种视觉认知驱动的小样本图像分类方法,其特征在于,所述将所述训练数据集嵌入编码进一步包括:将所述训练数据集经过一个基于ResNet12结构的编码器被嵌入编码。
5.根据权利要求4所述的一种视觉认知驱动的小样本图像分类方法,其特征在于,所述将所述训练数据集嵌入编码,通过线性层对嵌入做映射,预训练上游的分类任务,进一步包括:
将所述训练数据集中的的图片输入到卷积块中,首先经过前两层相同的Co nv64(K3,S1,P1)/BN/ReLU,再经过一层Conv64(K3,S1,P1)/BN得到输出h;然后通过一层Conv64(K1,S1,P0)/BN输出和h尺寸相同的hidentity,将二者相加后实现残差网络;经过一个ReLU激活函数和MaxPooling(2,2)得到卷积块的最终输出;将卷积块的最终输出展开得到维度为dim的向量,将该向量输入到线性层中,预训练上游的分类任务。
6.根据权利要求5所述的一种视觉认知驱动的小样本图像分类方法,其特征在于,所述将所述支持集和所述查询集的图像映射到嵌入空间,得到对应的嵌入向量表示,进一步包括:
采用所述编码器把所述支持集和所述查询集的图像映射到嵌入空间,每张图像得到对应的嵌入向量表示;对于所述支持集,对应类的嵌入参与平均计算得到平均原型;所述平均原型和嵌入作为边界模糊嵌入矫正模块的输入,输出矫正后的查询集嵌入。
7.根据权利要求6所述的一种视觉认知驱动的小样本图像分类方法,其特征在于,所述对应类的嵌入参与平均计算得到平均原型;所述平均原型和嵌入作为边界模糊嵌入矫正模块的输入,输出矫正后的查询集嵌入,进一步包括:
计算所述支持集中所有类的平均嵌入,将所述平均嵌入进行拼接操作,得到平均原型矩阵;
获取查询集嵌入,将所述查询集嵌入拼接得到查询集嵌入矩阵;
将所述平均原型矩阵和所述查询集嵌入矩阵拼接得到注意力模块的输入矩阵;
根据自注意力模块和所述输入矩阵得到更新后的嵌入矩阵。
8.根据权利要求7所述的一种视觉认知驱动的小样本图像分类方法,其特征在于,所述通过关系网络评估高维空间中的嵌入相似度,得到小样本学习输出的分类结果,进一步包括:
获取更新后的查询集和更新前的支持集,经过关系网络模块的计算,得到查询集和支持集嵌入的相似度向量;
通过损失函数和所述相似度向量进行损失计算,得到损失值;
整合所述编码器、所述边界模糊嵌入矫正模块和所述关系网络模块的参数,得到模型参数集;
基于所述损失值,采用反向传播梯度下降方向更新所述模型参数集。
9.一种视觉认知驱动的小样本图像分类系统,采用权利要求1所述的视觉认知驱动的小样本图像分类方法,其特征在于,所述系统包括:预训练模块和元学习模块;
所述预训练模块,用于获取初始训练集,对所述初始训练集进行数据增强,得到训练数据集;将所述训练数据集嵌入编码,通过线性层对嵌入做映射,预训练上游的分类任务;
所述元学习模块,用于将所述训练数据集分为支持集和查询集;将所述支持集和所述查询集的图像映射到嵌入空间,得到对应的嵌入向量表示;通过关系网络评估高维空间中的嵌入相似度,得到小样本学习输出的分类结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1~8中任一项所述视觉认知驱动的小样本图像分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311071167.2A CN117274664A (zh) | 2023-08-24 | 2023-08-24 | 一种视觉认知驱动的小样本图像分类方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311071167.2A CN117274664A (zh) | 2023-08-24 | 2023-08-24 | 一种视觉认知驱动的小样本图像分类方法、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117274664A true CN117274664A (zh) | 2023-12-22 |
Family
ID=89218644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311071167.2A Pending CN117274664A (zh) | 2023-08-24 | 2023-08-24 | 一种视觉认知驱动的小样本图像分类方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274664A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118429724A (zh) * | 2024-06-28 | 2024-08-02 | 泉州装备制造研究所 | 一种小样本医疗图像分类方法、系统及存储介质 |
-
2023
- 2023-08-24 CN CN202311071167.2A patent/CN117274664A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118429724A (zh) * | 2024-06-28 | 2024-08-02 | 泉州装备制造研究所 | 一种小样本医疗图像分类方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111899163A (zh) | 生成对抗网络中单图像超分辨率的有效结构保持 | |
CN114332578A (zh) | 图像异常检测模型训练方法、图像异常检测方法和装置 | |
CN111882026B (zh) | 通过潜在空间正则化对无监督式生成对抗网络进行优化 | |
Polania et al. | Exploiting restricted Boltzmann machines and deep belief networks in compressed sensing | |
Costa et al. | Estimating local intrinsic dimension with k-nearest neighbor graphs | |
CN112307883B (zh) | 训练方法、装置、电子设备以及计算机可读存储介质 | |
CN114445420B (zh) | 编解码结构结合注意力机制的图像分割模型及其训练方法 | |
CN112950505B (zh) | 一种基于生成对抗网络的图像处理方法、系统和介质 | |
CN117274664A (zh) | 一种视觉认知驱动的小样本图像分类方法、系统及介质 | |
CN114418030A (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
US20230289608A1 (en) | Optimizing Supervised Generative Adversarial Networks via Latent Space Regularizations | |
CN116563682A (zh) | 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法 | |
CN117152554A (zh) | 基于ViT模型的病理切片数据识别方法及系统 | |
Chralampidis et al. | Classification of noisy signals using fuzzy ARTMAP neural networks | |
CN116258877A (zh) | 土地利用场景相似度变化检测方法、装置、介质及设备 | |
CN108376420B (zh) | 信息处理设备、信息处理方法、评估方法和存储介质 | |
CN117036901A (zh) | 一种基于视觉自注意力模型的小样本微调方法 | |
CN109558819A (zh) | 一种用于遥感图像目标检测的深度网络轻量化方法 | |
CN114764880B (zh) | 多成分gan重建的遥感图像场景分类方法 | |
CN112906829B (zh) | 一种基于Mnist数据集的数字识别模型构建方法及装置 | |
CN115688234A (zh) | 一种基于条件卷积的建筑布局生成方法、装置及介质 | |
CN114998972A (zh) | 一种轻量级的人脸过滤方法和系统 | |
CN115239967A (zh) | 一种基于Trans-CSN生成对抗网络的图像生成方法及装置 | |
Chen et al. | Video foreground detection algorithm based on fast principal component pursuit and motion saliency | |
Sathya et al. | Adversarially Trained Variational Auto-Encoders With Maximum Mean Discrepancy based Regularization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |