CN116503674B - 一种基于语义指导的小样本图像分类方法、装置及介质 - Google Patents
一种基于语义指导的小样本图像分类方法、装置及介质 Download PDFInfo
- Publication number
- CN116503674B CN116503674B CN202310760519.9A CN202310760519A CN116503674B CN 116503674 B CN116503674 B CN 116503674B CN 202310760519 A CN202310760519 A CN 202310760519A CN 116503674 B CN116503674 B CN 116503674B
- Authority
- CN
- China
- Prior art keywords
- semantic
- sample
- new
- category
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000002902 bimodal effect Effects 0.000 claims abstract description 23
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 14
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 14
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 13
- 238000013461 design Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 230000000007 visual effect Effects 0.000 claims description 89
- 230000006870 function Effects 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义指导的小样本图像分类方法、装置及介质,该图像分类方法包括以下步骤:对输入图像进行特征提取、对语义信息进行特征提取、基于语义相似度的样本选择、语义指导下的样本合成、语义监督下的双模态分类器设计、模型训练与测试步骤。本发明提出了语义信息应用在小样本分类方法中的作用,并设计了一种基于语义指导的小样本图像分类方法,通过引入语义信息,并将语义信息集成到数据合成与分类器设计中,提升了对新类别数据分布的描述能力,提升了图像分类准确率。
Description
技术领域
本发明属于图像分类领域,具体的说是一种基于语义指导的小样本图像分类方法、装置及介质。
背景技术
近年来,卷积神经网络 (CNN) 在各类视觉任务中展示了出色的性能。但此类数据驱动的方法需要大量有标注的训练数据才能保障其性能。然而,收集和标注数据的过程既耗时又昂贵。相比之下,由于人类积累了大量的先验知识,其只需少量样本就可以快速识别新物体。
小样本学习 (FSL) 任务旨在模仿人类对新物体快速识别的能力。
目前,主流的小样本学习 (FSL) 方法在大量的基础类别样本上预训练模型,并使用预训练的模型提取新类别样本的视觉特征,其旨在通过预训练获取具有强泛化性的视觉特征,并利用提取的新类别视觉特征实现对新类别的识别。但是,少量新类别样本的视觉特征不足以表示其数据分布,导致容易产生过拟合的问题。
为了缓解上述现象,常用的解决方案是在特征空间中通过数据生成策略生成更多新类别样本。然而,此类解决方案有一定局限性。由于在基础类别样本上训练的模型更倾向于关注其学习过的纹理和结构,导致其容易忽视部分新类别样本的特异性内容,基于此生成的视觉特征仍不足以描述新类别的数据分布,大量的生成样本会误导分类器,影响模型的性能。
基于上述对现有技术的分析,如何缓解由于类别差异引入的对新类别样本的视觉特征描述的不足,并提升分类器对新类别的数据分布的响应能力,是小样本学习亟需解决的技术问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于语义指导的小样本图像分类方法、装置及介质,通过引入语义信息,充分挖掘语义空间中基础类别与新类别的关系,基于语义指导合成新样本,并在分类过程中引入语义监督,从而提升小样本图像分类的准确性。
本发明为达到上述发明目的,采用如下技术方案:
第一方面,本发明提供了一种基于语义指导的小样本图像分类方法,该图像分类方法包括以下步骤:
S1、对输入图像进行特征提取,获取用于预训练的自然图像样本集合,输入预训练的CNN模型提取其视觉特征及其基础类别标签集合,再获取新类别图像样本集合,输入所述预训练的CNN模型提取其视觉特征及其类别标签集合;
S2、对语义信息进行特征提取,使用预训练的词嵌入模型提取用于预训练的基础类别集合中各类别的语义特征,使用所述预训练的词嵌入模型提取新类别集合中各类别的语义特征;
S3、基于语义相似度的样本选择,获取一个新类别样本的语义特征,并计算其与每一个基础类别的语义特征之间的距离,作为该新类别样本所属类别与所有基础类别的语义相似度,并在语义相似度最高的基础类别集合中进行备选样本选择;
S4、语义指导下的样本合成,合并基础类别的语义特征与新类别的语义特征,得到全体类别的语义特征,对其进行L2归一化处理,得到处理后的语义特征与语义判别器,使用所述新类别样本优化语义判别器,对所述新类别样本使用优化后的语义判别器计算其内容筛选率,对所述备选样本使用所述优化后的语义判别器计算其内容筛选率,并得到融合率,针对所述新类别样本及所述备选样本使用所述融合率合成新样本;
S5、语义监督下的双模态分类器设计,给定所述处理后的语义特征使用带泄露线性整流函数以及语义分类矩阵构造语义监督的分类器,通过视觉分类矩阵定义视觉分类器,合并所述视觉分类器与语义监督的分类器得到双模态分类器;
S6、模型训练与测试,依据所述步骤S1对基础类别样本、新类别样本提取视觉特征及类别标签,并依据所述步骤S2对各类别样本提取语义特征,依据所述步骤S3对新类别样本进行备选样本选择,再依据所述步骤S4对新类别样本与所选备选样本合成新样本;利用梯度下降算法训练所述双模态分类器,当训练迭代次数达到设定的次数时,停止训练,得到训练后的双模态分类器,用于预测新图像样本的类别。
更进一步地,计算所述双模态分类器的损失函数,以更新模型各部分的参数。
更进一步地,所述步骤S1中,对输入图像进行特征提取包括以下具体步骤:
S1.1、获取用于预训练的自然图像样本集合,输入预训练的CNN模型提取其视觉特征及其基础类别标签集合,表示为:,其中,表示第个自然图像样本的视觉特征,且,表示视觉特征的维度,表示第个自然图像样本的基础类别标签,且,表示自然图像样本的基础类别集合,表示自然图像样本的基础类别数量,表示每个基础类别中的自然图像样本数量;
S1.2、获取新类别图像样本集合,输入所述预训练的CNN模型提取其视觉特征及其类别标签集合,表示为:,其中,表示第个新类别样本的视觉特征,且,表示第个新类别样本的类别标签,且,表示新类别样本的类别集合,且满足,表示新类别样本的类别数量,表示每个新类别中的样本数量。
更进一步地,所述步骤S2中,对语义信息进行特征提取包括以下具体步骤:
S2.1、使用预训练的词嵌入模型提取基础类别集合中各类别的语义特征,表示为:,其中,表示第个基础类别的语义特征,且,表示语义特征的维度;
S2.2、使用预训练的词嵌入模型提取新类别集合中各类别的语义特征,表示为:,其中,表示第个新类别的语义特征,且,表示语义特征的维度。
更进一步地,所述步骤S3中,基于语义相似度的样本选择包括以下具体步骤:
S3.1、获取第个新类别样本的视觉特征以及类别标签,其对应类别的语义特征记为,计算其语义特征与第个基础类别的语义特征之间的距离,并作为第个新类别样本所属类别与第个基础类别的语义相似度,从而得到第个新类别样本所属类别与所有基础类别的语义相似度,且,表示为:,其中,表示与的向量内积,、分别表示、的L2范式;
S3.2、从第个新类别样本的语义相似度中选择相似度最高的基础类别集合,记为,并将中的所有样本的视觉特征与类别标签作为备选集,表示为:,其中,表示备选集中第k个样本的视觉特征与类别标签,将其作为备选样本进行样本合成。
更进一步地,所述步骤S4中,语义指导下的样本合成包括以下具体步骤:
S4.1、合并基础类别的语义特征与新类别的语义特征,得到全体类别的语义特征,对其进行L2归一化处理,得到处理后的语义特征,;
S4.2、给定处理后的语义特征构造语义判别器,表示为:,其中,为映射矩阵,,且;
S4.3、利用损失函数优化语义判别器,得到优化后的语义判别器,表示为:
,其中,表示交叉熵损失函数,与分别表示第个新类别样本的视觉特征以及类别标签;
S4.4、对于第个新类别样本,计算其在全部类别上的得分,表示为:,其中,为归一化指数函数,为第个新类别样本的视觉特征,表示在中选择其在第个新类别样本所属类别的得分作为第个新类别样本的内容筛选率;
S4.5、对于所述的备选样本,计算其在全部类别上的得分,表示为:,其中,为备选样本的视觉特征,表示在中选择其在第个新类别样本所属类别的得分作为其内容筛选率;
S4.6、对于第个新类别样本及所述备选样本,计算其融合率,表示为:;
S4.7、对于第个新类别样本及所述备选样本,合成新样本的视觉特征及其对应的类别标签,得到合成的新样本的视觉特征及其类别标签为,表示为:,表示为:。
更进一步地,所述步骤S5中,语义监督下的双模态分类器设计包括以下具体步骤:
S5.1、给定所述处理后的语义特征构造语义监督的分类器,表示为:,其中,为带泄露线性整流函数,为连接矩阵,且,为语义分类矩阵,且;
S5.2、定义对语义监督的分类器的损失函数,表示为:,其中,为多标签交叉熵损失函数,为语义监督的分类器,、分别为新类别样本的视觉特征、类别标签,、分别为合成的新样本的视觉特征、类别标签;
S5.3、定义视觉分类器,表示为:,其中,为视觉分类矩阵,且;
S5.4、定义视觉分类器的损失函数,表示为:,其中,为多标签交叉熵损失函数,为视觉分类器,、分别为新类别样本的视觉特征、类别标签,、分别为合成的新样本的视觉特征、类别标签;
S5.5、定义双模态分类器,表示为:,其中,为调和因子。
更进一步地,所述步骤S6中,模型训练与测试包括以下具体步骤:
S6.1、由所述特征提取模块对基础类别样本、新类别样本提取视觉特征及类别标签,并对各类别提取语义特征,由所述基于语义相似度的样本选择模块对新类别样本进行备选样本选择,由所述语义指导下的样本合成模块对新类别样本与所选备选样本合成新样本;
S6.2、构造总损失函数,表示为:,其中,、、分别为调和因子,、、分别为所述语义判别器、基于语义监督的分类器以及视觉分类器的损失函数;
S6.3、利用梯度下降算法训练所述双模态分类器,并计算损失函数,以更新模型各部分的参数,当训练迭代次数达到设定的次数时,停止训练,得到训练后的双模态分类器,用于预测新图像样本的类别。
第二方面,本发明提供了一种图像处理装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行所述计算机可执行指令,所述计算机可执行指令被所述处理器运行时实现所述的小样本图像分类方法。
第三方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现所述的小样本图像分类方法。
与现有技术相比,本发明的有益效果在于:
本发明提出了语义信息应用在小样本分类方法中的作用,并设计了一种基于语义指导的小样本图像分类方法,通过引入语义信息,并将语义信息集成到数据合成与分类器设计中,提升了对新类别数据分布的描述能力,提升了图像分类准确率。
本发明在数据生成中通过语义相关性过滤了不相关的基础类别信息,并通过语义判别器精准分析样本间的差异产生融合率,相较于常见的数据生成的方法过滤了噪声,缓解了类别的差异,并且生成方式简单,提高了分类器的效率。
本发明将语义信息作为监督信号引入到分类器设计中,并设计了双模态分类器,提升了分类器对新类别数据分布的感知能力,为新类别构建了自适应和灵活的分类边界。
本发明通过将语义信息引入到视觉特征生成与分类器设计中,基于不同类别间的语义相似性与语义判别器生成新样本,并基于语义监督设计了双模态分类器,缓解了类别差异,完善了对新类别的描述,提升了分类器对新类别的响应能力,提高了分类器对小样本图像分类的准确度。
附图说明
图1为本发明的实施例1中基于语义指导的小样本图像分类方法的流程图;
图2为本发明的实施例1中基于语义指导的小样本图像分类模型示意图;
图3为本发明的实施例1中语义指导下的样本合成示意图;
图4为本发明的实施例1中语义监督下的双模态分类器的设计示意图。
具体实施方式
实施例1:
参照图1和图2,本实施例公开了一种基于语义指导的小样本图像分类方法,该图像分类方法包括以下步骤:
S1、对输入图像进行特征提取,在引入语义信息之前,首先通过在基础类别上预训练的CNN模型将来自基础类别和新类别的图像样本及其所属类别表示为视觉特征及类别标签形式。对输入图像进行特征提取包括以下具体步骤:
S1.1、获取用于预训练的自然图像样本集合,输入预训练的CNN模型提取其视觉特征及其基础类别标签集合,表示为:,其中,表示第个自然图像样本的视觉特征,且,表示视觉特征的维度,表示第个自然图像样本的基础类别标签,且,表示自然图像样本的基础类别集合,表示自然图像样本的基础类别数量,表示每个基础类别中的自然图像样本数量;
S1.2、获取新类别图像样本集合,输入所述预训练的CNN模型提取其视觉特征及其类别标签集合,表示为:,其中,表示第个新类别样本的视觉特征,且,表示第个新类别样本的类别标签,且,表示新类别样本的类别集合,且满足,表示新类别样本的类别数量,表示每个新类别中的样本数量。
S2、对语义信息进行特征提取,为了将语义信息引入到视觉特征合成与分类器设计中,首先通过预训练的词嵌入方法将基础类别和新类别的语义信息转化为特征表示。对语义信息进行特征提取包括以下具体步骤:
S2.1、使用预训练的词嵌入模型提取基础类别集合中各类别的语义特征,表示为:,其中,表示第个基础类别的语义特征,且,表示语义特征的维度;
S2.2、使用预训练的词嵌入模型提取新类别集合中各类别的语义特征,表示为:,其中,表示第个新类别的语义特征,且,表示语义特征的维度。
S3、为了实现基于语义相似度的样本选择,首先计算各新类别的语义特征与所有基础类别的语义特征的相似度关系,对于每一个新类别的语义特征,计算其与所有基础类别的语义特征的Cosine距离作为其语义相似度,然后从与当前新类别语义相似度最近的基础类别中选择备选样本进行样本合成。基于语义相似度的样本选择包括以下具体步骤:
S3.1、获取第个新类别样本的视觉特征以及类别标签,其对应类别的语义特征记为,计算其语义特征与第个基础类别的语义特征之间的距离,并作为第个新类别样本所属类别与第个基础类别的语义相似度,从而得到第个新类别样本所属类别与所有基础类别的语义相似度,且,表示为:
,其中,表示与的向量内积,、分别表示、的L2范式;
S3.2、从第个新类别样本的语义相似度中选择相似度最高的基础类别集合,记为,并将中的所有样本的视觉特征与类别标签作为备选集,表示为:,其中,表示备选集中第k个样本的视觉特征与类别标签,将其作为备选样本进行样本合成。
S4、语义指导下的样本合成,参照图3,语义指导下的样本合成包括以下具体步骤:
S4.1、合并基础类别的语义特征与新类别的语义特征,得到全体类别的语义特征,对其进行L2归一化处理,得到处理后的语义特征,;
S4.2、给定处理后的语义特征构造语义判别器,表示为:,其中,为映射矩阵,通过映射矩阵将语义特征映射到视觉空间,,且;
S4.3、利用损失函数优化语义判别器,得到优化后的语义判别器,表示为:
,其中,表示交叉熵损失函数,与分别表示第个新类别样本的视觉特征以及类别标签;
S4.4、对于第个新类别样本,计算其在全部类别上的得分,表示为:,其中,为归一化指数函数,为第个新类别样本的视觉特征,表示在中选择其在第个新类别样本所属类别的得分作为第个新类别样本的内容筛选率;
S4.5、对于所述的备选样本,计算其在全部类别上的得分,表示为:,其中,为备选样本的视觉特征,表示在中选择其在第个新类别样本所属类别的得分作为其内容筛选率;
S4.6、使用优化后的语义判别器精准区分新类别样本与备选样本,并得到融合率,对于第个新类别样本及所述备选样本,计算其融合率,表示为:;
S4.7、对于第个新类别样本及所述备选样本,合成新样本的视觉特征及其对应的类别标签,得到合成的新样本的视觉特征及其类别标签为,表示为:,表示为:。
S5、语义监督下的双模态分类器设计,参照图4,语义监督下的双模态分类器设计包括以下具体步骤:
S5.1、给定所述处理后的语义特征构造语义监督的分类器,表示为:,其中,为带泄露线性整流函数,为连接矩阵,且,为语义分类矩阵,且;
S5.2、定义对语义监督的分类器的损失函数,表示为:,其中,为多标签交叉熵损失函数,为语义监督的分类器,、分别为新类别样本的视觉特征、类别标签,、分别为合成的新样本的视觉特征、类别标签;
S5.3、定义视觉分类器,表示为:,其中,为视觉分类矩阵,且;
S5.4、定义视觉分类器的损失函数,表示为:,其中,为多标签交叉熵损失函数,为视觉分类器,、分别为新类别样本的视觉特征、类别标签,、分别为合成的新样本的视觉特征、类别标签;
S5.5、定义双模态分类器,表示为:,其中,为调和因子,本实施例中,。
S6、模型训练与测试,包括以下具体步骤:
S6.1、由所述特征提取模块对基础类别样本、新类别样本提取视觉特征及类别标签,并对各类别提取语义特征,由所述基于语义相似度的样本选择模块对新类别样本进行备选样本选择,由所述语义指导下的样本合成模块对新类别样本与所选备选样本合成新样本;
S6.2、构造总损失函数,表示为:,其中,、、分别为调和因子,本实施例中,,、、分别为所述语义判别器、基于语义监督的分类器以及视觉分类器的损失函数;
S6.3、利用梯度下降算法训练所述双模态分类器,并计算损失函数,以更新模型各部分的参数,当训练迭代次数达到设定的次数时,停止训练,得到训练后的双模态分类器,用于预测新图像样本的类别。
实施例2:
本实施例公开了一种图像处理装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行所述计算机可执行指令,所述计算机可执行指令被所述处理器运行时实现所述的小样本图像分类方法。
实施例3:
本实施例公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现所述的小样本图像分类方法。
Claims (6)
1.一种基于语义指导的小样本图像分类方法,其特征是,该图像分类方法包括以下步骤:
S1、对输入图像进行特征提取,获取用于预训练的自然图像样本集合,输入预训练的CNN模型提取其视觉特征及其基础类别标签集合,再获取新类别图像样本集合,输入所述预训练的CNN模型提取其视觉特征及其类别标签集合;对输入图像进行特征提取包括以下具体步骤:
S1.1、获取用于预训练的自然图像样本集合,输入预训练的CNN模型提取其视觉特征及其基础类别标签集合Dbase,Dbase表示为:其中,表示第i个自然图像样本的视觉特征,且dv表示视觉特征的维度,表示第i个自然图像样本的基础类别标签,且Cbase表示自然图像样本的基础类别集合,|Cbase|表示自然图像样本的基础类别数量,Nbase表示每个基础类别中的自然图像样本数量;
S1.2、获取新类别图像样本集合,输入所述预训练的CNN模型提取其视觉特征及其类别标签集合Dnovel,Dnovel表示为:其中,表示第j个新类别样本的视觉特征,且表示第j个新类别样本的类别标签,且Cnovel表示新类别样本的类别集合,且满足Cnovel∩Cbase=φ,|Cnovel|表示新类别样本的类别数量,Nnovel表示每个新类别中的样本数量;
S2、对语义信息进行特征提取,使用预训练的词嵌入模型提取用于预训练的基础类别集合中各类别的语义特征,使用所述预训练的词嵌入模型提取新类别集合中各类别的语义特征;对语义信息进行特征提取包括以下具体步骤:
S2.1、使用预训练的词嵌入模型提取基础类别集合Cbase中各类别的语义特征Tbase,Tbase表示为:其中,表示第m个基础类别的语义特征,且dt表示语义特征的维度;
S2.2、使用预训练的词嵌入模型提取新类别集合Cnovel中各类别的语义特征Tnovel,Tnovel表示为:其中,表示第n个新类别的语义特征,且dt表示语义特征的维度;
S3、基于语义相似度的样本选择,获取一个新类别样本的语义特征,并计算其与每一个基础类别的语义特征之间的距离,作为该新类别样本所属类别与所有基础类别的语义相似度,并在语义相似度最高的基础类别集合中进行备选样本选择;基于语义相似度的样本选择包括以下具体步骤:
S3.1、获取第j个新类别样本的视觉特征以及类别标签其对应类别的语义特征记为计算其语义特征与第m个基础类别的语义特征之间的距离并作为第j个新类别样本所属类别与第m个基础类别的语义相似度,从而得到第j个新类别样本所属类别与所有基础类别的语义相似度RS(j),且表示为:
其中,表示与的向量内积,分别表示的L2范式;
S3.2、从第j个新类别样本的语义相似度RS(j)中选择相似度最高的基础类别集合,记为Cr,并将Cr中的所有样本的视觉特征与类别标签作为备选集Dcandidate,Dcandidate表示为:其中,表示备选集Dcandidate中第k个样本的视觉特征与类别标签,将其作为备选样本进行样本合成;
S4、语义指导下的样本合成,合并基础类别的语义特征与新类别的语义特征,得到全体类别的语义特征,对其进行L2归一化处理,得到处理后的语义特征与语义判别器,使用所述新类别样本优化语义判别器,对所述新类别样本使用优化后的语义判别器计算其内容筛选率,对所述备选样本使用所述优化后的语义判别器计算其内容筛选率,并得到融合率,针对所述新类别样本及所述备选样本使用所述融合率合成新样本;语义指导下的样本合成包括以下具体步骤:
S4.1、合并基础类别的语义特征Tbase与新类别的语义特征Tnovel,得到全体类别的语义特征T={Tbase,Tnovel},对其进行L2归一化处理,得到处理后的语义特征
S4.2、给定处理后的语义特征构造语义判别器Ω,Ω表示为:其中,Wd为映射矩阵,且
S4.3、利用损失函数Ld优化语义判别器Ω,得到优化后的语义判别器Ld表示为:
其中,CE表示交叉熵损失函数,与分别表示第j个新类别样本的视觉特征以及类别标签;
S4.4、对于第j个新类别样本,计算其在全部类别上的得分表示为:其中,Softmax为归一化指数函数,为第j个新类别样本的视觉特征,表示在中选择其在第j个新类别样本所属类别的得分作为第j个新类别样本的内容筛选率;
S4.5、对于所述的备选样本,计算其在全部类别上的得分表示为:其中,为备选样本的视觉特征,表示在中选择其在第j个新类别样本所属类别的得分作为其内容筛选率;
S4.6、对于第j个新类别样本及所述备选样本,计算其融合率αj,αj表示为:
S4.7、对于第j个新类别样本及所述备选样本,合成新样本的视觉特征及其对应的类别标签得到合成的新样本的视觉特征及其类别标签为表示为:
表示为:
S5、语义监督下的双模态分类器设计,给定所述处理后的语义特征使用带泄露线性整流函数以及语义分类矩阵构造语义监督的分类器,通过视觉分类矩阵定义视觉分类器,合并所述视觉分类器与语义监督的分类器得到双模态分类器;
S6、模型训练与测试,依据所述步骤S1对基础类别样本、新类别样本提取视觉特征及类别标签,并依据所述步骤S2对各类别样本提取语义特征,依据所述步骤S3对新类别样本进行备选样本选择,再依据所述步骤S4对新类别样本与所选备选样本合成新样本;利用梯度下降算法训练所述双模态分类器,当训练迭代次数达到设定的次数时,停止训练,得到训练后的双模态分类器,用于预测新图像样本的类别。
2.根据权利要求1所述的基于语义指导的小样本图像分类方法,其特征是,计算所述双模态分类器的损失函数,以更新模型各部分的参数。
3.根据权利要求1所述的基于语义指导的小样本图像分类方法,其特征是,所述步骤S5中,语义监督下的双模态分类器设计包括以下具体步骤:
S5.1、给定所述处理后的语义特征构造语义监督的分类器Γt,Γt表示为:其中,LeakyReLU为带泄露线性整流函数,A为连接矩阵,且A∈Rdt×dv,Wt为语义分类矩阵,且Wt∈Rdv×dv;
S5.2、定义对语义监督的分类器的损失函数Lt,Lt表示为:
其中,MCE为多标签交叉熵损失函数,Γt为语义监督的分类器,分别为新类别样本的视觉特征、类别标签,分别为合成的新样本的视觉特征、类别标签;
S5.3、定义视觉分类器Γv,Γv表示为:Γv=Wv,其中,Wv为视觉分类矩阵,且
S5.4、定义视觉分类器的损失函数Lv,Lv表示为:
其中,MCE为多标签交叉熵损失函数,Γv为视觉分类器,分别为新类别样本的视觉特征、类别标签,分别为合成的新样本的视觉特征、类别标签;
S5.5、定义双模态分类器Γ,Γ表示为:Γ=λΓv+(1-λ)Γt,其中,λ为调和因子。
4.根据权利要求1所述的基于语义指导的小样本图像分类方法,其特征是,所述步骤S6中,模型训练与测试包括以下具体步骤:
S6.1、由所述特征提取模块对基础类别样本、新类别样本提取视觉特征及类别标签,并对各类别提取语义特征,由所述基于语义相似度的样本选择模块对新类别样本进行备选样本选择,由所述语义指导下的样本合成模块对新类别样本与所选备选样本合成新样本;
S6.2、构造总损失函数L,L表示为:L=μ1Ld+μ2Lt+μ3Lv,其中,μ1、μ2、μ3分别为调和因子,Ld、Lt、Lv分别为所述语义判别器、基于语义监督的分类器以及视觉分类器的损失函数;
S6.3、利用梯度下降算法训练所述双模态分类器Γ,并计算损失函数L,以更新模型各部分的参数,当训练迭代次数达到设定的次数时,停止训练,得到训练后的双模态分类器Γ*,用于预测新图像样本的类别。
5.一种图像处理装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行所述计算机可执行指令,其特征在于,所述计算机可执行指令被所述处理器运行时实现权利要求1~4任一项所述的小样本图像分类方法。
6.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时实现权利要求1~4任一项所述的小样本图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310760519.9A CN116503674B (zh) | 2023-06-27 | 2023-06-27 | 一种基于语义指导的小样本图像分类方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310760519.9A CN116503674B (zh) | 2023-06-27 | 2023-06-27 | 一种基于语义指导的小样本图像分类方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116503674A CN116503674A (zh) | 2023-07-28 |
CN116503674B true CN116503674B (zh) | 2023-10-20 |
Family
ID=87323444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310760519.9A Active CN116503674B (zh) | 2023-06-27 | 2023-06-27 | 一种基于语义指导的小样本图像分类方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503674B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985538A (zh) * | 2020-07-27 | 2020-11-24 | 成都考拉悠然科技有限公司 | 基于语义辅助注意力机制的小样本图片分类模型及方法 |
CN112464983A (zh) * | 2020-10-28 | 2021-03-09 | 吉林大学 | 一种用于苹果树叶病害图像分类的小样本学习方法 |
WO2021051987A1 (zh) * | 2019-09-18 | 2021-03-25 | 华为技术有限公司 | 神经网络模型训练的方法和装置 |
CN113920379A (zh) * | 2021-11-09 | 2022-01-11 | 北京工业大学 | 一种基于知识辅助的零样本图像分类方法 |
CN114882287A (zh) * | 2022-05-25 | 2022-08-09 | 西安理工大学 | 基于语义关系图的图像分类方法 |
CN115019083A (zh) * | 2022-05-11 | 2022-09-06 | 长春理工大学 | 基于少样本学习的词嵌入图神经网络的细粒度图分类方法 |
CN115131613A (zh) * | 2022-07-01 | 2022-09-30 | 中国科学技术大学 | 一种基于多向知识迁移的小样本图像分类方法 |
CN115965818A (zh) * | 2023-01-10 | 2023-04-14 | 中国科学技术大学 | 一种基于相似度特征融合的小样本图像分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797893B (zh) * | 2020-05-26 | 2021-09-14 | 华为技术有限公司 | 一种神经网络的训练方法、图像分类系统及相关设备 |
CN112966522B (zh) * | 2021-03-03 | 2022-10-14 | 北京百度网讯科技有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
-
2023
- 2023-06-27 CN CN202310760519.9A patent/CN116503674B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051987A1 (zh) * | 2019-09-18 | 2021-03-25 | 华为技术有限公司 | 神经网络模型训练的方法和装置 |
CN111985538A (zh) * | 2020-07-27 | 2020-11-24 | 成都考拉悠然科技有限公司 | 基于语义辅助注意力机制的小样本图片分类模型及方法 |
CN112464983A (zh) * | 2020-10-28 | 2021-03-09 | 吉林大学 | 一种用于苹果树叶病害图像分类的小样本学习方法 |
CN113920379A (zh) * | 2021-11-09 | 2022-01-11 | 北京工业大学 | 一种基于知识辅助的零样本图像分类方法 |
CN115019083A (zh) * | 2022-05-11 | 2022-09-06 | 长春理工大学 | 基于少样本学习的词嵌入图神经网络的细粒度图分类方法 |
CN114882287A (zh) * | 2022-05-25 | 2022-08-09 | 西安理工大学 | 基于语义关系图的图像分类方法 |
CN115131613A (zh) * | 2022-07-01 | 2022-09-30 | 中国科学技术大学 | 一种基于多向知识迁移的小样本图像分类方法 |
CN115965818A (zh) * | 2023-01-10 | 2023-04-14 | 中国科学技术大学 | 一种基于相似度特征融合的小样本图像分类方法 |
Non-Patent Citations (6)
Title |
---|
SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot Learning;Fengyuan Yang 等;《IEEE》;1056-1066 * |
Zero and Few Shot Learning with Semantic Feature Synthesis and Competitive Learning;Zhiwu Lu 等;《arXiv:1810.08332v1》;1-13 * |
基于先验知识迁移的小样本学习方法研究;李明熹;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-461 * |
基于小样本图像分类的算法研究与实现;段嘉铭;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-2220 * |
基于小样本学习的图像分类技术综述;刘颖 等;《自动化学报》;第第47卷卷(第第2期期);1-19 * |
基于显著性多模态小样本学习方法之研究;姚苏丹;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-2205 * |
Also Published As
Publication number | Publication date |
---|---|
CN116503674A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Mdnet: A semantically and visually interpretable medical image diagnosis network | |
CN114038037B (zh) | 基于可分离残差注意力网络的表情标签修正和识别方法 | |
CN105631479A (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
JP2020516897A (ja) | 検査方法及び検査設備 | |
CN111694954B (zh) | 图像分类方法、装置和电子设备 | |
Tavakoli | Seq2image: Sequence analysis using visualization and deep convolutional neural network | |
CN115965818A (zh) | 一种基于相似度特征融合的小样本图像分类方法 | |
Arshed et al. | A light weight deep learning model for real world plant identification | |
CN117611576A (zh) | 一种基于图文融合对比学习预测方法 | |
Vanitha et al. | An Enhanced Handwritten Digit Recognition Using Convolutional Neural Network | |
CN115409804A (zh) | 一种乳腺磁共振影像的病灶区域识别标注及疗效预测方法 | |
Li et al. | HEp-2 specimen classification via deep CNNs and pattern histogram | |
Dhawan et al. | Deep Learning Based Sugarcane Downy Mildew Disease Detection Using CNN-LSTM Ensemble Model for Severity Level Classification | |
CN114841151A (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN116935411A (zh) | 一种基于字符分解和重构的部首级古文字识别方法 | |
Singh et al. | Cucumber leaf disease detection and classification using a deep convolutional neural network | |
Rahman et al. | A CNN Model-based ensemble approach for Fruit identification using seed | |
Si | Analysis of calligraphy Chinese character recognition technology based on deep learning and computer-aided technology | |
CN116503674B (zh) | 一种基于语义指导的小样本图像分类方法、装置及介质 | |
Fan et al. | A medical pre-diagnosis system for histopathological image of breast cancer | |
CN113158878B (zh) | 一种基于子空间的异构迁移故障诊断方法、系统和模型 | |
Yang et al. | Classification and localization of maize leaf spot disease based on weakly supervised learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |