CN117274578B - 基于逻辑元变换乘积量化的细粒度图像检索方法及系统 - Google Patents

基于逻辑元变换乘积量化的细粒度图像检索方法及系统 Download PDF

Info

Publication number
CN117274578B
CN117274578B CN202311569672.XA CN202311569672A CN117274578B CN 117274578 B CN117274578 B CN 117274578B CN 202311569672 A CN202311569672 A CN 202311569672A CN 117274578 B CN117274578 B CN 117274578B
Authority
CN
China
Prior art keywords
image
fine
quantization
convolutional neural
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311569672.XA
Other languages
English (en)
Other versions
CN117274578A (zh
Inventor
马雷
罗欣
洪汉玉
时愈
朱映
吴锦梦
王磊
张耀宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202311569672.XA priority Critical patent/CN117274578B/zh
Publication of CN117274578A publication Critical patent/CN117274578A/zh
Application granted granted Critical
Publication of CN117274578B publication Critical patent/CN117274578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于逻辑元变换乘积量化的细粒度图像检索方法,包括步骤:将待测图像导入卷积神经网络提取特征,输出最后一层的特征谱;再通过区域候选网络RPN将最后一层的特征谱生成Top‑N个部件,重新输入至卷积神经网络中,并将原始待测图像和Top‑N部件经过卷积神经网络后的最后三层特征进行融合级联;将融合级联后的输出特征通过线性投影生成相应的逻辑元,再通过逻辑元变换对生成的逻辑元向量重新加权;将重新加权后的逻辑元向量输入到细粒度图像检索模型,通过量化码书进行计算找到与待测图像的逻辑元向量最接近的数据库图像对应的量化码,将所对应的数据库图像作为检索结果。本发明能够通过挖掘图像中最具辨别力的区域,提高细粒度图像检索的精度。

Description

基于逻辑元变换乘积量化的细粒度图像检索方法及系统
技术领域
本发明涉及深度学习细粒度图像检索技术领域,尤其涉及一种基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法及系统。
背景技术
细粒度图像检索(fine-grained image retrieval, FGIR)旨在识别某一对象类别内子类别之间的细微变化,并根据感兴趣的概念对所有实例进行排序,可用于多个应用领域,如智能零售、智能交通、生物多样性监测。细粒度图像数据集所包含的图像视觉相似性远高于一般图像检索任务,并且在关键部位区域(如鸟眼、头部或尾部等)存在细微的视觉差异。由于类间差异细微,类内差异显著,细粒度图像检索是一项极具挑战性的任务,需要同时定位判别区域和识别细微的视觉差异。此外,大规模细粒度图像检索任务还需要考虑存储成本和计算效率,在搜索精度和搜索效率之间取得平衡。以往的研究大多侧重于孤立地定位有区分力的图像区域,但很少利用有区分力的图像区域之间的相关性来缓解类内差异。此外,嵌入特征的类内紧密性通过只在训练阶段存在的额外正则化项来保证,这在推理阶段似乎泛化得不太好。
发明内容
本发明主要目的在于提供一种可降低嵌入特征的类内方差,增强量化模型的学习能力,使近似最近邻搜索与图像分类一致的基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法及系统。
本发明所采用的技术方案是:
提供一种基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法,包括以下步骤:
S1、导入待测图像;
S2、通过预先训练好的卷积神经网络提取特征,并输出该卷积神经网络最后一层的特征谱;
S3、通过区域候选网络RPN将最后一层的特征谱生成Top-N个部件;
S4、将生成的Top-N个部件重新输入至卷积神经网络中,并将原始待测图像和Top-N部件经过卷积神经网络后的最后三层特征进行融合级联;
S5、将融合级联后的输出特征通过线性投影生成相应的逻辑元,再通过逻辑元变换对生成的逻辑元向量重新加权;
S6、 将重新加权后的逻辑元向量输入到预先构建并训练好的细粒度图像检索模型;该细粒度图像检索模型包括软量化层、损失层和搜索层,在模型训练过程中通过该软量化层对样本图像生成的逻辑元向量进行量化,生成紧凑有判别力的量化码;通过损失层增强量化码的特征表示能力,并生成量化码书;该损失层为基于分类损失函数和基于知识蒸馏的度量损失构建而成,用于约束量化码的生成;检索时,该搜索层通过量化码书进行计算找到与待测图像的逻辑元向量最接近的数据库图像对应的量化码,将所对应的数据库图像作为检索结果。
接上述技术方案,通过渐进式策略训练卷积神经网络。
接上述技术方案,卷积神经网络训练的过程中,区域候选网络RPN输出的的Top-N个部件重新输入至卷积神经网络后,通过增加通道跨部件交互Transformer对输出结果进行跨部件交互,并根据跨部件交互生成交叉熵损失对卷积神经网络进行训练约束。
接上述技术方案,步骤S2还包括利用因果上下文池对卷积神经网络输出的最后一层的特征谱进行特征谱增强。
接上述技术方案,特征谱增强的具体过程为:从因果上下文池中取最大概率类,然后将最大概率类重新投影到最后一层的特征谱中,通过融合特征谱中最大预测类的索引对应的类激活图来更新得到增强特征谱。
接上述技术方案,卷积神经网络为残差网络ResNet18。
接上述技术方案,在细粒度图像检索模型训练过程中,采用训练样本集,通过自动微分技术、使用基于随机梯度下降和反向传播算法,根据总损失函数优化预先构建的细粒度图像检索模型。
接上述技术方案,步骤S6中,在检索过程中,计算待测图像的逻辑元向量中每个子向量与属于相应量化码书的每个码字之间的相似度量值,并根据该相似度量值找到与逻辑元向量/>距离最接近的数据库图像量化码,通过查询最接近量化码对应的数据库图像,找到与待测图像最接近的数据库图像。
本发明还提供一种基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索系统,包括:
输入模块,用于导入待测图像;
特征谱提取模块,用于通过预先训练好的卷积神经网络提取特征,并输出该卷积神经网络最后一层的特征谱;
分区模块,用于通过区域候选网络RPN将最后一层的特征谱生成Top-N个部件;
级联模块,用于将生成的Top-N个部件重新输入至卷积神经网络中,并将原始待测图像和Top-N部件经过卷积神经网络后的最后三层特征进行融合级联;
特征过滤模块,用于将融合级联后的输出特征通过线性投影生成相应的逻辑元,再通过逻辑元变换对生成的逻辑元分布重新加权;
检索模块,用于将重新加权后的逻辑元向量输入到预先构建并训练好的细粒度图像检索模型;该细粒度图像检索模型包括软量化层、损失层和搜索层,在模型训练过程中通过该软量化层对样本图像生成的逻辑元向量进行量化,生成紧凑有判别力的量化码;通过损失层增强量化码的特征表示能力,并生成量化码书;该损失层为基于分类损失函数和基于知识蒸馏的度量损失构建而成,用于约束量化码的生成;检索时,该搜索层通过量化码书进行计算找到与待测图像的逻辑元向量最接近的数据库图像对应的量化码,将所对应的数据库图像作为检索结果。
本发明还提供一种计算机存储介质,其内存储有可被处理器执行的计算机程序,该计算机程序执行上述技术方案所述的基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法。
本发明产生的有益效果是:本发明通过部件生成来进行局部定位,过滤掉非显著区域,帮助模型专注于发现细微的局部差异,消除背景混杂因素的影响。通过选择逻辑元表示进行特征量化,利用逻辑元特征包含足够的语义信息的特性,有利于在后续量化过程中嵌入特定类的线索,进一步增强量化模型的学习能力。通过构建度量学习损失不仅可以考虑到嵌入特征和量化特征之间丰富的语义关系,而且可以实现嵌入特征和码字之间的深度联合学习。在细粒度图像检索模型的训练阶段,知识通过度量学习从嵌入特征向量化特征转移。使量化码能够从嵌入的特征中学习到更多的知识,来增强量化码的特征表示能力。总的来说,本发明能够通过挖掘图像中最具辨别力的区域,提高细粒度图像检索的精度。
进一步地,通过采用通道Transformer架构对特征进行跨部件交互,建立不同局部判别区域之间的相关关系。通过选择逻辑元表示进行特征量化,使得近似最近邻搜索可以根据后续的线性嵌入层跟上图像分类的步伐,并且可以直接控制类内方差和决策边界。逻辑元特征包含足够的语义信息,有利于在后续量化过程中嵌入特定类的线索,进一步增强量化模型的学习能力。
进一步地,本发明引入了知识蒸馏机制,将图像中隐藏的知识直接从逻辑元引入到嵌入特征(逻辑元向量)中。在训练阶段,知识通过相似度量学习从嵌入特征向量化特征转移。使量化码能够从嵌入特征中学习到更多的知识,来增强量化码的特征表示能力。从而不仅可以考虑到嵌入特征和量化特征之间丰富的语义关系,而且可以实现嵌入特征和码字之间的深度联合学习。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例1基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法的流程图;
图1b是本发明实施例2基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法的流程图;
图2是本发明实施例的训练过程示意图;
图3是本发明实施例的因果增强的部件生成模块示意图;
图4是本发明实施例的基于transformer的跨部件交互模块示意图;
图5是本发明实施例基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索系统框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
如图1a所示,本发明实施例基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法主要包括以下步骤:
S1、导入待测图像;
S2、通过预先训练好的卷积神经网络提取特征,并输出该卷积神经网络最后一层的特征谱;
S3、通过区域候选网络RPN将最后一层的特征谱生成Top-N个部件;
S4、将生成的Top-N个部件重新输入至卷积神经网络中,并将原始待测图像和Top-N部件经过卷积神经网络后的最后三层特征进行融合级联;
S5、将融合级联后的输出特征通过线性投影生成相应的逻辑元,再通过逻辑元变换对生成的逻辑元向量重新加权;
S6、 将重新加权后的逻辑元向量输入到预先构建并训练好的细粒度图像检索模型;该细粒度图像检索模型包括软量化层、损失层和搜索层,在模型训练过程中通过该软量化层对样本图像生成的逻辑元向量进行量化,生成紧凑有判别力的量化码;通过损失层增强量化码的特征表示能力,并生成量化码书;该损失层为基于分类损失函数和基于知识蒸馏的度量损失构建而成,用于约束量化码的生成;检索时,该搜索层通过量化码书进行计算找到与待测图像的逻辑元向量最接近的数据库图像对应的量化码,将所对应的数据库图像作为检索结果。
优选地,该实施例可以选择残差网络ResNet18作为卷积神经网络,该残差网络ResNet18可通过渐进式策略训练卷积神经网络。一般ResNet18架构由五个阶段组成,为了保持网络各阶段特征的独立性,提高模型的泛化能力,可对3-5阶段的特征映射引入渐进式策略训练。
进一步地,卷积神经网络训练的过程中,区域候选网络RPN输出的的Top-N个部件重新输入至卷积神经网络后,通过增加通道跨部件交互Transformer对输出结果进行跨部件交互,并根据跨部件交互生成交叉熵损失对卷积神经网络进行训练约束。
步骤S2还包括利用因果上下文池对卷积神经网络输出的最后一层的特征谱进行特征谱增强。
特征谱增强的具体过程为:从因果上下文池中取最大概率类,然后将最大概率类重新投影到最后一层的特征谱中,通过融合特征谱中最大预测类的索引对应的类激活图来更新得到增强特征谱。
在细粒度图像检索模型训练过程中,采用训练样本集,通过自动微分技术、使用基于随机梯度下降和反向传播算法,根据总损失函数优化预先构建的细粒度图像检索模型。
优选地,步骤S6中,在检索过程中,计算待测图像的逻辑元向量中每个子向量与属于相应量化码书的每个码字之间的相似度量值,并根据该相似度量值找到与逻辑元向量距离最接近的数据库图像量化码,通过查询最接近量化码对应的数据库图像,找到与待测图像最接近的数据库图像。
本发明能够通过挖掘图像中最具辨别力的区域,提高细粒度图像检索的精度。在步骤S2中,引入的一个因果上下文模块通过融合特征谱中最大预测类的类激活图,可以有效地利用上下文信息,促使模型生成的特征谱更加关注具有判别力的区域。在步骤S3中,因果上下文模块增强后的特征谱通过区域候选网络RPN能够提取出最具辨别力的区域。从而挖掘出图像中最具辨别力的区域,提高细粒度图像检索的精度。
实施例2
该实施例基于实施例1,区别在于提供了模型的详细训练及测试过程。
参见图1b及图2,该实施例的基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法中模型训练主要包括以下步骤:
S1:导入原始图像数据集,并将原始图像数据集划分为图像训练集和图像测试集。此外,可将图像训练集和图像测试集分别作为数据库和查询集。在检索中,通常会使用查询集和检索集。查询集是需要进行检索的一组数据,而检索集是存储在数据库或文件库中的所有数据。本发明这里的数据库就是检索集。在测试阶段,将查询集的数据在数据库中进行检索。;
S2:通过卷积神经网络(如残差网络ResNet18)建立特征提取网络,用渐进式策略训练该残差网络;输入原始训练图像,通过残差网络ResNet18后输出ResNet18在最后一层的特征谱,利用因果上下文池对输出的特征进行增强,随后通过基于区域候选网络(RPN)生成Top-N个部件;
S3:生成的Top-N个部件重新输入至特征提取网络中,每个部件经过特征提取网络后输出的特征谱,利用通道Transformer进行跨部件交互;原始图像和提取的Top-N部件经过特征提取网络后的最后三层特征进行融合级联,线性投影后将其送入逻辑元变换模块,对生成的逻辑元分布重新加权;
S4: 构建细粒度图像检索模型,包括软量化层、损失层和搜索层。其中在构建软量化层时,在软量化层利用多码书对重新加权后的逻辑元向量量化,生成紧凑有判别力的量化码;定义分类损失函数和基于知识蒸馏的度量损失函数,并根据分类损失函数和基于知识蒸馏的度量损失构建损失层;该搜索层主要用于在测试和检索时,计算并查询对应的数据库图像作为检索结果。
S5:利用图像训练集优化细粒度图像检索模型;在测试阶段,利用数据库和查询集对细粒度图像检索模型生成的量化码进行不对称距离计算,通过平均精度来测试检索性能;
进一步的,步骤S2中,具体包括以下步骤:
S21:建立部件生成网络,包括残差网络、因果上下文模块和区域候选网络;
S22:将图像训练集中的原始图像输入至ResNet18网络,得到残差网络最后一层的特征谱/>。ResNet架构由五个阶段组成。为了保持网络各阶段特征的独立性,提高模型的泛化能力,对3-5阶段的特征映射引入渐进式策略训练,具体描述如下:
其中,为第/>阶段提取的特征向量。/>为阶段3-5提取的连接特征向量。/>为平滑因子/>的光滑标签,/>是输入图像对应的标签,定义如下:
其中表示索引,/>为平滑因子,/>对应于真值类标签的索引。
S23:如图3所示,通过因果上下文模块中的因果上下文池对残差网络最后一层输出的特征谱进行增强,从因果上下文池/>中取/>,它对应于最大概率类。然后将/>重新投影到特征谱/>中,得到增强特征谱/>。同时,/>是通过融合/>中最大预测类的索引对应的类激活图来更新。具体描述如下:
其中表示哈达玛积。/>为特征谱/>中最大概率类的索引,/>为更新率。/>为特征谱/>中最大预测类索引对应的类激活图。
S24:将增强后特征谱送入至区域候选网络(RPN)生成Top-N个部件。具体而言,可采用特征金字塔结构获得两层特征图(由于输入图像的大小为256 × 256,所以ResNet18最后一层特征谱的输出大小为7×7,所以特征金字塔获得两层特征图是最优的选择),并将特征图上的锚点数量分别设置为6个。根据学习到的判别响应值,选取top-P 部件作为非极大值抑制的判别部分,对应的判别响应值为/>。这里排序损失来促进所选补丁的判别响应值/>与最终分类概率值/>之间的一致性:
该实施例通过部件生成来进行局部定位,过滤掉非显著区域,帮助模型专注于发现细微的局部差异,消除背景混杂因素的影响(需要展开描述)通过特征提取网络ResNet中最后一层特征利用因果上下文信息进行增强,突出特征谱中重要区域,抑制某些背景信息的影响。再通过区域候选网络(RPN)对这些重要区域进行定位,生成不同的部件。对于细粒度的图像检索,局部定位可以过滤掉非显著区域,帮助模型专注于发现细微的局部差异,消除背景混杂因素的影响。比如说在狗这个类别的数据集图像中,经常出现狗在草地上的场景,那训练的模型可能会把草地也识别成狗这个类别,所以这个背景混杂因素对模型训练影响极大,局部定位和因果上下文对模型消除背景混杂因素非常关键。
进一步的,步骤S3具体包括步骤:
S31:Top-N个部件调整为原始图像大小的一半,并输入到ResNet18中进行分类:
其中表示从第/>阶段提取的图像中选取的第/>个区域的特征向量。/>表示从阶段3-5中提取的连接特征向量。/>为平滑因子/>的光滑标签,/>是输入图像对应的标签。
S32:如图4所示,采用通道Transformer架构对特征进行跨部件交互。通过卷积将top-P 部件特征重塑为,在这些特征中加入位置嵌入(位置嵌入在网络中进行初始化,是一个随着模型更新的向量,可以自动学习更新,位置嵌入具体理解为每个部件所对应原图的位置编码),得到位置敏感嵌入/>。然后,取/>作为查询及其连接令牌/>作为键和值,具体描述如下:
其中,表示实例归一化,/>表示交叉注意。/>,/>和/>分别对应不同的权重。/>表示/>头交叉注意后的输出。/>和/>分别表示带残差结构的多层感知器和层归一化。将跨部件交互后的输出/>输入到分类器中,建立跨捕获部分区域的相互特征学习机制:
S33:将原始图像与通道沿线部分的多阶段融合的特征和/>串联起来,然后再进行线性投影层,得到逻辑元向量/>。然后,采用交叉熵(CE)损失对特征提取网络ResNet18进行训练:
为了减少逻辑元向量中的不同类别间干扰和同一类别的类内方差,使用了一种逻辑元变换方法来提高模型的学习能力。具体来说,首先为每个实例定义一个类引导过滤算子
其中返回最大值的索引。其次,引入了一个元素平方算子来提高模型的学习能力,它可以产生不连接的决策区域。最后,逻辑元变换模块的表达式为:
其中和/>是权重因子,/>是逻辑元向量,/>是类引导过滤算子。
该实施例采用通道Transformer架构对特征进行跨部件交互,建立不同局部判别区域之间的相关关系。通过选择逻辑元表示进行特征量化,使得近似最近邻搜索可以根据逻辑元向量生成的量化码跟上图像分类的步伐,并且通过变换逻辑元向量可以直接控制类内方差和决策边界,缓解细粒度图像本身类内方差大和聚类时产生的决策区域不能断开的缺点。逻辑元特征包含足够的语义信息,有利于在后续量化过程中嵌入特定类的线索,进一步增强量化模型的学习能力。
进一步的,步骤S4中,具体步骤为:
S41:建立细粒度图像检索模型的软量化层,包括量化过程和基于知识蒸馏的度量损失构建的损失层。
S42:在软量化层利用多码书(多码书和上面的位置嵌入同理,在网络中进行初始化,是一个随着模型更新的参数,随着模型训练可以自动学习更新。)对重新加权后的逻辑元向量量化,生成紧凑有判别力的量化码。首先利用全连通层将变换的逻辑元嵌入到/>维特征空间中,其中/>表示特定的子向量嵌入维数。然后,将嵌入向量/>拆分为M个子向量/>,用上述多码本编码来判别和紧凑量化码。为了提高这些子向量的判别能力,引入M个分类器对这些子向量/>进行训练,具体描述如下:
S43:利用嵌入特征向量和量化向量/>之间的细粒度语义关系,构建了基于对的度量学习损失:
其中标度参数/>和裕度/>是控制嵌入体相对硬度的两个超参数,决定了推拉强度。/>可以看作是训练批中所有代理/>的集合,/>表示同一类别的正代理的集合。对于每个代理/>的训练批样本分为正嵌入向量和负嵌入向量。其次,采用知识蒸馏机制来防止量化时量化码对于某些细节特征丢失,从而增强量化码的特征表示能力:
式中表示softmax层后的输出。因此,量化层的损失可表示为:
其中和/>是两个平衡因子。最后,模型的总损失/>表示为:
其中是权重因子。
该实施例建立了一种基于对的度量学习损失,它不仅可以考虑到嵌入特征和量化特征之间丰富的语义关系,而且可以实现嵌入特征和码字之间的深度联合学习。引入了知识蒸馏机制,将图像中隐藏的知识直接从逻辑元引入到嵌入特征中。在训练阶段,知识通过度量学习从嵌入特征向量化特征转移。使量化码能够从嵌入的特征中学习到更多的知识,来增强量化码的特征表示能力。
进一步的,步骤S5中,具体步骤为:
S51:采用训练样本集,通过自动微分技术、使用基于随机梯度下降和反向传播算法,根据总损失函数优化细粒度图像检索的量化网络;
S52:在测试阶段,利用数据库和查询集对量化网络进行不对称距离计算检索性能测试。
S53:在查询过程中,将查询图像输入到训练好的网络中,得到嵌入描述符/>。然后,将每个子向量/>与属于相应码本的每个码字/>之间的相似度量值(如余弦相似度)存储在/>查询特定查找表中。最后,根据嵌入描述符/>与数据库(训练样本集作为图库)中图片对应的嵌入描述符/>的量化码/>之间的距离,可以不对称地计算量化码与嵌入描述符/>之间的距离,其中/>表示/>的索引,/>表示码本的索引。M个子向量和相应的码本是一一对应的,所以相应的码本中K个码字组成的向量可以通过相似度量值和M个子向量计算距离,能够算出距离最近的由码本中K个码字组成的向量,这样就可以生成一个M×K的查找表。同理由查询图像生成的量化码也可以对应的相应码本的每个码字,也可以得到一个M×K的矩阵,从而可以与前面的查找表一一对应,找到检索图像。具体描述如下:
该实施例通过随机梯度下降、反向传播算法以及损失函数来对网络参数进行优化;然后在测试阶段,利用数据库和查询集对量化网络生成的量化码进行不对称距离计算,通过平均精度来测试检索性能。
实施例3
该实施例主要用于实现上述方法实施例。
如图5所示,该实施例基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索系统包括:
输入模块,用于导入待测图像;
特征谱提取模块,用于通过预先训练好的卷积神经网络提取特征,并输出该卷积神经网络最后一层的特征谱;
分区模块,用于通过区域候选网络RPN将最后一层的特征谱生成Top-N个部件;
级联模块,用于将生成的Top-N个部件重新输入至卷积神经网络中,并将原始待测图像和Top-N部件经过卷积神经网络后的最后三层特征进行融合级联;
特征过滤模块,用于将融合级联后的输出特征通过线性投影生成相应的逻辑元,再通过逻辑元变换对生成的逻辑元分布重新加权;
检索模块,用于将重新加权后的逻辑元向量输入到预先构建并训练好的细粒度图像检索模型;该细粒度图像检索模型包括软量化层、损失层和搜索层,在模型训练过程中通过该软量化层对样本图像生成的逻辑元向量进行量化,生成紧凑有判别力的量化码;通过损失层增强量化码的特征表示能力,并生成量化码书;该损失层为基于分类损失函数和基于知识蒸馏的度量损失构建而成,用于约束量化码的生成;检索时,该搜索层通过量化码书进行计算找到与待测图像的逻辑元向量最接近的数据库图像对应的量化码,将所对应的数据库图像作为检索结果。
各个模块主要用于实现上述方法实施例的各个步骤,在此不赘述。
实施例4
该实施例是在三个公开的数据集CUB-200-2011,FGCV-Aircraft和Stanford Dogs上测试提出的算法。CUB-200-2011数据集是一个包含200个类别总共11788张鸟类图像的细粒度数据集,其中训练集包含5994张图像,测试集包含5794张图像。FGCV-Aircraft数据集是一个包含100个类别总共10000张飞机图像的细粒度数据集,其中训练集包含6667张图像,测试集包含3333张图像。Stanford Dogs数据集是一个包含120个类别总共20580张狗类图像的细粒度数据集,其中训练集包含12000张图像,测试集包含8580张图像。
本发明将该方法与最先进的细粒度图像检索方法进行了比较,这些方法适用于编码长度从16位到64位不等的CUB-200-2011、Stanford Dogs和FGVC-Aircraft数据集,包括ExchNet、CFH、SRLH、OPQN、FISH和SwinFGHash等。值得注意的是,本发明所提出的方法与采用了ResNet18与Swin-Transformer作为特征提取器,利用一个NVIDIA RTX A6000 GPU和开源机器学习库Pytorch来实现提出的方法。在训练阶段,将输入图像的大小调整为256×256,并随机裁剪为224×224。在测试阶段,用中心裁剪代替随机裁剪。将子向量的维数固定为d = 64,码字数固定为K = 256。从交叉验证中,对于所有数据集选择。其他超参数/>根据数据集设置不同。部件数设置为4,生成的部件大小调整为112 × 112,然后输入特征提取网络。使用反向传播算法设置批次大小为128来训练所提出的模型。使用SGD优化器和批归一化来训练模型,并通过StepLR调度来调整学习率。考虑到部件交互模块基于变换的结构,使用Adam优化器对其进行优化,并通过余弦退火调度来调整学习率。将所有数据集的初始学习率设置为0.01。在所有实验中,将训练日历元素的总数设置为90。
将使用广泛采用的平均精度(MAP),对位长度为16,32,48和64的码长来衡量所有检索模型的精度。MAP值越大,检索精度就越高。
如下表1所示,与其他最先进的方法相比,本发明提出的方法显示了更好的性能。使用结果表明,所提出基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法能够更好的找到对象的辨别性区域,生成更紧凑、判别性更好的量化码。在CUB-200-2011、Stanford Dogs以及FGVC-Aircraft数据集上所提出的方法性能更好。结果表明,该方法与其他方法相比具有优越性。
表1 本发明与其他方法的比较结果
实施例5
该实施例为计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质被处理器执行时实现方法实施例的基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法,其特征在于,包括以下步骤:
S1、导入待测图像;
S2、通过预先训练好的卷积神经网络提取特征,并输出该卷积神经网络最后一层的特征谱;
S3、通过区域候选网络RPN将最后一层的特征谱生成Top-N个部件;
S4、将生成的Top-N个部件重新输入至卷积神经网络中,并将原始待测图像和Top-N部件分别经过卷积神经网络后的最后三层特征进行融合级联;
S5、将融合级联后的输出特征通过线性投影生成相应的逻辑元,再通过逻辑元变换对生成的逻辑元向量重新加权;
S6、 将重新加权后的逻辑元向量输入到预先构建并训练好的细粒度图像检索模型;该细粒度图像检索模型包括软量化层、损失层和搜索层,在模型训练过程中通过该软量化层对样本图像生成的逻辑元向量进行量化,生成紧凑有判别力的量化码;通过损失层增强量化码的特征表示能力,并生成量化码书;该损失层为基于分类损失函数和基于知识蒸馏的度量损失构建而成,用于约束量化码的生成;检索时,该搜索层通过量化码书进行计算找到与待测图像的逻辑元向量最接近的数据库图像对应的量化码,将所对应的数据库图像作为检索结果。
2.根据权利要求1所述的基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法,其特征在于,通过渐进式策略训练卷积神经网络。
3.根据权利要求1所述的基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法,其特征在于,卷积神经网络训练的过程中,区域候选网络RPN输出的Top-N个部件重新输入至卷积神经网络后,通过增加通道跨部件交互Transformer对输出结果进行跨部件交互,并根据跨部件交互生成交叉熵损失对卷积神经网络进行训练约束。
4.根据权利要求1所述的基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法,其特征在于,步骤S2还包括利用因果上下文池对卷积神经网络输出的最后一层的特征谱进行特征谱增强。
5.根据权利要求4所述的基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法,其特征在于,特征谱增强的具体过程为:从因果上下文池中取最大概率类,然后将最大概率类重新投影到最后一层的特征谱中,通过融合特征谱中最大预测类的索引对应的类激活图来更新得到增强特征谱。
6.根据权利要求1所述的基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法,其特征在于,卷积神经网络为残差网络ResNet18。
7.根据权利要求1所述的基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法,其特征在于,在细粒度图像检索模型训练过程中,采用训练样本集,通过自动微分技术、使用基于随机梯度下降和反向传播算法,根据总损失函数优化预先构建的细粒度图像检索模型。
8.根据权利要求1所述的基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法,其特征在于,步骤S6中,在检索过程中,计算待测图像的逻辑元向量中每个子向量与属于相应量化码书的每个码字之间的相似度量值,并根据该相似度量值找到与逻辑元向量/>距离最接近的数据库图像量化码,通过查询最接近量化码对应的数据库图像,找到与待测图像最接近的数据库图像。
9.一种基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索系统,其特征在于,包括:
输入模块,用于导入待测图像;
特征谱提取模块,用于通过预先训练好的卷积神经网络提取特征,并输出该卷积神经网络最后一层的特征谱;
分区模块,用于通过区域候选网络RPN将最后一层的特征谱生成Top-N个部件;
级联模块,用于将生成的Top-N个部件重新输入至卷积神经网络中,并将原始待测图像和Top-N部件分别经过卷积神经网络后的最后三层特征进行融合级联;
特征过滤模块,用于将融合级联后的输出特征通过线性投影生成相应的逻辑元,再通过逻辑元变换对生成的逻辑元分布重新加权;
检索模块,用于将重新加权后的逻辑元向量输入到预先构建并训练好的细粒度图像检索模型;该细粒度图像检索模型包括软量化层、损失层和搜索层,在模型训练过程中通过该软量化层对样本图像生成的逻辑元向量进行量化,生成紧凑有判别力的量化码;通过损失层增强量化码的特征表示能力,并生成量化码书;该损失层为基于分类损失函数和基于知识蒸馏的度量损失构建而成,用于约束量化码的生成;检索时,该搜索层通过量化码书进行计算找到与待测图像的逻辑元向量最接近的数据库图像对应的量化码,将所对应的数据库图像作为检索结果。
10.一种计算机存储介质,其特征在于,其内存储有可被处理器执行的计算机程序,该计算机程序执行权利要求1-8中任一项所述的基于部件交互和知识蒸馏的度量学习的逻辑元变换乘积量化细粒度图像检索方法。
CN202311569672.XA 2023-11-23 2023-11-23 基于逻辑元变换乘积量化的细粒度图像检索方法及系统 Active CN117274578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311569672.XA CN117274578B (zh) 2023-11-23 2023-11-23 基于逻辑元变换乘积量化的细粒度图像检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311569672.XA CN117274578B (zh) 2023-11-23 2023-11-23 基于逻辑元变换乘积量化的细粒度图像检索方法及系统

Publications (2)

Publication Number Publication Date
CN117274578A CN117274578A (zh) 2023-12-22
CN117274578B true CN117274578B (zh) 2024-02-02

Family

ID=89210987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311569672.XA Active CN117274578B (zh) 2023-11-23 2023-11-23 基于逻辑元变换乘积量化的细粒度图像检索方法及系统

Country Status (1)

Country Link
CN (1) CN117274578B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
CN111159476A (zh) * 2019-12-11 2020-05-15 智慧眼科技股份有限公司 目标对象的搜索方法、装置、计算机设备及存储介质
CN112905832A (zh) * 2021-05-07 2021-06-04 广东众聚人工智能科技有限公司 复杂背景细粒度图像检索系统及方法
CN114373092A (zh) * 2021-10-18 2022-04-19 武汉工程大学 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11556581B2 (en) * 2018-09-04 2023-01-17 Inception Institute of Artificial Intelligence, Ltd. Sketch-based image retrieval techniques using generative domain migration hashing
US11328172B2 (en) * 2020-08-24 2022-05-10 Huawei Technologies Co. Ltd. Method for fine-grained sketch-based scene image retrieval
US20230325434A1 (en) * 2022-04-12 2023-10-12 Hong Kong Applied Science and Technology Research Institute Company Limited Fine-grained visual content search platform
CN114821238B (zh) * 2022-05-10 2022-09-13 山东建筑大学 基于全局细节补充的卷积神经网络的图像识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137358A1 (zh) * 2017-01-24 2018-08-02 北京大学 基于深度度量学习的目标精确检索方法
CN111159476A (zh) * 2019-12-11 2020-05-15 智慧眼科技股份有限公司 目标对象的搜索方法、装置、计算机设备及存储介质
CN112905832A (zh) * 2021-05-07 2021-06-04 广东众聚人工智能科技有限公司 复杂背景细粒度图像检索系统及方法
CN114373092A (zh) * 2021-10-18 2022-04-19 武汉工程大学 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
An Efficient Retrieval System Framework for Fabrics Based on Fine-Grained Similarity;Jun Xiang et al.;《Entropy》;全文 *
Improved Faster R-CNN for the Detection Method of Industrial Control Logic Graph Recognition;Shilin Wu et al.;《Front. Bioeng. Biotechnol.》;全文 *
Xin Lu et al..Attributes Grouping and Mining Hashing for Fine-Grained Image Retrieval.《MM '23: Proceedings of the 31st ACM International Conference on Multimedia》.2023,全文. *
基于N元组中心损失及特征融合的细粒度图像检索;邓又铭;《中国优秀硕士学位论文全文数据库 信息科技》;全文 *
基于卷积特征的细粒度图像检索方法研究;朱东旭;《中国优秀硕士学位论文全文数据库 信息科技辑》;全文 *

Also Published As

Publication number Publication date
CN117274578A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
US10650042B2 (en) Image retrieval with deep local feature descriptors and attention-based keypoint descriptors
CN107480261B (zh) 一种基于深度学习细粒度人脸图像快速检索方法
CN111127385B (zh) 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
CN110516095B (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
Taherkhani et al. Self-supervised wasserstein pseudo-labeling for semi-supervised image classification
CN117421591A (zh) 一种基于文本引导图像块筛选的多模态表征学习方法
CN114386534A (zh) 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法
CN115222998B (zh) 一种图像分类方法
CN113033665B (zh) 样本扩展方法、训练方法和系统、及样本学习系统
TWI747114B (zh) 圖像特徵提取及網路的訓練方法、電子設備和電腦可讀儲存媒體
CN114332670A (zh) 视频行为识别方法、装置、计算机设备和存储介质
CN115204301A (zh) 视频文本匹配模型训练、视频文本匹配方法和装置
CN115909036A (zh) 局部-全局自适应引导增强的车辆重识别方法及系统
Wang et al. Multi-scale interactive transformer for remote sensing cross-modal image-text retrieval
CN114494809A (zh) 特征提取模型优化方法、装置及电子设备
CN117274578B (zh) 基于逻辑元变换乘积量化的细粒度图像检索方法及系统
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
Gayadhankar et al. Image plagiarism detection using gan-(generative adversarial network)
CN110837804A (zh) 一种稀疏混合字典学习的人脸鉴别方法
Gao et al. Data-driven lightweight interest point selection for large-scale visual search
CN114596913A (zh) 基于深度中心点模型的蛋白质折叠识别方法及系统
Hu et al. Expressive local feature match for image search
CN109885716B (zh) 基于异质多任务学习深度监督离散哈希的图像检索方法
CN113239247A (zh) 基于脑功能分区的多维数据搜索方法、系统和存储介质
Mu et al. Multi-similarity contrastive learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant