CN116594994A

CN116594994A - 视觉语言知识蒸馏在跨模态哈希检索的应用

Info

Publication number: CN116594994A
Application number: CN202310334915.5A
Authority: CN
Inventors: 董玉民; 孙丽娜
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-08-15
Anticipated expiration: 2043-03-30
Also published as: CN116594994B

Abstract

本发明涉及人工智能技术领域，具体涉及一种视觉语言知识蒸馏在跨模态哈希检索的应用，包括：定义符号和问题；建立VLKD框架，将视觉语言知识蒸馏和哈希编码统一在VLKD中，所述VLKD框架是一个端到端的深度模型，所述VLKD框架包括学生哈希编码网络、教师知识蒸馏网络、辅助图卷积网络和哈希码重建模块；建立目标函数及优化算法，整个VLKD框架的参数由SGD算法迭代更新，直到学生哈希编码网络收敛。本发明能够通过视觉语言知识蒸馏方法提升学生哈希编码网络的哈希表示学习能力，在多个评价指标上的性能优于最近的具有代表性的无监督跨模态哈希方法，实现了最好的跨模态检索性能，解决了不能直接应用于无监督跨模态哈希的技术问题。

Description

视觉语言知识蒸馏在跨模态哈希检索的应用

技术领域

本发明涉及人工智能技术领域，具体涉及一种视觉语言知识蒸馏在跨模态哈希检索的应用。

背景技术

随着Web 3.0的到来和云计算普及,社会正处于一个信息爆炸的时期。互联网上的图片、评论、语音、短视频等多媒体数据持续激增，有效的数据处理以获得有价值的信息已经成为一个关键问题。跨模态检索的目标是找到具有相同语义信息的不同模态数据之间的关系，从而实现不同模态数据的快速检索。现有的跨模态检索可以分为两类：实值表示学习和哈希表示学习。实值表示(例如子空间学习和深度学习)通常用欧氏距离来衡量，以确保语义相关的数据是彼此靠近。然而，实值表示空间中的相似性度量存在搜索响应低和计算复杂度高的问题。相比之下,跨模态哈希(CMH)由于其具有低数据存储要求和高效的距离计算(异或运算)优势而受到广泛的关注。CMH可以有效地将多模态数据的高维实值表示投影到公共汉明空间中，使包含共同语义的跨模态数据映射为相似的哈希码。

根据在训练阶段是否利用类别标签，现有的跨模态哈希方法可以进一步分为无监督和有监督方法。无监督跨模态哈希方法使用成对的多模态数据,通过计算不同模态数据的相似性，将原始多模态数据投影为哈希码表示，同时投影过程中保留跨模态数据语义相关性。有监督的跨模态哈希方法通过类别标签弥合不同模态的语义鸿沟,并在哈希码的学习中保留标签的语义相似性。相比之下，有监督的方法由于加入了标签信息,具有更好的检索精度。然而,标签的获取成本巨大且包含大量噪声,因此,无监督的跨模态哈希方法具有标签独立性而具有更好的研究价值和应用前景。

由于深度神经网络强大的非线性特征表示能力,并在自然语言处理、计算机视觉等领域显示出其优越性。基于深度神经网络的多媒体检索技术得到广泛的研究，并显示出优异的性能。例如：基于联合模态分布的相似性哈希(JDSH)提出了一种基于分布的相似性决策和加权(DSDW)方法的采样和加权方案，通过将语义相似的实例对拉近来生成更具鉴别性的哈希码。深度语义对齐哈希(DSAH)设计一个语义对齐损失函数，并用一个模态的哈希码重构另一个模态的特征。然而,仍然还存在一些局限性：(1)这些方法构造的相似度矩阵仅仅表示一组数据中的成对关系，而不是其他图邻域关系；(2)现有的方法通常只考虑全局相似关系，这可能无法有效挖掘细粒度的相似信息。

近两年,视觉语言预训练模型(VLP)得到飞速的发展,并在各种视觉语言下游任务(目标检测,语义分割,多模态匹配和检索等)中取得惊人的表现。其中,最具代表性的工作之一是CLIP(对比语言图像预训练),在4亿个有噪声的多模态网络数据上进行了预训练，在各种下游视觉和语言相关任务上展示了其令人满意的性能。尽管VLP模型已成功地微调到各种视觉语言任务中，但由于这些预训练模型参数巨大,推理速度慢和GPU使用量大，仍然是在生产中应用预训练的深度模型的瓶颈。因此不能直接应用于无监督CMH，这需要设计一个统一的无监督哈希表示学习框架。

发明内容

本发明提供一种视觉语言知识蒸馏在跨模态哈希检索的应用，以解决现有技术不能直接应用于无监督跨模态哈希的技术问题。

本发明提供的基础方案为：视觉语言知识蒸馏在跨模态哈希检索的应用，包括：

S1、定义符号和问题；

S2、建立VLKD框架，将视觉语言知识蒸馏和哈希编码统一在VLKD中，所述VLKD框架是一个端到端的深度模型，所述VLKD框架包括学生哈希编码网络、教师知识蒸馏网络、辅助图卷积网络和哈希码重建模块；

S3、建立目标函数及优化算法，整个VLKD框架的参数由SGD算法迭代更新，直到学生哈希编码网络收敛。

本发明的工作原理及优点在于：本方案提出一个新颖而有效的无监督跨模态哈希检索方法，也即VLKD框架，在本方案中,一个统一的视觉语言知识蒸馏框架被设计来提炼视觉语言模型中的多模态细粒度语义信息，并将细粒度语义信息指导学生网络的优化，此外,精心设计了一个图卷积辅助网络辅助生成哈希码,该图卷积辅助网络通过视觉语言模型的蒸馏信息的引导,通过聚合相似数据节点的信息,挖掘潜在的图邻域关系,从而使语义相似的数据生成更一致的哈希码；最后,VLKD框架在不增加模型参数量的情况下，提升了UCMH的检索性能,保持了模型的轻量化；实验表明,本方案所提出的方法能够通过视觉语言知识蒸馏方法提升学生哈希编码网络的哈希表示学习能力，在多个评价指标上的性能优于最近的具有代表性的无监督跨模态哈希方法，实现了最好的跨模态检索性能。

本发明能够通过视觉语言知识蒸馏方法提升学生哈希编码网络的哈希表示学习能力，在多个评价指标上的性能优于最近的具有代表性的无监督跨模态哈希方法，实现了最好的跨模态检索性能，解决了不能直接应用于无监督跨模态哈希的技术问题。

进一步，S2中，对于学生哈希编码网络，学生哈希编码网络将多模态数据编码为特征向量F_v和F_t，将视觉编码器表示为Enc_v，文本模型特征编码器表示为Enc_t，方程式表示如下：

其中，I和T表示迷你批次的图像和文本训练样本，θ_v和θ_t代表文本和视觉编码器的参数，随后，使用MLP作为哈希编码器来生成哈希代码，公式如下：

其中，α表示迭代次数，HE_*(·,·)和θ_h*,*∈{v,t}分别表示不同模态的哈希编码器和对应的参数。

有益效果在于：迭代二进制量化策略，可以减少哈希码二进制化的信息损失，从提升跨模态哈希检索的精度。

进一步，S2中，对于教师知识蒸馏网络，采用VLP编码器作为教师知识蒸馏网络，教师知识蒸馏网络的编码方程式表示如下：

其中，VLPEnc_*(·,·),*∈{v,t}代表VLP视觉和文本编码器，表示网络的参数，m表示训练样本的批量大小，d_v和d_t分别表示特征向量的维度；

使用从教师知识蒸馏网络中提取的多模态特征构建一个相似性图，该相似性图由一个矩阵表示；使用迷你批次的视觉特征来构建视觉模态相似性矩阵S_v＝cos(F_v ^VLP,F_v ^VLP)∈[-1,+1]^m×m；对于文本模式，利用文本特征/>建立文本模式相似性矩阵S_t＝cos(F_t ^VLP,F_t ^VLP)∈[-1,+1]^m×m；随后，构建一个模态间的相似性矩阵来捕捉不同模态数据的共存相似性，使用/>和/>构建模态间余弦相似度矩阵S_Inter，其中，S_Inter＝cos(F_v ^VLP,F_t ^VLP)∈[-1,+1]^m×m；最后，构建一个相似性图矩阵S_G，用于指导图卷积辅助网络的哈希学习，公式表示如下：

S_G＝βS_v+ηS_t+γS_Inter∈[-1,+1]^m×m,

s.t.β,η,γ≥0,β+η+γ＝1.

其中，β,η和γ是平衡不同模态之间相似性矩阵贡献的权衡超参数。

有益效果在于：视觉-语言模型提取的多模态特征包含模态交互信息，并且是强相关的，这样可以提取细粒度的跨模态语义特征，同时，可以给学生哈希编码网络提供一个可靠的学习目标。

进一步，S2中，对于图卷积辅助网络，设计一个图卷积辅助网络，该辅助网络以相似性图S_G为指导，通过图卷积网络GCN聚合相邻数据节点之间的信息，之后，把相似性图输入一个两层的图卷积神经网络，该GCN聚合相似节点之间的图邻域一致性，图卷积辅助网络的编码公式如下所示：

其中，D_ii＝∑_js_ij，W⁽¹⁾和W⁽²⁾为参数矩阵，σ₁和σ₂分别表示两个GCN层的激活函数，表示图像和文本模态图卷积网络的第i层的输出，图卷积辅助网络生成的哈希码如下所示：

其中，α代表迭代次数，采用迭代量化策略优化哈希码。

有益效果在于：可以更好地利用提炼出的细粒度多模态特征，增强学生编码网络的哈希表示，从而使相似数据的哈希编码更加一致；此外，可以利用图神经网络强大的图特征表示能力来聚合语义相似的数据信息，在训练过程中相邻数据节点的语义信息被图卷积网络聚合，从而使相似的数据产生更一致的哈希代码，而不相似的数据产生更不相似的哈希代码，这有助于使生成的哈希码包含更多的模态交互信息；将哈希码的离散问题转化为一系列的连续量化问题，可以有效缓解二值化过程中的信息损失问题。

进一步，S2中，对于哈希码重构模块，将VLP特征生成的哈希码与学生哈希编码网络生成的哈希码进行对齐，其次，将辅助网络的哈希码相似度矩阵与学生网络的哈希码矩阵进行重构；此外，提炼出相似性图S_G用于知识提炼，指导学生哈希码网络的优化；

将图卷积辅助网络和学生哈希编码网络生成的哈希码B_v,B_t,构建不同模态的哈希码相似性矩阵/>其中，/> 设计损失函数如下所示：

其中，L_Align表示哈希码对齐损失，L_Aux代表辅助相似性重构损失，L_KD代表知识提炼损失，μ是一个可扩展的超参数，表示矩阵Hadamard乘积。

有益效果在于：可以从VLP模型中提取知识来指导学生网络的哈希表示法的学习，将图卷积辅助网络生成的哈希码与学生哈希编码网络的哈希码对齐，从而将细粒度的语义信息从视觉语言模型迁移到学生哈希编码网络；将辅助网络的哈希码相似度重构为学生网络的哈希码相似度，从而将细粒度的数据相似度提炼到学生哈希编码网络中；将VLP模型与学生哈希编码网络的相似性知识提炼出来，为学生哈希编码网络的学习提供一个可靠的监督目标；同时，可以调整矩阵的量化范围。

进一步，S3中，目标函数的公式如下：

s.t.B_v,B_t∈[-1,+1]^m×c

其中，λ,δ,是权衡的超参数。

有益效果在于：最小化目标损失函数可以迭代更新学生网络的参数，学习从教师知识蒸馏网络中提炼的知识，并使学生网络获得对视觉-语言模型中细粒度的多模式知识的理解。

附图说明

图1为无监督跨模态哈希检索VLKD原理的系统结构框图。

图2为本实施例监督跨模态哈希检索VLKD的系统结构框图。

图3为在三个跨模态检索基线数据集、哈希码长128bits条件下，不同基线方法top-N精度曲线变化。

图4为在MS COCO基线数据集和128bits哈希码长条件下，超参数β,η,γ,λ,δ,的敏感性分析。

图5为在三个跨模态检索基线数据集、16bits和128bits哈希码长条件下，收敛测试曲线。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例1

实施例基本如附图1、附图2所示，附图1展示了VLKD方法的大致框架,包括训练和检索过程,知识蒸馏方法基于教师-学生学习范式，将老师模型的输出作为损失函数中的软目标来训练学生模型，附图2为本方案提出的VLKD框架，由四个部分组成：学生哈希编码网络、教师VLP网络、辅助图卷积网络和哈希码重建模块。本实施例提出的一个有效的哈希检索框架,称为视觉语言知识蒸馏应用于大规模无监督跨模态哈希检索(VLKD)，具体实施过程如下，包括：

S1、定义符号和问题；

给定一个多模态数据集其中，v_i和t_i表示一对图像文本对，本实施例对小批量的训练数据进行随机采样O＝{o₁,o₂,…,o_m}，对于每一批随机抽样的训练样本其中，m表示批次大小；用/>和/>来表示从VLP模型提取的视觉和文字特征。此外，将学生网络生成的哈希码表示为B_v∈{-1,+1}^m×c和B_v∈{-1,+1}^m×c。辅助网络产生的哈希码为/>在/>其中，c代表哈希码的长度。

之后，从获得的哈希码B_v,B_t,来构建对应的哈希码相似度矩阵，使用余弦相似度来计算视觉和文本哈希码相似度矩阵/>和类似地，构建辅助矩阵/>和/>汉明距离是用来衡量哈希码之间的距离，给定两个哈希代码b_i和b_j∈{-1,+1}^1×c，汉明距离公式如下：

其中，c是哈希码的长度，表示矩阵点积。跨模态散列是通过将不同模态的数据投射到一个统一的汉明空间来实现的。同时，数据的语义相似性在数据映射中被保留。

作为方案的优选之一：S2中，对于学生哈希编码网络，学生哈希编码网络将多模态数据编码为特征向量F_v和F_t，将视觉编码器表示为Enc_v，文本模型特征编码器表示为Enc_t，方程式表示如下：

其中，α表示迭代次数，HE_*(·,·)和θ_h*,*∈{v,t}分别表示不同模态的哈希编码器和对应的参数，迭代二进制量化策略，可以减少哈希码二进制化的信息损失，从提升跨模态哈希检索的精度；

作为方案的优选之二：S2中，对于教师知识蒸馏网络，采用VLP编码器作为教师知识蒸馏网络，教师知识蒸馏网络的编码方程式表示如下：

其中，VLPEnc_*(·,·),*∈{v,t}代表VLP视觉和文本编码器，*∈{v,t}表示网络的参数，m表示训练样本的批量大小，d_v和d_t分别表示特征向量的维度；

S_G＝βS_v+ηS_t+γS_Inter∈[-1,+1]^m×m,

s.t.β,η,γ≥0,β+η+γ＝1.

其中，β,η和γ是平衡不同模态之间相似性矩阵贡献的权衡超参数，由于视觉-语言模型提取的多模态特征包含模态交互信息，并且是强相关的，这样可以提取细粒度的跨模态语义特征，同时，可以给学生哈希编码网络提供一个可靠的学习目标。

作为方案的优选之三：S2中，对于图卷积辅助网络，设计一个图卷积辅助网络，该辅助网络以相似性图S_G为指导，通过图卷积网络GCN聚合相邻数据节点之间的信息，之后，把相似性图输入一个两层的图卷积神经网络，该GCN聚合相似节点之间的图邻域一致性，图卷积辅助网络的编码公式如下所示：

其中，D_ii＝∑_js_ij，W⁽¹⁾和W⁽²⁾为参数矩阵，σ₁和σ₂分别表示两个GCN层的激活函数，Z_* ⁽ⁱ⁾表示图像和文本模态图卷积网络的第i层的输出，图卷积辅助网络生成的哈希码如下所示：

其中，α代表迭代次数，采用迭代量化策略优化哈希码；

通过这样的方式，可以更好地利用提炼出的细粒度多模态特征，增强学生编码网络的哈希表示，从而使相似数据的哈希编码更加一致；此外，可以利用图神经网络强大的图特征表示能力来聚合语义相似的数据信息，在训练过程中相邻数据节点的语义信息被图卷积网络聚合，从而使相似的数据产生更一致的哈希代码，而不相似的数据产生更不相似的哈希代码，这有助于使生成的哈希码包含更多的模态交互信息；将哈希码的离散问题转化为一系列的连续量化问题，可以有效缓解二值化过程中的信息损失问题。

作为方案的优选之四：S2中，对于哈希码重构模块，将VLP特征生成的哈希码与学生哈希编码网络生成的哈希码进行对齐，其次，将辅助网络的哈希码相似度矩阵与学生网络的哈希码矩阵进行重构；此外，提炼出相似性图S_G用于知识提炼，指导学生哈希码网络的优化；

通过这样的方式，从VLP模型中提取知识来指导学生网络的哈希表示法的学习，将图卷积辅助网络生成的哈希码与学生哈希编码网络的哈希码对齐，从而将细粒度的语义信息从视觉语言模型迁移到学生哈希编码网络；将辅助网络的哈希码相似度重构为学生网络的哈希码相似度，从而将细粒度的数据相似度提炼到学生哈希编码网络中；将VLP模型与学生哈希编码网络的相似性知识提炼出来，为学生哈希编码网络的学习提供一个可靠的监督目标；同时，可以调整矩阵的量化范围；

S3、建立目标函数及优化算法，整个VLKD框架的参数由SGD算法迭代更新，直到学生哈希编码网络收敛；目标函数的公式如下：

s.t.B_v,B_t∈[-1,+1]^m×c

其中，λ,δ,是权衡的超参数。

采用最小化目标损失函数可以迭代更新学生网络的参数，学习从教师知识蒸馏网络中提炼的知识，并使学生网络获得对视觉-语言模型中细粒度的多模式知识的理解。

在本实施例中，提出了一个有效的视觉语言知识蒸馏框架应用于UCMH,该方法将视觉语言模型中的细粒度语义信息进行蒸馏,指导学生网络的学习，本实施例中框架是通用的，可以应用于一系列的跨模态哈希检索方法。这是对知识蒸馏和UCMH的新颖而具体的贡献；同时，设计了一个UCMH学生网络,该网络包含一个哈希编码网络和图卷积辅助网络，哈希编码网络将多模态特征编码为二进制码,同时保持数据的语义相似性，图卷积网络(GCN)根据教师模型提炼的多模态细粒度信息挖掘潜在的图邻域相关性,辅助哈希函数的学习,从而生成更高质量的哈希码。

S4、实验

为了验证所提出的VLKD方法的有效性，在三个广泛使用的多媒体数据集做了充分的实验和分析。首先，介绍了数据集，基线方法和评价指标。其次，进行模型检索性能的对比，包括MAP和top-N精度曲线。最后，所提出的方法进行了消融实验，参数敏感性分析，收敛测试和检索可视化。

(1)数据集描述

在三个基准数据集上评估了所提方法的效率：MS COCO，NUS-WIDE，MIRFLICKR-25K，相应的描述和数据集划分如下：

MS COCO：MS COCO的全称是Microsoft Common Objects in Context，是一个用于目标检测、分割、图像描述等场景的多任务数据集，包含123287张真实场景图片，对应的文本描述和91个物体类别标签。在实施例中，从数据集集中随机抽取5000对文本-图像作为查询集，其余的数据作为检索集。10000个图像文本对从检索集中被随机采样作为训练集。

NUS-WIDE：它是一个多标签数据集，应用于网络图像注释和检索任务，包含从真实场景中收集的269，648个样本及其相应的标签。在本实施例的实验中，沿用之前相关工作的设置，选择10个最广泛使用的类别和相关的186，577个图像文本对，每个文本短语提供了1000维的BOW特征表示。从检索集中随机抽取2000对样本作为查询集，其余的图文对作为检索集。5000个图像文本对从检索集中被随机采样作为训练集。

MIRFLICKR-25K：该数据集是一个多标签数据集应用于多媒体任务，采集了Flickr网站上的来自24个不同类别的25，000张照片，相关文本和标签。为了表示相关的文本内容，它还提供了一个1386维的特征向量，该特征向量是通过对文本进行主成分分析而获得的。在实施例实验设置中，从数据集中随机采样2000个图文对作为查询集，其余的样本作为检索数据库。对于训练集，5000个样本从检索数据库中被随机选择参与模型的训练。这三个检索基准数据集的统计描述展示在表1中。

表1：三个多模态检索基线数据集的统计描述.

(2)基线和评价指标

在实验中，为了公平的性能比较，沿用所对比方法的设置和评价指标：平均准确率MAP和top-N曲线的精度变化，这两个评价指标很好的反映了一个模型的检索能力。具体而言，给定一批查询的样本Q＝[q₁,q₂,…,q_M]，平均准确精度MAP的公式如下所示：

其中，q_i其是查询样本，m是查询数据的总数量。此外，n是数据集中的样本数，k是检索过程中返回的样本数，N_q是数据集中与查询数据相似的样本数量，P(k)是检索过程中返回的前k个样本的准确率，R(k)是样本数从到变化时的召回值。除此之外，R(k)∈{0,1}，当R(k)＝1时，代表第k个检索到的实例和查询实例共享一个标签，反之亦然。top-N精度曲线也是一个重要的测量指标，它表示在查询不同数量的检索样本条件下的平均精度，top-N曲线的精度表示检索结果排序后前n个样本的平均精度，它反映了一个模型在检索样本增加的情况下的综合性能。

(3)实验设置

在实验中，使用视觉语言模型CLIP作为教师网络，它对4亿个图像-文本对进行了预训练，具有很强的多模态数据建模能力。对于学生网络，采用两层的多层感知机MLP作为哈希编码网络，从编码的图像和文本特征编码为哈希码，之后用哈希码构建不同的模态的相似性矩阵。对于辅助图卷积网络，采用两层的图卷积神经网络，在教师模型的特征相似性矩阵的辅助下上进行哈希码的学习。最后，对学生网络生成的哈希码和图辅助卷积网络产生的哈希码进行重构，通过公式为相似数据生成更一致的哈希码。在训练阶段，三个基准数据集的训练批量大小被设定为32。对于网络的参数优化过程，采用Adam优化器优化整个网络，激活函数使用relu激活函数，学习率设置为0.01，权重衰减设置为5e-4，动量设置为为0.9。

本实施例的实验在NVIDIARTX3060GPUs,PyTorch 1.7.1,cuda11.0环境上进行，操作系统为windows11,内存32GB.，所提出方法的参数设置如下：β＝0.5,η＝0.2,γ＝0.3,λ＝0.1,δ＝1,μ＝1.4，所设置的参数经过参数分析得到的相对较优的值。在本实验中，参照DAEH方法的设置，采用mAP5000作为对比实验的评价指标，top-N精度曲线的样本数变化范围设置为1到5000。

(4)性能对比

在本实施例的实验中，对比了两个跨模态的检索任务：使用图像数据检索相似的文本和使用文本数据检索相似的图像。分别以MAP@5000和Top-N精度曲线评价指标比较了一些具有代表性的先进方法和所提出的VLKD方法在这两个检索任务上检索性能，如表2所示。

表2：在两个图文检索任务(I→T表示使用图像检索文本，T→I表示使用文本检索图像数据)及三个跨模态检索基准数据集上的MAP@5000对比结果。

MAP@5000性能比较：表2展示了十个近期最具有代表性的无监督跨模态哈希检索方法和所提出的VLKD方法在不同哈希码长和三个基准数据集上的MAP@5000结果。分析表2中的数据可以看出，所提出的VLKD方法由于现有的先进方法，实现了最佳的检索性能。具体而言，在MS COCO数据集上，本方案提出的方法在图像检索文本任务书比最先进的DAEH方法提升2％-2.2％的检索精度，在文本检索图像任务上有1.7％-2.3％的性能提升。此外，MSCOCO是类别较多的大规模数据集，所提出的VLKD方法在该数据集上的MAP@5000结果表明VLKD适用于大规模的跨模态检索任务。在NUS-WIDE数据集上，所提出的方法在图像检索文本任务上有2.3％-3.3％的检索性能提升，在文本数据检索图像任务上有4％左右的性能提升。在MIRFLICKR-25K数据集上，所提出的方法相对所对比的方法大约有1.6％-2.8％的图像检索文本性能提升，在文本检索图像数据任务上，大约提升了2.8％-4.4％的检索性能。值得注意的是，大多数方法随着哈希码长度的降低，检索精度大幅下降。然而，所提出的VLKD方法在较低的哈希码长度的情况下，在两个任务是的检索性能变化相对较小，这说明VLKD方法在哈希表示能力方面优于所对比的先进方法。

Top-N的精度曲线：附图3展示了在三个跨模态检索基线数据集，哈希码长128bits条件下，不同基线方法top-N精度曲线变化趋势。随着检索样本数量的逐步增加，MAP逐步下降。从附图3的曲线可以看出，所提出的VLKD方法超越了所有的基线方法。值得注意的是，本方案的方法曲线变化较为平缓，这说明本方案提出的方法在大规模的多模态数据检索场景下具有优异的性能表现，所提出的视觉语言知识蒸馏方案能提高多模态数据哈希表示能力，从而使相似的数据生成更加一致的哈希码，不相似的数据生成的哈希码越不相似。此外，VLKD具有如此优异表现的另一个重要原因是，由于所提出的辅助图卷积网络，该网络将多模态细粒度语义特征构建多模态图结构，之后将特征和相似性图输入图卷积网络聚合相似节点的信息，从而使相关的数据节点生成更加相似的哈希码，从而辅助学生网络的学习。

(5)消融实验

为了验证所提出VLKD框架的每个组件的有效性，本实施例在三个基准数据集上设计了消融实验。本实施例提出的框架包含视觉语言指是蒸馏模块(教师模型)，图卷积辅助网络，哈希迭代量化策略。为此，本实施例设计了四个VLKD方法的变体模型来探索每个模块对整体检索性能的贡献。所提出的VLKD变体模型如下所示：

VLKD-1表示模型没有采用所提出的迭代二值量化策略来优化哈希码，该方法能够有效缓解哈希二值化过程中的精度损失。

VLKD-2代表所提出的VLKD没有辅助图卷积相似性重构损失，通过辅助网络生成的哈希码相似性重构学生网络的哈希码相似性，从而提高哈希码的表示能力。

VLKD-3代表模型没有辅助图卷积哈希对齐模块，该模块将辅助网络的哈希码和学生网络生成的哈希码进行对齐，从而使学生网络的哈希更好地优化。

VLKD-4表示模型没视觉语言知识蒸馏损失，知识蒸馏将教师模型地多模态细粒度语义信息提炼给学生网络学习，从而生成更加高质量地哈希码。

不同变体模型地检索性能如表3所示，对表3的分析可以得出以下结论：

首先，VLKD-4变体模型的精度下降最为明显，这说明视觉语言知识蒸馏对模型的检索性能贡献最大，再次证明了视觉语言知识蒸馏方案的有效性。其次，哈希迭代二值量化获得第二的贡献度，这说明在哈希码的二值化过程中存在精度损失，而本实施例采用的方法有效缓解了这一过程中的信息损失。最后辅助图卷积网络也发挥了不可或缺的作用，总的来说，所提出的每个模块都对整体模型的检索性能做出了贡献，验证了所提出方法的有效性。

为了探究用不同教师网络来进行视觉语言知识蒸馏的影响，本实施例采用不同的视觉语言模型来作为教师模型，将多模态的语义信息蒸馏给学生网络学习哈希表征。附图4展示了不同教师模型进行视觉语言知识蒸馏的MAP对比结果，对表4中的结果进行分析可以得出以下结论：

最值得注意的是，采用CLIP作为视觉语言知识蒸馏的教师网络的检索精度最高，这说明CLIP优于其他VLP模型。一个主要的原因是，因为CLIP在庞大的网络数据上进行无监督的对比预训练，它学习到了多模态数据潜在的语义信息，具有更好的多模态数据表示能力。其次，Oscar和UNITER的效果最差，它们两个都是单流的VLP模型，这侧面反映了双流的VLP模型优于单流的VLP模型。最后，多教师模型作为视觉语言知识蒸馏方案是个可研究的方向，如何权衡多教师模型知识蒸馏是具有前景的研究。

表3：在三个多媒体基准数据集上的消融实验MAP@5000对比结果

表4：所提出的VLKD框架采用不同的视觉语言预训练模型作为教师主干网络，在三个数据集上的MAP@5000对比结果

(6)参数敏感性分析

为了进一步探索所提出模型的鲁棒性及最佳的参数设置，本实施例对几个可能影响模型检索精度的超参数进行全面的分析。参数分析是通过改变一个参数的值，与此同时其他变量保持不变进行的。附图4展示了超参数的分析结果，观察附图4可以得出以下结论。

本实施例对影响所提出的VLKD的检索性能的几个超参数进行了综合分析，分析结果见附图4。β、η和γ分别衡量了视觉自相似性、文本自相似性和模态间相似性对模型检索精度的影响。据观察，如附图＝图4(a)所示，β和η在[0.01,0.5]的范围内保持相对稳定。如附图4(b)所示，对于η和γ，模型的性能在0.01和0.4之间没有明显的波动，当它们大于0.4时，会出现较大的下降。λ,δ,分别衡量了哈希码对齐损失L_Align、辅助相似性重构损失L_Aux和知识提炼损失L_KD对VLKD方法检索性能的贡献。如附图4(c)所示，平均精度随着δ的增大而增加，这表明知识蒸馏损失L_KD的贡献较大。然而，哈希码对齐损失L_Align对模型的性能影响较小，当λ在0.1和0.5之间时，模型的检索性能在一个稳定的范围内波动。如附图4(d)所示，辅助相似性重构损失L_Aux对模型精度有影响，/>在[0.1,0.3]范围内，模型的检索性能最好。

总之，所提出的方法对合理区域内的超参数具有鲁棒性，因为合理的参数调整可以使模型保持先进的检索性能。

(7)收敛测试

在本实施例中，研究了所提出的VLKD方法的收敛性和效率，收敛测试结果展示在附图5中。附图5(a)展示了在哈希码长16bits条件下，所提出的方法在三个数据集上的损失变化。附图5(b)展示了在哈希码长128bits条件下，VLKD在三个数据集上的损失收敛曲线。从附图5的损失收敛曲线可以看出，随着迭代次数的不断增加，网络的损失逐渐下降，在大约十几次迭代后，损失曲线逐渐收敛，说明模型的参数逐渐优化完毕。

此外，本实施例的模型训练阶段快速的收敛，在几十轮迭代后，模型的精度达到最高。与之前的方法相比，所提出的方法能够更快收敛，这说明视觉语言知识蒸馏方案的有效性。最后，所提出的VLKD在检索阶段仅仅需要学生哈希编码网络的参与，教师网络只在训练阶段参与训练，VLKD在没有增加模型参数量的情况下，实现了更准确更快的跨模态检索。所提出的方法根据VLKD优化策略不断重构哈希码，更新网络的参数，从而提升学生哈希编码网络的哈希表示能力。

综上，本实施例提出了一个新颖而有效的无监督跨模态哈希检索方法(VLKD)，在所提出的方法中,一个统一的视觉语言知识蒸馏框架被设计来提炼视觉语言模型中的多模态细粒度语义信息，并将细粒度语义信息指导学生网络的优化。此外，我们精心设计了一个图卷积辅助网络辅助生成哈希码，该网络通过视觉语言模型的蒸馏信息的引导,通过聚合相似数据节点的信息,挖掘潜在的图邻域关系，从何使语义相似的数据生成更一致的哈希码。最后，VLKD方法在不增加模型参数量的情况下提升了UCMH的检索性能,保持了模型的轻量化。在三个广泛使用的多媒体检索数据集上进行的足够的实验表明,所提出的方法能够通过视觉语言知识蒸馏方法提升学生模型的哈希表示学习能力，在多个评价指标上的性能优于最近的具有代表性的无监督跨模态哈希方法，实现了最好的跨模态检索性能。对实验的全面分析，验证了所提出的VLKD方法的有效性。在未来的工作中，将系统研究如何权衡多教师模型，从而提升基于视觉语言知识蒸馏的跨模态哈希检索的性能。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.视觉语言知识蒸馏在跨模态哈希检索的应用，其特征在于，包括：

S1、定义符号和问题；

2.如权利要求1所述的视觉语言知识蒸馏在跨模态哈希检索的应用，其特征在于，S2中，对于学生哈希编码网络，学生哈希编码网络将多模态数据编码为特征向量F_v和F_t，将视觉编码器表示为Enc_v，文本模型特征编码器表示为Enc_t，方程式表示如下：

3.如权利要求2所述的视觉语言知识蒸馏在跨模态哈希检索的应用，其特征在于，S2中，对于教师知识蒸馏网络，采用VLP编码器作为教师知识蒸馏网络，教师知识蒸馏网络的编码方程式表示如下：

使用从教师知识蒸馏网络中提取的多模态特征构建一个相似性图，该相似性图由一个矩阵表示；使用迷你批次的视觉特征来构建视觉模态相似性矩阵对于文本模式，利用文本特征/>建立文本模式相似性矩阵S_t＝cos(F_t ^VLP,F_t ^VLP)∈[-1,+1]^m×m；随后，构建一个模态间的相似性矩阵来捕捉不同模态数据的共存相似性，使用/>和/>构建模态间余弦相似度矩阵S_Inter，其中，/>最后，构建一个相似性图矩阵S_G，用于指导图卷积辅助网络的哈希学习，公式表示如下：

S_G＝βS_v+ηS_t+γS_Inter∈[-1,+1]^m×m,

s.t.β,η,γ≥0,β+η+γ＝1.

4.如权利要求3所述的视觉语言知识蒸馏在跨模态哈希检索的应用，其特征在于，S2中，对于图卷积辅助网络，设计一个图卷积辅助网络，该辅助网络以相似性图S_G为指导，通过图卷积网络GCN聚合相邻数据节点之间的信息，之后，把相似性图输入一个两层的图卷积神经网络，该GCN聚合相似节点之间的图邻域一致性，图卷积辅助网络的编码公式如下所示：

其中，α代表迭代次数，采用迭代量化策略优化哈希码。

5.如权利要求4所述的视觉语言知识蒸馏在跨模态哈希检索的应用，其特征在于，S2中，对于哈希码重构模块，将VLP特征生成的哈希码与学生哈希编码网络生成的哈希码进行对齐，其次，将辅助网络的哈希码相似度矩阵与学生网络的哈希码矩阵进行重构；此外，提炼出相似性图S_G用于知识提炼，指导学生哈希码网络的优化；

6.如权利要求5所述的视觉语言知识蒸馏在跨模态哈希检索的应用，其特征在于，S3中，目标函数的公式如下：

s.t.B_v,B_t∈[-1,+1]^m×c

其中，λ,δ,是权衡的超参数。