CN116932806A

CN116932806A - 一种基于特征关联表示的图文检索方法

Info

Publication number: CN116932806A
Application number: CN202310754589.3A
Authority: CN
Inventors: 李骜; 王泽宁; 孙悦恭; 程媛
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-10-24

Abstract

一种基于特征关联表示的图文检索方法，属于跨模态检索技术领域，该方法是利用图像和文本特征构造特征关联矩阵。然后，利用神经网络学习生成哈希函数。最后，联合设计的损失函数帮助学习生成哈希码，以此来促进模型的自适应性，与其他方法相比，精确度更高，性能更加稳健。

Description

一种基于特征关联表示的图文检索方法

技术领域

本发明属于图像文本检索技术领域，具体涉及一种基于特征关联表示的图文检索方法。

背景技术

随着互联网的快速发展以及智能设备和社交网络的普及，多模态数据在互联网上呈爆炸式增长。多模态数据只是同一事物在不同模态下的表现。如何以单一模态来检索其他模态，成为搜索信息的关键，这使得跨模态检索应运而生。一般的跨模态检索方法使用不同模态的通用实值来检索其他模态信息，但诸如高计算复杂性和存储效率低下的缺点限制了它们的使用。由于存储二进制哈希码的效率和计算汉明距离的便捷性，将模态特征映射到相同的汉明空间进行检索，跨模态散列方法越来越受到关注。

对于互联网上的图像文本来说，有监督的方法需要标签标注，显然已不适用于这方面，相反，无监督的方法不需要标签标注数据，因此有更好的适应性，只通过输入图像和文本特征之间的联系来挖掘出潜在的关系。

同时，深度神经网络的出现为获取特征提供的很大方便，促进了跨模态检索的发展，深度神经网络具有更强的语义表示能力，这有助于进一步学习。相似性矩阵的建立需要统一计算不同特征之间的成对距离。在从预训练网络提取的特征中构建相似性矩阵的方法中，通过特征的关系直接构建相似性矩阵，然后将这作为监督矩阵来学习哈希码，在现有的无监督方法中取得了不错效果。

发明内容

为解决上述问题，本发明提供了一种基于特征关联表示的图文检索方法，所述方法包括步骤：

用VGG-19网络提取图像特征X_v，d₁表示图像特征的维度，用BOW方法提取文本特征X_t，/>d₂表示文本特征的维度，并将两种特征划分为训练集和测试集。

将训练集中的各模态特征，通过余弦相似计算算法分别构建图像余弦相似矩阵C_v和文本余弦相似矩阵C_t，进而构建基础关联矩阵C_base。

划分C_base中各对象间的相似程度，根据相似程度的不同，划分为强相关相似矩阵C_s和弱相关矩阵C_w，与C_base通过加权计算得到特征关联矩阵C_a。

分别构造三层感知机网络f(x^v；θ_v)、f(x^t；θ_t)学习哈希码，θ_v、θ_t表示待更新的网络参数，将提取的图像文本特征输入各自哈希学习网络，利用特征关联矩阵C_a构造模态内和模态间的相似损失帮助网络学习，在反向传播过程中，更新网络参数θ_v、θ_v，生成二进制的哈希码Z_v,Z_t。

检索时，将测试集中的模态特征输入至对应的哈希学习网络，将得到哈希码与数据库中的哈希码进行比对，距离最小的即为所查询的实例类别。

优选的，所述图像特征为X_v，d₁表示图像特征的维度，所述文本特征为X_t，/>d₂表示文本特征的维度。

优选地，所述余弦相似计算为：

其中x_i,x_j代表模态中的不同实例。即模态实例间的余弦相似矩阵可表示为：

其中p∈{v,t}，当p＝v时，x_i代表图像实例特征，利用上式计算可得图像余弦相似矩阵C_v，当p＝t时，x_i代表文本实例特征，利用上式计算可得文本余弦相似矩阵C_t。

优选地，C_base由以下方式计算：

即：

其中，c_ij∈[-1,1]，表示第i个实例与第j个实例的相似程度。

优选地，所述强相关相似矩阵C_s和弱相关矩阵C_w由以下方式计算：

其中c_ij∈C_base，i,j分别表示C_base中的行列数，σ为设置的范围超参数，σ∈(0.5,1)。

优选地，所述关联矩阵C_a表达公式为：

C_a＝(1-α)C_base+αC_s-βC_w

其中，C_base是基础特征关联矩阵，C_s，C_w分别代表强相关和弱相关相似矩阵，α,β为控制各部分比重的参数。

优选地，图像网络f(x^v；θ_v)三层感知机中神经元数量分别设置为d₁-4096-dl，文本网络f(x^t；θ_t)设置为d₂-4096-dl，d₁表示图像特征的维度，d₂表示图像特征的维度，dl为哈希码长度。则所述学习的哈希码表示为：

Z_v＝sign(f(x^v；θ_v))

Z_t＝sign(f(x^t；θ_t))

其中，Z_*＝[z₁,z₂,...,z_n]∈{-1,1}^c×n，c代表哈希码的长度，sign()为符号函数，定义为：

优选地，将哈希函数f(x^v；θ_v)、f(x^t；θ_t)学习到的Z_v，Z_t通过余弦相似计算，并用C_a进行辅助学习，即得所述模态内和模态间的损失函数为：

L₁＝||C(Z_v,Z_v)-C_a||_F+||C(Z_v,Z_t)-C_a||_F+||C(Z_t,Z_t)-C_a||_F

L₂＝||C(Z_v,Z_v)-C(Z_t,Z_t)||_F+||C(Z_v,Z_v)-C(Z_v,Z_t)||_F+||C(Z_t,Z_t)-C(Z_v,Z_t)||_F

其中，||·||_F代表Frobenius范数。

优选地，所述优化函数为：

L＝L₁+L₂

优选地，本网络的目的是学习两个哈希函数f(x^v；θ_v)、f(x^t；θ_t)，所述优化函数通过反向传播更新参数θ_v、θ_v，直至收敛，得到哈希函数。

本发明提供了一种基于特征关联表示的图文检索方法，具有以下优势：

(1)受相似学习和深度学习的启发，所述方法提出一种基于特征关联表示模型。在这个模型中，所述方法使两个模态表示相互靠近，缓解模态间的语义鸿沟问题，进而完成检索。

(2)在所述模型中加入相似约束，使生成哈希码相互靠近，进一步达到相互表示的效果。

(3)本方法为无监督学习方式，不需要标签提供语义信息，具有很好的适应性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于特征关联表示的图文检索方法的流程图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1，本发明提供了一种基于特征关联表示的检索方法，所述方法步骤如下：

步骤S1：将图像数据集和文本数据集划分为训练集和检索集；

步骤S2：在计算特征关联矩阵时，通过设置一个余弦距离约束来解决两个实例间相似程度问题，通过公式(1)计算出距离约束：

步骤S3：通过图像和文本特征矩阵构造模态内的特征关联矩阵，通过公式(2)计算基础特征关联矩阵：

其中，c_ij∈[0,1]，/>和/>分别表示图像特征和文本特征所构造特征关联矩阵，N表示实例数量，同时，认为图像和文本特征的影响是相同的，故将系数设为1/2。

步骤S4：对基础特征关联矩阵中数据根据公式(3)进行细分：

其中σ是范围参数，控制在相似度矩阵中划分的临界范围。当“正常”时，这部分实例通常是相似的，不偏向任何一方，故不做处理。当其为强时，称为强相似性，这部分实例彼此非常相似，在优化时可以很容易地区分，选择增强这一部分以提高检索时的准确性，当其为弱时，称其为无相似性，该部分实例几乎互不相关。

步骤S5：通过公式(5)和公式(6)对基础特征关联矩阵中的强数据和弱数据进行处理，C_e和C_d为相应的增强和削弱矩阵：

C_e＝C_base+C_base(Strong) (5)

C_d＝C_base-C_base(Weak) (6)

步骤S6：联合公式(2)、(5)、(6)得出最终使用的特征关联矩阵S，由公式(7)计算：

C_a＝(1-α)C_base+αC_e-βC_d (7)

其中α、β为权重参数。

步骤S7：定义模态内和模态间的相似损失帮助哈希函数学习，由公式(8)、(9)计算：

L₁＝||C(Z_v,Z_v)-C_a||_F+||C(Z_v,Z_t)-C_a||_F+||C(Z_t,Z_t)-C_a||_F (8)

(9)

通过本实施方式设置一个距离约束来度量特征间的相似程度，再得到特征关联矩阵，之后，分别创建三层感知机网络f(x^v；θ_v)、f(x^t；θ_t)学习哈希码，将特征关联矩阵融入损失函数帮助哈希码的学习。

将训练后的哈希函数对数据库(数据集)和测试集中每个实例提取的特征进行二值化后，评估模型的检索精确度。本方法采用常见的检索指标，即平均精度均值(MAP)来评估所提方法和其他对照方法的检索性能。对于一个查询实例和一系列检索实例，AP的定义为：

其中L表示测试集的相关实例；P(r)表示定义为相关实例数与检索到的实例数r的比值；δ(r)是指示函数如果第r个实例与查询实例相关，则为1，否则为0，然后将所有查询的AP平均得到MAP。如果任意两个数据点至少共享一个共同的标签，则被认为是相关，即检索正确。

进一步说明，假设将一个数据集放入模型中，根据本实施方式，将得到一个检索精度高于大多数方法的分类结果。

具体实施方式结果

本实施方式采用两个已公开的数据集。数据集的细节描述如下：

NUS-WIDE和MIRFlicker-25K，其中NUS-WID数据集中常用的10个类被用作原始数据集，共有186577个图像文本对。从中选择2000个数据对作为查询集。然后，从剩余的166577个数据对中选择5000个作为训练集。

MIRFlicker-25K在处理问题的数据之后，剩下20015个图像-文本对。选择2000来形成查询集。其余的用作检索集，从中选择5000作为训练集。

为了验证本实施方式(CSCH)的优越性，将本实施方式与几种现有先进的无监督方法进行比较，包括UGACH、JDSH、DJSRH等方法，将会比较这些方法对于上述两个公开数据集平均精度(mAP)，两个任务分别为从图像到文本的检索和从文本到图像的检索，具体的数据对比如下表所示。表1表示在数据集MIRFlicker-25K上的结果；表2表示在数据集NUS-WIDE上的结果。

表1数据集MIRFlicker-25K检索结果

表2数据集NUS-WIDE检索结果

通过上表中的数据对比，可以清楚地看到，CSCH达到了最好的性能。CSCH显著提高图文检索性能。说明了本方法的优越性，因为IRSP所构造的特征特征关联矩阵能更好的捕捉实例间的关系，帮助生成辨别性强的哈希码。同时，在损失函数的帮助下，大大帮助了神经网络的学习，提高了哈希函数的表达能力。大量实验表明，该方法优于现有方法。

本实施方式提出了一种基于特征关联表示的图文检索方法，用于对社交网络中的图文检索，建立了一种基于特征关联表示检索模型，并对该模型构建了一个特征特征关联矩阵，再通过构造的损失函数来帮助学习哈希函数，以此得到一个检索模型。而在两个公开大型数据集上的实验结果表明，本实施方式相对于其他方法有着更高的分类精度，有着更好的优越性。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于特征关联表示的图文检索方法，所述方法包括步骤：

用VGG-19网络提取图像特征，用BOW方法提取文本特征，并将两种特征划分为训练集和测试集。

分别构造三层感知机网络f(x^v；θ_v)、f(x^t；θ_t)学习哈希码，θ_v、θ_v表示待更新的网络参数，将提取的图像文本特征输入各自哈希学习网络，利用特征关联矩阵C_a构造模态内和模态间的相似损失帮助网络学习，在反向传播过程中，更新网络参数θ_v、θ_v，生成二进制的哈希码Z_v,Z_t。

2.根据权利要求1所述的基于特征关联表示的图文检索方法，其特征在于，所述图像特征为X_v，d₁表示图像特征的维度，所述文本特征为X_t，d₂表示文本特征的维度。

3.根据权利要求1所述的基于特征关联表示的图文检索方法，其特征在于，所述余弦相似计算为：

4.根据权利要求1所述的基于特征关联表示的图文检索方法，其特征在于，C_base由以下方式计算：

即：

其中，c_ij∈[-1,1]，表示第i个实例与第j个实例的相似程度。

5.根据权利要求1所述的基于特征关联表示的图文检索方法，其特征在于，所述强相关相似矩阵C_s和弱相关矩阵C_w由以下方式计算：

其中c_ij∈C_base，i,j分别表示C_base中的行列数，σ为设置超参数，σ∈(0.5,1)。

6.根据权利要求1所述的基于特征关联表示的图文检索方法，其特征在于，所述关联矩阵C_a表达公式为：

C_a＝(1-α)C_base+αC_s-βC_w

其中，C_base是基础特征关联矩阵，C_s，C_w分别代表强相关和弱相关相似矩阵，α，β为控制各部分比重的参数。

7.根据权利要求1所述的基于特征关联表示的图文检索方法，其特征在于，图像网络f(x^v；θ_v)中三层感知机的神经元数量分别设置为d₁-4096-dl，文本网络f(x^t；θ_t)中神经元数量分别设置为d₂-4096-dl，d₁表示图像特征的维度，d₂表示图像特征的维度，dl为哈希码长度。则所述学习的哈希码表示为：

Z_v＝sign(f(x^v；θ_v))

Z_t＝sign(f(x^t；θ_t))

其中，Z_*＝[z₁,z₂,...,z_n]∈{-1,1}^l×n，*＝{v,t}，l代表哈希码的长度，sign()为符号函数，定义为：

8.根据权利要求1所述的基于特征关联表示的图文检索方法，其特征在于，将哈希函数f(x^v；θ_v)、f(x^t；θ_t)学习到的Z_v，Z_t通过余弦相似计算，并用C_a进行辅助学习，即得所述模态内和模态间的损失函数为：

L₁＝||C(Z_v,Z_v)-C_a||_F+||C(Z_v,Z_t)-C_a||_F+||C(Z_t,Z_t)-C_a||_F

其中，||·||_F代表Frobenius范数。优选地，所述优化函数为：

L＝L₁+L₂。

9.根据权利要求1所述的基于特征关联表示的图文检索方法，其特征在于，本网络的目的是学习两个哈希函数f(x^v；θ_v)、f(x^t；θ_t)，所述优化函数通过反向传播更新参数θ_v、θ_t，直至收敛。将训练后的哈希函数对数据库(数据集)和测试集中每个实例提取的特征进行二值化后，以评估模型的检索精确度。本方法采用平均精度均值(MAP)来评估检索性能。对于一个查询实例和一系列检索实例，AP的定义为：

其中L表示测试集的相关实例；P(r)表示定义为相关实例数与检索到的实例数r的比值；δ(r)是指示函数如果第r个实例与查询实例相关，则为1，否则为0。然后将所有查询的AP平均得到MAP。如果任意两个实例至少共享一个共同的标签，则被认为是相关，即检索正确。