CN114911958B

CN114911958B - 一种基于语义偏好的快速图像检索方法

Info

Publication number: CN114911958B
Application number: CN202210647107.XA
Authority: CN
Inventors: 宋井宽; 张志斌; 申恒涛; 朱筱苏; 高联丽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2023-04-18
Anticipated expiration: 2042-06-09
Also published as: CN114911958A

Abstract

本发明公开了一种基于语义偏好的快速图像检索方法，首先以语义(标签)关联度指导训练语义中心分配模块，得到语义中心矩阵V，然后基于语义中心矩阵V，对固定特征提取模块进行训练，这样通过依照语义关联度约束语义中心在特征空间的分布，并令特征向量朝着对应语义中心聚集，从而在语义关联度的指导下充分利用特征空间，有效避免了具备不同标签的特征向量的混淆，解决了特征分布不合理的情况，有效避免不同类特征向量的混淆，提升检索准确度；其次，本发明为码字指定了语义偏好，实现了不可导的量化损失与有偏的软量化损失之间的折衷，采用偏差较低的方案优化码字，从而提升量化器性能，以保证执行快速检索时，量化向量能更好地近似特征向量，实现了降低量化误差的目的。

Description

一种基于语义偏好的快速图像检索方法

技术领域

本发明属于图像检索技术领域，更为具体地讲，涉及一种基于语义偏好的快速图像检索方法。

背景技术

在多媒体内容数据日益丰富的今日，直接在大规模多媒体数据库中检索内容对于数据库来说，无论是时间开销还是内存开销都代价太昂贵了。如何在多媒体数据库尤其是图像数据库中快速检索，以获得高相关性的结果(图像)变得愈加重要。尽管最近开发的深度学习技术在识别和感知图像用于图像匹配方面取得了成功，但这些技术仍然需要巨大的时空间开销，无法应用于实际场景。

为了解决这一问题，快速图像检索方法受到了越来越多的关注。具体来说，一个快速图像检索方法需要在可接受的时间内从数据库中找到相似的图像。因为同时考虑到了时间开销的问题，快速图像检索方法研究具备相当的实际应用价值，可以应用于商品图像检索系统、社交媒体图像检索系统以及人脸图像检索系统等大规模图像检索系统。

作为快速图像检索的主流方法之一，基于语义偏好的快速图像检索方法常常同时具备低内存消耗、高执行效率以及高检索精度等优势。但现有基于语义偏好的快速图像检索方法主要有以下缺陷：1)训练检索模型时通常从成对、三元组或基于锚的损失中学习特征提取器，这些损失只关注样本间的局部关系，而不是从全局的视角对齐特征。这可能会造成整个空间的利用不充分以及不同语义之间的严重混淆，从而导致检索性能下降；2)此外，为了使量化器能够以端到端的方式进行学习，当前的实践通常用softmax作为不可微分的量化操作的松弛函数，但是它是有偏的，通常会导致不尽如人意的次优解。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于语义偏好的快速图像检索方法，采用了更符合该快速图像检索任务需求的网络结构和损失函数，以解决现有方法容易导致的特征分布不合理，有效避免不同类特征向量的混淆，提升检索准确度，同时解决码字优化过程的梯度估计偏差过大的问题，以提升量化器性能，以保证执行快速检索时，量化向量能更好地近似原始特征向量，实现降低量化误差的目的。

为实现上述发明目的，本发明基于语义偏好的快速图像检索方法，其特征在于，包括以下步骤：

(1)、训练语义中心分配模块，获取语义中心矩阵V

1.1)、在给定的带标签的训练数据集中，统计各标签对应的图像集，计算标签i与标签j的关联度S_i,j：

其中，I_i为标签i对应的图像集合，I_j为标签j对应的图像集合，|| ||表示求图像集合的大小；

1.2)、语义中心分配模块的参数即各标签的语义中心,在初始化时，语义中心分配模块用随机值来初始化各标签的语义中心，然后计算每对语义中心的势能G_s(v_i,v_j)：

G_s(v_i,v_j)＝||cos(v_i,v_j)-S_i,j||₂

其中，v_i为标签i对应的语义中心，v_j为标签j对应的语义中心，语义中心为D维实数向量即

cos(v_i,v_j)表示求语义中心v_i、v_j的余弦值，|| ||₂表示求二范数；

1.3)、计算融合了难样本挖掘技术的语义中心损失

其中，N_c表示标签的数量；

1.4)、根据语义中心损失

通过梯度下降法迭代地优化各语义中心，直到语义中心损失收敛；

1.5)、应用归一化方程，将优化过后的各语义中心投影至同一超球面：

其中，R为超球面的半径。

1.6)、将各语义中心逐列拼接起来得到语义中心矩阵V，其中，第i列表示标签i对应的语义中心v_i；

(2)、基于语义中心矩阵V训练特征提取网络模块

构建由卷积神经网络层、用于分类的全连接层FC_c以及用于特征映射的全连接层FC_g组成特征提取网络模块，然后进行训练：

2.1)、在训练数据集中，选取一张图像及其对应的标签，将选取的图像进行数据增强操作后输入卷积神经网络层，得到隐藏特征向量f；

2.2)、将隐藏特征向量f分别输入到全连接层FC_c和全连接层FC_g，分别得到图像对应的N_c维实数标签预测向量p即

和D维实数特征向量x即

2.3)、对标签预测向量p计算交叉熵损失

其中y表示图像对应的01标签向量，所述01标签向量为Nc维01组成的列向量，其中图像对应标签序号位为1，其余为0；

2.4)、图像对应的目标语义向量t将会由其对应的语义中心融合得到，即：

2.5)、基于目标语义向量t，计算聚集损失

其中，第一项表示特征提取模块输出的特征向量x同目标语义向量t的余弦相似度，第二项用于通过L2范数约束特征向量x的模长，而λ_mag是平衡系数；

2.6)、同时考虑分类损失

和聚集损失

得到用于优化特征提取模块的损失

其中，λ_C是用于平衡分类损失

和聚集损失

的影响的超参数；

2.7)、根据损失

通过梯度下降法，优化特征提取网络模块参数，不断重复步骤2.1)到步骤2.7)，直至损失

收敛，然后固定特征提取模块的参数，完成特征提取网络模块的训练；

(3)、使用特征提取网络模块得到特征向量并训练语义偏好量化模块

3.1)、在训练数据集中，选取一张图像及其对应的标签，将选取的图像进行数据增强操作后输入训练好的特征提取网络模块，得到特征向量

并按照维度将特征向量x均匀划分为M个特征子向量

其中M为语义偏好量化模块中量化器的数量；

3.2)、语义偏好量化模块中的第m个量化器的码字集合C_m为

K为码字集合C_m中码字的数量，为每个码字C_m,k设定各自的语义偏好P_m,k，这样，码字集合C_m对应的语义偏好集合P_m为{P_m,k∈N^*|1≤k≤K}，其中，N^*表示自然数，P_m,k∈[1,N_c]，令：

P_m,k＝k％N_c+1

其中％表示取余数；3.3)、构建语义偏好量化模块的整体损失

为：

其中：

表示图像对应的01标签向量的P_m,k位；

其中：

是关于特征子向量x_m和码字集C_SP(m,y)的损失函数，其公式为：

其中，λ_div为平衡系数，而

为量化损失，其计算公式为：

表示码字集C_SP(m,y)中的第k₁个码字，

表示码字集C_SP(m,y)中的第k₂个码字，K′是码字集C_SP(m,y)中码字的数量，γ_hard与γ_soft为调节近似程度的超参数，T为优化的迭代次数，λ_soft为平衡系数；

其中，

为多样化损失：

3.4)、根据整体损失

通过梯度下降法，优化语义偏好量化模块的量化器，不断重复步骤3.1)到步骤3.4)，直至整体损失

收敛，完成语义偏好量化模块的训练；

(4)、使用特征提取模块提取图像检索数据库中每一张图像的特征向量，并做向量切分得到M个特征子向量输入语义偏好量化模块中，每个特征子向量x_m分别与对应的量化器的码字集合C_m的码字C_m,k进行距离计算，得到K个距离值，找出距离最小的码字序号，记为

这样M个特征子向量得到M个距离最小的码字序号并构成该图像的M个量化编码；

(5)、在线查询阶段中，首先将查询图像输入特征提取模块得到对应的特征向量q，并做向量切分得到M个特征子向量输入语义偏好量化模块中，每个特征子向量q_m分别与对应的量化器的码字集合C_m的码字C_m,k进行距离计算，得到K个距离值d_m,k,k＝1,2,…,K，这样M个特征子向量得到的M×K个距离值构成快速查找表；

然后，对于图像检索数据库中每一张图像，将其每一个量化编码

作为索引，在快速查找表对应的K个距离值d_m,k,k＝1,2,…,K，找到

位置的距离值，这样，找到M个距离值

然后将这M个距离值

相加，得到的距离值并作为查询图像与图像检索数据库中该图像的近似距离；

最后，依据近似距离，将距离值从小到大输出图像检索数据库的图像作为检索结果，完成图像的快速检索。

本发明的发明目的是这样实现的：

本发明基于语义偏好的快速图像检索方法，首先以语义(标签)关联度指导训练语义中心分配模块，得到语义中心矩阵V，然后基于语义中心矩阵V，对特征提取模块进行训练，这样依照语义关联度约束语义中心在特征空间的分布，并令特征向量朝着对应语义中心聚集，从而在语义关联度的指导下充分利用特征空间，有效避免了具备不同标签的特征向量的混淆，解决了现有方法容易导致特征分布不合理的情况，提升检索准确度；其次，本发明为码字指定了语义偏好，实现了不可导的量化损失与有偏的软量化损失之间的折衷，采用偏差较低的方案优化码字，从而提升量化器性能，以保证执行快速检索时，量化向量能更好地近似特征向量，实现了降低量化误差的目的。

附图说明

图1是本发明基于语义偏好的快速图像检索方法的一种具体实施方式流程图；

图2是本发明基于语义偏好的快速图像检索方法的一种具体实施方式的原理示意图；

图3是离线数据处理阶段以及线查询阶段的处理、查询原理示意图；

图4是检索实例图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

图1、2分别是本发明基于语义偏好的快速图像检索方法的一种具体实施方式流程图和原理示意图。

在本实施例中，如图1所示，本发明基于语义偏好的快速图像检索方法包括以下步骤：

步骤S1：训练语义中心分配模块，获取语义中心矩阵V

步骤S1.1：在给定的带标签的训练数据集中，统计各标签对应的图像集，计算标签i与标签j的关联度S_i,j：

其中，I_i为标签i对应的图像集合，I_j为标签j对应的图像集合，|| ||表示求图像集合的大小。

如图2所示，所有N_c标签之间的关联度S_i,j，构成关联度矩阵S，并送入到语义中心分配模块SCA中。

步骤S1.2：语义中心分配模块的参数即各标签的语义中心，在初始化时，语义中心分配模块用随机值来初始化各标签的语义中心，然后计算每对语义中心的势能G_s(v_i,v_j)：

G_s(v_i,v_j)＝||cos(v_i,v_j)-S_i,j||₂

cos(v_i,v_j)表示求语义中心v_i、v_j的余弦值，|| ||₂表示求二范数。

为实数向量的表示，其中，D表示维度。

在本实施例中，如图2所示，给出了五个标签的语义中心v₁,v₂,v₃,v₄,v₅的示意，但实际上标签数量远大于5，这里仅仅是一个示意图。

步骤S1.3：计算融合了难样本挖掘技术的语义中心损失

其中，N_c表示标签的数量。

步骤S1.4：根据语义中心损失

步骤S1.5：应用归一化方程，将优化过后的各语义中心投影至同一超球面：

其中，R为超球面的半径。

步骤S1.6：将各语义中心逐列拼接起来得到语义中心矩阵V，其中，第i列表示标签i对应的语义中心v_i。

如图2所示，得到的语义中心矩阵V送入特征提取网络模块，为训练特征提取网络模块做准备。

步骤S2：基于语义中心矩阵V训练特征提取网络模块

在本实施例中如图2所示，构建由卷积神经网络层、用于分类的全连接层FC_c以及用于特征映射的全连接层FC_g组成特征提取网络模块，然后进行训练，如图2所示：

步骤S2.1：在训练数据集中，选取一张图像及其对应的标签，将选取的图像进行数据增强操作后输入卷积神经网络层，得到隐藏特征向量f。

步骤S2.2：将隐藏特征向量f分别输入到全连接层FC_c和全连接层FC_g，分别得到图像对应的N_c维实数标签预测向量p即

和D维实数特征向量x即

维度分别01标签向量和语义中心v_i相同。

步骤S2.3：对标签预测向量p计算交叉熵损失

其中y表示图像对应的01标签向量，所述01标签向量为Nc维01组成的列向量，其中图像对应标签序号位为1，其余为0，如图像对应两个标签，其序号为100、300，则其对应的01标签向量的第100、300位为1，其余全部为0。

步骤S2.4：图像对应的目标语义向量t将会由其对应的语义中心融合得到，即：

步骤S2.5：基于目标语义向量t，计算聚集损失

其中，第一项表示特征提取模块输出的特征向量x同目标语义向量t的余弦相似度，第二项用于通过L2范数约束特征向量x的模长，而λ_mag是平衡系数。

步骤S2.6：同时考虑分类损失

和聚集损失

得到用于优化特征提取模块的损失

其中，λ_C是用于平衡分类损失

和聚集损失

的影响的超参数。

步骤S2.7：根据损失

通过梯度下降法，优化特征提取网络模块参数，不断重复步骤S2.1)到步骤S2.7)，直至损失

收敛，然后固定特征提取模块的参数，完成特征提取网络模块的训练。

通过步骤S1、S2，可以依照语义关联度约束语义中心在特征空间的分布，并令特征向量朝着对应语义中心聚集，从而在语义关联度的指导下充分利用特征空间，有效避免了具备不同标签的特征向量的混淆，解决了现有方法容易导致特征分布不合理的情况，有效避免不同类特征向量的混淆，提升检索准确度。

步骤S3：使用特征提取网络模块得到特征向量并训练语义偏好量化模块

步骤S3.1：在训练数据集中，选取一张图像及其对应的标签，将选取的图像进行数据增强操作后输入训练好的特征提取网络模块，得到特征向量

并按照维度将特征向量x均匀划分为M个特征子向量

其中M为语义偏好量化模块(ARSQ)中量化器的数量。量化器即为语义偏好量化器，为了简化描述，简称为量化器。

步骤S3.2：如图2所示，语义偏好量化模块中的第m个量化器的码字集合C_m为

P_m,k＝k％N_c+1

其中％表示取余数；

步骤S3.3：构建语义偏好量化模块的整体损失

为：

其中：

表示图像对应的01标签向量的P_m,k位，即保留的第k个码字C_m,k，其对应的语义偏好P_m,k对应标签位为1，换句话说，该公式的含义是图像对应的01标签向量y为1位置即

为语义偏好P_m,k，保留对应语义偏好P_m,k的码字C_m,k。

其中：

其中，λ_div为平衡系数。

而为了尽量收敛至较优解，降低量化误差，本发明在量化损失函数中融入了退火的机制，得到量化损失

如下：

对于输入量化器的每个特征子向量，按照其到各码字的距离作加权平均，来计算得到子向量对应的近似量化向量：

表示码字集C_SP(m,y)中的第k₁个码字，

表示码字集C_SP(m,y)中的第k₂个码字，K′是码字集C_SP(m,y)中码字的数量，γ_hard与γ_soft为调节近似程度的超参数，T为优化的迭代次数，λ_soft为平衡系数。

其中，

为多样化损失：

为了增强码字多样性，防止码字重叠导致信息效率低下，本发明采用上述多样化损失作为约束项来提高码字利用率。

步骤S3.4：根据整体损失

通过梯度下降法，优化语义偏好量化模块的量化器，不断重复步骤S3.1到步骤S3.4，直至整体损失

收敛，完成语义偏好量化模块的训练。

在本发明中，为码字指定了语义偏好，实现了不可导的量化损失与有偏的软量化损失之间的折衷，采用偏差较低的方案优化码字，从而提升量化器性能，以保证执行快速检索时，量化向量能更好地近似特征向量，实现了降低量化误差的目的。

如图3所示，在训练好语义偏好量化模块后，需要对图像检索数据库中图像(简称检索库图像)用特征提取模块进行特征向量提取，并用量化器量化，得到其量化编码，这一阶段称之为离线数据处理阶段，具体为：

步骤S4：基于语义偏好量化模块，获取图像检索数据库中每一张图像的量化编码

使用特征提取模块提取图像检索数据库中每一张图像的特征向量x，并做向量切分得到M个特征子向量x_m,m＝1,2,…,M输入语义偏好量化模块中，每个特征子向量x_m分别与对应的量化器Q_m的码字集合C_m的码字C_m,k进行距离计算，得到K个距离值，找出距离最小的码字序号，记为

这样M个特征子向量得到M个距离最小的码字序号并构成该图像的M个量化编码。

在本实施例中，如图3所示，M等于4，即特征向量x做向量切分得到4个特征子向量x₁,x₂,x₃,x₄，并分别送到对应的量化器Q₁,Q₂,Q₃,Q₄中。如图3所示特征子向量x_m分别与码字集合C_m的码字C_m,k进行距离计算。在本实施例中，计算距离为计算欧式距离，K＝8，即得到8个距离值。找出距离最小，在本实施例中为0.9，其码字为码字C_m,4，即码字序号为4，则

(对应的二进制编码b_m＝011，计算机中二进制编码为0～7，即二进制编码为3)。

步骤S5：基于语义偏好量化模块获取快速查找表并依据量化编码获得近似距离，依据近似距离获得检索结果

在线查询阶段中，如图3所示，首先将查询图像输入特征提取模块得到对应的特征向量q，并做向量切分得到M个特征子向量q_m,m＝1,2,…,M输入语义偏好量化模块中，每个特征子向量q_m分别与对应的量化器的码字集合C_m的码字C_m,k进行距离计算，得到K个距离值d_m,k,k＝1,2,…,K，在本实施例中，K个距离值d_m,k记为一个距离查找表T_m，这样M个特征子向量得到的M×K个距离值构成快速查找表。

作为索引，在本实施例中，将对应的二进制编码b_m作为索引，在快速查找表对应的K个距离值d_m,k,k＝1,2,…,K，即快速查找表第m组的K个距离值即第m个距离查找表T_m中，找到

(对应的二进制编码b_m＝011)位置的距离值。在本实施例中，该距离值为0.5，这样，找到M个距离值

(记为D_m)，然后将这M个距离值

即D_m相加，得到的距离值并作为查询图像与图像检索数据库中该图像的近似距离D^*。

最后，依据近似距离D^*，将距离值从小到大输出图像检索数据库的图像作为检索结果，完成图像的快速检索。

仿真实验

设置试验条件为：系统：Ubuntu 20.04.3，软件：Python 3.8.8，处理器：Intel(R)Xeon(R)CPU E5-2678 v3@2.50GHz×6，内存：256GB。

实验内容：利用本发明将存在背景噪音的不同视角的多种图像作为查询，可以在图像检索数据库中精确检索出类似图像，结果如附图4所示；

实验结果分析：从图4可以看出，本发明检索出的图像同查询图像中的主体大多数属于同一类事物，说明本发明能够无视图像背景、角度变换等干扰，从图像检索数据库中有效检索出同查询图像在语义上相似的图像，具备很强的鲁棒性。

下面结合现有技术的图像生成方法，通过仿真实验对本发明的效果进行对比说明：

实验条件：系统：Ubuntu 18.04，软件：Python 3.6，处理器：Intel Xeon(R)CPUE5-2620 v4@2.10GHz×2，内存：256GB；

测试说明：在实验中将数据集随机划分为了训练数据集，以及用于测试的查询集和图像检索数据库。模型在训练集上学习参数，然后使用查询集中的图像模拟真实查询，在数据库集中检索图像。在测试时，若两张图像共有某一标签则表示这两张图像相似，否则这两张图像相互无关。

考察图像检索精确度：

以在ImageNet数据集上预先训练完毕的AlexNet为骨架，对于每种算法，使用各自的网络架构和损失函数进行训练。训练完毕后，在不同比特数的编码限制下将数据库图像表示为01量化编码，然后对于每张查询图像提取特征向量。接着基于量化编码与特征向量计算查询特征向量与量化向量间的距离，按照该距离排序数据库候选项，最后输出对应的检索结果计算mAP，具体如表1所示。

表1

考察量化误差：

以在ImageNet数据集上预先训练完毕的AlexNet为骨架，对于每种算法，使用各自的网络架构和损失函数进行训练。训练完毕后，在不同比特数的编码限制下将数据库图像表示为01编码，然后重构原始向量，并计算重构前后特征向量的均方误差作为量化误差，具体如表2所示

表2

通过表1和表2中的数据的分析对比，可以得知本发明在不同编码长度下均具有检索精确度高，量化误差小的优点。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。