CN114911958B - 一种基于语义偏好的快速图像检索方法 - Google Patents
一种基于语义偏好的快速图像检索方法 Download PDFInfo
- Publication number
- CN114911958B CN114911958B CN202210647107.XA CN202210647107A CN114911958B CN 114911958 B CN114911958 B CN 114911958B CN 202210647107 A CN202210647107 A CN 202210647107A CN 114911958 B CN114911958 B CN 114911958B
- Authority
- CN
- China
- Prior art keywords
- semantic
- image
- feature
- vector
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 121
- 238000013139 quantization Methods 0.000 claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 38
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 238000011478 gradient descent method Methods 0.000 claims description 9
- 238000009825 accumulation Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005381 potential energy Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义偏好的快速图像检索方法,首先以语义(标签)关联度指导训练语义中心分配模块,得到语义中心矩阵V,然后基于语义中心矩阵V,对固定特征提取模块进行训练,这样通过依照语义关联度约束语义中心在特征空间的分布,并令特征向量朝着对应语义中心聚集,从而在语义关联度的指导下充分利用特征空间,有效避免了具备不同标签的特征向量的混淆,解决了特征分布不合理的情况,有效避免不同类特征向量的混淆,提升检索准确度;其次,本发明为码字指定了语义偏好,实现了不可导的量化损失与有偏的软量化损失之间的折衷,采用偏差较低的方案优化码字,从而提升量化器性能,以保证执行快速检索时,量化向量能更好地近似特征向量,实现了降低量化误差的目的。
Description
技术领域
本发明属于图像检索技术领域,更为具体地讲,涉及一种基于语义偏好的快速图像检索方法。
背景技术
在多媒体内容数据日益丰富的今日,直接在大规模多媒体数据库中检索内容对于数据库来说,无论是时间开销还是内存开销都代价太昂贵了。如何在多媒体数据库尤其是图像数据库中快速检索,以获得高相关性的结果(图像)变得愈加重要。尽管最近开发的深度学习技术在识别和感知图像用于图像匹配方面取得了成功,但这些技术仍然需要巨大的时空间开销,无法应用于实际场景。
为了解决这一问题,快速图像检索方法受到了越来越多的关注。具体来说,一个快速图像检索方法需要在可接受的时间内从数据库中找到相似的图像。因为同时考虑到了时间开销的问题,快速图像检索方法研究具备相当的实际应用价值,可以应用于商品图像检索系统、社交媒体图像检索系统以及人脸图像检索系统等大规模图像检索系统。
作为快速图像检索的主流方法之一,基于语义偏好的快速图像检索方法常常同时具备低内存消耗、高执行效率以及高检索精度等优势。但现有基于语义偏好的快速图像检索方法主要有以下缺陷:1)训练检索模型时通常从成对、三元组或基于锚的损失中学习特征提取器,这些损失只关注样本间的局部关系,而不是从全局的视角对齐特征。这可能会造成整个空间的利用不充分以及不同语义之间的严重混淆,从而导致检索性能下降;2)此外,为了使量化器能够以端到端的方式进行学习,当前的实践通常用softmax作为不可微分的量化操作的松弛函数,但是它是有偏的,通常会导致不尽如人意的次优解。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于语义偏好的快速图像检索方法,采用了更符合该快速图像检索任务需求的网络结构和损失函数,以解决现有方法容易导致的特征分布不合理,有效避免不同类特征向量的混淆,提升检索准确度,同时解决码字优化过程的梯度估计偏差过大的问题,以提升量化器性能,以保证执行快速检索时,量化向量能更好地近似原始特征向量,实现降低量化误差的目的。
为实现上述发明目的,本发明基于语义偏好的快速图像检索方法,其特征在于,包括以下步骤:
(1)、训练语义中心分配模块,获取语义中心矩阵V
1.1)、在给定的带标签的训练数据集中,统计各标签对应的图像集,计算标签i与标签j的关联度Si,j:
其中,Ii为标签i对应的图像集合,Ij为标签j对应的图像集合,|| ||表示求图像集合的大小;
1.2)、语义中心分配模块的参数即各标签的语义中心,在初始化时,语义中心分配模块用随机值来初始化各标签的语义中心,然后计算每对语义中心的势能Gs(vi,vj):
Gs(vi,vj)=||cos(vi,vj)-Si,j||2
其中,Nc表示标签的数量;
1.5)、应用归一化方程,将优化过后的各语义中心投影至同一超球面:
其中,R为超球面的半径。
1.6)、将各语义中心逐列拼接起来得到语义中心矩阵V,其中,第i列表示标签i对应的语义中心vi;
(2)、基于语义中心矩阵V训练特征提取网络模块
构建由卷积神经网络层、用于分类的全连接层FCc以及用于特征映射的全连接层FCg组成特征提取网络模块,然后进行训练:
2.1)、在训练数据集中,选取一张图像及其对应的标签,将选取的图像进行数据增强操作后输入卷积神经网络层,得到隐藏特征向量f;
2.4)、图像对应的目标语义向量t将会由其对应的语义中心融合得到,即:
其中,第一项表示特征提取模块输出的特征向量x同目标语义向量t的余弦相似度,第二项用于通过L2范数约束特征向量x的模长,而λmag是平衡系数;
(3)、使用特征提取网络模块得到特征向量并训练语义偏好量化模块
3.1)、在训练数据集中,选取一张图像及其对应的标签,将选取的图像进行数据增强操作后输入训练好的特征提取网络模块,得到特征向量并按照维度将特征向量x均匀划分为M个特征子向量其中M为语义偏好量化模块中量化器的数量;
3.2)、语义偏好量化模块中的第m个量化器的码字集合Cm为 K为码字集合Cm中码字的数量,为每个码字Cm,k设定各自的语义偏好Pm,k,这样,码字集合Cm对应的语义偏好集合Pm为{Pm,k∈N*|1≤k≤K},其中,N*表示自然数,Pm,k∈[1,Nc],令:
Pm,k=k%Nc+1
表示码字集CSP(m,y)中的第k1个码字,表示码字集CSP(m,y)中的第k2个码字,K′是码字集CSP(m,y)中码字的数量,γhard与γsoft为调节近似程度的超参数,T为优化的迭代次数,λsoft为平衡系数;
(4)、使用特征提取模块提取图像检索数据库中每一张图像的特征向量,并做向量切分得到M个特征子向量输入语义偏好量化模块中,每个特征子向量xm分别与对应的量化器的码字集合Cm的码字Cm,k进行距离计算,得到K个距离值,找出距离最小的码字序号,记为这样M个特征子向量得到M个距离最小的码字序号并构成该图像的M个量化编码;
(5)、在线查询阶段中,首先将查询图像输入特征提取模块得到对应的特征向量q,并做向量切分得到M个特征子向量输入语义偏好量化模块中,每个特征子向量qm分别与对应的量化器的码字集合Cm的码字Cm,k进行距离计算,得到K个距离值dm,k,k=1,2,…,K,这样M个特征子向量得到的M×K个距离值构成快速查找表;
然后,对于图像检索数据库中每一张图像,将其每一个量化编码作为索引,在快速查找表对应的K个距离值dm,k,k=1,2,…,K,找到位置的距离值,这样,找到M个距离值然后将这M个距离值相加,得到的距离值并作为查询图像与图像检索数据库中该图像的近似距离;
最后,依据近似距离,将距离值从小到大输出图像检索数据库的图像作为检索结果,完成图像的快速检索。
本发明的发明目的是这样实现的:
本发明基于语义偏好的快速图像检索方法,首先以语义(标签)关联度指导训练语义中心分配模块,得到语义中心矩阵V,然后基于语义中心矩阵V,对特征提取模块进行训练,这样依照语义关联度约束语义中心在特征空间的分布,并令特征向量朝着对应语义中心聚集,从而在语义关联度的指导下充分利用特征空间,有效避免了具备不同标签的特征向量的混淆,解决了现有方法容易导致特征分布不合理的情况,提升检索准确度;其次,本发明为码字指定了语义偏好,实现了不可导的量化损失与有偏的软量化损失之间的折衷,采用偏差较低的方案优化码字,从而提升量化器性能,以保证执行快速检索时,量化向量能更好地近似特征向量,实现了降低量化误差的目的。
附图说明
图1是本发明基于语义偏好的快速图像检索方法的一种具体实施方式流程图;
图2是本发明基于语义偏好的快速图像检索方法的一种具体实施方式的原理示意图;
图3是离线数据处理阶段以及线查询阶段的处理、查询原理示意图;
图4是检索实例图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1、2分别是本发明基于语义偏好的快速图像检索方法的一种具体实施方式流程图和原理示意图。
在本实施例中,如图1所示,本发明基于语义偏好的快速图像检索方法包括以下步骤:
步骤S1:训练语义中心分配模块,获取语义中心矩阵V
步骤S1.1:在给定的带标签的训练数据集中,统计各标签对应的图像集,计算标签i与标签j的关联度Si,j:
其中,Ii为标签i对应的图像集合,Ij为标签j对应的图像集合,|| ||表示求图像集合的大小。
如图2所示,所有Nc标签之间的关联度Si,j,构成关联度矩阵S,并送入到语义中心分配模块SCA中。
步骤S1.2:语义中心分配模块的参数即各标签的语义中心,在初始化时,语义中心分配模块用随机值来初始化各标签的语义中心,然后计算每对语义中心的势能Gs(vi,vj):
Gs(vi,vj)=||cos(vi,vj)-Si,j||2
其中,vi为标签i对应的语义中心,vj为标签j对应的语义中心,语义中心为D维实数向量即cos(vi,vj)表示求语义中心vi、vj的余弦值,|| ||2表示求二范数。为实数向量的表示,其中,D表示维度。
在本实施例中,如图2所示,给出了五个标签的语义中心v1,v2,v3,v4,v5的示意,但实际上标签数量远大于5,这里仅仅是一个示意图。
其中,Nc表示标签的数量。
步骤S1.5:应用归一化方程,将优化过后的各语义中心投影至同一超球面:
其中,R为超球面的半径。
步骤S1.6:将各语义中心逐列拼接起来得到语义中心矩阵V,其中,第i列表示标签i对应的语义中心vi。
如图2所示,得到的语义中心矩阵V送入特征提取网络模块,为训练特征提取网络模块做准备。
步骤S2:基于语义中心矩阵V训练特征提取网络模块
在本实施例中如图2所示,构建由卷积神经网络层、用于分类的全连接层FCc以及用于特征映射的全连接层FCg组成特征提取网络模块,然后进行训练,如图2所示:
步骤S2.1:在训练数据集中,选取一张图像及其对应的标签,将选取的图像进行数据增强操作后输入卷积神经网络层,得到隐藏特征向量f。
步骤S2.3:对标签预测向量p计算交叉熵损失其中y表示图像对应的01标签向量,所述01标签向量为Nc维01组成的列向量,其中图像对应标签序号位为1,其余为0,如图像对应两个标签,其序号为100、300,则其对应的01标签向量的第100、300位为1,其余全部为0。
步骤S2.4:图像对应的目标语义向量t将会由其对应的语义中心融合得到,即:
其中,第一项表示特征提取模块输出的特征向量x同目标语义向量t的余弦相似度,第二项用于通过L2范数约束特征向量x的模长,而λmag是平衡系数。
通过步骤S1、S2,可以依照语义关联度约束语义中心在特征空间的分布,并令特征向量朝着对应语义中心聚集,从而在语义关联度的指导下充分利用特征空间,有效避免了具备不同标签的特征向量的混淆,解决了现有方法容易导致特征分布不合理的情况,有效避免不同类特征向量的混淆,提升检索准确度。
步骤S3:使用特征提取网络模块得到特征向量并训练语义偏好量化模块
步骤S3.1:在训练数据集中,选取一张图像及其对应的标签,将选取的图像进行数据增强操作后输入训练好的特征提取网络模块,得到特征向量并按照维度将特征向量x均匀划分为M个特征子向量其中M为语义偏好量化模块(ARSQ)中量化器的数量。量化器即为语义偏好量化器,为了简化描述,简称为量化器。
步骤S3.2:如图2所示,语义偏好量化模块中的第m个量化器的码字集合Cm为K为码字集合Cm中码字的数量,为每个码字Cm,k设定各自的语义偏好Pm,k,这样,码字集合Cm对应的语义偏好集合Pm为{Pm,k∈N*|1≤k≤K},其中,N*表示自然数,Pm,k∈[1,Nc],令:
Pm,k=k%Nc+1
其中%表示取余数;
其中:
表示图像对应的01标签向量的Pm,k位,即保留的第k个码字Cm,k,其对应的语义偏好Pm,k对应标签位为1,换句话说,该公式的含义是图像对应的01标签向量y为1位置即为语义偏好Pm,k,保留对应语义偏好Pm,k的码字Cm,k。
其中,λdiv为平衡系数。
对于输入量化器的每个特征子向量,按照其到各码字的距离作加权平均,来计算得到子向量对应的近似量化向量:
表示码字集CSP(m,y)中的第k1个码字,表示码字集CSP(m,y)中的第k2个码字,K′是码字集CSP(m,y)中码字的数量,γhard与γsoft为调节近似程度的超参数,T为优化的迭代次数,λsoft为平衡系数。
为了增强码字多样性,防止码字重叠导致信息效率低下,本发明采用上述多样化损失作为约束项来提高码字利用率。
在本发明中,为码字指定了语义偏好,实现了不可导的量化损失与有偏的软量化损失之间的折衷,采用偏差较低的方案优化码字,从而提升量化器性能,以保证执行快速检索时,量化向量能更好地近似特征向量,实现了降低量化误差的目的。
如图3所示,在训练好语义偏好量化模块后,需要对图像检索数据库中图像(简称检索库图像)用特征提取模块进行特征向量提取,并用量化器量化,得到其量化编码,这一阶段称之为离线数据处理阶段,具体为:
步骤S4:基于语义偏好量化模块,获取图像检索数据库中每一张图像的量化编码
使用特征提取模块提取图像检索数据库中每一张图像的特征向量x,并做向量切分得到M个特征子向量xm,m=1,2,…,M输入语义偏好量化模块中,每个特征子向量xm分别与对应的量化器Qm的码字集合Cm的码字Cm,k进行距离计算,得到K个距离值,找出距离最小的码字序号,记为这样M个特征子向量得到M个距离最小的码字序号并构成该图像的M个量化编码。
在本实施例中,如图3所示,M等于4,即特征向量x做向量切分得到4个特征子向量x1,x2,x3,x4,并分别送到对应的量化器Q1,Q2,Q3,Q4中。如图3所示特征子向量xm分别与码字集合Cm的码字Cm,k进行距离计算。在本实施例中,计算距离为计算欧式距离,K=8,即得到8个距离值。找出距离最小,在本实施例中为0.9,其码字为码字Cm,4,即码字序号为4,则(对应的二进制编码bm=011,计算机中二进制编码为0~7,即二进制编码为3)。
步骤S5:基于语义偏好量化模块获取快速查找表并依据量化编码获得近似距离,依据近似距离获得检索结果
在线查询阶段中,如图3所示,首先将查询图像输入特征提取模块得到对应的特征向量q,并做向量切分得到M个特征子向量qm,m=1,2,…,M输入语义偏好量化模块中,每个特征子向量qm分别与对应的量化器的码字集合Cm的码字Cm,k进行距离计算,得到K个距离值dm,k,k=1,2,…,K,在本实施例中,K个距离值dm,k记为一个距离查找表Tm,这样M个特征子向量得到的M×K个距离值构成快速查找表。
然后,对于图像检索数据库中每一张图像,将其每一个量化编码作为索引,在本实施例中,将对应的二进制编码bm作为索引,在快速查找表对应的K个距离值dm,k,k=1,2,…,K,即快速查找表第m组的K个距离值即第m个距离查找表Tm中,找到(对应的二进制编码bm=011)位置的距离值。在本实施例中,该距离值为0.5,这样,找到M个距离值(记为Dm),然后将这M个距离值即Dm相加,得到的距离值并作为查询图像与图像检索数据库中该图像的近似距离D*。
最后,依据近似距离D*,将距离值从小到大输出图像检索数据库的图像作为检索结果,完成图像的快速检索。
仿真实验
设置试验条件为:系统:Ubuntu 20.04.3,软件:Python 3.8.8,处理器:Intel(R)Xeon(R)CPU E5-2678 v3@2.50GHz×6,内存:256GB。
实验内容:利用本发明将存在背景噪音的不同视角的多种图像作为查询,可以在图像检索数据库中精确检索出类似图像,结果如附图4所示;
实验结果分析:从图4可以看出,本发明检索出的图像同查询图像中的主体大多数属于同一类事物,说明本发明能够无视图像背景、角度变换等干扰,从图像检索数据库中有效检索出同查询图像在语义上相似的图像,具备很强的鲁棒性。
下面结合现有技术的图像生成方法,通过仿真实验对本发明的效果进行对比说明:
实验条件:系统:Ubuntu 18.04,软件:Python 3.6,处理器:Intel Xeon(R)CPUE5-2620 v4@2.10GHz×2,内存:256GB;
测试说明:在实验中将数据集随机划分为了训练数据集,以及用于测试的查询集和图像检索数据库。模型在训练集上学习参数,然后使用查询集中的图像模拟真实查询,在数据库集中检索图像。在测试时,若两张图像共有某一标签则表示这两张图像相似,否则这两张图像相互无关。
考察图像检索精确度:
以在ImageNet数据集上预先训练完毕的AlexNet为骨架,对于每种算法,使用各自的网络架构和损失函数进行训练。训练完毕后,在不同比特数的编码限制下将数据库图像表示为01量化编码,然后对于每张查询图像提取特征向量。接着基于量化编码与特征向量计算查询特征向量与量化向量间的距离,按照该距离排序数据库候选项,最后输出对应的检索结果计算mAP,具体如表1所示。
表1
考察量化误差:
以在ImageNet数据集上预先训练完毕的AlexNet为骨架,对于每种算法,使用各自的网络架构和损失函数进行训练。训练完毕后,在不同比特数的编码限制下将数据库图像表示为01编码,然后重构原始向量,并计算重构前后特征向量的均方误差作为量化误差,具体如表2所示
表2
通过表1和表2中的数据的分析对比,可以得知本发明在不同编码长度下均具有检索精确度高,量化误差小的优点。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种基于语义偏好的快速图像检索方法,其特征在于,包括以下步骤:
(1)、训练语义中心分配模块,获取语义中心矩阵V
1.1)、在给定的带标签的训练数据集中,统计各标签对应的图像集,计算标签i与标签j的关联度Si,j:
其中,Ii为标签i对应的图像集合,Ij为标签j对应的图像集合,|| ||表示求图像集合的大小;
1.2)、语义中心分配模块的参数即各标签的语义中心,在初始化时,语义中心分配模块用随机值来初始化各标签的语义中心,然后计算每对语义中心的势能Gs(vi,vj):
Gs(vi,vj)=||cos(vi,vj)-Si,j||2
其中,Nc表示标签的数量;
1.5)、应用归一化方程,将优化过后的各语义中心投影至同一超球面:
其中,R为超球面的半径;
1.6)、将各语义中心逐列拼接起来得到语义中心矩阵V,其中,第i列表示标签i对应的语义中心vi;
(2)、基于语义中心矩阵V训练特征提取网络模块
构建由卷积神经网络层、用于分类的全连接层FCc以及用于特征映射的全连接层FCg组成特征提取网络模块,然后进行训练:
2.1)、在训练数据集中,选取一张图像及其对应的标签,将选取的图像进行数据增强操作后输入卷积神经网络层,得到隐藏特征向量f;
2.4)、图像对应的目标语义向量t将会由其对应的语义中心融合得到,即:
其中,第一项表示特征提取模块输出的特征向量x同目标语义向量t的余弦相似度,第二项用于通过L2范数约束特征向量x的模长,而λmag是平衡系数;
(3)、使用特征提取网络模块得到特征向量并训练语义偏好量化模块
3.1)、在训练数据集中,选取一张图像及其对应的标签,将选取的图像进行数据增强操作后输入训练好的特征提取网络模块,得到特征向量并按照维度将特征向量x均匀划分为M个特征子向量其中M为语义偏好量化模块中量化器的数量;
3.2)、语义偏好量化模块中的第m个量化器的码字集合Cm为 K为码字集合Cm中码字的数量,为每个码字Cm,k设定各自的语义偏好Pm,k,这样,码字集合Cm对应的语义偏好集合Pm为{Pm,k∈N*|1≤k≤K},其中,N*表示自然数,Pm,k∈[1,Nc],令:
Pm,k=k%Nc+1
表示码字集CSP(m,y)中的第k1个码字,表示码字集CSP(m,y)中的第k2个码字,K′是码字集CSP(m,y)中码字的数量,γhard与γsoft为调节近似程度的超参数,T为优化的迭代次数,λsoft为平衡系数;
(4)、使用特征提取模块提取图像检索数据库中每一张图像的特征向量,并做向量切分得到M个特征子向量输入语义偏好量化模块中,每个特征子向量xm分别与对应的量化器的码字集合Cm的码字Cm,k进行距离计算,得到K个距离值,找出距离最小的码字序号,记为这样M个特征子向量得到M个距离最小的码字序号并构成该图像的M个量化编码;
(5)、在线查询阶段中,首先将查询图像输入特征提取模块得到对应的特征向量q,并做向量切分得到M个特征子向量输入语义偏好量化模块中,每个特征子向量qm分别与对应的量化器的码字集合Cm的码字Cm,k进行距离计算,得到K个距离值dm,k,k=1,2,…,K,这样M个特征子向量得到的M×K个距离值构成快速查找表;
然后,对于图像检索数据库中每一张图像,将其每一个量化编码作为索引,在快速查找表对应的K个距离值dm,k,k=1,2,…,K,找到位置的距离值,这样,找到M个距离值然后将这M个距离值相加,得到的距离值并作为查询图像与图像检索数据库中该图像的近似距离;
最后,依据近似距离,将距离值从小到大输出图像检索数据库的图像作为检索结果,完成图像的快速检索。
2.根据权利要求1所述的基于语义偏好的快速图像检索方法,其特征在于,所述距离为欧式距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210647107.XA CN114911958B (zh) | 2022-06-09 | 2022-06-09 | 一种基于语义偏好的快速图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210647107.XA CN114911958B (zh) | 2022-06-09 | 2022-06-09 | 一种基于语义偏好的快速图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114911958A CN114911958A (zh) | 2022-08-16 |
CN114911958B true CN114911958B (zh) | 2023-04-18 |
Family
ID=82770208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210647107.XA Active CN114911958B (zh) | 2022-06-09 | 2022-06-09 | 一种基于语义偏好的快速图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114911958B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116010669B (zh) * | 2023-01-18 | 2023-12-08 | 深存科技(无锡)有限公司 | 向量库重训练的触发方法、装置、检索服务器及存储介质 |
CN116912925A (zh) * | 2023-09-14 | 2023-10-20 | 齐鲁空天信息研究院 | 人脸识别方法、装置、电子设备及介质 |
CN117391646B (zh) * | 2023-12-11 | 2024-03-22 | 深圳市伊登软件有限公司 | 一种协同创新管理系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6584223B1 (en) * | 1998-04-02 | 2003-06-24 | Canon Kabushiki Kaisha | Image search apparatus and method |
CN106033426A (zh) * | 2015-03-11 | 2016-10-19 | 中国科学院西安光学精密机械研究所 | 一种基于潜在语义最小哈希的图像检索方法 |
CN110163271A (zh) * | 2019-05-13 | 2019-08-23 | 武汉大学 | 一种基于球面投影网格和球面卷积的全景影像目标检测方法 |
CN111930984A (zh) * | 2019-04-24 | 2020-11-13 | 北京京东振世信息技术有限公司 | 图像检索方法、装置、服务器、客户端及介质 |
CN112528016A (zh) * | 2020-11-19 | 2021-03-19 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
CN113190699A (zh) * | 2021-05-14 | 2021-07-30 | 华中科技大学 | 一种基于类别级语义哈希的遥感图像检索方法及装置 |
-
2022
- 2022-06-09 CN CN202210647107.XA patent/CN114911958B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6584223B1 (en) * | 1998-04-02 | 2003-06-24 | Canon Kabushiki Kaisha | Image search apparatus and method |
CN106033426A (zh) * | 2015-03-11 | 2016-10-19 | 中国科学院西安光学精密机械研究所 | 一种基于潜在语义最小哈希的图像检索方法 |
CN111930984A (zh) * | 2019-04-24 | 2020-11-13 | 北京京东振世信息技术有限公司 | 图像检索方法、装置、服务器、客户端及介质 |
CN110163271A (zh) * | 2019-05-13 | 2019-08-23 | 武汉大学 | 一种基于球面投影网格和球面卷积的全景影像目标检测方法 |
CN112528016A (zh) * | 2020-11-19 | 2021-03-19 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
CN113190699A (zh) * | 2021-05-14 | 2021-07-30 | 华中科技大学 | 一种基于类别级语义哈希的遥感图像检索方法及装置 |
Non-Patent Citations (2)
Title |
---|
Kevin Lin等.Deep learning of binary hash codes for fast image retrieval.《proceedings of IEEE conference on computer vision and pattern recognition workshops》.2015,27-35页. * |
陈亚林.优化的K均值哈希量化用于近似最近邻检索.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,I138-507. * |
Also Published As
Publication number | Publication date |
---|---|
CN114911958A (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114911958B (zh) | 一种基于语义偏好的快速图像检索方法 | |
CN112633419B (zh) | 小样本学习方法、装置、电子设备和存储介质 | |
CN111626063B (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
CN112800776B (zh) | 双向gru关系抽取数据处理方法、系统、终端、介质 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN111104555B (zh) | 基于注意力机制的视频哈希检索方法 | |
Pan et al. | Product quantization with dual codebooks for approximate nearest neighbor search | |
CN112948601B (zh) | 一种基于受控语义嵌入的跨模态哈希检索方法 | |
CN111401079A (zh) | 神经网络机器翻译模型的训练方法、装置及存储介质 | |
CN111897954B (zh) | 一种用户评论方面挖掘系统、方法、及存储介质 | |
CN110941734A (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN116049459A (zh) | 跨模态互检索的方法、装置、服务器及存储介质 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
Peng et al. | Swin transformer-based supervised hashing | |
CN115640418B (zh) | 基于残差语义一致性跨域多视角目标网站检索方法及装置 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN114741487B (zh) | 基于图文语义嵌入的图文检索方法及系统 | |
CN114648005B (zh) | 一种多任务联合学习的多片段机器阅读理解方法及装置 | |
WO2023168818A1 (zh) | 视频和文本相似度确定方法、装置、电子设备、存储介质 | |
CN112487231B (zh) | 一种基于双图正则化约束和字典学习的图像自动标注方法 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN115658881A (zh) | 基于因果关系的序列到序列文本摘要生成方法及系统 | |
CN110969187B (zh) | 一种图谱迁移的语义分析方法 | |
CN118332153B (zh) | 一种基于图像块和属性对齐的图像检索方法 | |
CN114138995B (zh) | 基于对抗学习的小样本跨模态检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |