CN114911958B - 一种基于语义偏好的快速图像检索方法 - Google Patents

一种基于语义偏好的快速图像检索方法 Download PDF

Info

Publication number
CN114911958B
CN114911958B CN202210647107.XA CN202210647107A CN114911958B CN 114911958 B CN114911958 B CN 114911958B CN 202210647107 A CN202210647107 A CN 202210647107A CN 114911958 B CN114911958 B CN 114911958B
Authority
CN
China
Prior art keywords
semantic
image
feature
vector
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210647107.XA
Other languages
English (en)
Other versions
CN114911958A (zh
Inventor
宋井宽
张志斌
申恒涛
朱筱苏
高联丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210647107.XA priority Critical patent/CN114911958B/zh
Publication of CN114911958A publication Critical patent/CN114911958A/zh
Application granted granted Critical
Publication of CN114911958B publication Critical patent/CN114911958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义偏好的快速图像检索方法,首先以语义(标签)关联度指导训练语义中心分配模块,得到语义中心矩阵V,然后基于语义中心矩阵V,对固定特征提取模块进行训练,这样通过依照语义关联度约束语义中心在特征空间的分布,并令特征向量朝着对应语义中心聚集,从而在语义关联度的指导下充分利用特征空间,有效避免了具备不同标签的特征向量的混淆,解决了特征分布不合理的情况,有效避免不同类特征向量的混淆,提升检索准确度;其次,本发明为码字指定了语义偏好,实现了不可导的量化损失与有偏的软量化损失之间的折衷,采用偏差较低的方案优化码字,从而提升量化器性能,以保证执行快速检索时,量化向量能更好地近似特征向量,实现了降低量化误差的目的。

Description

一种基于语义偏好的快速图像检索方法
技术领域
本发明属于图像检索技术领域,更为具体地讲,涉及一种基于语义偏好的快速图像检索方法。
背景技术
在多媒体内容数据日益丰富的今日,直接在大规模多媒体数据库中检索内容对于数据库来说,无论是时间开销还是内存开销都代价太昂贵了。如何在多媒体数据库尤其是图像数据库中快速检索,以获得高相关性的结果(图像)变得愈加重要。尽管最近开发的深度学习技术在识别和感知图像用于图像匹配方面取得了成功,但这些技术仍然需要巨大的时空间开销,无法应用于实际场景。
为了解决这一问题,快速图像检索方法受到了越来越多的关注。具体来说,一个快速图像检索方法需要在可接受的时间内从数据库中找到相似的图像。因为同时考虑到了时间开销的问题,快速图像检索方法研究具备相当的实际应用价值,可以应用于商品图像检索系统、社交媒体图像检索系统以及人脸图像检索系统等大规模图像检索系统。
作为快速图像检索的主流方法之一,基于语义偏好的快速图像检索方法常常同时具备低内存消耗、高执行效率以及高检索精度等优势。但现有基于语义偏好的快速图像检索方法主要有以下缺陷:1)训练检索模型时通常从成对、三元组或基于锚的损失中学习特征提取器,这些损失只关注样本间的局部关系,而不是从全局的视角对齐特征。这可能会造成整个空间的利用不充分以及不同语义之间的严重混淆,从而导致检索性能下降;2)此外,为了使量化器能够以端到端的方式进行学习,当前的实践通常用softmax作为不可微分的量化操作的松弛函数,但是它是有偏的,通常会导致不尽如人意的次优解。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于语义偏好的快速图像检索方法,采用了更符合该快速图像检索任务需求的网络结构和损失函数,以解决现有方法容易导致的特征分布不合理,有效避免不同类特征向量的混淆,提升检索准确度,同时解决码字优化过程的梯度估计偏差过大的问题,以提升量化器性能,以保证执行快速检索时,量化向量能更好地近似原始特征向量,实现降低量化误差的目的。
为实现上述发明目的,本发明基于语义偏好的快速图像检索方法,其特征在于,包括以下步骤:
(1)、训练语义中心分配模块,获取语义中心矩阵V
1.1)、在给定的带标签的训练数据集中,统计各标签对应的图像集,计算标签i与标签j的关联度Si,j
Figure BDA0003686410580000021
其中,Ii为标签i对应的图像集合,Ij为标签j对应的图像集合,|| ||表示求图像集合的大小;
1.2)、语义中心分配模块的参数即各标签的语义中心,在初始化时,语义中心分配模块用随机值来初始化各标签的语义中心,然后计算每对语义中心的势能Gs(vi,vj):
Gs(vi,vj)=||cos(vi,vj)-Si,j||2
其中,vi为标签i对应的语义中心,vj为标签j对应的语义中心,语义中心为D维实数向量即
Figure BDA0003686410580000022
cos(vi,vj)表示求语义中心vi、vj的余弦值,|| ||2表示求二范数;
1.3)、计算融合了难样本挖掘技术的语义中心损失
Figure BDA0003686410580000023
Figure BDA0003686410580000024
其中,Nc表示标签的数量;
1.4)、根据语义中心损失
Figure BDA0003686410580000025
通过梯度下降法迭代地优化各语义中心,直到语义中心损失收敛;
1.5)、应用归一化方程,将优化过后的各语义中心投影至同一超球面:
Figure BDA0003686410580000026
其中,R为超球面的半径。
1.6)、将各语义中心逐列拼接起来得到语义中心矩阵V,其中,第i列表示标签i对应的语义中心vi
(2)、基于语义中心矩阵V训练特征提取网络模块
构建由卷积神经网络层、用于分类的全连接层FCc以及用于特征映射的全连接层FCg组成特征提取网络模块,然后进行训练:
2.1)、在训练数据集中,选取一张图像及其对应的标签,将选取的图像进行数据增强操作后输入卷积神经网络层,得到隐藏特征向量f;
2.2)、将隐藏特征向量f分别输入到全连接层FCc和全连接层FCg,分别得到图像对应的Nc维实数标签预测向量p即
Figure BDA0003686410580000031
和D维实数特征向量x即
Figure BDA0003686410580000032
2.3)、对标签预测向量p计算交叉熵损失
Figure BDA00036864105800000315
其中y表示图像对应的01标签向量,所述01标签向量为Nc维01组成的列向量,其中图像对应标签序号位为1,其余为0;
2.4)、图像对应的目标语义向量t将会由其对应的语义中心融合得到,即:
Figure BDA0003686410580000033
2.5)、基于目标语义向量t,计算聚集损失
Figure BDA0003686410580000034
Figure BDA0003686410580000035
其中,第一项表示特征提取模块输出的特征向量x同目标语义向量t的余弦相似度,第二项用于通过L2范数约束特征向量x的模长,而λmag是平衡系数;
2.6)、同时考虑分类损失
Figure BDA0003686410580000036
和聚集损失
Figure BDA0003686410580000037
得到用于优化特征提取模块的损失
Figure BDA0003686410580000038
Figure BDA0003686410580000039
其中,λC是用于平衡分类损失
Figure BDA00036864105800000310
和聚集损失
Figure BDA00036864105800000311
的影响的超参数;
2.7)、根据损失
Figure BDA00036864105800000312
通过梯度下降法,优化特征提取网络模块参数,不断重复步骤2.1)到步骤2.7),直至损失
Figure BDA00036864105800000313
收敛,然后固定特征提取模块的参数,完成特征提取网络模块的训练;
(3)、使用特征提取网络模块得到特征向量并训练语义偏好量化模块
3.1)、在训练数据集中,选取一张图像及其对应的标签,将选取的图像进行数据增强操作后输入训练好的特征提取网络模块,得到特征向量
Figure BDA00036864105800000314
并按照维度将特征向量x均匀划分为M个特征子向量
Figure BDA0003686410580000041
其中M为语义偏好量化模块中量化器的数量;
3.2)、语义偏好量化模块中的第m个量化器的码字集合Cm
Figure BDA0003686410580000042
Figure BDA0003686410580000043
K为码字集合Cm中码字的数量,为每个码字Cm,k设定各自的语义偏好Pm,k,这样,码字集合Cm对应的语义偏好集合Pm为{Pm,k∈N*|1≤k≤K},其中,N*表示自然数,Pm,k∈[1,Nc],令:
Pm,k=k%Nc+1
其中%表示取余数;3.3)、构建语义偏好量化模块的整体损失
Figure BDA0003686410580000044
为:
Figure BDA0003686410580000045
其中:
Figure BDA0003686410580000046
Figure BDA0003686410580000047
表示图像对应的01标签向量的Pm,k位;
其中:
Figure BDA0003686410580000048
是关于特征子向量xm和码字集CSP(m,y)的损失函数,其公式为:
Figure BDA0003686410580000049
其中,λdiv为平衡系数,而
Figure BDA00036864105800000410
为量化损失,其计算公式为:
Figure BDA00036864105800000411
Figure BDA00036864105800000412
Figure BDA00036864105800000413
Figure BDA00036864105800000414
Figure BDA00036864105800000415
表示码字集CSP(m,y)中的第k1个码字,
Figure BDA00036864105800000416
表示码字集CSP(m,y)中的第k2个码字,K′是码字集CSP(m,y)中码字的数量,γhard与γsoft为调节近似程度的超参数,T为优化的迭代次数,λsoft为平衡系数;
其中,
Figure BDA00036864105800000417
为多样化损失:
Figure BDA00036864105800000418
3.4)、根据整体损失
Figure BDA00036864105800000419
通过梯度下降法,优化语义偏好量化模块的量化器,不断重复步骤3.1)到步骤3.4),直至整体损失
Figure BDA00036864105800000420
收敛,完成语义偏好量化模块的训练;
(4)、使用特征提取模块提取图像检索数据库中每一张图像的特征向量,并做向量切分得到M个特征子向量输入语义偏好量化模块中,每个特征子向量xm分别与对应的量化器的码字集合Cm的码字Cm,k进行距离计算,得到K个距离值,找出距离最小的码字序号,记为
Figure BDA0003686410580000051
这样M个特征子向量得到M个距离最小的码字序号并构成该图像的M个量化编码;
(5)、在线查询阶段中,首先将查询图像输入特征提取模块得到对应的特征向量q,并做向量切分得到M个特征子向量输入语义偏好量化模块中,每个特征子向量qm分别与对应的量化器的码字集合Cm的码字Cm,k进行距离计算,得到K个距离值dm,k,k=1,2,…,K,这样M个特征子向量得到的M×K个距离值构成快速查找表;
然后,对于图像检索数据库中每一张图像,将其每一个量化编码
Figure BDA0003686410580000052
作为索引,在快速查找表对应的K个距离值dm,k,k=1,2,…,K,找到
Figure BDA0003686410580000053
位置的距离值,这样,找到M个距离值
Figure BDA0003686410580000054
然后将这M个距离值
Figure BDA0003686410580000055
相加,得到的距离值并作为查询图像与图像检索数据库中该图像的近似距离;
最后,依据近似距离,将距离值从小到大输出图像检索数据库的图像作为检索结果,完成图像的快速检索。
本发明的发明目的是这样实现的:
本发明基于语义偏好的快速图像检索方法,首先以语义(标签)关联度指导训练语义中心分配模块,得到语义中心矩阵V,然后基于语义中心矩阵V,对特征提取模块进行训练,这样依照语义关联度约束语义中心在特征空间的分布,并令特征向量朝着对应语义中心聚集,从而在语义关联度的指导下充分利用特征空间,有效避免了具备不同标签的特征向量的混淆,解决了现有方法容易导致特征分布不合理的情况,提升检索准确度;其次,本发明为码字指定了语义偏好,实现了不可导的量化损失与有偏的软量化损失之间的折衷,采用偏差较低的方案优化码字,从而提升量化器性能,以保证执行快速检索时,量化向量能更好地近似特征向量,实现了降低量化误差的目的。
附图说明
图1是本发明基于语义偏好的快速图像检索方法的一种具体实施方式流程图;
图2是本发明基于语义偏好的快速图像检索方法的一种具体实施方式的原理示意图;
图3是离线数据处理阶段以及线查询阶段的处理、查询原理示意图;
图4是检索实例图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1、2分别是本发明基于语义偏好的快速图像检索方法的一种具体实施方式流程图和原理示意图。
在本实施例中,如图1所示,本发明基于语义偏好的快速图像检索方法包括以下步骤:
步骤S1:训练语义中心分配模块,获取语义中心矩阵V
步骤S1.1:在给定的带标签的训练数据集中,统计各标签对应的图像集,计算标签i与标签j的关联度Si,j
Figure BDA0003686410580000061
其中,Ii为标签i对应的图像集合,Ij为标签j对应的图像集合,|| ||表示求图像集合的大小。
如图2所示,所有Nc标签之间的关联度Si,j,构成关联度矩阵S,并送入到语义中心分配模块SCA中。
步骤S1.2:语义中心分配模块的参数即各标签的语义中心,在初始化时,语义中心分配模块用随机值来初始化各标签的语义中心,然后计算每对语义中心的势能Gs(vi,vj):
Gs(vi,vj)=||cos(vi,vj)-Si,j||2
其中,vi为标签i对应的语义中心,vj为标签j对应的语义中心,语义中心为D维实数向量即
Figure BDA0003686410580000062
cos(vi,vj)表示求语义中心vi、vj的余弦值,|| ||2表示求二范数。
Figure BDA0003686410580000071
为实数向量的表示,其中,D表示维度。
在本实施例中,如图2所示,给出了五个标签的语义中心v1,v2,v3,v4,v5的示意,但实际上标签数量远大于5,这里仅仅是一个示意图。
步骤S1.3:计算融合了难样本挖掘技术的语义中心损失
Figure BDA0003686410580000072
Figure BDA0003686410580000073
其中,Nc表示标签的数量。
步骤S1.4:根据语义中心损失
Figure BDA0003686410580000074
通过梯度下降法迭代地优化各语义中心,直到语义中心损失收敛;
步骤S1.5:应用归一化方程,将优化过后的各语义中心投影至同一超球面:
Figure BDA0003686410580000075
其中,R为超球面的半径。
步骤S1.6:将各语义中心逐列拼接起来得到语义中心矩阵V,其中,第i列表示标签i对应的语义中心vi
如图2所示,得到的语义中心矩阵V送入特征提取网络模块,为训练特征提取网络模块做准备。
步骤S2:基于语义中心矩阵V训练特征提取网络模块
在本实施例中如图2所示,构建由卷积神经网络层、用于分类的全连接层FCc以及用于特征映射的全连接层FCg组成特征提取网络模块,然后进行训练,如图2所示:
步骤S2.1:在训练数据集中,选取一张图像及其对应的标签,将选取的图像进行数据增强操作后输入卷积神经网络层,得到隐藏特征向量f。
步骤S2.2:将隐藏特征向量f分别输入到全连接层FCc和全连接层FCg,分别得到图像对应的Nc维实数标签预测向量p即
Figure BDA0003686410580000076
和D维实数特征向量x即
Figure BDA0003686410580000077
维度分别01标签向量和语义中心vi相同。
步骤S2.3:对标签预测向量p计算交叉熵损失
Figure BDA0003686410580000078
其中y表示图像对应的01标签向量,所述01标签向量为Nc维01组成的列向量,其中图像对应标签序号位为1,其余为0,如图像对应两个标签,其序号为100、300,则其对应的01标签向量的第100、300位为1,其余全部为0。
步骤S2.4:图像对应的目标语义向量t将会由其对应的语义中心融合得到,即:
Figure BDA0003686410580000081
步骤S2.5:基于目标语义向量t,计算聚集损失
Figure BDA0003686410580000082
Figure BDA0003686410580000083
其中,第一项表示特征提取模块输出的特征向量x同目标语义向量t的余弦相似度,第二项用于通过L2范数约束特征向量x的模长,而λmag是平衡系数。
步骤S2.6:同时考虑分类损失
Figure BDA0003686410580000084
和聚集损失
Figure BDA0003686410580000085
得到用于优化特征提取模块的损失
Figure BDA0003686410580000086
Figure BDA0003686410580000087
其中,λC是用于平衡分类损失
Figure BDA0003686410580000088
和聚集损失
Figure BDA0003686410580000089
的影响的超参数。
步骤S2.7:根据损失
Figure BDA00036864105800000810
通过梯度下降法,优化特征提取网络模块参数,不断重复步骤S2.1)到步骤S2.7),直至损失
Figure BDA00036864105800000811
收敛,然后固定特征提取模块的参数,完成特征提取网络模块的训练。
通过步骤S1、S2,可以依照语义关联度约束语义中心在特征空间的分布,并令特征向量朝着对应语义中心聚集,从而在语义关联度的指导下充分利用特征空间,有效避免了具备不同标签的特征向量的混淆,解决了现有方法容易导致特征分布不合理的情况,有效避免不同类特征向量的混淆,提升检索准确度。
步骤S3:使用特征提取网络模块得到特征向量并训练语义偏好量化模块
步骤S3.1:在训练数据集中,选取一张图像及其对应的标签,将选取的图像进行数据增强操作后输入训练好的特征提取网络模块,得到特征向量
Figure BDA00036864105800000812
并按照维度将特征向量x均匀划分为M个特征子向量
Figure BDA00036864105800000813
其中M为语义偏好量化模块(ARSQ)中量化器的数量。量化器即为语义偏好量化器,为了简化描述,简称为量化器。
步骤S3.2:如图2所示,语义偏好量化模块中的第m个量化器的码字集合Cm
Figure BDA00036864105800000814
K为码字集合Cm中码字的数量,为每个码字Cm,k设定各自的语义偏好Pm,k,这样,码字集合Cm对应的语义偏好集合Pm为{Pm,k∈N*|1≤k≤K},其中,N*表示自然数,Pm,k∈[1,Nc],令:
Pm,k=k%Nc+1
其中%表示取余数;
步骤S3.3:构建语义偏好量化模块的整体损失
Figure BDA0003686410580000091
为:
Figure BDA0003686410580000092
其中:
Figure BDA0003686410580000093
Figure BDA0003686410580000094
表示图像对应的01标签向量的Pm,k位,即保留的第k个码字Cm,k,其对应的语义偏好Pm,k对应标签位为1,换句话说,该公式的含义是图像对应的01标签向量y为1位置即
Figure BDA0003686410580000095
为语义偏好Pm,k,保留对应语义偏好Pm,k的码字Cm,k
其中:
Figure BDA0003686410580000096
是关于特征子向量xm和码字集CSP(m,y)的损失函数,其公式为:
Figure BDA0003686410580000097
其中,λdiv为平衡系数。
而为了尽量收敛至较优解,降低量化误差,本发明在量化损失函数中融入了退火的机制,得到量化损失
Figure BDA0003686410580000098
如下:
Figure BDA0003686410580000099
对于输入量化器的每个特征子向量,按照其到各码字的距离作加权平均,来计算得到子向量对应的近似量化向量:
Figure BDA00036864105800000910
Figure BDA00036864105800000911
Figure BDA00036864105800000912
表示码字集CSP(m,y)中的第k1个码字,
Figure BDA00036864105800000913
表示码字集CSP(m,y)中的第k2个码字,K′是码字集CSP(m,y)中码字的数量,γhard与γsoft为调节近似程度的超参数,T为优化的迭代次数,λsoft为平衡系数。
其中,
Figure BDA0003686410580000101
为多样化损失:
Figure BDA0003686410580000102
为了增强码字多样性,防止码字重叠导致信息效率低下,本发明采用上述多样化损失作为约束项来提高码字利用率。
步骤S3.4:根据整体损失
Figure BDA0003686410580000103
通过梯度下降法,优化语义偏好量化模块的量化器,不断重复步骤S3.1到步骤S3.4,直至整体损失
Figure BDA0003686410580000104
收敛,完成语义偏好量化模块的训练。
在本发明中,为码字指定了语义偏好,实现了不可导的量化损失与有偏的软量化损失之间的折衷,采用偏差较低的方案优化码字,从而提升量化器性能,以保证执行快速检索时,量化向量能更好地近似特征向量,实现了降低量化误差的目的。
如图3所示,在训练好语义偏好量化模块后,需要对图像检索数据库中图像(简称检索库图像)用特征提取模块进行特征向量提取,并用量化器量化,得到其量化编码,这一阶段称之为离线数据处理阶段,具体为:
步骤S4:基于语义偏好量化模块,获取图像检索数据库中每一张图像的量化编码
使用特征提取模块提取图像检索数据库中每一张图像的特征向量x,并做向量切分得到M个特征子向量xm,m=1,2,…,M输入语义偏好量化模块中,每个特征子向量xm分别与对应的量化器Qm的码字集合Cm的码字Cm,k进行距离计算,得到K个距离值,找出距离最小的码字序号,记为
Figure BDA0003686410580000105
这样M个特征子向量得到M个距离最小的码字序号并构成该图像的M个量化编码。
在本实施例中,如图3所示,M等于4,即特征向量x做向量切分得到4个特征子向量x1,x2,x3,x4,并分别送到对应的量化器Q1,Q2,Q3,Q4中。如图3所示特征子向量xm分别与码字集合Cm的码字Cm,k进行距离计算。在本实施例中,计算距离为计算欧式距离,K=8,即得到8个距离值。找出距离最小,在本实施例中为0.9,其码字为码字Cm,4,即码字序号为4,则
Figure BDA0003686410580000106
(对应的二进制编码bm=011,计算机中二进制编码为0~7,即二进制编码为3)。
步骤S5:基于语义偏好量化模块获取快速查找表并依据量化编码获得近似距离,依据近似距离获得检索结果
在线查询阶段中,如图3所示,首先将查询图像输入特征提取模块得到对应的特征向量q,并做向量切分得到M个特征子向量qm,m=1,2,…,M输入语义偏好量化模块中,每个特征子向量qm分别与对应的量化器的码字集合Cm的码字Cm,k进行距离计算,得到K个距离值dm,k,k=1,2,…,K,在本实施例中,K个距离值dm,k记为一个距离查找表Tm,这样M个特征子向量得到的M×K个距离值构成快速查找表。
然后,对于图像检索数据库中每一张图像,将其每一个量化编码
Figure BDA0003686410580000111
作为索引,在本实施例中,将对应的二进制编码bm作为索引,在快速查找表对应的K个距离值dm,k,k=1,2,…,K,即快速查找表第m组的K个距离值即第m个距离查找表Tm中,找到
Figure BDA0003686410580000112
(对应的二进制编码bm=011)位置的距离值。在本实施例中,该距离值为0.5,这样,找到M个距离值
Figure BDA0003686410580000113
(记为Dm),然后将这M个距离值
Figure BDA0003686410580000114
即Dm相加,得到的距离值并作为查询图像与图像检索数据库中该图像的近似距离D*
最后,依据近似距离D*,将距离值从小到大输出图像检索数据库的图像作为检索结果,完成图像的快速检索。
仿真实验
设置试验条件为:系统:Ubuntu 20.04.3,软件:Python 3.8.8,处理器:Intel(R)Xeon(R)CPU E5-2678 v3@2.50GHz×6,内存:256GB。
实验内容:利用本发明将存在背景噪音的不同视角的多种图像作为查询,可以在图像检索数据库中精确检索出类似图像,结果如附图4所示;
实验结果分析:从图4可以看出,本发明检索出的图像同查询图像中的主体大多数属于同一类事物,说明本发明能够无视图像背景、角度变换等干扰,从图像检索数据库中有效检索出同查询图像在语义上相似的图像,具备很强的鲁棒性。
下面结合现有技术的图像生成方法,通过仿真实验对本发明的效果进行对比说明:
实验条件:系统:Ubuntu 18.04,软件:Python 3.6,处理器:Intel Xeon(R)CPUE5-2620 v4@2.10GHz×2,内存:256GB;
测试说明:在实验中将数据集随机划分为了训练数据集,以及用于测试的查询集和图像检索数据库。模型在训练集上学习参数,然后使用查询集中的图像模拟真实查询,在数据库集中检索图像。在测试时,若两张图像共有某一标签则表示这两张图像相似,否则这两张图像相互无关。
考察图像检索精确度:
以在ImageNet数据集上预先训练完毕的AlexNet为骨架,对于每种算法,使用各自的网络架构和损失函数进行训练。训练完毕后,在不同比特数的编码限制下将数据库图像表示为01量化编码,然后对于每张查询图像提取特征向量。接着基于量化编码与特征向量计算查询特征向量与量化向量间的距离,按照该距离排序数据库候选项,最后输出对应的检索结果计算mAP,具体如表1所示。
Figure BDA0003686410580000121
表1
考察量化误差:
以在ImageNet数据集上预先训练完毕的AlexNet为骨架,对于每种算法,使用各自的网络架构和损失函数进行训练。训练完毕后,在不同比特数的编码限制下将数据库图像表示为01编码,然后重构原始向量,并计算重构前后特征向量的均方误差作为量化误差,具体如表2所示
Figure BDA0003686410580000122
表2
通过表1和表2中的数据的分析对比,可以得知本发明在不同编码长度下均具有检索精确度高,量化误差小的优点。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于语义偏好的快速图像检索方法,其特征在于,包括以下步骤:
(1)、训练语义中心分配模块,获取语义中心矩阵V
1.1)、在给定的带标签的训练数据集中,统计各标签对应的图像集,计算标签i与标签j的关联度Si,j
Figure QLYQS_1
其中,Ii为标签i对应的图像集合,Ij为标签j对应的图像集合,|| ||表示求图像集合的大小;
1.2)、语义中心分配模块的参数即各标签的语义中心,在初始化时,语义中心分配模块用随机值来初始化各标签的语义中心,然后计算每对语义中心的势能Gs(vi,vj):
Gs(vi,vj)=||cos(vi,vj)-Si,j||2
其中,vi为标签i对应的语义中心,vj为标签j对应的语义中心,语义中心为D维实数向量即
Figure QLYQS_2
cos(vi,vj)表示求语义中心vi、vj的余弦值,|| ||2表示求二范数;
1.3)、计算融合了难样本挖掘技术的语义中心损失
Figure QLYQS_3
Figure QLYQS_4
其中,Nc表示标签的数量;
1.4)、根据语义中心损失
Figure QLYQS_5
通过梯度下降法迭代地优化各语义中心,直到语义中心损失收敛;
1.5)、应用归一化方程,将优化过后的各语义中心投影至同一超球面:
Figure QLYQS_6
其中,R为超球面的半径;
1.6)、将各语义中心逐列拼接起来得到语义中心矩阵V,其中,第i列表示标签i对应的语义中心vi
(2)、基于语义中心矩阵V训练特征提取网络模块
构建由卷积神经网络层、用于分类的全连接层FCc以及用于特征映射的全连接层FCg组成特征提取网络模块,然后进行训练:
2.1)、在训练数据集中,选取一张图像及其对应的标签,将选取的图像进行数据增强操作后输入卷积神经网络层,得到隐藏特征向量f;
2.2)、将隐藏特征向量f分别输入到全连接层FCc和全连接层FCg,分别得到图像对应的Nc维实数标签预测向量p即
Figure QLYQS_7
和D维实数特征向量x即
Figure QLYQS_8
2.3)、对标签预测向量p计算交叉熵损失
Figure QLYQS_9
其中y表示图像对应的01标签向量,所述01标签向量为Nc维01组成的列向量,其中图像对应标签序号位为1,其余为0;
2.4)、图像对应的目标语义向量t将会由其对应的语义中心融合得到,即:
Figure QLYQS_10
2.5)、基于目标语义向量t,计算聚集损失
Figure QLYQS_11
Figure QLYQS_12
其中,第一项表示特征提取模块输出的特征向量x同目标语义向量t的余弦相似度,第二项用于通过L2范数约束特征向量x的模长,而λmag是平衡系数;
2.6)、同时考虑分类损失
Figure QLYQS_13
和聚集损失
Figure QLYQS_14
得到用于优化特征提取模块的损失
Figure QLYQS_15
Figure QLYQS_16
其中,λC是用于平衡分类损失
Figure QLYQS_17
和聚集损失
Figure QLYQS_18
的影响的超参数;
2.7)、根据损失
Figure QLYQS_19
通过梯度下降法,优化特征提取网络模块参数,不断重复步骤2.1)到步骤2.7),直至损失
Figure QLYQS_20
收敛,然后固定特征提取模块的参数,完成特征提取网络模块的训练;
(3)、使用特征提取网络模块得到特征向量并训练语义偏好量化模块
3.1)、在训练数据集中,选取一张图像及其对应的标签,将选取的图像进行数据增强操作后输入训练好的特征提取网络模块,得到特征向量
Figure QLYQS_21
并按照维度将特征向量x均匀划分为M个特征子向量
Figure QLYQS_22
其中M为语义偏好量化模块中量化器的数量;
3.2)、语义偏好量化模块中的第m个量化器的码字集合Cm
Figure QLYQS_23
Figure QLYQS_24
K为码字集合Cm中码字的数量,为每个码字Cm,k设定各自的语义偏好Pm,k,这样,码字集合Cm对应的语义偏好集合Pm为{Pm,k∈N*|1≤k≤K},其中,N*表示自然数,Pm,k∈[1,Nc],令:
Pm,k=k%Nc+1
其中%表示取余数;3.3)、构建语义偏好量化模块的整体损失
Figure QLYQS_25
为:
Figure QLYQS_26
其中:
Figure QLYQS_27
Figure QLYQS_28
表示图像对应的01标签向量的Pm,k位;
其中:
Figure QLYQS_29
是关于特征子向量xm和码字集CSP(m,y)的损失函数,其公式为:
Figure QLYQS_30
其中,λdiv为平衡系数,而
Figure QLYQS_31
为量化损失,其计算公式为:
Figure QLYQS_32
Figure QLYQS_33
Figure QLYQS_34
Figure QLYQS_35
Figure QLYQS_36
表示码字集CSP(m,y)中的第k1个码字,
Figure QLYQS_37
表示码字集CSP(m,y)中的第k2个码字,K′是码字集CSP(m,y)中码字的数量,γhard与γsoft为调节近似程度的超参数,T为优化的迭代次数,λsoft为平衡系数;
其中,
Figure QLYQS_38
为多样化损失:
Figure QLYQS_39
3.4)、根据整体损失
Figure QLYQS_40
通过梯度下降法,优化语义偏好量化模块的量化器,不断重复步骤3.1)到步骤3.4),直至整体损失
Figure QLYQS_41
收敛,完成语义偏好量化模块的训练;
(4)、使用特征提取模块提取图像检索数据库中每一张图像的特征向量,并做向量切分得到M个特征子向量输入语义偏好量化模块中,每个特征子向量xm分别与对应的量化器的码字集合Cm的码字Cm,k进行距离计算,得到K个距离值,找出距离最小的码字序号,记为
Figure QLYQS_42
这样M个特征子向量得到M个距离最小的码字序号并构成该图像的M个量化编码;
(5)、在线查询阶段中,首先将查询图像输入特征提取模块得到对应的特征向量q,并做向量切分得到M个特征子向量输入语义偏好量化模块中,每个特征子向量qm分别与对应的量化器的码字集合Cm的码字Cm,k进行距离计算,得到K个距离值dm,k,k=1,2,…,K,这样M个特征子向量得到的M×K个距离值构成快速查找表;
然后,对于图像检索数据库中每一张图像,将其每一个量化编码
Figure QLYQS_43
作为索引,在快速查找表对应的K个距离值dm,k,k=1,2,…,K,找到
Figure QLYQS_44
位置的距离值,这样,找到M个距离值
Figure QLYQS_45
然后将这M个距离值
Figure QLYQS_46
相加,得到的距离值并作为查询图像与图像检索数据库中该图像的近似距离;
最后,依据近似距离,将距离值从小到大输出图像检索数据库的图像作为检索结果,完成图像的快速检索。
2.根据权利要求1所述的基于语义偏好的快速图像检索方法,其特征在于,所述距离为欧式距离。
CN202210647107.XA 2022-06-09 2022-06-09 一种基于语义偏好的快速图像检索方法 Active CN114911958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210647107.XA CN114911958B (zh) 2022-06-09 2022-06-09 一种基于语义偏好的快速图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210647107.XA CN114911958B (zh) 2022-06-09 2022-06-09 一种基于语义偏好的快速图像检索方法

Publications (2)

Publication Number Publication Date
CN114911958A CN114911958A (zh) 2022-08-16
CN114911958B true CN114911958B (zh) 2023-04-18

Family

ID=82770208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210647107.XA Active CN114911958B (zh) 2022-06-09 2022-06-09 一种基于语义偏好的快速图像检索方法

Country Status (1)

Country Link
CN (1) CN114911958B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010669B (zh) * 2023-01-18 2023-12-08 深存科技(无锡)有限公司 向量库重训练的触发方法、装置、检索服务器及存储介质
CN116912925A (zh) * 2023-09-14 2023-10-20 齐鲁空天信息研究院 人脸识别方法、装置、电子设备及介质
CN117391646B (zh) * 2023-12-11 2024-03-22 深圳市伊登软件有限公司 一种协同创新管理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6584223B1 (en) * 1998-04-02 2003-06-24 Canon Kabushiki Kaisha Image search apparatus and method
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法
CN110163271A (zh) * 2019-05-13 2019-08-23 武汉大学 一种基于球面投影网格和球面卷积的全景影像目标检测方法
CN111930984A (zh) * 2019-04-24 2020-11-13 北京京东振世信息技术有限公司 图像检索方法、装置、服务器、客户端及介质
CN112528016A (zh) * 2020-11-19 2021-03-19 重庆兆光科技股份有限公司 一种基于低维球面投影的文本分类方法
CN113190699A (zh) * 2021-05-14 2021-07-30 华中科技大学 一种基于类别级语义哈希的遥感图像检索方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6584223B1 (en) * 1998-04-02 2003-06-24 Canon Kabushiki Kaisha Image search apparatus and method
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法
CN111930984A (zh) * 2019-04-24 2020-11-13 北京京东振世信息技术有限公司 图像检索方法、装置、服务器、客户端及介质
CN110163271A (zh) * 2019-05-13 2019-08-23 武汉大学 一种基于球面投影网格和球面卷积的全景影像目标检测方法
CN112528016A (zh) * 2020-11-19 2021-03-19 重庆兆光科技股份有限公司 一种基于低维球面投影的文本分类方法
CN113190699A (zh) * 2021-05-14 2021-07-30 华中科技大学 一种基于类别级语义哈希的遥感图像检索方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Kevin Lin等.Deep learning of binary hash codes for fast image retrieval.《proceedings of IEEE conference on computer vision and pattern recognition workshops》.2015,27-35页. *
陈亚林.优化的K均值哈希量化用于近似最近邻检索.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,I138-507. *

Also Published As

Publication number Publication date
CN114911958A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN114911958B (zh) 一种基于语义偏好的快速图像检索方法
CN112633419B (zh) 小样本学习方法、装置、电子设备和存储介质
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN112800776B (zh) 双向gru关系抽取数据处理方法、系统、终端、介质
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
CN111104555B (zh) 基于注意力机制的视频哈希检索方法
Pan et al. Product quantization with dual codebooks for approximate nearest neighbor search
CN112948601B (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
CN111897954B (zh) 一种用户评论方面挖掘系统、方法、及存储介质
CN110941734A (zh) 基于稀疏图结构的深度无监督图像检索方法
CN116049459A (zh) 跨模态互检索的方法、装置、服务器及存储介质
CN117217277A (zh) 语言模型的预训练方法、装置、设备、存储介质及产品
Peng et al. Swin transformer-based supervised hashing
CN115640418B (zh) 基于残差语义一致性跨域多视角目标网站检索方法及装置
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN114741487B (zh) 基于图文语义嵌入的图文检索方法及系统
CN114648005B (zh) 一种多任务联合学习的多片段机器阅读理解方法及装置
WO2023168818A1 (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质
CN112487231B (zh) 一种基于双图正则化约束和字典学习的图像自动标注方法
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN115658881A (zh) 基于因果关系的序列到序列文本摘要生成方法及系统
CN110969187B (zh) 一种图谱迁移的语义分析方法
CN118332153B (zh) 一种基于图像块和属性对齐的图像检索方法
CN114138995B (zh) 基于对抗学习的小样本跨模态检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant