CN112597324A - 一种基于相关滤波的图像哈希索引构建方法、系统及设备 - Google Patents

一种基于相关滤波的图像哈希索引构建方法、系统及设备 Download PDF

Info

Publication number
CN112597324A
CN112597324A CN202011479598.9A CN202011479598A CN112597324A CN 112597324 A CN112597324 A CN 112597324A CN 202011479598 A CN202011479598 A CN 202011479598A CN 112597324 A CN112597324 A CN 112597324A
Authority
CN
China
Prior art keywords
network
sample set
hash
image
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011479598.9A
Other languages
English (en)
Inventor
马雷
罗心怡
刘红
李璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202011479598.9A priority Critical patent/CN112597324A/zh
Publication of CN112597324A publication Critical patent/CN112597324A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于相关滤波的图像哈希索引构建方法及系统,方法包括:对图像数据集进行数据预处理得到相似矩阵,并将预处理后的图像数据集划分为训练样本集和测试样本集;利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络;定义成对语义损失函数和分类损失函数,并根据所述成对语义损失函数和分类损失函数构建协作学习框架,形成损失层;根据所述损失层和所述深度卷积网络构建深度网络哈希模型;利用所述训练样本集对所述深度网络哈希模型进行模型优化;利用所述测试样本集对优化后的所述深度网络哈希模型进行测试并生成索引。本发明能在利用图片多尺度信息的同时兼顾到图片的语义信息和潜在空间信息,从而使得最终得到的哈希二值码更准确。

Description

一种基于相关滤波的图像哈希索引构建方法、系统及设备
技术领域
本发明涉及深度监督哈希图像检索领域,尤其涉及一种基于相关滤波的图像哈希索引构建方法、系统及设备。
背景技术
传统的监督哈希方法利用手动设计的特征来学习哈希函数,将特征学习过程和哈希学习过程分为两个独立的阶段。因此,哈希编码过程与特征提取过程不是最优兼容的。并且,现有的深度监督哈希算法大多侧重于哈希码的生成,而忽略了对象在图像中的空间位置。
目前,一些监督哈希方法试图利用对象的潜在属性,如注意力机制、多尺度属性或对象边界框/掩膜来捕捉细微的差异,用于细粒度图像检索。虽然在实际的图像检索中,需要更多地关注有利于检索的目标区域,但是,对象边界框/掩膜的注释需要花费大量的时间和精力。此外,基于注意力和多尺度的哈希方法主要利用单模态视觉特征来解决判别区域定位问题,所以MAP平均准确率较低。
发明内容
本发明所要解决的技术问题是针对现有技术的不足提供一种基于相关滤波的图像哈希索引构建方法、系统及设备,能在利用图片多尺度信息的同时兼顾到图片的语义信息和潜在空间信息。
本发明解决上述技术问题的技术方案如下:一种基于相关滤波的图像哈希索引构建方法,其特征在于,包括:
S101:对图像数据集进行数据预处理得到相似矩阵S,并将预处理后的图像数据集划分为训练样本集和测试样本集;
S102:利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络;定义成对语义损失函数和分类损失函数,并根据所述成对语义损失函数和分类损失函数构建协作学习框架,形成损失层;根据所述损失层和所述深度卷积网络构建深度网络哈希模型;
S103:利用所述训练样本集对所述深度网络哈希模型进行模型优化;
S104:利用所述测试样本集对优化后的所述深度网络哈希模型进行测试并生成索引。
本发明的有益效果是,通过FPN和MLP实现相关滤波,并通过构建协作学习框架,将图片多尺度信息、图片的潜在空间信息和语义信息同时集成到哈希学习过程中,从而使得最终得到的哈希二值码MAP平均准确率更高,通过所述哈希二值码构建的索引效率更高,更精确。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,在上述技术方案中,所述对图像数据集进行数据预处理包括:
计算图像数据集中第i个图像Ii和第j个图像Ij的语义标签向量的内积;
当所述内积为1,则相似矩阵S∈{-1,+1}n×n中Sij=1否则Sij=-1。
采用上述进一步方案的有益效果是,构建相似矩阵便于将图像数据集中的图像数据映射成二值码并保留其语义相似性。
进一步,所述深度卷积网络包括:卷积层、池化层和全连接层;所述利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络,包括:
卷积层:通过FPN特征金字塔网络获取所述训练样本集中图像的图像特征;通过MLP多层感知器构建标签嵌入网络,通过所述标签嵌入网络处理所述样本训练集图片的语义标签向量,生成标签嵌入向量;将所述标签嵌入向量整合为256ⅹ1ⅹ1的滤波器,利用所述滤波器对所述图像特征进行相关滤波,得到特征图;
池化层:对所述特征图进行全局平均池化后拼接成1024维特征向量;
全连接层:将所述1024维特征向量送入r维全连接层,得到r维全连接层输出F(I;θ),将所述1024维特征向量送入L维全连接层,得到L维全连接层输出g,其中,θ为深度网络模型的整体参数,I表示训练样本集中图像。
采用上述进一步方案的有益效果是,通过FPN特征金字塔网络可以多尺度的提取图像特征,通过所述256ⅹ1ⅹ1的滤波器,可以对提取的图像特征进行相关滤波,从而利用语义信息与多尺度视觉特征之间的交叉模态相关性来挖掘具有判别性的潜在空间信息,从而使得最终得到的哈希二值码MAP平均准确率更高,通过所述哈希二值码构建的索引效率更高,更精确。
进一步,所述基于相关滤波的图像哈希索引构建方法中,所述成对语义损失函数可以为:
Figure BDA0002837024580000031
其中,bi,bj分别表示第i张图像Ii和第j张图像Ij的哈希码;成对语义损失为J1,Sij为所述相似矩阵中第i行第j列的元素,n为训练样本集的图像数量,F是范数的计算。
采用上述进一步方案的有益效果是,可以在汉明空间保持成对哈希码之间的语义相似性,因为二值码bi=sign(F(Ii;θ))是离散的,损失函数对该离散变量的导数为0,因此,无法通过反向传播梯度训练网络中函数F(Ii;θ)的参数θ。
优选地,利用tanh()作为激活函数来近似sign(),所述成对语义损失函数也可以为:
Figure BDA0002837024580000041
其中,
Figure BDA0002837024580000042
bi表示第i张图像Ii的哈希码;成对语义损失为J1,n为训练样本集的图像数量,F为数学符号是范数的计算,U为中间变量,α为超参数。
采用上述优选方案的有益效果是,利用tanh()作为激活函数来接近sign()函数,便于通过随机梯度下降和反向传播算法来训练网络参数θ的值。
进一步,所述基于相关滤波的图像哈希索引构建方法中,所述分类损失函数为:
Figure BDA0002837024580000043
其中,J2为分类损失,gi表示第i个图像Ii在L维全连接层的输出,χi,k表示第i个图像Ii属于第k类的预测概率,γ为超参数,n为训练样本集的图像数量。
采用上述优选方案的有益效果是,通过引入分类损失对难分类的或容易错误分类的示例分配更多的权重并对简单示例降低权重来处理类不平衡问题,从而提高图像特征的判别能力。
进一步,所述基于相关滤波的图像哈希索引构建方法中,所述构建协作学习框架包括:
根据下述公式构建协作学习框架:
Figure BDA0002837024580000051
其中,β为超参数,J1为成对语义损失,J2为分类损失,
Figure BDA0002837024580000052
bi表示第i张图像Ii的哈希码;n为训练样本集的图像数量。
采用上述进一步方案的有益效果是,通过对参数β的设置,在如上述公式所述条件的情况下,取J=J1+βJ2的最小值作为总损失,通过采用上述方法构建的协作学习框架,可以在进行模型训练时平衡成对语义损失J1和分类损失J2的重要性,提高图像特征的判别能力。
进一步,所述基于相关滤波的图像哈希索引构建方法中,所述利用所述训练样本集对所述深度网络哈希模型进行模型优化包括:
当θ固定时,B的次优化过程J(B)为:
Figure BDA0002837024580000053
其中,Q=-2rUST-2αU,const为常数,α为超参数,
Figure BDA0002837024580000054
bi表示第i张图像Ii的哈希码;Tr为数学符号表示求矩阵的迹;
Figure BDA0002837024580000061
表示B的第t行,
Figure BDA0002837024580000062
表示除
Figure BDA0002837024580000063
外的B矩阵;令
Figure BDA0002837024580000064
表示U的第t行,且
Figure BDA0002837024580000065
表示不含的
Figure BDA0002837024580000066
的U矩阵;
Figure BDA0002837024580000067
表示Q的第t行,而Qt表示不包括
Figure BDA0002837024580000068
的矩阵Q;关于
Figure BDA0002837024580000069
的次优化过程为:
Figure BDA00028370245800000610
最优解
Figure BDA00028370245800000611
更新为:
Figure BDA00028370245800000612
采用上述进一步方案的有益效果是,通过此优化过程可以不断地训练B的值,使其不断趋近于最优解。
进一步,所述基于相关滤波的图像哈希索引构建方法中,所述利用所述训练样本集对所述深度网络哈希模型进行模型优化还包括:
当B固定时,利用Pytorch中的自动微分技术,基于随机梯度下降和反向传播算法,根据成对语义损失J1和分类损失J2,更新网络参数θ。
采用上述优选方案的有益效果是,通过随机梯度下降和反向传播算法,可以在固定B的值时不断对网络参数θ进行优化,使θ达到当前B的值固定情况下的最优值,从而不断对B和θ的值进行迭代优化。
为了解决上述技术问题,本发明还提供一种基于深度学习和相关滤波的图像哈希索引构建系统,包括预处理模块、哈希模型构建模块、训练测试模块;
所述预处理模块,用于对图像数据集进行数据预处理得到相似矩阵,并将预处理后的图像数据集划分为训练样本集和测试样本集;
所述哈希模型构建模块,用于利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络;定义成对语义损失函数和分类损失函数,并根据所述成对语义损失函数和分类损失函数构建协作学习框架,形成损失层;根据所述损失层和所述深度卷积网络构建深度网络哈希模型;
所述训练测试模块,用于利用所述训练样本集对所述深度网络哈希模型进行模型优化;利用所述测试样本集对优化后的所述深度网络哈希模型进行测试并生成索引。
为了解决上述技术问题,本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现如上所述的基于相关滤波的图像哈希索引构建方法的步骤。
附图说明
图1为本发明实施例提供的一种基于相关滤波的图像哈希索引构建方法的流程示意图;
图2为本发明实施例提供的一种基于相关滤波的图像哈希索引构建系统的模块图;
图3为本发明实施例提供的深度哈希模型示意图;
图4为本发明实施例提供的深度哈希模型中FPN特征金字塔网络示意图;
图5为本发明实施例提供的不同哈希方法在CUB-200-2011和Standford Dogs数据集的平均准确率比较。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例一
如图1所示,图1为本发明实施例提供的一种基于相关滤波的图像哈希索引构建方法的流程示意图,该方法包括:
S101:对图像数据集进行数据预处理得到相似矩阵S,并将预处理后的图像数据集划分为训练样本集和测试样本集;
S102:利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络;定义成对语义损失函数和分类损失函数,并根据所述成对语义损失函数和分类损失函数构建协作学习框架,形成损失层;根据所述损失层和所述深度卷积网络构建深度网络哈希模型;
S103:利用所述训练样本集对所述深度网络哈希模型进行模型优化;
S104:利用所述测试样本集对优化后的所述深度网络哈希模型进行测试并生成索引。
其中,通过FPN和MLP实现相关滤波,并通过构建协作学习框架,将图片多尺度信息、图片的潜在空间信息和语义信息同时集成到哈希学习过程中,从而使得最终得到的哈希二值码MAP平均准确率更高,通过所述哈希二值码构建的索引效率更高,更精确。
本发明实施例是在两个公开的数据集CUB-200-2011和Stanford Dogs上测试提出的算法。CUB-200-2011是一个包含11788张鸟类图像的200个相互类的数据集。数据集被正式划分为训练集(5,994幅图像)和测试集(5,749幅图像)。Stanford Dogs是一个包含20380张和120个相互类的狗类图像的数据集;每个图像包含120个语义标签向量yi∈{0,1}L中的一个,L代表L个类别,所述语义标签向量是一个独热向量,即一个只存在1其余为0的序列,每个类包含大约150个图像。
测试时将所述数据集正式划分为训练样本集(每个类100张图像)和测试样本集(每个类总共8580张图像)。
数据集图像包含n个图像
Figure BDA0002837024580000091
其中Ii表示第i个图像,Ij表示第j个图像,对其进行预处理即计算图像数据集中第i个图像Ii和第j个图像Ij的语义标签向量的内积;当所述内积为1,则相似矩阵S∈{-1,+1}n×n中Sij=1否则Sij=-1。
本发明将该方法与几种深度监督哈希方法进行了比较,包括deep pairwise-supervised hashing(DPSH)、deep triplet hashing(DTH)、HashNet、feature pyramidhashing(FPH)和simultaneous region localization and hashing(SRLH)。值得注意的是,FPH、SRLH和本发明实施例提出的方法采用了相同的CNN架构ResNet-18作为特征提取器。为了公平比较,本发明实施例采用预先训练好的ResNet-18模型作为所有深度监督哈希方法的特征提取器,利用一个GeForce RTX2080GPU和一个开源机器学习库Pytorch来实现提出的方法。将batchsize设置为64,对于CUB-200-2011和Stanford Dogs数据集,初始学习率分别设置为0.01和0.001,随着迭代次数的增加,初始学习率逐渐降低。通过交叉验证从0.01到100搜索超参数。最优参数为10,对于所有的数据集,设置为100并且迭代次数设置为150。最后,将训练好后的模型参数保存,以备后续测试。
如图5所示,与其他16位到64位的方法相比,所提出的CFH方法显示了更好的性能增益。实验结果表明,基于相关滤波的图像哈希索引构建方法能够更有效地捕捉细微差异,用于细粒度图像检索。此外,所提出的CFH方法在32位时性能最好。结果表明,该方法与其他方法相比具有优越性。
最后还会对查询图像的哈希码和数据库图像B的哈希码比对汉明距离,从小到大进行相似性排序产生索引。
在本实施例中深度卷积网络如图3所示,包括:
卷积层:通过FPN特征金字塔网络获取所述训练样本集中每个图像的图像特征(P2、P3、P4、P5);通过MLP多层感知器构建标签嵌入网络,通过所述标签嵌入网络处理所述训练样本集图片的语义标签向量yi∈{0,1}L,生成标签嵌入向量(k2、k3、k4、k5);将所述标签嵌入向量整合为256ⅹ1ⅹ1的滤波器,利用所述滤波器所述图像特征进行相关滤波,得到特征图(M2、M3、M4、M5);
池化层:对所述特征图进行全局平均池化后拼接成1024维特征向量;
全连接层:将所述1024维特征向量送入r维全连接层,得到r维全连接层输出F(I;θ),θ为深度网络模型的整体参数,I表示训练样本集中图像。将所述1024维特征向量送入L维全连接层,得到L维全连接层输出g。
其中,通过将数据集图片表示为特征图,即图片的特征空间,再将数据集图片表示为语义标签向量,也就是将图片的原始标签通过现有模型表示为标签空间,在这个空间中,语义相似则空间汉明距离更小,反之空间位置的汉明距离则大。
通过如图4所述的FPN特征金字塔网络可以多尺度的提取图像特征,所述FPN特征金字塔网络由自下而上路径、自上而下路径和横向连接组成,并使用双线性插值;所述自下而上路径通过预先训练好的ResNet-18模型作为特征提取器,对图像进行特征提取得到C1、C2、C3、C4、C5(每个都有许多卷积层)的卷积网络,而所述自上而下路径的特征图会经过2倍的向上采样操作,所述横向连接会经历1×1的卷积,以减小自底向上路径的特征图的通道尺寸,并利用逐元素相加来合并自底向上路径和自顶向下路径的相同空间尺寸的特征图,最终输出的特征(P2、P3、P4、P5);并且,包括(P2、P3、P4、P5)在内的所有金字塔特征都有256维通道输出。
利用特征金字塔网络能生成多层次的特征表示,利用MLP多层感知器生成了标签嵌入网络,该网络由两个全连接层组成,输出维度分别为8192和256,生成四个标签嵌入向量,并通过数据维度转换和维度扩充将所述四个标签嵌入向量整合为256ⅹ1ⅹ1的四个滤波器,通过四个滤波器与(P2、P3、P4、P5)进行深度卷积,可以对提取的图像特征进行相关滤波,即将语义标签映射到视觉特征空间中,其中不同的标签嵌入网络不共享权重,从而可以利用语义信息与多尺度视觉特征之间的交叉模态相关性来挖掘具有判别性的潜在空间信息,使得最终得到的哈希二值码MAP平均准确率更高,通过所述哈希二值码构建的索引效率更高,更精确。
用于分类的L维全连接层主要效果有两个方面:提高特征表示的判别能力和预测测试集中查询图像的标签。
在本实施例提供的基于相关滤波的图像哈希索引构建方法中,所述成对语义损失函数可以为:
Figure BDA0002837024580000111
其中,bi,bj分别表示第i张图像Ii和第j张图像的哈希码;成对语义损失为J1,Sij为所述相似矩阵中第i行第j列的元素,n为训练样本集的图像数量,F是范数的计算。
因为二值码
Figure BDA0002837024580000121
是离散的,损失函数对该离散变量的导数为0所以,这样很难通过反向传播梯度训练网络中F(Ii;θ)函数的网络参数θ。
优选的,利用tanh()作为激活函数来接近sign()函数,所述成对语义损失函数也可以为:
Figure BDA0002837024580000122
其中,
Figure BDA0002837024580000123
bi表示第i张图像Ii的哈希码;成对语义损失为J1,n为训练样本集的图像数量,F为数学符号是范数的计算,U为中间变量,α为超参数。
利用tanh()作为激活函数来接近sign()函数,同时为了减少离散二值码和实值近似之间的量化误差,增加了一个额外的惩罚项
Figure BDA0002837024580000124
从而便于通过随机梯度下降和反向传播算法来训练网络参数θ的值。
在本实施例提供的基于相关滤波的图像哈希索引构建方法中,所述分类损失函数为:
Figure BDA0002837024580000125
其中,J2为分类损失,gi表示第i个图像Ii在L维全连接层的输出,χi,k表示第i个图像Ii属于第k类的预测概率,γ为超参数,n为训练样本集的图像数量。
另外,分类损失也可以称作焦点损失或者多分类损失,所述分类损失可以通过对难分类的或容易错误分类的示例分配更多的权重并对简单示例降低权重来处理类不平衡问题,从而提高图像特征的判别能力。
在本实施例提供的基于相关滤波的图像哈希索引构建方法中,所述构建协作学习框架包括:
根据下述公式构建协作学习框架:
Figure BDA0002837024580000131
其中,β为超参数,J1为成对语义损失,J2为分类损失,
Figure BDA0002837024580000132
bi表示第i张图像的哈希码;n为训练样本集的图像数量。
通过对参数β的设置,在如上述公式所述条件的情况下,取J=J1+βJ2的最小值作为总损失,通过采用上述方法构建的协作学习框架,可以在进行模型训练时平衡成对语义损失J1和分类损失J2的重要性,提高图像特征的判别能力。
在本实施例提供的基于相关滤波的图像哈希索引构建方法中,所述利用所述训练样本集对所述深度网络哈希模型进行模型优化包括:
当θ固定时,B的次优化过程J(B)为:
Figure BDA0002837024580000133
其中,Q=-2rUST-2αU,const为常数,α为超参数,
Figure BDA0002837024580000134
bi表示第i张图像的哈希码;Tr为数学符号表示求矩阵的迹;
Figure BDA0002837024580000141
表示B的第t行,
Figure BDA0002837024580000142
表示除
Figure BDA0002837024580000143
外的B矩阵;令
Figure BDA0002837024580000144
表示U的第t行,且
Figure BDA0002837024580000145
表示不含的
Figure BDA0002837024580000146
的U矩阵;
Figure BDA0002837024580000147
表示Q的第t行,而Qt表示不包括
Figure BDA0002837024580000148
的矩阵Q;关于
Figure BDA0002837024580000149
的次优化过程为:
Figure BDA00028370245800001410
最优解
Figure BDA00028370245800001411
更新为:
Figure BDA00028370245800001412
其中,B更新的过程为通过离散循环坐标下降策略更新,通过此优化过程可以不断地训练B的值,使其不断趋近于最优解。
在本实施例提供的基于相关滤波的图像哈希索引构建方法中,所述利用所述训练样本集对所述深度网络哈希模型进行模型优化还包括:
当B固定时,利用Pytorch中的自动微分技术,基于随机梯度下降和反向传播算法,根据成对语义损失J1和分类损失J2,更新网络参数θ,通过随机梯度下降和反向传播算法,可以在固定B的值时不断对网络参数θ进行优化,使θ达到当前B的值固定情况下的最优值,从而不断对B和θ的值进行迭代优化。
如图2所示,本实施例还提供一种基于深度学习和相关滤波的图像哈希索引构建系统,包括预处理模块、哈希模型构建模块、训练测试模块;
所述预处理模块,用于对图像数据集进行数据预处理得到相似矩阵,并将预处理后的图像数据集划分为训练样本集和测试样本集;
所述哈希模型构建模块,用于利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络;定义成对语义损失函数和分类损失函数,并根据所述成对语义损失函数和分类损失函数构建协作学习框架,形成损失层;根据所述损失层和所述深度卷积网络构建深度网络哈希模型;
所述训练测试模块,用于利用所述训练样本集对所述深度网络哈希模型进行模型优化;利用所述测试样本集对优化后的所述深度网络哈希模型进行测试并生成索引。
可以预见的是,上述系统能够实现如上各实施例中的基于相关滤波的图像哈希索引构建方法的步骤,在此不再一一赘述。
本实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如上各实施例中的基于相关滤波的图像哈希索引构建方法的步骤,在此不再一一赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于相关滤波的图像哈希索引构建方法,其特征在于,包括:
对图像数据集进行数据预处理得到相似矩阵S,并将预处理后的图像数据集划分为训练样本集和测试样本集;
利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络;定义成对语义损失函数和分类损失函数,并根据所述成对语义损失函数和分类损失函数构建协作学习框架,形成损失层;根据所述损失层和所述深度卷积网络构建深度网络哈希模型;
利用所述训练样本集对所述深度网络哈希模型进行模型优化;利用所述测试样本集对优化后的所述深度网络哈希模型进行测试并生成索引。
2.如权利要求1所述的基于相关滤波的图像哈希索引构建方法,其特征在于,所述深度卷积网络包括:卷积层、池化层和全连接层;所述利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络,包括:
卷积层:通过FPN特征金字塔网络获取所述训练样本集中图像的图像特征;通过MLP多层感知器构建标签嵌入网络,通过所述标签嵌入网络处理所述训练样本集图片的语义标签向量,生成标签嵌入向量;将所述标签嵌入向量整合为256ⅹ1ⅹ1的滤波器,利用所述滤波器对所述图像特征进行相关滤波,得到特征图;
池化层:对所述特征图进行全局平均池化后拼接成1024维特征向量;
全连接层:将所述1024维特征向量送入r维全连接层,得到r维全连接层输出F(I;θ),将所述1024维特征向量送入L维全连接层,得到L维全连接层输出g,其中,θ为深度网络模型的整体参数,I表示训练样本集的图像。
3.如权利要求2所述的基于相关滤波的图像哈希索引构建方法,其特征在于,所述成对语义损失函数为:
Figure FDA0002837024570000021
Figure FDA0002837024570000022
其中,bi,bj分别表示第i张图像Ii和第j张图像Ij的哈希码;成对语义损失为J1,Sij为所述相似矩阵中第i行第j列的元素,n为训练样本集的图像数量,F是范数的计算。
4.如权利要求2所述的基于相关滤波的图像哈希索引构建方法,其特征在于,所述成对语义损失函数为:
Figure FDA0002837024570000023
s.t.U=tanh(F(I;θ)),B∈{-1,+1}r×n
其中,
Figure FDA0002837024570000024
bi表示第i张图像Ii的哈希码;成对语义损失为J1,n为训练样本集的图像数量,F为数学符号是范数的计算,U为中间变量,α为超参数。
5.如权利要求4所述的基于相关滤波的图像哈希索引构建方法,其特征在于,利用所述训练样本集对所述深度网络哈希模型进行模型优化包括:
当θ固定时,B的次优化过程J(B)为:
Figure FDA0002837024570000031
其中,Q=-2rUST-2αU,const为常数,α为超参数,Tr为数学符号表示求矩阵的迹;
Figure FDA0002837024570000037
表示B的第t行,
Figure FDA0002837024570000032
表示除
Figure FDA00028370245700000313
外的B矩阵;令
Figure FDA0002837024570000038
表示U的第t行,且
Figure FDA0002837024570000033
表示不含的
Figure FDA0002837024570000039
的U矩阵;
Figure FDA00028370245700000310
表示Q的第t行,而Qt表示不包括
Figure FDA00028370245700000312
的矩阵Q;关于
Figure FDA00028370245700000311
的次优化过程为:
Figure FDA0002837024570000034
最优解
Figure FDA00028370245700000314
更新为:
Figure FDA0002837024570000035
6.如权利要求5所述的基于相关滤波的图像哈希索引构建方法,其特征在于,利用所述训练样本集对所述深度网络哈希模型进行模型优化还包括:
当B固定时,利用Pytorch中的自动微分技术,基于随机梯度下降和反向传播算法,根据成对语义损失J1、分类损失J2和协作学习框架,更新网络参数θ。
7.如权利要求2-6任一所述的基于相关滤波的图像哈希索引构建方法,其特征在于,所述分类损失函数为:
Figure FDA0002837024570000036
s.t.χi,k=softmax(gi)
其中,J2为分类损失,gi表示第i个图像Ii在L维全连接层的输出,χi,k表示第i个图像Ii属于第k类的预测概率,γ为超参数,n为训练样本集的图像数量。
8.如权利要求2-6任一所述的基于相关滤波的图像哈希索引构建方法,其特征在于,所述构建协作学习框架包括:
根据下述公式构建协作学习框架:
Figure FDA0002837024570000041
s.t.B={-1,+1}r×n
其中,β为超参数,J1为成对语义损失,J2为分类损失,
Figure FDA0002837024570000042
bi表示第i张图像Ii的哈希码,n为训练样本集的图像数量。
9.一种基于深度学习和相关滤波的图像哈希索引构建系统,其特征在于,包括预处理模块、哈希模型构建模块和训练测试模块;
所述预处理模块,用于对图像数据集进行数据预处理得到相似矩阵,并将预处理后的图像数据集划分为训练样本集和测试样本集;
所述哈希模型构建模块,用于利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络;定义成对语义损失函数和分类损失函数,并根据所述成对语义损失函数和分类损失函数构建协作学习框架,形成损失层;根据所述损失层和所述深度卷积网络构建深度网络哈希模型;
所述训练测试模块,用于利用所述训练样本集对所述深度网络哈希模型进行模型优化;利用所述测试样本集对优化后的所述深度网络哈希模型进行测试并生成索引。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述的基于相关滤波的图像哈希索引构建方法的步骤。
CN202011479598.9A 2020-12-15 2020-12-15 一种基于相关滤波的图像哈希索引构建方法、系统及设备 Pending CN112597324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011479598.9A CN112597324A (zh) 2020-12-15 2020-12-15 一种基于相关滤波的图像哈希索引构建方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011479598.9A CN112597324A (zh) 2020-12-15 2020-12-15 一种基于相关滤波的图像哈希索引构建方法、系统及设备

Publications (1)

Publication Number Publication Date
CN112597324A true CN112597324A (zh) 2021-04-02

Family

ID=75196556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011479598.9A Pending CN112597324A (zh) 2020-12-15 2020-12-15 一种基于相关滤波的图像哈希索引构建方法、系统及设备

Country Status (1)

Country Link
CN (1) CN112597324A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377909A (zh) * 2021-06-09 2021-09-10 平安科技(深圳)有限公司 释义分析模型训练方法、装置、终端设备及存储介质
CN113761239A (zh) * 2021-09-08 2021-12-07 武汉工程大学 基于海量地理位置信息的索引库建立及检索方法
CN114463583A (zh) * 2022-01-26 2022-05-10 南通大学 一种用于肺炎ct图像分类的深度哈希方法
CN114549948A (zh) * 2022-02-16 2022-05-27 北京百度网讯科技有限公司 深度学习模型的训练方法、图像识别方法、装置和设备
CN116244483A (zh) * 2023-05-12 2023-06-09 山东建筑大学 一种基于数据合成的大规模零样本数据检索方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503106A (zh) * 2016-10-17 2017-03-15 北京工业大学 一种基于深度学习的图像哈希索引构建方法
CN109241313A (zh) * 2018-08-14 2019-01-18 大连大学 一种基于高阶深度哈希学习的图像检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503106A (zh) * 2016-10-17 2017-03-15 北京工业大学 一种基于深度学习的图像哈希索引构建方法
CN109241313A (zh) * 2018-08-14 2019-01-18 大连大学 一种基于高阶深度哈希学习的图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LEI MA等: "Correlation Filtering-Based Hashing for Fine-Grained Image Retrieval", 《IEEE》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377909A (zh) * 2021-06-09 2021-09-10 平安科技(深圳)有限公司 释义分析模型训练方法、装置、终端设备及存储介质
CN113377909B (zh) * 2021-06-09 2023-07-11 平安科技(深圳)有限公司 释义分析模型训练方法、装置、终端设备及存储介质
CN113761239A (zh) * 2021-09-08 2021-12-07 武汉工程大学 基于海量地理位置信息的索引库建立及检索方法
CN114463583A (zh) * 2022-01-26 2022-05-10 南通大学 一种用于肺炎ct图像分类的深度哈希方法
CN114463583B (zh) * 2022-01-26 2024-03-19 南通大学 一种用于肺炎ct图像分类的深度哈希方法
CN114549948A (zh) * 2022-02-16 2022-05-27 北京百度网讯科技有限公司 深度学习模型的训练方法、图像识别方法、装置和设备
CN114549948B (zh) * 2022-02-16 2023-06-30 北京百度网讯科技有限公司 深度学习模型的训练方法、图像识别方法、装置和设备
CN116244483A (zh) * 2023-05-12 2023-06-09 山东建筑大学 一种基于数据合成的大规模零样本数据检索方法及系统
CN116244483B (zh) * 2023-05-12 2023-07-28 山东建筑大学 一种基于数据合成的大规模零样本数据检索方法及系统

Similar Documents

Publication Publication Date Title
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
Bai et al. Text/non-text image classification in the wild with convolutional neural networks
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN112597324A (zh) 一种基于相关滤波的图像哈希索引构建方法、系统及设备
Lei et al. Region-enhanced convolutional neural network for object detection in remote sensing images
US11288324B2 (en) Chart question answering
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN110222718B (zh) 图像处理的方法及装置
CN110610210B (zh) 一种多目标检测方法
CN111368672A (zh) 一种用于遗传病面部识别模型的构建方法及装置
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN109325507A (zh) 一种结合超像素显著性特征与hog特征的图像分类算法和系统
CN112163114B (zh) 一种基于特征融合的图像检索方法
CN115482418B (zh) 基于伪负标签的半监督模型训练方法、系统及应用
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN115222998B (zh) 一种图像分类方法
Suhail et al. Convolutional neural network based object detection: A review
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
CN115223239A (zh) 一种手势识别方法、系统、计算机设备以及可读存储介质
CN116108217B (zh) 一种基于深度哈希编码和多任务预测的逃费车辆相似图片检索方法
CN116468948A (zh) 支持检测未知类的城市垃圾增量学习检测方法及系统
CN116434010A (zh) 一种多视图的行人属性识别方法
CN112507912B (zh) 一种识别违规图片的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210402

WD01 Invention patent application deemed withdrawn after publication