CN112905599B - 基于端到端的分布式深度哈希检索方法 - Google Patents

基于端到端的分布式深度哈希检索方法 Download PDF

Info

Publication number
CN112905599B
CN112905599B CN202110288629.0A CN202110288629A CN112905599B CN 112905599 B CN112905599 B CN 112905599B CN 202110288629 A CN202110288629 A CN 202110288629A CN 112905599 B CN112905599 B CN 112905599B
Authority
CN
China
Prior art keywords
hash
layer
node
parameters
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110288629.0A
Other languages
English (en)
Other versions
CN112905599A (zh
Inventor
胡海峰
郭伟
吴建盛
朱燕翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110288629.0A priority Critical patent/CN112905599B/zh
Publication of CN112905599A publication Critical patent/CN112905599A/zh
Application granted granted Critical
Publication of CN112905599B publication Critical patent/CN112905599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于端到端的分布式深度哈希检索方法,利用“二次前传”技术和交替方向乘子法ADMM来交互式更新分布式网络中的每个参数。本发明解决了传统的人工提取的特征在用于分布式环境下图像检索性能较差的问题。而且通过微调的ResNet网络,并不会损失太多分类性能,统一了分类与检索,同时采用了分布式架构,便于数据的并行式计算与存储。此外,通过卷积神经网络提取到的图像特征更具语义相似性。更重要的是,利用“二次前传”技术和ADMM算法实现参数的交互式更新,使得深度哈希技术与分布式架构完美结合。

Description

基于端到端的分布式深度哈希检索方法
技术领域
本发明属于深度学习领域,主要涉及在分布式环境下采用端到端的深度哈希技术以提高图像检索性能。
背景技术
业界一直在谈论大数据,对于统计而言,大数据其实意味着样本量增加或维度的增加,亦或者两者同时增加,并且维度与样本量的增长速度呈线性或者指数型增长。虽然现在有一些比较好的迭代算法,但是,在面对真实的Gb级别以上的数据,很多时候我们还是无法直接用这些算法,原因是一般的硬件都无法支撑直接对所有数据进行运算的要求。如果想减少抽样误差,又想提高估计的精度,那么还是需要寻求其他思路,结合已有的模型思想来解决这些问题。在目前条件下,并行化、分布式计算是一种比较好的解决思路,利用多核和多机器的优势,这些好算法便可以大规模应用,处理大数据优势便体现出来了。此外,在人工智能领域中,深度学习框架具有超强的学习能力,无论是图像分类,还是图像检索,都有非常好的效果。因此,将深度学习应用于分布式环境下,就非常有意义了。
目前,卷积神经网络(CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一,并且在数据样本充足时有足够稳定的表现。对于一般的大规模图像分类问题,卷积神经网络可用于提取图像的判别特征以供其它分类器进行学习。卷积神经网络在图像识别领域取得很好的效果,因此,我们常用CNN进行特征提取,以减小图像检索领域中的“语义鸿沟”问题。
残差网络(ResNet)出现于2015年,在2015年ImageNet的分类任务上取得了第一名的好成绩,它的出现相对于较早的AlexNet,VGGNet,GoogleNet等特征提取网络来说具有着历史性的突破。在ResNet网络之前,为了提高卷积网络的特征提取能力,研究者纷纷通过不断增加网络的深度,然而,随着网络深度的不断加深,人们开始发现网络的深度已经达到瓶颈,盲目的加深网络的深度不但不会提高检测的准确率,反而会使得网络难以训练。究其根本原因是随着网络深度的不断增加,在反向传播调节网络参数时,网络中的梯度值会随着深度的不断增加出现梯度爆炸或者梯度消失,使得网络的训练过程难以收敛。而残差网络的出现则正好改变了现状,采用ResNet网络进行特征提取时,网络的深度可以得到极大的增加,从最初的十几层,增加到如今的上千层,并且不会产生过拟合现象。因此,在我们的分布式深度哈希算法研究当中,将采用微调的ResNet50网络架构。
随着研究者多年来结合机器学习和哈希学习用于各种领域,哈希算法已得到不断改进,哈希算法目前可以大致分为两个阶段。早期的是数据独立的哈希算法。随着训练数据的重要性被发现,数据独立的哈希算法渐渐被基于数据的哈希算法替代。哈希算法的本质是把高维的数据映射到低维的汉明空间,在低维空间下利用哈希函数族对数据进行二进制编码。在大数据的背景下,这样详尽的线性搜索代价过于昂贵,于是近数十年间研究者们提出了很多快速近似最近邻搜索的方法。解决快速近似最近邻搜索问题的一个经典算法是构建基于树的索引结构,例如kd-trees,PCA-trees等。近几年,国内外研究者们着力于研究产生紧密哈希码的哈希算法,代表性的无监督哈希算法有迭代量化哈希(ITQ),基于核的局部敏感哈希,锚点图哈希(AGH)等;代表性的半监督哈希算法有半监督哈希(SSH),基于语义一致图的谱哈希(SH)等;代表性的监督哈希算法有基于核的监督哈希(KSH),离散监督哈希(SDH)等。因此,将成熟的哈希算法应用于分布式环境,非常具有应用价值。
综上所述,现有技术中对于如何利用深度哈希算法实现分布式环境下图像检索的问题尚没有公开的披露。
发明内容
本发明的目的在于提供一种基于端到端的分布式深度哈希检索方法,主要用于解决传统的人工提取的特征在用于分布式环境下图像检索性能较差的问题。本方法的主要目的是利用ResNet50进行特征提取,再通过交替方向乘子法ADMM联合训练每个节点的全连接层(分类器前),从而得到全局最优的参数解。接着利用“二次前传”技术,通过BP算法更新特征层的参数。最后通过保存模型、构建数据库、对比查询集和数据库之间的汉明距离,来验证分布式环境下图像检索的性能。
为了达到以上的目的,本发明提供了基于端到端的分布式深度哈希检索方法,该方法包括以下步骤:
步骤1:训练的数据集是由带标记信息的图片集构成的,分布式哈希检索环境中包括多个计算节点以及节点之间的通信链路。
步骤2:每个节点采用微调的ResNet50网络架构,并进行参数初始化。
步骤3:每个节点用训练样本batch进行第一次前向传播,通过特征提取层得到训练样本batch的特征。
步骤4:利用提取到的特征通过哈希层和分类层,并输出分类信息。
步骤5:通过交替方向乘子法ADMM优化所有节点ResNet50网络中的全连接层(分类器前)参数,使得ADMM优化后的全连接层参数达到全局最优,并将该参数赋值给每个节点网络的全连接层(分类器前)。
步骤6:每个节点用同样的训练样本batch通过ResNet50网络进行第二次前向传播。
步骤7:通过最小化分类误差和约束哈希码的目标函数进行训练,即利用深度学习的反向传播机制,在固定全连接层(分类器前)参数的情况下,更新ResNet50网络的特征层参数。
步骤8:观察loss曲线是否收敛,若收敛则训练完成。反之,重复步骤3-7。
步骤9:训练完成后,保存模型,并通过模型实现哈希编码函数,把图片转变成哈希码。
步骤10:验证哈希性能。
进一步,上述步骤1中,参与网络训练的数据集是由带标记信息的图片集构成的,且我们的工作环境是分布式环境。分布式哈希检索环境中包括多个计算节点以及节点之间的通信链路,对于这种分布式系统,假设一共有N个独立的节点,每个节点都有自己的带标记信息的数据集Xi,其中i表示为第i个节点。不同节点之间的数据集类别相同,但完全独立,彼此所采用的样本互有差异。将这些数据集用于每个节点网络的输入。
进一步,上述步骤2中,每个节点采用微调的ResNet50网络架构,并进行参数初始化。所谓微调,指的就是在传统的ResNet50网络的最后一层(分类层)之前,新加一层,称之为哈希层。此外,利用在ImageNet数据集上预训练的ResNet50模型对我们的网络进行参数初始化,并将拉格朗日乘子矩阵初始化为全0矩阵。
进一步,上述步骤3中,每个节点用训练样本batch进行第一次前向传播,每个batch包括训练图片n张,通过特征提取层得到训练样本batch的特征。
进一步,上述步骤4中,利用提取到的特征通过哈希层,从而将高维数据特征映射到低维汉明空间,生成哈希特征。然后再将哈希特征输入到分类层当中,并输出分类信息,为ADMM优化做准备。
进一步,上述步骤5中,利用步骤4得到的分类信息,通过交替方向乘子法ADMM优化所有节点ResNet50网络中的全连接层(分类器前)参数,使得ADMM优化后的全连接层参数达到全局最优(所谓的全局最优,就是让所有节点的训练样本总体分类误差最小,以达到分布式环境中实现集中训练的目的),并将该参数赋值给每个节点网络的全连接层(分类器前),为第二次前向传播做准备。需要说明是,这里的全连接层为哈希层与输出层之间的全连接层,而非特征提取层与哈希层之间的全连接层。
进一步,上述步骤6中,每个节点用同样的训练样本batch通过ResNet50网络进行第二次前向传播,从而进行第二次特征提取,并将提取到的特征再次通过哈希层和分类层,输出分类信息,为特征层参数的更新做准备。
进一步,上述步骤7中,通过最小化分类误差和约束哈希码的目标函数进行训练,即利用深度学习的反向传播机制,在固定全连接层(分类器前)参数的情况下,更新ResNet50网络的特征层参数。此外,通过训练还能使得哈希特征更加满足二值化的要求,以及具备平衡性。
进一步,上述步骤8中,观察loss曲线是否收敛,来判断训练是否完成。若观察到的loss曲线收敛,则说明训练已完成,停止更新迭代。若不收敛,则重复步骤3-7。
进一步,上述步骤9中,当训练完成后,需要保存每个节点的模型,并通过模型实现哈希编码函数,把图片转变成哈希码。将参与网络训练的图像输入到模型中,经过网络特征层和哈希层,得到哈希特征,接着进行二值化处理,最终构建出具有0、1哈希码的数据库。将需要查询的图像以同样的方式输入到模型中,即可生成哈希码。
进一步,上述步骤10中,将需要查询的图像输入到模型中,会自动生成哈希码,并在数据库中进行搜索。通过比较哈希码之间的汉明距离,返回汉明距离最近的图像,即是需要查找的图像。
与现有技术相比,本发明具有以下有益技术效果:
1.统一了分类与检索。通过实验验证,经过微调的ResNet50网络,在训练结束后,分类性能并不会有太大的损失。因此,我们的模型不仅可以用于图像检索,还可以用于图像分类。
2.便于计算与存储。若数据的规模很大,我们不可能将所有的数据集中起来进行训练。因此,采用分布式架构,便于数据的并行式计算与存储。
3.提取的特征更具语义相似性。与传统的手工提取的图像特征不同的是,我们采用卷积神经网络对图像进行特征提取,利用深度学习的逐层迭代、逐层抽象的网络特点,使我们提取到的特征更具语义相似性。
4.“二次前传”技术。将深度哈希技术与分布式架构相结合是简单而创新的,我们即利用了深度学习端到端训练的优势,又利用了ADMM处理分布式问题的优势,通过“二次前传”,使得参数之间进行交互式的更新,最终达到全局最优。实验证明,我们的算法具有有效性和优越性。
附图说明
图1为本方法的系统框架图;
图2为本方法的分布式训练流程图;
图3为本方法的哈希性能测试流程图。
具体实施方式
以下结合说明书附图对发明做进一步的详细说明。
本方法的系统框架图如图1所示,整个方法过程可以分为分布式训练过程与哈希测试过程。具体流程分别如图2和图3所示。
第一步,训练的数据集是由带标记信息的图片集构成的,分布式哈希检索环境中包括多个计算节点以及节点之间的通信链路。
参与网络训练的数据集是由带标记信息的图片集构成的,且我们的工作环境是分布式环境。分布式哈希检索环境中包括多个计算节点以及节点之间的通信链路,对于这种分布式系统,假设一共有N个独立的节点,每个节点都有自己的带标记信息的数据集Xi,其中i表示为第i个节点。不同节点之间的数据集类别相同,但完全独立,彼此所采用的样本互有差异。将这些数据集用于每个节点网络的输入。
第二步,每个节点采用微调的ResNet50网络架构,并进行参数初始化。
所谓微调,指的就是在传统的ResNet50网络的最后一层(分类层)之前,新加一层,称之为哈希层。顾名思义,哈希层的主要作用就是将高维数据特征映射到低维汉明空间,从而得到图像的哈希特征。此外,还需要进行参数初始化,利用在ImageNet数据集上预训练好的ResNet50模型对我们的网络进行参数初始化,并将拉格朗日乘子矩阵初始化为全0矩阵。
第三步,每个节点用训练样本batch进行第一次前向传播,每个batch包括训练图片n张,通过特征提取层得到训练样本batch的特征。
假设在一个epoch中的训练分为M个batch,则每个节点的数据集Xi,m进行第一次前向传播,利用ResNet50的前49层,对Xi,m进行特征提取。其中,Xi,m是指第i个节点中第m个batch的图片。
第四步,利用提取到的特征通过哈希层和分类层,并输出分类信息。
利用提取到的特征通过哈希层,从而将高维数据特征映射到低维汉明空间,得到Xi,m的哈希特征,并将其表示为
Figure BDA0002981479030000061
其中,Xi,m是指第i个节点中第m个batch的图像,
Figure BDA0002981479030000062
是指第i个节点中第m个batch图像的哈希特征,且上标H是指哈希层,表明该哈希特征是由哈希层生成的,下文提到的H都是这个含义,不再过多赘述。然后将哈希特征通过分类层,并输出分类信息。需要说明的是,哈希特征还需要经过符号函数,才能生成真正的哈希码。
第五步,利用第四步得到的分类信息,通过交替方向乘子法ADMM优化所有节点ResNet50网络中的全连接层(分类器前)参数,使得ADMM优化后的全连接层参数达到全局最优(所谓的全局最优,就是让所有节点的训练样本总体分类误差最小,以达到分布式环境中实现集中训练的目的),并将该参数赋值给每个节点网络的全连接层(分类器前)。
需要说明的是,我们利用ADMM来处理分布式问题。对于全局变量一致性优化问题,ADMM算法具有天然的优势。利用
Figure BDA0002981479030000063
及其对应的标签Yi,m,通过最小化分类误差,并对每个节点的全连接层参数Wi进行一致性约束,最终得到当前全局最优的全连接层(分类器前)参数W。目标函数及其对应的增广拉格朗日函数,以及ADMM的迭代步骤如下所示:
目标函数:
Figure BDA0002981479030000064
s.t.Wi-W=0
增广拉格朗日函数:
Figure BDA0002981479030000071
ADMM迭代步骤:
Figure BDA0002981479030000072
Figure BDA0002981479030000073
Figure BDA0002981479030000074
其中
Figure BDA0002981479030000075
在公式(1-1)中,Wi和bi是指第i个节点的全连接层(分类器前)参数,
Figure BDA0002981479030000076
是指第i个节点中第m个batch图像的哈希特征,t为哈希特征的维度,n为batch中样本的数量。
Figure BDA0002981479030000077
Figure BDA0002981479030000078
所对应的标签,c为分类的类别数量,n为batch中样本的数量。L为交叉熵损失函数,λ为正则化项系数,用于控制正则项的相对重要性,N表示为分布式系统中的节点总数。F为范数,计算方式为矩阵中所有元素的平方和再开根号,实际上就是衡量这个矩阵和对应的零矩阵的距离,用来表示矩阵的大小。在公式(1-2)中,
Figure BDA0002981479030000079
为当前batch全局最优的全连接层(分类器前)参数,t为哈希特征的维度,c为分类的类别数量。ρ为惩罚系数,Λi为拉格朗日乘子,Ui为转换因子,用来表示ρ和Λi。当优化完所有节点ResNet50网络中的全连接层(分类器前)参数后,得到当前最优的参数W,将该参数赋值给每个节点网络的全连接层(分类器前),为第二次前向传播做准备。
第六步,每个节点用同样的训练样本batch通过ResNet50网络进行第二次前向传播,从而进行第二次特征提取,并将提取到的特征再次通过哈希层和分类层,输出分类信息,为特征层参数的更新做准备。
第七步,通过最小化分类误差和约束哈希码的目标函数进行训练,即利用深度学习的反向传播机制,在固定全连接层(分类器前)参数的情况下,更新ResNet50网络的特征层参数。
需要注意的是,这里的特征层参数除固定全连接层(分类器前)参数外,不仅包括ResNet50网络特征提取层的参数,还包括特征提取层与哈希层之间的全连接层参数。详情如下所示:
最小化分类误差函数:
Figure BDA0002981479030000081
在公式(1-6)中,Xi,m是指第i个节点中第m个batch的图像,
Figure BDA0002981479030000082
为Xi,m所对应的标签,c为分类的类别数量,n为batch中样本的数量。
Figure BDA0002981479030000083
Fi为第i个节点中ResNet50总体特征提取层的函数表达,Θi指的是第i个节点中ResNet50特征层参数表达。bi为第i个节点中全连接层(分类器前)参数偏置,L为交叉熵损失函数。通过优化该目标函数,调用反向传播机制更新第i个节点的ResNet50的特征层参数Θi
哈希码约束函数:
Figure BDA0002981479030000084
在公式(1-7)中,
Figure BDA0002981479030000085
t表示为哈希层的维度,即哈希特征的长度。假设在一个epoch中,第m个batch的图像个数为n,则
Figure BDA0002981479030000086
表示为第m个batch中第j张图像的哈希特征,e是所有元素为1的t维向量。Θi指的是第i个节点中ResNet50特征层参数表达,通过优化公式(1-7),更新Θi。需要说明的是,p的取值为1或2,p=1表示1-范数,p=2则表示2-范数。
通过最大化目标函数
Figure BDA0002981479030000087
使哈希层生成的哈希特征更加接近0或1,从而满足二值化的要求。
通过最小化目标函数
Figure BDA0002981479030000088
使哈希层生成的哈希特征二值化以后,0和1的数量尽可能的相等,从而满足哈希码的平衡性,其中,
Figure BDA0002981479030000089
表示为第m个batch中第j张图像哈希特征的平均值。
第八步,观察loss曲线是否收敛,来判断训练是否完成。若观察到的loss曲线收敛,则说明训练已完成,停止更新迭代。若不收敛,则重复步骤3-7。
第九步,训练完成后,保存模型,并通过模型实现哈希编码函数。
当训练完成后,需要保存每个节点的模型,并通过模型实现哈希编码函数,把图片转变成哈希码。将参与网络训练的图像输入到模型中,再经过Sigmoid函数激活的哈希层后,得到接近0、1的哈希码,接着进行二值化处理,最终构建出具有0、1二进制码的数据库。将需要查询的图像以同样的方式输入到模型中,即可生成哈希码。
哈希码编码函数如下所示:
bi,j=(sgn(σ(Fi(xi,j,Θi))-0.5)+1)/2 (1-8)
在公式(1-8)中,xi,j代表检索阶段第i个计算节点的第j张图像,Fi为第i个节点中ResNet50总体特征提取层的函数表达,Θi指的是第i个节点中ResNet50特征层参数表达,σ(·)为Sigmoid函数,被定义为σ(z)=1/(1+exp(-z)),其中z为实数值。sgn(·)则为符号函数,以0.5为准则,大于0.5则判为1,小于0.5则判为0。
Figure BDA0002981479030000091
为第i个计算节点的第j张图像的哈希码,哈希码的长度为t。
第十步,验证哈希性能。
将需要查询的图像输入到模型中,会自动生成哈希码,并在数据库中进行搜索。通过比较哈希码之间的汉明距离,返回汉明距离最近的图像,即是需要查找的图像。
需要说明的是,本发明并不局限于上述实施方式,一切采用等同替换或等效替换形成的技术方案均属于本发明要求保护的范围。

Claims (6)

1.基于端到端的分布式深度哈希检索方法,其特征在于包括以下步骤:
步骤1:构建分布式哈希检索环境,所述分布式哈希检索环境中包括若干个计算节点以及节点之间的通信链路;每个节点网络都有各自的由带标记信息的图片集构成的训练样本;节点网络包括特征提取层、哈希层和输出层;哈希层与输出层之间的全连接的参数,称为全连接层;
步骤2:每个节点采用微调的ResNet网络架构,并进行参数初始化;所述微调的ResNet网络架构包括特征提取层、哈希层、输出层;
步骤3:每个节点用训练样本batch进行第一次前向传播,通过特征提取层得到训练样本batch的特征;
步骤4:利用提取到的特征通过哈希层和输出层,并输出分类信息;
步骤5:通过交替方向乘子法ADMM优化所有节点ResNet网络中的全连接层参数,使得ADMM优化后的全连接层参数达到全局最优,并将该参数赋值给每个节点网络的全连接层;
步骤6:每个节点用与步骤3中同样的训练样本batch通过ResNet网络进行第二次前向传播;
步骤7:通过最小化分类误差和约束哈希码的目标函数进行训练,即利用深度学习的反向传播机制,在固定全连接层参数的情况下,更新ResNet网络的特征层参数;
步骤8:观察loss曲线是否收敛,若收敛则训练完成,反之,重复步骤3-7;
步骤9:训练完成后,保存模型,并通过模型实现哈希编码函数,把图片转变成哈希码,将哈希码保存为数据库;
步骤10:将需要查询的图像输入到模型中,生成哈希码,并在数据库中进行搜索,通过比较哈希码之间的汉明距离,返回汉明距离最近的图像,即是需要查找的图像。
2.根据权利要求1所述的基于端到端的分布式深度哈希检索方法,其特征在于,步骤1中,不同节点之间的数据集类别相同,但完全独立,彼此所采用的样本互有差异。
3.根据权利要求1所述的基于端到端的分布式深度哈希检索方法,其特征在于,步骤2中,所述参数初始化是利用在ImageNet数据集上预训练好的ResNet模型对节点网络进行参数初始化,并将拉格朗日乘子矩阵初始化为全0矩阵。
4.根据权利要求1所述的基于端到端的分布式深度哈希检索方法,其特征在于,步骤5包括如下步骤:
利用第i个节点中第m个batch图像的哈希特征
Figure FDA0003830209730000011
及其对应的标签Yi,m,通过最小化分类误差,并对每个节点的全连接层参数Wi进行一致性约束,最终得到当前全局最优的全连接层参数W;目标函数及其对应的增广拉格朗日函数,以及ADMM的迭代步骤如下所示:
目标函数:
Figure FDA0003830209730000021
s.t.Wi-W=0
增广拉格朗日函数:
Figure FDA0003830209730000022
ADMM迭代步骤:
Figure FDA0003830209730000023
Figure FDA0003830209730000024
Figure FDA0003830209730000025
在公式(1-1)中,Wi和bi是指第i个节点的全连接层参数,
Figure FDA0003830209730000026
是指第i个节点中第m个batch图像的哈希特征,t为哈希特征的维度,n为batch中样本的数量;
Figure FDA0003830209730000027
Figure FDA0003830209730000028
所对应的标签,c为分类的类别数量,n为batch中样本的数量;L为交叉熵损失函数,λ为正则化项系数,用于控制正则项的相对重要性,N表示为分布式系统中的节点总数;F为范数,计算方式为矩阵中所有元素的平方和再开根号;在公式(1-2)中,
Figure FDA0003830209730000029
为当前batch全局最优的全连接层参数,t为哈希特征的维度,c为分类的类别数量,ρ为惩罚系数,Λi为拉格朗日乘子,Ui为转换因子,用来表示ρ和Λi;当优化完所有节点ResNet网络中的全连接层参数后,得到当前最优的参数W,将该参数赋值给每个节点网络的全连接层,为第二次前向传播做准备。
5.根据权利要求1所述的基于端到端的分布式深度哈希检索方法,其特征在于,步骤7中,通过最小化分类误差和约束哈希码的目标函数进行训练,即利用深度学习的反向传播机制,在固定全连接层参数的情况下,更新ResNet网络的特征层参数;特征层参数除固定全连接层参数外,不仅包括ResNet网络特征提取层的参数,还包括特征提取层与哈希层之间的全连接层参数;详情如下所示:
最小化分类误差函数:
Figure FDA00038302097300000210
在公式(1-6)中,Xi,m是指第i个节点中第m个batch的图像,
Figure FDA0003830209730000031
为Xi,m所对应的标签,c为分类的类别数量,n为batch中样本的数量,
Figure FDA0003830209730000032
Fi为第i个节点中ResNet总体特征提取层的函数表达,Θi指的是第i个节点中ResNet特征层参数表达;bi为第i个节点中全连接层参数偏置,L为交叉熵损失函数;通过优化该目标函数,调用反向传播机制更新第i个节点的ResNet的特征层参数Θi
哈希码约束函数:
Figure FDA0003830209730000033
在公式(1-7)中,
Figure FDA0003830209730000034
t为哈希层的维度,即哈希特征的长度;若在一个epoch中,第m个batch的图像个数为n,则
Figure FDA0003830209730000035
表示为第m个batch中第j张图像的哈希特征,e是所有元素为1的t维向量;通过最大化目标函数
Figure FDA0003830209730000036
使哈希层生成的哈希特征更加接近0或1,从而满足二值化的要求;通过最小化目标函数
Figure FDA0003830209730000037
使哈希层生成的哈希特征二值化以后,0和1的数量相等,从而满足哈希码的平衡性,其中,
Figure FDA0003830209730000038
表示为第m个batch中第j张图像哈希特征的平均值;Θi指的是第i个节点中ResNet50特征层参数表达,通过优化公式(1-7),更新Θi;p的取值为1或2,p=1则表示1-范数,p=2则表示2-范数。
6.根据权利要求5所述的基于端到端的分布式深度哈希检索方法,其特征在于,步骤9中,当训练完成后,需要保存每个节点的模型,并通过模型实现哈希编码函数,把图片转变成哈希码;将参与网络训练的图像输入到模型中,经过网络特征层和哈希层,得到哈希特征,接着进行二值化处理,最终构建出具有0、1哈希码的数据库;将需要查询的图像以同样的方式输入到模型中,即可生成哈希码;
哈希码编码函数如下所示:
bi,j=(sgn(σ(Fi(xi,j,Θi))-0.5)+1)/2 (1-8)
在公式(1-8)中,xi,j代表检索阶段第i个计算节点的第j张图像,Fi为第i个节点中ResNet50总体特征提取层的函数表达,Θi指的是第i个节点中ResNet50特征层参数表达,σ(·)为Sigmoid函数,被定义为σ(z)=1/(1+exp(-z)),其中z为实数值;sgn(·)则为符号函数,以0.5为准则,大于0.5则判为1,小于0.5则判为0;
Figure FDA0003830209730000039
为第i个计算节点的第j张图像的哈希码,哈希码的长度为t。
CN202110288629.0A 2021-03-18 2021-03-18 基于端到端的分布式深度哈希检索方法 Active CN112905599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110288629.0A CN112905599B (zh) 2021-03-18 2021-03-18 基于端到端的分布式深度哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110288629.0A CN112905599B (zh) 2021-03-18 2021-03-18 基于端到端的分布式深度哈希检索方法

Publications (2)

Publication Number Publication Date
CN112905599A CN112905599A (zh) 2021-06-04
CN112905599B true CN112905599B (zh) 2022-10-14

Family

ID=76105356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110288629.0A Active CN112905599B (zh) 2021-03-18 2021-03-18 基于端到端的分布式深度哈希检索方法

Country Status (1)

Country Link
CN (1) CN112905599B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113888526B (zh) * 2021-10-21 2022-09-23 北京实力伟业环保科技有限公司 基于微生物的废气处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918528A (zh) * 2019-01-14 2019-06-21 北京工商大学 一种基于语义保护的紧凑的哈希码学习方法
CN110110128A (zh) * 2019-05-06 2019-08-09 西南大学 用于分布式架构的快速监督离散哈希图像检索系统
CN111369460A (zh) * 2020-03-03 2020-07-03 辽宁师范大学 基于admm神经网络的图像去模糊方法
US10776685B2 (en) * 2015-12-03 2020-09-15 Sun Yat-Sen University Image retrieval method based on variable-length deep hash learning
CN112199520A (zh) * 2020-09-19 2021-01-08 复旦大学 基于细粒度相似性矩阵的跨模态哈希检索算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776685B2 (en) * 2015-12-03 2020-09-15 Sun Yat-Sen University Image retrieval method based on variable-length deep hash learning
CN109918528A (zh) * 2019-01-14 2019-06-21 北京工商大学 一种基于语义保护的紧凑的哈希码学习方法
CN110110128A (zh) * 2019-05-06 2019-08-09 西南大学 用于分布式架构的快速监督离散哈希图像检索系统
CN111369460A (zh) * 2020-03-03 2020-07-03 辽宁师范大学 基于admm神经网络的图像去模糊方法
CN112199520A (zh) * 2020-09-19 2021-01-08 复旦大学 基于细粒度相似性矩阵的跨模态哈希检索算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于优化学习的图像编码与增强;赵利军;《中国优秀博士学位论文全文数据库信息科技辑》;20200115;全文 *

Also Published As

Publication number Publication date
CN112905599A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN111198959B (zh) 一种基于卷积神经网络的两阶段图像检索方法
CN111291836B (zh) 一种生成学生网络模型的方法
CN111462282A (zh) 一种场景图生成方法
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN113688878B (zh) 一种基于记忆力机制和图神经网络的小样本图像分类方法
CN114329232A (zh) 一种基于科研网络的用户画像构建方法和系统
CN113537384B (zh) 基于通道注意力的哈希遥感图像检索方法、装置及介质
CN111079949A (zh) 一种哈希学习方法、无监督的在线哈希学习方法及其应用
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN114969367B (zh) 基于多方面子任务交互的跨语言实体对齐方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN112270345A (zh) 基于自监督字典学习的聚类算法
CN112256870A (zh) 基于自适应随机游走的属性网络表示学习方法
CN112035689A (zh) 一种基于视觉转语义网络的零样本图像哈希检索方法
CN112905599B (zh) 基于端到端的分布式深度哈希检索方法
CN116246102A (zh) 一种基于自编码器与决策树的图像分类方法与系统
CN114817581A (zh) 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法
CN114860973A (zh) 一种面向小样本场景的深度图像检索方法
CN110309333B (zh) 一种基于余弦度量的深度哈希图像检索方法
Wang et al. A convolutional neural network image classification based on extreme learning machine
CN114168782B (zh) 一种基于三元组网络的深度哈希图像检索方法
Pan et al. Transductive graph-attention network for few-shot classification
CN114463569A (zh) 一种基于优化自适应度量学习的图像匹配方法及系统
Zhai et al. Deep product quantization for large-scale image retrieval
Ma Research on meteorological cloud computing platform based on bp neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant