CN114610940B - 基于局部随机敏感自编码器的哈希图像检索方法 - Google Patents

基于局部随机敏感自编码器的哈希图像检索方法 Download PDF

Info

Publication number
CN114610940B
CN114610940B CN202210252512.1A CN202210252512A CN114610940B CN 114610940 B CN114610940 B CN 114610940B CN 202210252512 A CN202210252512 A CN 202210252512A CN 114610940 B CN114610940 B CN 114610940B
Authority
CN
China
Prior art keywords
model
encoder
self
training
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210252512.1A
Other languages
English (en)
Other versions
CN114610940A (zh
Inventor
卢肃
田星
吴永贤
陈伟能
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210252512.1A priority Critical patent/CN114610940B/zh
Publication of CN114610940A publication Critical patent/CN114610940A/zh
Application granted granted Critical
Publication of CN114610940B publication Critical patent/CN114610940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Neurology (AREA)
  • Medical Informatics (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于局部随机敏感自编码器的哈希图像检索方法,包括:1)对图像数据库中的图像提取GIST特征;2)建立局部随机敏感自编码器模型,将图像的GIST特征输入模型进行训练;3)使用交替优化方法训练局部随机敏感自编码器模型,得到图像的哈希编码;4)计算检索图像的哈希编码与图像数据库中图像的哈希编码间的汉明距离,根据汉明距离升序排序,得到图像数据库中与检索图像最为相似的图像。本发明基于局部随机敏感自编码器进行哈希图像检索,训练出的模型能够学习到更具有泛化性的特征,增强了模型的鲁棒性,提升了模型在面对未知图像时的表现;本发明将二值化约束加入到模型中,通过模型直接生成哈希编码,提高哈希编码的质量,提升检索效果。

Description

基于局部随机敏感自编码器的哈希图像检索方法
技术领域
本发明涉及哈希图像检索和机器学习的技术领域,尤其是指一种基于局部随机敏感自编码器的哈希图像检索方法。
背景技术
哈希图像检索是指将图像通过哈希函数转化为一串较短的哈希编码,计算检索图像的哈希编码与图像数据库中所有图像的哈希编码间的汉明距离,汉明距离最小的图像就是与检索图像最为相似的图像,在快速目标检测、图像搜索、位置识别等计算机视觉领域中均有广泛应用。哈希图像检索的关键在于如何训练得到能产生高质量哈希编码的哈希函数,高质量的哈希编码能够更好的保留图像特征。
哈希图像检索方法可分为数据独立与数据依赖两类方法:1、数据独立的哈希图像检索方法没有考虑图像数据的分布信息和语义相似度信息,通过随机投影生成哈希编码,这类方法通常需要较长的哈希编码才能取得较为准确的检索效果,占用了更多的计算机存储空间,降低了检索效率;2、数据依赖的哈希图像检索方法是指基于机器学习的方法,这类方法使用大量的数据对神经网络模型训练。但如果将哈希的二值化约束直接加在神经网络模型上,也就是使神经网络模型直接输出二值化的哈希编码,神经网络模型的训练就成了NP-hard的难题,难以解决。因此,大部分方法采用忽略二值化约束,先令模型输出连续的编码,再通过离散化方法将连续编码转化为哈希编码的思路。但在离散化的过程中必然会丢失部分图像数据的特征信息,降低了哈希编码的质量。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于局部随机敏感自编码器的哈希图像检索方法,将二值化约束加入到神经网络模型—局部随机敏感自编码器模型中,通过模型直接生成哈希编码,而不是先输出连续编码,再离散化为哈希编码,避免了丢失图像的特征信息,提高哈希编码的质量。并通过交替优化的方法训练模型,解决了将二值化约束加入神经网络模型后难以训练模型的问题。
为实现上述目的,本发明所提供的技术方案为:基于局部随机敏感自编码器的哈希图像检索方法,包括以下步骤:
1)对图像数据库中的图像提取GIST特征,作为局部随机敏感自编码器模型的输入数据;
2)建立局部随机敏感自编码器模型,将图像的GIST特征输入模型进行训练;
3)使用交替优化方法训练局部随机敏感自编码器模型,得到图像的哈希编码;
4)计算图像哈希编码间的汉明距离,根据汉明距离进行升序排序,得到图像数据库中与检索的图像之间汉明距离最小的图像,即为与检索的图像最为相似的图像。
进一步,在步骤1)中,GIST特征提取是将图像划分为小区域块,随后对每个小区域块与不同方向和不同尺度的Gabor滤波器进行滤波,在每个小区域块内取平均值,最后将每个小区域块的平均值级联起来得到GIST特征,GIST特征表示为:
Figure BDA0003547362370000021
式中,Xn是指图像数据库中第n张图像的GIST特征,局部随机敏感自编码器模型将Xn作为训练样本,x1,x2,x3,…,xD分别是图像每个小区域块与各个Gabor滤波器进行滤波之后的平均值,共有N张图像。
进一步,所述步骤2)包括以下步骤:
2.1)建立自编码器模型,表示为:
Figure BDA0003547362370000031
式中,RMSE是指自编码器模型,Xn是指模型的训练样本,即步骤1)中得到的第n张图像的GIST特征,共有N张图像,
Figure BDA0003547362370000032
是指Xn输入自编码器模型之后对应的模型的输出值,自编码器模型通过编码-解码的步骤输出与输入数据维度一致且尽可能相似的输出值,h(·)是模型编码层的输出,f(·)是模型解码层的输出;
2.2)根据局部随机敏感度,建立局部随机敏感自编码器模型;局部随机敏感度能够评估模型对训练样本与其对应的小幅扰动的样本之间差异的敏感性,通过将局部随机敏感度加入到模型中,通过训练,能够使模型学习到更好的特征值,增强模型的鲁棒性;在机器学习任务中,期望未知样本与训练样本的偏差距离在Q以内,否则,这个数据库并不适用于要研究的问题;假设与训练样本Xn偏差在[-Q,Q]范围内的扰动样本集合为SQ(Xn),能够将SQ(Xn)表示为:
SQ(Xn)={X|X=Xn+ΔX}Q
s.t.ΔX∈[-Q,Q]
式中,X是指扰动样本集合中的一个样本,ΔX是指扰动样本与训练样本Xn的偏差范围,Q是指扰动样本与训练样本的偏差距离;
建立的局部随机敏感自编码器模型表示为:
Figure BDA0003547362370000033
式中,RLGE是指局部随机敏感自编码器,p(Xn)是指Xn在SQ(Xn)中的未知概率密度函数;
局部随机敏感度是所有训练样本输入模型后的输出与其对应的扰动样本输入模型后的输出之间的均方误差的期望值:
Figure BDA0003547362370000041
式中,
Figure BDA0003547362370000042
是指局部随机敏感度,Xn+ΔX是指与训练样本Xn偏差在[-Q,Q]范围内的扰动样本,E是指数学期望;
将概率为1-η的霍夫丁不等式应用到局部随机敏感自编码器中,得到:
Figure BDA0003547362370000043
式中,A是指自编码器解码输出值的上界,B是指自编码器解码输出值均方误差的上界,η是霍夫丁不等式的概率,共有N个训练样本,
Figure BDA0003547362370000044
是指不等式的上界;
总的来说,局部随机敏感自编码器包括自编码器以及局部随机敏感度两个部分;对每个训练样本,生成H个在偏差范围[-Q,Q]内均匀分布的扰动样本,与训练样本一同输入局部随机敏感自编码器模型中进行训练;局部随机敏感自编码器能够表示为:
Figure BDA0003547362370000045
式中,每个训练样本共有H个对应的扰动样本;
2.3)将二值化约束加入到步骤2.2)建立的局部随机敏感自编码器模型中,训练样本输入模型后能够直接获得哈希编码,从而保留更多训练样本的特征信息,生成更高质量的哈希编码;将二值化约束加入到局部随机敏感自编码器模型后,模型的训练就成为了NP-hard的问题,大大增加了模型的训练难度,但通过引入辅助变量及交替优化的方法,将原本的NP-hard问题转化为可求解的问题,从而能够正常训练模型;加入二值化约束及辅助变量后,步骤2.2)中建立的局部随机敏感自编码器模型的目标函数最终表示如下:
Figure BDA0003547362370000051
s.t.Zn∈{0,1}L,n=1,2,3,...,N
式中,argmin是指求解使得右边求和式取得最小值的参数值,其中待求解的参数值包括辅助变量Zn以及局部随机敏感自编码器模型编码层的输出h(Xn),Zn是训练样本Xn对应的带有二值化约束的辅助变量,其维度与模型编码层的输出h(Xn)的维度一致,L是模型编码层中神经元的数量,μ与λ均是系数,在最小化该公式的过程中,通过逐渐增大μ,模型编码层的输出h(Xn)与辅助变量Zn将越来越相似,即h(Xn)将越来越接近二值化,最终满足模型的二值化约束。
进一步,所述步骤3)包括以下步骤:
3.1)使用ITQ算法初始化局部随机敏感自编码器模型中的辅助变量Zn,逐渐增大局部随机敏感自编码器模型目标函数中的系数μ与λ,在这个过程中,不断重复接下来的步骤,交替优化训练局部随机敏感自编码器模型,直到辅助变量不再变化且辅助变量与模型编码层输出相等时,模型训练完毕,停止训练,模型编码层的输出即为图像的哈希编码;
3.2)固定辅助变量Zn,在编码过程中,训练L个支持向量机SVM,L是局部随机敏感自编码器模型编码层神经元的数量,每个支持向量机都作为模型编码层的一个神经元;
3.3)固定辅助变量Zn,在解码过程中,由于在步骤2)建立的局部随机敏感自编码器模型中使用的是线性解码器,此时解码过程能够转换成线性回归问题:
Figure BDA0003547362370000061
式中,Xn是指模型的训练样本,即步骤1)中得到的第n张图像的GIST特征,共有N张图像,Xn+ΔX是指与训练样本Xn偏差在[-Q,Q]范围内的扰动样本,Q是指扰动样本与训练样本的偏差距离,每个训练样本共有H个对应的扰动样本,ΔX是指扰动样本与训练样本Xn的偏差范围,h(·)是指模型编码层的输出,f(·)是指模型解码层的输出,Zn是训练样本Xn对应的带有二值化约束的辅助变量,μ与λ均是系数,W是模型编码层与解码层间的权值矩阵,b是解码层的偏置值;
上式属于最小平方问题,为便于计算,忽略偏置值b,其解为:
W=YZT(ZZT+λ(h(Y+ΔX)-h(Y))(h(Y+ΔX)-h(Y))T)-1
式中,Y是指所有训练样本Xn组成的矩阵,Z是指所有与训练样本Xn对应的辅助变量Zn组成的矩阵,Y+ΔX是指所有扰动样本组成的矩阵,ΔX是指扰动样本与训练样本Xn的偏差范围[-Q,Q],Q是指扰动样本与训练样本的偏差距离,h(·)是指模型编码层的输出,T是指矩阵的转置;
3.4)固定局部随机敏感自编码器模型的权值矩阵与偏置值,优化辅助变量Zn,此时,局部随机敏感自编码器模型目标函数中的部分变量为固定值,在使目标函数的值最小化的过程中不起作用,能够将目标函数重写为:
arg min||Xn-f(Zn)||2+μ||Zn-h(Xn)||2
式中,argmin是指求解使得右边求和式取得最小值的参数值,其中待求解的参数值包括辅助变量Zn;通过枚举求出使上式右边求和式取得最小值的辅助变量Zn
进一步,在步骤4)中,将要检索的图像的GIST特征向量输入步骤3)中训练完成的局部随机敏感自编码器模型,得到检索的图像对应的哈希编码;计算检索的图像的哈希编码与步骤3)中得到的图像数据库中所有图像的哈希编码之间的汉明距离,根据汉明距离进行升序排序,得到图像数据库中与检索的图像之间汉明距离最小的图像,即为与检索的图像最为相似的图像。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次将局部随机敏感度应用到哈希图像检索领域中,使模型通过训练能够学习到更具有泛化性的特征,增强了模型的鲁棒性,提升了模型在面对未知图像时的表现。
2、本发明与其它哈希图像检索方法相比,将二值化约束加入到模型中,通过模型直接生成哈希编码,提高了哈希编码的质量,提升了检索效果。
3、本发明方法在计算机视觉任务中具有广泛的使用空间,操作简单、适应性强,具有广阔的应用前景。
附图说明
图1为本发明逻辑流程示意图。
图2为本发明所建立的局部随机敏感自编码器模型的示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
参见图1和图2所示,本实施例公开了一种基于局部随机敏感自编码器的哈希图像检索方法,包括以下步骤:
1)对图像数据库中的图像提取GIST特征,作为局部随机敏感自编码器模型的输入数据。GIST特征提取是将图像划分为小区域块,随后对每个小区域块与不同方向和不同尺度的Gabor滤波器进行滤波,在每个小区域块内取平均值,最后将每个小区域块的平均值级联起来得到GIST特征,GIST特征表示为:
Figure BDA0003547362370000081
式中,Xn是指图像数据库中第n张图像的GIST特征,局部随机敏感自编码器模型将Xn作为训练样本,x1,x2,x3,…,xD分别是图像每个小区域块与各个Gabor滤波器进行滤波之后的平均值,共有N张图像。
2)建立局部随机敏感自编码器模型,将图像的GIST特征输入模型进行训练,包括以下步骤:
2.1)建立自编码器模型,表示为:
Figure BDA0003547362370000082
式中,RMSE是指自编码器模型,Xn是指模型的训练样本,即步骤1)中得到的第n张图像的GIST特征,共有N张图像,
Figure BDA0003547362370000083
是指Xn输入自编码器模型之后对应的模型的输出值,自编码器模型通过编码-解码的步骤输出与输入数据维度一致且尽可能相似的输出值,h(·)是模型编码层的输出,f(·)是模型解码层的输出;
2.2)根据局部随机敏感度,建立局部随机敏感自编码器模型;局部随机敏感度能够评估模型对训练样本与其对应的小幅扰动的样本之间差异的敏感性,通过将局部随机敏感度加入到模型中,通过训练,能够使模型学习到更好的特征值,增强模型的鲁棒性;在机器学习任务中,期望未知样本与训练样本的偏差距离在Q以内,否则,这个数据库并不适用于要研究的问题;假设与训练样本Xn偏差在[-Q,Q]范围内的扰动样本集合为SQ(Xn),能够将SQ(Xn)表示为:
SQ(Xn)={X|X=Xn+ΔX}Q
s.t.ΔX∈[-Q,Q]
式中,X是指扰动样本集合中的一个样本,ΔX是指扰动样本与训练样本Xn的偏差范围,Q是指扰动样本与训练样本的偏差距离;
建立的局部随机敏感自编码器模型表示为:
Figure BDA0003547362370000091
式中,RLGE是指局部随机敏感自编码器,p(Xn)是指Xn在SQ(Xn)中的未知概率密度函数,Q是指扰动样本与训练样本的偏差距离,设置为0.01;
局部随机敏感度是所有训练样本输入模型后的输出与其对应的扰动样本输入模型后的输出之间的均方误差的期望值:
Figure BDA0003547362370000092
式中,
Figure BDA0003547362370000093
是指局部随机敏感度,Xn+ΔX是指与训练样本Xn偏差在[-Q,Q]范围内的扰动样本,E是指数学期望;
将概率为1-η的霍夫丁不等式应用到局部随机敏感自编码器中,得到:
Figure BDA0003547362370000094
式中,A是指自编码器解码输出值的上界,B是指自编码器解码输出值均方误差的上界,η是霍夫丁不等式的概率,共有N个训练样本,
Figure BDA0003547362370000095
是指不等式的上界;
总的来说,局部随机敏感自编码器包括自编码器以及局部随机敏感度两个部分;对每个训练样本,生成H个在偏差范围[-Q,Q]内均匀分布的扰动样本,与训练样本一同输入局部随机敏感自编码器模型中进行训练;局部随机敏感自编码器能够表示为:
Figure BDA0003547362370000101
式中,每个训练样本共有H个对应的扰动样本,H设置为50;
2.3)将二值化约束加入到步骤2.2)建立的局部随机敏感自编码器模型中,训练样本输入模型后能够直接获得哈希编码,从而保留更多训练样本的特征信息,生成更高质量的哈希编码;将二值化约束加入到局部随机敏感自编码器模型后,模型的训练就成为了NP-hard的问题,大大增加了模型的训练难度,但通过引入辅助变量及交替优化的方法,将原本的NP-hard问题转化为可求解的问题,从而能够正常训练模型;加入二值化约束及辅助变量后,步骤2.2)中建立的局部随机敏感自编码器模型的目标函数最终表示如下:
Figure BDA0003547362370000102
s.t.Zn∈{0,1}L,n=1,2,3,...,N
式中,argmin是指求解使得右边求和式取得最小值的参数值,其中待求解的参数值包括辅助变量Zn以及局部随机敏感自编码器模型编码层的输出h(Xn),Zn是训练样本Xn对应的带有二值化约束的辅助变量,其维度与模型编码层的输出h(Xn)的维度一致,L是模型编码层中神经元的数量,μ与λ均是系数,在最小化该公式的过程中,通过逐渐增大μ,模型编码层的输出h(Xn)与辅助变量Zn将越来越相似,即h(Xn)将越来越接近二值化,最终满足模型的二值化约束。
3)使用交替优化方法训练局部随机敏感自编码器模型,得到图像的哈希编码,包括以下步骤:
3.1)使用ITQ算法初始化局部随机敏感自编码器模型中的辅助变量Zn,逐渐增大局部随机敏感自编码器模型目标函数中的系数μ与λ,在这个过程中,不断重复接下来的步骤,交替优化训练局部随机敏感自编码器模型,直到辅助变量不再变化且辅助变量与模型编码层输出相等时,模型训练完毕,停止训练,模型编码层的输出即为图像的哈希编码;
3.2)固定辅助变量Zn,在编码过程中,训练L个支持向量机SVM,L是局部随机敏感自编码器模型编码层神经元的数量,每个支持向量机都作为模型编码层的一个神经元;
3.3)固定辅助变量Zn,在解码过程中,由于在步骤2)建立的局部随机敏感自编码器模型中使用的是线性解码器,此时解码过程能够转换成线性回归问题:
Figure BDA0003547362370000111
式中,Xn是指模型的训练样本,即步骤1)中得到的第n张图像的GIST特征,共有N张图像,Xn+ΔX是指与训练样本Xn偏差在[-Q,Q]范围内的扰动样本,Q是指扰动样本与训练样本的偏差距离,每个训练样本共有H个对应的扰动样本,ΔX是指扰动样本与训练样本Xn的偏差范围,h(·)是指模型编码层的输出,f(·)是指模型解码层的输出,Zn是训练样本Xn对应的带有二值化约束的辅助变量,μ与λ均是系数,W是模型编码层与解码层间的权值矩阵,b是解码层的偏置值;
上式属于最小平方问题,为便于计算,忽略偏置值b,其解为:
W=YZT(ZZT+λ(h(Y+ΔX)-h(Y))(h(Y+ΔX)-h(Y))T)-1
式中,Y是指所有训练样本Xn组成的矩阵,Z是指所有与训练样本Xn对应的辅助变量Zn组成的矩阵,Y+ΔX是指所有扰动样本组成的矩阵,ΔX是指扰动样本与训练样本Xn的偏差范围[-Q,Q],Q是指扰动样本与训练样本的偏差距离,h(·)是指模型编码层的输出,T是指矩阵的转置;
3.4)固定局部随机敏感自编码器模型的权值矩阵与偏置值,优化辅助变量Zn,此时,局部随机敏感自编码器模型目标函数中的部分变量为固定值,在使目标函数的值最小化的过程中不起作用,能够将目标函数重写为:
argmin||Xn-f(Zn)||2+μ||Zn-h(Xn)||2
式中,argmin是指求解使得右边求和式取得最小值的参数值,其中待求解的参数值包括辅助变量Zn;通过枚举求出使上式右边求和式取得最小值的辅助变量Zn
4)将要检索的图像的GIST特征向量输入步骤3)中训练完成的局部随机敏感自编码器模型,得到检索的图像对应的哈希编码;计算检索的图像的哈希编码与步骤3)中得到的图像数据库中所有图像的哈希编码之间的汉明距离,根据汉明距离进行升序排序,得到图像数据库中与检索的图像之间汉明距离最小的图像,即为与检索的图像最为相似的图像。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (1)

1.基于局部随机敏感自编码器的哈希图像检索方法,其特征在于,包括以下步骤:
1)对图像数据库中的图像提取GIST特征,作为局部随机敏感自编码器模型的输入数据;
GIST特征提取是将图像划分为小区域块,随后对每个小区域块与不同方向和不同尺度的Gabor滤波器进行滤波,在每个小区域块内取平均值,最后将每个小区域块的平均值级联起来得到GIST特征,GIST特征表示为:
Figure FDA0003969948280000011
式中,Xn是指图像数据库中第n张图像的GIST特征,局部随机敏感自编码器模型将Xn作为训练样本,x1,x2,x3,…,xD分别是图像每个小区域块与各个Gabor滤波器进行滤波之后的平均值,共有N张图像;
2)建立局部随机敏感自编码器模型,将图像的GIST特征输入模型进行训练,包括以下步骤:
2.1)建立自编码器模型,表示为:
Figure FDA0003969948280000012
式中,RMSE是指自编码器模型,Xn是指模型的训练样本,即步骤1)中得到的第n张图像的GIST特征,共有N张图像,
Figure FDA0003969948280000013
是指Xn输入自编码器模型之后对应的模型的输出值,自编码器模型通过编码-解码的步骤输出与输入数据维度一致且尽可能相似的输出值,h(·)是模型编码层的输出,f(·)是模型解码层的输出;
2.2)根据局部随机敏感度,建立局部随机敏感自编码器模型;局部随机敏感度能够评估模型对训练样本与其对应的小幅扰动的样本之间差异的敏感性,通过将局部随机敏感度加入到模型中,通过训练,能够使模型学习到更好的特征值,增强模型的鲁棒性;在机器学习任务中,期望未知样本与训练样本的偏差距离在Q以内,否则,这个数据库并不适用于要研究的问题;假设与训练样本Xn偏差在[-Q,Q]范围内的扰动样本集合为SQ(Xn),能够将SQ(Xn)表示为:
SQ(Xn)={X|X=Xn+ΔX}Q
s.t.ΔX∈[-Q,Q]
式中,X是指扰动样本集合中的一个样本,ΔX是指扰动样本与训练样本Xn的偏差范围,Q是指扰动样本与训练样本的偏差距离;
建立的局部随机敏感自编码器模型表示为:
Figure FDA0003969948280000021
式中,RLGE是指局部随机敏感自编码器,p(Xn)是指Xn在SQ(Xn)中的未知概率密度函数;
局部随机敏感度是所有训练样本输入模型后的输出与其对应的扰动样本输入模型后的输出之间的均方误差的期望值:
Figure FDA0003969948280000022
式中,
Figure FDA0003969948280000023
是指局部随机敏感度,Xn+ΔX是指与训练样本Xn偏差在[-Q,Q]范围内的扰动样本,E是指数学期望;
将概率为1-η的霍夫丁不等式应用到局部随机敏感自编码器中,得到:
Figure FDA0003969948280000024
式中,A是指自编码器解码输出值的上界,B是指自编码器解码输出值均方误差的上界,η是霍夫丁不等式的概率,共有N个训练样本,
Figure FDA0003969948280000031
是指不等式的上界;
总的来说,局部随机敏感自编码器包括自编码器以及局部随机敏感度两个部分;对每个训练样本,生成H个在偏差范围[-Q,Q]内均匀分布的扰动样本,与训练样本一同输入局部随机敏感自编码器模型中进行训练;局部随机敏感自编码器能够表示为:
Figure FDA0003969948280000032
式中,每个训练样本共有H个对应的扰动样本;
2.3)将二值化约束加入到步骤2.2)建立的局部随机敏感自编码器模型中,训练样本输入模型后能够直接获得哈希编码,从而保留更多训练样本的特征信息,生成更高质量的哈希编码;将二值化约束加入到局部随机敏感自编码器模型后,模型的训练就成为了NP-hard的问题,大大增加了模型的训练难度,但通过引入辅助变量及交替优化的方法,将原本的NP-hard问题转化为可求解的问题,从而能够正常训练模型;加入二值化约束及辅助变量后,步骤2.2)中建立的局部随机敏感自编码器模型的目标函数最终表示如下:
Figure FDA0003969948280000033
s.t.Zn∈{0,1}L,n=1,2,3,...,N
式中,argmin是指求解使得右边求和式取得最小值的参数值,其中待求解的参数值包括辅助变量Zn以及局部随机敏感自编码器模型编码层的输出h(Xn),Zn是训练样本Xn对应的带有二值化约束的辅助变量,其维度与模型编码层的输出h(Xn)的维度一致,L是模型编码层中神经元的数量,μ与λ均是系数,在最小化该公式的过程中,通过逐渐增大μ,模型编码层的输出h(Xn)与辅助变量Zn将越来越相似,即h(Xn)将越来越接近二值化,最终满足模型的二值化约束;
3)使用交替优化方法训练局部随机敏感自编码器模型,得到图像的哈希编码,包括以下步骤:
3.1)使用ITQ算法初始化局部随机敏感自编码器模型中的辅助变量Zn,逐渐增大局部随机敏感自编码器模型目标函数中的系数μ与λ,在这个过程中,不断重复接下来的步骤,交替优化训练局部随机敏感自编码器模型,直到辅助变量不再变化且辅助变量与模型编码层输出相等时,模型训练完毕,停止训练,模型编码层的输出即为图像的哈希编码;
3.2)固定辅助变量Zn,在编码过程中,训练L个支持向量机SVM,L是局部随机敏感自编码器模型编码层神经元的数量,每个支持向量机都作为模型编码层的一个神经元;
3.3)固定辅助变量Zn,在解码过程中,由于在步骤2)建立的局部随机敏感自编码器模型中使用的是线性解码器,此时解码过程能够转换成线性回归问题:
Figure FDA0003969948280000041
式中,Xn是指模型的训练样本,即步骤1)中得到的第n张图像的GIST特征,共有N张图像,Xn+ΔX是指与训练样本Xn偏差在[-Q,Q]范围内的扰动样本,Q是指扰动样本与训练样本的偏差距离,每个训练样本共有H个对应的扰动样本,ΔX是指扰动样本与训练样本Xn的偏差范围,h(·)是指模型编码层的输出,f(·)是指模型解码层的输出,Zn是训练样本Xn对应的带有二值化约束的辅助变量,μ与λ均是系数,W是模型编码层与解码层间的权值矩阵,b是解码层的偏置值;
上式属于最小平方问题,为便于计算,忽略偏置值b,其解为:
W=YZT(ZZT+λ(h(Y+ΔX)-h(Y))(h(Y+ΔX)-h(Y))T)-1
式中,Y是指所有训练样本Xn组成的矩阵,Z是指所有与训练样本Xn对应的辅助变量Zn组成的矩阵,Y+ΔX是指所有扰动样本组成的矩阵,ΔX是指扰动样本与训练样本Xn的偏差范围[-Q,Q],Q是指扰动样本与训练样本的偏差距离,h(·)是指模型编码层的输出,T是指矩阵的转置;
3.4)固定局部随机敏感自编码器模型的权值矩阵与偏置值,优化辅助变量Zn,此时,局部随机敏感自编码器模型目标函数中的部分变量为固定值,在使目标函数的值最小化的过程中不起作用,能够将目标函数重写为:
arg min||Xn-f(Zn)||2+μ||Zn-h(Xn)||2
式中,arg min是指求解使得右边求和式取得最小值的参数值,其中待求解的参数值包括辅助变量Zn;通过枚举求出使上式右边求和式取得最小值的辅助变量Zn
4)计算图像哈希编码间的汉明距离,根据汉明距离进行升序排序,得到图像数据库中与检索的图像之间汉明距离最小的图像,即为与检索的图像最为相似的图像;
将要检索的图像的GIST特征向量输入步骤3)中训练完成的局部随机敏感自编码器模型,得到检索的图像对应的哈希编码;计算检索的图像的哈希编码与步骤3)中得到的图像数据库中所有图像的哈希编码之间的汉明距离,根据汉明距离进行升序排序,得到图像数据库中与检索的图像之间汉明距离最小的图像,即为与检索的图像最为相似的图像。
CN202210252512.1A 2022-03-15 2022-03-15 基于局部随机敏感自编码器的哈希图像检索方法 Active CN114610940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210252512.1A CN114610940B (zh) 2022-03-15 2022-03-15 基于局部随机敏感自编码器的哈希图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210252512.1A CN114610940B (zh) 2022-03-15 2022-03-15 基于局部随机敏感自编码器的哈希图像检索方法

Publications (2)

Publication Number Publication Date
CN114610940A CN114610940A (zh) 2022-06-10
CN114610940B true CN114610940B (zh) 2023-02-14

Family

ID=81863880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210252512.1A Active CN114610940B (zh) 2022-03-15 2022-03-15 基于局部随机敏感自编码器的哈希图像检索方法

Country Status (1)

Country Link
CN (1) CN114610940B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629272B (zh) * 2023-07-24 2023-10-10 山东大学 自然语言控制的文本生成方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199922A (zh) * 2014-09-01 2014-12-10 中国科学院自动化研究所 一种基于局部相似哈希算法的大规模图像库检索方法
WO2017020741A1 (zh) * 2015-08-06 2017-02-09 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199922A (zh) * 2014-09-01 2014-12-10 中国科学院自动化研究所 一种基于局部相似哈希算法的大规模图像库检索方法
WO2017020741A1 (zh) * 2015-08-06 2017-02-09 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LiSSA: Localized Stochastic Sensitive Autoencoders;Ting Wang等;《IEEE TRANSACTIONS ON CYBERNETICS》;20210518;第51卷(第5期);2748-2760 *
基于稀疏自编码的无监督图像哈希算法;代亚兰等;《计算机工程》;20190515(第05期);228-231+242 *

Also Published As

Publication number Publication date
CN114610940A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
Morerio et al. Minimal-entropy correlation alignment for unsupervised deep domain adaptation
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
CN110969086B (zh) 一种基于多尺度cnn特征及量子菌群优化kelm的手写图像识别方法
Duong et al. Shrinkteanet: Million-scale lightweight face recognition via shrinking teacher-student networks
Lai et al. Encoding pathlet and SIFT features with bagged VLAD for historical writer identification
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
Das et al. Goggles: Automatic image labeling with affinity coding
CN112733965B (zh) 一种基于小样本学习的无标签图像分类方法
CN106251375B (zh) 一种通用隐写分析的深度学习堆栈式自动编码方法
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
CN114610940B (zh) 基于局部随机敏感自编码器的哈希图像检索方法
CN111008224A (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN114565808A (zh) 一种面向无监督视觉表示的双动量对比学习方法
Lekhal et al. Arabic numerals recognition based on an improved version of the loci characteristic
CN114006870A (zh) 一种基于自监督卷积子空间聚类网络的网络流量识别方法
Zhang et al. Clustering noisy trajectories via robust deep attention auto-encoders
CN113807371A (zh) 一种类条件下的有益特征对齐的无监督域自适应方法
CN116777896B (zh) 一种表观缺陷跨域分类识别的负迁移抑制方法
Salvesen et al. Robust methods of unsupervised clustering to discover new planktonic species in-situ
CN110135253B (zh) 一种基于长期递归卷积神经网络的手指静脉认证方法
CN116665039A (zh) 基于两阶段因果干预的小样本目标识别方法
CN112182287B (zh) 一种基于时空视觉词组和分层匹配的视频拷贝检测方法
CN112735604B (zh) 一种基于深度学习算法的新型冠状病毒分类方法
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
Song et al. Label field initialization for MRF-based sonar image segmentation by selective autoencoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant