CN114610940B

CN114610940B - 基于局部随机敏感自编码器的哈希图像检索方法

Info

Publication number: CN114610940B
Application number: CN202210252512.1A
Authority: CN
Inventors: 卢肃; 田星; 吴永贤; 陈伟能
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2023-02-14
Anticipated expiration: 2042-03-15
Also published as: CN114610940A

Abstract

本发明公开了一种基于局部随机敏感自编码器的哈希图像检索方法，包括：1)对图像数据库中的图像提取GIST特征；2)建立局部随机敏感自编码器模型，将图像的GIST特征输入模型进行训练；3)使用交替优化方法训练局部随机敏感自编码器模型，得到图像的哈希编码；4)计算检索图像的哈希编码与图像数据库中图像的哈希编码间的汉明距离，根据汉明距离升序排序，得到图像数据库中与检索图像最为相似的图像。本发明基于局部随机敏感自编码器进行哈希图像检索，训练出的模型能够学习到更具有泛化性的特征，增强了模型的鲁棒性，提升了模型在面对未知图像时的表现；本发明将二值化约束加入到模型中，通过模型直接生成哈希编码，提高哈希编码的质量，提升检索效果。

Description

基于局部随机敏感自编码器的哈希图像检索方法

技术领域

本发明涉及哈希图像检索和机器学习的技术领域，尤其是指一种基于局部随机敏感自编码器的哈希图像检索方法。

背景技术

哈希图像检索是指将图像通过哈希函数转化为一串较短的哈希编码，计算检索图像的哈希编码与图像数据库中所有图像的哈希编码间的汉明距离，汉明距离最小的图像就是与检索图像最为相似的图像，在快速目标检测、图像搜索、位置识别等计算机视觉领域中均有广泛应用。哈希图像检索的关键在于如何训练得到能产生高质量哈希编码的哈希函数，高质量的哈希编码能够更好的保留图像特征。

哈希图像检索方法可分为数据独立与数据依赖两类方法：1、数据独立的哈希图像检索方法没有考虑图像数据的分布信息和语义相似度信息，通过随机投影生成哈希编码，这类方法通常需要较长的哈希编码才能取得较为准确的检索效果，占用了更多的计算机存储空间，降低了检索效率；2、数据依赖的哈希图像检索方法是指基于机器学习的方法，这类方法使用大量的数据对神经网络模型训练。但如果将哈希的二值化约束直接加在神经网络模型上，也就是使神经网络模型直接输出二值化的哈希编码，神经网络模型的训练就成了NP-hard的难题，难以解决。因此，大部分方法采用忽略二值化约束，先令模型输出连续的编码，再通过离散化方法将连续编码转化为哈希编码的思路。但在离散化的过程中必然会丢失部分图像数据的特征信息，降低了哈希编码的质量。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于局部随机敏感自编码器的哈希图像检索方法，将二值化约束加入到神经网络模型—局部随机敏感自编码器模型中，通过模型直接生成哈希编码，而不是先输出连续编码，再离散化为哈希编码，避免了丢失图像的特征信息，提高哈希编码的质量。并通过交替优化的方法训练模型，解决了将二值化约束加入神经网络模型后难以训练模型的问题。

为实现上述目的，本发明所提供的技术方案为：基于局部随机敏感自编码器的哈希图像检索方法，包括以下步骤：

1)对图像数据库中的图像提取GIST特征，作为局部随机敏感自编码器模型的输入数据；

2)建立局部随机敏感自编码器模型，将图像的GIST特征输入模型进行训练；

3)使用交替优化方法训练局部随机敏感自编码器模型，得到图像的哈希编码；

4)计算图像哈希编码间的汉明距离，根据汉明距离进行升序排序，得到图像数据库中与检索的图像之间汉明距离最小的图像，即为与检索的图像最为相似的图像。

进一步，在步骤1)中，GIST特征提取是将图像划分为小区域块，随后对每个小区域块与不同方向和不同尺度的Gabor滤波器进行滤波，在每个小区域块内取平均值，最后将每个小区域块的平均值级联起来得到GIST特征，GIST特征表示为：

式中，X_n是指图像数据库中第n张图像的GIST特征，局部随机敏感自编码器模型将X_n作为训练样本，x₁,x₂,x₃,…,x_D分别是图像每个小区域块与各个Gabor滤波器进行滤波之后的平均值，共有N张图像。

进一步，所述步骤2)包括以下步骤：

2.1)建立自编码器模型，表示为：

式中，R_MSE是指自编码器模型，X_n是指模型的训练样本，即步骤1)中得到的第n张图像的GIST特征，共有N张图像，

是指X_n输入自编码器模型之后对应的模型的输出值，自编码器模型通过编码－解码的步骤输出与输入数据维度一致且尽可能相似的输出值，h(·)是模型编码层的输出，f(·)是模型解码层的输出；

2.2)根据局部随机敏感度，建立局部随机敏感自编码器模型；局部随机敏感度能够评估模型对训练样本与其对应的小幅扰动的样本之间差异的敏感性，通过将局部随机敏感度加入到模型中，通过训练，能够使模型学习到更好的特征值，增强模型的鲁棒性；在机器学习任务中，期望未知样本与训练样本的偏差距离在Q以内，否则，这个数据库并不适用于要研究的问题；假设与训练样本X_n偏差在[-Q,Q]范围内的扰动样本集合为S_Q(X_n)，能够将S_Q(X_n)表示为：

S_Q(X_n)＝{X|X＝X_n+ΔX}_Q

s.t.ΔX∈[-Q,Q]

式中，X是指扰动样本集合中的一个样本，ΔX是指扰动样本与训练样本X_n的偏差范围，Q是指扰动样本与训练样本的偏差距离；

建立的局部随机敏感自编码器模型表示为：

式中，R_LGE是指局部随机敏感自编码器，p(X_n)是指X_n在S_Q(X_n)中的未知概率密度函数；

局部随机敏感度是所有训练样本输入模型后的输出与其对应的扰动样本输入模型后的输出之间的均方误差的期望值：

式中，

是指局部随机敏感度，X_n+ΔX是指与训练样本X_n偏差在[-Q,Q]范围内的扰动样本，E是指数学期望；

将概率为1-η的霍夫丁不等式应用到局部随机敏感自编码器中，得到：

式中，A是指自编码器解码输出值的上界，B是指自编码器解码输出值均方误差的上界，η是霍夫丁不等式的概率，共有N个训练样本，

是指不等式的上界；

总的来说，局部随机敏感自编码器包括自编码器以及局部随机敏感度两个部分；对每个训练样本，生成H个在偏差范围[-Q,Q]内均匀分布的扰动样本，与训练样本一同输入局部随机敏感自编码器模型中进行训练；局部随机敏感自编码器能够表示为：

式中，每个训练样本共有H个对应的扰动样本；

2.3)将二值化约束加入到步骤2.2)建立的局部随机敏感自编码器模型中，训练样本输入模型后能够直接获得哈希编码，从而保留更多训练样本的特征信息，生成更高质量的哈希编码；将二值化约束加入到局部随机敏感自编码器模型后，模型的训练就成为了NP-hard的问题，大大增加了模型的训练难度，但通过引入辅助变量及交替优化的方法，将原本的NP-hard问题转化为可求解的问题，从而能够正常训练模型；加入二值化约束及辅助变量后，步骤2.2)中建立的局部随机敏感自编码器模型的目标函数最终表示如下：

s.t.Z_n∈{0,1}^L,n＝1,2,3,...,N

式中，argmin是指求解使得右边求和式取得最小值的参数值，其中待求解的参数值包括辅助变量Z_n以及局部随机敏感自编码器模型编码层的输出h(X_n)，Z_n是训练样本X_n对应的带有二值化约束的辅助变量，其维度与模型编码层的输出h(X_n)的维度一致，L是模型编码层中神经元的数量，μ与λ均是系数，在最小化该公式的过程中，通过逐渐增大μ，模型编码层的输出h(X_n)与辅助变量Z_n将越来越相似，即h(X_n)将越来越接近二值化，最终满足模型的二值化约束。

进一步，所述步骤3)包括以下步骤：

3.1)使用ITQ算法初始化局部随机敏感自编码器模型中的辅助变量Z_n，逐渐增大局部随机敏感自编码器模型目标函数中的系数μ与λ，在这个过程中，不断重复接下来的步骤，交替优化训练局部随机敏感自编码器模型，直到辅助变量不再变化且辅助变量与模型编码层输出相等时，模型训练完毕，停止训练，模型编码层的输出即为图像的哈希编码；

3.2)固定辅助变量Z_n，在编码过程中，训练L个支持向量机SVM，L是局部随机敏感自编码器模型编码层神经元的数量，每个支持向量机都作为模型编码层的一个神经元；

3.3)固定辅助变量Z_n，在解码过程中，由于在步骤2)建立的局部随机敏感自编码器模型中使用的是线性解码器，此时解码过程能够转换成线性回归问题：

式中，X_n是指模型的训练样本，即步骤1)中得到的第n张图像的GIST特征，共有N张图像，X_n+ΔX是指与训练样本X_n偏差在[-Q,Q]范围内的扰动样本，Q是指扰动样本与训练样本的偏差距离，每个训练样本共有H个对应的扰动样本，ΔX是指扰动样本与训练样本X_n的偏差范围，h(·)是指模型编码层的输出，f(·)是指模型解码层的输出，Z_n是训练样本X_n对应的带有二值化约束的辅助变量，μ与λ均是系数，W是模型编码层与解码层间的权值矩阵，b是解码层的偏置值；

上式属于最小平方问题，为便于计算，忽略偏置值b，其解为：

W＝YZ^T(ZZ^T+λ(h(Y+ΔX)-h(Y))(h(Y+ΔX)-h(Y))^T)-¹

式中，Y是指所有训练样本X_n组成的矩阵，Z是指所有与训练样本X_n对应的辅助变量Z_n组成的矩阵，Y+ΔX是指所有扰动样本组成的矩阵，ΔX是指扰动样本与训练样本X_n的偏差范围[-Q,Q]，Q是指扰动样本与训练样本的偏差距离，h(·)是指模型编码层的输出，T是指矩阵的转置；

3.4)固定局部随机敏感自编码器模型的权值矩阵与偏置值，优化辅助变量Z_n，此时，局部随机敏感自编码器模型目标函数中的部分变量为固定值，在使目标函数的值最小化的过程中不起作用，能够将目标函数重写为：

arg min||X_n-f(Z_n)||²+μ||Z_n-h(X_n)||²

式中，argmin是指求解使得右边求和式取得最小值的参数值，其中待求解的参数值包括辅助变量Z_n；通过枚举求出使上式右边求和式取得最小值的辅助变量Z_n。

进一步，在步骤4)中，将要检索的图像的GIST特征向量输入步骤3)中训练完成的局部随机敏感自编码器模型，得到检索的图像对应的哈希编码；计算检索的图像的哈希编码与步骤3)中得到的图像数据库中所有图像的哈希编码之间的汉明距离，根据汉明距离进行升序排序，得到图像数据库中与检索的图像之间汉明距离最小的图像，即为与检索的图像最为相似的图像。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明首次将局部随机敏感度应用到哈希图像检索领域中，使模型通过训练能够学习到更具有泛化性的特征，增强了模型的鲁棒性，提升了模型在面对未知图像时的表现。

2、本发明与其它哈希图像检索方法相比，将二值化约束加入到模型中，通过模型直接生成哈希编码，提高了哈希编码的质量，提升了检索效果。

3、本发明方法在计算机视觉任务中具有广泛的使用空间，操作简单、适应性强，具有广阔的应用前景。

附图说明

图1为本发明逻辑流程示意图。

图2为本发明所建立的局部随机敏感自编码器模型的示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

参见图1和图2所示，本实施例公开了一种基于局部随机敏感自编码器的哈希图像检索方法，包括以下步骤：

1)对图像数据库中的图像提取GIST特征，作为局部随机敏感自编码器模型的输入数据。GIST特征提取是将图像划分为小区域块，随后对每个小区域块与不同方向和不同尺度的Gabor滤波器进行滤波，在每个小区域块内取平均值，最后将每个小区域块的平均值级联起来得到GIST特征，GIST特征表示为：

2)建立局部随机敏感自编码器模型，将图像的GIST特征输入模型进行训练，包括以下步骤：

2.1)建立自编码器模型，表示为：

S_Q(X_n)＝{X|X＝X_n+ΔX}_Q

s.t.ΔX∈[-Q,Q]

建立的局部随机敏感自编码器模型表示为：

式中，R_LGE是指局部随机敏感自编码器，p(X_n)是指X_n在S_Q(X_n)中的未知概率密度函数，Q是指扰动样本与训练样本的偏差距离，设置为0.01；

式中，

是指不等式的上界；

式中，每个训练样本共有H个对应的扰动样本，H设置为50；

s.t.Z_n∈{0,1}^L,n＝1,2,3,...,N

3)使用交替优化方法训练局部随机敏感自编码器模型，得到图像的哈希编码，包括以下步骤：

W＝YZ^T(ZZ^T+λ(h(Y+ΔX)-h(Y))(h(Y+ΔX)-h(Y))^T)^-1

argmin||X_n-f(Z_n)||²+μ||Z_n-h(X_n)||²

4)将要检索的图像的GIST特征向量输入步骤3)中训练完成的局部随机敏感自编码器模型，得到检索的图像对应的哈希编码；计算检索的图像的哈希编码与步骤3)中得到的图像数据库中所有图像的哈希编码之间的汉明距离，根据汉明距离进行升序排序，得到图像数据库中与检索的图像之间汉明距离最小的图像，即为与检索的图像最为相似的图像。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于局部随机敏感自编码器的哈希图像检索方法，其特征在于，包括以下步骤：

GIST特征提取是将图像划分为小区域块，随后对每个小区域块与不同方向和不同尺度的Gabor滤波器进行滤波，在每个小区域块内取平均值，最后将每个小区域块的平均值级联起来得到GIST特征，GIST特征表示为：

式中，X_n是指图像数据库中第n张图像的GIST特征，局部随机敏感自编码器模型将X_n作为训练样本，x₁,x₂,x₃,…,x_D分别是图像每个小区域块与各个Gabor滤波器进行滤波之后的平均值，共有N张图像；

2.1)建立自编码器模型，表示为：

S_Q(X_n)＝{X|X＝X_n+ΔX}_Q

s.t.ΔX∈[-Q,Q]

建立的局部随机敏感自编码器模型表示为：

式中，

是指不等式的上界；

式中，每个训练样本共有H个对应的扰动样本；

s.t.Z_n∈{0,1}^L,n＝1,2,3,...,N

式中，argmin是指求解使得右边求和式取得最小值的参数值，其中待求解的参数值包括辅助变量Z_n以及局部随机敏感自编码器模型编码层的输出h(X_n)，Z_n是训练样本X_n对应的带有二值化约束的辅助变量，其维度与模型编码层的输出h(X_n)的维度一致，L是模型编码层中神经元的数量，μ与λ均是系数，在最小化该公式的过程中，通过逐渐增大μ，模型编码层的输出h(X_n)与辅助变量Z_n将越来越相似，即h(X_n)将越来越接近二值化，最终满足模型的二值化约束；

W＝YZ^T(ZZ^T+λ(h(Y+ΔX)-h(Y))(h(Y+ΔX)-h(Y))^T)^-1

arg min||X_n-f(Z_n)||²+μ||Z_n-h(X_n)||²

式中，arg min是指求解使得右边求和式取得最小值的参数值，其中待求解的参数值包括辅助变量Z_n；通过枚举求出使上式右边求和式取得最小值的辅助变量Z_n；

4)计算图像哈希编码间的汉明距离，根据汉明距离进行升序排序，得到图像数据库中与检索的图像之间汉明距离最小的图像，即为与检索的图像最为相似的图像；

将要检索的图像的GIST特征向量输入步骤3)中训练完成的局部随机敏感自编码器模型，得到检索的图像对应的哈希编码；计算检索的图像的哈希编码与步骤3)中得到的图像数据库中所有图像的哈希编码之间的汉明距离，根据汉明距离进行升序排序，得到图像数据库中与检索的图像之间汉明距离最小的图像，即为与检索的图像最为相似的图像。