CN109871379B

CN109871379B - 一种基于数据块学习的在线哈希最近邻查询方法

Info

Publication number: CN109871379B
Application number: CN201811500984.4A
Authority: CN
Inventors: 胡伟; 钱江波; 任艳多; 孙瑶
Original assignee: Ningbo University
Current assignee: Enshi Anbesen Technology Service Co., Ltd.
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2022-04-01
Anticipated expiration: 2038-12-10
Also published as: CN109871379A

Abstract

本发明公开了一种基于数据块学习的在线哈希最近邻查询方法，特点是包括以下步骤，图像数据获取及预处理、定义处理数据的哈希模型、建立判断更新后的哈希向量是否合理的海明距离预测损失函数、获取目标函数、优化目标函数和在测试数据库对给定的待查询数据进行在线哈希最近邻查询；优点是主要基于数据块的思路，每次处理流式小数据块，并在较小的数据空间中设计优化算法，提高学习效率，在设计方法上保证了在数据块内部数据样本间的海明空间损失最小，同时还对总体在线学习的增量变化进行约束，对噪声数据进行了有效控制，大大提高对给定的待查询数据的查询效率，并且减小了整体存储空间。

Description

一种基于数据块学习的在线哈希最近邻查询方法

技术领域

本发明涉及一种在线最近邻查询方法，尤其是一种基于数据块学习的在线哈希最近邻查询方法。

背景技术

近邻查询(Nearest Neighbor Search)是信息检索领域一个重要的研究方向，在图像检索、数据挖掘均有广泛应用。在基于哈希的最近邻算法原始数据通过哈希函数映射为在海明空间下的二进制编码，用海明距离编码尽可能接近原输入空间数据，利用计算机接近硬件的速度的异或操作有着高效的数据处理及查寻效率优势，因此得到广泛的应用。在实际应用中数据形式各种各样，大部分数据是动态产生，例如Web新页面量、航班铁路流量、天气状况信息等都是以流数据形式。因此对于大规模数据，由于硬盘空间远远大于内存，因此无法将数据全部读入内存，同样一次性处理计算大量数据也是非常耗时的。然而目前大部分方法是根据批处理技术的哈希学习方法，相当于当新数据到来时需要考虑所有数据并且重新训练哈希函数，这对于流式的动态数据是低效的。

目前基于一对数据的在线哈希学习最近邻查找，虽然在学习型哈希的更新频率和稳定性做了改进，但是实质的处理机制还是基于一对数据点做更新，为了加快哈希函数的更新效率，提出在块数据上基于在线哈希学习的最近邻查询方法。

在线哈希学习的目标是顺序的处理流数据，但又依赖当前训练数据，已经存在大量的相关算法研究，但是较少研究基于数据块学习的在线哈希函数的研究。

发明内容

本发明所要解决的技术问题是提供一种在线最近邻查询平均准确率结果稳定收敛、查询效率较高的基于数据块学习的在线哈希最近邻查询方法。

本发明解决上述技术问题所采用的技术方案为：一种基于数据块学习的在线哈希最近邻查询方法，包括以下步骤：

①图像数据获取及预处理：获取包含原始二维图像的原始二维图像数据集，按照图像像素信息将原始二维图像数据集等价转换成保留原始特征的数值矩阵，并对数值矩阵进行数据清洗和降维处理两步操作；

②定义处理数据的哈希模型；

③对于在线均匀顺序传输的各组流式数据块，根据每组流式数据块内任意数据样本之间相似或者不相似的标签，计算每组流式数据块内部的海明距离矩阵的均值，分别统计相似数据和不相似数据这两类样本的阈值，然后根据任意数据块经过哈希函数映射后是否仍然保持相似性的原则，建立判断更新后的哈希向量是否合理的海明距离预测损失函数；

④获取目标函数：建立步骤③中与损失函数值对应的损失上限，当步骤③中预测损失函数值小于或等于这个上限时，将此时的哈希向量作为目标函数参数，当步骤③中预测损失函数值大于上限值时，则计算下一轮次训练的哈希向量，并判断下一数据的相似性，直到找到符合要求的新的数据，并将此时的哈希向量作为目标函数的参数；

⑤优化目标函数：对于目标函数，用随机梯度下降算法寻找每次迭代过程中当前范围内的极小值，不断向函数减小的方向逼近，直至局部最低点，找到其导数近似为零的极小值点，将对应的哈希向量作为目标函数最优值；

⑥测试数据库查询：对于待查询数据，首先按照步骤①初步处理待查询图像数据，然后选取最新更新的哈希向量组成哈希函数族，把待查询图像数据映射到海明空间后，筛选出最接近的数据点，作为待查询图像数据的在线哈希最近邻查询结果。

具体步骤如下：

①图像数据获取及预处理：获取包含原始二维图像的原始二维图像数据集，按照图像像素信息将原始二维图像数据集等价转换成保留原始特征的数值矩阵，并对数值矩阵进行数据清洗和降维处理两步操作，具体操作过程为：

①-1对原始二维图像的数据集中的离群数值使用分箱、聚类和回归方式进行人工处理，对离群数值采用均值代替，完成对原始二维图像数据集的归一化操作；

①-2采用SIFT算法提取原始二维图像中的局部性特征，把图像中关键点定位并确定图像局部的梯度方向，降低原始二维图像中的高维数据，然后将原始二维图像数据集合分为训练图像数据库X＝[x₁，x₂，...，x_k，...，x_n]和查询图像数据库 Y＝[x₁，x₂，...，x_k，...，x_q]，其中x_k为X中第k张图像的d维特征向量，1≤k≤n， n是训练图像个数，q是测试图像个数，再将训练图像数据库中的训练数据设置为流式数据的形式顺序传送；

②定义处理数据的哈希模型：对于给定的原始数据X∈R^d×n，定义映射原始数据的哈希函数为

其中R^d×n是d行n列的实数矩阵，n是样本数据的个数，d是样本数据的维数，F∈{+1，-1}^r表示r维度的二进制编码，sgn为返回参数的正负号(+1，-1)的符号函数， W＝[w₁，...w_r]∈R^r×d表示哈希投影向量，W^T表示W的转置向量，R^r×d是r行d列的实数矩阵，r表示投影的维度，D_i表示第i个数据块，

表示D_i的核函数；

③对于在线按顺序传输的各组大小均匀的流式数据块，顺序经过在线处理数据块的窗口，并针对每个窗口内的数据块开始进行在线处理流程，具体过程为：首先根据每组流式数据块内任意数据样本之间相似或者不相似的标签，计算每组流式数据块内部的海明距离矩阵的均值，分别统计相似数据和不相似数据这两类样本的阈值，然后建立判断更新后的哈希向量是否合理的海明距离预测损失函数，定义当前窗口内的训练的流式数据块为第t组，则对第t组流式数据块D_t进行训练过程中的海明距离预测损失函数为：

其中，

为海明距离预测函数值，

是D_t中的数据对

之间的海明距离，α_t是在数据块D_t中相似数据的海明距离阈值，β_t是在数据块D_t中不相似数据的海明距离阈值，α_t≤β_t，max代表取最大值函数，

为数据对

的相似标签，

代表相似，

代表不相似；

④取目标函数：定义首次窗口处理的数据块的初始化哈希向量为W⁽⁰⁾，定义 D_t对应的哈希向量为W^(t)，当

非零时，则判断经过哈希函数映射后的新数据与原始数据相似性未保持一致，令t＝t+1，返回步骤③开始对下一组流式数据对的训练过程，其中“＝”表示更新符号；当

为零时，则判断当前训练过程经过哈希函数映射后的新数据与原始数据相似性保持一致，则W^(t)对应的目标函数如下：

其中，J′(W^(t-1)，D_t)是J(W^(t-1)，D_t)在W^(t-1)处的导函数，

为数据块D_t在W^(t-1)的映射下的哈希编码海明距离的损失矩阵函数，W^(t-1)表示第t-1组流式数据块训练时得到的哈希向量，F(W^(t-1)，D_t1)表示对第t组流式数据块训练中映射D_t1的哈希函数，T表示转置矩阵符号，F(W^(t)，D_t2)表示第t轮次训练中映射D_t2的哈希函数，其次对当前窗口进行均等拆分两部分便于处理整个第t组数据块，D_t1表示当前窗口的前半部分，D_t2表示当前窗口的后半部分，I_r表示值为r且维度为 |D_t1|×r的单位矩阵，S_t-1表示相似/不相似的标签矩阵，

为F-范数的平方，对前t-1组流式数据块训练时得到的哈希向量分别取F-范数的平方的值最大的哈希向量

和F-范数的平方的值最小的哈希向量

t_P为

对应的流式数据块的顺序号，t_q为

对应的流式数据块的顺序号，ξ为整个在线训练过程中哈希向量差值上界；

⑤优化目标函数：对于当前窗口下的第t组数据块D_t和对应的W^(t-1)作为输入进入当前的目标函数，用随机梯度下降算法SGD寻找迭代过程中当前窗口范围内的极小值下的哈希向量，从W⁽⁰⁾开始在当前窗口内不断迭代产生新的投影向量，对于每一个投影向量都要沿着梯度下降的方向计算更新，如此往复直至代价函数足够小为止，不断向函数减小的方向逼近，直至当前函数局部最低点，最终在每一组数据块都经过窗口后，获得对应的最终的哈希向量；

⑥测试数据库查询：对于给定的待查询数据，在Y中查找近似图像，首先按照步骤①初步处理给定的待查询数据得到处理后的待查询数据，然后选取最新更新的哈希向量组成哈希函数族，通过该哈希函数族把处理后的待查询数据映射到海明空间后，与Y中的数据进行海明距离排序比较，根据降序排序筛选出最接近的数据点作为待查询图像数据的在线哈希最近邻查询结果，完成在线哈希最近邻查询过程。

与现有技术相比，本发明的优点在于主要基于数据块的思路，每次处理流式小数据块，并在较小的数据空间中设计优化算法，提高学习效率，在设计方法上保证了在数据块内部数据样本间的海明空间损失最小，同时还对总体在线学习的增量变化进行约束，对噪声数据进行了有效控制，大大提高对给定的待查询数据的查询效率，并且减小了整体存储空间。

附图说明

图1为本发明的步骤流程图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

一种基于数据块学习的在线哈希最近邻查询方法，包括以下步骤：

①-2采用SIFT算法提取原始二维图像中的局部性特征，把图像中关键点定位并确定图像局部的梯度方向，降低原始二维图像中的高维数据，然后将原始二维图像数据集合分为训练图像数据库X＝[x₁，x₂，...，x_k，...，x_n]和查询图像数据库 Y＝[x₁，x₂，...，x_k，...，x_q]，其中x_k为X中第k张图像的d维特征向量，1≤k≤n， n是训练图像个数，q是测试图像个数，再将训练图像数据库中的训练数据设置为流式数据的形式顺序传送。

②定义处理数据的哈希模型：对于给定的原始数据X∈R^d×n，定义映射原始数据的哈希函数为F(W，D_i)，

表示D_i的核函数。

其中，

为海明距离预测函数值，

是D_t中的数据对

为数据对

的相似标签，

代表相似，

代表不相似。

④取目标函数：定义首次窗口处理的数据块的初始化哈希向量为W⁽⁰⁾，定义D_t对应的哈希向量为W^(t)，当

其中，J′(W^(t-1)，D_t)是J(W^(t-1)，D_t)在W^(t-1)处的导函数，

和F-范数的平方的值最小的哈希向量

t_P为

对应的流式数据块的顺序号，t_q为

对应的流式数据块的顺序号，ξ为整个在线训练过程中哈希向量差值上界。

⑤优化目标函数：对于当前窗口下的第t组数据块D_t和对应的W^(t-1)作为输入进入当前的目标函数，用随机梯度下降算法SGD寻找迭代过程中当前窗口范围内的极小值下的哈希向量，从W⁽⁰⁾开始在当前窗口内不断迭代产生新的投影向量，对于每一个投影向量都要沿着梯度下降的方向计算更新，如此往复直至代价函数足够小为止，不断向函数减小的方向逼近，直至当前函数局部最低点，最终在每一组数据块都经过窗口后，获得对应的最终的哈希向量。

Claims

1.一种基于数据块学习的在线哈希最近邻查询方法，其特征在于包括以下步骤：

①-2采用SIFT算法提取原始二维图像中的局部性特征，把图像中关键点定位并确定图像局部的梯度方向，降低原始二维图像中的高维数据，然后将原始二维图像数据集合分为训练图像数据库X＝[x₁,x₂,…,x_k,…,x_n]和查询图像数据库Y＝[x₁,x₂,…,x_k,…,x_q]，其中x_k为X中第k张图像的d维特征向量，1≤k≤n，n是训练图像个数，q是测试图像个数，再将训练图像数据库中的训练数据设置为流式数据的形式顺序传送；

②定义处理数据的哈希模型：对于给定的原始数据X∈R^d×n，定义映射原始数据的哈希函数为F(W,D_i)，

其中R^d×n是d行n列的实数矩阵，n是样本数据的个数，d是样本数据的维数，F∈{+1,-1}^r表示r维度的二进制编码，sgn为返回参数的正负号(+1,-1)的符号函数，W＝[w₁,...w_r]∈R^r×d表示哈希投影向量，W^T表示W的转置向量，R^r×d是r行d列的实数矩阵，r表示投影的维度，D_i表示第i个数据块，

表示D_i的核函数；

③对于在线均匀顺序传输的各组流式数据块，根据每组流式数据块内任意数据样本之间相似或者不相似的标签，计算每组流式数据块内部的海明距离矩阵的均值，分别统计相似数据和不相似数据这两类样本的阈值，然后根据任意数据块经过哈希函数映射后是否仍然保持相似性的原则，建立判断更新后的哈希向量是否合理的海明距离预测损失函数，具体过程为：首先根据每组流式数据块内任意数据样本之间相似或者不相似的标签，计算每组流式数据块内部的海明距离矩阵的均值，分别统计相似数据和不相似数据这两类样本的阈值，然后建立判断更新后的哈希向量是否合理的海明距离预测损失函数，定义当前窗口内的训练的流式数据块为第t组，则对第t组流式数据块D_t进行训练过程中的海明距离预测损失函数为：

其中，

为海明距离预测函数值，

是D_t中的数据对

为数据对

的相似标签，

代表相似，

代表不相似；

④获取目标函数：建立步骤③中与损失函数值对应的损失上限，当步骤③中预测损失函数值小于或等于这个上限时，将此时的哈希向量作为目标函数参数，当步骤③中预测损失函数值大于上限值时，则计算下一轮次训练的哈希向量，并判断下一数据的相似性，直到找到符合要求的新的数据，并将此时的哈希向量作为目标函数的参数，具体过程如下：定义首次窗口处理的数据块的初始化哈希向量为W⁽⁰⁾，定义D_t对应的哈希向量为W^(t)，当

t_p<t_q<t，

其中，J′(W^(t-1),D_t)是J(W^(t-1),D_t)在W^(t-1)处的导函数，

为数据块D_t在W^(t-1)的映射下的哈希编码海明距离的损失矩阵函数，W^(t-1)表示第t-1组流式数据块训练时得到的哈希向量，F(W^(t-1),D_t1)表示对第t组流式数据块训练中映射D_t1的哈希函数，T表示转置矩阵符号，F(W^(t),D_t2)表示第t轮次训练中映射D_t2的哈希函数，其次对当前窗口进行均等拆分两部分便于处理整个第t组数据块，D_t1表示当前窗口的前半部分，D_t2表示当前窗口的后半部分，I_r表示值为r且维度为|D_t1|×r的单位矩阵，S_t-1表示相似/不相似的标签矩阵，

和F-范数的平方的值最小的哈希向量

t_P为

对应的流式数据块的顺序号，t_q为

⑤优化目标函数：对于目标函数，用随机梯度下降算法寻找每次迭代过程中当前范围内的极小值，不断向函数减小的方向逼近，直至局部最低点，找到其导数近似为零的极小值点，将对应的哈希向量作为目标函数最优值，具体过程如下：对于当前窗口下的第t组数据块D_t和对应的W^(t-1)作为输入进入当前的目标函数，用随机梯度下降算法SGD寻找迭代过程中当前窗口范围内的极小值下的哈希向量，从W⁽⁰⁾开始在当前窗口内不断迭代产生新的投影向量，对于每一个投影向量都要沿着梯度下降的方向计算更新，如此往复直至代价函数足够小为止，不断向函数减小的方向逼近，直至当前函数局部最低点，最终在每一组数据块都经过窗口后，获得对应的最终的哈希向量；