CN109299097B

CN109299097B - 一种基于哈希学习的在线高维数据最近邻查询方法

Info

Publication number: CN109299097B
Application number: CN201811128413.2A
Authority: CN
Inventors: 胡伟; 钱江波; 任艳多; 孙瑶
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2022-06-21
Anticipated expiration: 2038-09-27
Also published as: CN109299097A

Abstract

本发明公开了一种基于哈希学习的在线高维数据最近邻查询方法，首先设计了分别根据样本相似或不相似性的预测损失函数并且扩宽了损失函数的范围，进一步设置了相似或不相似范围，然后结合哈希模型需要保持历史信息同时需要当前数据对损失最小的原则，提出新的目标函数，通过对在线哈希算法的收敛性进行分析，找到目标函数最优值。在此基础上，对于待查询数据点，能够快速地查询到最接近的数据点，平均准确率结果稳定收敛，迭代学习过程中哈希函数的更新大大减少。

Description

一种基于哈希学习的在线高维数据最近邻查询方法

技术领域

本发明涉及一种在线最近邻查询方法，尤其是涉及一种基于哈希学习的在线高维数据最近邻查询方法。

背景技术

近邻查询(Nearest Neighbor Search)是信息检索领域一个重要的研究方向，在图像检索和数据挖掘方面均有广泛应用。近邻查询常用的技术主要有基于树和基于哈希的两类方法。但是当数据维度变大时，基于树的近邻检索的效率会受到较大限制。而基于哈希的方法则是将原始数据通过哈希函数压缩成低维的二进制编码，然后在海明距离下排序检索，因此该方法具有快速高效且维度不敏感的优势。目前研究较多的哈希方法是将所有数据统一训练的批处理方法，这种方法无法处理实时的流式数据。尽管学术界有少量针对流式数据的实时在线哈希学习方法，但这些方法较多讨论的仅仅如何提高平均准确率。

目前在线哈希学习所采用的方法主要包括在线核哈希(Online hashing)、监督哈希(Online Supervised hashing)和在线互信息哈希(MIHash Online Hashing)等，新数据训练后会自动更新哈希函数。但是哈希函数变化会导致数据集映射后的海明编码发生改变。为了使得新数据和原有数据哈希编码匹配，则需要通过新的哈希函数计算重新计算哈希编码。但是重新计算哈希编码时的更新迭代过程频繁，以致随着数据增大计算开销需求过大。且上述方法在在线迭代学习过程中哈希模型还存在哈希函数更新频率较快和哈希模型稳定性较弱的问题。原因在于：(1)设计损失函数，在整个数据集上把相似和不相似样本设置成统一阈值；(2)仅根据相邻两次投影向量差别尽可能小来更新哈希函数，无法保证模型的稳定性。而在实际应用中，哈希模型更重要的是在何时能快速迭代出最优哈希函数，以及是否能够达到稳定收敛的状态，而且更新哈希模型过程中也需要更新频率尽可能少。

发明内容

本发明所要解决的技术问题是提供一种基于哈希学习的在线高维数据最近邻查询方法，该方法具有在线最近邻查询平均准确率结果稳定收敛，能够减少迭代学习过程中哈希函数过于频繁的更新。

本发明解决上述技术问题所采用的技术方案为：一种基于哈希学习的在线高维数据最近邻查询方法，包括以下步骤：

①图像数据获取和预处理：获取包含原始二维图像的数据集，按照图像像素信息将该数据集等价转换成保留原始特征的数值矩阵，并对数值矩阵进行数据清洗和降维处理两步操作；

②定义处理数据的哈希模型；；

③建立预测损失函数：对于顺序收到的流式数据，根据相似或者不相似数据对的标签，计算对应海明距离的均值，分别统计相似或者不相似数据两类样本的阈值，然后根据流式数据对的海明距离和阈值关系，根据任意数据经过哈希函数映射后是否仍然保持相似性的原则，建立判断更新后的哈希向量是否合理的海明距离预测损失函数；

④获取目标函数：当步骤③中预测损失函数值为零时，将此时的哈希向量作为目标函数参数，当步骤③中预测损失函数值非零时，则计算下一轮次训练的哈希向量，并判断下一数据的相似性，直到找到符合要求的新的数据，并将此时的哈希向量作为目标函数的参数；

⑤优化目标函数：对于目标函数，用随机梯度下降算法SGD寻找每次迭代过程中当前范围内的极小值，不断向函数减小的方向逼近，直至局部最低点，找到其导数近似为零的极小值点，将对应的哈希向量作为目标函数最优值；

⑥测试数据库查询：对于待查询数据点，首先按照步骤①初步处理待查询图像数据，然后选取最新更新的哈希向量组成哈希函数族，把待查询图像数据映射到海明空间后，筛选出最接近的数据点，作为待查询图像数据的反馈结果。

与现有技术相比，本发明的优点在于提出一种新的在线学习哈希算法，首先设计了分别根据样本相似(不相似性)的预测损失函数并且扩宽了损失函数的范围，进一步设置了相似(不相似)范围，然后结合哈希模型需要保持历史信息同时需要当前数据对损失最小的原则，提出新的目标函数，通过对在线哈希算法的收敛性进行分析，找到目标函数最优值。在此基础上，对于待查询数据点，能够快速地查询到最接近的数据点，平均准确率结果稳定收敛，迭代学习过程中哈希函数的更新大大减少。

具体实施方式

以下结合实施例对本发明作进一步详细描述。

一种基于哈希学习的在线高维数据最近邻查询方法，包括以下步骤：

①图像数据获取和预处理：在公开的图像领域网站获取包含原始二维图像的数据集，按照图像像素信息将该数据集等价转换成保留原始特征的数值矩阵，并对数值矩阵进行数据清洗和降维处理两步操作，具体操作过程为：

①-1对获取的图像数据进行归一化操作，维持整体数据的完整性，对离群数值使用分箱、聚类、和回归进行人工处理，对离群图像像素数据采用均值代替；

②-2采用SIFT算法提取原始二维图像中的局部性特征，把图像中关键点定位并确定图像局部的梯度方向，降低原始二维图像中的高维数据，然后将原始二维图像数据集合分为训练图像数据库X＝[x₁,x₂,...,x_i,.x_n]和查询图像数据库Y＝[x₁,x₂,...,x_i,.x_q]，其中x_i为任意一张图像的d维特征向量，i是数据库中图像数据的编号，n是训练图像个数，，q是测试图像个数，再将训练图像数据库中的训练数据设置为流式数据的形式顺序传送；

②定义处理数据的哈希模型：对于给定的原始数据X∈R^d×n，定义映射原始数据的哈希函数为：

其中R^d×n是d行n列的实数矩阵，c是样本数据的个数，d是样本数据的维数，W＝[w₁,...w_r]∈R^r×d是哈希投影向量，W^T是W的转置，R^r×d是r行d列的实数矩阵，r表示投影的维度，

是第i个数据的除去均值后的结果，sgn表示取符号函数两种值{+1，-1}，F是r维度的二进制编码；

③建立预测损失函数：对于顺序收到的流式数据，根据相似或者不相似数据对的标签，计算对应海明距离的均值，分别统计相似或者不相似数据两类样本的阈值，然后根据流式数据对的海明距离和阈值关系，根据任意数据经过哈希函数映射后是否仍然保持相似性的原则，建立判断更新后的哈希向量是否合理的海明距离预测损失函数：

式中，

为海明距离预测函数值，

是数据对

的海明距离，t为迭代次数，α_g和β_g分别是相似和不相似数据的海明距离阈值，max代表去最大值函数，

为数据对

的相似标签，1代表相似，-1代表不相似；

④获取目标函数：定义原始数据对应的哈希向量为W⁽⁰⁾，t轮次训练的哈希向量为W^(t)：

式中，

为数据对

在哈希向量W^(t)的映射下的哈希编码损失值，

为F范数的平方，W^(t-1)表示前一轮训练的哈希向量，W^(t-n)表示前n轮训练的哈希向量，m表示选取的中间哈希向量，η为相邻两次更新哈希编码损失差值，当步骤③中预测损失函数值为零时，则判断经过哈希函数映射后的新数据与原始数据相似性保持一致，将此时的哈希向量W^(t)作为目标函数参数，当步骤③中预测损失函数值非零时，则判断经过哈希函数映射后的新数据与原始数据相似性未保持一致，则计算下一轮次训练的哈希向量，并判断下一数据的相似性，直到找到符合要求的新的数据，并将此时的哈希向量作为目标函数的参数；

⑤优化目标函数：对于目标函数，用随机梯度下降算法SGD寻找每次迭代过程中当前范围内的极小值，每次迭代的一对数据

随机选取，从原始数据对应的哈希向量W⁽⁰⁾开始不断迭代产生新的投影向量，对于每一个投影向量都要沿着梯度下降的方向计算更新，如此往复直至代价函数足够小为止，即在W维度空间内，不断向函数减小的方向逼近，直至局部最低点，找到其导数近似为零的W^(*)，即为极小值点，将对应的哈希向量作为目标函数最优值；

⑥测试数据库查询：对于待查询数据点x_i，在查询图像数据库Y中查找近似图像，首先按照步骤①初步处理待查询图像数据，然后选取最新更新的哈希向量组成哈希函数族，把待查询图像数据映射到海明空间后，将查询图像数据库Y中的数据集进行海明距离排序比较，根据降序排序筛选出最接近的数据点，作为待查询图像数据的反馈结果。

Claims

1.一种基于哈希学习的在线高维数据最近邻查询方法，其特征在于包括以下步骤：

①-2采用SIFT算法提取原始二维图像中的局部性特征，把图像中关键点定位并确定图像局部的梯度方向，降低原始二维图像中的高维数据，然后将原始二维图像数据集合分为训练图像数据库X＝[x₁,x₂,...,x_i,.x_n]和查询图像数据库Y＝[x₁,x₂,...,x_i,.x_q]，其中x_i为任意一张图像的d维特征向量，i是数据库中图像数据的编号，n是训练图像个数，q是测试图像个数，再将训练图像数据库中的训练数据设置为流式数据的形式顺序传送；