CN105843555A

CN105843555A - 分布式存储中基于随机梯度下降的谱哈希方法

Info

Publication number: CN105843555A
Application number: CN201610159340.8A
Authority: CN
Inventors: 胡海峰; 朱力; 吴建盛
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2016-03-18
Filing date: 2016-03-18
Publication date: 2016-08-10
Anticipated expiration: 2036-03-18
Also published as: CN105843555B

Abstract

本发明公开了分布式存储中基于随机梯度下降的谱哈希方法，该方法在语义一致的谱哈希算法的基础上，利用随机梯度下降减少算法训练时间，且进一步提出基于柯西分布的一致性哈希算法并利用该算法将每一个数据项压缩成一个一维的实数值。这样便能利用一致性哈希的思想，在动态的网络拓扑中实现分布式存储，且使相似的数据项存储在相同的或者相近的存储服务器节点。本发明的方法使得每个存储服务器节点仅需要维护少量近邻节点的信息，当服务器节点加入或者退出系统时，仅有少量相关节点参与到拓扑的维护之中，提高了收敛速度和存储准确性。

Description

分布式存储中基于随机梯度下降的谱哈希方法

技术领域

本发明涉及分布式存储中基于随机梯度下降的谱哈希方法，属于分布式存储技术领域。

背景技术

近年来，随着信息技术的蓬勃发展，互联网上业务不断地扩张，用户不断地增长，存储空间不断地增大，数据呈现出无法想象的增长趋势。然而存储容量往往同存储性能成反比，传统数据库在应付海量数据时显得十分吃力，暴露出并发性低、扩展性差、效率低下等问题，不能满足大数据时代数据爆炸的需求。为此，新环境下对存储技术提出了新的要求：可扩展性、数据可靠性、高性能、易管理性、绿色节能。

分布式存储技术就是当前存储技术的研究热点之一。分布式存储系统将数据分散存储在多台独立的设备上，采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，这样的做法不但提高了系统的可靠性、可用性和存取效率，还易于扩展。在对等环境(P2P)中，分布式存储产生的一个关键问题就是如何在动态的网络拓扑中分布存储和路由，麻省理工学院提出的一致性哈希算法基本解决了这个关键问题。通过使用一致性哈希算法，每个服务器节点仅需要维护少量近邻节点的信息，并且在节点加入或退出系统时，仅有相关的少量节点参与到拓扑的维护中，然而研究者们并未提出有效用于一致性哈希的映射算法使得同一个存储服务器节点存储的都是内容相似或相同的数据。

云存储是在云计算概念上延伸和发展出来的一个新的概念，是一种新兴的网络存储技术，是指通过集群应用、网络技术或分布式文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一个系统。在分布式存储环境下，精确近邻存储需要遍历所有服务器所存储的数据，然而这种做法的实现代价太大以致不可实现。若我们能将内容相似的数据存储到相近或者相同的存储服务器节点，那么每次查询一类数据时我们便只需在某一个或某几个服务器中查询相关数据，大大节省了搜索时间。

谱哈希(Spectral Hashing，SH)是近年来非常流行的一种压缩映射算法，因其不错的搜索效率以及较强的高维适应性而被广泛应用于各个领域。谱哈希的基本思想是通过一组哈希函数，对数据进行压缩映射，使相似的输入数据映射成汉明距离相近的哈希码。但是，传统谱哈希技术只考虑了数据特征空间的欧式关系，这样的做法并未完全考虑数据间的内在联系。

发明内容

本发明所要解决的技术问题是：提供分布式存储中基于随机梯度下降的谱哈希方法，将相似的数据存储在相同或相近的存储服务器节点上，解决了数据的分布式存储问题。

本发明为解决上述技术问题采用以下技术方案：

分布式存储中基于随机梯度下降的谱哈希方法，包括如下步骤：

步骤1，根据给定的训练集样本矩阵以及对应的训练集标记矩阵，利用语义一致图的谱哈希算法构建转换矩阵的目标函数，该转换矩阵表示训练集样本矩阵中各样本之间的潜在关系；

步骤2，利用随机梯度下降算法迭代求解步骤1的目标函数，得到使目标函数的损失函数最小的转换矩阵；

步骤3，待存储数据集中各数据样本的维度与训练集中各样本的维度相同，利用步骤2得到的转换矩阵对待存储数据集中的数据样本进行转换，并对转换后的数据样本利用随机梯度下降算法，将数据样本压缩成指定维度的哈希码，且该指定维度小于数据样本的维度；

步骤4，利用柯西分布的一致性哈希算法，将步骤3得到的指定维度的哈希码压缩成一个一维的实数值，根据该实数值的大小将对应的数据样本存储到指定的服务器节点上。

作为本发明的一种优选方案，所述目标函数的表达式为：

O_{i} (A) = \frac{1}{2} Σ_{j = 1}^{n} W_{i j} | | f_{i} - f_{j} | |^{2} - λ_{1} \underset{j &Element; N_{i}}{Σ} p_{i j} + \frac{λ_{2}}{n} T r ({AA}^{T}),

其中，W_ij＝exp(-||A(x_i-x_j)||²)，A表示转换矩阵，x_i和x_j分别表示训练集中第i和第j个样本，n表示训练集中样本总个数，f_i和f_j分别表示第i和第j个样本的标记向量，N_i表示样本x_i的近邻集合，λ₁和λ₂分别表示两个自定的参数值，p_ij表示样本x_j作为样本x_i近邻的概率，||·||表示2范数，Tr表示矩阵的迹，T表示转置。

作为本发明的一种优选方案，所述转换矩阵的初始值为：I/δ，其中，I表示单位矩阵，δ表示训练集中样本间欧式距离的中位数。

作为本发明的一种优选方案，步骤4所述将指定维度的哈希码压缩成一个一维的实数值的方法为：在柯西分布中随机生成柯西向量，且该柯西向量的维度等于哈希码的指定维度，将指定维度的哈希码与该柯西向量内积，从而得到一维的实数值。

作为本发明的一种优选方案，步骤3所述利用转换矩阵对待存储数据集中的数据样本进行转换的方法为：利用转换矩阵乘以待存储数据集中的数据样本，从而得到转换后的数据样本。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明解决了语义一致图的谱哈希算法收敛速度过慢和陷入局部最优的问题，通过最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得损失函数值最小的参数；使用随机梯度下降算法不需要完遍历整个数据集就可以达到收敛，收敛速度较快。

2、本发明通过对原始谱哈希算法的改进得到语义一致图的谱哈希算法，使得搜索效率和高维适应性更加优越，将该算法应用在分布式存储中，提高了在分布式环境中相似性存储的准确度。

3、本发明解决了用于分布式存储的简单哈希算法带来的平衡性差、单调性差、分散性差、负载不均衡的问题，将表示样本的多维哈希码映射成一维的实数值，利用一致性哈希算法的思想将相似的数据存储到相同或相近的存储服务器节点中。

附图说明

图1是本发明分布式存储中基于随机梯度下降的谱哈希方法的整体架构图。

图2是本发明分布式存储中基于随机梯度下降的谱哈希方法的流程图。

图3是本发明中基于柯西分布的一致性哈希算法的示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明在语义一致图的谱哈希算法(Spectral Hashing with Semantically Consistent Graph)的基础上，利用随机梯度下降(Stochastic Gradient Descent，SGD)减少算法训练时间，且进一步提出基于柯西分布的一致性哈希算法并利用该算法将每一个数据项压缩成一个一维的实数值。这样便能利用一致性哈希的思想，在动态的网络拓扑中实现分布式存储，且使相似的数据项存储在相同的或相近的存储服务器节点。

语义一致图的谱哈希算法：是一种对数据的压缩映射方法，其基本思想是通过k个哈希函数，将数据压缩映射成k位哈希码(01码)，并使相似的输入数据映射成汉明距离相近的哈希码。

随机梯度下降算法(SGD)：作为梯度下降(Gradient Descent，GD)算法的改进算法，其主要针对原始梯度下降算法收敛速度过慢和易陷入局部最优的问题，是一种最小化损失函数或风险函数的迭代求解方法。本发明利用随机梯度下降算法减少语义一致图的谱哈希算法训练时间。

基于柯西分布的一致性哈希算法：本发明应用一致性哈希算法的思想，使得本发明的哈希映射算法在动态变化的分布式存储环境中具备了四个适应条件：平衡性、单调性、分散性、负载均衡。通过语义一致图的谱哈希算法，原始数据被压缩映射成k维的哈希码，再通过基于柯西分布的一致性哈希算法可以将这k维的哈希码映射成一个一维的实数值。该算法的映射空间本质上就是一个实数区间，这样便可在动态的网络拓扑中分布存储和路由。

如图1、图2所示，本发明提供一种在分布式存储中基于随机梯度下降的谱哈希方法，该方法主要分成两个部分：训练过程和存储过程。

1、训练过程

训练过程主要根据语义一致图的谱哈希算法思想建模并获得下一过程所需的转换矩阵，此转换矩阵反映了数据样本间潜在的关系，训练过程中本发明采用随机梯度下降(SGD)算法减少求解时间。若训练集数据的特征维度为d维，那么经训练过程得到的转换矩阵是d行d列的方阵。

语义一致图谱哈希算法的基本思想是将数据的特征维度由初始的d维压缩映射成k维的哈希码，并使相似的输入数据映射成汉明距离相近的哈希码。具体来说，若训练集中包含n个训练样本，该谱哈希算法定义样本间的关系矩阵W是一个n*n的矩阵，关系矩阵中的每一个元素定义为：

W_ij＝exp(-||A(x_i-x_j)||²) (1)

上式中A表示转换矩阵，x_i和x_j分别表示训练集中第i个样本和第j个样本，为了训练得到具备反映数据项之间潜在关系的转换矩阵A，本发明使用随机梯度下降(SGD)算法改进语义一致图的谱哈希算法，并定义目标函数为：

O_{i} (A) = \frac{1}{2} Σ_{j = 1}^{n} W_{i j} | | f_{i} - f_{j} | |^{2} - λ_{1} \underset{j &Element; N_{i}}{Σ} p_{i j} + \frac{λ_{2}}{n} T r ({AA}^{T}) - - - (2)

SGD算法要求每次迭代前先随机选择一个样本(训练集的第i个样本)，上述目标函数中f_i和f_j分别表示第i个样本和第j个样本的标记向量(标记向量是c维的列向量，c是标记的个数，向量中的元素为1或0，分别表示样本具备或不具备这个标记)，N_i表示样本x_i(d维的列向量)的近邻集合(根据欧式距离确定)，λ₁和λ₂是两个自定的参数值(可选取以下值：0.01、0.1、0.5、1、5)，p_ij表示样本x_j作为样本x_i近邻的概率并定义为：

p_{i j} = \frac{\exp (- | | A (x_{i} - x_{j}) | |^{2})}{\underset{k &NotEqual; i}{Σ} \exp (- | | A (x_{i} - x_{k}) | |^{2})}, p_{i i} = 0 - - - (3)

训练过程的目标就是最小化目标函数即式(2)迭代求解出最优的转换矩阵A。本发明使用随机梯度下降算法取代语义一致图的谱哈希算法使用的梯度下降算法用以加速目标函数的收敛，从而减少了训练过程的时间。转换矩阵初始化为I/δ，I是d*d的单位矩阵，δ是训练集样本间欧式距离的中位数。目标函数值收敛后输出转换矩阵A，训练过程结束。

2、存储过程

存储过程主要通过使用训练过程获得的转换矩阵A转换所有待存储数据样本的特征空间，然后使用谱哈希算法将样本压缩映射成k维的01哈希码，再通过使用本发明所创的基于柯西分布的一致性哈希算法将代表样本的k维的哈希码映射成一维的实数值，最后再根据此实数值的大小将所有数据样本各自存储到指定的存储服务器节点上。

假设待存储的数据集包含n′个数据样本，每一个样本的特征维度为d，详细存储步骤如下：

1)通过使用训练过程获得维度为d*d的转换矩阵A转换所有待存储数据样本的特征空间，转换后的数据集用X′表示：X′＝[Ax₁,...,Ax_n′]^T，其中x_i∈R^d，在存储过程中x_i表示待存储的第i个样本。

2)通过使用主成分分析(Principal Component Analysis，PCA)算法，我们将获得数据集矩阵X′的主成分矩阵P，该矩阵维度为d*k，k为自定义的哈希码长度。

3)计算X′*P获得n′*k维的矩阵N，矩阵N的第t行的k维向量代表数据样本集合中第t个样本。谱哈希算法假定矩阵N的第i列中的元素都均匀分布在[a_i,b_i]区间内，a_i和b_i分别表示矩阵N第i列元素中的最小值和最大值，虽然这个假定并不一定成立，但从算法效果来看，此假定大大的提高了哈希算法的计算效率和准确性。一维拉普拉斯矩阵的特征值λ_(i,θ)和特征函数Φ_(i,θ)定义为：

Φ_{(i, θ)} (x) = s i n (\frac{π}{2} + \frac{θ π}{b_{i} - a_{i}} (x - a_{i})) - - - (4)

λ_{(i, θ)} (x) = 1 - \exp (- \frac{ϵ^{2}}{2} {| \frac{θ π}{b_{i} - a_{i}} |}^{2}) - - - (5)

其中i∈{1,...,k}，θ∈{1,...,d}，ε是给定参数。把k*d个特征值从小到大排列，选取其中最小的k个特征值对应的特征函数，保存对应的参数。对于每一个样本，经哈希函数：便能得到表示该样本的k维哈希码。对于新来样本x_n′+j∈R^d，该样本的k位哈希码y_n′+j可由y_n′+j＝Ψ((Ax_n′+j)^TP)得到。

4)基于柯西分布的一致性哈希算法由本发明独创，目的在于将表示样本的k位哈希码映射成一个实数值，且使汉明距离较近的k位哈希码映射成较接近的实数值，并根据该实数值大小将样本存储到指定服务器节点上。具体为：与此柯西向量内积，最终得到一个实数值。根据该实数值在环中所处的位置，将此样本存储到指定的存储服务器节点上。

一致性哈希算法存储过程，如图3所示，node1、node2、node3表示三个存储服务器节点。训练集合中样本经映射形成的一维实数值构成了一个区间，用图3中大圆Min至Max表示。key1、key2、key3、key4表示四个处在区间中的实数值。假设当前所需存储的样本为sample1，sample1经哈希算法映射成实数值key1，key1沿顺时针方向查询，首先遇到的存储服务器节点为node1，则将样本sample1存储到node1中。同理，映射成key2的样本存储到node2，映射成key3与key4的样本存储到node3。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.分布式存储中基于随机梯度下降的谱哈希方法，其特征在于，包括如下步骤：

2.根据权利要求1所述分布式存储中基于随机梯度下降的谱哈希方法，其特征在于，所述目标函数的表达式为：

O_{i} (A) = \frac{1}{2} Σ_{j = 1}^{n} W_{i j} | | f_{i} - f_{j} | |^{2} - λ_{1} \underset{j &Element; N_{i}}{Σ} p_{i j} + \frac{λ_{2}}{n} T r ({AA}^{T}),

3.根据权利要求1所述分布式存储中基于随机梯度下降的谱哈希方法，其特征在于，所述转换矩阵的初始值为：I/δ，其中，I表示单位矩阵，δ表示训练集中样本间欧式距离的中位数。

4.根据权利要求1所述分布式存储中基于随机梯度下降的谱哈希方法，其特征在于，步骤4所述将指定维度的哈希码压缩成一个一维的实数值的方法为：在柯西分布中随机生成柯西向量，且该柯西向量的维度等于哈希码的指定维度，将指定维度的哈希码与该柯西向量内积，从而得到一维的实数值。

5.根据权利要求1所述分布式存储中基于随机梯度下降的谱哈希方法，其特征在于，步骤3所述利用转换矩阵对待存储数据集中的数据样本进行转换的方法为：利用转换矩阵乘以待存储数据集中的数据样本，从而得到转换后的数据样本。