CN105843555A - 分布式存储中基于随机梯度下降的谱哈希方法 - Google Patents

分布式存储中基于随机梯度下降的谱哈希方法 Download PDF

Info

Publication number
CN105843555A
CN105843555A CN201610159340.8A CN201610159340A CN105843555A CN 105843555 A CN105843555 A CN 105843555A CN 201610159340 A CN201610159340 A CN 201610159340A CN 105843555 A CN105843555 A CN 105843555A
Authority
CN
China
Prior art keywords
sample
data
gradient descent
matrix
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610159340.8A
Other languages
English (en)
Other versions
CN105843555B (zh
Inventor
胡海峰
朱力
吴建盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610159340.8A priority Critical patent/CN105843555B/zh
Publication of CN105843555A publication Critical patent/CN105843555A/zh
Application granted granted Critical
Publication of CN105843555B publication Critical patent/CN105843555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了分布式存储中基于随机梯度下降的谱哈希方法,该方法在语义一致的谱哈希算法的基础上,利用随机梯度下降减少算法训练时间,且进一步提出基于柯西分布的一致性哈希算法并利用该算法将每一个数据项压缩成一个一维的实数值。这样便能利用一致性哈希的思想,在动态的网络拓扑中实现分布式存储,且使相似的数据项存储在相同的或者相近的存储服务器节点。本发明的方法使得每个存储服务器节点仅需要维护少量近邻节点的信息,当服务器节点加入或者退出系统时,仅有少量相关节点参与到拓扑的维护之中,提高了收敛速度和存储准确性。

Description

分布式存储中基于随机梯度下降的谱哈希方法
技术领域
本发明涉及分布式存储中基于随机梯度下降的谱哈希方法,属于分布式存储技术领域。
背景技术
近年来,随着信息技术的蓬勃发展,互联网上业务不断地扩张,用户不断地增长,存储空间不断地增大,数据呈现出无法想象的增长趋势。然而存储容量往往同存储性能成反比,传统数据库在应付海量数据时显得十分吃力,暴露出并发性低、扩展性差、效率低下等问题,不能满足大数据时代数据爆炸的需求。为此,新环境下对存储技术提出了新的要求:可扩展性、数据可靠性、高性能、易管理性、绿色节能。
分布式存储技术就是当前存储技术的研究热点之一。分布式存储系统将数据分散存储在多台独立的设备上,采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,这样的做法不但提高了系统的可靠性、可用性和存取效率,还易于扩展。在对等环境(P2P)中,分布式存储产生的一个关键问题就是如何在动态的网络拓扑中分布存储和路由,麻省理工学院提出的一致性哈希算法基本解决了这个关键问题。通过使用一致性哈希算法,每个服务器节点仅需要维护少量近邻节点的信息,并且在节点加入或退出系统时,仅有相关的少量节点参与到拓扑的维护中,然而研究者们并未提出有效用于一致性哈希的映射算法使得同一个存储服务器节点存储的都是内容相似或相同的数据。
云存储是在云计算概念上延伸和发展出来的一个新的概念,是一种新兴的网络存储技术,是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。在分布式存储环境下,精确近邻存储需要遍历所有服务器所存储的数据,然而这种做法的实现代价太大以致不可实现。若我们能将内容相似的数据存储到相近或者相同的存储服务器节点,那么每次查询一类数据时我们便只需在某一个或某几个服务器中查询相关数据,大大节省了搜索时间。
谱哈希(Spectral Hashing,SH)是近年来非常流行的一种压缩映射算法,因其不错的搜索效率以及较强的高维适应性而被广泛应用于各个领域。谱哈希的基本思想是通过一组哈希函数,对数据进行压缩映射,使相似的输入数据映射成汉明距离相近的哈希码。但是,传统谱哈希技术只考虑了数据特征空间的欧式关系,这样的做法并未完全考虑数据间的内在联系。
发明内容
本发明所要解决的技术问题是:提供分布式存储中基于随机梯度下降的谱哈希方法,将相似的数据存储在相同或相近的存储服务器节点上,解决了数据的分布式存储问题。
本发明为解决上述技术问题采用以下技术方案:
分布式存储中基于随机梯度下降的谱哈希方法,包括如下步骤:
步骤1,根据给定的训练集样本矩阵以及对应的训练集标记矩阵,利用语义一致图的谱哈希算法构建转换矩阵的目标函数,该转换矩阵表示训练集样本矩阵中各样本之间的潜在关系;
步骤2,利用随机梯度下降算法迭代求解步骤1的目标函数,得到使目标函数的损失函数最小的转换矩阵;
步骤3,待存储数据集中各数据样本的维度与训练集中各样本的维度相同,利用步骤2得到的转换矩阵对待存储数据集中的数据样本进行转换,并对转换后的数据样本利用随机梯度下降算法,将数据样本压缩成指定维度的哈希码,且该指定维度小于数据样本的维度;
步骤4,利用柯西分布的一致性哈希算法,将步骤3得到的指定维度的哈希码压缩成一个一维的实数值,根据该实数值的大小将对应的数据样本存储到指定的服务器节点上。
作为本发明的一种优选方案,所述目标函数的表达式为:
O i ( A ) = 1 2 Σ j = 1 n W i j | | f i - f j | | 2 - λ 1 Σ j ∈ N i p i j + λ 2 n T r ( AA T ) ,
其中,Wij=exp(-||A(xi-xj)||2),A表示转换矩阵,xi和xj分别表示训练集中第i和第j个样本,n表示训练集中样本总个数,fi和fj分别表示第i和第j个样本的标记向量,Ni表示样本xi的近邻集合,λ1和λ2分别表示两个自定的参数值,pij表示样本xj作为样本xi近邻的概率,||·||表示2范数,Tr表示矩阵的迹,T表示转置。
作为本发明的一种优选方案,所述转换矩阵的初始值为:I/δ,其中,I表示单位矩阵,δ表示训练集中样本间欧式距离的中位数。
作为本发明的一种优选方案,步骤4所述将指定维度的哈希码压缩成一个一维的实数值的方法为:在柯西分布中随机生成柯西向量,且该柯西向量的维度等于哈希码的指定维度,将指定维度的哈希码与该柯西向量内积,从而得到一维的实数值。
作为本发明的一种优选方案,步骤3所述利用转换矩阵对待存储数据集中的数据样本进行转换的方法为:利用转换矩阵乘以待存储数据集中的数据样本,从而得到转换后的数据样本。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明解决了语义一致图的谱哈希算法收敛速度过慢和陷入局部最优的问题,通过最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得损失函数值最小的参数;使用随机梯度下降算法不需要完遍历整个数据集就可以达到收敛,收敛速度较快。
2、本发明通过对原始谱哈希算法的改进得到语义一致图的谱哈希算法,使得搜索效率和高维适应性更加优越,将该算法应用在分布式存储中,提高了在分布式环境中相似性存储的准确度。
3、本发明解决了用于分布式存储的简单哈希算法带来的平衡性差、单调性差、分散性差、负载不均衡的问题,将表示样本的多维哈希码映射成一维的实数值,利用一致性哈希算法的思想将相似的数据存储到相同或相近的存储服务器节点中。
附图说明
图1是本发明分布式存储中基于随机梯度下降的谱哈希方法的整体架构图。
图2是本发明分布式存储中基于随机梯度下降的谱哈希方法的流程图。
图3是本发明中基于柯西分布的一致性哈希算法的示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明在语义一致图的谱哈希算法(Spectral Hashing with Semantically Consistent Graph)的基础上,利用随机梯度下降(Stochastic Gradient Descent,SGD)减少算法训练时间,且进一步提出基于柯西分布的一致性哈希算法并利用该算法将每一个数据项压缩成一个一维的实数值。这样便能利用一致性哈希的思想,在动态的网络拓扑中实现分布式存储,且使相似的数据项存储在相同的或相近的存储服务器节点。
语义一致图的谱哈希算法:是一种对数据的压缩映射方法,其基本思想是通过k个哈希函数,将数据压缩映射成k位哈希码(01码),并使相似的输入数据映射成汉明距离相近的哈希码。
随机梯度下降算法(SGD):作为梯度下降(Gradient Descent,GD)算法的改进算法,其主要针对原始梯度下降算法收敛速度过慢和易陷入局部最优的问题,是一种最小化损失函数或风险函数的迭代求解方法。本发明利用随机梯度下降算法减少语义一致图的谱哈希算法训练时间。
基于柯西分布的一致性哈希算法:本发明应用一致性哈希算法的思想,使得本发明的哈希映射算法在动态变化的分布式存储环境中具备了四个适应条件:平衡性、单调性、分散性、负载均衡。通过语义一致图的谱哈希算法,原始数据被压缩映射成k维的哈希码,再通过基于柯西分布的一致性哈希算法可以将这k维的哈希码映射成一个一维的实数值。该算法的映射空间本质上就是一个实数区间,这样便可在动态的网络拓扑中分布存储和路由。
如图1、图2所示,本发明提供一种在分布式存储中基于随机梯度下降的谱哈希方法,该方法主要分成两个部分:训练过程和存储过程。
1、训练过程
训练过程主要根据语义一致图的谱哈希算法思想建模并获得下一过程所需的转换矩阵,此转换矩阵反映了数据样本间潜在的关系,训练过程中本发明采用随机梯度下降(SGD)算法减少求解时间。若训练集数据的特征维度为d维,那么经训练过程得到的转换矩阵是d行d列的方阵。
语义一致图谱哈希算法的基本思想是将数据的特征维度由初始的d维压缩映射成k维的哈希码,并使相似的输入数据映射成汉明距离相近的哈希码。具体来说,若训练集中包含n个训练样本,该谱哈希算法定义样本间的关系矩阵W是一个n*n的矩阵,关系矩阵中的每一个元素定义为:
Wij=exp(-||A(xi-xj)||2) (1)
上式中A表示转换矩阵,xi和xj分别表示训练集中第i个样本和第j个样本,为了训练得到具备反映数据项之间潜在关系的转换矩阵A,本发明使用随机梯度下降(SGD)算法改进语义一致图的谱哈希算法,并定义目标函数为:
O i ( A ) = 1 2 Σ j = 1 n W i j | | f i - f j | | 2 - λ 1 Σ j ∈ N i p i j + λ 2 n T r ( AA T ) - - - ( 2 )
SGD算法要求每次迭代前先随机选择一个样本(训练集的第i个样本),上述目标函数中fi和fj分别表示第i个样本和第j个样本的标记向量(标记向量是c维的列向量,c是标记的个数,向量中的元素为1或0,分别表示样本具备或不具备这个标记),Ni表示样本xi(d维的列向量)的近邻集合(根据欧式距离确定),λ1和λ2是两个自定的参数值(可选取以下值:0.01、0.1、0.5、1、5),pij表示样本xj作为样本xi近邻的概率并定义为:
p i j = exp ( - | | A ( x i - x j ) | | 2 ) Σ k ≠ i exp ( - | | A ( x i - x k ) | | 2 ) , p i i = 0 - - - ( 3 )
训练过程的目标就是最小化目标函数即式(2)迭代求解出最优的转换矩阵A。本发明使用随机梯度下降算法取代语义一致图的谱哈希算法使用的梯度下降算法用以加速目标函数的收敛,从而减少了训练过程的时间。转换矩阵初始化为I/δ,I是d*d的单位矩阵,δ是训练集样本间欧式距离的中位数。目标函数值收敛后输出转换矩阵A,训练过程结束。
2、存储过程
存储过程主要通过使用训练过程获得的转换矩阵A转换所有待存储数据样本的特征空间,然后使用谱哈希算法将样本压缩映射成k维的01哈希码,再通过使用本发明所创的基于柯西分布的一致性哈希算法将代表样本的k维的哈希码映射成一维的实数值,最后再根据此实数值的大小将所有数据样本各自存储到指定的存储服务器节点上。
假设待存储的数据集包含n′个数据样本,每一个样本的特征维度为d,详细存储步骤如下:
1)通过使用训练过程获得维度为d*d的转换矩阵A转换所有待存储数据样本的特征空间,转换后的数据集用X′表示:X′=[Ax1,...,Axn′]T,其中xi∈Rd,在存储过程中xi表示待存储的第i个样本。
2)通过使用主成分分析(Principal Component Analysis,PCA)算法,我们将获得数据集矩阵X′的主成分矩阵P,该矩阵维度为d*k,k为自定义的哈希码长度。
3)计算X′*P获得n′*k维的矩阵N,矩阵N的第t行的k维向量代表数据样本集合中第t个样本。谱哈希算法假定矩阵N的第i列中的元素都均匀分布在[ai,bi]区间内,ai和bi分别表示矩阵N第i列元素中的最小值和最大值,虽然这个假定并不一定成立,但从算法效果来看,此假定大大的提高了哈希算法的计算效率和准确性。一维拉普拉斯矩阵的特征值λ(i,θ)和特征函数Φ(i,θ)定义为:
Φ ( i , θ ) ( x ) = s i n ( π 2 + θ π b i - a i ( x - a i ) ) - - - ( 4 )
λ ( i , θ ) ( x ) = 1 - exp ( - ϵ 2 2 | θ π b i - a i | 2 ) - - - ( 5 )
其中i∈{1,...,k},θ∈{1,...,d},ε是给定参数。把k*d个特征值从小到大排列,选取其中最小的k个特征值对应的特征函数,保存对应的参数。对于每一个样本,经哈希函数:便能得到表示该样本的k维哈希码。对于新来样本xn′+j∈Rd,该样本的k位哈希码yn′+j可由yn′+j=Ψ((Axn′+j)TP)得到。
4)基于柯西分布的一致性哈希算法由本发明独创,目的在于将表示样本的k位哈希码映射成一个实数值,且使汉明距离较近的k位哈希码映射成较接近的实数值,并根据该实数值大小将样本存储到指定服务器节点上。具体为:与此柯西向量内积,最终得到一个实数值。根据该实数值在环中所处的位置,将此样本存储到指定的存储服务器节点上。
一致性哈希算法存储过程,如图3所示,node1、node2、node3表示三个存储服务器节点。训练集合中样本经映射形成的一维实数值构成了一个区间,用图3中大圆Min至Max表示。key1、key2、key3、key4表示四个处在区间中的实数值。假设当前所需存储的样本为sample1,sample1经哈希算法映射成实数值key1,key1沿顺时针方向查询,首先遇到的存储服务器节点为node1,则将样本sample1存储到node1中。同理,映射成key2的样本存储到node2,映射成key3与key4的样本存储到node3。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (5)

1.分布式存储中基于随机梯度下降的谱哈希方法,其特征在于,包括如下步骤:
步骤1,根据给定的训练集样本矩阵以及对应的训练集标记矩阵,利用语义一致图的谱哈希算法构建转换矩阵的目标函数,该转换矩阵表示训练集样本矩阵中各样本之间的潜在关系;
步骤2,利用随机梯度下降算法迭代求解步骤1的目标函数,得到使目标函数的损失函数最小的转换矩阵;
步骤3,待存储数据集中各数据样本的维度与训练集中各样本的维度相同,利用步骤2得到的转换矩阵对待存储数据集中的数据样本进行转换,并对转换后的数据样本利用随机梯度下降算法,将数据样本压缩成指定维度的哈希码,且该指定维度小于数据样本的维度;
步骤4,利用柯西分布的一致性哈希算法,将步骤3得到的指定维度的哈希码压缩成一个一维的实数值,根据该实数值的大小将对应的数据样本存储到指定的服务器节点上。
2.根据权利要求1所述分布式存储中基于随机梯度下降的谱哈希方法,其特征在于,所述目标函数的表达式为:
O i ( A ) = 1 2 Σ j = 1 n W i j | | f i - f j | | 2 - λ 1 Σ j ∈ N i p i j + λ 2 n T r ( AA T ) ,
其中,Wij=exp(-||A(xi-xj)||2),A表示转换矩阵,xi和xj分别表示训练集中第i和第j个样本,n表示训练集中样本总个数,fi和fj分别表示第i和第j个样本的标记向量,Ni表示样本xi的近邻集合,λ1和λ2分别表示两个自定的参数值,pij表示样本xj作为样本xi近邻的概率,||·||表示2范数,Tr表示矩阵的迹,T表示转置。
3.根据权利要求1所述分布式存储中基于随机梯度下降的谱哈希方法,其特征在于,所述转换矩阵的初始值为:I/δ,其中,I表示单位矩阵,δ表示训练集中样本间欧式距离的中位数。
4.根据权利要求1所述分布式存储中基于随机梯度下降的谱哈希方法,其特征在于,步骤4所述将指定维度的哈希码压缩成一个一维的实数值的方法为:在柯西分布中随机生成柯西向量,且该柯西向量的维度等于哈希码的指定维度,将指定维度的哈希码与该柯西向量内积,从而得到一维的实数值。
5.根据权利要求1所述分布式存储中基于随机梯度下降的谱哈希方法,其特征在于,步骤3所述利用转换矩阵对待存储数据集中的数据样本进行转换的方法为:利用转换矩阵乘以待存储数据集中的数据样本,从而得到转换后的数据样本。
CN201610159340.8A 2016-03-18 2016-03-18 分布式存储中基于随机梯度下降的谱哈希方法 Active CN105843555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610159340.8A CN105843555B (zh) 2016-03-18 2016-03-18 分布式存储中基于随机梯度下降的谱哈希方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610159340.8A CN105843555B (zh) 2016-03-18 2016-03-18 分布式存储中基于随机梯度下降的谱哈希方法

Publications (2)

Publication Number Publication Date
CN105843555A true CN105843555A (zh) 2016-08-10
CN105843555B CN105843555B (zh) 2018-11-02

Family

ID=56587499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610159340.8A Active CN105843555B (zh) 2016-03-18 2016-03-18 分布式存储中基于随机梯度下降的谱哈希方法

Country Status (1)

Country Link
CN (1) CN105843555B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509651A (zh) * 2018-04-17 2018-09-07 胡海峰 基于语义一致性的具有隐私保护的分布式近似性搜索方法
CN108829517A (zh) * 2018-05-31 2018-11-16 中国科学院计算技术研究所 一种用于在集群环境下进行机器学习的训练方法和系统
CN110929884A (zh) * 2019-11-22 2020-03-27 北京大学 一种基于列划分的分布式机器学习优化的分类方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894130A (zh) * 2010-06-08 2010-11-24 浙江大学 基于稀疏降维的谱哈希索引方法
CN104376051A (zh) * 2014-10-30 2015-02-25 南京信息工程大学 随机结构保形哈希信息检索方法
CN104765872A (zh) * 2014-11-19 2015-07-08 中国石油大学(华东) 一种基于集成哈希编码的快速图像检索方法
CN104881449A (zh) * 2015-05-15 2015-09-02 西安电子科技大学 基于流形学习数据压缩哈希的图像检索方法
US20150317537A1 (en) * 2014-05-05 2015-11-05 Dako Denmark A/S Method and Apparatus for Image Scoring and Analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894130A (zh) * 2010-06-08 2010-11-24 浙江大学 基于稀疏降维的谱哈希索引方法
US20150317537A1 (en) * 2014-05-05 2015-11-05 Dako Denmark A/S Method and Apparatus for Image Scoring and Analysis
CN104376051A (zh) * 2014-10-30 2015-02-25 南京信息工程大学 随机结构保形哈希信息检索方法
CN104765872A (zh) * 2014-11-19 2015-07-08 中国石油大学(华东) 一种基于集成哈希编码的快速图像检索方法
CN104881449A (zh) * 2015-05-15 2015-09-02 西安电子科技大学 基于流形学习数据压缩哈希的图像检索方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509651A (zh) * 2018-04-17 2018-09-07 胡海峰 基于语义一致性的具有隐私保护的分布式近似性搜索方法
CN108829517A (zh) * 2018-05-31 2018-11-16 中国科学院计算技术研究所 一种用于在集群环境下进行机器学习的训练方法和系统
CN108829517B (zh) * 2018-05-31 2021-04-06 中国科学院计算技术研究所 一种用于在集群环境下进行机器学习的训练方法和系统
CN110929884A (zh) * 2019-11-22 2020-03-27 北京大学 一种基于列划分的分布式机器学习优化的分类方法及装置
CN110929884B (zh) * 2019-11-22 2023-05-16 北京大学 一种基于列划分的分布式机器学习优化的分类方法及装置

Also Published As

Publication number Publication date
CN105843555B (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN102521386B (zh) 基于集群存储的空间元数据分组方法
CN103412883B (zh) 基于p2p技术的语义智能信息发布订阅方法
CN112765490A (zh) 一种基于知识图谱和图卷积网络的信息推荐方法及系统
CN105843555B (zh) 分布式存储中基于随机梯度下降的谱哈希方法
CN104933143A (zh) 获取推荐对象的方法及装置
CN101667200B (zh) 一种p2p环境中的窗口查询方法
CN108959427A (zh) 基于经验拟合的局部敏感哈希图像检索参数优化方法
CN102831225A (zh) 云环境下的多维索引结构、其构建方法及相似性查询方法
CN107169114A (zh) 一种海量数据多维排序搜索方法
Nodarakis et al. (A) kNN query processing on the cloud: a survey
CN112148830A (zh) 一种基于最大区域网格的语义数据存储与检索的方法及装置
Khettabi et al. Qccf-tree: A new efficient iot big data indexing method at the fog-cloud computing level
CN109213874A (zh) 一种wmsn区块链的多媒体混合数据近似近邻二元查询方法
Li et al. Efficient clustering index for semantic Web service based on user preference
Gao et al. U 2-Tree: A Universal Two-Layer Distributed Indexing Scheme for Cloud Storage System
Zhou et al. Accurate querying of frequent subgraphs in power grid graph data
Zhou et al. Large scale nearest neighbors search based on neighborhood graph
Doulkeridis et al. Multidimensional routing indices for efficient distributed query processing
Xu et al. SOMH: A self-organizing map based topology preserving hashing method
Ma et al. An efficient similarity join approach on large‐scale high‐dimensional data using random projection
Chen et al. DisITQ: A distributed iterative quantization hashing learning algorithm
Leng et al. BRDPHHC: a balance RDF data partitioning algorithm based on hybrid hierarchical clustering
Dazzi et al. Experiences with complex user profiles for approximate p2p community matching
Luo et al. Accelerate data retrieval by multi-dimensional indexing in switch-centric data centers
Wang et al. Delay‐bounded skyline computing for large‐scale real‐time online data analytics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant