CN110134714B - 适用于大数据迭代计算的分布式计算框架缓存索引方法 - Google Patents

适用于大数据迭代计算的分布式计算框架缓存索引方法 Download PDF

Info

Publication number
CN110134714B
CN110134714B CN201910428559.7A CN201910428559A CN110134714B CN 110134714 B CN110134714 B CN 110134714B CN 201910428559 A CN201910428559 A CN 201910428559A CN 110134714 B CN110134714 B CN 110134714B
Authority
CN
China
Prior art keywords
task
cache
data
distributed
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910428559.7A
Other languages
English (en)
Other versions
CN110134714A (zh
Inventor
宋杰
王傲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910428559.7A priority Critical patent/CN110134714B/zh
Publication of CN110134714A publication Critical patent/CN110134714A/zh
Application granted granted Critical
Publication of CN110134714B publication Critical patent/CN110134714B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种适用于大数据迭代计算的分布式计算框架缓存索引方法,涉及大数据环境下分布式计算框架技术领域。同一类型的迭代计算作业,从集群节点中获得若干历史执行日志并分析,获取每个集群节点的每个缓存数据块信息以及在该缓存数据块上执行的历史任务信息,构建分布式缓存索引;目标任务分发时,以目标任务的任务特征为输入,查找分布式缓存索引,确定目标任务所需数据所在节点的位置,完成任务分发;收集任务信息及任务使用的缓存数据信息,获得任务特征集合,加入缓存索引进行完善;如此反复,直到分布式缓存索引稳定。本发明充分利用历史任务的缓存,提高分布式缓存利用率,提高内存使用效率,加快迭代计算任务执行。

Description

适用于大数据迭代计算的分布式计算框架缓存索引方法
技术领域
本发明涉及大数据环境下分布式计算框架技术领域,尤其涉及一种适用于大数据迭代计算的分布式计算框架缓存索引方法。
背景技术
在大数据的背景下,越来越多的迭代计算应用于机器学习、数据挖掘、信息检索和推荐系统等领域。例如:著名的网页排名算法PageRank算法根据网页之间的链接关系,从任意迭代初始值开始,根据迭代函数更新每个网页的PageRank值直至收敛;K-Means算法,通过一个迭代过程,迭代更新数据聚类中心点(聚类代表),根据最终收敛的不动点结果来判定数据单元的聚类所属关系等;类似迭代算法还包括协同过滤(CollaborativeFiltering)算法、逻辑回归(Logistic Regression)算法等。由此可见,迭代算法有着非常广泛的应用范围。
大数据环境下,随着数据处理规模越来越大,需要多迭代步反复计算的迭代算法性能瓶颈尤为明显,大数据上的迭代算法的运行消耗完全超出了单服务器的承受极限,提高大数据环境下的迭代计算效率成为重要问题,使用分布式计算框架处理大规模数据集已成为目前数据处理的主要做法,Google实验室的MapReduce编程模型的优势集中体现在并行计算上,善于进行批处理模式的计算,然而对于迭代计算并没有提供直接的支持,如基于MapReduce模型开源的Hadoop,不能透明高效地支持迭代计算,甚至Hadoop的某些特性不适合迭代计算,随后基于MapReduce模型进行迭代计算改进,产生了支持迭代计算的分布式计算框架,如HaLoop、Twister、Spark等。然而目前的这些分布式计算框架在迭代计算方面,缓存的使用并不够高效,导致在计算时造成大量的计算资源的浪费和性能损失。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种适用于大数据迭代计算的分布式计算框架缓存索引方法,是一种适用于大数据迭代计算的分布式计算框架内存优化方法。其目的在于充分利用历史任务的缓存,提高分布式缓存利用率,提高内存使用效率,加快迭代计算任务执行。
为解决上述技术问题,本发明所采取的技术方案是:
一种适用于大数据迭代计算的分布式计算框架缓存索引方法,包括如下步骤:
步骤1、同一类型的迭代计算作业,分布式计算系统按照默认的任务分发方式,在集群中经执行多次后,从集群节点中获得若干历史执行日志,对节点的日志进行分析,获取每个集群节点的每个缓存数据块信息以及在该缓存数据块上执行的历史任务信息;
所述缓存数据块为背景数据或是中间数据;所述背景数据为在每一次迭代过程中都被使用同时在整个计算过程中保持不变的数据集;所述中间数据为每一次迭代后的执行结果,作为下一次迭代的输入数据;所述历史任务信息具体包括:任务特征集合F={f1,f2,…,fm},该集合中每个具体属性fj由具体的迭代算法决定,具体属性fj的取值为0或1,j=1,2,…,m,m表示由迭代算法所确定的属性数量;第i个节点上所有任务特征集合为
Figure GDA0002894637510000021
为节点id,节点数量为w;
Figure GDA0002894637510000022
表示第i个节点上的第q个任务特征集合,q=1,2,…,n;n表示第i个节点上的任务特征集合的个数;
步骤2、针对步骤1所述的同一类型的迭代计算作业,根据步骤1从日志中获得的信息,构建分布式缓存索引,步骤如下:
步骤2.1、选取满足局部敏感哈希条件的哈希函数;
步骤2.2、确定哈希表的个数t、每个哈希表内的哈希函数的个数f;
步骤2.3、将所有任务特征集合经过局部敏感哈希函数映射到相应的桶内,构成了多个哈希表;
步骤3、在同一类型的迭代计算作业再次执行过程中,目标任务分发时,以目标任务的任务特征为输入,查找分布式缓存索引;根据查询结果,确定目标任务所需数据所在节点的位置,完成任务分发;具体查找步骤如下:
步骤3.1、将查询的目标任务的特征集合经过局部敏感哈希函数映射得到相应的哈希码,即桶号;
步骤3.2、将桶号中对应的所有任务特征集合取出;
步骤3.3、计算查询的目标任务与桶中任务之间的相似度,使用Jaccard相似度计算两个任务特征集合的相似度,如下式所示,
Sim(Fx,Fy)=|Fx∩Fy|/|Fx∪Fy|
其中,Fx、Fy表示不同的任务特征集合,Sim(Fx,Fy)表示任务特征集合Fx和Fy的相似度;
根据计算得到的相似度,得到按相似度排序的任务特征集合,从而得到目标任务所需数据所在的候选节点,优先将任务分发到排列靠前的节点;相似度相同时的排序规则为集群节点的静态资源信息,所述静态资源信息包括CPU核数、内存大小;
所述候选节点必须是空闲节点,所以如果查询结果排列第一的节点非空闲,计算资源已经被占用完,不等待资源释放,立即将任务分发到查询结果排列第二的节点,依此类推;
步骤4、在每个任务执行结束的同时,收集任务信息及任务使用的缓存数据信息,获得任务特征集合,加入缓存索引中,从而完善分布式缓存索引,用于指导其他任务的分发,如此反复,直到分布式缓存索引稳定。
采用上述技术方案所产生的有益效果在于:本发明提供的一种适用于大数据迭代计算的分布式计算框架缓存索引方法,是面向迭代计算的分布式计算框架内存优化方法,通过对历史缓存构建分布式缓存索引,基于经验完成任务分发,最大化的满足了任务本地化需求,尽量地减少数据传输过程中本地和网络I/O代价,提高迭代计算性能。
附图说明
图1为本发明实施例提供的适用于大数据迭代计算的分布式计算框架缓存索引方法的流程图;
图2为本发明实施例提供的Spark集群系统架构图;
图3为本发明实施例提供的缓存索引结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本实施例提供的适用于大数据迭代计算的分布式计算框架缓存索引方法的流程图。
本实施例以Spark计算框架为例说明。Spark集群系统架构图如图2所示。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,是一个高效的分布式计算系统。启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark其工作重点是在提高基于内存的分布式系统的容错性能,虽然提供对迭代计算的支持,但对迭代计算的优化有限,Spark的核心思想就是充分利用内存作为缓存来实现不同阶段之间的数据共享,缓存是Spark构建迭代式算法的关键,因此对Spark的分布式缓存进行合理优化,从而对提高分布式缓存利用率,加快任务执行有着重大意义。
视任务所需数据和期望的访问位置为搜索目标,而所有数据及其副本以及存放位置为搜索范围,节点的现有资源(静态资源)为搜索约束(结果的排序规则),那么任务分发规则也可以视为实时搜索问题。而在大数据环境中完成类似的搜索是困难的,需要充分利用先验知识提高搜索性能,分布式计算框架将迭代循环中保持不变的数据以及多次重用的中间结果数据缓存,任务执行过后节点上会有大量的历史数据缓存信息,索引是可以缩小搜索空间的数据结构,对这些节点的分布式缓存构建索引,通过查找缓存索引,将不同迭代但访问数据相同的任务以较高的概率分发到具有缓存数据的相同物理节点上,快速确定分发节点,即基于经验完成任务分发,最大化的满足任务本地化需求,这样可以大大减少网络间数据传输带来的性能消耗。
局部敏感哈希(Locality-Sensitive Hashing,LSH)的基本思想是:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。即通过哈希函数映射变换操作,将原始数据集合分成了多个子集合,而每个子集合中的数据间是相邻的且该子集合中的元素个数较小。
哈希函数需要满足以下两个条件:
(1)如果d(x,y)≤d1,则h(x)=h(y)的概率至少为p1;
(2)如果d(x,y)≥d2,则h(x)=h(y)的概率至多为p2;
其中,d(x,y)表示x和y之间的距离,d1<d2,h(x)和h(y)分别表示对x和y进行hash变换。
满足以上两个条件的hash functions称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的hash function对原始数据集合进行hashing生成一个或多个hash table的过程称为Locality-sensitive Hashing。
通过选取合适的哈希函数,以较高的概率将相似度高的历史任务特征集合映射到同一个桶内,在目标任务分发时,可以快速找到与目标任务相似的一些任务,由相似任务所在节点,以较高概率确定目标任务所需缓存数据块在这些相似任务的节点上。
本实施例提供的适用于大数据迭代计算的分布式计算框架缓存索引方法,缓存索引结构示意图如图3所示,在Spark下具体步骤如下:
步骤1、在Spark分布式集群系统中,针对特定数据集,K-Means迭代计算作业按照Spark默认的任务分发方式,在集群中已经执行了很多次,从集群节点中获得若干历史执行日志,对节点的日志进行分析,获得每个节点缓存的背景数据RDD或是中间数据RDD数据上执行过的任务的任务特征集合,每个任务特征集合F={f1,f2,…,fm},m=32,每个节点的任务特征集合,如
Figure GDA0002894637510000041
n1为T1节点的任务特征集合总数,节点数量w=5,获得所有节点任务特征集合{T1,T2,...,T5},
Figure GDA0002894637510000042
Figure GDA0002894637510000043
步骤2、针对步骤1所述的K-Means迭代计算作业,根据步骤1从日志中获得的信息,构建分布式缓存索引;步骤如下:
步骤2.1、选取满足局部敏感哈希条件的哈希函数H={h1,h2...hx},x为哈希函数总数,本实施例中取x=50;
步骤2.2、确定哈希表的个数t=5,每个哈希表内的哈希函数的个数f=10,从H中随机选取;gi(F)=(h1(F),h2(F),.....,h10(F)),1≤i≤5,F为任务特征;
步骤2.3、将所有任务特征集合经过局部敏感哈希函数gi(F)映射到相应的桶内。
步骤3、在同一类型的K-Means迭代计算作业再次执行过程中,目标任务分发时,以目标任务的任务特征F为输入,查找分布式缓存索引;根据查询结果,确定目标任务所需数据所在节点的位置,完成任务分发;具体查找步骤如下:
步骤3.1、将查询的目标任务的特征集合F经过局部敏感哈希函数gi(F)映射得到相应的哈希码,即桶号bi,1≤i≤5;
步骤3.2、将所得桶号中对应的所有任务特征集合取出
Figure GDA0002894637510000051
步骤3.3、计算查询的目标任务与桶中任务之间的相似度,使用Jaccard相似度计算两个任务特征集合的相似度,如下式所示,
Sim(Fx,Fy)=|Fx∩Fy|/|Fx∪Fy|
根据相似度得到按相似度排序的任务特征集合
Figure GDA0002894637510000052
从而得到目标任务所需数据所在的候选节点,节点id依次为3、4、1、2、5;优先将任务分发到排列靠前的节点,相似度相同时的排序规则为集群节点的静态资源信息,包括CPU核数、内存大小;
因为此缓存索引不是确定的任务分发规则,不指定任务必须去某个节点,只是指导迭代计算环境中基于最优缓存命中率的任务分发,候选节点必须是空闲节点,所以如果查询结果排列第一的节点非空闲,计算资源已经被占用完,不等待资源释放,立即将任务分发到查询结果排列第二的节点,依此类推。
步骤4、在每个任务执行结束的同时,收集任务信息及任务使用的缓存数据信息,获得任务特征集合,加入缓存索引中,从而完善分布式缓存索引,用于指导其他任务的分发,如此反复,直到分布式缓存索引稳定。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (1)

1.一种适用于大数据迭代计算的分布式计算框架缓存索引方法,其特征在于:包括如下步骤:
步骤1、同一类型的迭代计算作业,分布式计算系统按照默认的任务分发方式,在集群中经执行多次后,从集群节点中获得若干历史执行日志,对节点的日志进行分析,获取每个集群节点的每个缓存数据块信息以及在该缓存数据块上执行的历史任务信息;
所述缓存数据块为背景数据或是中间数据;所述背景数据为在每一次迭代过程中都被使用同时在整个计算过程中保持不变的数据集;所述中间数据为每一次迭代后的执行结果,作为下一次迭代的输入数据;所述历史任务信息具体包括:任务特征集合F={f1,f2,…,fm},该集合中每个具体属性fj由具体的迭代算法决定,具体属性fj的取值为0或1,j=1,2,…,m,m表示由迭代算法所确定的属性数量;第i个节点上所有任务特征集合为
Figure FDA0002894637500000011
i为节点id,节点数量为w;
Figure FDA0002894637500000012
表示第i个节点上的第q个任务特征集合,q=1,2,…,n;n表示第i个节点上的任务特征集合的个数;
步骤2、针对步骤1所述的同一类型的迭代计算作业,根据步骤1从日志中获得的信息,构建分布式缓存索引,步骤如下:
步骤2.1、选取满足局部敏感哈希条件的哈希函数;
步骤2.2、确定哈希表的个数t、每个哈希表内的哈希函数的个数f;
步骤2.3、将所有任务特征集合经过局部敏感哈希函数映射到相应的桶内,构成了多个哈希表;
步骤3、在同一类型的迭代计算作业再次执行过程中,目标任务分发时,以目标任务的任务特征为输入,查找分布式缓存索引;根据查询结果,确定目标任务所需数据所在节点的位置,完成任务分发;具体查找步骤如下:
步骤3.1、将查询的目标任务的特征集合经过局部敏感哈希函数映射得到相应的哈希码,即桶号;
步骤3.2、将桶号中对应的所有任务特征集合取出;
步骤3.3、计算查询的目标任务与桶中任务之间的相似度,使用Jaccard相似度计算两个任务特征集合的相似度,如下式所示,
Sim(Fx,Fy)=|Fx∩Fy|/|Fx∪Fy|
其中,Fx、Fy表示不同的任务特征集合,Sim(Fx,Fy)表示任务特征集合Fx和Fy的相似度;
根据计算得到的相似度,得到按相似度排序的任务特征集合,从而得到目标任务所需数据所在的候选节点,优先将任务分发到排列靠前的节点;相似度相同时的排序规则为集群节点的静态资源信息,所述静态资源信息包括CPU核数、内存大小;
所述候选节点必须是空闲节点,所以如果查询结果排列第一的节点非空闲,计算资源已经被占用完,不等待资源释放,立即将任务分发到查询结果排列第二的节点,依此类推;
步骤4、在每个任务执行结束的同时,收集任务信息及任务使用的缓存数据信息,获得任务特征集合,加入缓存索引中,从而完善分布式缓存索引,用于指导其他任务的分发,如此反复,直到分布式缓存索引稳定。
CN201910428559.7A 2019-05-22 2019-05-22 适用于大数据迭代计算的分布式计算框架缓存索引方法 Expired - Fee Related CN110134714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910428559.7A CN110134714B (zh) 2019-05-22 2019-05-22 适用于大数据迭代计算的分布式计算框架缓存索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910428559.7A CN110134714B (zh) 2019-05-22 2019-05-22 适用于大数据迭代计算的分布式计算框架缓存索引方法

Publications (2)

Publication Number Publication Date
CN110134714A CN110134714A (zh) 2019-08-16
CN110134714B true CN110134714B (zh) 2021-04-20

Family

ID=67572368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910428559.7A Expired - Fee Related CN110134714B (zh) 2019-05-22 2019-05-22 适用于大数据迭代计算的分布式计算框架缓存索引方法

Country Status (1)

Country Link
CN (1) CN110134714B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968426B (zh) * 2019-11-29 2022-02-22 西安交通大学 一种基于在线学习的边云协同k均值聚类的模型优化方法
CN110912272B (zh) * 2019-12-03 2023-02-21 合肥工业大学 基于区域性异常模式识别的城市电网故障检测方法和系统
CN113094243A (zh) * 2020-01-08 2021-07-09 北京小米移动软件有限公司 节点性能检测方法和装置
CN111538681B (zh) * 2020-03-25 2022-11-01 武汉理工大学 Spark平台下基于最大化缓存增益的缓存替换方法
CN111897877B (zh) * 2020-08-12 2024-03-26 浪潮软件股份有限公司 基于分布式思想的高性能高可靠数据共享系统及方法
CN112612787A (zh) * 2020-12-08 2021-04-06 深圳大学 一种面向大数据的索引优化方法
CN112819570B (zh) * 2021-01-21 2023-09-26 东北大学 一种基于机器学习的商品智能搭配推荐方法
CN113434548B (zh) * 2021-06-25 2022-06-17 北京理工大学 一种基于Spark的大规模数据流分析方法及系统
CN113312359B (zh) * 2021-06-28 2023-04-07 北京筑云慧建软件技术有限公司 一种分布式作业进度计算方法、装置和存储介质
CN113535528B (zh) * 2021-06-29 2023-08-08 中国海洋大学 面向分布式图迭代计算作业的日志管理系统、方法及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035949A (zh) * 2013-12-10 2014-09-10 南京信息工程大学 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN104462196A (zh) * 2014-10-30 2015-03-25 南京信息工程大学 多特征联合哈希信息检索方法
KR101540012B1 (ko) * 2013-11-22 2015-07-28 한국과학기술정보연구원 불변 데이터를 자동 검출하는 맵리듀스 순환 처리 장치 및 방법
CN105718244A (zh) * 2016-01-18 2016-06-29 上海交通大学 一种流水化数据洗牌传输的Spark任务调度与执行方法
CN107122238A (zh) * 2017-04-25 2017-09-01 郑州轻工业学院 基于Hadoop云计算框架的高效迭代机制设计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552408B2 (en) * 2014-01-24 2017-01-24 Facebook, Inc. Nearest neighbor clustering determination and estimation algorithm that hashes centroids into buckets and redistributes vectors between clusters

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101540012B1 (ko) * 2013-11-22 2015-07-28 한국과학기술정보연구원 불변 데이터를 자동 검출하는 맵리듀스 순환 처리 장치 및 방법
CN104035949A (zh) * 2013-12-10 2014-09-10 南京信息工程大学 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN104462196A (zh) * 2014-10-30 2015-03-25 南京信息工程大学 多特征联合哈希信息检索方法
CN105718244A (zh) * 2016-01-18 2016-06-29 上海交通大学 一种流水化数据洗牌传输的Spark任务调度与执行方法
CN107122238A (zh) * 2017-04-25 2017-09-01 郑州轻工业学院 基于Hadoop云计算框架的高效迭代机制设计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Rim: A reusable iterative model for big data;Song Jie等;《KNOWLEDGE-BASED SYSTEMS》;20180801;全文 *
The HaLoop approach to large-scale iterative data analysis;Yingyi Bu等;《The VLDB Journal》;20120314;全文 *
基于Spark的归并迭代研究及在金融分析中的应用;黄旭峰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190215;全文 *

Also Published As

Publication number Publication date
CN110134714A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110134714B (zh) 适用于大数据迭代计算的分布式计算框架缓存索引方法
US11416268B2 (en) Aggregate features for machine learning
EP1738290B1 (en) Partial query caching
CN110990638A (zh) 基于fpga-cpu异构环境的大规模数据查询加速装置及方法
Lin et al. Website reorganization using an ant colony system
CN110909111B (zh) 基于知识图谱rdf数据特征的分布式存储与索引方法
Ordentlich et al. Network-efficient distributed word2vec training system for large vocabularies
CN101739398A (zh) 分布式数据库多连接查询优化算法
CN112015741A (zh) 一种海量数据的分库分表存储方法与装置
CN105550332A (zh) 一种基于双层索引结构的起源图查询方法
Eghbali et al. Online nearest neighbor search using hamming weight trees
CN106156171B (zh) 一种面向虚拟资产数据的查询优化方法
Hu et al. Approximation with error bounds in spark
CN113918807A (zh) 数据推荐方法、装置、计算设备及计算机可读存储介质
Djenouri et al. GPU-based swarm intelligence for Association Rule Mining in big databases
Elmeiligy et al. An efficient parallel indexing structure for multi-dimensional big data using spark
Chen et al. DBSCAN-PSM: an improvement method of DBSCAN algorithm on Spark
Cheng et al. FastMFDs: a fast, efficient algorithm for mining minimal functional dependencies from large-scale distributed data with Spark
Abdolazimi et al. Connected components of big graphs in fixed mapreduce rounds
Muhammad et al. Multi query optimization algorithm using semantic and heuristic approaches
Wu et al. Mining skyline patterns from big data environments based on a spark framework
Watari et al. Efficient aggregation query processing for large-scale multidimensional data by combining RDB and KVS
Hsieh et al. Data partition optimisation for column-family nosql databases
Hao et al. An Association‐Oriented Partitioning Approach for Streaming Graph Query
JPH10269225A (ja) データベース分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210420