CN104077398A - 基于Hadoop多丛集环境的工作分派系统及方法 - Google Patents

基于Hadoop多丛集环境的工作分派系统及方法 Download PDF

Info

Publication number
CN104077398A
CN104077398A CN201410310934.5A CN201410310934A CN104077398A CN 104077398 A CN104077398 A CN 104077398A CN 201410310934 A CN201410310934 A CN 201410310934A CN 104077398 A CN104077398 A CN 104077398A
Authority
CN
China
Prior art keywords
module
gathering together
equation
eigenmatrix
gathering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410310934.5A
Other languages
English (en)
Other versions
CN104077398B (zh
Inventor
林威廷
黄俊翔
林修民
黄瀞莹
蔡庆堂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chunghwa Telecom Co Ltd
Original Assignee
Chunghwa Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chunghwa Telecom Co Ltd filed Critical Chunghwa Telecom Co Ltd
Priority to CN201410310934.5A priority Critical patent/CN104077398B/zh
Publication of CN104077398A publication Critical patent/CN104077398A/zh
Application granted granted Critical
Publication of CN104077398B publication Critical patent/CN104077398B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Abstract

一种基于Hadoop多丛集环境的工作分派的系统及方法,应用在多个大量数据处理的分布式计算机丛集,能够根据执行程序特征,待处理数据特性,与计算机丛集的动态行为,选择最佳的执行环境;可以降低不同运算特性的工作的排程等待时间,有效的加快运算分析的速度,并提升整体资源使用效率。该系统包括丛集监控模块、丛集特征模块、工作数据分析模块、工作程序分析模块以及执行环境选择模块。该方法通过掌握丛集特征、监控丛集运作情形、分析运算数据特性与程序运算特性等影响参数,进而运算比对找出最合适的丛集,再通过执行环境选择模块找到对应的丛集,并将用户工作,包含用户程序与输入数据派送到对应的丛集中执行。

Description

基于Hadoop多丛集环境的工作分派系统及方法
技术领域
本发明涉及计算机丛集技术领域,特别涉及一种基于Hadoop多丛集环境的工作分派系统及方法。
背景技术
近年来因为大量的信息化,使得一般企业与政府机构面对的是爆炸性成长的数据量,无论是在数据储存、数据库或数据检索与数据探勘的领域中,都遭遇相同的问题,数据过滤与整理的庞大且耗时的工作,已无法由一台超级计算机负荷,转而导向通过大量的群组计算机同时进行运算,进而获得最大的效益。现今的信息领域采用云端服务的技术提供分布式计算来解决上述的问题,其中又以Apache Hadoop为主要的开放原始码解决方案之一。
Hadoop实做出一个分布式计算的处理框架概念称为MapReduce,通过将对数据进行的运算工作分发给网络上的每个节点处理,每个节点会周期性的把完成的工作和状态的更新报告回来,进而达成大规模的数据运算分析。在此处理框架之下,工作的排程与分派预设为FIFO(First In First Out)算法,虽然架构上简单,却因此忽略运算工作本质上需求的差异,可能造成某项工作长期占用资源的情况。此外,系统参数的调校是否能与运算工作本质上的需求相符合,也是另一项在Hadoop系统当中相当重要的因素,但是若需要满足此项条件,使用者往往需要针对不同的运算工作重新设定整体系统环境参数,以便让整体系统的效能与运作可以配合运算工作的需求。由此可见,上述传统的方法仍有诸多缺失。
发明内容
本发明的目的即在于提供一种装置与系统,特别是应用在多个大量数据处理的分布式计算机丛集,能够根据执行程序特征,待处理数据特性,与计算机丛集的动态行为,选择最佳的执行环境。可以降低不同运算特性的工作的排程等待时间,有效的加快运算分析的速度,并提升整体资源使用效率。
可达成上述发明目的的基于Hadoop多丛集环境的工作分派系统及方法,利用一组丛集特征与监控模块、工作数据与程序分析模块以及执行环境选择模块的结合,提供优化的Hadoop多丛集环境工作分派系统给用户执行大数据运算服务。其方法通过掌握丛集特征、监控丛集运作情形、分析运算数据特性与程序运算特性等影响参数,进而运算比对找出最合适的丛集,再通过执行环境选择模块找到对应的丛集,并将用户工作,包含用户程序与输入数据派送到对应的丛集中执行。
附图说明
图1为本发明的基于Hadoop多丛集环境的工作分派系统架构图;
图2为本发明基于Hadoop多丛集环境的工作分派系统的运作流程图;
图3为本发明基于Hadoop多丛集环境的工作分派系统的执行环境选择流程图。
附图标记说明:
1工作分派系统
11特征数据库模块
12丛集特征模块
13丛集监控模块
14工作数据分析模块
15工作程序分析模块
16执行环境选择模块
2用户操作接口
3客户程序
4输入数据
5迷你丛集
6主机丛集
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本发明进行进一步详细说明:
如图1所示,为本发明基于Hadoop多丛集环境的工作分派系统的一种实施范例的架构示意图,包括:
特征数据库模块11,用以储存丛集特征模块12、丛集监控模块13、工作数据分析模块14、工作程序分析模块15的矩阵方程式;
丛集特征模块12,用以收集丛集中不会随着时间改变的静态特征,并以丛集静态特征矩阵方程式来描述其收集到的静态特征;
丛集监控模块13,用以定期收集每个丛集的动态特征,并分析动态特征曲线,以建立丛集动态特征矩阵方程式来描述丛集特征分析结果;
工作数据分析模块14,用以收集工作执行中不会随着时间改变的静态特征,并以工作静态特征矩阵方程式来描述其收集到的静态特征;
工作程序分析模块15,用以分析用户程序在执行时使用资源的情形,主要用以建立工作动态特征矩阵方程式来描述用户程序行为特征;
执行环境选择模块16,用以由工作程序分析模块15与丛集特征模块12建立的矩阵方程式中选出最适合用户工作的丛集,并将其送往对应的丛集。
本发明基于Hadoop多丛集环境的工作分派系统运作流程如图2所示,客户将其工作(包含客户程序3与输入数据4)通过用户操作接口2送至Hadoop多丛集环境的工作分派系统1,工作分派系统1由客户工作特性与各主机丛集6特性找出最适合的丛集在将其送往此丛集执行,工作分派系统1中各个模块的说明如下。
首先,丛集监控模块13定期收集每个丛集的动态特征(例如CPU频率(GHz)、Disk空间、Memory的使用量),并针对动态特征曲线进行分析,将分析结果转换成丛集动态特征矩阵方程式,再储存在特征数据库模块11。举例来说,定期收集N个丛集(C1…CN)的n个动态特征,如每秒CPU频率(GHz)的使用量(%)、Disk空间的使用量(%)等,并以矩阵表示:
Ci=[CPU使用量(%)Disk空间使用量(%)…]n×k,1≤i≤N  (1)
每个丛集各取时间间隔(t1~tk),其中k为间隔总数,计算出每个时间间隔的平均使用量,并以n×k矩阵表示:
Cd a i = Σ j = t 1 t k ( Cd a , j i ) k , 1 ≤ a ≤ n - - - ( 3 )
再将每个丛集在各时间间隔的1×n矩阵储存到特征数据库模块11。
而丛集特征模块12主要负责收集丛集中不会随着时间改变的静态特征,例如CPU核心数、CPU频率(GHz)、Disk空间大小、Memory大小等规格,并将收集到的数据转换成丛集静态特征矩阵方程式储存在特征数据库模块11中,第i个丛集的矩阵方程式以1xn矩阵表示:
[ Cs 1 i Cs 2 i Cs 3 i · · · Cs n i ] - - - ( 4 )
例如
当有新丛集加入系统时,丛集特征模块12会收集其静态特征,并同样储存在特征数据库模块11。
工作数据分析模块14收集工作执行中不会随着时间改变的静态特征,例如总数据量大小、总数据笔数、数据格式型态、是否压缩等,描述工作的静态特征。当有新工作进入工作分派系统时,工作数据分析模块14会收集其静态特征,并将收集到的数据转换成工作静态特征矩阵方程式储存在特征数据库模块11中,工作静态特征矩阵方程式以1xn矩阵表示:
[Js1 Js2 Js3 … Jsn]                (6)
例如
[总数据笔数]1×n              (7)
工作程序分析模块15,用以分析客户程序3在执行时使用资源的情形,是工作特征分析模块中的一子模块,主要用以建立矩阵方程式来描述客户程序3行为特征;用户于用户操作接口2提交客户程序3与输入数据4的存放路径后,工作程序分析模块15从输入数据4撷取固定笔数的数据当作样本,将客户程序3与输入数据样本上载至迷你丛集5,要求迷你丛集5启动程序开始处理输入数据样本,纪录客户程序3在处理固定笔数数据样本时使用迷你丛集5资源的情形(例如中央处理器、内存、档案读取与写入要求、网络封包读取与写入要求)与花费时间,并将收集到的数据转换成工作动态特征矩阵方程式储存在特征数据库模块11中,工作动态特征矩阵方程式以1xn矩阵表示,其中Jdn为第n个工作动态特征参数:
[Jd1 Jd2 Jd3 … Jdn]           (8)
例如
[单笔数据CPU使用量(GHz*Second)单笔数据Disk空间使用量(KB)]1×n (9)
执行环境选择模块16的运作流程如图3所示,首先从特征储存库模块11取得丛集监控模块13、丛集特征模块12、工作数据分析模块14与工作程序分析模块15分析的丛集静态特征矩阵方程式丛集动态特征矩阵方程式工作静态特征矩阵方程式[Js1 Js2 Js3 … Jsn]与工作动态特征矩阵方程式[Jd1 Jd2 Jd3 … Jdn]并计算出用户程序特征矩阵方程式与对应各丛集的丛集特征矩阵方程式如第(10)与(11)式所示:
[ F 1 job F 2 job F 3 job · · · F n job ] = [ Jd 1 × Js 1 Jd 2 × Js 2 Jd 3 × Js 3 · · · Jd n × Js n ] - - - ( 10 )
[ F 1 cp i F 2 cp i F 3 cp i · · · F n cp i ] = [ ( 1 - Cd 1 i ) × Cs 1 i ( 1 - Cd 2 i ) × Cs 2 i ( 1 - Cd 3 i ) × Cs 3 i · · · ( 1 - Cd n i ) × Cs n i ] - - - ( 12 )
其中F1job代表用户程序特征矩阵方程式中的第一个特征,其值为工作静态特征矩阵方程式第一项Js1与工作动态特征矩阵方程式第一项Jd1相乘的结果,后面依此类推,共有n个特征值,而则是代表第i个丛集的丛集特征矩阵方程式的第一个特征,同样也有n个特征值,由于丛集动态特征矩阵方程式的值为当时丛集的平均使用率,而我们分析需要的为丛集的剩余使用率,所以以计算出丛集剩余使用率,其值是由丛集静态特征矩阵方程式第一项与第一项丛集动态特征矩阵剩余使用率相乘而来,这里以丛集1为例,其丛集特征矩阵方程式即为为了避免混淆之后我们以J表示用户程序特征矩阵方程式而Ci表示第i个丛集的丛集特征矩阵方程式,如图3说明第二步是针对Ci做分群的动作,首先将不适合的丛集过滤掉,由于部分用户程序特征有下限值,若丛集对应的特征值低于下限值这些用户程序就无法在丛集上执行,举例来说用户程序特征中有disk使用量,若丛集特征中的disk剩余量低于用户程序所需disk使用量时,此丛集就不适合执行此用户程序。在判别不适合的丛集可通过比较用户程序特征矩阵方程式与各丛集特征矩阵方程式,若其中的元素属于有下限值的特征,且丛集特征矩阵方程式元素小于用户程序特征矩阵方程式,表示此丛集特征矩阵方程式对应的丛集不适合执行目前的用户程序,于是不适合的丛集集合Clusterunsuitable的表示如第(12)式所示:
Cluster unsuitable = { &ForAll; C i &Element; Cluster all | &Exists; F j cp i &Element; L & F j cp i < F j job } - - - ( 12 )
其中Clusterall代表所有丛集特征矩阵方程式集合,L代表有下限值的特征集合,表示Ci丛集的丛集特征矩阵方程式的第j个元素,而Fjjob为用户程序特征矩阵方程式的第j个元素,过滤掉不适合的丛集后针对剩余的丛集特征方程式再将其分为最优先丛集特征矩阵方程式集合与次优先丛集特征矩阵方程式集合,首先最优先丛集特征矩阵方程式集合在这里定义为丛集特征矩阵方程式的各特征元素皆满足用户程序特征方程式的所有元素,剩余丛集特征矩阵方程式则是次优先丛集特征矩阵方程式集合,这两个集合定义如下:
Cluster first priorty = { &ForAll; C i &Element; Cluster all - Cluster unsuitable | &ForAll; F j cp i &Element; L & F j cp i > F j job } - - - ( 13 )
Clustersecond priorty=Clusterall-(Clusterfirst priorty∪Clusterunsuitable)      (14)
其中Clusterfirst priorty为最优先丛集特征矩阵方程式集合而Clustersecond priorty为次优先丛集特征矩阵方程式集合,将丛集特征矩阵方程式分群后,下一步开始从中选择目标丛集,选择目标丛集可分为以下步骤:
A.检查最优先丛集特征矩阵方程式集合,若非空集合,则从集合中选择最适合的丛集特征矩阵方程式,在这里用户程序特征矩阵方程式可视为一存在于n维空间的向量,同时最优先丛集特征矩阵方程式集合也可视为多组存在于n维空间的向量集合,于是利用向量的距离做为选择的依据;一般而言距离越大代表丛集会有更充裕的资源供用户程序执行,但本发明的目的在于降低工作等待(wait to run)时间,为了避免大量的用户程序都配置到某个特定的丛集上降低了执行效率,于是在此选择了向量距离最近,也就是最符合当时用户程序执行的丛集,选择如(15)所示:
Clustermost sutiable=[min{dist(Ci,J)}:Ci∈Clusterfirst priorty](15)
其中dist(Ci,J)为丛集特征矩阵方程式与用户程序特征矩阵方程式的向量距离,算法如下式所示:
dist ( C i , J ) = ( F 1 cp i - F 1 job ) + ( F 2 cp i - F 2 job ) + &CenterDot; &CenterDot; &CenterDot; + ( F n cp i - F n job ) - - - ( 16 )
B.如最优先丛集特征矩阵方程式集合不存在任何的丛集特征方程式,则从次优先丛集特征矩阵方程式集合中做选择,在这集合中皆是无法完全满足用户程序的丛集集合但还是可以顺利完成用户工作的需求,这里的选择方法同第一步相同,将各矩阵方程式视为存在于n维空间的向量,为了避免因丛集特征与用户程序特征差别过大导致用户程序运行时间过长,这边一样是以选择两向量空间距离最少做为选择的依据,选择如(17)式所示
Clustermost sutiable=[min{dist(Ci,J)}:Ci∈Clustersecond priorty]   (17)
C.如最优先与次优先丛集特征矩阵方程式集合皆不存在任何的丛集特征方程式,则表示目前所有存在的丛集皆不适合执行用户工作,此时执行环境选择模块退回用户工作要求,并通知使用者。
如有找出最适合的丛集特征矩阵方程式,执行环境选择模块16由选出的丛集特征矩阵方程式找到对应的丛集,并将客户工作,包含客户程序3与输入数据4派送到对应的丛集中执行。
本发明所提供的基于Hadoop多丛集环境的工作分派的系统及方法,与其他现有技术相互比较时,更具有下列优点:
1.本发明可根据待处理数据特性、运算程序的特征与计算机丛集的动态行为,提供优化的执行环境给使用者,有效降低工作等待时间,提供可行、可靠、高效率的运算服务。
2.本发明的工作分派的系统及方法可根据待处理数据特性进而充分使用运算设备硬件资源,降低运算服务建置成本,确保服务的稳定性与可靠性,解决运算工作本质上需求的差异的问题,进而提升整体服务速度与效率,其经济效益非常明显。
上列详细说明是针对本发明的一可行实施例的具体说明,惟该实施例并非用以限制本发明的专利范围,凡未脱离本发明技艺精神所为的等效实施或变更,均应包含于本案的专利范围中。

Claims (7)

1.一种基于Hadoop多丛集环境的工作分派的系统,其特征在于,包括:
特征数据库模块,用以储存丛集的静态、动态特征矩阵方程式和工作的静态、动态特征矩阵方程式;
丛集特征模块,主要负责分析各丛集的静态特征;
丛集监控模块,主要负责分析各丛集的动态特征;
工作数据分析模块,主要负责分析计算工作的静态特征;
工作程序分析模块,用以分析用户程序在执行时使用资源的情形;以及
执行环境选择模块,用以选出最适合用户工作的丛集,并将其送往对应的丛集执行。
2.根据权利要求1所述的基于Hadoop多丛集环境的工作分派的系统,其特征在于,丛集监控模块会定期收集每个丛集的动态特征,并针对动态特征曲线进行分析,将分析结果转换成丛集动态特征矩阵方程式,再储存在特征数据库模块。
3.根据权利要求1所述的基于Hadoop多丛集环境的工作分派的系统,其特征在于,该丛集特征模块主要负责分析丛集中不会随着时间改变的静态特征,并建立矩阵方程式来描述丛集的静态特征;当有新丛集加入系统时,丛集特征模块会分析其静态特征,并将数据转换成矩阵方程式储存在特征数据库模块中。
4.根据权利要求1所述的基于Hadoop多丛集环境的工作分派的系统,其特征在于,该工作数据分析模块主要负责分析计算工作执行中的数据特性与静态特征,并建立矩阵方程式来描述工作的静态特征;当有新工作进入工作分派系统时,数据分析模块会分析其静态特征,并将数据转换成矩阵方程式储存在特征数据库模块中。
5.根据权利要求1所述的基于Hadoop多丛集环境的工作分派的系统,其特征在于,该工作程序分析模块用于分析客户程序在处理数据时使用资源的情形与花费时间,并将收集到的数据转换成工作动态特征矩阵方程式储存在特征数据库模块。
6.根据权利要求1所述的基于Hadoop多丛集环境的工作分派的系统,其特征在于,该执行环境选择模块从特征数据库模块取得丛集监控模块、丛集特征模块、工作数据分析模块与工作程序分析模块分析的结果,并通过用户程序特征矩阵方程式将用户工作,包含用户程序与输入数据派送到对应的丛集中执行。
7.一种基于Hadoop多丛集环境的工作分派方法,其特征在于,包括以下步骤:
从特征数据库模块取得丛集监控模块、丛集特征模块、数据分析模块与工作程序分析模块的结果;
计算用户程序特征矩阵方程式与对应各丛集的丛集特征矩阵方程式;
通过用户程序特征矩阵方程式将对应各丛集的丛集特征矩阵方程式分类为最优先丛集特征矩阵方程式集合、次优先丛集特征矩阵方程式集合与不适合的丛集特征矩阵方程式集合;
若最优先丛集特征矩阵方程式集合并非空集合,则依据用户程序特征矩阵方程式从最优先丛集特征矩阵方程式集合选出最适合的丛集特征矩阵方程式;
若最优先丛集特征矩阵方程式集合为空集合,则检查次优先丛集特征矩阵方程式集合是否为空集合,若非空集合,则从中选出一个适合的丛集特征矩阵方程式;
通过选出的丛集特征矩阵方程式计算找到对应的丛集,并将用户工作,包含用户程序与输入数据派送到对应的丛集中执行;
若最优先与次优先丛集特征矩阵方程式集合皆为空集合,则表示目前所有存在的丛集皆不适合执行用户工作,此时退回用户工作要求,并通知使用者。
CN201410310934.5A 2014-06-30 2014-06-30 基于Hadoop多丛集环境的工作分派系统及方法 Expired - Fee Related CN104077398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410310934.5A CN104077398B (zh) 2014-06-30 2014-06-30 基于Hadoop多丛集环境的工作分派系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410310934.5A CN104077398B (zh) 2014-06-30 2014-06-30 基于Hadoop多丛集环境的工作分派系统及方法

Publications (2)

Publication Number Publication Date
CN104077398A true CN104077398A (zh) 2014-10-01
CN104077398B CN104077398B (zh) 2017-09-22

Family

ID=51598652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410310934.5A Expired - Fee Related CN104077398B (zh) 2014-06-30 2014-06-30 基于Hadoop多丛集环境的工作分派系统及方法

Country Status (1)

Country Link
CN (1) CN104077398B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468726A (zh) * 2015-11-20 2016-04-06 广州视源电子科技股份有限公司 基于本地计算和分布式计算的数据计算方法及系统
CN106681826A (zh) * 2015-11-09 2017-05-17 纬创资通股份有限公司 丛集运算架构的资源规划方法、系统及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102130950A (zh) * 2011-03-14 2011-07-20 中国科学技术大学苏州研究院 基于Hadoop集群的分布式监控系统及其监控方法
TW201216073A (en) * 2010-10-01 2012-04-16 Kuan-Chang Fu System and method for sharing network storage and computing resource
TW201312467A (zh) * 2011-07-28 2013-03-16 Yahoo Inc 分配式應用程式堆疊與部署方法及系統
US20130124483A1 (en) * 2011-11-10 2013-05-16 Treasure Data, Inc. System and method for operating a big-data platform

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201216073A (en) * 2010-10-01 2012-04-16 Kuan-Chang Fu System and method for sharing network storage and computing resource
CN102130950A (zh) * 2011-03-14 2011-07-20 中国科学技术大学苏州研究院 基于Hadoop集群的分布式监控系统及其监控方法
TW201312467A (zh) * 2011-07-28 2013-03-16 Yahoo Inc 分配式應用程式堆疊與部署方法及系統
US20130124483A1 (en) * 2011-11-10 2013-05-16 Treasure Data, Inc. System and method for operating a big-data platform

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106681826A (zh) * 2015-11-09 2017-05-17 纬创资通股份有限公司 丛集运算架构的资源规划方法、系统及装置
CN106681826B (zh) * 2015-11-09 2019-08-30 纬创资通股份有限公司 丛集运算架构的资源规划方法、系统及装置
CN105468726A (zh) * 2015-11-20 2016-04-06 广州视源电子科技股份有限公司 基于本地计算和分布式计算的数据计算方法及系统
CN105468726B (zh) * 2015-11-20 2019-02-01 广州视源电子科技股份有限公司 基于本地计算和分布式计算的数据计算方法及系统

Also Published As

Publication number Publication date
CN104077398B (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
US20190370146A1 (en) System and method for data application performance management
CN105005570B (zh) 基于云计算的海量智能用电数据挖掘方法及装置
US11455189B2 (en) Task scheduling simulation system
CN102799486B (zh) 一种MapReduce系统中的数据采样和划分方法
Samadi et al. Comparative study between Hadoop and Spark based on Hibench benchmarks
US11228489B2 (en) System and methods for auto-tuning big data workloads on cloud platforms
CN103019855B (zh) MapReduce作业执行时间预测方法
Osman et al. Towards real-time analytics in the cloud
US20110238677A1 (en) Dynamic Sort-Based Parallelism
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
Canali et al. Improving scalability of cloud monitoring through PCA-based clustering of virtual machines
CN108829505A (zh) 一种分布式调度系统及方法
CN104036029A (zh) 大数据一致性对比方法和系统
Khezr et al. MapReduce and its application in optimization algorithms: a comprehensive study
Jiang et al. Parallel K-Medoids clustering algorithm based on Hadoop
Wang et al. Research on C4. 5 algorithm improvement strategy based on MapReduce
Tariq et al. Modelling and prediction of resource utilization of hadoop clusters: A machine learning approach
CN102147813A (zh) 一种电力云环境下基于k最近邻算法的文档自动分类方法
Liu et al. Mr-cof: a genetic mapreduce configuration optimization framework
CN104077398A (zh) 基于Hadoop多丛集环境的工作分派系统及方法
Dai et al. Research and implementation of big data preprocessing system based on Hadoop
He et al. Parallel feature selection using positive approximation based on mapreduce
AU2020101071A4 (en) A Parallel Association Mining Algorithm for Analyzing Passenger Travel Characteristics
Zhang et al. A parallel task scheduling algorithm based on fuzzy clustering in cloud computing environment
US10489416B2 (en) Optimizing and managing execution of hybrid flows

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170922

Termination date: 20180630

CF01 Termination of patent right due to non-payment of annual fee