CN103218233B - Hadoop异构集群中的数据分配策略 - Google Patents

Hadoop异构集群中的数据分配策略 Download PDF

Info

Publication number
CN103218233B
CN103218233B CN201310168386.2A CN201310168386A CN103218233B CN 103218233 B CN103218233 B CN 103218233B CN 201310168386 A CN201310168386 A CN 201310168386A CN 103218233 B CN103218233 B CN 103218233B
Authority
CN
China
Prior art keywords
node
data
represent
load
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310168386.2A
Other languages
English (en)
Other versions
CN103218233A (zh
Inventor
郭文忠
陈国龙
林常航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201310168386.2A priority Critical patent/CN103218233B/zh
Publication of CN103218233A publication Critical patent/CN103218233A/zh
Application granted granted Critical
Publication of CN103218233B publication Critical patent/CN103218233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种Hadoop异构集群中的数据分配策略,其特征在于,包括以下步骤:S01:测试并存储各节点处理不同规模数据的执行时间,并转换为静态性能参考指标;S02:监控并存储各节点的存储负载和各节点间的网络传输速度,并转换为动态性能参考指标;S03:根据预先设置的各性能因素的权重,利用计算模块计算出各节点应分配的数据块数目,并通过数据分配服务器进行数据块-节点的映射和实施分配传输。本发明通过对静、动态性能参考指标各性能因素的灵活配置,可以增强数据分配策略的适应性,保证数据分配策略的有效性,能够有效的提高数据局部性、减少作业响应时间和网络传输,增强系统的负载稳定性,优化了集群资源。

Description

Hadoop异构集群中的数据分配策略
技术领域
本发明涉及高性能集群领域的数据分配策略,尤其是一种Hadoop异构集群中基于节点计算能力、网络传输能力和节点负载能力等多性能因素综合考虑的数据分配策略。
背景技术
Hadoop是一个能够对大量数据进行分布式处理的软件框架,其高可靠性、高扩展性、高效性和高容错性使其在商业和研究领域受到了广泛的关注。Hadoop包括两个相对独立的子系统:分布式并行计算系统MapReduce由JobTrackers和TaskTrackers组成;分布式存储系统HDFS存储Hadoop集群中所有存储节点上的文件。在执行MapReduce任务时需要获取HDFS上相应的数据块进行处理,而为了提高系统的可靠性和可用性,系统默认为每个数据块存放3个副本。当Hadoop的机架感知未启用时HDFS选择机器时是随机的,有可能在将第一个数据块副本写到机架1,第二个数据块副本写到机架2后,又将第三个数据块副本重新写回到机架1,此时,两个机架间产生两次数据流量。在Hadoop推送的数据量非常大的情况下会导致机架间的网络流量成倍增长,出现性能瓶颈,影响机架甚至整个集群的性能。当启用机架感知以后,HDFS在选择机器时会进行判断:在上传机器上写入第一个数据块副本,在上传机器所属的机架上随机选择一台机器写入第二个数据块副本,第三个数据块副本存放在另一个远端机架的任意一个机器上。这样的策略可以保证对该数据块所属文件的访问能够优先在本机架下找到,如果该机架发生了异常或者执行缓慢,也可以在另外的机架上找到该数据块的副本进行恢复或者数据迁移。该策略采用的随机选择节点的方法没有考虑节点异构导致的执行能力的差异,还可能由于远端机架的传输速度过慢导致增加数据的恢复或迁移时间,同时无法保证各节点间的负载平衡。
围绕上述问题,目前已经开展了许多研究工作,经对现有技术文档的检索发现,部分现有的策略是从执行能力方面考虑,这些策略通过对节点处理的数据块大小进行设置,以缩小性能差异的机器对同种任务的执行时间差;也有从保证系统负载平衡方面考虑的,这些策略能够在一定条件下提高系统的吞吐量。但这些策略未充分考虑异构集群中各节点的固有能力测差异,如线程切换能力、节点存储能力等,导致对于数据分配问题考虑不够全面,不能很好的保证网络的稳定性。其他的方法还有对网络传输方面的考虑,但是其网络距离采取的是拓扑结构中各节点到最近公共祖先的距离和进行估算,在实际应用的不同网络带宽中,该估算具有极大的局限性,参考价值不足。
发明内容
有鉴于此,本发明的目的是提供一种Hadoop异构集群中的数据分配策略。
本发明采用以下方案实现:一种Hadoop异构集群中的数据分配策略,其特征在于,包括以下步骤:
S01:测试并存储各节点处理不同规模数据的执行时间,并转换为静态性能参考指标;
S02:监控并存储各节点的存储负载和各节点间的网络传输速度,并转换为动态性能参考指标;
S03:根据预先设置的各性能因素的权重,利用计算模块计算出各节点应分配的数据块数目,并通过数据分配服务器进行数据块-节点的映射和实施分配传输。
在本发明一实施例中,所述步骤S01具体为:
S11:在每个节点上分别使用不同规模的数据块进行作业测试,并取其执行时间的加权平均值作为各节点的参考执行时间;
S12:利用参考执行时间与执行速率成反比的关系,计算出各节点的执行速率;
S13:分别计算各节点的执行速率占整个集群所有节点的执行速率之和的比例,作为静态性能参考指标。
在本发明一实施例中,所述静态性能参考指标的计算公式为, Time i = Σ k = 1 m Time ik * weight k m , i = 1,2 , · · · , node , Rate i = 1 Time i , i = 1,2 , · · · , node , 其中,Timei表示第i个节点的参考执行时间,m表示测试用的数据块的规模种类的数量,Timeik表示第i个节点对第k类测试用的数据块的执行时间,weightk表示第k类测试用的数据块的权重,node表示集群中节点的个数,Ratei表示第i个节点的执行速率,Capabilityi表示第i个节点的执行能力比率,即第i个节点的静态性能参考指标。
在本发明一实施例中,所述动态性能参考指标包括各节点间的网络传输速率指标和各节点的负载处理能力指标,所述各节点间的网络传输速率指标是当前数据上传的节点与某节点的网络传输速率占当前数据上传的节点与集群中其他所有节点的网络传输速率之和的比例;所述各节点的负载处理能力指标是当前数据上传的节点的负载处理能力占整个集群中所有节点的负载处理能力之和的比例。
在本发明一实施例中,所述动态性能参考指标的计算公式为, Transmission i = Trans i Σ j = 1 node Trans j , i = 1,2 , · · · , node , Load i = Block i / Capability i Σ j = 1 node Block j / Capability j , i = 1,2 , · · · , node ; 其中,Transmissioni表示第i个节点的网络传输速率指标,Transi表示当前数据上传的节点与第i个节点的网络传输速率,表示当前数据上传的节点与集群中其他所有节点的网络传输速率之和;Loadi表示第i个节点的负载处理能力指标,Blocki表示第i个节点上存放的数据块数目,而表示第i个节点的负载处理能力,表示整个集群中所有节点的负载处理能力之和。
在本发明一实施例中,所述计算模块利用以下公式 x 11 : x 12 : . . . : x 21 : x 22 : . . . : x mn = ( αCapability 11 + β Transmission 11 - γ Load 11 ) : ( αCapability 12 + βTransmission 12 - γLoad 12 ) : . . . : ( αCapability 21 + βTransmission 21 - γLoad 21 ) : ( αCapability 22 + βTransmission 22 - γLoad 22 ) : . . . : ( αCapability mn + βTransmission mn - γLoad mn ) x 11 + x 12 + . . . + x 21 + x 22 + . . . + x mn = X α + β + γ = 1 计算出各节点应分配的数据块数目;其中,xmn表示第m个机架上第n台机器需要分配的数据块数目,m和n为正整数,X表示所有上传的数据块数目总和;α、β、γ分别表示对节点的执行能力比率、网络传输速率和负载处理能力的权重,由用户在配置文件中进行设置。
在本发明一实施例中,所述xmn中若存在负值,则将计算出xmn为负值的节点剔除,并重新进行分配计算,直至xmn均为正数。
本发明的特征在于:将静态性能参考指标和动态性能参考指标结合在一起对Hadoop异构集群的数据分配代价进行综合的评估,然后利用数据分配服务器进行数据映射和实施分配。在静态性能参考指标中主要考虑不同节点对不同类型作业的计算能力,动态性能参考指标中主要考虑节点间网络传输能力和各节点的负载能力。能力的评估从集群全局出发,计算各节点特定指标占所有节点该特定指标之和的比例。通过对静、动态性能参考指标各性能因素的灵活配置,可以增强数据分配的适应性,保证数据分配策略的有效性,能够有效的提高数据局部性、减少作业响应时间和网络传输,增强系统的负载稳定性,优化了集群资源。
附图说明
图1是本发明的体系结构图。
图2是本发明的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下将通过具体实施例和相关附图,对本发明作进一步详细说明。
本发明提供一种Hadoop异构集群中的数据分配策略,包括以下步骤:
S01:测试并存储各节点处理不同规模数据的执行时间,并转换为静态性能参考指标;
S02:监控并存储各节点的存储负载和各节点间的网络传输速度,并转换为动态性能参考指标;
S03:根据预先设置的各性能因素的权重,利用计算模块计算出各节点应分配的数据块数目,并通过数据分配服务器进行数据块-节点的映射和实施分配传输。
以下结合图1和图2对本发明的一种具体实施方法进行说明。
所述步骤S01分为以下步骤:
S11:在每个节点上分别使用不同规模的数据块进行作业测试,并取其执行时间的加权平均值作为各节点的参考执行时间;
S12:利用参考执行时间与执行速率成反比的关系,计算出各节点的执行速率;
S13:分别计算各节点的执行速率占整个集群所有节点的执行速率之和的比例,作为静态性能参考指标。
其中,所述静态性能参考指标的计算公式为, Time i = Σ k = 1 m Time ik * weight k m , i = 1,2 , · · · , node , Rate i = 1 Time i , i = 1,2 , · · · , node , Capability i = Rate i Σ j = 1 node Rate j , i = 1,2 , · · · , node ; 其中,Timei表示第i个节点的参考执行时间,m表示测试用的数据块的规模种类的数量,Timeik表示第i个节点对第k类测试用的数据块的执行时间,weightk表示第k类测试用的数据块的权重,一般情况下,测试用的数据块规模与其权重成反比关系,node表示集群中节点的个数,Ratei表示第i个节点的执行速率,Capabilityi表示第i个节点的执行能力比率,即第i个节点的静态性能参考指标。
具体的,步骤S01中通过脚本控制集群中节点的启停命令,在每个节点上分别单独地使用不同规模的数据块进行作业测试,并分别在每个节点上取它们对不同规模的数据块进行作业测试的执行时间的加权平均值作为该节点的参考执行时间;利用执行时间与执行速率成反比的关系,通过参考执行时间就可以计算出各节点的执行速率;通过计算各节点的执行速率占整个集群所有节点的执行速率之和的比例,作为该节点的执行能力比率,由于每台机器对特定作业的执行性能是相对稳定的,一次计算即可,因此将节点的执行能力比率称为静态性能参考指标。节点的执行能力比率属于静态性能参考指标,这是节点对作业的执行速率而言,其执行能力比例会随着集群中节点的添加或移除而更新。
所述动态性能参考指标包括各节点间的网络传输速率指标和各节点的负载处理能力指标,所述各节点间的网络传输速率指标是当前数据上传的节点与某节点的网络传输速率占当前数据上传的节点与集群中其他所有节点的网络传输速率之和的比例;所述各节点的负载处理能力指标是当前数据上传的节点的负载处理能力占整个集群中所有节点的负载处理能力之和的比例。
所述动态性能参考指标的计算公式为, 其中,Transmissioni表示第i个节点的网络传输速率指标,Transi表示当前数据上传的节点与第i个节点的网络传输速率,表示当前数据上传的节点与集群中其他所有节点的网络传输速率之和;Loadi表示第i个节点的负载处理能力指标,Blocki表示第i个节点上存放的数据块数目,而表示第i个节点的负载处理能力,表示整个集群中所有节点的负载处理能力之和。
具体的,步骤S02通过对集群的动态监控,分别搜集网络中各节点间的网络传输速率以及各节点上各种类型的负载处理能力,以实现将其转换成对动态性能参考指标的评估。节点间的网络传输速率指标的转换是以当前数据上传的节点与某节点的网络传输速率占该节点(当前数据上传的节点)与集群中其他所有节点的网络传输速率之和的比例。节点上的负载处理能力指标的转换是以当前节点上的负载处理能力占整个集群中所有节点上的负载处理能力之和的比例。网络传输速率和负载处理能力是动态监控的,需要定期更新。
所述计算模块利用以下公式 x 11 : x 12 : . . . : x 21 : x 22 : . . . : x mn = ( αCapability 11 + β Transmission 11 - γ Load 11 ) : ( αCapability 12 + βTransmission 12 - γLoad 12 ) : . . . : ( αCapability 21 + βTransmission 21 - γLoad 21 ) : ( αCapability 22 + βTransmission 22 - γLoad 22 ) : . . . : ( αCapability mn + βTransmission mn - γLoad mn ) x 11 + x 12 + . . . + x 21 + x 22 + . . . + x mn = X α + β + γ = 1 , 计算出各节点应分配的数据块数目;其中,xmn表示第m个机架上第n台机器(即第m个机架上的第n个节点)需要分配的数据块数目,Capabilitymn表示第m个机架上第n台机器(节点)的执行能力比率,Transmissionmn表示第m个机架上第n台机器(节点)的网络传输速率指标,Loadi表示第m个机架上第n台机器(节点)的负载处理能力指标,m和n为正整数,X表示所有上传的数据块数目总和;α、β、γ分别表示对节点的执行能力比率、网络传输速率和负载处理能力的权重,由用户在配置文件中进行设置。
具体的,步骤S03结合用户的需求和作业等级,对Hadopp集群的数据分配的各性能因素的权重进行设置,使该策略具有更好的灵活性和健壮性。作业提交到Hadoop系统后,根据步骤1和步骤2获得静态性能参考指标和动态性能参考指标,结合设定的性能因素的权重,在分配模块中计算出整个集群中各节点上应分配的数据块,并通过数据分配服务器进行数据块-节点映射和分配实施。
所有上传的数据在经过Hadoop划分成若干个数据块后,根据上式求解出的xmn中可能会存在负值,此时需要将计算出数据块数目(即xmn)为负值的节点剔除,并进行循环分配计算,直至节点可分配的数据块数目均为正数。
步骤S01中还维护一张集群中各节点的参考执行时间的列表(execute_time_list),该列表内容通过测试获取后一般不更新,只有在节点或作业类型的添加时才需要进行更新;
步骤S02中还维护一张集群中各节点之间的网络传输速率的列表(transmission_speed_list),该列表内容根据集群网络的稳定性定期更新;同时还维护一张集群中各节点的负载处理能力列表(load_job_list),该列表内容在作业提交时触发进行更新。各节点间通过脚本控制scp远程传输命令,获取对应两个节点之间的网络传输速率;各节点的负载情况是通过重写Hadoop系统中DateNode的描述类DataNodeDescriptor中的numBlocks()方法,获得各种作业对应的数据块的当前数量,即实时负载。
步骤S03的操作主要是BlockPlacementPolicy抽象类的实现,该类提供了数据分配的相关方法,在客户端发出数据存储请求时将会被调用。其中的成员方法getCapability()、getTransmission()和getLoad()分别监控和搜集集群运行的相关信息,并转换成相应的静、动态性能参考指标;成员方法calculate()实现各节点分配数据块数目的循环计算;而成员方法allocation()负责具体的实施数据块-节点的映射、分配和传输。
在步骤S01和步骤S02中都用到脚本的设置,Hadoop中脚本的设置可以分为以下几个步骤:
1)编写脚本文件;
2)在相关的.xml文件增加配置项;
3)重新启动集群。
步骤1)中首先要确定脚本将要实现的功能,在/opt/modules/目录下用相应的语言进行编写脚本文件,然后用命令chmod赋予脚本可执行权限。
步骤2)中在conf目录下配置属性,属性中最主要的参数为名称和值。在<name></name>中配置脚本文件名,在<value></value>中配置脚本文件的路径。
步骤3)用控制命令重启相应的MapReduce引擎或者HDFS,就可以在日志文件中看到相应配置或者脚本信息。
上列较佳实施例,对本发明的目的、技术方案和优点进行了进一步详细说明,所应理解的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种Hadoop异构集群中的数据分配策略,其特征在于,包括以下步骤:
S01:测试并存储各节点处理不同规模数据的执行时间,并转换为静态性能参考指标;
S02:监控并存储各节点的存储负载和各节点间的网络传输速度,并转换为动态性能参考指标;
S03:根据预先设置的各性能因素的权重,利用计算模块计算出各节点应分配的数据块数目,并通过数据分配服务器进行数据块-节点的映射和实施分配传输;所述步骤S01具体为:
S11:在每个节点上分别使用不同规模的数据块进行作业测试,并取其执行时间的加权平均值作为各节点的参考执行时间;
S12:利用参考执行时间与执行速率成反比的关系,计算出各节点的执行速率;
S13:分别计算各节点的执行速率占整个集群所有节点的执行速率之和的比例,作为静态性能参考指标;
所述动态性能参考指标包括各节点间的网络传输速率指标和各节点的负载处理能力指标,所述各节点间的网络传输速率指标是当前数据上传的节点与某节点的网络传输速率占当前数据上传的节点与集群中其他所有节点的网络传输速率之和的比例;所述各节点的负载处理能力指标是当前数据上传的节点的负载处理能力占整个集群中所有节点的负载处理能力之和的比例;
所述计算模块利用以下公式:
x 11 : x 12 : ... : x 21 : x 22 : ... : x m n = ( &alpha;Capability 11 + &beta;Transmission 11 - &gamma;Load 11 ) : ( &alpha;Capability 12 + &beta;Transmission 12 - &gamma;Load 12 ) : ... : ( &alpha;Capability 21 + &beta;Transmission 21 - &gamma;Load 21 ) : ( &alpha;Capability 22 + &beta;Transmission 22 - &gamma;Load 22 ) : ... : ( &alpha;Capability m n + &beta;Transmission m n - &gamma;Load m n ) x 11 + x 12 + ... + x 21 + x 22 + ... + x m n = X &alpha; + &beta; + &gamma; = 1 ,
计算出各节点应分配的数据块数目;其中,xmn表示第m个机架上第n台机器需要分配的数据块数目,m和n为正整数,X表示所有上传的数据块数目总和;α、β、γ分别表示对节点的执行能力比率、网络传输速率和负载处理能力的权重,由用户在配置文件中进行设置,Capabilitymn表示第m个机架上第n台机器的执行能力比率,Transmissionmn表示第m个机架上第n台机器的网络传输速率指标,Loadmn表示第m个机架上第n台机器的负载处理能力指标。
2.根据权利要求1所述的Hadoop异构集群中的数据分配策略,其特征在于:所述静态性能参考指标的计算公式为, Rate i = 1 Time i , i = 1 , 2 , ... , n o d e , Capability i = Rate i &Sigma; j = 1 n o d e Rate j , i = 1 , 2 , ... , n o d e ; 其中,Timei表示第i个节点的参考执行时间,m表示测试用的数据块的规模种类的数量,Timeik表示第i个节点对第k类测试用的数据块的执行时间,weightk表示第k类测试用的数据块的权重,node表示集群中节点的个数,Ratei表示第i个节点的执行速率,Capabilityi表示第i个节点的执行能力比率,即第i个节点的静态性能参考指标。
3.根据权利要求1所述的Hadoop异构集群中的数据分配策略,其特征在于:所述动态性能参考指标的计算公式为, 其中,Transmissioni表示第i个节点的网络传输速率指标,Transi表示当前数据上传的节点与第i个节点的网络传输速率,表示当前数据上传的节点与集群中其他所有节点的网络传输速率之和;Loadi表示第i个节点的负载处理能力指标,Blocki表示第i个节点上存放的数据块数目,而表示第i个节点的负载处理能力,表示整个集群中所有节点的负载处理能力之和。
4.根据权利要求1所述的Hadoop异构集群中的数据分配策略,其特征在于:所述xmn中若存在负值,则将计算出xmn为负值的节点剔除,并重新进行分配计算,直至xmn均为正数。
CN201310168386.2A 2013-05-09 2013-05-09 Hadoop异构集群中的数据分配策略 Active CN103218233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310168386.2A CN103218233B (zh) 2013-05-09 2013-05-09 Hadoop异构集群中的数据分配策略

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310168386.2A CN103218233B (zh) 2013-05-09 2013-05-09 Hadoop异构集群中的数据分配策略

Publications (2)

Publication Number Publication Date
CN103218233A CN103218233A (zh) 2013-07-24
CN103218233B true CN103218233B (zh) 2015-11-18

Family

ID=48816061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310168386.2A Active CN103218233B (zh) 2013-05-09 2013-05-09 Hadoop异构集群中的数据分配策略

Country Status (1)

Country Link
CN (1) CN103218233B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104468379B (zh) * 2013-09-16 2017-09-26 浙江大学 基于最短逻辑距离的虚拟Hadoop集群节点选择方法及装置
CN103685492B (zh) * 2013-12-03 2017-01-25 北京智谷睿拓技术服务有限公司 Hadoop集群系统的调度方法、调度装置及其应用
CN103701900B (zh) * 2013-12-26 2017-02-08 清华大学 基于异构集群的数据分布方法
CN104063501B (zh) * 2014-07-07 2017-06-16 电子科技大学 基于hdfs的副本平衡方法
CN104537045A (zh) * 2014-12-24 2015-04-22 华为技术有限公司 一种基于分布式系统的业务分配方法及装置
CN105095382B (zh) * 2015-06-30 2018-09-14 北京奇虎科技有限公司 样本分布式聚类计算方法及装置
CN105426495B (zh) * 2015-11-24 2019-03-12 中国农业银行股份有限公司 数据并行读取方法及装置
CN106506594B (zh) * 2016-09-30 2019-09-03 科大讯飞股份有限公司 一种并行计算资源分配方法及装置
CN111639003B (zh) * 2019-03-01 2024-04-05 北京京东尚科信息技术有限公司 一种负载处理能力监测方法及系统
CN110413389B (zh) * 2019-07-24 2021-09-28 浙江工业大学 一种资源不均衡Spark环境下的任务调度优化方法
CN110580209B (zh) * 2019-07-29 2022-05-31 杭州电子科技大学 一种基于模型预测控制的云服务器弹性伸缩与性能优化方法
CN113112139A (zh) * 2021-04-07 2021-07-13 上海联蔚盘云科技有限公司 云平台账单的处理方法和设备
CN113419863B (zh) * 2021-07-02 2023-07-14 广东省电信规划设计院有限公司 一种基于节点能力的数据分配处理方法及装置
CN113590666B (zh) * 2021-09-30 2022-02-18 苏州浪潮智能科技有限公司 一种ai集群中数据缓存方法、系统、设备及计算机介质
CN114201296B (zh) * 2021-12-09 2023-07-21 厦门美亚亿安信息科技有限公司 一种基于流式处理平台的数据平衡方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764835A (zh) * 2008-12-25 2010-06-30 华为技术有限公司 基于MapReduce编程架构的任务分配方法及装置
CN102004670A (zh) * 2009-12-17 2011-04-06 华中科技大学 一种基于MapReduce的自适应作业调度方法
CN102156659A (zh) * 2011-03-28 2011-08-17 中国人民解放军国防科学技术大学 一种文件作业任务的调度方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9201690B2 (en) * 2011-10-21 2015-12-01 International Business Machines Corporation Resource aware scheduling in a distributed computing environment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764835A (zh) * 2008-12-25 2010-06-30 华为技术有限公司 基于MapReduce编程架构的任务分配方法及装置
CN102004670A (zh) * 2009-12-17 2011-04-06 华中科技大学 一种基于MapReduce的自适应作业调度方法
CN102156659A (zh) * 2011-03-28 2011-08-17 中国人民解放军国防科学技术大学 一种文件作业任务的调度方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Hadoop中云数据负载均衡算法的研究及优化》;刘琨等;《微电子学与计算机》;20120930;第29卷(第9期);全部 *

Also Published As

Publication number Publication date
CN103218233A (zh) 2013-07-24

Similar Documents

Publication Publication Date Title
CN103218233B (zh) Hadoop异构集群中的数据分配策略
US8745434B2 (en) Platform for continuous mobile-cloud services
US9489443B1 (en) Scheduling of splits and moves of database partitions
CN103227838B (zh) 一种多重负载均衡处理装置与方法
CN106033476B (zh) 一种云计算环境中分布式计算模式下的增量式图计算方法
Sonbol et al. EdgeKV: Decentralized, scalable, and consistent storage for the edge
US8713125B2 (en) Method and system for scaling usage of a social based application on an online social network
CN103581332B (zh) HDFS架构及HDFS架构中NameNode节点的压力分解方法
TWI725744B (zh) 透過多層次相關性建立系統資源預測及資源管理模型的方法
CN108733509A (zh) 用于在集群系统中备份和恢复数据的方法和系统
CN104615476B (zh) 用于所选择的虚拟机复制和虚拟机重新启动的方法和系统
CN102622303A (zh) 一种内存过载控制的方法及装置
CN111124277A (zh) 一种深度学习数据集缓存方法、系统、终端及存储介质
CN105979273A (zh) 基于大数据及云计算的智能商用电视的云监控与云运维
CN103207920A (zh) 一种元数据并行采集系统
CN111427678A (zh) 汽车诊断云平台中的虚拟化资源调度系统、方法
CN111966289A (zh) 基于Kafka集群的分区优化方法和系统
CN107450855A (zh) 一种用于分布式存储的模型可变的数据分布方法及系统
CN109739640A (zh) 一种基于申威架构的容器资源管理系统
CN109873714A (zh) 云计算节点配置更新方法及终端设备
CN106209415A (zh) 一种虚拟网络映射方法及系统
Lv et al. Big data processing on volunteer computing
CN109739439A (zh) 大容量储能系统海量数据的分布式存储方法及系统
CN105025071A (zh) 一种油气管道云处理系统及实现方法
Fan et al. An adaptive feedback load balancing algorithm in HDFS

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant