CN103716381A - 一种分布式系统的控制方法,及管理节点 - Google Patents

一种分布式系统的控制方法,及管理节点 Download PDF

Info

Publication number
CN103716381A
CN103716381A CN201310681454.5A CN201310681454A CN103716381A CN 103716381 A CN103716381 A CN 103716381A CN 201310681454 A CN201310681454 A CN 201310681454A CN 103716381 A CN103716381 A CN 103716381A
Authority
CN
China
Prior art keywords
data
distributed node
data block
node
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310681454.5A
Other languages
English (en)
Other versions
CN103716381B (zh
Inventor
朱韧
周伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310681454.5A priority Critical patent/CN103716381B/zh
Publication of CN103716381A publication Critical patent/CN103716381A/zh
Application granted granted Critical
Publication of CN103716381B publication Critical patent/CN103716381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本发明实施例公开一种分布式系统的控制方法,及管理节点,其中方法的实现包括:管理节点确定待处理的数据块,并获取管理节点下的各分布式节点的第一数据处理能力;管理节点按照各分布式节点的第一数据处理能力的大小,将待处理的数据块存入各分布式节点;在各分布式节点进行数据处理过程中,管理节点通过数据处理的完成状态确定各分布式节点的第二数据处理能力,并依据各分布式节点的第二数据处理能力将未处理的数据块进行重新存放。以上方案可以减少数据块的迁移,这样不仅可以充分利用分布式系统的计算能力,还可以通过提高数据处理的本地化率,来提升分布式系统的数据处理性能。

Description

一种分布式系统的控制方法,及管理节点
技术领域
本发明涉及通信技术领域,特别涉及一种分布式系统的控制方法,及管理节点。
背景技术
分布式系统(distributed system)是建立在网络之上的软件系统。正是因为软件的特性,所以分布式系统具有高度的内聚性和透明性。因此,网络和分布式系统之间的区别更多的在于高层软件(特别是操作系统),而不是硬件。内聚性是指每一个数据库分布节点高度自治,有本地的数据库管理系统。透明性是指每一个数据库分布节点对用户的应用来说都是透明的,看不出是本地还是远程。在分布式数据库系统中,用户感觉不到数据是分布的,即用户不须知道关系是否分割、有无副本、数据存于哪个站点以及事务在哪个站点上执行等。
在一个分布式系统中,一组独立的计算机展现给用户的是一个统一的整体,就好像是一个系统似的。系统拥有多种通用的物理和逻辑资源,可以动态的分配任务,分散的物理和逻辑资源通过计算机网络实现信息交换。系统中存在一个以全局的方式管理计算机资源的分布式操作系统。通常,对用户来说,分布式系统只有一个模型或范型。在操作系统之上有一层软件中间件(middleware)负责实现这个模型。一个著名的分布式系统的例子是万维网(World Wide Web),在万维网中,所有的一切看起来就好像是一个文档(Web页面)一样。
在计算机网络中,这种统一性、模型以及其中的软件都不存在。用户看到的是实际的机器,计算机网络并没有使这些机器看起来是统一的。如果这些机器有不同的硬件或者不同的操作系统,那么,这些差异对于用户来说都是完全可见的。如果一个用户希望在一台远程机器上运行一个程序,那么,他必须登陆到远程机器上,然后在那台机器上运行该程序。
分布式系统和计算机网络系统的共同点是:多数分布式系统是建立在计算机网络之上的,所以分布式系统与计算机网络在物理结构上是基本相同的。
他们的区别在于:分布式操作系统的设计思想和网络操作系统是不同的,这决定了他们在结构、工作方式和功能上也不同。网络操作系统要求网络用户在使用网络资源时首先必须了解网络资源,网络用户必须知道网络中各个计算机的功能与配置、软件资源、网络文件结构等情况,在网络中如果用户要读一个共享文件时,用户必须知道这个文件放在哪一台计算机的哪一个目录下;分布式操作系统是以全局方式管理系统资源的,它可以为用户任意调度网络资源,并且调度过程是“透明”的。当用户提交一个作业时,分布式操作系统能够根据需要在系统中选择最合适的处理器,将用户的作业提交到该处理程序,在处理器完成作业后,将结果传给用户。在这个过程中,用户并不会意识到有多个处理器的存在,这个系统就像是一个处理器一样。
随着计算机、互联网和通讯技术的快速发展,网络对海量级数据存储能力和计算能力的需求日益提升。例如:云计算通过协同调度网络中已有的软硬件资源,实现了存储与计算服务模式的虚拟化和透明化,并以其高效、灵活、拓展性强等诸多优势而成为解决网络中海量数据存储与计算的最新方案。目前在分布式系统中实现计算分配控制的方案一般可以如下:
1、管理节点首先根据配置文件确定待处理的数据块的数量,并获取管理节点下的各分布式节点的数据处理能力;
2、管理节点按照各分布式节点的数据处理能力的大小确定待处理的数据块的分配方案;
3、管理节点按照上述分配方案将待处理的数据块存入各分布式节点;
4、分布式节点对存入本地的待处理的数据块进行处理,并输出数据处理结果。
以上方案,待处理的数据块是按照数据块的数据量或者个数来分配的,分配的参考值是以分布式节点的数据处理能力,即分布式节点的硬件处理能力。然而,实际应用中,由于数据块内容的不同等原因,会存在巨大的数据处理量的差异,数据处理量小的数据块会很快被计算完毕。为了充分利用分布式系统的计算能力,被分配处理量小的数据块的分布式节点在计算完毕以后,会向计算量大的分布式节点进行数据请求,请求将其未处理的数据块发送给自己处理。以上方案为了充分利用分布式系统的计算能力,导致数据处理的本地化率较低,分布式系统的数据处理性能也较低。
发明内容
本发明实施例提供了一种分布式系统的控制方法,及管理节点,用于在充分利用分布式系统的计算能力的前提下,提高数据处理的本地化率,并提升分布式系统的数据处理性能。
本发明实施例一方面提供了一种分布式系统的控制方法,包括:
管理节点确定待处理的数据块,并获取管理节点下的各分布式节点的第一数据处理能力;
管理节点按照各分布式节点的第一数据处理能力的大小,将待处理的数据块存入各分布式节点;
在各分布式节点进行数据处理过程中,管理节点通过数据处理的完成状态确定各分布式节点的第二数据处理能力,并依据各分布式节点的第二数据处理能力将未处理的数据块进行重新存放。
结合一方面的实现方式,在第一种可能的实现方式中,所述在各分布式节点进行数据处理过程中,管理节点通过数据处理的完成状态确定各分布式节点的第二数据处理能力包括:
在各分布式节点进行数据处理过程中,管理节点通过各分布式节点的空闲计算资源、待处理数据块的数量、网络状态以及加速比确定各分布式节点的第二数据处理能力。
结合一方面的实现方式,在第二种可能的实现方式中,所述方法,还包括:
在待处理的数据块全部被处理完毕后,依据各分布式节点处理的数据块调整各分布式节点的数据处理能力;
在接收到与所述待处理的数据块相同的待处理的数据块后,依据调整后的各分布式节点的数据处理能力的大小,将待处理的数据块存入各分布式节点。
结合一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述依据各分布式节点处理的数据块调整各分布式节点的数据处理能力包括:
依据第一次存入各分布式节点的数据块的数量以及各分布式节点实际处理数据块的数量,确定各分布式节点的数据处理本地化率;或者,依据存放在各分布式节点本地的数据块所需的处理时间以及各分布式节点的实际数据处理时间,确定各分布式节点的数据处理本地化率依据各分布式节点的数据处理本地化率调整各分布式节点的数据处理能力。
结合一方面的实现方式,在第四种可能的实现方式中,所述将待处理的数据块存入各分布式节点包括:
将待处理的数据块存入各分布式节点,并由各分布式节点的中央处理器分配到图形处理器进行数据处理。
结合一方面的实现方式、一方面的第一种、第二种、第三种或者第四种可能的实现方式,在第五种可能的实现方式中,所述方法,还包括:
管理节点获取各分布式节点的网络速率;
若按照第一数据处理能力大小或者第二数据处理能力大小,会将数据块存入第一分布式节点,并且第一分布式节点的网络速率小于网络速度预定阈值,则在分布式系统中重新选择节点进行存放。
结合一方面的实现方式,在第六种可能的实现方式中,所述方法,还包括:
在待处理的数据块全部被处理完毕后,依据各数据块的处理时间以及处理各数据块的分布式节点的第一数据处理能力,确定各数据块的数据处理量;
管理节点在接收到与所述待处理的数据块相同的待处理的数据块后,依据各数据块的数据处理量以及各分布式节点的第一数据处理能力,将待处理的数据块存入各分布式节点。
结合一方面的第六种可能的实现方式,在第七种可能的实现方式中,所述方法,其特征在于,还包括:
管理节点获取各分布式节点的网络速率;
所述依据各数据块的数据处理量以及各分布式节点的第一数据处理能力,将待处理的数据块存入各分布式节点包括:
依据各数据块的数据处理量、各分布式节点的网络速率以及第一数据处理能力,将待处理的数据块存入各分布式节点。
本发明实施例二方面提供了一种分布式系统的管理节点,包括:
数据确定单元,用于确定待处理的数据块;
能力确定单元,用于获取管理节点下的各分布式节点的第一数据处理能力;在各分布式节点进行数据处理过程中,通过数据处理的完成状态确定各分布式节点的第二数据处理能力;
分配单元,用于按照所述能力确定单元确定的各分布式节点的第一数据处理能力的大小,将待处理的数据块存入各分布式节点;依据所述能力确定单元确定的各分布式节点的第二数据处理能力将未处理的数据块进行重新存放。
结合二方面的实现方式,在第一种可能的实现方式中,所述能力确定单元,用于在各分布式节点进行数据处理过程中,管理节点通过各分布式节点的空闲计算资源、待处理数据块的数量、网络状态以及加速比确定各分布式节点的第二数据处理能力。
结合一方面的实现方式,在第二种可能的实现方式中,所述能力确定单元,还用于在待处理的数据块全部被处理完毕后,依据各分布式节点处理的数据块调整各分布式节点的数据处理能力;
所述分配单元,用于在接收到与所述待处理的数据块相同的待处理的数据块后,依据所述能力确定单元调整后的各分布式节点的数据处理能力的大小,将待处理的数据块存入各分布式节点。
结合一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述能力确定单元,用于依据第一次存入各分布式节点的数据块的数量以及各分布式节点实际处理数据块的数量,确定各分布式节点的数据处理本地化率;或者,依据存放在各分布式节点本地的数据块所需的处理时间以及各分布式节点的实际数据处理时间,确定各分布式节点的数据处理本地化率依据各分布式节点的数据处理本地化率调整各分布式节点的数据处理能力。
结合二方面的实现方式、二方面的第一种、第二种或者第三种可能的实现方式,在第四种可能的实现方式中,所述管理节点,还包括:
速率获取单元,用于获取各分布式节点的网络速率;
所述分配单元,用于若按照第一数据处理能力大小或者第二数据处理能力大小,会将数据块存入第一分布式节点,并且第一分布式节点的网络速率小于网络速度预定阈值,则在分布式系统中重新选择节点进行存放。
结合一方面的实现方式,在第五种可能的实现方式中,所述管理节点,还包括:
处理量确定单元,用于在待处理的数据块全部被处理完毕后,依据各数据块的处理时间以及处理各数据块的分布式节点的第一数据处理能力,确定各数据块的数据处理量;
所述分配单元,用于在管理节点在接收到与所述待处理的数据块相同的待处理的数据块后,依据各数据块的数据处理量以及各分布式节点的第一数据处理能力,将待处理的数据块存入各分布式节点。
结合一方面的第五种可能的实现方式,在第六种可能的实现方式中,所述管理节点,还包括:
获取速率单元,用于获取各分布式节点的网络速率;
所述分配单元,用于依据各数据块的数据处理量、各分布式节点的网络速率以及第一数据处理能力,将待处理的数据块存入各分布式节点。
从以上技术方案可以看出,本发明实施例具有以下优点:在分布式系统的各分布式节点进行数据处理过程中,数据处理量小的数据块会迅速被处理完毕,这样这些被处理完毕的数据块所占用的数据处理能力将会被释放,因此在分布式节点进行数据处理过程中,各分布式节点的数据处理能力实际上是在不停变化中的。基于此,本发明实施例提出了动态确定分布式节点的数据处理能力的方案,从而对未处理的数据块进行重新存放,来减少数据块的迁移。这样不仅可以充分利用分布式系统的计算能力,还可以通过提高数据处理的本地化率,来提升分布式系统的数据处理性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例方法流程示意图;
图2为本发明实施例分布式异构系统架构示意图;
图3为本发明实施例方法流程示意图;
图4为本发明实施例分布式异构系统数据存放示意图;
图5为本发明实施例分布式异构系统数据存放示意图;
图6为本发明实施例管理节点结构示意图;
图7为本发明实施例管理节点结构示意图;
图8为本发明实施例管理节点结构示意图;
图9为本发明实施例管理节点结构示意图;
图10为本发明实施例管理节点结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了一种分布式系统的控制方法,如图1所示,包括:
101:管理节点确定待处理的数据块,并获取管理节点下的各分布式节点的第一数据处理能力;
在本发明实施例中,管理节点是确定数据块如何分配的决策节点,它可以与接收业务处理任务(待处理数据块)的分发设备集成在一起作为管理节点使用,也可以单独存在于网络中,这种情况下管理节点的分配决策将会下发到分发设备指令分发设备按照分配决策进行数据块的存放。管理节点与分发设备是否集成在一起,对此本发明实施例不予限定。
管理节点确定待处理的数据块的方式可以具体如下:在接收到处理任务以后,可以根据与这个处理任务对应的配置文件确定待处理的数据块的数量,这样处理任务可以拆分为很多的数据块,那么这些数据块就是待处理的数据块。
102:管理节点按照各分布式节点的第一数据处理能力的大小,将待处理的数据块存入各分布式节点;
可选地,本发明实施例可以应用于异构的分布式系统中,基于传统CPU(Central Processing Unit,中央处理器)的分布式计算体系结构具有超强的海量数据处理能力,但不具有足够的高性能计算能力,将具有超强并行计算能力的GPU(Graphic Processing Unit,图形处理器)与云计算相融合,基于CPU/GPU异构平台的高性能计算体系结构是云计算硬件平台发展的一个重要方向。本发明实施例提供的异构的分布式系统的实现方案具体如下:上述将待处理的数据块存入各分布式节点包括:将待处理的数据块存入各分布式节点,由各分布式节点的中央处理器分配到图形处理器进行数据处理。
进一步地,在数据块被存入的过程中,由于各分布式节点的网络速率并不相同,数据块存入各分布式节点所需的时间也不同,若仅考虑各分布式节点的数据处理能力,则仍然不能尽快的完成数据块的处理,因此本发明实施例提出了进一步参考各分布式节点的网络速率的方案,具体如下:上述方法,还包括:管理节点获取各分布式节点的网络速率;若按照第一数据处理能力大小或者第二数据处理能力大小,会将数据块存入第一分布式节点,并且第一分布式节点的网络速率小于网络速度预定阈值,则在分布式系统中重新选择节点进行存放。
分布式节点的网络速率的获取方案可以有很多,例如:按照节点网络速率(N_S)=(非本地处理的数据块大小)/(传输时间)、节点网络状态(S_S)=N_S/(分布式网络平均网速),然后按照节点网络状态来确定网络传输速率。还可以由各分布式节点上报自身的网络速率。网络速率的获得方式,本发明实施例不予限定。
103:在各分布式节点进行数据处理过程中,管理节点通过数据处理的完成状态确定各分布式节点的第二数据处理能力,并依据各分布式节点的第二数据处理能力将未处理的数据块进行重新存放。
在分布式系统的各分布式节点进行数据处理过程中,数据处理量小的数据块会迅速被处理完毕,这样这些被处理完毕的数据块所占用的数据处理能力将会被释放,因此在分布式节点进行数据处理过程中,各分布式节点的数据处理能力实际上是在不停变化中的。基于此,本发明实施例提出了动态确定分布式节点的数据处理能力的方案,从而对未处理的数据块进行重新存放,来减少数据块的迁移。这样不仅可以充分利用分布式系统的计算能力,还可以通过提高数据处理的本地化率,来提升分布式系统的数据处理性能。
本发明实施例还提供了第二数据处理能力的具体计算方案,具体如下:上述在各分布式节点进行数据处理过程中,管理节点通过数据处理的完成状态确定各分布式节点的第二数据处理能力包括:在各分布式节点进行数据处理过程中,管理节点通过各分布式节点的空闲计算资源、待处理数据块的数量、网络状态以及加速比确定各分布式节点的第二数据处理能力。
在分布式系统中,经常会有很多业务数据是需要经常处理的,例如一些需要定时周期性处理的业务报表、统计数据库的计算等等。这些数据在计算完一次以后,数据块的再次分配是可以参考前一次的数据处理的实际执行情况来进行分配的,这样可以进一步的使数据块的实际数据处理量与各分布式节点的数据处理能力相适应,来减少数据块的迁移,具体方案如下:进一步地,上述方法,还包括:在待处理的数据块全部被处理完毕后,依据各分布式节点处理的数据块调整各分布式节点的数据处理能力;在接收到与上述待处理的数据块相同的待处理的数据块后,依据调整后的各分布式节点的数据处理能力的大小,将待处理的数据块存入各分布式节点。
由于数据块已经被处理完毕,那么数据块的实际处理节点(或者每个分布式节点实际处理的数据块)是可知的,那么据此是可以制定相关的规则来重新确定分布式节点的数据处理能力。被调整后的数据处理能力将不再单体现了数据处理的速度,还会与数据块的内容等建立内在的关联,从而更贴近实际处理时间的优化,基于此本发明实施例给出了依据各分布式节点处理的数据块调整各分布式节点的数据处理能力具体实现方式的举例,如下:可选地,上述依据各分布式节点处理的数据块调整各分布式节点的数据处理能力包括:依据第一次存入各分布式节点的数据块的数量以及各分布式节点实际处理数据块的数量,确定各分布式节点的数据处理本地化率;或者,依据存放在各分布式节点本地的数据块所需的处理时间以及各分布式节点的实际数据处理时间,确定各分布式节点的数据处理本地化率依据各分布式节点的数据处理本地化率调整各分布式节点的数据处理能力。
可以理解的是,如果各分布式节点的数据处理能力被调整以后,在进行数据块分配过程中,将会有与原有的分配结果发生改变,相应存放的方式也会发生改变,进而减少数据块的迁移,提高数据处理的本地化率。
在分布式系统中,经常会有很多业务数据是需要经常处理的,例如一些需要定时周期性处理的业务报表、统计数据库的计算等等。这些数据在计算完一次以后,数据块的再次分配是可以参考前一次的数据处理的实际执行情况来进行分配的,这样可以进一步的使数据块的实际数据处理量与各分布式节点的数据处理能力相适应,来减少数据块的迁移;与前一方案不同的是,基于第一次数据块的处理,由于已经获知的信息有:各分布式节点的数据处理能力,可以获知的有各数据块的实际处理时间,那么基于这两点是可以计算出各数据块的数据处理量的,数据处理量可以有各种参考值,例如采用实际处理的分布式节点的数据处理能力与实际处理时间的积作为参考值。基于此本实施例具体可以如下:进一步地,上述方法,还包括:
在待处理的数据块全部被处理完毕后,依据各数据块的处理时间以及处理各数据块的分布式节点的第一数据处理能力,确定各数据块的数据处理量;
管理节点在接收到与上述待处理的数据块相同的待处理的数据块后,依据各数据块的数据处理量以及各分布式节点的第一数据处理能力,将待处理的数据块存入各分布式节点。
在获知各数据块的的数据处理量以后,分配数据块的策略可以继续增加可能影响分布式系统的实际处理时间的参数,例如:网络速率。可以获知的是,如果一个分布式节点仅处理一个数据块,那么处理时间应该是这个数据块传输到这个节点的时间、该分布式节点处理这个数据块的时间,以及数据处理结果回传的时间之和。因此网络速率是会影响到分布式系统的实际处理时间的,应该将数据块分配给以上“时间之和”最小的节点,基于此本发明实施例提供了如下解决方案:进一步地,上述方法,还包括:管理节点获取各分布式节点的网络速率;上述依据各数据块的数据处理量以及各分布式节点的第一数据处理能力,将待处理的数据块存入各分布式节点包括:依据各数据块的数据处理量、各分布式节点的网络速率以及第一数据处理能力,将待处理的数据块存入各分布式节点。
以下实施例将以异构的分布式系统为例对本发明实施例进行更详细的举例说明,需要说明的是,在任意的分布式系统中均可以使用本发明实施例方案并不仅限于异构的分布式系统。
本实施例在由异构Hadoop(一种分布式系统基础架构)集群构成的云计算平台中,每个分布式节点的软硬件配置是不相同的,其计算能力也会有明显的差异,高速的分布式节点会比低速分布式节点更快的处理完存储在本地磁盘的数据。为了尽快地完成数据处理任务,快速节点在处理完本地输入数据任务时,会耗费有限的网络带宽来请求处理附近慢速分布式节点未处理的数据。在异构的分布式系统中,各分布式节点的处理能力是根据CPU+GPU来计算硬件的数据处理能力(也可以视为是计算能力),进行文件存放和任务调度。本发明实施例的分布式异构系统架构示意图,如图2所示,包含,客户端201、管理节点202、分布式节点203;客户端201和分布式节点203可能有很多个,客户端201提出分布式处理的业务需求,即待处理数据块的来源;分布式节点203用于处理存放到本地的数据块得到数据处理结果,数据处理的结果可以输出可以通过管理节点202回传到客户端201。分布式节点203从上层到底层主要可以有Task Tracker(任务追踪)CUDA(ComputeUnified Device Architecture,一种运算架构)/OPENCL(Computing Language,运算语言)、OS(Operating System,操作系统)、CPU、GPU。管理节点202的主要功能是数据块的分配决策以及数据块的存放。
本发明实施例中,管理节点主要的功能有两个部分:一、数据存放:在分布式系统中,数据存放以分布式节点计算能力为标准,计算能力越强,存放的数据块数越多。二、任务分配:控制节点动态计算分布式节点计算能力,任务分配器(可以是集成在管理节点内的功能单元)根据分布式节点的计算能力,以数据为中心,将计算任务发给计算能力强的节点进行处理。分布式节点的功能是:任务执行:分布式结点从分布式文件系统获取输入数据后,CPU将计算任务放到GPU上进行运算,并返回结果。具体流程如图3所示。
数据存放流程,如图3左则流程所示,包括如下步骤:
301、控制节点根据配置文件计算需存放的数据块数量。
302、控制节点根据各分布式节点的硬件配置或运行标准程序等的参数,计算各分布式节点的计算能力。
另外,还会在计算任务(数据块)被分布式节点处理完毕时,根据任务执行状况更新计算能力。此处在图3右侧流程图中将给出更详细的说明。
303、控制节点根据各分布式节点的计算能力,进行数据块分配。
304、控制节点按照分配结果将数据块存入分布式节点。
305、控制节点计算分布式节点的网络状态,进入步骤302后,控制节点根据网络状态和分布式节点存放的数据块数量,重新计算分布式节点计算能力。其中步骤302至305是重复执行的,直到所有数据块存放完毕。
在本实施例中,数据存放原则可以如下:
1、以块为单位,在系统中查找一个计算能力最强的分布式节点进行数据存放。
2、分布式节点计算能力随着存放数据块的数量增加而减弱;另外,网络状态越好,计算能力越强。
3、在各分布式节点计算能力相同时,选择存放数据块数量较少的分布式节点存放。
4、分布式节点计算能力和存放数据块的块数都相同时,可以随机选择。
基于本分发明实施例提供的数据块的分配/存放规则,以下给出了一个数据存放示例:如图4所示,有6个数据块B_1~B_6需要存放到6个分布式节点C_1~C_6。在本例中,需要存放数据块总数为6块,系统中有6个数据节点,其计算能力分别为1,2,3,4,5,6.对应的分布式节点编号为节点C_1,C_2,C_3,C_4,C_5,C_6。具体存放过程如表1~表6所示。
1、根据存放规则:将B_1存入到节点6;
调整系统节点计算能力,寻找B_2可存放的节点。
表1
Figure BDA0000436484460000121
Figure BDA0000436484460000131
2、根据存放规则:将B_2存入到节点5;
调整系统节点计算能力,寻找B_3可存放的节点。
表2
Figure BDA0000436484460000132
3、根据存放规则:将B_3存入到节点6;
调整系统节点计算能力,寻找B_4可存放的节点。
表3
Figure BDA0000436484460000133
4、根据存放规则:将B_4存入到节点4;
调整系统节点计算能力,寻找B_5可存放的节点。
表4
5、根据存放规则:将B_5存入到节点5;
调整系统节点计算能力,寻找B_6可存放的节点。
表5
Figure BDA0000436484460000143
6、根据存放规则:将B_6存入到节点6;调整系统节点计算能力。
表6
Figure BDA0000436484460000151
数据块存放完毕后的图如图5所示,请对比图4所示,在此不再赘述。
本发明实施例的任务调度原则可以如下:
1、任务分配器动态节点计算能力,以数据为中心进行任务调度。
2、当有大量计算资源空闲时,则将未分配的任务分配到空闲节点(将数据进行转移)。
任务分配过程如图3所示,包括如下步骤:
306:控制节点获取各分布式节点的状态(分布式节点的状态包括:空闲的计算资源,待处理数据块数,节点网络状态,加速比等),依据各分布式节点的状态确定各分布式节点的计算能力,可以选取分布式系统中计算能力最强的分布式节点。将本步骤中确定的计算能力传递给步骤302。
以上步骤中参数计算公式可以参考如下:
节点网络速率(N_S)=(任务执行时非本地数据块大小)/(传输时间);
节点网络状态(S_S)=N_S/(分布式网络平均网速);
加速比=(数据块本地执行平均耗时)/(数据块非本地执行平均耗时);
步骤306确定的新的计算能力被传递给步骤302以后,将出现如下结果:控制节点控制下的任务分配器选取数据块,分配给上述计算能力最强的分布式节点。当数据块在该分布式节点上(计算能力强的分布式节点)的所有任务都已经计算完时,从分布式系统中选取计算能力最弱的分布式节点上的数据块对应的任务分配给上述计算能力强的分布式节点。以上步骤306是循环执行的,直到计算任务完成,进入步骤307。
307:当计算任务完成后,计算分布式节点执行任务的本地化率,并调整下次执行数据存放时作为参考的各分布式节点的计算能力。
任务结束后节点计算能力调整,可参考的公式如下:
节点执行任务的本地化率(L)=(节点所执行任务的数据存放于本地的数据块总数)/(节点所执行任务的数据块总数)。
或本地化率(L)=(节点所执行任务的数据存放于本地的数据块时间)/(节点所执行任务总的执行时间);
节点调整后计算能力=K*(数据计算能力)/(节点执行任务的本地化率)。
上述K是权值,技术人员可以进行设定,其具体取值本发明实施例对此不予限定。
本发明实施例还提供了一种分布式系统的管理节点,如图6所示,包括:
数据确定单元601,用于确定待处理的数据块;
能力确定单元602,用于获取管理节点下的各分布式节点的第一数据处理能力;在各分布式节点进行数据处理过程中,通过数据处理的完成状态确定各分布式节点的第二数据处理能力;
分配单元603,用于按照上述能力确定单元602确定的各分布式节点的第一数据处理能力的大小,将待处理的数据块存入各分布式节点;依据上述能力确定单元602确定的各分布式节点的第二数据处理能力将未处理的数据块进行重新存放。
在本发明实施例中,管理节点是确定数据块如何分配的决策节点,它可以与接收业务处理任务(待处理数据块)的分发设备集成在一起作为管理节点使用,也可以单独存在于网络中,这种情况下管理节点的分配决策将会下发到分发设备指令分发设备按照分配决策进行数据块的存放。管理节点与分发设备是否集成在一起,对此本发明实施例不予限定。管理节点确定待处理的数据块的方式可以具体如下:在接收到处理任务以后,可以根据与这个处理任务对应的配置文件确定待处理的数据块的数量,这样处理任务可以拆分为很多的数据块,那么这些数据块就是待处理的数据块。
在分布式系统的各分布式节点进行数据处理过程中,数据处理量小的数据块会迅速被处理完毕,这样这些被处理完毕的数据块所占用的数据处理能力将会被释放,因此在分布式节点进行数据处理过程中,各分布式节点的数据处理能力实际上是在不停变化中的。基于此,本发明实施例提出了动态确定分布式节点的数据处理能力的方案,从而对未处理的数据块进行重新存放,来减少数据块的迁移。这样不仅可以充分利用分布式系统的计算能力,还可还可以通过提高数据处理的本地化率,来提升分布式系统的数据处理性能。
可选地,本发明实施例还提供了第二数据处理能力的具体计算方案,具体如下:上述能力确定单元602,用于在各分布式节点进行数据处理过程中,管理节点通过各分布式节点的空闲计算资源、待处理数据块的数量、网络状态以及加速比确定各分布式节点的第二数据处理能力。
在分布式系统中,经常会有很多业务数据是需要经常处理的,例如一些需要定时周期性处理的业务报表、统计数据库的计算等等。这些数据在计算完一次以后,数据块的再次分配是可以参考前一次的数据处理的实际执行情况来进行分配的,这样可以进一步的使数据块的实际数据处理量与各分布式节点的数据处理能力相适应,来减少数据块的迁移,具体方案如下:进一步地,上述能力确定单元602,还用于在待处理的数据块全部被处理完毕后,依据各分布式节点处理的数据块调整各分布式节点的数据处理能力;
上述分配单元603,用于在接收到与上述待处理的数据块相同的待处理的数据块后,依据上述能力确定单元602调整后的各分布式节点的数据处理能力的大小,将待处理的数据块存入各分布式节点。
由于数据块已经被处理完毕,那么数据块的实际处理节点(或者每个分布式节点实际处理的数据块)是可知的,那么据此是可以制定相关的规则来重新确定分布式节点的数据处理能力。被调整后的数据处理能力将不再单体现了数据处理的速度,还会与数据块的内容等建立内在的关联,从而更贴近实际处理时间的优化,基于此本发明实施例给出了依据各分布式节点处理的数据块调整各分布式节点的数据处理能力具体实现方式的举例,如下:可选地,上述能力确定单元602,用于依据第一次存入各分布式节点的数据块的数量以及各分布式节点实际处理数据块的数量,确定各分布式节点的数据处理本地化率;或者,依据存放在各分布式节点本地的数据块所需的处理时间以及各分布式节点的实际数据处理时间,确定各分布式节点的数据处理本地化率依据各分布式节点的数据处理本地化率调整各分布式节点的数据处理能力。
可以理解的是,如果各分布式节点的数据处理能力被调整以后,在进行数据块分配过程中,将会有与原有的分配结果发生改变,相应存放的方式也会发生改变,进而减少数据块的迁移,提高数据处理的本地化率。
进一步地,在数据块被存入的过程中,由于各分布式节点的网络速率并不相同,数据块存入各分布式节点所需的时间也不同,若仅考虑各分布式节点的数据处理能力,则仍然不能尽快的完成数据块的处理,因此本发明实施例提出了进一步参考各分布式节点的网络速率的方案,具体如下:如图7所示,上述管理节点,还包括:
速率获取单元701,用于获取各分布式节点的网络速率;
上述分配单元603,用于若按照第一数据处理能力大小或者第二数据处理能力大小,会将数据块存入第一分布式节点,并且第一分布式节点的网络速率小于网络速度预定阈值,则在分布式系统中重新选择节点进行存放。
分布式节点的网络速率的获取方案可以有很多,例如:按照节点网络速率(N_S)=(非本地处理的数据块大小)/(传输时间)、节点网络状态(S_S)=N_S/(分布式网络平均网速),然后按照节点网络状态来确定网络传输速率。还可以由各分布式节点上报自身的网络速率。网络速率的获得方式,本发明实施例不予限定。
在分布式系统中,经常会有很多业务数据是需要经常处理的,例如一些需要定时周期性处理的业务报表、统计数据库的计算等等。这些数据在计算完一次以后,数据块的再次分配是可以参考前一次的数据处理的实际执行情况来进行分配的,这样可以进一步的使数据块的实际数据处理量与各分布式节点的数据处理能力相适应,来减少数据块的迁移;与前一方案不同的是,基于第一次数据块的处理,由于已经获知的信息有:各分布式节点的数据处理能力,可以获知的有各数据块的实际处理时间,那么基于这两点是可以计算出各数据块的数据处理量的,数据处理量可以有各种参考值,例如采用实际处理的分布式节点的数据处理能力与实际处理时间的积作为参考值。基于此本实施例具体可以如下:进一步地,如图8所示,上述管理节点,还包括:
处理量确定单元801,用于在待处理的数据块全部被处理完毕后,依据各数据块的处理时间以及处理各数据块的分布式节点的第一数据处理能力,确定各数据块的数据处理量;
上述分配单元603,用于在管理节点在接收到与上述待处理的数据块相同的待处理的数据块后,依据各数据块的数据处理量以及各分布式节点的第一数据处理能力,将待处理的数据块存入各分布式节点。
在获知各数据块的的数据处理量以后,分配数据块的策略可以继续增加可能影响分布式系统的实际处理时间的参数,例如:网络速率。可以获知的是,如果一个分布式节点仅处理一个数据块,那么处理时间应该是这个数据块传输到这个节点的时间、该分布式节点处理这个数据块的时间,以及数据处理结果回传的时间之和。因此网络速率是会影响到分布式系统的实际处理时间的,应该将数据块分配给以上“时间之和”最小的节点,基于此本发明实施例提供了如下解决方案:进一步地,如图9所示,上述管理节点,还包括:获取速率单元901,用于获取各分布式节点的网络速率;
上述分配单元603,用于依据各数据块的数据处理量、各分布式节点的网络速率以及第一数据处理能力,将待处理的数据块存入各分布式节点。
本发明实施例还提供了另一种分布式系统的管理节点,如图10所示,包括:接收器1001、发射器1002、处理器1003以及存储器1004;
其中,上述处理器1003,用于确定待处理的数据块;获取管理节点下的各分布式节点的第一数据处理能力;按照各分布式节点的第一数据处理能力的大小,将待处理的数据块存入各分布式节点;在各分布式节点进行数据处理过程中,通过数据处理的完成状态确定各分布式节点的第二数据处理能力,并依据各分布式节点的第二数据处理能力将未处理的数据块进行重新存放。
在本发明实施例中,管理节点是确定数据块如何分配的决策节点,它可以与接收业务处理任务(待处理数据块)的分发设备集成在一起作为管理节点使用,也可以单独存在于网络中,这种情况下管理节点的分配决策将会下发到分发设备指令分发设备按照分配决策进行数据块的存放。管理节点与分发设备是否集成在一起,对此本发明实施例不予限定。管理节点确定待处理的数据块的方式可以具体如下:在接收到处理任务以后,可以根据与这个处理任务对应的配置文件确定待处理的数据块的数量,这样处理任务可以拆分为很多的数据块,那么这些数据块就是待处理的数据块。
在分布式系统的各分布式节点进行数据处理过程中,数据处理量小的数据块会迅速被处理完毕,这样这些被处理完毕的数据块所占用的数据处理能力将会被释放,因此在分布式节点进行数据处理过程中,各分布式节点的数据处理能力实际上是在不停变化中的。基于此,本发明实施例提出了动态确定分布式节点的数据处理能力的方案,从而对未处理的数据块进行重新存放,来减少数据块的迁移。这样不仅可以充分利用分布式系统的计算能力,还可还可以通过提高数据处理的本地化率,来提升分布式系统的数据处理性能。
本发明实施例还提供了第二数据处理能力的具体计算方案,具体如下:上述处理器1003,用于在各分布式节点进行数据处理过程中,管理节点通过数据处理的完成状态确定各分布式节点的第二数据处理能力包括:用于在各分布式节点进行数据处理过程中,管理节点通过各分布式节点的空闲计算资源、待处理数据块的数量、网络状态以及加速比确定各分布式节点的第二数据处理能力。
在分布式系统中,经常会有很多业务数据是需要经常处理的,例如一些需要定时周期性处理的业务报表、统计数据库的计算等等。这些数据在计算完一次以后,数据块的再次分配是可以参考前一次的数据处理的实际执行情况来进行分配的,这样可以进一步的使数据块的实际数据处理量与各分布式节点的数据处理能力相适应,来减少数据块的迁移,具体方案如下:进一步地,上述处理器1003,还用于在待处理的数据块全部被处理完毕后,依据各分布式节点处理的数据块调整各分布式节点的数据处理能力;在接收到与上述待处理的数据块相同的待处理的数据块后,依据调整后的各分布式节点的数据处理能力的大小,将待处理的数据块存入各分布式节点。
由于数据块已经被处理完毕,那么数据块的实际处理节点(或者每个分布式节点实际处理的数据块)是可知的,那么据此是可以制定相关的规则来重新确定分布式节点的数据处理能力。被调整后的数据处理能力将不再单体现了数据处理的速度,还会与数据块的内容等建立内在的关联,从而更贴近实际处理时间的优化,基于此本发明实施例给出了依据各分布式节点处理的数据块调整各分布式节点的数据处理能力具体实现方式的举例,如下:可选地,上述处理器1003,用于依据各分布式节点处理的数据块调整各分布式节点的数据处理能力包括:用于依据第一次存入各分布式节点的数据块的数量以及各分布式节点实际处理数据块的数量,确定各分布式节点的数据处理本地化率;或者,依据存放在各分布式节点本地的数据块所需的处理时间以及各分布式节点的实际数据处理时间,确定各分布式节点的数据处理本地化率依据各分布式节点的数据处理本地化率调整各分布式节点的数据处理能力。
可以理解的是,如果各分布式节点的数据处理能力被调整以后,在进行数据块分配过程中,将会有与原有的分配结果发生改变,相应存放的方式也会发生改变,进而减少数据块的迁移,提高数据处理的本地化率。
可选地,本发明实施例可以应用于异构的分布式系统中,基于传统CPU(Central Processing Unit,中央处理器)的分布式计算体系结构具有超强的海量数据处理能力,但不具有足够的高性能计算能力,将具有超强并行计算能力的GPU(Graphic Processing Unit,图形处理器)与云计算相融合,基于CPU/GPU异构平台的高性能计算体系结构是云计算硬件平台发展的一个重要方向。本发明实施例提供的异构的分布式系统的实现方案具体如下:上述处理器1003,用于将待处理的数据块存入各分布式节点包括:将待处理的数据块存入各分布式节点,并由各分布式节点的中央处理器分配到图形处理器进行数据处理。
进一步地,在数据块被存入的过程中,由于各分布式节点的网络速率并不相同,数据块存入各分布式节点所需的时间也不同,若仅考虑各分布式节点的数据处理能力,则仍然不能尽快的完成数据块的处理,因此本发明实施例提出了进一步参考各分布式节点的网络速率的方案,具体如下:上述处理器1003,还用于获取各分布式节点的网络速率;
若按照第一数据处理能力大小或者第二数据处理能力大小,会将数据块存入第一分布式节点,并且第一分布式节点的网络速率小于网络速度预定阈值,则在分布式系统中重新选择节点进行存放。
分布式节点的网络速率的获取方案可以有很多,例如:按照节点网络速率(N_S)=(非本地处理的数据块大小)/(传输时间)、节点网络状态(S_S)=N_S/(分布式网络平均网速),然后按照节点网络状态来确定网络传输速率。还可以由各分布式节点上报自身的网络速率。网络速率的获得方式,本发明实施例不予限定。
在分布式系统中,经常会有很多业务数据是需要经常处理的,例如一些需要定时周期性处理的业务报表、统计数据库的计算等等。这些数据在计算完一次以后,数据块的再次分配是可以参考前一次的数据处理的实际执行情况来进行分配的,这样可以进一步的使数据块的实际数据处理量与各分布式节点的数据处理能力相适应,来减少数据块的迁移;与前一方案不同的是,基于第一次数据块的处理,由于已经获知的信息有:各分布式节点的数据处理能力,可以获知的有各数据块的实际处理时间,那么基于这两点是可以计算出各数据块的数据处理量的,数据处理量可以有各种参考值,例如采用实际处理的分布式节点的数据处理能力与实际处理时间的积作为参考值。基于此本实施例具体可以如下:进一步地,上述处理器1003,还用于在待处理的数据块全部被处理完毕后,依据各数据块的处理时间以及处理各数据块的分布式节点的第一数据处理能力,确定各数据块的数据处理量;在接收到与上述待处理的数据块相同的待处理的数据块后,依据各数据块的数据处理量以及各分布式节点的第一数据处理能力,将待处理的数据块存入各分布式节点。
在获知各数据块的的数据处理量以后,分配数据块的策略可以继续增加可能影响分布式系统的实际处理时间的参数,例如:网络速率。可以获知的是,如果一个分布式节点仅处理一个数据块,那么处理时间应该是这个数据块传输到这个节点的时间、该分布式节点处理这个数据块的时间,以及数据处理结果回传的时间之和。因此网络速率是会影响到分布式系统的实际处理时间的,应该将数据块分配给以上“时间之和”最小的节点,基于此本发明实施例提供了如下解决方案:进一步地,上述处理器1003,还用于获取各分布式节点的网络速率;上述依据各数据块的数据处理量以及各分布式节点的第一数据处理能力,将待处理的数据块存入各分布式节点包括:依据各数据块的数据处理量、各分布式节点的网络速率以及第一数据处理能力,将待处理的数据块存入各分布式节点。
值得注意的是,上述装置实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (15)

1.一种分布式系统的控制方法,其特征在于,包括:
管理节点确定待处理的数据块,并获取管理节点下的各分布式节点的第一数据处理能力;
管理节点按照各分布式节点的第一数据处理能力的大小,将待处理的数据块存入各分布式节点;
在各分布式节点进行数据处理过程中,管理节点通过数据处理的完成状态确定各分布式节点的第二数据处理能力,并依据各分布式节点的第二数据处理能力将未处理的数据块进行重新存放。
2.根据权利要求1所述方法,其特征在于,所述在各分布式节点进行数据处理过程中,管理节点通过数据处理的完成状态确定各分布式节点的第二数据处理能力包括:
在各分布式节点进行数据处理过程中,管理节点通过各分布式节点的空闲计算资源、待处理数据块的数量、网络状态以及加速比确定各分布式节点的第二数据处理能力。
3.根据权利要求1所述方法,其特征在于,还包括:
在待处理的数据块全部被处理完毕后,依据各分布式节点处理的数据块调整各分布式节点的数据处理能力;
在接收到与所述待处理的数据块相同的待处理的数据块后,依据调整后的各分布式节点的数据处理能力的大小,将待处理的数据块存入各分布式节点。
4.根据权利要求3所述方法,其特征在于,所述依据各分布式节点处理的数据块调整各分布式节点的数据处理能力包括:
依据第一次存入各分布式节点的数据块的数量以及各分布式节点实际处理数据块的数量,确定各分布式节点的数据处理本地化率;或者,依据存放在各分布式节点本地的数据块所需的处理时间以及各分布式节点的实际数据处理时间,确定各分布式节点的数据处理本地化率;
依据各分布式节点的数据处理本地化率调整各分布式节点的数据处理能力。
5.根据权利要求1所述方法,其特征在于,所述将待处理的数据块存入各分布式节点包括:
将待处理的数据块存入各分布式节点,并由各分布式节点的中央处理器分配到图形处理器进行数据处理。
6.根据权利要求1至5任意一项所述方法,其特征在于,还包括:
管理节点获取各分布式节点的网络速率;
若按照第一数据处理能力大小或者第二数据处理能力大小,会将数据块存入第一分布式节点,并且第一分布式节点的网络速率小于网络速度预定阈值,则在分布式系统中重新选择节点进行存放。
7.根据权利要求1所述方法,其特征在于,还包括:
在待处理的数据块全部被处理完毕后,依据各数据块的处理时间以及处理各数据块的分布式节点的第一数据处理能力,确定各数据块的数据处理量;
管理节点在接收到与所述待处理的数据块相同的待处理的数据块后,依据各数据块的数据处理量以及各分布式节点的第一数据处理能力,将待处理的数据块存入各分布式节点。
8.根据权利要求7所述方法,其特征在于,还包括:
管理节点获取各分布式节点的网络速率;
所述依据各数据块的数据处理量以及各分布式节点的第一数据处理能力,将待处理的数据块存入各分布式节点包括:
依据各数据块的数据处理量、各分布式节点的网络速率以及第一数据处理能力,将待处理的数据块存入各分布式节点。
9.一种分布式系统的管理节点,其特征在于,包括:
数据确定单元,用于确定待处理的数据块;
能力确定单元,用于获取管理节点下的各分布式节点的第一数据处理能力;在各分布式节点进行数据处理过程中,通过数据处理的完成状态确定各分布式节点的第二数据处理能力;
分配单元,用于按照所述能力确定单元确定的各分布式节点的第一数据处理能力的大小,将待处理的数据块存入各分布式节点;依据所述能力确定单元确定的各分布式节点的第二数据处理能力将未处理的数据块进行重新存放。
10.根据权利要求9所述管理节点,其特征在于,
所述能力确定单元,用于在各分布式节点进行数据处理过程中,管理节点通过各分布式节点的空闲计算资源、待处理数据块的数量、网络状态以及加速比确定各分布式节点的第二数据处理能力。
11.根据权利要求9所述管理节点,其特征在于,
所述能力确定单元,还用于在待处理的数据块全部被处理完毕后,依据各分布式节点处理的数据块调整各分布式节点的数据处理能力;
所述分配单元,用于在接收到与所述待处理的数据块相同的待处理的数据块后,依据所述能力确定单元调整后的各分布式节点的数据处理能力的大小,将待处理的数据块存入各分布式节点。
12.根据权利要求11所述管理节点,其特征在于,
所述能力确定单元,用于依据第一次存入各分布式节点的数据块的数量以及各分布式节点实际处理数据块的数量,确定各分布式节点的数据处理本地化率;或者,依据存放在各分布式节点本地的数据块所需的处理时间以及各分布式节点的实际数据处理时间,确定各分布式节点的数据处理本地化率依据各分布式节点的数据处理本地化率调整各分布式节点的数据处理能力。
13.根据权利要求9至12任意一项所述管理节点,其特征在于,还包括:
速率获取单元,用于获取各分布式节点的网络速率;
所述分配单元,用于若按照第一数据处理能力大小或者第二数据处理能力大小,会将数据块存入第一分布式节点,并且第一分布式节点的网络速率小于网络速度预定阈值,则在分布式系统中重新选择节点进行存放。
14.根据权利要求9所述管理节点,其特征在于,还包括:
处理量确定单元,用于在待处理的数据块全部被处理完毕后,依据各数据块的处理时间以及处理各数据块的分布式节点的第一数据处理能力,确定各数据块的数据处理量;
所述分配单元,用于在管理节点在接收到与所述待处理的数据块相同的待处理的数据块后,依据各数据块的数据处理量以及各分布式节点的第一数据处理能力,将待处理的数据块存入各分布式节点。
15.根据权利要求14所述管理节点,其特征在于,还包括:
获取速率单元,用于获取各分布式节点的网络速率;
所述分配单元,用于依据各数据块的数据处理量、各分布式节点的网络速率以及第一数据处理能力,将待处理的数据块存入各分布式节点。
CN201310681454.5A 2013-12-12 2013-12-12 一种分布式系统的控制方法,及管理节点 Active CN103716381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310681454.5A CN103716381B (zh) 2013-12-12 2013-12-12 一种分布式系统的控制方法,及管理节点

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310681454.5A CN103716381B (zh) 2013-12-12 2013-12-12 一种分布式系统的控制方法,及管理节点

Publications (2)

Publication Number Publication Date
CN103716381A true CN103716381A (zh) 2014-04-09
CN103716381B CN103716381B (zh) 2017-04-12

Family

ID=50408951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310681454.5A Active CN103716381B (zh) 2013-12-12 2013-12-12 一种分布式系统的控制方法,及管理节点

Country Status (1)

Country Link
CN (1) CN103716381B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135388A (zh) * 2014-08-15 2014-11-05 曙光信息产业(北京)有限公司 一种分布式系统中数据节点的安全管理方法
CN104320433A (zh) * 2014-09-28 2015-01-28 北京京东尚科信息技术有限公司 数据处理方法和分布式数据处理系统
CN104580447A (zh) * 2014-12-29 2015-04-29 中国科学院计算机网络信息中心 一种基于访问热度的时空数据服务调度方法
CN104951427A (zh) * 2015-06-30 2015-09-30 深圳清华大学研究院 以矩阵为中心的分布式计算框架
CN105989279A (zh) * 2015-02-13 2016-10-05 上海通用识别技术研究所 基于多层级GPU集群的Domino专用口令破解系统
CN106095832A (zh) * 2016-06-01 2016-11-09 东软集团股份有限公司 分布式并行数据处理方法以及装置
WO2017020742A1 (zh) * 2015-08-06 2017-02-09 阿里巴巴集团控股有限公司 负载均衡方法及设备
CN106648888A (zh) * 2016-11-16 2017-05-10 无锡十月中宸科技有限公司 一种基于区块链技术的分布式高性能计算系统及其运算方法
CN106936607A (zh) * 2015-12-30 2017-07-07 华为技术有限公司 数据处理的方法和数据处理系统
CN107360395A (zh) * 2017-06-21 2017-11-17 安徽森度科技有限公司 一种基于分布式部署的远程自适应视频诊断方法
CN107391907A (zh) * 2017-06-21 2017-11-24 安徽森度科技有限公司 一种基于分布式部署的远程智能视频诊断方法
CN107707582A (zh) * 2015-12-30 2018-02-16 北京典赞科技有限公司 一种基于Host-Device架构的MapReduce计算方法
CN107743246A (zh) * 2017-01-24 2018-02-27 贵州白山云科技有限公司 任务处理方法、系统及数据处理系统
CN107783731A (zh) * 2017-08-07 2018-03-09 荣科科技股份有限公司 一种大数据实时处理方法及处理系统
CN110134516A (zh) * 2019-05-16 2019-08-16 深圳前海微众银行股份有限公司 金融数据处理方法、装置、设备及计算机可读存储介质
CN110633168A (zh) * 2018-06-22 2019-12-31 北京东土科技股份有限公司 一种分布式存储系统的数据备份方法和系统
CN110837421A (zh) * 2019-11-13 2020-02-25 北京知道创宇信息技术股份有限公司 一种任务分配方法及装置
CN112036502A (zh) * 2020-09-07 2020-12-04 杭州海康威视数字技术股份有限公司 图像数据比对方法、装置及系统
CN114116774A (zh) * 2022-01-28 2022-03-01 北京安帝科技有限公司 日志数据的查询方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576994A (zh) * 2009-06-22 2009-11-11 中国农业大学 遥感图像处理方法及装置
CN102004670A (zh) * 2009-12-17 2011-04-06 华中科技大学 一种基于MapReduce的自适应作业调度方法
CN103188345A (zh) * 2013-03-01 2013-07-03 北京邮电大学 分布式动态负载管理系统和方法
CN103369042A (zh) * 2013-07-10 2013-10-23 中国人民解放军国防科学技术大学 一种数据处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576994A (zh) * 2009-06-22 2009-11-11 中国农业大学 遥感图像处理方法及装置
CN102004670A (zh) * 2009-12-17 2011-04-06 华中科技大学 一种基于MapReduce的自适应作业调度方法
CN103188345A (zh) * 2013-03-01 2013-07-03 北京邮电大学 分布式动态负载管理系统和方法
CN103369042A (zh) * 2013-07-10 2013-10-23 中国人民解放军国防科学技术大学 一种数据处理方法和装置

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135388B (zh) * 2014-08-15 2017-06-06 曙光信息产业(北京)有限公司 一种分布式系统中数据节点的安全管理方法
CN104135388A (zh) * 2014-08-15 2014-11-05 曙光信息产业(北京)有限公司 一种分布式系统中数据节点的安全管理方法
CN104320433A (zh) * 2014-09-28 2015-01-28 北京京东尚科信息技术有限公司 数据处理方法和分布式数据处理系统
CN104320433B (zh) * 2014-09-28 2018-11-23 北京京东尚科信息技术有限公司 数据处理方法和分布式数据处理系统
CN104580447A (zh) * 2014-12-29 2015-04-29 中国科学院计算机网络信息中心 一种基于访问热度的时空数据服务调度方法
CN104580447B (zh) * 2014-12-29 2019-04-09 中国科学院计算机网络信息中心 一种基于访问热度的时空数据服务调度方法
CN105989279A (zh) * 2015-02-13 2016-10-05 上海通用识别技术研究所 基于多层级GPU集群的Domino专用口令破解系统
CN104951427A (zh) * 2015-06-30 2015-09-30 深圳清华大学研究院 以矩阵为中心的分布式计算框架
CN106445677A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 负载均衡方法及设备
WO2017020742A1 (zh) * 2015-08-06 2017-02-09 阿里巴巴集团控股有限公司 负载均衡方法及设备
CN106936607A (zh) * 2015-12-30 2017-07-07 华为技术有限公司 数据处理的方法和数据处理系统
CN107707582A (zh) * 2015-12-30 2018-02-16 北京典赞科技有限公司 一种基于Host-Device架构的MapReduce计算方法
CN106095832B (zh) * 2016-06-01 2020-02-18 东软集团股份有限公司 分布式并行数据处理方法以及装置
CN106095832A (zh) * 2016-06-01 2016-11-09 东软集团股份有限公司 分布式并行数据处理方法以及装置
CN106648888A (zh) * 2016-11-16 2017-05-10 无锡十月中宸科技有限公司 一种基于区块链技术的分布式高性能计算系统及其运算方法
CN107743246A (zh) * 2017-01-24 2018-02-27 贵州白山云科技有限公司 任务处理方法、系统及数据处理系统
CN107391907A (zh) * 2017-06-21 2017-11-24 安徽森度科技有限公司 一种基于分布式部署的远程智能视频诊断方法
CN107360395A (zh) * 2017-06-21 2017-11-17 安徽森度科技有限公司 一种基于分布式部署的远程自适应视频诊断方法
CN107783731A (zh) * 2017-08-07 2018-03-09 荣科科技股份有限公司 一种大数据实时处理方法及处理系统
CN110633168A (zh) * 2018-06-22 2019-12-31 北京东土科技股份有限公司 一种分布式存储系统的数据备份方法和系统
CN110134516A (zh) * 2019-05-16 2019-08-16 深圳前海微众银行股份有限公司 金融数据处理方法、装置、设备及计算机可读存储介质
CN110837421A (zh) * 2019-11-13 2020-02-25 北京知道创宇信息技术股份有限公司 一种任务分配方法及装置
CN112036502A (zh) * 2020-09-07 2020-12-04 杭州海康威视数字技术股份有限公司 图像数据比对方法、装置及系统
CN112036502B (zh) * 2020-09-07 2023-08-08 杭州海康威视数字技术股份有限公司 图像数据比对方法、装置及系统
CN114116774A (zh) * 2022-01-28 2022-03-01 北京安帝科技有限公司 日志数据的查询方法及装置

Also Published As

Publication number Publication date
CN103716381B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
CN103716381A (zh) 一种分布式系统的控制方法,及管理节点
EP2710470B1 (en) Extensible centralized dynamic resource distribution in a clustered data grid
CN101359333B (zh) 一种基于隐含狄利克雷分配模型的并行数据处理方法
CN104508639B (zh) 使用一致性域表的一致性管理
CN103297499B (zh) 一种基于云平台的调度方法及系统
CN103631657A (zh) 一种基于MapReduce的任务调度算法
CN110109756A (zh) 一种网络靶场构建方法、系统及存储介质
CN107346264A (zh) 一种虚拟机负载均衡调度的方法、装置和服务器设备
CN113342477B (zh) 一种容器组部署方法、装置、设备及存储介质
CN103595780A (zh) 基于消重的云计算资源调度方法
Li et al. An effective scheduling strategy based on hypergraph partition in geographically distributed datacenters
Gandomi et al. HybSMRP: a hybrid scheduling algorithm in Hadoop MapReduce framework
CN103918239A (zh) 负载均衡方法、装置、系统及计算机可读介质
CN106201720A (zh) 虚拟对称多处理虚拟机创建方法、数据处理方法及系统
CN102831102A (zh) 一种在计算机集群上进行矩阵乘积运算的方法和系统
Lee et al. Performance improvement of mapreduce process by promoting deep data locality
US20220300323A1 (en) Job Scheduling Method and Job Scheduling Apparatus
Zhao et al. A data placement algorithm for data intensive applications in cloud
Su et al. Variable-sized map and locality-aware reduce on public-resource grids
Nicolae et al. Towards memory-optimized data shuffling patterns for big data analytics
CN105260244A (zh) 一种分布式系统任务调度的方法和装置
Wo et al. Overbooking-based resource allocation in virtualized data center
CN103617083A (zh) 存储调度方法和系统、作业调度方法和系统及管理节点
CN104683480A (zh) 一种基于应用的分布式计算方法
CN110196879B (zh) 数据处理方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant