CN102118297A - 一种计算机机群作业调度方法和系统 - Google Patents

一种计算机机群作业调度方法和系统 Download PDF

Info

Publication number
CN102118297A
CN102118297A CN2009102444472A CN200910244447A CN102118297A CN 102118297 A CN102118297 A CN 102118297A CN 2009102444472 A CN2009102444472 A CN 2009102444472A CN 200910244447 A CN200910244447 A CN 200910244447A CN 102118297 A CN102118297 A CN 102118297A
Authority
CN
China
Prior art keywords
node
computing unit
unit piece
load balance
balance index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009102444472A
Other languages
English (en)
Other versions
CN102118297B (zh
Inventor
张静
杨琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN200910244447.2A priority Critical patent/CN102118297B/zh
Priority claimed from CN200910244447.2A external-priority patent/CN102118297B/zh
Publication of CN102118297A publication Critical patent/CN102118297A/zh
Application granted granted Critical
Publication of CN102118297B publication Critical patent/CN102118297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Multi Processors (AREA)

Abstract

本发明提供一种计算机机群作业调度方法和系统,其中系统包括:至少一个计算单元块,每一个计算单元块均与核心交换机连接,用于完成作业和/或传输数据的任务;核心交换机,与计算单元块连接,用于采集计算单元块的工作参数,对每一个工作参数设置一个权值,根据工作参数以及对应的权值编制各个计算单元块对应的负载平衡指数;按照预定策略,根据负载平衡指数为计算单元块分配作业和/或传输数据的任务。应用上述技术方案,将作业分配给多个计算单元块,对于结点规模比较大的机群系统而言降低了作业系统管理员的工作量,提高了作业管理系统的运行效率,避免了某个端口过于繁忙或空闲而导致的跨交换机端口数据交互的堵塞性,使分配策略更加合理。

Description

一种计算机机群作业调度方法和系统
技术领域
本发明涉及计算机技术,特别是指一种计算机机群作业调度方法和系统。
背景技术
随着对计算需求的日益扩大,用于计算的计算机机群的规模也日益增长,基于无盘工作方式的机群成为高性能机群发展的一种必然趋势,在无盘机群中,所有计算结点间的通信、数据访问和存取等操作均通过交换机进行,交换机的数据吞吐量会非常大,端口间的交互会非常频繁,并且如果机群规模比较庞大,则计算结点有成百上千个,这些结点通过多个边缘交换机以及核心交换机实现连接,形成的网络的拓扑结构异常复杂,因此在跨交换机的结点之间传输数据会明显延时。
现有技术中,在分配作业业务时,通常不考虑机群中各结点间的网络互联拓扑,只考虑结点本身的资源忙闲程度以及作业对这些资源的需求强弱来给作业分配计算结点。
发明人在实现本发明的过程中,发现现有技术中至少存在如下问题:在无盘工作方式的机群中,仅考虑结点本身的资源以分配作业,而不考虑连接结点的端口带宽和复杂的网络结构导致的数据传输的延迟性或网络阻塞造成的作业运行效率差等一系列问题,这种分配策略已不能满足大规模计算过程中遇到的数据传输的延迟性或网络阻塞等问题,也无法最大限度地利用可用的计算资源以实现利益最大化。
发明内容
本发明的目的是提供一种计算机机群作业调度方法和系统,用于解决现有技术中,为结点分配作业的分配策略已不能满足大规模计算过程中遇到的数据传输的延迟性或网络阻塞等问题,也无法最大限度地利用可用的计算资源以实现利益最大化的问题。
一种计算机机群作业调度系统,包括:至少一个计算单元块,每一个计算单元块均与核心交换机连接,用于完成作业和/或传输数据的任务;核心交换机,与所述计算单元块连接,用于采集所述计算单元块的工作参数,对每一个工作参数设置一个权值,根据所述工作参数以及对应的权值编制各个计算单元块对应的负载平衡指数;按照预定策略,根据所述负载平衡指数为计算单元块分配作业和/或传输数据的任务。
上述系统中,所述计算单元块中包括:边缘交换机,与至少一个计算结点连接,并与所述核心交换机连接,用于接收来自所述核心交换机的作业;将作业分解为多个具体作业,为所述计算单元块中的各个计算结点分配所述具体作业;计算结点,用于完成被分配到的具体作业。
上述系统中,所述计算单元块中包括:存储区域网络交换机,与多个I/O结点连接,并与所述核心交换机连接,用于接收来自所述核心交换机的传输任务;将传输任务分解为多个具体传输任务,为所述计算单元块中的各个所述I/O结点分配所述具体传输任务;I/O结点,用于传输数据。
上述系统中,所述工作参数具体为:所述边缘交换机与所述计算结点连接的端口的实时流量、计算结点CPU使用情况、计算结点CPU利用率、计算结点内存使用率、计算结点磁盘使用率中的一种或多种工作参数的组合;或者,所述工作参数具体为:所述存储区域网络交换机与所述I/O结点连接的端口的实时流量、I/O结点CPU使用情况、I/O结点CPU利用率、I/O结点内存使用率、I/O结点磁盘使用率中的一种或多种工作参数的组合;所述负载平衡指数具体为:由选定的一种或多种工作参数与对应权值的乘积作为因子,各个因子的和。
上述系统中,所述预定策略包括:在整个机群中,按照第一负载平衡指数由小到大的顺序为作业正式分配计算单元块,所述第一负载平衡指数用于描述所述计算单元块的负载情况;在一个计算单元块中,按照第二负载平衡指数由小到大的顺序为作业正式分配计算结点或I/O结点,所述第二负载平衡指数用于描述所述计算单元块中的计算结点或I/O结点的负载情况。
一种计算机机群作业调度方法,应用在计算机作业调度系统中,包括:采集计算单元块的工作参数,对每一个工作参数设置一个权值,根据所述工作参数以及对应的权值,编制各个计算单元块对应的负载平衡指数;按照预定策略,根据所述负载平衡指数为计算单元块分配作业;由计算单元块完成计算和/或传输数据的任务。
上述方法中,根据所述负载平衡指数为计算单元块分配作业,之后还包括:由计算单元块接收来自核心交换机的作业任务;将作业任务分解为多个具体作业,为所述计算单元块中的各个计算结点分配具体作业。
上述方法中,根据所述负载平衡指数为计算单元块分配作业,之后还包括:接收来自核心交换机的传输任务;将传输任务分解为多个具体传输任务,为所述计算单元块中的各个I/O结点分配具体传输任务。
上述方法中,所述工作参数为:边缘交换机与计算结点连接的端口的实时流量、计算结点CPU使用情况、计算结点CPU利用率、计算结点内存使用率、计算结点磁盘使用率中的一种或多种工作参数的组合;或者,所述工作参数具体为:所述存储区域网络交换机与所述I/O结点连接的端口的实时流量、I/O结点CPU使用情况、I/O结点CPU利用率、I/O结点内存使用率、I/O结点磁盘使用率中的一种或多种工作参数的组合;由选定的一种或多种工作参数与对应权值的乘积作为因子,各个因子的和作为所述负载平衡指数。
上述方法中,所述预定策略包括:在整个机群中,按照第一负载平衡指数由小到大的顺序为作业正式分配计算单元块,所述第一负载平衡指数用于描述所述计算单元块的负载情况;在一个计算单元块中,按照第二负载平衡指数由小到大的顺序为作业正式分配计算结点或I/O结点,所述第二负载平衡指数用于描述所述计算单元块中的计算结点或I/O结点的负载情况。
应用上述技术方案,将作业分配给多个计算单元块,对于结点规模比较大的机群系统而言降低了作业系统管理员的工作量,提高了作业管理系统的运行效率,避免了某个端口过于繁忙或空闲而导致的跨交换机端口数据交互的堵塞性;不仅考虑了结点本身的资源负载情况,并且考虑数据传输过程中的网络延时性,大大提高了系统资源利用率、使分配策略更加合理。
附图说明
图1为本发明实施例一种计算机作业调度系统结构示意图一;
图2为本发明实施例一种计算机作业调度系统结构示意图二;
图3为本发明实施例工作过程流程图一;
图4为本发明实施例工作过程流程图二。
具体实施方式
为使本发明的目的、技术特征和实施效果更加清楚,下面将结合附图及具体实施例对本发明的技术方案进行详细描述。
本发明提供的实施例中,提供一种计算机机群作业调度系统,如图1所示,包括:
计算单元块101,每一个计算单元块101均与核心交换机(InfiniBand交换机)102连接,用于完成计算和/或传输数据的任务。
核心交换机102,用于对于一个计算单元块101,通过与该计算单元块101的连接采集该计算单元块101的工作参数,对每一个工作参数设置一个权值,根据所述工作参数以及对应的权值,编制各个计算单元块101对应的负载平衡指数;按照预定策略,根据所述负载平衡指数为计算单元块101分配作业。
应用上述技术方案,将作业分配给多个计算单元块101,对于结点规模比较大的机群系统而言降低了作业系统管理员的工作量,提高了作业管理系统的运行效率,避免了某个端口过于繁忙或空闲而导致的跨交换机端口数据交互的堵塞性;不仅考虑了结点本身的资源负载情况,并且考虑数据传输过程中的网络延时性,大大提高了系统资源利用率、使分配策略更加合理。
为进一步优化上述技术方案,采集该计算单元块101的工作参数包括:端口实时流量、CPU使用情况、CPU利用率、内存使用率、磁盘使用率等,可以是其中的一个或多个的组合。
如图2所示,计算单元块101中包括:边缘交换机103,以及计算结点104;其中,
边缘交换机103,与若干个计算结点104连接,并与核心交换机102连接,用于接收来自核心交换机102的块作业;将块作业分解为若干个具体作业,为当前的计算单元块101中的各个计算结点104分配具体作业,并实现当前的计算单元块101中的各个计算结点104之间的作业调度。
计算结点104,用于完成具体作业。
在无盘机群系统中,根据提供的技术方案中,可以看出,核心交换机102与若干个计算单元块101连接,根据各个计算单元块101的第一负载平衡指数,将作业分配给计算单元块101,为表示区别,计算单元块101所接到的作业称为块作业;实际上,是由计算单元块101中的边缘交换机103接到块作业,将块作业分解成若干个具体作业,根据各个计算结点104的第二负载平衡指数将具体作业再次下发给不同的计算结点104。
为揭示工作原理,如图3所示,对所涉及到的各个单元模块的工作过程描述如下:
工作参数设定为:边缘交换机103端口流量,计算结点104的资源负载,及计算结点104的网络位置,综合这三种权衡指标,将作业分配到具体的计算结点104负载。
步骤201,按照机群系统中边缘交换机103的个数对所有计算结点104分块Block形成若干个计算单元块101;一个计算单元块101中包括:一个边缘交换机103,若干个计算结点104。
步骤202,根据作业确定计算结点104本身的资源负载的权值,边缘交换机103端口流量的权值,边缘交换机103端口流量的权值。
步骤203,通过计算获取各计算结点104的第二负载平衡指数,从而计算出每个计算单元块101的第一负载平衡指数,作为衡量该计算单元块101整体工作繁忙程度的标准。
步骤204,根据每一计算单元块101的第一负载平衡指数,确定整个系统的负载平衡阈值。
步骤205,按照计算单元块101的第一负载平衡指数递增的顺序为作业分配计算单元块101,以及计算单元块101中的计算结点104。且允许分配的计算单元块101的第一负载平衡指数以及计算结点104的第二负载平衡指数均要小于负载平衡阈值。
由于跨边缘交换机103的计算结点104之间数据的交互通过核心交换机102进行,数据在核心交换机102内部的滞留时间以及核心交换机102和边缘交换机103之间的切换时间,经测试其延时要远远小于等待一个计算单元块101中的计算结点104运行作业的延时。
采用本方案之后,平衡了无盘系统中各边缘交换机103本身的负载,避免了某个边缘交换机103的端口过于繁忙或空闲而导致的跨交换机端口数据交互出现堵塞;根据边缘交换机103分块以平衡资源,对于结点规模比较大的机群系统降低了作业系统管理员的工作量,提高了作业管理系统的运行效率。上述分配策略不仅考虑了计算结点104本身的资源负载情况,且把边缘交换机103端口的实时流量也作为一个分配的权衡指标,并且考虑网络延时性,优先同边缘交换机103再考虑跨边缘交换机103,提高了系统资源利用率、使分配策略更加合理。
对上述技术方案进行拓展,由于机群系统中并不仅仅存在计算结点104,也可以存在其他类型的结点,如图2所示,包括:
计算单元块101,每一个计算单元块101均与核心交换机102连接,用于完成计算和/或传输数据的任务。
核心交换机102,用于对于一个计算单元块101,通过与该计算单元块101的连接采集该计算单元块101的工作参数,对每一个工作参数设置一个权值,根据所述工作参数以及对应的权值,编制各个计算单元块101对应的负载平衡指数;按照预定策略,根据所述负载平衡指数为计算单元块101分配作业。
计算单元块101中包括:边缘交换机103,以及计算结点104;其中,
边缘交换机103,与若干个计算结点104连接,并与核心交换机102连接,用于接收来自核心交换机102的块作业;将块作业分解为若干个具体作业,为当前的计算单元块101中的各个计算结点104分配具体作业,并实现当前的计算单元块101中的各个计算结点104之间的作业调度。
计算结点104,用于完成具体作业。
I/O结点105,用于传输数据。
存储区域网络交换机(SAN,Storage Area Network)106,与I/O结点105连接,
磁盘阵列107,与存储区域网络交换机106连接,
管理端108,与核心交换机102连接,或者嵌入核心交换机102,用于提供交互界面。
在工作过程中,包括:
步骤301,管理端108通过无盘机群中核心交换机102提供的应用程序编程接口(API,Application Programming Interface),获取整个机群的拓扑结构,确定计算结点104、边缘交换机103以及核心交换机102之间的连接关系。
为机群中的边缘交换机103编号1~N;每一个计算单元块101中含有一个边缘交换机103,该边缘交换机103与若干个计算结点104连接,从而把计算结点104划分到1~N个计算单元块101中。
步骤302,管理端108启动一个父进程,该父进程启动并管理N个服务线程,一个服务线程对应一个边缘交换机103,负责实现该边缘交换机103上各计算结点104的数据通信以及计算该计算单元块101的第一负载平衡指数、第二负载平衡指数等相关操作。
步骤303,设置机群中计算结点104的第二负载平衡指数;具体包括:连接计算结点104的端口实时流量、CPU使用情况、CPU利用率、内存使用率、磁盘使用率中的一种或多种组合;
按照作业对各种资源需求由高到低为各平衡指标设置从大到小的权值,例如作业对CPU利用率需求最高,则设置CPU利用率的权值最高;管理端108各服务线程通过SOCKET把第二负载平衡指数及权值发送给位于计算单元块101上的作业管理系统客户端。
步骤304,所述作业管理系统客户端收到管理端108发送来的第二负载平衡指数及权值后,计算第二负载平衡指数的数值,然后把该数值发送给管理端108对应的服务线程。
步骤305,管理端108的服务线程在收到所对应(管辖)的计算单元块101中的所有计算结点104发送过来的数值后,计算本计算单元块101的第一负载平衡指数;同时,管理端108父进程根据所有服务线程计算的各计算单元块101的第一负载平衡指数计算整个机群系统的第一阈值。
步骤306,管理端108的父进程在得到各组数据后,按照计算单元块101的第一负载平衡指数由小到大的顺序为作业预分配计算单元块101中的计算结点104,分配规则如下,但不限于以下规则:
规则(1),在整个机群中,优先分配第一负载平衡指数小于第一阈值的计算单元块101。
规则(2),在一个计算单元块101中,优先分配第二负载平衡指数小于第二阈值的计算结点104。
规则(3),若位于第一负载平衡指数最小的计算单元块101中的计算结点104,且第二负载平衡指数小于第二阈值的个数大于等于作业要求分配的计算结点104总数,则在这些计算结点104中按照第二负载平衡指数由小到大的顺序为作业正式分配计算结点104,开始运行作业,此时所有被分配运行作业的计算结点104连接在同一个边缘交换机103上。
规则(4),若位于第一负载平衡指数最小的计算单元块101中的计算结点104,且第二负载平衡指数小于第二阈值的个数小于作业要求分配的计算结点104总数;则,分配位于第一负载平衡指数次小的计算单元块101中的计算结点104,且第二负载平衡指数小于第二阈值的计算结点104,并且,仍然按照第二负载平衡指数由小到大的顺序;若第一负载平衡指数次小的计算单元块101中的计算结点104依然不够分配,则在第一负载平衡指数第三小的计算单元块101中分配,......,第一负载平衡指数第n小的计算单元块101中分配,方法类似,此时所有被分配运行的计算结点104跨多个边缘交换机103实现通信。
需要说明的是,分配规则并不局限于上述的规则(1)~规则(4),由于作业优先级的不同,以及计算单元块101的优先级也可能不同,因此,不同优先级的作业可能分配给不同优先级的计算单元块101,这包括:
作业的优先级分为a、b和c;计算单元块101的优先级分为A、B和C;
管理端108在统计计算单元块101的过程中,根据第一负载平衡指数由小到大的顺序排列计算单元块101,但是,由于各个计算单元块101的优先级不同,因此,在执行规则(3)和规则(4)的时候,并不必然从第一负载平衡指数最小的计算单元块101开始;例如,作业优先级为b,但是第一负载平衡指数最小的计算单元块101的优先级为A,由于优先级A高于优先级b,因此不再为该作业分配第一负载平衡指数最小的计算单元块101,而是根据第一负载平衡指数从小到大的顺序,寻找优先级B或者优先级C的计算单元块101进行分配。
上述技术方案中,第一负载平衡指数用于衡量不同的计算单元块101的负载情形,考虑到地理位置的差异,不同的计算单元块101位于不同的地理位置处,由于在一个国家或者地区,往往计算单元块101集中在几个大城市,例如在一个城市中,存在多个计算单元块101,则这几个计算单元块101合在一起,用区域负载平衡指数进行描述。则,在分配计算结点104的过程中,可以根据区域负载平衡指数先指定位于同一个区域(城市)的多个计算单元块101,之后再根据规则(1)~规则(4),分配不同计算单元块101中的计算结点104。
图2中,不仅存在计算结点104,而且还存在其他类型的器件,例如:I/O结点105,用于传输数据。一个存储区域网络交换机106与多个I/O结点105连接,形成一个计算单元块101,则管理端108在为当前的作业分配I/O结点105的过程中,仍然需要根据对应的负载平衡指数进行分配。
管理端108的父进程在得到各组数据后,按照计算单元块101的第一流量平衡指数由小到大的顺序为作业预分配计算单元块101中的I/O结点105,分配规则如下,但不限于以下规则:
规则①,在整个机群中,优先分配第一流量平衡指数小于第一流量阈值的计算单元块101。
规则②,在一个计算单元块101中,优先分配第二流量平衡指数小于第二流量阈值的I/O结点105。
规则③,若位于第一流量平衡指数最小的计算单元块101中的I/O结点105,且第二流量平衡指数小于第二流量阈值的个数大于等于作业要求分配的I/O结点105总数,则在这些I/O结点105中按照第二流量平衡指数由小到大的顺序为作业正式分配I/O结点105,开始运行作业,此时所有被分配运行作业的I/O结点105连接在同一个边缘交换机103上。
规则④,若位于第一流量平衡指数最小的计算单元块101中的I/O结点105,且第二流量平衡指数小于第二流量阈值的个数小于作业要求分配的I/O结点105总数;则,分配位于第一流量平衡指数次小的计算单元块101中的I/O结点105,且第二流量平衡指数小于第二流量阈值的I/O结点105,并且,仍然按照第二流量平衡指数由小到大的顺序;若第一流量平衡指数次小的计算单元块101中的I/O结点105依然不够分配,则在第一流量平衡指数第三小的计算单元块101中分配,......,第一流量平衡指数第n小的计算单元块101中分配,方法类似,此时所有被分配运行的I/O结点105跨多个边缘交换机103实现通信。
上述规则无法做到穷举,因此,本领域技术人员应当理解的是,根据实际情形的不同,可以对上述规则进行适当的修改,使得修改之后的分配规则能够满足实际需要,但是,只要其技术方案应用了类似负载平衡指数的技术特征,则应当认为其与本申请的发明思想是一致的。
本发明的实施例具有以下有益效果,将作业分配给多个计算单元块,对于结点规模比较大的机群系统而言降低了作业系统管理员的工作量,提高了作业管理系统的运行效率,避免了某个端口过于繁忙或空闲而导致的跨交换机端口数据交互的堵塞性;不仅考虑了结点本身的资源负载情况,并且考虑数据传输过程中的网络延时性,大大提高了系统资源利用率、使分配策略更加合理。
应当说明的是,以上实施例仅用以说明本发明的技术方案而非限制,所有的参数取值可以根据实际情况调整,且在该权利保护范围内。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种计算机机群作业调度系统,其特征在于,包括:
至少一个计算单元块,每一个计算单元块均与核心交换机连接,用于完成作业和/或传输数据的任务;
核心交换机,与所述计算单元块连接,用于采集所述计算单元块的工作参数,对每一个工作参数设置一个权值,根据所述工作参数以及对应的权值编制各个计算单元块对应的负载平衡指数;按照预定策略,根据所述负载平衡指数为计算单元块分配作业和/或传输数据的任务。
2.根据权利要求1所述的系统,其特征在于,所述计算单元块中包括:
边缘交换机,与至少一个计算结点连接,并与所述核心交换机连接,用于接收来自所述核心交换机的作业;将作业分解为多个具体作业,为所述计算单元块中的各个计算结点分配所述具体作业;
计算结点,用于完成被分配到的具体作业。
3.根据权利要求1所述的系统,其特征在于,所述计算单元块中包括:
存储区域网络交换机,与多个I/O结点连接,并与所述核心交换机连接,用于接收来自所述核心交换机的传输任务;将传输任务分解为多个具体传输任务,为所述计算单元块中的各个所述I/O结点分配所述具体传输任务;
I/O结点,用于传输数据。
4.根据权利要求2或3所述的系统,其特征在于,
所述工作参数具体为:所述边缘交换机与所述计算结点连接的端口的实时流量、计算结点CPU使用情况、计算结点CPU利用率、计算结点内存使用率、计算结点磁盘使用率中的一种或多种工作参数的组合;
或者,
所述工作参数具体为:所述存储区域网络交换机与所述I/O结点连接的端口的实时流量、I/O结点CPU使用情况、I/O结点CPU利用率、I/O结点内存使用率、I/O结点磁盘使用率中的一种或多种工作参数的组合;
所述负载平衡指数具体为:由选定的一种或多种工作参数与对应权值的乘积作为因子,各个因子的和。
5.根据权利要求4所述的系统,其特征在于,所述预定策略包括:
在整个机群中,按照第一负载平衡指数由小到大的顺序为作业正式分配计算单元块,所述第一负载平衡指数用于描述所述计算单元块的负载情况;
在一个计算单元块中,按照第二负载平衡指数由小到大的顺序为作业正式分配计算结点或I/O结点,所述第二负载平衡指数用于描述所述计算单元块中的计算结点或I/O结点的负载情况。
6.一种计算机机群作业调度方法,应用在计算机作业调度系统中,其特征在于,包括:
采集计算单元块的工作参数,对每一个工作参数设置一个权值,根据所述工作参数以及对应的权值,编制各个计算单元块对应的负载平衡指数;按照预定策略,根据所述负载平衡指数为计算单元块分配作业;
由计算单元块完成计算和/或传输数据的任务。
7.根据权利要求6所述的方法,其特征在于,根据所述负载平衡指数为计算单元块分配作业,之后还包括:
由计算单元块接收来自核心交换机的作业任务;将作业任务分解为多个具体作业,为所述计算单元块中的各个计算结点分配具体作业。
8.根据权利要求6所述的方法,其特征在于,根据所述负载平衡指数为计算单元块分配作业,之后还包括:
接收来自核心交换机的传输任务;将传输任务分解为多个具体传输任务,为所述计算单元块中的各个I/O结点分配具体传输任务。
9.根据权利要求7或8所述的方法,其特征在于,
所述工作参数为:边缘交换机与计算结点连接的端口的实时流量、计算结点CPU使用情况、计算结点CPU利用率、计算结点内存使用率、计算结点磁盘使用率中的一种或多种工作参数的组合;
或者,
所述工作参数具体为:所述存储区域网络交换机与所述I/O结点连接的端口的实时流量、I/O结点CPU使用情况、I/O结点CPU利用率、I/O结点内存使用率、I/O结点磁盘使用率中的一种或多种工作参数的组合;
由选定的一种或多种工作参数与对应权值的乘积作为因子,各个因子的和作为所述负载平衡指数。
10.根据权利要求9所述的方法,其特征在于,所述预定策略包括:
在整个机群中,按照第一负载平衡指数由小到大的顺序为作业正式分配计算单元块,所述第一负载平衡指数用于描述所述计算单元块的负载情况;
在一个计算单元块中,按照第二负载平衡指数由小到大的顺序为作业正式分配计算结点或I/O结点,所述第二负载平衡指数用于描述所述计算单元块中的计算结点或I/O结点的负载情况。
CN200910244447.2A 2009-12-31 一种计算机机群作业调度方法和系统 Active CN102118297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910244447.2A CN102118297B (zh) 2009-12-31 一种计算机机群作业调度方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910244447.2A CN102118297B (zh) 2009-12-31 一种计算机机群作业调度方法和系统

Publications (2)

Publication Number Publication Date
CN102118297A true CN102118297A (zh) 2011-07-06
CN102118297B CN102118297B (zh) 2016-12-14

Family

ID=

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102904750A (zh) * 2012-09-24 2013-01-30 曙光信息产业(北京)有限公司 一种基于网络拓扑结构的作业分配方法
CN103401947A (zh) * 2013-08-20 2013-11-20 曙光信息产业(北京)有限公司 多个服务器的任务分配方法和装置
CN106776024A (zh) * 2016-12-13 2017-05-31 郑州云海信息技术有限公司 一种资源调度装置、系统和方法
CN109144689A (zh) * 2018-06-29 2019-01-04 华为技术有限公司 任务调度方法、装置及计算机程序产品
CN112671917A (zh) * 2020-12-28 2021-04-16 苏州浪潮智能科技有限公司 一种交换机闲置算力调用方法及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1617126A (zh) * 2003-11-11 2005-05-18 联想(北京)有限公司 一种计算机机群系统及其作业管理方法
CN1670706A (zh) * 2004-03-17 2005-09-21 联想(北京)有限公司 一种机群作业管理系统中分配计算结点的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1617126A (zh) * 2003-11-11 2005-05-18 联想(北京)有限公司 一种计算机机群系统及其作业管理方法
CN1670706A (zh) * 2004-03-17 2005-09-21 联想(北京)有限公司 一种机群作业管理系统中分配计算结点的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102904750A (zh) * 2012-09-24 2013-01-30 曙光信息产业(北京)有限公司 一种基于网络拓扑结构的作业分配方法
CN102904750B (zh) * 2012-09-24 2017-06-23 曙光信息产业(北京)有限公司 一种基于网络拓扑结构的作业分配方法
CN103401947A (zh) * 2013-08-20 2013-11-20 曙光信息产业(北京)有限公司 多个服务器的任务分配方法和装置
CN106776024A (zh) * 2016-12-13 2017-05-31 郑州云海信息技术有限公司 一种资源调度装置、系统和方法
CN106776024B (zh) * 2016-12-13 2020-07-21 苏州浪潮智能科技有限公司 一种资源调度装置、系统和方法
CN109144689A (zh) * 2018-06-29 2019-01-04 华为技术有限公司 任务调度方法、装置及计算机程序产品
CN112671917A (zh) * 2020-12-28 2021-04-16 苏州浪潮智能科技有限公司 一种交换机闲置算力调用方法及相关设备

Similar Documents

Publication Publication Date Title
CN103812949B (zh) 一种面向实时云平台的任务调度与资源分配方法及系统
CN103401947A (zh) 多个服务器的任务分配方法和装置
CN108111931A (zh) 一种电力光纤接入网的虚拟资源切片管理方法及装置
CN105141517B (zh) 一种基于资源感知的灵活光网络任播业务节能路由方法
CN103412635B (zh) 数据中心节能方法及装置
CN105426245A (zh) 包括分散的部件的动态地组成的计算节点
CN104396187A (zh) 带宽保证和工作保持
CN102271145A (zh) 一种虚拟计算机集群及其实施方法
CN105721354B (zh) 片上网络互联方法及装置
CN110109756A (zh) 一种网络靶场构建方法、系统及存储介质
CN113784373B (zh) 云边协同网络中时延和频谱占用联合优化方法及系统
CN116389365B (zh) 一种交换机数据处理方法及系统
Patni et al. Load balancing strategies for grid computing
CN105704054A (zh) 数据中心网络流量迁移方法及其系统
CN102436399A (zh) 一种负载均衡的采集方法
CN105162897A (zh) 一种虚拟机ip地址分配的系统、方法及网络虚拟机
CN112711479A (zh) 服务器集群的负载均衡系统、方法、装置和存储介质
CN105553872A (zh) 一种多路径数据流量负载均衡方法
CN102510403B (zh) 用于车辆数据接收和实时分析的集群分布式系统及方法
CN116700993A (zh) 一种负载均衡方法、装置、设备及可读存储介质
CN103297511B (zh) 高度动态环境下的客户端/服务器的调度方法和系统
CN103176850A (zh) 一种基于负载均衡的电力系统网络集群任务分配方法
CN106127396A (zh) 一种智能电网中云调度任务的方法
CN102118297A (zh) 一种计算机机群作业调度方法和系统
CN108616569A (zh) 一种面向分布式计算应用的光多播请求调度方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant