CN105468456A - 一种基于可变网络拓扑的并行作业资源调度方法 - Google Patents

一种基于可变网络拓扑的并行作业资源调度方法 Download PDF

Info

Publication number
CN105468456A
CN105468456A CN201510828332.3A CN201510828332A CN105468456A CN 105468456 A CN105468456 A CN 105468456A CN 201510828332 A CN201510828332 A CN 201510828332A CN 105468456 A CN105468456 A CN 105468456A
Authority
CN
China
Prior art keywords
resource
network
network topology
service
pond
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510828332.3A
Other languages
English (en)
Other versions
CN105468456B (zh
Inventor
钱宇
刘睿涛
龚道永
刘沙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jiangnan Computing Technology Institute
Original Assignee
Wuxi Jiangnan Computing Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jiangnan Computing Technology Institute filed Critical Wuxi Jiangnan Computing Technology Institute
Priority to CN201510828332.3A priority Critical patent/CN105468456B/zh
Publication of CN105468456A publication Critical patent/CN105468456A/zh
Application granted granted Critical
Publication of CN105468456B publication Critical patent/CN105468456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request

Abstract

一种基于可变网络拓扑的并行作业资源调度方法,包括:通过系统计算网络的网络监控发现系统网络拓扑发生变化;网络监控向作业资源调度服务推送网络拓扑变化信息,包括最新的网络拓扑;作业资源调度收到网络拓扑变化信息,对最新的拓扑信息进行预处理,依据网络各节点的拓扑关系形成临时计算资源池信息;与当前计算资源池匹配是否需要进行计算资源池重构,如果需要进行计算资源池重构则冻结作业资源调度服务,暂停系统的作业资源调度,保证系统服务数据的一致性;启动快速计算资源池重构,使用临时计算资源池替换正式计算资源池;形成新的计算资源池;随后解冻作业资源调度服务,利用新的计算资源池继续响应系统的各种作业资源调度请求。

Description

一种基于可变网络拓扑的并行作业资源调度方法
技术领域
本发明涉及高性能计算领域,具体涉及一种基于可变网络拓扑的并行作业资源调度方法。
背景技术
在高性能计算领域,高速计算网的网络延迟对课题的性能影响还是很明显的,而在硬件设备相同的情况下,网络延迟和网络拓扑是紧密相关的。当系统中的网络拓扑由于各种软硬件变化而产生变化时,对用户来说是透明的,而这时若作业资源调度还是按原始的网络拓扑划分计算资源池进行调度,将使节点间的通讯延迟产生变化,通常情况下都会使延迟增加,从而使课题运行性能下降。
根据现有技术,在高性能计算系统中,作业资源调度一般为用户课题请求分配资源时,都是在同一计算资源池内优先分配的。在高速计算网的网络拓扑不变的情况下,这种资源调度策略是不存在问题的,但是如果网络拓扑在系统运行过程中发生变化,将导致当前的计算资源池内的节点间通讯将发生跨网络分区访问。
发明内容
本发明所要解决的技术问题是针对现有技术中存在的高速计算的网络拓扑会因为性能或业务的需求、系统硬件故障进行动态的调整,由此导致同一批节点上运行相同程序时的通讯延迟增大,从而使得课题性能下降的缺陷,提供一种基于可变网络拓扑的并行作业资源调度方法,能够保证系统课题性能不受网络拓扑改变的影响。
根据本发明,提供了一种基于可变网络拓扑的并行作业资源调度方法,其特征在于,当系统计算网络的系统网络拓扑发生变化时,通过主动推送把变化后的最新的网络拓扑信息发送到作业资源调度服务,调度暂停服务并启动计算资源池重构功能,构建完新的计算资源池后,再调度恢复服务。
优选地,所述基于可变网络拓扑的并行作业资源调度方法包括:
通过系统计算网络的网络监控发现系统网络拓扑发生变化;
网络监控向作业资源调度服务推送网络拓扑变化信息,包括最新的网络拓扑;
作业资源调度收到网络拓扑变化信息,对最新的拓扑信息进行预处理,依据网络各节点的拓扑关系形成临时计算资源池信息;
与当前计算资源池匹配是否需要进行计算资源池重构,如果需要进行计算资源池重构则则冻结作业资源调度服务,暂停系统的作业资源调度,保证系统服务数据的一致性;启动快速计算资源池重构,使用临时计算资源池替换正式计算资源池;在资源池重构结束后,形成新的计算资源池;随后解冻作业资源调度服务,利用新的计算资源池继续响应系统的各种作业资源调度请求;然后恢复冻结的系统的作业资源调度。
优选地,如果需要进行计算资源池重构则则冻结作业资源调度服务,直接恢复冻结的系统的作业资源调度。
本发明要解决高性能计算系统上可变网络拓扑下的作业资源动态调度问题,使得在网络拓扑在发生变化的时候,作业资源调度能及时地发现、响应,并以最新的网络拓扑重构计算资源池,保证每个计算资源池中的资源都满足全带宽的网络全交换。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
图1示意性地示出了根据本发明优选实施例的基于可变网络拓扑的并行作业资源调度方法的流程图。
需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。
具体实施方式
为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。
高性能计算系统一般提供的作业资源调度策略都是以保证课题运行性能为前提,优先分配计算资源池内的计算节点,但该方法具有一定的局限性。在传统的高新能计算系统中,系统的高速计算网络拓扑是不变的,相对应的计算资源池也是不变的,但随着技术的发展,系统的网络拓扑会根据用户的性能和业务需求或硬件故障和更换而发生变化,而这种变化对传统的作业资源调度服务是未知的。此时,还是采用传统的作业资源调度策略,以原有计算资源池进行资源分配,将导致课题运行中在进行网络通讯时发生跨网络分区的消息传递,增加课题的通讯开销,降低课题的运行性能。
本发明提出的基于可变网络拓扑的并行作业资源调度方法即针对高性能计算系统上的作业资源调度策略,当系统计算网络的网络拓扑发生变化时,通过主动推送把变化后的最新的网络拓扑信息发送到作业资源调度服务,调度暂停服务并启动计算资源池重构功能,构建完新的计算资源池后,再调度恢复服务。
下面将描述本发明的具体优选实施例。
图1示意性地示出了根据本发明优选实施例的基于可变网络拓扑的并行作业资源调度方法的流程图。
如图1所示,根据本发明优选实施例的基于可变网络拓扑的并行作业资源调度方法包括:
第一步骤S1:通过系统计算网络的网络监控发现系统网络拓扑发生变化;
第二步骤S2:网络监控向作业资源调度服务推送网络拓扑变化信息,包括最新的网络拓扑;
第三步骤S3:作业资源调度收到网络拓扑变化信息,对最新的拓扑信息进行预处理,依据网络各节点的拓扑关系形成临时计算资源池信息;
第四步骤S4:与当前计算资源池进行匹配,判断是否需要进行计算资源池重构,如果不需要进行计算资源池重构则跳转第九步骤S9,如果需要进行计算资源池重构则则进入第五步骤S5;
第五步骤S5:冻结作业资源调度服务,暂停系统的作业资源调度,保证系统服务数据的一致性;
第六步骤S6:启动快速计算资源池重构,使用临时计算资源池替换正式计算资源池;
第七步骤S7:资源池重构结束,形成新的计算资源池;
第八步骤S8:解冻作业资源调度服务,利用新的计算资源池继续响应系统的各种作业资源调度请求;
第九步骤S9:恢复系统正常服务,即恢复在第五步骤S5冻结的系统的作业资源调度。
根据上面所述流程可以看到,在该方法中,需要对系统作业资源调度服务进行冻结,将影响系统服务质量,而影响程度就由计算资源池重构的速度决定。而如何提高重构速度,关键点就在第三步骤S3中的预处理,它可为之后的快速计算资源池重构提供数据基础。由于预处理时是不冻结系统服务的,不影响系统的正常运行,而重构是只需要进行内存数据替换,这很好的解决了系统动态重构计算资源池的快速问题。
本发明的优点在于针对网络拓扑改变引起课题性能下降的问题,结合“网络拓扑监测”和“计算资源池重构”功能,“网络拓扑监测”针对系统网络拓扑的变化,实时探测并向作业资源调度汇报,“计算资源池重构”针对系统计算资源池的快速重构,当资源调度接受到网络拓扑改变通知时,以最新的网络拓扑对计算资源池进行快速重构。另外,该技术在作业资源调度中实现,对用户程序完全透明。本发明结合“网络拓扑监测”和“计算资源池重构”功能,实现作业资源调度对网络拓扑变化的实时响应。
为了更好地说明本发明,下面对本文中提到的术语做出简要解释。
资源调度:采用各种调度策略为用户课题分配满足用户要求的计算资源。
网络拓扑:本文中描述的网络拓扑指的是高性能计算系统中,高速计算网为计算节点间通讯提供的拓扑算法。
网络分区:一个网络分区内所有节点满足网络全交换要求,各个网络分区之间网络带宽降低、延迟增加。
计算资源池:以高性能计算系统中计算节点的网络拓扑进行构建的计算资源池,资源池内满足满带宽的网络全交换要求。
需要说明的是,除非特别指出,否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等,而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。
可以理解的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (3)

1.一种基于可变网络拓扑的并行作业资源调度方法,其特征在于,当系统计算网络的系统网络拓扑发生变化时,通过主动推送把变化后的最新的网络拓扑信息发送到作业资源调度服务,调度暂停服务并启动计算资源池重构功能,构建完新的计算资源池后,再调度恢复服务。
2.根据权利要求1所述的基于可变网络拓扑的并行作业资源调度方法,其特征在于包括:
通过系统计算网络的网络监控发现系统网络拓扑发生变化;
网络监控向作业资源调度服务推送网络拓扑变化信息,包括最新的网络拓扑;
作业资源调度收到网络拓扑变化信息,对最新的拓扑信息进行预处理,依据网络各节点的拓扑关系形成临时计算资源池信息;
与当前计算资源池匹配是否需要进行计算资源池重构,如果需要进行计算资源池重构则则冻结作业资源调度服务,暂停系统的作业资源调度,保证系统服务数据的一致性;启动快速计算资源池重构,使用临时计算资源池替换正式计算资源池;在资源池重构结束后,形成新的计算资源池;随后解冻作业资源调度服务,利用新的计算资源池继续响应系统的各种作业资源调度请求;然后恢复冻结的系统的作业资源调度。
3.根据权利要求1或2所述的基于可变网络拓扑的并行作业资源调度方法,其特征在于,如果需要进行计算资源池重构则则冻结作业资源调度服务,直接恢复冻结的系统的作业资源调度。
CN201510828332.3A 2015-11-24 2015-11-24 一种基于可变网络拓扑的并行作业资源调度方法 Active CN105468456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510828332.3A CN105468456B (zh) 2015-11-24 2015-11-24 一种基于可变网络拓扑的并行作业资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510828332.3A CN105468456B (zh) 2015-11-24 2015-11-24 一种基于可变网络拓扑的并行作业资源调度方法

Publications (2)

Publication Number Publication Date
CN105468456A true CN105468456A (zh) 2016-04-06
CN105468456B CN105468456B (zh) 2019-04-23

Family

ID=55606191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510828332.3A Active CN105468456B (zh) 2015-11-24 2015-11-24 一种基于可变网络拓扑的并行作业资源调度方法

Country Status (1)

Country Link
CN (1) CN105468456B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109039694A (zh) * 2018-06-04 2018-12-18 全球能源互联网研究院有限公司 一种面向业务的全局网络资源分配方法及装置
CN112448982A (zh) * 2019-08-31 2021-03-05 深圳致星科技有限公司 一种多任务训练集群任务间共享网络资源的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050074017A1 (en) * 2003-10-01 2005-04-07 Santera Systems, Inc. Methods and systems for per-session dynamic management of media gateway resources
CN101040486A (zh) * 2004-10-12 2007-09-19 国际商业机器公司 动态分布式环境中的自动拓扑形成方法、系统及程序产品
CN102469023A (zh) * 2010-11-19 2012-05-23 中国移动通信集团公司 基于云计算的调度方法、单元及系统
CN102843418A (zh) * 2012-07-03 2012-12-26 广东电网公司信息中心 一种资源调度系统
CN103346914A (zh) * 2013-07-03 2013-10-09 曙光信息产业(北京)有限公司 分布式文件系统的拓扑结构更新方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050074017A1 (en) * 2003-10-01 2005-04-07 Santera Systems, Inc. Methods and systems for per-session dynamic management of media gateway resources
CN101040486A (zh) * 2004-10-12 2007-09-19 国际商业机器公司 动态分布式环境中的自动拓扑形成方法、系统及程序产品
CN102469023A (zh) * 2010-11-19 2012-05-23 中国移动通信集团公司 基于云计算的调度方法、单元及系统
CN102843418A (zh) * 2012-07-03 2012-12-26 广东电网公司信息中心 一种资源调度系统
CN103346914A (zh) * 2013-07-03 2013-10-09 曙光信息产业(北京)有限公司 分布式文件系统的拓扑结构更新方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109039694A (zh) * 2018-06-04 2018-12-18 全球能源互联网研究院有限公司 一种面向业务的全局网络资源分配方法及装置
CN109039694B (zh) * 2018-06-04 2022-01-11 全球能源互联网研究院有限公司 一种面向业务的全局网络资源分配方法及装置
CN112448982A (zh) * 2019-08-31 2021-03-05 深圳致星科技有限公司 一种多任务训练集群任务间共享网络资源的方法及系统

Also Published As

Publication number Publication date
CN105468456B (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
US10848428B2 (en) Method for dynamically allocating resources in an SDN/NFV network based on load balancing
CN102646062B (zh) 一种云计算平台应用集群弹性扩容方法
CN103812949B (zh) 一种面向实时云平台的任务调度与资源分配方法及系统
WO2017214932A1 (zh) 一种网络切片的资源管理方法和装置
CN110191148B (zh) 一种面向边缘计算的统计函数分布式执行方法及系统
CN103077082B (zh) 一种数据中心负载分配及虚拟机迁移节能方法及系统
CN106033476B (zh) 一种云计算环境中分布式计算模式下的增量式图计算方法
CN105554102A (zh) 基于容器集群的弹性伸缩方法及其应用系统
Guo et al. The building of cloud computing environment for e-health
CN102724113B (zh) 频隙资源重构方法
CN104572307A (zh) 一种对虚拟资源进行弹性调度的方法
CN105426245A (zh) 包括分散的部件的动态地组成的计算节点
CN103581332B (zh) HDFS架构及HDFS架构中NameNode节点的压力分解方法
Munir et al. Intelligent service fulfillment for software defined networks in smart city
CN101651710A (zh) 基于p2p的容灾备份方法
CN112613230B (zh) 基于神经网络的网络切片资源动态划分方法及装置
CN108737566B (zh) 一种分布式的实时消息过滤系统
CN108664116A (zh) 网络功能虚拟化的自适应省电方法、装置及cpu控制器
CN102196503A (zh) 面向服务质量保障的认知网络服务迁移方法
CN105704054A (zh) 数据中心网络流量迁移方法及其系统
CN111858033A (zh) 基于集群和多进程的负载均衡方法
CN105468456A (zh) 一种基于可变网络拓扑的并行作业资源调度方法
CN113014649B (zh) 一种基于深度学习的云物联负载均衡方法、装置及设备
CN104796673A (zh) 一种面向能耗优化的云视频监控系统任务接入方法
CN107612731A (zh) 一种基于软件定义可信的网络切片生成与可信恢复系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant