CN108304261A - 一种基于6D-Torus网络的作业调度方法和装置 - Google Patents

一种基于6D-Torus网络的作业调度方法和装置 Download PDF

Info

Publication number
CN108304261A
CN108304261A CN201711478797.6A CN201711478797A CN108304261A CN 108304261 A CN108304261 A CN 108304261A CN 201711478797 A CN201711478797 A CN 201711478797A CN 108304261 A CN108304261 A CN 108304261A
Authority
CN
China
Prior art keywords
node
resource
serial number
calculate node
torus networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711478797.6A
Other languages
English (en)
Other versions
CN108304261B (zh
Inventor
王雄斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoke Jinyun Technology Co ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201711478797.6A priority Critical patent/CN108304261B/zh
Publication of CN108304261A publication Critical patent/CN108304261A/zh
Application granted granted Critical
Publication of CN108304261B publication Critical patent/CN108304261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multi Processors (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于6D‑Torus网络的作业调度方法和装置,该基于6D‑Torus网络的作业调度方法包括:根据预设的命名规则,计算6D‑Torus网络中的计算节点的序号;获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D‑Torus网络中的计算节点,以为用户节点划分资源。本发明通过根据预设的命名规则,计算6D‑Torus网络中的计算节点的序号,随后获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D‑Torus网络中的计算节点,以为用户节点划分资源,从而通过“计算节点命名规则”的方式,实现了基于6D‑Torus网络的计算资源动态分配、弹性扩展的效果。

Description

一种基于6D-Torus网络的作业调度方法和装置
技术领域
本发明涉及作业调度领域,具体来说,涉及一种基于6D-Torus网络的作业调度方法和装置。
背景技术
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本,深度学习典型应用为图像识别和语音识别。
此外,目前大型超级计算机,特别是准E级或未来的E级系统,在系统规模、扩展性、成本、能耗、可靠性等方面仍面临着严峻挑战。同时,硅元交换机是采用Torus架构的高速网络交换机产品,基于它构建的超级计算机互连网络系统具有领先的性能、超强的扩展能力、极佳的容错能力。在6DTorus互联网络中,如图1所示,一个硅立方由若干个硅元按照长、宽、高三个维度逐级扩展的结构进行排列,即该硅立方中的每个断点均为硅元,如图2所示,每个硅元内部由12个交换芯片采用特殊的3DTorus互连,同时,每个交换芯片可以看成一个交换机,一般具有24个端口,用于连接计算节点或者其他交换芯片。
另外,现有技术的重点在于处理硬件资源的容器化以及提高容器编排管理技术等方面的问题,通过将完成从“虚拟机”到“容器(容器通过容器技术获得)”、“独石应用”到“云原生应用”的迁移转变,来提高整个集群的资源利用率,缩短软件的快速开发部署上线时间。但是,针对节点与容器之间的映射,从网络拓扑结构的方面考虑较少,同时,目前还没有针对硬件资源的特定网络拓扑结构(尤其6D-Torus网络),实现资源调度策略的技术方案。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于6D-Torus网络的作业调度方法和装置。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种基于6D-Torus网络的作业调度方法。
该基于6D-Torus网络的作业调度方法包括:根据预设的命名规则,计算6D-Torus网络中的计算节点的序号;获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源。
根据本发明的一个实施例,根据预设的命名规则,计算6D-Torus网络中的计算节点的序号之前包括:根据预设的命名规则,计算6D-Torus网络中硅元的序号和每个硅元中的交换芯片的序号;以及根据计算节点所处的交换芯片的端口号,计算计算节点的序号。
根据本发明的一个实施例,根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源包括:在6D-Torus网络中的所有计算节点中,选取一个计算节点作为初始节点;根据作业资源请求信息和计算节点的序号,从初始节点开始遍历6D-Torus网络中的计算节点,以为用户节点划分资源。
根据本发明的一个实施例,根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源包括:将每个交换芯片划分为一个资源组,以及根据交换芯片的序号,对所有资源组进行排序;根据作业资源请求信息和排序后的资源组,遍历6D-Torus网络中的资源组,以为用户节点划分资源。
根据本发明的另一方面,提供了一种基于6D-Torus网络的作业调度装置。
该基于6D-Torus网络的作业调度装置包括:第一计算模块,用于根据预设的命名规则,计算6D-Torus网络中的计算节点的序号;获取遍历模块,用于获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源。
根据本发明的一个实施例,第一计算模块包括:第二计算模块,用于根据预设的命名规则,计算6D-Torus网络中硅元的序号和每个硅元中的交换芯片的序号;以及第三计算模块,用于根据计算节点所处的交换芯片的端口号,计算计算节点的序号。
根据本发明的一个实施例,获取遍历模块包括:选取模块,用于在6D-Torus网络中的所有计算节点中,选取一个计算节点作为初始节点;第一遍历模块,用于根据作业资源请求信息和计算节点的序号,从初始节点开始遍历6D-Torus网络中的计算节点,以为用户节点划分资源。
根据本发明的一个实施例,获取遍历模块包括:划分排序模块,用于将每个交换芯片划分为一个资源组,以及根据交换芯片的序号,对所有资源组进行排序;第二遍历模块,用于根据作业资源请求信息和排序后的资源组,遍历6D-Torus网络中的资源组,以为用户节点划分资源。
本发明的有益技术效果在于:
本发明通过根据预设的命名规则,计算6D-Torus网络中的计算节点的序号,随后获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源,从而通过“计算节点命名规则”的方式,实现了基于6D-Torus网络的计算资源动态分配、弹性扩展的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中的硅立方的示意图;
图2是现有技术中的硅元的示意图;
图3是根据本发明实施例的基于6D-Torus网络的作业调度方法的示意图;
图4是现有技术中的典型深度学习平台结构的示意图;
图5是根据本发明实施例的深度学习平台结构的示意图;
图6是根据本发明实施例的资源组队列的示意图;
图7是根据本发明实施例的基于6D-Torus网络的作业调度装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种基于6D-Torus网络的作业调度方法。
如图3所示,根据本发明实施例的基于6D-Torus网络的作业调度方法包括:步骤S301,根据预设的命名规则,计算6D-Torus网络中的计算节点的序号;步骤S303,获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源。
借助于本发明的上述技术方案,通过根据预设的命名规则,计算6D-Torus网络中的计算节点的序号,随后获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源,从而通过“计算节点命名规则”的方式,实现了基于6D-Torus网络的计算资源动态分配、弹性扩展的效果。
根据本发明的一个实施例,根据预设的命名规则,计算6D-Torus网络中的计算节点的序号之前包括:根据预设的命名规则,计算6D-Torus网络中硅元的序号和每个硅元中的交换芯片的序号;以及根据计算节点所处的交换芯片的端口号,计算计算节点的序号。
根据本发明的一个实施例,根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源包括:在6D-Torus网络中的所有计算节点中,选取一个计算节点作为初始节点;根据作业资源请求信息和计算节点的序号,从初始节点开始遍历6D-Torus网络中的计算节点,以为用户节点划分资源,从而在确定用户节点的作业资源请求信息为请求计算节点资源的情况下,通过已知的计算节点的序号来遍历6D-Torus网络中的计算节点,从而为用户节点划分资源,从而可满足用户节点的不同需求。
根据本发明的一个实施例,根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源包括:将每个交换芯片划分为一个资源组,以及根据交换芯片的序号,对所有资源组进行排序;根据作业资源请求信息和排序后的资源组,遍历6D-Torus网络中的资源组,以为用户节点划分资源,从而在确定用户节点的作业资源请求信息为请求资源组(或交换芯片)资源的情况下,通过已知的交换芯片的序号来遍历6D-Torus网络中的交换芯片,从而为用户节点划分资源,从而可满足用户节点的不同需求。
为了更好的描述本发明的技术方案,下面通过具体的实施例进行详细的描述。
本发明提供了一种基于6D-Torus网络的作业调度方法,其被面向异构的深度学习算法提供支持。
此外,如图4所示,其示出了一个典型的深度学习管理平台(或典型深度学习平台),不同用户节点将各自的作业通过作业提交平台进行提交,其中,图4中的user01、user02等表示不同的用户节点。随后,作业提交平台将用户节点的作业追加到作业调度模块的调度队列中,随后,作业调度模块根据作业的资源要求(或作业资源请求信息)向资源分配模块申请资源,其中,该资源包括计算资源、存储资源。随后,在完成资源申请后,作业调度模块将作业部署到相应的容器中,监督容器中的作业执行进度,并向用户进行反馈,当作业执行成功或失败退出时,结束该作业的调度,此外,图4中的HOST A、HOST B表示不同的虚拟机,并且在每个虚拟机内均设置有多个container(容器)以及其他模块,例如,在HOSTA中还设置有Caffe(Convolutional Architecture for Fast Feature Embedding,卷积神经网络框架)和Tensorflow(它为谷歌研发的第二代人工智能学习系统),以及在HOST B中还设置有Ansys软件、Fluent软件。
但是,在上述整个深度学习平台中,整体的资源利用率、作业等待时间都是关键指标,但其没有考虑到硬件资源的网络拓扑对作业运行性能的影响。在6D Tours网络中,任意两个计算节点之间的通信,可能是跨硅元的,可能是跨交换芯片的,也可能是同交换芯片的。其采用6DTorus网络,大大压缩了计算节点之间的网络通信跳数,整体上降低了计算节点之间的平均通信耗费,但对于计算节点之间的通信,跳数少的通信要比跳数多的通信更有利于提高作业运行效率,提高整体资源利用率。本方案在典型的深度学习管理平台的基础上,增加了资源调度算法,以适应6D-Torus网络,如图5所示。
另外,在确定用户节点的作业资源请求信息为请求资源组(或交换芯片)资源的情况下,可通过上面介绍资源调度算法的整体流程如下:根据计算节点在6D-Torus网络中的位置关系进行命名;划分等距离的计算节点(处于同一交换芯片上的计算机节点可看作等距离的计算节点)为若干个资源组,每个资源组设置一个起始节点,从而生成了资源组队列;对于同一个作业申请的资源,在资源组队列中获取一个资源组,并且从资源组的起始节点(或初始节点)开始,按照作业的申请资源情况(如核数、内存、硬盘、作业等)遍历当前资源组中的节点,选取空闲的资源划分给该作业,并且划分过程遵循“紧凑分配”的资源分配原则;在作业完成后,对释放后的资源,更新资源组队列中的相应资源;等待下一次资源申请,从而通过资源组队列,按照包括资源使用情况、镜像类别、位置关系等信息,使深度学习平台系统可以适应按照6D-Torus网络部署的硬件资源的特定场景,实现集群性能的提升。
另外,在确定用户节点的作业资源请求信息为请求计算节点资源的情况下,通过已知的计算节点的序号来遍历6D-Torus网络中的计算节点,从而为用户节点划分资源,从而可满足用户节点的不同需求,在此不再详细描述。
从而,该基于6D-Torus网络的作业调度方法实现了6D-Torus网络中计算节点资源的动态申请和分配,充分发挥“交换芯片内通信”大于“跨交换芯片通信”大于“跨硅元的计算节点间通信”的通信性能优先分配次序,同时,其还实现计算节点资源的负载均衡、高可用、弹性扩展以及资源自动分配及释放的效果。
另外,为了便于理解,对上面的涉及资源组的资源调度算法进行详细的介绍。
第一部分:计算节点的命名规则
对于6D-Torus网络(或6D-Torus互连网络)中的每个计算节点,按照预设的“硅元序号-交换芯片序号-计算节点在交换芯片上的序号”的方式进行命名。
1、硅元序号
在硅立方中,如图1中,将x方向设定为宽度,方向从左向右,将y方向设置为深度,方向从前向后,以及将z方向设置为高度,方向从下向上。同时,以立方体的某一个顶点作为原点,该原点的(x,y,z)坐标为(0,0,0),这样就确定了立方体中每个硅元的坐标位置。
此外,建立序号与坐标的映射规则:序号0对应坐标原点(0,0,0),然后按照x,y,z的优先级进行递增,直到所有的序号都对应上坐标,例如,根据本发明的一个实施例,将以2x2x3的硅立方为例,即在x方向上设置有2个硅元,在y方向上设有2个硅元,在z方向上设有3个硅元,并且该硅立方为长方体,从而序号与坐标的映射关系如下表1所示。
表1
2、交换芯片序号
在硅元中,如图2所示,将a方向设定为宽度,方向从左向右,将b方向设定为深度,方向从前向后,以及将c方向设定为高度,方向从下向上。同时,将硅元的12个交换芯片分为上中下三层,要求中间一层的每个顶点是与上层的一个顶点以及下层的一个顶点是成环路连接的。同时,以下层的某一个顶点作为原点,其(a,b,c)坐标为(0,0,0),这样就确定了硅元中每个交换芯片的坐标位置。
另外,建立序号与坐标的映射规则:序号0对应坐标原点(0,0,0),然后按照a,b,c的优先级进行递增,直到所有的序号都对应上坐标,例如,根据本发明的一个实施例,硅元内交换芯片序号与交换芯片坐标的映射关系如下表2所示。
表2
3、计算节点在交换芯片上的序号
计算节点在交换芯片上的序号,即该计算节点连接在交换芯片上的端口号,从而“硅元序号-交换芯片序号-计算节点在交换芯片上的序号”确定每个计算节点的序号。
第二部分,划分资源组
按照所在交换芯片的不同,将整个硅立方的所有计算节点划分为若干个资源组,及将同一个交换芯片上的计算节点划分为一个资源组,同时,每个资源组设置一个起始节点,默认是交换芯片的第一个计算节点。至此,所有计算节点资源,转换为资源组队列,如图6所示。
第三部分,划分资源
在确定用户节点的作业资源请求信息为请求资源组(或交换芯片)资源的情况下,对于同一个作业申请的资源,在资源组队列中获取一个资源组,从资源组的起始节点开始,按照作业的申请资源情况(核数、内存、硬盘、作业)遍历当前资源组中的计算节点,选取空闲的资源划分给该作业,并且划分过程遵循“紧凑分配”的资源分配原则。另外,该“紧凑分配”的资源分配原则如下:
假设每个容器的配置相同,当一个作业需要申请的容器个数为100,当遍历完成一个资源组后,可以分配的容器的个数为50,不满足该作业的资源申请需求。此时,获取本资源组的最后一个节点的命名(“硅元序号-交换芯片序号-计算节点序号”),将交换芯片的序号+1,继续遍历该交换芯片的资源组,依次类推。同时,当交换芯片的序号达到硅元内交换芯片的最大值时,将硅元序号+1,继续遍历,当硅元序号达到最大时,将硅元序号设置为0,交换芯片序号设置为0,计算节点的序号为0,继续遍历。遇到不存在的计算节点时,跳过,继续遍历后面的节点。在满足资源需求后,退出遍历,返回“申请资源成功”的信息。当遍历到初始时的节点时,停止遍历,返回“申请资源不足”的信息。
此外,在作业完成后,对释放后的资源,更新资源组队列中相应资源的使用情况。等待下一次资源申请。
另外,在确定用户节点的作业资源请求信息为请求计算节点资源的情况下,通过已知的计算节点的序号来遍历6D-Torus网络中的计算节点,从而为用户节点划分资源,从而可满足用户节点的不同需求。
根据本发明的实施例,还提供了一种基于6D-Torus网络的作业调度装置。
如图7所示,根据本发明实施例的基于6D-Torus网络的作业调度装置包括:第一计算模块71,用于根据预设的命名规则,计算6D-Torus网络中的计算节点的序号;获取遍历模块72,用于获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源。
根据本发明的一个实施例,第一计算模块71包括:第二计算模块(未示出),用于根据预设的命名规则,计算6D-Torus网络中硅元的序号和每个硅元中的交换芯片的序号;以及第三计算模块(未示出),用于根据计算节点所处的交换芯片的端口号,计算计算节点的序号。
根据本发明的一个实施例,获取遍历模块72包括:选取模块(未示出),用于在6D-Torus网络中的所有计算节点中,选取一个计算节点作为初始节点;第一遍历模块(未示出),用于根据作业资源请求信息和计算节点的序号,从初始节点开始遍历6D-Torus网络中的计算节点,以为用户节点划分资源。
根据本发明的一个实施例,获取遍历模块72包括:划分排序模块(未示出),用于将每个交换芯片划分为一个资源组,以及根据交换芯片的序号,对所有资源组进行排序;第二遍历模块(未示出),用于根据作业资源请求信息和排序后的资源组,遍历6D-Torus网络中的资源组,以为用户节点划分资源。
综上所述,借助于本发明的上述技术方案,通过根据预设的命名规则,计算6D-Torus网络中的计算节点的序号,随后获取用户节点的作业资源请求信息,以及根据作业资源请求信息和计算节点的序号,遍历6D-Torus网络中的计算节点,以为用户节点划分资源,从而通过“计算节点命名规则”的方式,实现了基于6D-Torus网络的计算资源动态分配、弹性扩展的效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于6D-Torus网络的作业调度方法,其特征在于,包括:
根据预设的命名规则,计算所述6D-Torus网络中的计算节点的序号;
获取用户节点的作业资源请求信息,以及根据所述作业资源请求信息和所述计算节点的序号,遍历所述6D-Torus网络中的计算节点,以为所述用户节点划分资源。
2.根据权利要求1所述的作业调度方法,其特征在于,根据预设的命名规则,计算所述6D-Torus网络中的计算节点的序号之前包括:
根据预设的命名规则,计算所述6D-Torus网络中硅元的序号和每个所述硅元中的交换芯片的序号;以及
根据所述计算节点所处的交换芯片的端口号,计算所述计算节点的序号。
3.根据权利要求2所述的作业调度方法,其特征在于,根据所述作业资源请求信息和所述计算节点的序号,遍历所述6D-Torus网络中的计算节点,以为所述用户节点划分资源包括:
在所述6D-Torus网络中的所有计算节点中,选取一个所述计算节点作为初始节点;
根据所述作业资源请求信息和所述计算节点的序号,从所述初始节点开始遍历所述6D-Torus网络中的计算节点,以为所述用户节点划分资源。
4.根据权利要求2所述的作业调度方法,其特征在于,根据所述作业资源请求信息和所述计算节点的序号,遍历所述6D-Torus网络中的计算节点,以为所述用户节点划分资源包括:
将每个所述交换芯片划分为一个资源组,以及根据所述交换芯片的序号,对所有所述资源组进行排序;
根据所述作业资源请求信息和排序后的资源组,遍历所述所述6D-Torus网络中的资源组,以为所述用户节点划分资源。
5.一种基于6D-Torus网络的作业调度装置,其特征在于,包括:
第一计算模块,用于根据预设的命名规则,计算所述6D-Torus网络中的计算节点的序号;
获取遍历模块,用于获取用户节点的作业资源请求信息,以及根据所述作业资源请求信息和所述计算节点的序号,遍历所述6D-Torus网络中的计算节点,以为所述用户节点划分资源。
6.根据权利要求5所述的作业调度装置,其特征在于,所述第一计算模块包括:
第二计算模块,用于根据预设的命名规则,计算所述6D-Torus网络中硅元的序号和每个所述硅元中的交换芯片的序号;以及
第三计算模块,用于根据所述计算节点所处的交换芯片的端口号,计算所述计算节点的序号。
7.根据权利要求6所述的作业调度装置,其特征在于,所述获取遍历模块包括:
选取模块,用于在所述6D-Torus网络中的所有计算节点中,选取一个所述计算节点作为初始节点;
第一遍历模块,用于根据所述作业资源请求信息和所述计算节点的序号,从所述初始节点开始遍历所述6D-Torus网络中的计算节点,以为所述用户节点划分资源。
8.根据权利要求6所述的作业调度装置,其特征在于,所述获取遍历模块包括:
划分排序模块,用于将每个所述交换芯片划分为一个资源组,以及根据所述交换芯片的序号,对所有所述资源组进行排序;
第二遍历模块,用于根据所述作业资源请求信息和排序后的资源组,遍历所述所述6D-Torus网络中的资源组,以为所述用户节点划分资源。
CN201711478797.6A 2017-12-29 2017-12-29 一种基于6D-Torus网络的作业调度方法和装置 Active CN108304261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711478797.6A CN108304261B (zh) 2017-12-29 2017-12-29 一种基于6D-Torus网络的作业调度方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711478797.6A CN108304261B (zh) 2017-12-29 2017-12-29 一种基于6D-Torus网络的作业调度方法和装置

Publications (2)

Publication Number Publication Date
CN108304261A true CN108304261A (zh) 2018-07-20
CN108304261B CN108304261B (zh) 2022-05-24

Family

ID=62868138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711478797.6A Active CN108304261B (zh) 2017-12-29 2017-12-29 一种基于6D-Torus网络的作业调度方法和装置

Country Status (1)

Country Link
CN (1) CN108304261B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083449A (zh) * 2019-04-08 2019-08-02 清华大学 动态分配内存和处理器的方法、装置及计算模块
CN111461356A (zh) * 2019-01-03 2020-07-28 顺丰科技有限公司 资源管理方法、装置、设备及其存储介质
CN112039786A (zh) * 2019-06-04 2020-12-04 清华大学 基于Torus网络的广播方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1980108A (zh) * 2005-12-09 2007-06-13 中兴通讯股份有限公司 一种码分多址通信系统中的码资源分配方法
CN101308468A (zh) * 2008-06-13 2008-11-19 南京邮电大学 网格计算环境下的作业跨域控制方法
CN101841918A (zh) * 2010-04-21 2010-09-22 华为技术有限公司 测量参考信号的带宽资源分配方法及装置
CN102075394A (zh) * 2011-01-14 2011-05-25 清华大学 基于P2i互连结构的数据中心
US20130055279A1 (en) * 2011-08-29 2013-02-28 Oracle International Corporation Resource allocation tree
CN105426241A (zh) * 2015-11-16 2016-03-23 北京航空航天大学 一种基于云计算数据中心的统一资源调度节能方法
EP3015982A1 (en) * 2014-10-30 2016-05-04 Fujitsu Limited Program, method, and apparatus for job management
US20160357603A1 (en) * 2015-06-03 2016-12-08 Fujitsu Limited Apparatus and method for executing maintenance processing on computers coupled via a multidimensional mesh or torus connection in a network
CN107180053A (zh) * 2016-03-11 2017-09-19 中国移动通信集团河北有限公司 一种数据仓库优化方法和装置
CN107450983A (zh) * 2017-07-14 2017-12-08 中国石油大学(华东) 一种基于虚拟聚类的分级网络资源调度方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1980108A (zh) * 2005-12-09 2007-06-13 中兴通讯股份有限公司 一种码分多址通信系统中的码资源分配方法
CN101308468A (zh) * 2008-06-13 2008-11-19 南京邮电大学 网格计算环境下的作业跨域控制方法
CN101841918A (zh) * 2010-04-21 2010-09-22 华为技术有限公司 测量参考信号的带宽资源分配方法及装置
CN102075394A (zh) * 2011-01-14 2011-05-25 清华大学 基于P2i互连结构的数据中心
US20130055279A1 (en) * 2011-08-29 2013-02-28 Oracle International Corporation Resource allocation tree
EP3015982A1 (en) * 2014-10-30 2016-05-04 Fujitsu Limited Program, method, and apparatus for job management
US20160357603A1 (en) * 2015-06-03 2016-12-08 Fujitsu Limited Apparatus and method for executing maintenance processing on computers coupled via a multidimensional mesh or torus connection in a network
CN105426241A (zh) * 2015-11-16 2016-03-23 北京航空航天大学 一种基于云计算数据中心的统一资源调度节能方法
CN107180053A (zh) * 2016-03-11 2017-09-19 中国移动通信集团河北有限公司 一种数据仓库优化方法和装置
CN107450983A (zh) * 2017-07-14 2017-12-08 中国石油大学(华东) 一种基于虚拟聚类的分级网络资源调度方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUICHIRO AJIMA: "Tofu: A 6D Mesh/Torus Interconnect for Exascale Computers", 《COMPUTER》 *
虞志刚: "Torus 网络中基于中心距离的完全自适应路由算法", 《电子学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461356A (zh) * 2019-01-03 2020-07-28 顺丰科技有限公司 资源管理方法、装置、设备及其存储介质
CN111461356B (zh) * 2019-01-03 2023-09-01 顺丰科技有限公司 资源管理方法、装置、设备及其存储介质
CN110083449A (zh) * 2019-04-08 2019-08-02 清华大学 动态分配内存和处理器的方法、装置及计算模块
CN110083449B (zh) * 2019-04-08 2020-04-28 清华大学 动态分配内存和处理器的方法、装置及计算模块
CN112039786A (zh) * 2019-06-04 2020-12-04 清华大学 基于Torus网络的广播方法

Also Published As

Publication number Publication date
CN108304261B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN106055381A (zh) 一种创建虚拟机的方法和装置
CN108009016A (zh) 一种资源负载均衡控制方法及集群调度器
CN107357661A (zh) 一种针对混合负载的细粒度gpu资源管理方法
CN103414752B (zh) 一种网络感知的云数据中心虚拟机分配方法
CN105610715B (zh) 一种基于sdn的云数据中心多虚拟机迁移调度计划方法
CN105718364A (zh) 一种云计算平台中计算资源能力动态评估方法
CN106325976B (zh) 一种渲染任务调度处理方法及服务器
CN108304261A (zh) 一种基于6D-Torus网络的作业调度方法和装置
CN104375882B (zh) 匹配于高性能计算机结构的多级嵌套数据驱动计算方法
TWI539776B (zh) 資料中心伺服器資源的動態規劃方法
CN103455378A (zh) 一种虚拟化集群的资源分配方法、装置和系统
CN112183015B (zh) 一种面向深度神经网络的芯片布图规划方法
CN103514046A (zh) 一种虚拟机放置方法及集群管理服务器
CN103812886B (zh) 计算机集群资源分配系统和方法
CN110221920A (zh) 部署方法、装置、存储介质及系统
CN103997515B (zh) 一种分布式云中计算中心选择方法及其应用
CN105704054A (zh) 数据中心网络流量迁移方法及其系统
CN108132827A (zh) 一种网络切片资源映射方法、相关设备及系统
CN112202599A (zh) 针对异构多核平台通信优化的拓扑感知映射方法及系统
CN115134371A (zh) 包含边缘网络算力资源的调度方法、系统、设备及介质
CN110990154A (zh) 一种大数据应用优化方法、装置及存储介质
CN101625673B (zh) 一种二维网格片上网络的任务映射方法
CN104125293A (zh) 一种云服务器及其使用方法
CN105095148A (zh) 一种混合型三维片上网络
CN107070965A (zh) 一种虚拟化容器资源下的多工作流资源供给方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220726

Address after: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee after: Dawning Information Industry (Beijing) Co.,Ltd.

Patentee after: DAWNING INFORMATION INDUSTRY Co.,Ltd.

Address before: 100193 No. 36 Building, No. 8 Hospital, Wangxi Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231116

Address after: 030024 No. 19 Gaoxin Street, Taiyuan Xuefu Park, Shanxi Comprehensive Reform Demonstration Zone, Taiyuan City, Shanxi Province

Patentee after: Guoke Jinyun Technology Co.,Ltd.

Address before: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

Patentee before: DAWNING INFORMATION INDUSTRY Co.,Ltd.

TR01 Transfer of patent right