CN114138488A - 一种基于弹性高性能计算的云原生实现方法及系统 - Google Patents

一种基于弹性高性能计算的云原生实现方法及系统 Download PDF

Info

Publication number
CN114138488A
CN114138488A CN202111465547.5A CN202111465547A CN114138488A CN 114138488 A CN114138488 A CN 114138488A CN 202111465547 A CN202111465547 A CN 202111465547A CN 114138488 A CN114138488 A CN 114138488A
Authority
CN
China
Prior art keywords
module
cloud
resource
task
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111465547.5A
Other languages
English (en)
Inventor
盖泉贺
高传集
孙兴艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202111465547.5A priority Critical patent/CN114138488A/zh
Publication of CN114138488A publication Critical patent/CN114138488A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5011Pool
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/508Monitor

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于弹性高性能计算的云原生实现方法及系统,属于云原生技术领域;所述的的方法具体步骤如下:S1利用云原生领域的Kubernetes技术构建每个云中心的HPC集群;S2利用Hpc集群对运中心覆盖范围的边缘进行纳管;S3对纳管后的资源创建云上资源池进行统一调度与管理;S4根据计算任务的资源需求与运中心资源进行逐一匹配;S5选择资源足够的HPC集群运算计算任务;本发明使用云原生的方式,使HPC不再局限于传统物理机资源量固定的限制;管理云上资源池,运行HPC计算任务时,达到按需申请、用完回收的资源管理模式。

Description

一种基于弹性高性能计算的云原生实现方法及系统
技术领域
本发明公开一种基于弹性高性能计算的云原生实现方法及系统,涉云原生技术领域。
背景技术
云原生(cloud native)是一种基于云的基础服务之上的软件架构思想,以及基于云进行软件开发实践的一组方法论。其具有云与原生两个方面的概念,云代表云端,相对于传统应用必须跑在本地服务器,云原生使应用可以跑在云端上;原生代表在云端中生长的意思,跑在云端上的应用,在设计的时候,需要考虑云环境的优缺点,充分利用优点,例如云服务的弹性伸缩与天然分布式;
边缘计算是一种分散式运算的架构,围绕数据源头,在源头边缘侧发起的,将应用、数据、运算,由网络中心节点迁移到网络逻辑上的边缘节点进行计算处理,减少了通过网络传递数据的过程,提高了计算速度,减少延迟。围绕数据源头进行计算处理,减少时延、提升效率、提高安全隐私保护;
传统高性能计算,具有应用特殊性,硬件成本昂贵,基础设施投入巨大,运行维护成本高,闲置资源利用率低,资源伸缩难度高等痛点;
故现发明一种基于弹性高性能计算的云原生实现方法及系统,以解决上述问题。
发明内容
本发明针对现有技术的问题,提供一种基于弹性高性能计算的云原生实现方法及系统,所采用的技术方案为:一种基于弹性高性能计算的云原生实现方法,所述的方法具体步骤如下:
S1利用云原生领域的Kubernetes技术构建每个云中心的HPC集群;
S2利用Hpc集群对运中心覆盖范围的边缘进行纳管;
S3对纳管后的资源创建云上资源池进行统一调度与管理;
S4根据计算任务的资源需求与运中心资源进行逐一匹配;
S5选择资源足够的HPC集群运算计算任务。
所述S2利用Hpc集群对运中心覆盖范围的边缘进行纳管的具体步骤如下:
S201将具备网络通信条件的边缘资源纳管到任务执行集群;
S202按照区域与网络通信情况将边缘资源以计算节点的形式纳管到不同的云中心。
所述S3对纳管后的资源创建云上资源池进行统一调度与管理的具体步骤如下:
S301实时监测被纳管的资源使用情况,分析并标记边缘资源空闲状态;
S302使用边缘资源在空闲时提供调度任务状态,非空闲时标记驱逐任务状态;
S303计算节点创建成功后,利用后台管理模块会对状态正常的计算节点进行标记与管理。
所述S4根据计算任务的资源需求与运中心资源进行逐一匹配的具体步骤如下:
S401对各个运中心资源的进行管理与实时监控;
S402利用最优调度分配算法将多个计算任务调度到各个云中心。
一种基于弹性高性能计算的云原生实现系统,所述的系统具体包括集群构建模块、边缘纳管模块、管理调度模块、资源匹配模块和任务处理模块:
集群构建模块:利用云原生领域的Kubernetes技术构建每个云中心的HPC集群;
边缘纳管模块:利用Hpc集群对运中心覆盖范围的边缘进行纳管;
管理调度模块:对纳管后的资源创建云上资源池进行统一调度与管理;
资源匹配模块:根据计算任务的资源需求与运中心资源进行逐一匹配;
任务处理模块:选择资源足够的HPC集群运算计算任务。
所述边缘纳管模块具体包括资源纳管模块和纳管分配模块:
资源纳管模块:将具备网络通信条件的边缘资源纳管到任务执行集群;
纳管分配模块:按照区域与网络通信情况将边缘资源以计算节点的形式纳管到不同的云中心。
所述管理调度模块具体包括监测标记模块、状态调度模块和标记管理模块:
监测标记模块:实时监测被纳管的资源使用情况,分析并标记边缘资源空闲状态;
状态调度模块:使用边缘资源在空闲时提供调度任务状态,非空闲时标记驱逐任务状态;
标记管理模块:计算节点创建成功后,利用后台管理模块会对状态正常的计算节点进行标记与管理。
所述资源匹配模块具体包括管理监控模块和任务调度模块:
管理监控模块:对各个运中心资源的进行管理与实时监控;
任务调度模块:利用最优调度分配算法将多个计算任务调度到各个云中心。
本发明的有益效果为:本发明对于HPC高性能计算领域的有益效果如下:
使用云原生的方式,使HPC不再局限于传统物理机资源量固定的限制;
管理云上资源池,运行HPC计算任务时,达到按需申请、用完回收的资源管理模式;
通过对资源池的实时管理,任务运行的全周期监控,使HPC计算任务实现最优并行计算;
按照边缘资源使用情况,对边缘资源进行定时纳管与定时释放,提高资源利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法的流程图;图2是本发明实施例的设计结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例一:
一种基于弹性高性能计算的云原生实现方法,所述的方法具体步骤如下:
S1利用云原生领域的Kubernetes技术构建每个云中心的HPC集群;
S2利用Hpc集群对运中心覆盖范围的边缘进行纳管;
S3对纳管后的资源创建云上资源池进行统一调度与管理;
S4根据计算任务的资源需求与运中心资源进行逐一匹配;
S5选择资源足够的HPC集群运算计算任务;
进一步的,所述S2利用Hpc集群对运中心覆盖范围的边缘进行纳管的具体步骤如下:
S201将具备网络通信条件的边缘资源纳管到任务执行集群;
S202按照区域与网络通信情况将边缘资源以计算节点的形式纳管到不同的云中心;
进一步的,所述S3对纳管后的资源创建云上资源池进行统一调度与管理的具体步骤如下:
S301实时监测被纳管的资源使用情况,分析并标记边缘资源空闲状态;
S302使用边缘资源在空闲时提供调度任务状态,非空闲时标记驱逐任务状态;
S303计算节点创建成功后,利用后台管理模块会对状态正常的计算节点进行标记与管理;
再进一步的,所述S4根据计算任务的资源需求与运中心资源进行逐一匹配的具体步骤如下:
S401对各个运中心资源的进行管理与实时监控;
S402利用最优调度分配算法将多个计算任务调度到各个云中心;
我们首先选用云原生领域的Kubernetes技术构建每个云中心的EHPC集群;对比传统物理机运行高性能计算任务,使用云上资源结合容器技术,可以使计算操作便捷,操作流程更加轻量化,相对物理机更加节能环保;
在云原生领域内,一般情况下使用网络对云上资源进行通信管理与串联交互,云上资源互相之间依赖网络进行通信,同时我们对云上资源的管理也是通过网络实现的,网络是否通畅也是判断云上资源是否可用的有效标准;对比传统物理机在横向扩展上的巨大成本而言,云上资源通过简单的网络连通,即可达到资源扩展,简单操作即可提高资源总量;
在我们本次方案中,我们会把具备网络通信条件的边缘资源纳管到我们任务执行集群,按照区域与网络通信情况,将边缘资源纳管到不同的云中心,被纳管的资源将以计算节点的形式包含在云中心集群中;通过对被纳管的资源使用情况的实时检测,分析并标记边缘资源空闲状态,使用边缘资源在空闲时提供调度任务状态,非空闲时标记驱逐任务状态;计算节点创建成功后,本次方案的后台管理模块会对状态正常的计算节点进行标记与管理;
后台管理模块具备云上可用资源的全生命周期监控管理与展示等能力,可以同时管理多个云中心的EHPC集群,按照区域与网络通信情况将边缘资源分别纳管到通信情况最优的EHPC集群;相比于传统物理机房迁移动作的高额成本,使用云上资源,随时随地选择就近的云中心运行计算任务,计算模式得到了极大的进步;
S4分配的从权后台管理模块具备计算任务的全生命周期监控管理与展示等能力,负责将计算任务分配给各个云中心,通过对各个云中心资源的管理与实时监控,基于最优调度分配算法,将多个计算任务调度到各个云中心,保证了资源合理使用,提高了资源利用率;相比于传统物理机资源固定的情况,使用云上资源,可以提供资源使用定制化服务,用户根据计算任务任意设置资源使用量;
在运行计算任务之前,我们会在启动计算任务的流程中,向用户收集需要使用的资源参数,得到任务启动参数后,匹配符合资源需求的云计算中心集群,将计算任务调度到该集群,同时为了尽量避免资源抢占与资源冲突情况的发生,我们尽量使每个资源节点同一时间运行一个计算任务,也就是说,每个计算任务会根据资源需求,尽量独占若干个计算节点,运行计算流程;对比于传统物理机资源量固定的缺点,使用云上资源可以将计算任务与计算节点进行灵活匹配,通过资源消耗最优匹配算法,提升云上资源利用率;
在EHPC集群中,我们会创建符合MPI(Massage Passing Interface)并行计算规则的计算任务,计算任务通过云原生的方式运行在多个节点上进行并行计算,常规情况下会根据节点的剩余可用资源量将计算任务划分为多个任务模块,分别使用每个节点的CPU、GPU、内存等;对比于传统物理机,想要在一台物理机内支持多种MPI规则相对较为困难,或需要额外空间进行维护,而使用云上资源运行计算任务,计算任务环境均以镜像的形式存储在云端,随用随取,无需占用计算节点资源,使计算任务运行更加多元化、轻量化;
资源进行任务运算,任务运算完毕后,运算结果按照规则进行汇总整理,运算结果保存在云上存储中,不受计算节点磁盘大小的限制,最终会在后台管理模块调用云上存储资源进行汇总展示,并提供计算结果云盘下载功能;对比于传统物理机,计算结果存储在物理机,计算任务受限于物理机磁盘大小,应对大型的工业高性能计算任务往往需要对本地磁盘进行扩容,使用云上资源运行计算任务可以将计算结果保存在云盘中,根据结果大小动态申请云盘资源;
目前方案在兼容性角度上,我们可以支持符合MPI(Massage Passing Interface)并行计算规则的计算任务,同时覆盖气象预报、能源勘探、生命科学、科研教育、仿真制造等多个领域,提供常见计算软件支持;针对客户需要,软件栈中缺少的,提供软件申请服务,由用户申请其计算任务需要的软件,我们在接到申请后,将第一时间扩充软件栈;对比于传统物理机,计算软件安装成本高,经常需要解决多个软件的兼容性问题,且过多的计算软件也会导致额外的存储资源消耗,面对这种情况,我们使用云上资源运行计算任务,软件及其运行环境均已镜像模板的形式存储在云端,用户可以根据运算任务自行选择使用哪个软件;
计算任务以容器的方式运行在各个计算节点中,任务启动前以request(申请资源)与limit(资源上限)的方式将计算所需的资源进行使用申请并限制资源使用上限,保证资源会在合理范围内进行使用,避免资源使用超量导致计算节点崩溃;对比于传统物理机的运行维护以及故障解决,使用云上资源可以由专业的运维团队进行统一运行维护,同时不必担心系统故障,计算任务运行结束,运行环境会自动随之删除,运行新的任务时,会由一个全新的环境执行该计算任务;
本发明方法基于云原生环境运行计算任务具备闲置资源合理利用、计算资源灵活扩展的优秀特性。通过集群将闲置边缘资源统一纳管,再通过高性能计算任务进行合理的使用;通过建立统一的云上资源池,调配云上资源用于弹性高性能计算。改变高性能计算任务使用物理机运行计算任务时遇到的运行维护困难、资源不易扩展等问题,同时避免了物理机闲置时的计算资源浪费,使计算资源达到按需使用,提高资源利用率。
实施例二:
一种基于弹性高性能计算的云原生实现系统,所述的系统具体包括集群构建模块、边缘纳管模块、管理调度模块、资源匹配模块和任务处理模块:
集群构建模块:利用云原生领域的Kubernetes技术构建每个云中心的HPC集群;
边缘纳管模块:利用Hpc集群对运中心覆盖范围的边缘进行纳管;
管理调度模块:对纳管后的资源创建云上资源池进行统一调度与管理;
资源匹配模块:根据计算任务的资源需求与运中心资源进行逐一匹配;
任务处理模块:选择资源足够的HPC集群运算计算任务;
进一步的,所述边缘纳管模块具体包括资源纳管模块和纳管分配模块:
资源纳管模块:将具备网络通信条件的边缘资源纳管到任务执行集群;
纳管分配模块:按照区域与网络通信情况将边缘资源以计算节点的形式纳管到不同的云中心;
进一步的,所述管理调度模块具体包括监测标记模块、状态调度模块和标记管理模块:
监测标记模块:实时监测被纳管的资源使用情况,分析并标记边缘资源空闲状态;
状态调度模块:使用边缘资源在空闲时提供调度任务状态,非空闲时标记驱逐任务状态;
标记管理模块:计算节点创建成功后,利用后台管理模块会对状态正常的计算节点进行标记与管理;
再进一步的,所述资源匹配模块具体包括管理监控模块和任务调度模块:
管理监控模块:对各个运中心资源的进行管理与实时监控;
任务调度模块:利用最优调度分配算法将多个计算任务调度到各个云中心。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于弹性高性能计算的云原生实现方法,其特征是所述的方法具体步骤如下:
S1利用云原生领域的Kubernetes技术构建每个云中心的HPC集群;
S2利用Hpc集群对运中心覆盖范围的边缘进行纳管;
S3对纳管后的资源创建云上资源池进行统一调度与管理;
S4根据计算任务的资源需求与运中心资源进行逐一匹配;
S5选择资源足够的HPC集群运算计算任务。
2.根据权利要求1所述的方法,其特征是所述S2利用Hpc集群对运中心覆盖范围的边缘进行纳管的具体步骤如下:
S201将具备网络通信条件的边缘资源纳管到任务执行集群;
S202按照区域与网络通信情况将边缘资源以计算节点的形式纳管到不同的云中心。
3.根据权利要求2所述的方法,其特征是所述S3对纳管后的资源创建云上资源池进行统一调度与管理的具体步骤如下:
S301实时监测被纳管的资源使用情况,分析并标记边缘资源空闲状态;
S302使用边缘资源在空闲时提供调度任务状态,非空闲时标记驱逐任务状态;
S303计算节点创建成功后,利用后台管理模块会对状态正常的计算节点进行标记与管理。
4.根据权利要求3所述的方法,其特征是所述S4根据计算任务的资源需求与运中心资源进行逐一匹配的具体步骤如下:
S401对各个运中心资源的进行管理与实时监控;
S402利用最优调度分配算法将多个计算任务调度到各个云中心。
5.一种基于弹性高性能计算的云原生实现系统,其特征是所述的系统具体包括集群构建模块、边缘纳管模块、管理调度模块、资源匹配模块和任务处理模块:
集群构建模块:利用云原生领域的Kubernetes技术构建每个云中心的HPC集群;
边缘纳管模块:利用Hpc集群对运中心覆盖范围的边缘进行纳管;
管理调度模块:对纳管后的资源创建云上资源池进行统一调度与管理;
资源匹配模块:根据计算任务的资源需求与运中心资源进行逐一匹配;
任务处理模块:选择资源足够的HPC集群运算计算任务。
6.根据权利要求5所述的系统,其特征是所述边缘纳管模块具体包括资源纳管模块和纳管分配模块:
资源纳管模块:将具备网络通信条件的边缘资源纳管到任务执行集群;
纳管分配模块:按照区域与网络通信情况将边缘资源以计算节点的形式纳管到不同的云中心。
7.根据权利要求6所述的系统,其特征是所述管理调度模块具体包括监测标记模块、状态调度模块和标记管理模块:
监测标记模块:实时监测被纳管的资源使用情况,分析并标记边缘资源空闲状态;
状态调度模块:使用边缘资源在空闲时提供调度任务状态,非空闲时标记驱逐任务状态;
标记管理模块:计算节点创建成功后,利用后台管理模块会对状态正常的计算节点进行标记与管理。
8.根据权利要求7所述的系统,其特征是所述资源匹配模块具体包括管理监控模块和任务调度模块:
管理监控模块:对各个运中心资源的进行管理与实时监控;
任务调度模块:利用最优调度分配算法将多个计算任务调度到各个云中心。
CN202111465547.5A 2021-12-01 2021-12-01 一种基于弹性高性能计算的云原生实现方法及系统 Pending CN114138488A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111465547.5A CN114138488A (zh) 2021-12-01 2021-12-01 一种基于弹性高性能计算的云原生实现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111465547.5A CN114138488A (zh) 2021-12-01 2021-12-01 一种基于弹性高性能计算的云原生实现方法及系统

Publications (1)

Publication Number Publication Date
CN114138488A true CN114138488A (zh) 2022-03-04

Family

ID=80387655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111465547.5A Pending CN114138488A (zh) 2021-12-01 2021-12-01 一种基于弹性高性能计算的云原生实现方法及系统

Country Status (1)

Country Link
CN (1) CN114138488A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610662A (zh) * 2022-03-08 2022-06-10 浪潮云信息技术股份公司 一种ncsi时序调节方法和装置
CN115964147A (zh) * 2022-12-27 2023-04-14 浪潮云信息技术股份公司 一种高性能计算调度方法、装置、设备及可读存储介质
CN116629382A (zh) * 2023-05-29 2023-08-22 上海和今信息科技有限公司 基于Kubernetes的机器学习平台对接HPC集群的方法及对应的装置、系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404542A (zh) * 2015-08-14 2016-03-16 国家超级计算深圳中心(深圳云计算中心) 云计算系统及在其上运行高性能计算的方法
CN108845885A (zh) * 2018-07-04 2018-11-20 济南浪潮高新科技投资发展有限公司 一种面向自动驾驶的边缘计算资源管理方法
CN110704164A (zh) * 2019-09-30 2020-01-17 珠海市新德汇信息技术有限公司 一种基于Kubernetes技术的云原生应用平台构建方法
CN112162727A (zh) * 2020-09-16 2021-01-01 深圳晶泰科技有限公司 云端高性能科学计算工作流设计控制系统及用户图形界面
CN112311834A (zh) * 2019-08-02 2021-02-02 阿里巴巴集团控股有限公司 边缘云的多级计算的描述及分发方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404542A (zh) * 2015-08-14 2016-03-16 国家超级计算深圳中心(深圳云计算中心) 云计算系统及在其上运行高性能计算的方法
CN108845885A (zh) * 2018-07-04 2018-11-20 济南浪潮高新科技投资发展有限公司 一种面向自动驾驶的边缘计算资源管理方法
CN112311834A (zh) * 2019-08-02 2021-02-02 阿里巴巴集团控股有限公司 边缘云的多级计算的描述及分发方法和系统
CN110704164A (zh) * 2019-09-30 2020-01-17 珠海市新德汇信息技术有限公司 一种基于Kubernetes技术的云原生应用平台构建方法
CN112162727A (zh) * 2020-09-16 2021-01-01 深圳晶泰科技有限公司 云端高性能科学计算工作流设计控制系统及用户图形界面

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610662A (zh) * 2022-03-08 2022-06-10 浪潮云信息技术股份公司 一种ncsi时序调节方法和装置
CN115964147A (zh) * 2022-12-27 2023-04-14 浪潮云信息技术股份公司 一种高性能计算调度方法、装置、设备及可读存储介质
CN116629382A (zh) * 2023-05-29 2023-08-22 上海和今信息科技有限公司 基于Kubernetes的机器学习平台对接HPC集群的方法及对应的装置、系统
CN116629382B (zh) * 2023-05-29 2024-01-02 上海和今信息科技有限公司 基于Kubernetes的机器学习平台对接HPC集群的方法、装置、系统

Similar Documents

Publication Publication Date Title
CN114138488A (zh) 一种基于弹性高性能计算的云原生实现方法及系统
CN104123182B (zh) 基于主从架构的MapReduce任务跨数据中心调度系统及方法
CN109992407B (zh) 一种yarn集群gpu资源调度方法、装置和介质
CN114996018A (zh) 面向异构计算的资源调度方法、节点、系统、设备及介质
CN105007323A (zh) 一种云资源的编排系统和方法
CN106020934A (zh) 一种基于虚拟集群在线迁移的优化部署方法
CN104735095A (zh) 一种云计算平台作业调度方法及装置
CN104112049B (zh) 基于P2P构架的MapReduce任务跨数据中心调度系统及方法
Chen et al. EONS: minimizing energy consumption for executing real-time workflows in virtualized cloud data centers
CN103761146A (zh) 一种MapReduce动态设定slots数量的方法
CN105446816A (zh) 一种面向异构平台的能耗优化调度方法
Liu et al. Grouping-based fine-grained job scheduling in grid computing
CN112948088B (zh) 一种云计算平台中的云工作流智能管理与调度系统
CN117827441A (zh) 一种云边端协同的算力资源智能监控调度方法及系统
CN113014649B (zh) 一种基于深度学习的云物联负载均衡方法、装置及设备
Liu et al. KubFBS: A fine‐grained and balance‐aware scheduling system for deep learning tasks based on kubernetes
CN111459648B (zh) 面向应用程序的异构多核平台资源优化方法和装置
CN117909061A (zh) 基于gpu混合集群的模型任务处理系统和资源调度方法
CN117608760A (zh) 应用于Kubernetes的云上应用混合部署方法
CN112799829A (zh) 一种知识驱动的网络资源编排方法
CN112148546A (zh) 电力系统静态安全分析并行计算系统及方法
CN116797438A (zh) 异构混合三维实时云渲染平台的并行渲染集群应用方法
CN109450686B (zh) 一种基于普适网络的网络资源管理系统及方法
CN113176941A (zh) 一种在/离线服务混合部署的方法、集群系统及电子设备
Liu A Programming Model for the Cloud Platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination