CN110928659A - 一种具有自适应功能的数值水池系统远程多平台接入方法 - Google Patents
一种具有自适应功能的数值水池系统远程多平台接入方法 Download PDFInfo
- Publication number
- CN110928659A CN110928659A CN201911141458.8A CN201911141458A CN110928659A CN 110928659 A CN110928659 A CN 110928659A CN 201911141458 A CN201911141458 A CN 201911141458A CN 110928659 A CN110928659 A CN 110928659A
- Authority
- CN
- China
- Prior art keywords
- calculation
- job
- platform
- numerical
- computing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/48—Indexing scheme relating to G06F9/48
- G06F2209/484—Precedence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5011—Pool
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明是一种具有自适应功能的数值水池系统远程多平台接入方法。本发明根据用户提交计算作业相关参数;根据计算作业的求解器类型和网格数量,推荐最优模式下所需的计算资源平台和节点核数,将计算作业放入就绪队列中;判断计算作业是否存在跨平台接入变化服务,数值水池平台系统自动解析集群作业调度策略,生成相应的执行脚本命令。将计算作业提交到本地集群,并根据最优计算核数分配计算节点。判断队列是否为空。本发明有效地解决了数值水池系统远程多平台接入问题,并能够针对计算作业量大小动态调整所接入的计算资源平台,针对数值水池系统用户实现了自适应接入方法,提高用户可操作性,增强用户体验。
Description
技术领域
本发明涉及数值水池技术领域,是一种具有自适应功能的数值水池系统远程多平台接入方法。
背景技术
数值水池是基于船舶与海洋工程水动力学的数值仿真信息化平台,其核心功能是数值仿真计算与互联网远程服务。是我国船舶领域完全自主知识产权的软件平台,由于计算量大用户多,需要高性能计算中心支持,国家高性能计算中心作业调度系统不同,作业提交方式有较大差异。数值水池平台需要屏蔽差异,充分利用国家超算中心计算能力。
近年来,随着互联网的快速发展,全球数据量正呈爆炸式增长,如此增长迅速庞大的数据资源,给传统的数据分析,处理技术带来了巨大的挑战,传统单台高性能服务器的数据处理能力已经不能满足大量的网络服务和越来越多的数据密集型应用的需求,取而代之的是商业服务器集群,它已经成为主要的数据分析平台,因此,很多互联网公司开发了各种各样分布式开发框架,用于支持不同类型的数据密集型应用,主要有MapReduce、Spark、Storm等。
随着新应用的不断涌现,新的计算框架也不断产生,然而却不存在一种统一的计算框架能适合所有的应用场景,因此,大部分公司需要部署和运行多个框架,并为应用挑选最优的框架。传统的部署方式,每个计算框架部署在独立的集群上,不能充分利用集群计算资源,并且多个集群也可能导致数据冗余度增加,比较有效的方式是让不同计算框架复用同一个集群,在此背景下,基于分布式计算的发展,产生了一种新型的服务计算模型:集群资源管理平台。
集群的作业管理系统JMS(Job Management System)是集群系统软件的重要组成部分,是保证集群高效使用的关键,它可以根据用户的需求,统一管理和调度集群系统的软、硬件资源,保证用户公平合理地共享资源,形成对用户透明的单一管理系统,提高资源的利用率和吞吐率。
对于集群来说,作业调度子系统是必不可少的,调度策略是调度系统的核心,当前主要的集群作业调度系统有三类。
PBS最初由NASA的Ames研究中心开发,主要为了提供一个能满足异构计算网络需要的软件包,用于灵活的批处理,特别是满足高性能计算的需要,如集群系统、超级计算机和大规模并行系统。PBS的主要特点有:代码开放,免费获取;支持批处理、交互式作业和串行、多种并行作业,如MPI、PVM、HPF、MPL;PBS是功能最为齐全,历史最悠久,支持最广泛的本地集群调度器之一。PBS目前包括openPBS,PBSPro和Torque三个主要分支,其中OpenPBS是最早的PBS系统,目前已经没有太多后续开发,PBSpro是PBS的商业版本,功能最为丰富,Torque是Clustering公司接过了OpenPBS,并给与后续支持的一个开源版本。
Slurm是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统。Slurm维护着一个待处理工作的队列并管理此工作的整体资源利用。它还以一种排他或非排他的方式管理可用的计算节点。最后,Slurm将作业分发给一组已分配的节点来执行工作并监视平行作业至其完成。本质上,Slurm是一个强健的集群管理器,它高度可移植、可伸缩至大型节点集群、容错好,而且更重要的是它是开源的。Slurm最早是一个开源的资源管理器,由几家公司(包括Lawrence Livermore National Laboratory)协作开发。如今,Slurm已经成为了很多最强大的超级计算机上使用的领先资源管理器。
LSF(Load Sharing Facility)是分布资源管理的工具,用来调度、监视、分析联网计算机的负载。通过集中监控和调度,充分共享计算机的CPU、内存、磁盘、License等资源。一组安装了LSF软件的计算机组成一个Cluster,Cluster内的资源统一监控和调度。
以往的集群作业调度方法在用户提交作业时,都需要针对集群作业调度系统不同,学习不同集群的作业提交方法,这样对用户的要求比较高,用户操作相对复杂,且不能充分利用集群的资源,造成一定的资源浪费,集群使用率不高。
发明内容
本发明为解决数值水池系统提供多种计算资源平台的选择和使用问题,本发明提供了一种具有自适应功能的数值水池系统远程多平台接入方法,本发明提供了以下技术方案:
一种具有自适应功能的数值水池系统远程多平台接入方法,所述方法基于船舶数值水池虚拟试验系统,所述船舶数值水池虚拟试验系统包括:专家数据库、本地集群、求解器和集成门户,包括以下步骤:
步骤1:根据用户填写的计算作业信息,所述计算作业信息包括:作业名称、作业网格数量、使用求解器类型、作业优先级、作业结果保存路径和原始计算数据,记录使用的求解器类型,并向数值水池平台系统提交作业信息;
步骤2:根据当前计算作业信息的求解器类型和网格数量,确定最优模式下的计算节点核数;所述计算作业信息进入调度子系统,根据用户提交时间、优先级和计算核数进行排队,并存入作业就绪队列Q中,其中本地集群作业就绪队列为Qi,超算平台集群作业就绪队列为Qh;
步骤3:判断本地集群作业就绪队列Qi是否存在接入超算平台的变化服务,当存在时,数值水池平台系统自动解析超算平台的作业调度策略Slurm、Openpbs和LSF,并生成相应的PBS执行脚本命令,直至所述作业就绪队列Qi为空;
步骤4:当作业就绪队列Qi为空时,完成数值水池远程多平台接入。
优选地,所述步骤2具体为:
步骤2.1:读取计算作业所需求解器类型和计算网格数量;
步骤2.2:数值水池系统根据计算作业信息,查询专家数据库,查询相同情况下的计算作业使用的计算核数,即计算作业所需CPU的个数,将计算核数返还给用户;
步骤2.3:将计算作业提交到调度子系统,当计算核数大于等于300核时,则将计算作业提交到超算平台就绪队列Qh中;当计算核数小于300核时,则将计算作业提交到本地集群的作业就绪队列Qi中。
优选地,当专家数据库中未存在相同条件下的历史数据结果,则优先考虑相同求解器,网格数量误差不超过100万的条件下,计算作业所需计算节点核数作为结果值返回给数值水池系统;
当专家库中未存在相同求解器和网格数量误差不超过100万查询结果,则考虑网格数量相同条件下,计算作业所需计算节点核数作为结果值返回给数值水池系统。
优选地,当将计算作业提交到超算平台就绪队列Qh中时,对Qh队列的第一个计算作业进行操作,逐一访问超算平台,找到第一个空闲申请计算的超算平台;
当将计算作业提交到本地集群的作业就绪队列Qi中时,对Qi队列的第一个计算作业进行操作,调用portal解析本地集群调度策略,并生成PBS脚本文件。
优选地,所述步骤3具体为:
步骤3.1:数值水池系统逐一查询天河1号、天河2号、河南超算、天津超算中心,确定已个用户所需计算核数的一个超算平台,读取当前超算平台作业调度策略类型,所述策略类型包括Slurm、Openpbs和LSF;
步骤3.2:根据不同作业调度策略类型Slurm、Openpbs和LSF,数值水池系统自适应动态生成PBS脚本文件,直至所述作业就绪队列Qi为空;
步骤3.3:将计算作业信息和生成的脚本文件部署到超算平台。
优选地,所述脚本文件包括:提交计算作业的用户名、计算作业类型、调用求解器类型、计算作业所需节点数量、计算作业源数据读取路径和名称、计算作业配置参数xml文件、计算作业日志保存路径和计算作业结果保存路径。
本发明具有以下有益效果:
针对数值水池系统用户所提交的计算作业,本发明根据计算作业所使用的求解器类型和计算任务的网格数量,查找数值水池系统后台专家库,同时全面衡量计算作业和计算资源平台的数据交互数量,科学合理地推荐最优模式下所需计算资源平台和节点核数,最优模式是指在合理时间内计算作业的计算结果预期可收敛。
在执行推荐计算资源平台和节点核数过程中,本发明根据计算作业执行情况分批次的将作业状态反馈给用户及后台专家库,这样多轮循环收集,可以保证专家库中的推荐策略是最能满足用户要求,且符合预期结果的合理策略。同时提高了数值水池系统远程多平台接入效果的自适应性和准确性。
数值水池系统针对是船舶企业终端用户,用户操作能力的不同使得数值水池系统的应用环境变得复杂。在数值水池系统使用整个过程中都可能出现计算作业的新增、暂停、终止和重启等变化,本发明可以根据计算作业的变化情况,调整计算资源使用情况,使数值水池系统具有较强的健壮性。
附图说明
图1是具有自适应功能的数值水池系统远程多平台接入方法流程图;
图2是数值水池多平台自适应接入模型图。
具体实施方式
以下结合具体实施例,对本发明进行了详细说明:
具体实施例一:
按照图1所示,本发明提供一种具有自适应功能的数值水池系统远程多平台接入方法,一种具有自适应功能的数值水池系统远程多平台接入方法,包括以下步骤:
步骤1:根据用户填写的计算作业信息,所述计算作业信息包括:作业名称、作业网格数量、使用求解器类型、作业优先级、作业结果保存路径和原始计算数据,记录使用的求解器类型,并向数值水池平台系统提交作业信息;
步骤2:根据当前计算作业信息的求解器类型和网格数量,确定最优模式下的计算节点核数;所述计算作业信息进入调度子系统,根据用户提交时间、优先级和计算核数进行排队,并存入作业就绪队列Q中,其中本地集群作业就绪队列为Qi,超算平台集群作业就绪队列为Qh;
所述步骤2具体为:
步骤2.1:读取计算作业所需求解器类型和计算网格数量;
步骤2.2:数值水池系统根据计算作业信息,查询专家数据库,查询相同情况下的计算作业使用的计算核数,即计算作业所需CPU的个数,将计算核数返还给用户;
步骤2.3:将计算作业提交到调度子系统,当计算核数大于等于300核时,则将计算作业提交到超算平台就绪队列Qh中;当计算核数小于300核时,则将计算作业提交到本地集群的作业就绪队列Qi中。
当将计算作业提交到超算平台就绪队列Qh中时,对Qh队列的第一个计算作业进行操作,逐一访问超算平台,找到第一个空闲申请计算的超算平台;
当将计算作业提交到本地集群的作业就绪队列Qi中时,对Qi队列的第一个计算作业进行操作,调用portal解析本地集群调度策略,并生成PBS脚本文件。
连接数值水池系统后台专家库;确定查询条件,作业求解器类型和网格数量,查找是否存在相同历史数据结果;如果存在相同条件下的历史数据结果,则将计算作业所需计算节点核数返回给数值水池系统前台,结束推荐计算节点核数过程;如果专家库中未存在相同条件下的历史数据结果,则优先考虑相同求解器,网格数量误差不超过100万的条件下,计算作业所需计算节点核数作为结果值返回给数值水池系统前台,如果专家库中未存在相同求解器和网格数量误差不超过100万查询结果,则考虑网格数量相同条件下,计算作业所需计算节点核数作为结果值返回给数值水池系统前台;数值水池系统用户根据推荐计算节点核数,经过采纳或者调整后,确认计算节点核数;将计算作业提交到调度子系统。
步骤3:判断本地集群作业就绪队列Qi是否存在接入超算平台的变化服务,当存在时,数值水池平台系统自动解析超算平台的作业调度策略Slurm、Openpbs和LSF,并生成相应的PBS执行脚本命令,直至所述作业就绪队列Qi为空;
所述步骤3具体为:
步骤3.1:数值水池系统逐一查询天河1号、天河2号、河南超算、天津超算中心,确定已个用户所需计算核数的一个超算平台,读取当前超算平台作业调度策略类型,所述策略类型包括Slurm、Openpbs和LSF;
步骤3.2:根据不同作业调度策略类型Slurm、Openpbs和LSF,数值水池系统自适应动态生成PBS脚本文件,直至所述作业就绪队列Qi为空;
步骤3.3:将计算作业信息和生成的脚本文件部署到超算平台。
所述脚本文件包括:提交计算作业的用户名、计算作业类型、调用求解器类型、计算作业所需节点数量、计算作业源数据读取路径和名称、计算作业配置参数xml文件、计算作业日志保存路径和计算作业结果保存路径。
步骤4:当作业就绪队列Qi为空时,完成数值水池远程多平台接入。
以上所述仅是一种具有自适应功能的数值水池系统远程多平台接入方法的优选实施方式,一种具有自适应功能的数值水池系统远程多平台接入方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。
Claims (6)
1.一种具有自适应功能的数值水池系统远程多平台接入方法,所述方法基于船舶数值水池虚拟试验系统,所述船舶数值水池虚拟试验系统包括:专家数据库、本地集群、求解器和集成门户,其特征是:包括以下步骤:
步骤1:根据用户填写的计算作业信息,所述计算作业信息包括:作业名称、作业网格数量、使用求解器类型、作业优先级、作业结果保存路径和原始计算数据,记录使用的求解器类型,并向数值水池平台系统提交作业信息;
步骤2:根据当前计算作业信息的求解器类型和网格数量,确定最优模式下的计算节点核数;所述计算作业信息进入调度子系统,根据用户提交时间、优先级和计算核数进行排队,并存入作业就绪队列Q中,其中本地集群作业就绪队列为Qi,超算平台集群作业就绪队列为Qh;
步骤3:判断本地集群作业就绪队列Qi是否存在接入超算平台的变化服务,当存在时,数值水池平台系统自动解析超算平台的作业调度策略Slurm、Openpbs和LSF,并生成相应的PBS执行脚本命令,直至所述作业就绪队列Qi为空;
步骤4:当作业就绪队列Qi为空时,完成数值水池远程多平台接入。
2.根据权利要求1所述的一种具有自适应功能的数值水池系统远程多平台接入方法,其特征是:所述步骤2具体为:
步骤2.1:读取计算作业所需求解器类型和计算网格数量;
步骤2.2:数值水池系统根据计算作业信息,查询专家数据库,查询相同情况下的计算作业使用的计算核数,即计算作业所需CPU的个数,将计算核数返还给用户;
步骤2.3:将计算作业提交到调度子系统,当计算核数大于等于300核时,则将计算作业提交到超算平台就绪队列Qh中;当计算核数小于300核时,则将计算作业提交到本地集群的作业就绪队列Qi中。
3.根据权利要求2所述的一种具有自适应功能的数值水池系统远程多平台接入方法,其特征是:当专家数据库中未存在相同条件下的历史数据结果,则优先考虑相同求解器,网格数量误差不超过100万的条件下,计算作业所需计算节点核数作为结果值返回给数值水池系统;
当专家库中未存在相同求解器和网格数量误差不超过100万查询结果,则考虑网格数量相同条件下,计算作业所需计算节点核数作为结果值返回给数值水池系统。
4.根据权利要求2所述的一种具有自适应功能的数值水池系统远程多平台接入方法,其特征是:当将计算作业提交到超算平台就绪队列Qh中时,对Qh队列的第一个计算作业进行操作,逐一访问超算平台,找到第一个空闲申请计算的超算平台;
当将计算作业提交到本地集群的作业就绪队列Qi中时,对Qi队列的第一个计算作业进行操作,调用portal解析本地集群调度策略,并生成PBS脚本文件。
5.根据权利要求1所述的一种具有自适应功能的数值水池系统远程多平台接入方法,其特征是:所述步骤3具体为:
步骤3.1:数值水池系统逐一查询天河1号、天河2号、河南超算、天津超算中心,确定已个用户所需计算核数的一个超算平台,读取当前超算平台作业调度策略类型,所述策略类型包括Slurm、Openpbs和LSF;
步骤3.2:根据不同作业调度策略类型Slurm、Openpbs和LSF,数值水池系统自适应动态生成PBS脚本文件,直至所述作业就绪队列Qi为空;
步骤3.3:将计算作业信息和生成的脚本文件部署到超算平台。
6.根据权利要求4所述的一种具有自适应功能的数值水池系统远程多平台接入方法,其特征是:所述脚本文件包括:提交计算作业的用户名、计算作业类型、调用求解器类型、计算作业所需节点数量、计算作业源数据读取路径和名称、计算作业配置参数xml文件、计算作业日志保存路径和计算作业结果保存路径。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911141458.8A CN110928659B (zh) | 2019-11-20 | 2019-11-20 | 一种具有自适应功能的数值水池系统远程多平台接入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911141458.8A CN110928659B (zh) | 2019-11-20 | 2019-11-20 | 一种具有自适应功能的数值水池系统远程多平台接入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110928659A true CN110928659A (zh) | 2020-03-27 |
CN110928659B CN110928659B (zh) | 2022-12-06 |
Family
ID=69850476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911141458.8A Active CN110928659B (zh) | 2019-11-20 | 2019-11-20 | 一种具有自适应功能的数值水池系统远程多平台接入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110928659B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112445595A (zh) * | 2020-11-26 | 2021-03-05 | 深圳晶泰科技有限公司 | 基于slurm计算平台的多任务提交系统 |
CN115794355A (zh) * | 2023-01-29 | 2023-03-14 | 中国空气动力研究与发展中心计算空气动力研究所 | 任务处理方法、装置、终端设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101697141A (zh) * | 2009-10-30 | 2010-04-21 | 清华大学 | 网格中基于历史数据建模的作业性能预测方法 |
CN103049326A (zh) * | 2013-01-16 | 2013-04-17 | 浪潮(北京)电子信息产业有限公司 | 在作业管理与调度系统中管理作业程序的方法和系统 |
CN104391749A (zh) * | 2014-11-26 | 2015-03-04 | 北京奇艺世纪科技有限公司 | 一种资源分配方法及装置 |
CN106790529A (zh) * | 2016-12-20 | 2017-05-31 | 北京并行科技股份有限公司 | 计算资源的调度方法、调度中心及调度系统 |
CN108319514A (zh) * | 2018-01-26 | 2018-07-24 | 山东超越数控电子股份有限公司 | 一种基于Slurm作业管理的可视化调度系统 |
US20180329752A1 (en) * | 2017-05-12 | 2018-11-15 | Fujitsu Limited | Parallel processing apparatus, job management method, and recording medium recording job management program |
US20190215018A1 (en) * | 2018-01-11 | 2019-07-11 | Samsung Electronics Co., Ltd. | Special node (constituent code) processing for fast/simplified polar successive cancellation list (scl) decoder |
-
2019
- 2019-11-20 CN CN201911141458.8A patent/CN110928659B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101697141A (zh) * | 2009-10-30 | 2010-04-21 | 清华大学 | 网格中基于历史数据建模的作业性能预测方法 |
CN103049326A (zh) * | 2013-01-16 | 2013-04-17 | 浪潮(北京)电子信息产业有限公司 | 在作业管理与调度系统中管理作业程序的方法和系统 |
CN104391749A (zh) * | 2014-11-26 | 2015-03-04 | 北京奇艺世纪科技有限公司 | 一种资源分配方法及装置 |
CN106790529A (zh) * | 2016-12-20 | 2017-05-31 | 北京并行科技股份有限公司 | 计算资源的调度方法、调度中心及调度系统 |
US20180329752A1 (en) * | 2017-05-12 | 2018-11-15 | Fujitsu Limited | Parallel processing apparatus, job management method, and recording medium recording job management program |
US20190215018A1 (en) * | 2018-01-11 | 2019-07-11 | Samsung Electronics Co., Ltd. | Special node (constituent code) processing for fast/simplified polar successive cancellation list (scl) decoder |
CN108319514A (zh) * | 2018-01-26 | 2018-07-24 | 山东超越数控电子股份有限公司 | 一种基于Slurm作业管理的可视化调度系统 |
Non-Patent Citations (3)
Title |
---|
ZHANG YUNXING ET AL.: "NUMERICAL SIMULATION OF SOLITARY WAVE BREAKING WITH ADAPTIVE MESH REFINEMENT", 《38TH ASME INTERNATIONAL CONFERENCE ON OCEAN, OFFSHORE AND ARCTIC ENGINEERING》 * |
吴祥: ""数值水池"仿真计算任务调度方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
权少亭: "数字化仿真分析在高性能计算系统中的开发集成和应用研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112445595A (zh) * | 2020-11-26 | 2021-03-05 | 深圳晶泰科技有限公司 | 基于slurm计算平台的多任务提交系统 |
CN112445595B (zh) * | 2020-11-26 | 2022-10-25 | 深圳晶泰科技有限公司 | 基于slurm计算平台的多任务提交系统 |
CN115794355A (zh) * | 2023-01-29 | 2023-03-14 | 中国空气动力研究与发展中心计算空气动力研究所 | 任务处理方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110928659B (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jeon et al. | Multi-tenant GPU clusters for deep learning workloads: Analysis and implications | |
US8205208B2 (en) | Scheduling grid jobs using dynamic grid scheduling policy | |
Tang et al. | Fault-aware, utility-based job scheduling on blue, gene/p systems | |
US9250886B2 (en) | Optimizing provisioning workflows in cloud computing | |
US20110307899A1 (en) | Computing cluster performance simulation using a genetic algorithm solution | |
US20070024898A1 (en) | System and method for executing job step, and computer product | |
Mesbahi et al. | Highly reliable architecture using the 80/20 rule in cloud computing datacenters | |
CN109614227B (zh) | 任务资源调配方法、装置、电子设备及计算机可读介质 | |
CN104050042A (zh) | Etl作业的资源分配方法及装置 | |
Stavrinides et al. | Scheduling real‐time bag‐of‐tasks applications with approximate computations in SaaS clouds | |
CN115373835A (zh) | Flink集群的任务资源调整方法、装置及电子设备 | |
CN110928659B (zh) | 一种具有自适应功能的数值水池系统远程多平台接入方法 | |
CN112862098A (zh) | 一种集群训练任务处理的方法及系统 | |
Ludwig et al. | Optimizing multi‐tier application performance with interference and affinity‐aware placement algorithms | |
Harichane et al. | KubeSC‐RTP: Smart scheduler for Kubernetes platform on CPU‐GPU heterogeneous systems | |
CN112148546A (zh) | 电力系统静态安全分析并行计算系统及方法 | |
Amoon | Design of a fault-tolerant scheduling system for grid computing | |
CN111506407B (zh) | Pull模式与Push模式相结合的资源管理与作业调度方法、系统 | |
CN115220908A (zh) | 资源调度方法、装置、电子设备及存储介质 | |
CN111625352A (zh) | 调度方法、装置及存储介质 | |
Amoon | A DEVELOPMENT OF FAULT-TOLERANT AND SCHEDULING SYSTEM FOR GRID COMPUTING. | |
Li et al. | SoDa: A Serverless‐Oriented Deadline‐Aware Workflow Scheduling Engine for IoT Applications in Edge Clouds | |
Zhang et al. | Design of Grid Resource Management System Based on Information Service. | |
Dufaud et al. | Design of data management for multi SPMD workflow programming model | |
Jiang et al. | Energy optimization oriented three-way clustering algorithm for cloud tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |