CN114185689B - 一种医学人工智能与高性能计算资源调度系统及调度方法 - Google Patents

一种医学人工智能与高性能计算资源调度系统及调度方法 Download PDF

Info

Publication number
CN114185689B
CN114185689B CN202210133573.6A CN202210133573A CN114185689B CN 114185689 B CN114185689 B CN 114185689B CN 202210133573 A CN202210133573 A CN 202210133573A CN 114185689 B CN114185689 B CN 114185689B
Authority
CN
China
Prior art keywords
mirror image
scheduling
computing resource
data
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210133573.6A
Other languages
English (en)
Other versions
CN114185689A (zh
Inventor
应志野
李春漾
陈一龙
于浩澎
龚力
匡亚岚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
West China Hospital of Sichuan University
Original Assignee
Sichuan University
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University, West China Hospital of Sichuan University filed Critical Sichuan University
Priority to CN202210133573.6A priority Critical patent/CN114185689B/zh
Publication of CN114185689A publication Critical patent/CN114185689A/zh
Application granted granted Critical
Publication of CN114185689B publication Critical patent/CN114185689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开一种医学人工智能与高性能计算资源调度系统及调度方法,所述系统包括:用户登录系统:用于客户从办公环境登录到系统,并提供作业提交、数据上传下载等功能;资源管理系统:用于部署数据库、监控等基础管理进程和服务;作业调度系统:通过对计算资源的CPU、GPU、FPGA、内存等进行统一调度和管理;容器镜像库:用于存放容器镜像模版和用户预定义或自定义的镜像;计算资源系统:进行计算的物理资源;并行文件系统:用于存放用户上传的数据、计算完成的数据和其它数据;所述各子系统通过高速网络通信连接。本发明可实现人工智能与高性能计算资源的一体化调度,降低建设成本,提升资源利用率。

Description

一种医学人工智能与高性能计算资源调度系统及调度方法
技术领域
本发明涉及大数据处理技术领域,具体涉及一种医学人工智能与高性能计算资源调度系统及调度方法。
背景技术
医学领域涉及大量人工智能和高性能计算,在高性能计算领域,计算作业以计算密集型为主,通过平台的调度,在计算集群中的一个或多个计算节点上执行。每个作业对计算资源的需求是不同的。计算资源需求最重要的两个指标是CPU核心数和内存大小,其次的指标还包括存储、GPU、带宽等。当每个计算作业分配到需要的资源开始执行后,不能被中断、迁移,如果一旦发生中断需要重新执行。作业调度系统的主要功能是根据作业对计算资源的需求,在计算平台中为作业分配合理的计算资源,并且将作业启动。当计算平台比较繁忙,不能满足计算资源需求时,调度系统会将作业放置到等待队列中,等待计算平台的空闲。
人工智能应用都运行在GPU上,当模型训练完成,在实际场景进行部署的时候,GPU通常采用静态分配。每个算法都需要固定大小的显存,一个业务场景需要多个算法和检测规则,算法模型在启动实例化的时候也比较的耗时,所以,一般在算法部署的时候,就根据GPU显存大小、算法类型和算法个数提前分配好GPU资源。
鉴于人工智能一般以物理机进行资源分配,无作业调度机制,有效利用率低,经常出现机器不够用;虽然人工智能已出现少量训练开发平台,但无法进行高性能计算;而人工智能和高性能计算分别建设,建设成本高,管理复杂,资源复用低;集群一般采用共享存储,存储性能要求高,建设成本高。
因此,有必要研发一种可以实现人工智能与高性能计算资源的一体化调度的资源调度系统。
发明内容
为解决上述现有技术中的不足,本发明出于实际业务开展需要,提供一种医学人工智能与高性能计算资源调度系统及方法,实现人工智能与高性能计算资源的一体化调度,降低建设成本,提升资源利用率。
为实现上述技术目的,本发明采用的技术方案为:
一种医学人工智能与高性能计算资源调度系统,所述系统包括:用户登录系统:用于客户从办公环境登录到系统,并提供作业提交、数据上传下载等功能;资源管理系统:用于部署数据库、监控等基础管理进程和服务;作业调度系统:通过对计算资源的CPU、GPU、FPGA、内存等进行统一调度和管理;容器镜像库:用于存放容器镜像模版和用户预定义或自定义的镜像;计算资源系统:进行计算的物理资源;并行文件系统:用于存放用户上传的数据、计算完成的数据和其它数据;所述用户登录系统、资源管理系统、作业调度系统、容器镜像库、计算资源系统、并行文件系统通过高速网络通信连接。
优选的,所述计算资源系统包括CPU、GPU、FPGA等多种不同的配置类型。
进一步地,所述计算资源系统还配置有SSD硬盘。
优选的,所述高速网络包括以太网、Infiniband网。
一种医学人工智能与高性能计算资源调度方法,步骤包括:
S1、用户在用户登录系统上传作业,作业数据存放在并行文件系统中;
S2、资源管理系统根据用户上传的作业判断类型;
S2.1、CPU等类型作业,直接跳转到“S6”;
S2.2、GPU/FPGA等类型,进行下一步流程;
S3、资源管理系统根据用户上传的作业判断容器镜像库中是否有满足要求的镜像;
S3.1、有满足要求的容器镜像,直接跳转到“S6”;
S3.2、无满足要求的容器镜像,进行下一步流程;
S4、从容器镜像库拉取镜像模版或类似的镜像到用户登录系统;
S5、在用户登录系统启动镜像并进入到镜像内部,安装应用软件,配置环境,并将满足使用要求的镜像重新打包并回传到容器镜像库上进行另存;
S6、作业调度系统根据任务需求从计算资源系统中分配节点资源给任务;
S7、在分配到的节点中,通过SSD创建分布式全闪文件系统,作为计算缓存区;
S8、从并行文件系统中拷贝作业数据到计算缓存区;
S9、根据作业要求启动计算流程和计算程序;
S10、计算完成后,从计算缓存区移动相关数据到并行文件系统;
S11、对应节点释放计算资源,流程结束。
与现有技术相比,本发明的有益效果有:
1)本发明提供的医学人工智能和高性能计算资源调度系统,多种计算资源融合建设、管理、调度,系统架构简单,硬件复用率高,建设和运维成本低;可在同1套平台上同时进行人工智能计算和高性能计算;
2)本发明提供的医学人工智能和高性能计算资源调度方法进行资源调度分配,提高硬件使用率和有效负荷;本发明的计算资源节点上增加SSD,按需配置为分布式全闪文件系统,用户计算过程中数据存放,有效提供计算效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明的医学人工智能与高性能计算资源调度系统的系统架构示意图;
图2是本发明的医学人工智能与高性能计算资源调度方法的流程图。
附图标记:10-用户登陆系统,20-资源管理系统,30-作业调度系统,40-容器镜像库,50-计算资源系统,60-并行文件系统,70-高速网络。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
一种医学人工智能与高性能计算资源调度系统,包括用户登录系统10、资源管理系统20、作业调度系统30、容器镜像库40、计算资源系统50、并行文件系统60,所述用户登录系统10、资源管理系统20、作业调度系统30、容器镜像库40、计算资源系统50、并行文件系统60通过高速网络70通信连接,所述高速网络70包括以太网、Infiniband网等多种类型。
用户登录系统10用于客户从办公环境登录到系统,并提供作业提交、数据上传下载等功能;资源管理系统20用于部署数据库、监控等基础管理进程和服务;作业调度系统30通过对计算资源的CPU、GPU、FPGA、内存等进行统一调度和管理;容器镜像库40用于存放容器镜像模版和用户预定义或自定义的镜像;计算资源系统50是实际进行计算的物理资源,包括CPU、GPU、FPGA等多种不同的配置类型,各资源节点包括CPU物理核、内存容量、GPU核数、FPGA卡数等基础参数;同时在节点上需要配置1块高性能的SSD硬盘;并行文件系统60用于存放用户上传的数据、计算完成的数据和其它数据。
一种使用上述医学人工智能与高性能计算资源调度系统进行算力资源调度的方法,如图2所示,步骤包括:
S1、用户在用户登录系统10上传作业,作业数据存放在并行文件系统60中;
S2、资源管理系统20根据用户上传的作业判断类型;
S2.1、CPU等类型作业(用户需要CPU、内存等基础资源),直接跳转到“S6”;
S2.2、GPU/FPGA等类型(用户需要调用专用的板卡),进行下一步流程;
S3、资源管理系统20根据用户上传的作业判断容器镜像库40中是否有满足要求的镜像;
S3.1、有满足要求的容器镜像,直接跳转到“S6”;
S3.2、无满足要求的容器镜像,进行下一步流程;
S4、从容器镜像库40拉取镜像模版或类似的镜像到用户登录系统10;
S5、在用户登录系统10启动镜像并进入到镜像内部,安装应用软件,配置环境,并将满足使用要求的镜像重新打包并回传到容器镜像库40上进行另存;
S6、作业调度30根据任务需求从计算资源系统50中分配节点资源给任务;
S7、在分配到的节点中,通过SSD创建分布式全闪文件系统,作为计算缓存区;
S8、从并行文件系统60中拷贝作业数据到计算缓存区;
S9、根据作业要求启动计算流程和计算程序;
S10、计算完成后,从计算缓存区移动相关数据到并行文件系统60;
S11、对应节点释放计算资源,流程结束。
本发明提供的医学人工智能和高性能计算资源调度系统,多种计算资源融合建设、管理、调度,系统架构简单,硬件复用率高,建设和运维成本低;可在同1套平台上同时进行人工智能计算和高性能计算;本发明提供的医学人工智能和高性能计算资源调度方法进行资源调度分配,提高硬件使用率和有效负荷;除共享存储外还在计算资源节点上增加SSD,按需配置为分布式全闪文件系统,用户计算过程中数据存放,有效提供计算效率。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (4)

1.一种医学人工智能与高性能计算资源调度系统,其特征在于:所述系统包括:用户登录系统(10):用于客户从办公环境登录到系统,并提供作业提交、数据上传下载功能;资源管理系统(20):用于部署数据库、监控基础管理进程和服务;作业调度系统(30):通过对计算资源的CPU、GPU、FPGA、内存进行统一调度和管理;容器镜像库(40):用于存放容器镜像模版和用户预定义或自定义的镜像;计算资源系统(50):进行计算的物理资源;并行文件系统(60):用于存放用户上传的数据、计算完成的数据和其它数据;所述用户登录系统(10)、资源管理系统(20)、作业调度系统(30)、容器镜像库(40)、计算资源系统(50)、并行文件系统(60)通过高速网络(70)通信连接;
所述系统的调度方法,步骤包括:
S1、用户在用户登录系统(10)上传作业,作业数据存放在并行文件系统(60)中;
S2、资源管理系统(20)根据用户上传的作业判断类型;
S2.1、CPU类型作业,直接跳转到“S6”;
S2.2、GPU/FPGA类型,进行下一步流程;
S3、资源管理系统(20)根据用户上传的作业判断容器镜像库(40)中是否有满足要求的镜像;
S3.1、有满足要求的容器镜像,直接跳转到“S6”;
S3.2、无满足要求的容器镜像,进行下一步流程;
S4、从容器镜像库(40)拉取镜像模版或类似的镜像到用户登录系统(10);
S5、在用户登录系统(10)启动镜像并进入到镜像内部,安装应用软件,配置环境,并将满足使用要求的镜像重新打包并回传到容器镜像库(40)上进行另存;
S6、作业调度系统(30)根据任务需求从计算资源系统(50)中分配节点资源给任务;
S7、在分配到的节点中,通过SSD创建分布式全闪文件系统,作为计算缓存区;
S8、从并行文件系统(60)中拷贝作业数据到计算缓存区;
S9、根据作业要求启动计算流程和计算程序;
S10、计算完成后,从计算缓存区移动相关数据到并行文件系统(60);
S11、对应节点释放计算资源,流程结束。
2.根据权利要求1所述的医学人工智能与高性能计算资源调度系统,其特征在于:所述计算资源系统(50)包括CPU、GPU、FPGA多种不同的配置类型。
3.根据权利要求2所述的医学人工智能与高性能计算资源调度系统,其特征在于:所述计算资源系统(50)还配置有SSD硬盘。
4.根据权利要求1所述的医学人工智能与高性能计算资源调度系统,其特征在于:所述高速网络(70)包括以太网、Infiniband网。
CN202210133573.6A 2022-02-14 2022-02-14 一种医学人工智能与高性能计算资源调度系统及调度方法 Active CN114185689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210133573.6A CN114185689B (zh) 2022-02-14 2022-02-14 一种医学人工智能与高性能计算资源调度系统及调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210133573.6A CN114185689B (zh) 2022-02-14 2022-02-14 一种医学人工智能与高性能计算资源调度系统及调度方法

Publications (2)

Publication Number Publication Date
CN114185689A CN114185689A (zh) 2022-03-15
CN114185689B true CN114185689B (zh) 2022-04-26

Family

ID=80545878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210133573.6A Active CN114185689B (zh) 2022-02-14 2022-02-14 一种医学人工智能与高性能计算资源调度系统及调度方法

Country Status (1)

Country Link
CN (1) CN114185689B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201910409D0 (en) * 2019-07-19 2019-09-04 Forsite Diagnostics Ltd Assay reading method
CN110471758A (zh) * 2019-07-02 2019-11-19 中国电力科学研究院有限公司 一种网络分析应用多用户并发作业调度系统及方法
CN110597635A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 图形处理资源分配方法、装置、计算机设备及存储介质
CN111611078A (zh) * 2020-05-22 2020-09-01 山东汇贸电子口岸有限公司 一种基于OpenStack架构的GPU云服务器实现方法
CN113568721A (zh) * 2020-04-29 2021-10-29 华为技术有限公司 一种任务调度方法及相关设备
CN113703955A (zh) * 2020-05-22 2021-11-26 华为技术有限公司 计算系统中数据同步的方法及计算节点
CN113742065A (zh) * 2021-08-07 2021-12-03 中国航空工业集团公司沈阳飞机设计研究所 一种基于kubernetes容器集群的分布式强化学习方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110471758A (zh) * 2019-07-02 2019-11-19 中国电力科学研究院有限公司 一种网络分析应用多用户并发作业调度系统及方法
GB201910409D0 (en) * 2019-07-19 2019-09-04 Forsite Diagnostics Ltd Assay reading method
CN110597635A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 图形处理资源分配方法、装置、计算机设备及存储介质
CN113568721A (zh) * 2020-04-29 2021-10-29 华为技术有限公司 一种任务调度方法及相关设备
CN111611078A (zh) * 2020-05-22 2020-09-01 山东汇贸电子口岸有限公司 一种基于OpenStack架构的GPU云服务器实现方法
CN113703955A (zh) * 2020-05-22 2021-11-26 华为技术有限公司 计算系统中数据同步的方法及计算节点
CN113742065A (zh) * 2021-08-07 2021-12-03 中国航空工业集团公司沈阳飞机设计研究所 一种基于kubernetes容器集群的分布式强化学习方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Hardware Acceleration for Container Migration on Resource-Constrained Platforms";Prateek Shantharama;《IEEE Access》;20200918;第8卷;第175070-175085页 *
"IB网上CPU-GPU异构超算平台容器性能评估及优化";胡鹤;《计算机工程与应用》;20210412;第57卷(第18期);第82-85页 *

Also Published As

Publication number Publication date
CN114185689A (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
WO2016112701A1 (zh) 异构多核可重构计算平台上任务调度的方法和装置
CN104618693B (zh) 一种基于云计算的监控视频在线处理任务管理方法及系统
US9262210B2 (en) Light weight workload management server integration
CN110383764B (zh) 无服务器系统中使用历史数据处理事件的系统和方法
CN114741207B (zh) 一种基于多维度组合并行的gpu资源调度方法和系统
US20160127382A1 (en) Determining variable wait time in an asynchronous call-back system based on calculated average sub-queue wait time
CN110221920B (zh) 部署方法、装置、存储介质及系统
CN112114950A (zh) 任务调度方法和装置、以及集群管理系统
WO2016145904A1 (zh) 一种资源管理方法、装置和系统
CN114610474B (zh) 一种异构超算环境下多策略的作业调度方法及系统
CN110166507B (zh) 多资源调度方法和装置
CN114679451B (zh) 面向边缘计算的服务调度系统及其调度方法
CN112463290A (zh) 动态调整计算容器的数量的方法、系统、装置和存储介质
CN115686805A (zh) Gpu资源共享的方法和装置、调度gpu资源共享的方法和装置
CN114721818A (zh) 一种基于Kubernetes集群的GPU分时共享方法和系统
CN113641448A (zh) 一种边缘计算容器分配和层下载排序体系结构及其方法
CN114185689B (zh) 一种医学人工智能与高性能计算资源调度系统及调度方法
CN117076133A (zh) 云游戏平台异构资源分配方法、计算机装置及存储介质
CN115964176B (zh) 云计算集群调度方法、电子设备和存储介质
CN114780228B (zh) 一种混合云资源创建方法及系统
CN108667920B (zh) 一种雾计算环境业务流量加速系统及其业务流量加速方法
CN115080207A (zh) 基于容器集群的任务处理方法及装置
CN114489978A (zh) 资源调度方法、装置、设备及存储介质
CN117056064A (zh) 资源分配方法、装置、服务器、存储介质和程序产品
CN113254143A (zh) 虚拟化网络功能网元编排调度方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant