CN102902589A - 一种集群mic作业的管理及调度方法 - Google Patents
一种集群mic作业的管理及调度方法 Download PDFInfo
- Publication number
- CN102902589A CN102902589A CN2012103161311A CN201210316131A CN102902589A CN 102902589 A CN102902589 A CN 102902589A CN 2012103161311 A CN2012103161311 A CN 2012103161311A CN 201210316131 A CN201210316131 A CN 201210316131A CN 102902589 A CN102902589 A CN 102902589A
- Authority
- CN
- China
- Prior art keywords
- mic
- job
- cluster
- server
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明提供一种集群MIC作业的管理及调度方法,内容包括:管理进程IM服务器、作业提交的命令imsub及参数-mics、MIC作业查看命令imjobs、计算节点查看命令imnodes。该方法通过管理进程(IM服务器)记录集群中其他所有节点(计算节点)的MIC资源总数及使用情况。当作业在管理节点上提交时,以命令参数的形式指明所需的mic数。管理节点检查集群中所有计算节点,找到有足够mic资源的计算节点,并将作业发送至该节点进行计算。本方法克服了传统集群资源管理及调度不支持MIC作业的问题,提出了一种集群MIC作业的管理及调度方法,使得集群MIC资源得到充分利用,有效提高MIC处理复杂作业的能力。
Description
技术领域
本发明涉及计算机领域,具体的说是一种集群MIC作业的管理及调度方法。
背景技术
英特尔集成众核(MIC)跟通用的多核处理器相比,具有更小的内核和硬件线程,计算资源密度更高,片上通信开销显著降低,具有更多的晶体管和能量,能够胜任更为复杂的并行应用。但是当前主流的集群资源管理及调度系统还没有添加对MIC作业的支持,此时存在以下两个问题:1)MIC作业提交至作业管理系统,系统无法知道集群中哪些节点具有MIC资源,从而无法将作业调度至相应的MIC节点上。2)MIC作业提交至作业管理系统时,即使被调度至相应的MIC节点上,但是作业管理系统并不知道此时MIC卡上是否已有作业运行,一块MIC卡上只能运行一个作业,如果两个或多个作业被调度到同一块MIC卡上,会造成作业运行错误。
发明内容
本发明针对现有技术的不足,提供一种集群MIC作业的管理及调度方法。
本发明是在高性能计算集群中,将英特尔MIC众核处理器作为一种计算资源,对MIC资源进行管理及调度的方法,其解决所述技术问题的方法内容包括:管理进程IM服务器、作业提交的命令imsub及参数-mics、作业查看命令imjobs、计算节点查看命令imnodes;
其中管理进程IM服务器,负责统计、保存集群中各个计算节点的MIC资源总数及使用情况;作业提交的命令imsub及参数-mics,可以使作业运行在指定的MIC卡上,作业提交的命令imsub,负责作业脚本提交,参数-mics,负责记录作业脚本运行时所需的mic数,例如: 使用imsub –mics 2 job.sh提交一个需要2个mic卡的作业job.sh ;作业查看命令imjobs,负责查看当前集群所有MIC作业的运行状态,且可以将JobQueue文件内显示出来,可查看集群中等待的MIC作业情况;计算节点查看命令imnodes, 可以将NodeMicInfo文件内容显示出来,负责查看当前集群中计算节点MIC资源使用情况。
本发明提供的MIC作业管理及调度方法,管理端进程对整个集群的MIC资源进行统计及监控,可以保证新提交的MIC作业在合适的计算节点上运行。该方法的具体管理过程如下:
通过一个管理进程IM服务器,利用ssh命令连接至集群中的各个计算节点,在各个计算节点运行micinfo监控命令,获取该计算节点的MIC总数目及已使用MIC卡序号,并将结果保存在NodeMicInfo文件中,当MIC作业通过isub命令提交时,以命令参数的形式指明所需的mic数,IM服务器检查NodeMicInfo文件,将作业调度到有足够mic资源的空闲计算节点上进行计算,否则,将该作业提交命令(isub job.sh)保存在JobQueue中,当作业运行完成后,MIC资源得到释放,IM服务器从JobQueue中取出作业再次调度执行。
具体调度过程如下:
作业通过 isub job4.sh形式提交至管理进程IM服务器,IM服务器检查NodeMicInfo文件查看是否有空闲MIC卡,其中,每个节点后面每个数字代表一个MIC卡,1为运行作业,0为空闲,如果有,则将作业调度至该MIC卡上执行,并修改该MIC信息由0变为1;否则,将作业保存至等待队列中,作业完成后,修改NodeMicInfo文件信息,将刚刚运行该作业的MIC卡信息由1变为0,表示该MIC已经空闲,此时,集群中有MIC卡空闲,IM服务器检查作业等待列表中是否有作业等待,如果有,则将等待的作业重新调度执行。
本发明一种集群MIC作业的管理及调度方法的有益效果是:本方法克服了传统集群资源管理及调度不支持MIC作业的问题,提出了一种将MIC众核处理器作为计算资源,根据作业需求对MIC资源进行分配及调度的方法,使得集群MIC资源得到充分利用,并保证作业的正确运行,有效提高MIC处理复杂作业的能力。
附图说明
附图1是集群MIC作业的管理及调度方法的系统流程图。
具体实施方式
下面结合附图1对本发明一种集群MIC作业的管理及调度方法作进一步说明。
本方法通过一个管理进程(IM服务器),对集群中的MIC资源信息及使用状态进行统计并保存,以便新提交的MIC作业能够分配至合适的MIC卡上运行;提供一个MIC作业提交命令imsub及参数-mics,可以使作业运行在指定的MIC卡上;提供一个MIC作业查看命令imjobs,可以查看当前集群所有MIC作业运行状态;提供一个计算节点查看命令imnodes,可以查看当前集群中所有计算节点上的MIC使用信息。
本发明提供的MIC作业管理及调度方法,管理端进程对整个集群的MIC资源进行统计及监控,可以保证新提交的MIC作业在合适的计算节点上运行。该方法的具体管理过程为:
通过一个管理进程IM服务器,利用ssh命令连接至集群中的各个计算节点,在各个计算节点运行micinfo监控命令,获取该计算节点的MIC总数目及已使用MIC卡序号,并将结果保存在NodeMicInfo文件中,当MIC作业通过isub命令提交时,以命令参数的形式指明所需的mic数,IM服务器检查NodeMicInfo文件,将作业调度到有足够mic资源的空闲计算节点上进行计算,否则,将该作业提交命令(isub job.sh)保存在JobQueue中,当作业运行完成后,MIC资源得到释放,IM服务器从JobQueue中取出作业再次调度执行。
该方法的调度流程叙述如下:
作业通过 isub job4.sh形式提交至管理进程IM服务器,IM服务器检查NodeMicInfo文件查看是否有空闲MIC卡(每个节点后面每个数字代表一个MIC卡,1为运行作业,0为空闲),如果有,则将作业调度至该MIC卡上执行,并修改该MIC信息(由0变为1);否则,将作业保存至等待队列中。作业完成后,修改NodeMicInfo文件信息,将刚刚运行该作业的MIC卡信息由1变为0,表示该MIC已经空闲。此时,集群中有MIC卡空闲,IM服务器检查作业等待列表中是否有作业等待,如果有,则将等待的作业重新调度执行。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (1)
1.一种集群MIC作业的管理及调度方法,其特征在于在高性能计算集群中,将MIC众核处理器作为一种计算资源,对MIC资源进行管理及调度,内容包括:管理进程IM服务器、作业提交命令imsub及参数-mics、作业查看命令imjobs、计算节点查看命令imnodes;
其中管理进程IM服务器,负责统计、保存集群中各个计算节点的MIC资源总数及使用情况,以便新提交的MIC作业能够分配至合适的MIC卡上运行;作业提交的命令imsub及参数-mics,使作业运行在指定的MIC卡上,作业提交的命令imsub负责作业脚本提交,参数-mics负责记录作业脚本运行时所需的mic数;作业查看命令imjobs负责查看当前集群中MIC作业的运行状态,将JobQueue文件内显示出来,以此查看集群中等待的MIC作业情况;计算节点查看命令imnodes将NodeMicInfo文件内容显示出来,负责查看当前集群中计算节点MIC资源使用情况,具体管理过程如下:
通过一个管理进程IM服务器,利用ssh命令连接至集群中的各个计算节点,在各个计算节点运行micinfo监控命令,获取该计算节点的MIC总数目及已使用MIC卡序号,并将结果保存在NodeMicInfo文件中,当MIC作业通过isub命令提交时,以命令参数的形式指明所需的mic数,IM服务器检查NodeMicInfo文件,将作业调度到有足够mic资源的空闲节点上进行计算,否则,将该作业提交命令isub job.sh保存在JobQueue中,当作业运行完成后,MIC资源得到释放,IM服务器从JobQueue中取出作业再次调度执行;
具体调度过程如下:
作业通过 isub job4.sh形式提交至管理进程IM服务器,IM服务器检查NodeMicInfo文件查看是否有空闲MIC卡,其中,每个节点后面每个数字代表一个MIC卡,1为运行作业,0为空闲,如果有,则将作业调度至该MIC卡上执行,并修改该MIC信息由0变为1;否则,将作业保存至等待队列中,作业完成后,修改NodeMicInfo文件信息,将刚刚运行该作业的MIC卡信息由1变为0,表示该MIC已经空闲,此时,集群中有MIC卡空闲,IM服务器检查作业等待列表中是否有作业等待,如果有,则将等待的作业重新调度执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210316131.1A CN102902589B (zh) | 2012-08-31 | 2012-08-31 | 一种集群mic作业的管理及调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210316131.1A CN102902589B (zh) | 2012-08-31 | 2012-08-31 | 一种集群mic作业的管理及调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102902589A true CN102902589A (zh) | 2013-01-30 |
CN102902589B CN102902589B (zh) | 2016-06-29 |
Family
ID=47574835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210316131.1A Active CN102902589B (zh) | 2012-08-31 | 2012-08-31 | 一种集群mic作业的管理及调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102902589B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103713986A (zh) * | 2014-01-14 | 2014-04-09 | 浪潮(北京)电子信息产业有限公司 | 一种多结点mic卡检测方法及系统 |
CN105354762A (zh) * | 2015-11-11 | 2016-02-24 | 国网山东省电力公司电力科学研究院 | 一种电力客服业务工单识别与分配系统及方法 |
CN105487949A (zh) * | 2015-11-25 | 2016-04-13 | 浪潮电子信息产业股份有限公司 | 一种mic卡的测试方法及装置 |
CN106897133A (zh) * | 2017-02-27 | 2017-06-27 | 郑州云海信息技术有限公司 | 一种基于pbs作业调度管理集群负载的实现方法 |
CN107193650A (zh) * | 2017-04-17 | 2017-09-22 | 北京奇虎科技有限公司 | 一种在分布式集群中调度显卡资源的方法和装置 |
CN107908473A (zh) * | 2017-10-24 | 2018-04-13 | 无锡十月中宸科技有限公司 | 一种基于拟态高性能计算的模式识别系统及方法 |
CN109144823A (zh) * | 2017-06-27 | 2019-01-04 | 中国石油化工股份有限公司 | 计算资源和作业信息的展示方法及系统 |
CN109313584A (zh) * | 2016-07-22 | 2019-02-05 | 英特尔公司 | 用于管理加速器资源的分配的技术 |
CN110427253A (zh) * | 2019-07-04 | 2019-11-08 | 中国建设银行股份有限公司 | 机器人资源任务周期管控方法及装置 |
CN110795241A (zh) * | 2019-10-18 | 2020-02-14 | 北京并行科技股份有限公司 | 一种作业调度管理方法、调度中心和系统 |
CN111586080A (zh) * | 2019-02-18 | 2020-08-25 | 北京京东尚科信息技术有限公司 | 一种基于即时通信的分布式任务调度方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101122872A (zh) * | 2006-08-07 | 2008-02-13 | 国际商业机器公司 | 用于管理应用程序工作量和数据处理系统的方法 |
US20080271040A1 (en) * | 2002-12-20 | 2008-10-30 | International Business Machines Corporation | Method for managing message flow in a multithreaded, message flow environment |
CN101526934A (zh) * | 2009-04-21 | 2009-09-09 | 浪潮电子信息产业股份有限公司 | 一种gpu与cpu复合处理器的组建方法 |
CN102193830A (zh) * | 2010-03-12 | 2011-09-21 | 复旦大学 | 面向众核环境的分治映射/归约并行编程模型 |
US20120192198A1 (en) * | 2011-01-24 | 2012-07-26 | Nec Laboratories America, Inc. | Method and System for Memory Aware Runtime to Support Multitenancy in Heterogeneous Clusters |
-
2012
- 2012-08-31 CN CN201210316131.1A patent/CN102902589B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080271040A1 (en) * | 2002-12-20 | 2008-10-30 | International Business Machines Corporation | Method for managing message flow in a multithreaded, message flow environment |
CN101122872A (zh) * | 2006-08-07 | 2008-02-13 | 国际商业机器公司 | 用于管理应用程序工作量和数据处理系统的方法 |
CN101526934A (zh) * | 2009-04-21 | 2009-09-09 | 浪潮电子信息产业股份有限公司 | 一种gpu与cpu复合处理器的组建方法 |
CN102193830A (zh) * | 2010-03-12 | 2011-09-21 | 复旦大学 | 面向众核环境的分治映射/归约并行编程模型 |
US20120192198A1 (en) * | 2011-01-24 | 2012-07-26 | Nec Laboratories America, Inc. | Method and System for Memory Aware Runtime to Support Multitenancy in Heterogeneous Clusters |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103713986A (zh) * | 2014-01-14 | 2014-04-09 | 浪潮(北京)电子信息产业有限公司 | 一种多结点mic卡检测方法及系统 |
CN105354762A (zh) * | 2015-11-11 | 2016-02-24 | 国网山东省电力公司电力科学研究院 | 一种电力客服业务工单识别与分配系统及方法 |
CN105487949A (zh) * | 2015-11-25 | 2016-04-13 | 浪潮电子信息产业股份有限公司 | 一种mic卡的测试方法及装置 |
CN109313584A (zh) * | 2016-07-22 | 2019-02-05 | 英特尔公司 | 用于管理加速器资源的分配的技术 |
CN109313584B (zh) * | 2016-07-22 | 2024-04-02 | 英特尔公司 | 用于管理加速器资源的分配的技术 |
CN106897133A (zh) * | 2017-02-27 | 2017-06-27 | 郑州云海信息技术有限公司 | 一种基于pbs作业调度管理集群负载的实现方法 |
CN106897133B (zh) * | 2017-02-27 | 2020-09-29 | 苏州浪潮智能科技有限公司 | 一种基于pbs作业调度管理集群负载的实现方法 |
CN107193650B (zh) * | 2017-04-17 | 2021-01-19 | 北京奇虎科技有限公司 | 一种在分布式集群中调度显卡资源的方法和装置 |
CN107193650A (zh) * | 2017-04-17 | 2017-09-22 | 北京奇虎科技有限公司 | 一种在分布式集群中调度显卡资源的方法和装置 |
CN109144823A (zh) * | 2017-06-27 | 2019-01-04 | 中国石油化工股份有限公司 | 计算资源和作业信息的展示方法及系统 |
CN107908473A (zh) * | 2017-10-24 | 2018-04-13 | 无锡十月中宸科技有限公司 | 一种基于拟态高性能计算的模式识别系统及方法 |
CN111586080A (zh) * | 2019-02-18 | 2020-08-25 | 北京京东尚科信息技术有限公司 | 一种基于即时通信的分布式任务调度方法和装置 |
CN111586080B (zh) * | 2019-02-18 | 2024-02-09 | 北京汇钧科技有限公司 | 一种基于即时通信的分布式任务调度方法和装置 |
CN110427253A (zh) * | 2019-07-04 | 2019-11-08 | 中国建设银行股份有限公司 | 机器人资源任务周期管控方法及装置 |
CN110795241A (zh) * | 2019-10-18 | 2020-02-14 | 北京并行科技股份有限公司 | 一种作业调度管理方法、调度中心和系统 |
CN110795241B (zh) * | 2019-10-18 | 2022-07-19 | 北京并行科技股份有限公司 | 一种作业调度管理方法、调度中心和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102902589B (zh) | 2016-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102902589A (zh) | 一种集群mic作业的管理及调度方法 | |
CN101464811B (zh) | 多任务监控管理系统 | |
US9858115B2 (en) | Task scheduling method for dispatching tasks based on computing power of different processor cores in heterogeneous multi-core processor system and related non-transitory computer readable medium | |
CN103294533B (zh) | 任务流控制方法及系统 | |
CN112668386A (zh) | 使用机器人过程自动化用于文档处理的长时间运行工作流 | |
US9448864B2 (en) | Method and apparatus for processing message between processors | |
CN102262564A (zh) | 视频监控平台系统的线程池结构及实现方法 | |
CN102591765A (zh) | 一种进程自动管理系统 | |
US20120284720A1 (en) | Hardware assisted scheduling in computer system | |
CN103365718A (zh) | 一种线程调度方法、线程调度装置及多核处理器系统 | |
US20140258250A1 (en) | Flexible Control Framework Featuring Standalone Rule Engine | |
CN102457578A (zh) | 一种基于事件机制的分布式网络监控方法 | |
JP2017534970A (ja) | 複数のスレッドを実行する方法、システム、およびコンピュータ・プログラム製品、ならびに複数のスレッドの待ち状態を実現する方法、システム、およびコンピュータ・プログラム | |
CN114936173B (zh) | 一种eMMC器件的读写方法、装置、设备和存储介质 | |
US7765548B2 (en) | System, method and medium for using and/or providing operating system information to acquire a hybrid user/operating system lock | |
WO2023274278A1 (zh) | 一种资源调度的方法、装置及计算节点 | |
CN112130976A (zh) | 一种基于rest的多引擎大数据任务管理方法 | |
CN111984402A (zh) | 一种线程池统一调度监控方法及系统 | |
US10673983B2 (en) | Processing a unit of work | |
CN116069480B (zh) | 一种处理器及计算设备 | |
CN112860401A (zh) | 任务调度方法、装置、电子设备和存储介质 | |
CN101349975B (zh) | 一种在嵌入式操作系统上实现中断底半部机制的方法及装置 | |
CN111443898A (zh) | 基于优先级队列与有限状态机的流程式控制软件设计方法 | |
CN115981893A (zh) | 消息队列任务处理方法、装置、服务器及存储介质 | |
CA2382728A1 (en) | Efficient event waiting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |