CN102902589A - 一种集群mic作业的管理及调度方法 - Google Patents

一种集群mic作业的管理及调度方法 Download PDF

Info

Publication number
CN102902589A
CN102902589A CN2012103161311A CN201210316131A CN102902589A CN 102902589 A CN102902589 A CN 102902589A CN 2012103161311 A CN2012103161311 A CN 2012103161311A CN 201210316131 A CN201210316131 A CN 201210316131A CN 102902589 A CN102902589 A CN 102902589A
Authority
CN
China
Prior art keywords
mic
job
cluster
server
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103161311A
Other languages
English (en)
Other versions
CN102902589B (zh
Inventor
张云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201210316131.1A priority Critical patent/CN102902589B/zh
Publication of CN102902589A publication Critical patent/CN102902589A/zh
Application granted granted Critical
Publication of CN102902589B publication Critical patent/CN102902589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种集群MIC作业的管理及调度方法,内容包括:管理进程IM服务器、作业提交的命令imsub及参数-mics、MIC作业查看命令imjobs、计算节点查看命令imnodes。该方法通过管理进程(IM服务器)记录集群中其他所有节点(计算节点)的MIC资源总数及使用情况。当作业在管理节点上提交时,以命令参数的形式指明所需的mic数。管理节点检查集群中所有计算节点,找到有足够mic资源的计算节点,并将作业发送至该节点进行计算。本方法克服了传统集群资源管理及调度不支持MIC作业的问题,提出了一种集群MIC作业的管理及调度方法,使得集群MIC资源得到充分利用,有效提高MIC处理复杂作业的能力。

Description

一种集群MIC作业的管理及调度方法
技术领域
本发明涉及计算机领域,具体的说是一种集群MIC作业的管理及调度方法。
背景技术
英特尔集成众核(MIC)跟通用的多核处理器相比,具有更小的内核和硬件线程,计算资源密度更高,片上通信开销显著降低,具有更多的晶体管和能量,能够胜任更为复杂的并行应用。但是当前主流的集群资源管理及调度系统还没有添加对MIC作业的支持,此时存在以下两个问题:1)MIC作业提交至作业管理系统,系统无法知道集群中哪些节点具有MIC资源,从而无法将作业调度至相应的MIC节点上。2)MIC作业提交至作业管理系统时,即使被调度至相应的MIC节点上,但是作业管理系统并不知道此时MIC卡上是否已有作业运行,一块MIC卡上只能运行一个作业,如果两个或多个作业被调度到同一块MIC卡上,会造成作业运行错误。
发明内容
本发明针对现有技术的不足,提供一种集群MIC作业的管理及调度方法。
本发明是在高性能计算集群中,将英特尔MIC众核处理器作为一种计算资源,对MIC资源进行管理及调度的方法,其解决所述技术问题的方法内容包括:管理进程IM服务器、作业提交的命令imsub及参数-mics、作业查看命令imjobs、计算节点查看命令imnodes;
其中管理进程IM服务器,负责统计、保存集群中各个计算节点的MIC资源总数及使用情况;作业提交的命令imsub及参数-mics,可以使作业运行在指定的MIC卡上,作业提交的命令imsub,负责作业脚本提交,参数-mics,负责记录作业脚本运行时所需的mic数,例如: 使用imsub –mics 2 job.sh提交一个需要2个mic卡的作业job.sh ;作业查看命令imjobs,负责查看当前集群所有MIC作业的运行状态,且可以将JobQueue文件内显示出来,可查看集群中等待的MIC作业情况;计算节点查看命令imnodes, 可以将NodeMicInfo文件内容显示出来,负责查看当前集群中计算节点MIC资源使用情况。
本发明提供的MIC作业管理及调度方法,管理端进程对整个集群的MIC资源进行统计及监控,可以保证新提交的MIC作业在合适的计算节点上运行。该方法的具体管理过程如下:
通过一个管理进程IM服务器,利用ssh命令连接至集群中的各个计算节点,在各个计算节点运行micinfo监控命令,获取该计算节点的MIC总数目及已使用MIC卡序号,并将结果保存在NodeMicInfo文件中,当MIC作业通过isub命令提交时,以命令参数的形式指明所需的mic数,IM服务器检查NodeMicInfo文件,将作业调度到有足够mic资源的空闲计算节点上进行计算,否则,将该作业提交命令(isub job.sh)保存在JobQueue中,当作业运行完成后,MIC资源得到释放,IM服务器从JobQueue中取出作业再次调度执行。
具体调度过程如下:
作业通过 isub job4.sh形式提交至管理进程IM服务器,IM服务器检查NodeMicInfo文件查看是否有空闲MIC卡,其中,每个节点后面每个数字代表一个MIC卡,1为运行作业,0为空闲,如果有,则将作业调度至该MIC卡上执行,并修改该MIC信息由0变为1;否则,将作业保存至等待队列中,作业完成后,修改NodeMicInfo文件信息,将刚刚运行该作业的MIC卡信息由1变为0,表示该MIC已经空闲,此时,集群中有MIC卡空闲,IM服务器检查作业等待列表中是否有作业等待,如果有,则将等待的作业重新调度执行。
本发明一种集群MIC作业的管理及调度方法的有益效果是:本方法克服了传统集群资源管理及调度不支持MIC作业的问题,提出了一种将MIC众核处理器作为计算资源,根据作业需求对MIC资源进行分配及调度的方法,使得集群MIC资源得到充分利用,并保证作业的正确运行,有效提高MIC处理复杂作业的能力。
附图说明
附图1是集群MIC作业的管理及调度方法的系统流程图。
具体实施方式
下面结合附图1对本发明一种集群MIC作业的管理及调度方法作进一步说明。
本方法通过一个管理进程(IM服务器),对集群中的MIC资源信息及使用状态进行统计并保存,以便新提交的MIC作业能够分配至合适的MIC卡上运行;提供一个MIC作业提交命令imsub及参数-mics,可以使作业运行在指定的MIC卡上;提供一个MIC作业查看命令imjobs,可以查看当前集群所有MIC作业运行状态;提供一个计算节点查看命令imnodes,可以查看当前集群中所有计算节点上的MIC使用信息。
本发明提供的MIC作业管理及调度方法,管理端进程对整个集群的MIC资源进行统计及监控,可以保证新提交的MIC作业在合适的计算节点上运行。该方法的具体管理过程为:
通过一个管理进程IM服务器,利用ssh命令连接至集群中的各个计算节点,在各个计算节点运行micinfo监控命令,获取该计算节点的MIC总数目及已使用MIC卡序号,并将结果保存在NodeMicInfo文件中,当MIC作业通过isub命令提交时,以命令参数的形式指明所需的mic数,IM服务器检查NodeMicInfo文件,将作业调度到有足够mic资源的空闲计算节点上进行计算,否则,将该作业提交命令(isub job.sh)保存在JobQueue中,当作业运行完成后,MIC资源得到释放,IM服务器从JobQueue中取出作业再次调度执行。
该方法的调度流程叙述如下:
作业通过 isub job4.sh形式提交至管理进程IM服务器,IM服务器检查NodeMicInfo文件查看是否有空闲MIC卡(每个节点后面每个数字代表一个MIC卡,1为运行作业,0为空闲),如果有,则将作业调度至该MIC卡上执行,并修改该MIC信息(由0变为1);否则,将作业保存至等待队列中。作业完成后,修改NodeMicInfo文件信息,将刚刚运行该作业的MIC卡信息由1变为0,表示该MIC已经空闲。此时,集群中有MIC卡空闲,IM服务器检查作业等待列表中是否有作业等待,如果有,则将等待的作业重新调度执行。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种集群MIC作业的管理及调度方法,其特征在于在高性能计算集群中,将MIC众核处理器作为一种计算资源,对MIC资源进行管理及调度,内容包括:管理进程IM服务器、作业提交命令imsub及参数-mics、作业查看命令imjobs、计算节点查看命令imnodes;
其中管理进程IM服务器,负责统计、保存集群中各个计算节点的MIC资源总数及使用情况,以便新提交的MIC作业能够分配至合适的MIC卡上运行;作业提交的命令imsub及参数-mics,使作业运行在指定的MIC卡上,作业提交的命令imsub负责作业脚本提交,参数-mics负责记录作业脚本运行时所需的mic数;作业查看命令imjobs负责查看当前集群中MIC作业的运行状态,将JobQueue文件内显示出来,以此查看集群中等待的MIC作业情况;计算节点查看命令imnodes将NodeMicInfo文件内容显示出来,负责查看当前集群中计算节点MIC资源使用情况,具体管理过程如下:
通过一个管理进程IM服务器,利用ssh命令连接至集群中的各个计算节点,在各个计算节点运行micinfo监控命令,获取该计算节点的MIC总数目及已使用MIC卡序号,并将结果保存在NodeMicInfo文件中,当MIC作业通过isub命令提交时,以命令参数的形式指明所需的mic数,IM服务器检查NodeMicInfo文件,将作业调度到有足够mic资源的空闲节点上进行计算,否则,将该作业提交命令isub job.sh保存在JobQueue中,当作业运行完成后,MIC资源得到释放,IM服务器从JobQueue中取出作业再次调度执行;
具体调度过程如下:
作业通过 isub job4.sh形式提交至管理进程IM服务器,IM服务器检查NodeMicInfo文件查看是否有空闲MIC卡,其中,每个节点后面每个数字代表一个MIC卡,1为运行作业,0为空闲,如果有,则将作业调度至该MIC卡上执行,并修改该MIC信息由0变为1;否则,将作业保存至等待队列中,作业完成后,修改NodeMicInfo文件信息,将刚刚运行该作业的MIC卡信息由1变为0,表示该MIC已经空闲,此时,集群中有MIC卡空闲,IM服务器检查作业等待列表中是否有作业等待,如果有,则将等待的作业重新调度执行。
CN201210316131.1A 2012-08-31 2012-08-31 一种集群mic作业的管理及调度方法 Active CN102902589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210316131.1A CN102902589B (zh) 2012-08-31 2012-08-31 一种集群mic作业的管理及调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210316131.1A CN102902589B (zh) 2012-08-31 2012-08-31 一种集群mic作业的管理及调度方法

Publications (2)

Publication Number Publication Date
CN102902589A true CN102902589A (zh) 2013-01-30
CN102902589B CN102902589B (zh) 2016-06-29

Family

ID=47574835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210316131.1A Active CN102902589B (zh) 2012-08-31 2012-08-31 一种集群mic作业的管理及调度方法

Country Status (1)

Country Link
CN (1) CN102902589B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103713986A (zh) * 2014-01-14 2014-04-09 浪潮(北京)电子信息产业有限公司 一种多结点mic卡检测方法及系统
CN105354762A (zh) * 2015-11-11 2016-02-24 国网山东省电力公司电力科学研究院 一种电力客服业务工单识别与分配系统及方法
CN105487949A (zh) * 2015-11-25 2016-04-13 浪潮电子信息产业股份有限公司 一种mic卡的测试方法及装置
CN106897133A (zh) * 2017-02-27 2017-06-27 郑州云海信息技术有限公司 一种基于pbs作业调度管理集群负载的实现方法
CN107193650A (zh) * 2017-04-17 2017-09-22 北京奇虎科技有限公司 一种在分布式集群中调度显卡资源的方法和装置
CN107908473A (zh) * 2017-10-24 2018-04-13 无锡十月中宸科技有限公司 一种基于拟态高性能计算的模式识别系统及方法
CN109144823A (zh) * 2017-06-27 2019-01-04 中国石油化工股份有限公司 计算资源和作业信息的展示方法及系统
CN109313584A (zh) * 2016-07-22 2019-02-05 英特尔公司 用于管理加速器资源的分配的技术
CN110427253A (zh) * 2019-07-04 2019-11-08 中国建设银行股份有限公司 机器人资源任务周期管控方法及装置
CN110795241A (zh) * 2019-10-18 2020-02-14 北京并行科技股份有限公司 一种作业调度管理方法、调度中心和系统
CN111586080A (zh) * 2019-02-18 2020-08-25 北京京东尚科信息技术有限公司 一种基于即时通信的分布式任务调度方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122872A (zh) * 2006-08-07 2008-02-13 国际商业机器公司 用于管理应用程序工作量和数据处理系统的方法
US20080271040A1 (en) * 2002-12-20 2008-10-30 International Business Machines Corporation Method for managing message flow in a multithreaded, message flow environment
CN101526934A (zh) * 2009-04-21 2009-09-09 浪潮电子信息产业股份有限公司 一种gpu与cpu复合处理器的组建方法
CN102193830A (zh) * 2010-03-12 2011-09-21 复旦大学 面向众核环境的分治映射/归约并行编程模型
US20120192198A1 (en) * 2011-01-24 2012-07-26 Nec Laboratories America, Inc. Method and System for Memory Aware Runtime to Support Multitenancy in Heterogeneous Clusters

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080271040A1 (en) * 2002-12-20 2008-10-30 International Business Machines Corporation Method for managing message flow in a multithreaded, message flow environment
CN101122872A (zh) * 2006-08-07 2008-02-13 国际商业机器公司 用于管理应用程序工作量和数据处理系统的方法
CN101526934A (zh) * 2009-04-21 2009-09-09 浪潮电子信息产业股份有限公司 一种gpu与cpu复合处理器的组建方法
CN102193830A (zh) * 2010-03-12 2011-09-21 复旦大学 面向众核环境的分治映射/归约并行编程模型
US20120192198A1 (en) * 2011-01-24 2012-07-26 Nec Laboratories America, Inc. Method and System for Memory Aware Runtime to Support Multitenancy in Heterogeneous Clusters

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103713986A (zh) * 2014-01-14 2014-04-09 浪潮(北京)电子信息产业有限公司 一种多结点mic卡检测方法及系统
CN105354762A (zh) * 2015-11-11 2016-02-24 国网山东省电力公司电力科学研究院 一种电力客服业务工单识别与分配系统及方法
CN105487949A (zh) * 2015-11-25 2016-04-13 浪潮电子信息产业股份有限公司 一种mic卡的测试方法及装置
CN109313584A (zh) * 2016-07-22 2019-02-05 英特尔公司 用于管理加速器资源的分配的技术
CN109313584B (zh) * 2016-07-22 2024-04-02 英特尔公司 用于管理加速器资源的分配的技术
CN106897133A (zh) * 2017-02-27 2017-06-27 郑州云海信息技术有限公司 一种基于pbs作业调度管理集群负载的实现方法
CN106897133B (zh) * 2017-02-27 2020-09-29 苏州浪潮智能科技有限公司 一种基于pbs作业调度管理集群负载的实现方法
CN107193650B (zh) * 2017-04-17 2021-01-19 北京奇虎科技有限公司 一种在分布式集群中调度显卡资源的方法和装置
CN107193650A (zh) * 2017-04-17 2017-09-22 北京奇虎科技有限公司 一种在分布式集群中调度显卡资源的方法和装置
CN109144823A (zh) * 2017-06-27 2019-01-04 中国石油化工股份有限公司 计算资源和作业信息的展示方法及系统
CN107908473A (zh) * 2017-10-24 2018-04-13 无锡十月中宸科技有限公司 一种基于拟态高性能计算的模式识别系统及方法
CN111586080A (zh) * 2019-02-18 2020-08-25 北京京东尚科信息技术有限公司 一种基于即时通信的分布式任务调度方法和装置
CN111586080B (zh) * 2019-02-18 2024-02-09 北京汇钧科技有限公司 一种基于即时通信的分布式任务调度方法和装置
CN110427253A (zh) * 2019-07-04 2019-11-08 中国建设银行股份有限公司 机器人资源任务周期管控方法及装置
CN110795241A (zh) * 2019-10-18 2020-02-14 北京并行科技股份有限公司 一种作业调度管理方法、调度中心和系统
CN110795241B (zh) * 2019-10-18 2022-07-19 北京并行科技股份有限公司 一种作业调度管理方法、调度中心和系统

Also Published As

Publication number Publication date
CN102902589B (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN102902589A (zh) 一种集群mic作业的管理及调度方法
CN101464811B (zh) 多任务监控管理系统
US9858115B2 (en) Task scheduling method for dispatching tasks based on computing power of different processor cores in heterogeneous multi-core processor system and related non-transitory computer readable medium
CN103294533B (zh) 任务流控制方法及系统
CN112668386A (zh) 使用机器人过程自动化用于文档处理的长时间运行工作流
US9448864B2 (en) Method and apparatus for processing message between processors
CN102262564A (zh) 视频监控平台系统的线程池结构及实现方法
CN102591765A (zh) 一种进程自动管理系统
US20120284720A1 (en) Hardware assisted scheduling in computer system
CN103365718A (zh) 一种线程调度方法、线程调度装置及多核处理器系统
US20140258250A1 (en) Flexible Control Framework Featuring Standalone Rule Engine
CN102457578A (zh) 一种基于事件机制的分布式网络监控方法
JP2017534970A (ja) 複数のスレッドを実行する方法、システム、およびコンピュータ・プログラム製品、ならびに複数のスレッドの待ち状態を実現する方法、システム、およびコンピュータ・プログラム
CN114936173B (zh) 一种eMMC器件的读写方法、装置、设备和存储介质
US7765548B2 (en) System, method and medium for using and/or providing operating system information to acquire a hybrid user/operating system lock
WO2023274278A1 (zh) 一种资源调度的方法、装置及计算节点
CN112130976A (zh) 一种基于rest的多引擎大数据任务管理方法
CN111984402A (zh) 一种线程池统一调度监控方法及系统
US10673983B2 (en) Processing a unit of work
CN116069480B (zh) 一种处理器及计算设备
CN112860401A (zh) 任务调度方法、装置、电子设备和存储介质
CN101349975B (zh) 一种在嵌入式操作系统上实现中断底半部机制的方法及装置
CN111443898A (zh) 基于优先级队列与有限状态机的流程式控制软件设计方法
CN115981893A (zh) 消息队列任务处理方法、装置、服务器及存储介质
CA2382728A1 (en) Efficient event waiting

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant