CN102880506B - 一种基于作业调度系统的应用作业控制系统及其控制方法 - Google Patents
一种基于作业调度系统的应用作业控制系统及其控制方法 Download PDFInfo
- Publication number
- CN102880506B CN102880506B CN201210333454.1A CN201210333454A CN102880506B CN 102880506 B CN102880506 B CN 102880506B CN 201210333454 A CN201210333454 A CN 201210333454A CN 102880506 B CN102880506 B CN 102880506B
- Authority
- CN
- China
- Prior art keywords
- message
- application
- multicast
- multicast message
- job
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Debugging And Monitoring (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种基于作业调度系统的应用作业控制系统及其控制方法,控制系统包括组播消息发送器、应用程序监控器和作业调度系统;当组播消息发送器被应用程序作业调用后,向组播域发送组播消息;应用程序监控器中的应用监听器接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;消息分析器判定所述组播消息运行状态是否正常,若处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun;该方法解决了现有调度系统仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理的问题,保证高性能计算集群上作业内的应用程序的正常运行,避免了资源的浪费,同时还保证了应用程序作业运行的准确性。
Description
技术领域
本发明涉及一种高性能计算机群的控制系统及其控制方法,具体涉及一种基于作业调度系统的应用作业控制系统及其控制方法。
背景技术
在高性能计算集群的使用中,很多应用作业在提交运行后会长期占用大量的计算资源,甚至有些作业会以服务的形式长时间存在,对于这种类型的作业,从作业调度系统的角度所看到的作业状态始终为Run,而使用者更为关注的这类作业的应用本身的运行情况并没能显示出来,应用本身已经处于异常状态,但应用依旧以作业的形式运行于集群之中的情况却是时有发生的,针对这样的情况,调度系统暂未捕捉此类异常。而这种情况往往会带来的后果就是:
1、应用作业已经处于异常状态、无法提供正常的服务时,却不能被及时发现,做出相应处理
2、作业所占用的大量资源无法得到及时释放;
3、作业耗费长时运行结束,却无法得到正常的运行结果,或无法确定所得到运行结果的正确性。
现有调度系统仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理。这也就出现了上述的问题。
发明内容
针对现有技术的不足,本发明提供一种基于作业调度系统的应用作业控制系统及其控制方法,该方法解决了现有调度系统仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理的问题,保证高性能计算集群上作业内的应用程序的正常运行,同时当应用程序作业运行状态异常时,异常应用对应作业会在第一时间进入作业调度系统的Rerun(重新运行)状态,避免了资源的浪费,同时还保证了应用程序作业运行的准确性。
本发明的目的是采用下述技术方案实现的:
一种基于作业调度系统的应用作业控制系统,其改进之处在于,所述控制系统包括组播消息发送器、应用程序监控器和作业调度系统;
所述组播消息发送器被应用程序作业调用后,向组播域发送组播消息;所述应用程序监控器中的应用监听器接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;所述消息分析器判定所述组播消息运行状态是否正常,若处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun;
当应用程序监控器中的应用监听器在>10ms的指定时间内没有收到应用作业的组播消息,则认为应用作业处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun。
其中,所述组播消息发送器被应用程序作业调用后,以组播格式组成结构向组播域中发送组播消息。
其中,所述应用程序监控器包括应用监听器和消息分析器;
所述应用监听器接收所述组播消息并将其发送到消息分析器中;
所述消息分析器判定组播消息的运行状态是否正常。
其中,若组播消息处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun。
本发明基于另一目的提供的一种基于作业调度系统的应用作业控制方法,其改进之处在于,所述方法包括下述步骤:
(1)组播消息发送器被应用程序作业调用后,向组播域发送组播消息;
(2)所述应用程序监控器中的应用监听器接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;
(3)所述消息分析器判定所述组播消息运行状态是否正常;
(4)若处于异常状态,则通过作业调度系统将该应用程序作业Rerun。
其中,所述步骤(1)中,组播消息发送器被应用程序作业调用后,以组播格式组成结构向组播域发送组播消息。
其中,所述组播格式组成结构包括:
头部信息:用于应用监听器在监听组播域时,过滤出组播消息发送器所发出的组播消息;
消息类型码:用于确定组播消息的类型,消息的类型分为组合和单一两种类型;组合类型的消息,是指单从本条消息中无法确定作业中的应用程序运行状态是否正常,与该作业的组播消息发送器发送的下一条组播消息相结合;单一类型的消息,是指利用本条消息中的消息内容码和判定规则码判定当前作业中的应用程序运行状态是否正常;
判定规则码:根据该判定规则码对应的判定规则,来处理消息内容码后,可判定出作业中的应用程序运行状态;
消息内容码:应用监听器传给组播消息发送器的应用状态信息,用于判定作业中的应用程序的运行状态的依据。
其中,所述步骤(2)中,应用监听器接收所述组播消息后,根据组播头部信息过滤出所需的组播消息;再利用组播消息中的作业信息获取作业调度系统作业的ID信息;所述应用监听器将ID信息、消息类型码、判定规则码和消息内容码发送到消息分析器中。
其中,所述步骤(3)中,所述消息分析器通过判定消息类型码,判别消息类型;
若消息类型为组合型消息,所述消息分析器在缓存中搜索该组播消息,若没有搜索到,则将该组播消息内容加入消息分析器的缓存;再利用本条消息中的判定规则码和消息内容码判定作业中应用程序的运行状态;
若消息类型为单一型消息,则利用本条消息中的判定规则码和消息内容码判定作业中的应用程序运行状态。
其中,所述步骤(4)中,若步骤(3)作业中的应用程序运行状态为异常状态,则通过作业调度系统将应用程序作业Rerun。
与现有技术比,本发明达到的有益效果是:
本发明提供的基于作业调度系统的应用作业控制系统及其控制方法,解决了现有调度系统仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理的问题,保证高性能计算集群上作业内的应用的正常运行,同时当应用程序作业运行状态异常时,异常应用对应作业会在第一时间进入作业调度系统的Rerun状态,避免了资源的浪费,同时还保证了应用程序作业运行的准确性。
附图说明
图1是本发明提供的基于作业调度系统的应用作业控制方案示意图;
图2是本发明提供的组播格式组成结构示意图;
图3是本发明提供的组播消息应用监听器工作原理示意图;
图4是本发明提供的消息分析器工作原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
本发明中所提出的应用作业控制方案如图1基于作业调度系统的应用作业控制方案图所示,基于作业调度系统的应用作业控制系统由“组播消息发送器”、“应用程序监控器”和“作业调度系统”组成。应用作业控制系统要求应用程序需按特定时间间隔调用方案中所提供的“组播消息发送器”,该组播消息发送器会向组播域内发送规定格式的组播消息。使用这种组播消息的机制,保证了集群管理节点上的“应用程序监控器”的“应用监听器”部件可以接收到来自任何计算节点的应用作业通过组播消息发送器所发送出的组播消息。
“应用程序监控器”中的“应用监听器”组件在接收到“组播域”中的组播后,会根据组播信息判断是来自哪个作业的组播,之后将该组播消息发送到“消息分析器”中,“消息分析器”根据组播内容判断发送该组播消息的作业中“应用程序”的运行状态是否正常。如果应用监听器在所指定时间段内没能接受到某作业的组播消息,应用程序监控器将会认为该作业中的应用程序已经处于异常状态,便会通过作业调度系统将该作业Rerun。
本发明提供的基于作业调度系统的应用作业控制方法,包括下述步骤:
(1)组播消息发送器被应用程序作业调用后,向组播域发送组播消息:
a、组播消息发送器:
在被应用程序调用后,组播消息发送器以特定的格式向组播域中发送组播消息,组播格式的组成结构如图2组播格式组成结构所示:
其中,各部分内容如下:
头部信息:用于应用监听器在监听组播域时,过滤出组播消息发送器所发出的组播消息。
作业信息:用于应用监听器将组播消息关联到作业的应用程序。
消息类型码:用于确定后面的消息内容的类型,消息的类型分为“组合”和“单一”两种类型。组合类型的消息,是指单从本条消息中无法确定作业中的应用的状态是否正常,需要与该作业的组播消息发送器发送的下一条组播消息相结合,具体结合规则在“判断规则码”中确定。单一类型的消息,是指仅利用本条消息中的消息内容码和判定规则码即可判断当前作业中的应用程序的运行状态是否正常。
判定规则码:根据该判定规则码对应的判定规则,来处理消息内容码后,可判断出应用状态。
消息内容码:应用传给组播消息发送器的应用状态信息,用于判断应用状态的依据。
(2)所述应用程序监控器中的应用监听器接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;
b、应用程序监控器:
如图1所示,应用程序监控器包括“消息分析器”和“应用监听器”两个部分。本发明提供的组播消息应用监听器工作原理如图3所示,“应用监听器”在接收到“组播域”中的组播后,会根据设定的组播头部信息过滤出所需的组播消息,之后利用组播消息中的作业信息,通过作业调度系统获取作业的ID信息,该作业ID将与消息判定相关内容(即消息类型码、判定规则码和消息内容码)一起传给消息分析器。
(3)消息分析器判定所述组播消息运行状态是否正常;
c、消息分析器:
本发明提供的消息分析器工作原理如图4所示,消息分析器会先通过判定消息类型码,来判别消息类型,如果为组合型消息,消息分析器会先在缓存中搜索该消息,如果没有搜索到,则将该条消息内容加入缓存。之后利用消息中的“判定规则码”和“消息内容码”来判定作业中的应用程序的运行状态。
(4)若作业中的应用程序的运行状态处于异常状态,则通过作业调度系统将该应用程序作业Rerun,即调用作业调度系统命令来实现。
本发明解决了现有调度系统仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理的问题,保证高性能计算集群上作业内的应用的正常运行,同时当应用运行异常时,异常应用对应作业会在第一时间进入调度系统的Rerun状态,避免了资源的浪费,同时还保证了应用运行的准确性。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种基于作业调度系统的应用作业控制方法,其特征在于,所述方法用的系统为基于作业调度系统的应用作业控制系统,所述控制系统包括组播消息发送器、应用程序监控器和作业调度系统;
所述组播消息发送器被应用程序作业调用后,向组播域发送组播消息;所述应用程序监控器中的应用监听器接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;所述消息分析器判定所述组播消息运行状态是否正常,若处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun;
当应用程序监控器中的应用监听器在>10ms的指定时间内没有收到应用作业的组播消息,则认为应用作业处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun;
所述组播消息发送器被应用程序作业调用后,以组播格式组成结构向组播域中发送组播消息;
所述应用程序监控器包括应用监听器和消息分析器;
所述应用监听器接收所述组播消息并将其发送到消息分析器中;
所述消息分析器判定组播消息的运行状态是否正常;
若组播消息处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun;
所述方法包括下述步骤:
(1)组播消息发送器被应用程序作业调用后,向组播域发送组播消息;
(2)所述应用程序监控器中的应用监听器接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;
(3)所述消息分析器判定所述组播消息运行状态是否正常;
(4)若处于异常状态,则通过作业调度系统将该应用程序作业Rerun;
所述步骤(1)中,组播消息发送器被应用程序作业调用后,以组播格式组成结构向组播域发送组播消息;
所述组播格式组成结构包括:
头部信息:用于应用监听器在监听组播域时,过滤出组播消息发送器所发出的组播消息;
消息类型码:用于确定组播消息的类型,消息的类型分为组合和单一两种类型;组合类型的消息,是指单从本条消息中无法确定作业中的应用程序运行状态是否正常,与该作业的组播消息发送器发送的下一条组播消息相结合;单一类型的消息,是指利用本条消息中的消息内容码和判定规则码判定当前作业中的应用程序运行状态是否正常;
判定规则码:根据该判定规则码对应的判定规则,来处理消息内容码后,可判定出作业中的应用程序运行状态;
消息内容码:应用监听器传给组播消息发送器的应用状态信息,用于判定作业中的应用程序的运行状态的依据;
所述步骤(2)中,应用监听器接收所述组播消息后,根据组播头部信息过滤出所需的组播消息;再利用组播消息中的作业信息获取作业调度系统作业的ID信息;所述应用监听器将ID信息、消息类型码、判定规则码和消息内容码发送到消息分析器中;
所述步骤(3)中,所述消息分析器通过判定消息类型码,判别消息类型;
若消息类型为组合型消息,所述消息分析器在缓存中搜索该组播消息,若没有搜索到,则将该组播消息内容加入消息分析器的缓存;再利用本条消息中的判定规则码和消息内容码判定作业中应用程序的运行状态;
若消息类型为单一型消息,则利用本条消息中的判定规则码和消息内容码判定作业中的应用程序运行状态;
所述步骤(4)中,若步骤(3)作业中的应用程序运行状态为异常状态,则通过作业调度系统将应用程序作业Rerun。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210333454.1A CN102880506B (zh) | 2012-09-10 | 2012-09-10 | 一种基于作业调度系统的应用作业控制系统及其控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210333454.1A CN102880506B (zh) | 2012-09-10 | 2012-09-10 | 一种基于作业调度系统的应用作业控制系统及其控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102880506A CN102880506A (zh) | 2013-01-16 |
CN102880506B true CN102880506B (zh) | 2016-09-21 |
Family
ID=47481844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210333454.1A Active CN102880506B (zh) | 2012-09-10 | 2012-09-10 | 一种基于作业调度系统的应用作业控制系统及其控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102880506B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103677975A (zh) * | 2013-12-09 | 2014-03-26 | 北京恒华伟业科技股份有限公司 | 一种访问应用系统内部对象的系统和方法 |
CN106713398A (zh) * | 2015-11-18 | 2017-05-24 | 中兴通讯股份有限公司 | 共享存储式集群文件系统节点通信的监控方法及监控节点 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100531040C (zh) * | 2007-02-07 | 2009-08-19 | 杭州华三通信技术有限公司 | 实现组播虚拟专用网绑定的方法及设备 |
CN101321207B (zh) * | 2008-07-22 | 2011-07-20 | 中国移动通信集团江苏有限公司 | 一种电信客户服务系统数据库故障处理方法 |
JP2012086416A (ja) * | 2010-10-18 | 2012-05-10 | Canon Inc | 画像形成装置、印刷ジョブ制御方法およびプログラム |
-
2012
- 2012-09-10 CN CN201210333454.1A patent/CN102880506B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN102880506A (zh) | 2013-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197261A (zh) | 一种智慧交通操作系统 | |
CN101958804B (zh) | 提升告警处理效率的方法、服务器及系统 | |
CN105631026A (zh) | 一种安全数据分析系统 | |
CN101877618B (zh) | 基于无代理方式进行监控的方法、服务器及系统 | |
CN104657150B (zh) | 一种集群环境下的自动化运维方法 | |
CN107562541B (zh) | 一种负载均衡分布式的爬虫方法、爬虫系统 | |
CN109255523A (zh) | 基于kks编码规则和大数据架构的分析指标计算平台 | |
CN102136949A (zh) | 一种基于网络和时间的告警相关性分析方法及系统 | |
CN102862589B (zh) | 适用于城市轨道交通的应急调度指挥数据处理方法及装置 | |
WO2014061518A1 (ja) | 保守装置、保守システム、保守プログラム | |
CN105236056A (zh) | 基于物联网的远程监控垃圾站设备及调度转运车辆的方法 | |
CN101639803A (zh) | 多线程应用系统的异常处理方法和异常处理装置 | |
CN102880506B (zh) | 一种基于作业调度系统的应用作业控制系统及其控制方法 | |
CN103870549B (zh) | 石油地质软件数据的清理方法及装置 | |
CN110817633A (zh) | 一种电梯物联网云平台监测系统 | |
CN102916830B (zh) | 一种资源服务优化配置容错管理实现系统 | |
CN112241401A (zh) | 一种基于知识图谱的数字化质量管理系统及方法 | |
CN109167684A (zh) | 一种通信网络状态故障监控系统及检修方法 | |
CN109495546B (zh) | 数据处理方法、系统及服务器 | |
CN102975670B (zh) | 车辆总线控制系统瞬时故障的处理方法及系统、车辆 | |
CN108445857B (zh) | 一种scada系统的1+n冗余机制设计方法 | |
CN106445788A (zh) | 一种信息系统运行状态预测方法和装置 | |
CN115840766A (zh) | 一种日志数据解析方法、装置、电子设备及存储介质 | |
Eyers et al. | Integrating process-oriented and event-based systems (Dagstuhl seminar 16341) | |
CN1498481A (zh) | 基于网络获得数据的趋势分析管理承载网络的系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211025 Address after: 100089 zone A-1, floor 2, building 36, yard 8, Dongbeiwang West Road, Haidian District, Beijing Patentee after: Shuguang zhisuan Information Technology Co.,Ltd. Address before: 100193 No.36 Zhongguancun Software Park, No.8 Dongbeiwang West Road, Haidian District, Beijing Patentee before: Dawning Information Industry (Beijing) Co.,Ltd. |