CN104965763B - 一种老化感知的任务调度系统 - Google Patents

一种老化感知的任务调度系统 Download PDF

Info

Publication number
CN104965763B
CN104965763B CN201510432304.XA CN201510432304A CN104965763B CN 104965763 B CN104965763 B CN 104965763B CN 201510432304 A CN201510432304 A CN 201510432304A CN 104965763 B CN104965763 B CN 104965763B
Authority
CN
China
Prior art keywords
module
task
resource
resource node
task scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510432304.XA
Other languages
English (en)
Other versions
CN104965763A (zh
Inventor
李焱
王勇
张鸿
朱春鸽
黄道超
周润林
李正民
刘欣然
沈时军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201510432304.XA priority Critical patent/CN104965763B/zh
Publication of CN104965763A publication Critical patent/CN104965763A/zh
Application granted granted Critical
Publication of CN104965763B publication Critical patent/CN104965763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种老化感知的任务调度系统,所述任务调度系统包括老化探测模块、软件再生模块、任务调度模块、调度策略模块和资源信息库模块;所述老化探测模块与资源信息库模块双向连接,所述资源信息库模块与软件再生模块和任务调度模块均单向连接,所述调度策略模块与任务调度模块单向连接。本发明提供一种老化感知的任务调度系统,在任务调度和运行时,能够实时感知资源节点的老化状态,及时恢复资源节点的服务能力,提高了任务执行效率。

Description

一种老化感知的任务调度系统
技术领域
本发明属于计算机技术领域,特别是涉及一种老化感知的任务调度系统。
背景技术
已有研究表明,当软件连续运行较长时间时,它们内部的一些错误条件的积累会导致软件性能衰退甚至停止运行,这种现象称为软件老化。软件老化在需要长时间运行的系统中尤为常见,如虚拟机和虚拟机管理器、操作系统、云平台系统软件等。为降低甚至消除软件老化带来的风险,人们提出了一种名为软件再生的方法,及时评估系统老化状态并适时采取重启操作,提升系统可靠性。如何选择再生的时机是消除软件老化风险的关键,再生太早则代价过高、效果不明显,而再生太晚则起不到降低风险的作用。
任务调度是计算机领域的经典问题,操作系统、网格计算、云计算等领域已对任务调度已经有了非常多的研究。常见的有先来先服务(FIFO)、轮转调度、公平性调度等策略。任务调度已被证明为NP问题,很难找到一种最优的任务调度算法以满足所有的约束条件。现有任务调度的目标主要有以下两种:用户利益驱动的调度方法和考虑服务提供成本的调度方法。前者主要考虑用户的服务质量,如任务完成时间最短、服务质量最高等;后者在满足用户服务的基础上还需考虑平台服务提供商的服务成本,如资源负载均衡、系统资源利用率最高、降低平台能耗等。还有一些调度策略主要考虑调度方法的可扩展性,如多级任务调度策略等。
然而,现有调度方法对执行节点支撑平台的老化问题考虑不足。已有的可用性调度方法主要通过副本或是为关键任务分配较为可靠的计算资源、网络资源来完成,但软件老化使得计算能力强的资源在运行过程中也不可避免地会发生性能下降现象甚至崩溃,影响了任务实际运行效果。
发明内容
为克服考虑资源节点支撑平台软件老化所带来的负面影响,本发明提供一种老化感知的任务调度系统,在任务调度和运行时,能够实时感知资源节点的老化状态,及时恢复资源节点的服务能力,提高了任务执行效率。
为了实现上述发明目的,本发明采取如下技术方案:
本发明提供一种老化感知的任务调度系统,所述任务调度系统包括老化探测模块、软件再生模块、任务调度模块、调度策略模块和资源信息库模块;所述老化探测模块与资源信息库模块双向连接,所述资源信息库模块与软件再生模块和任务调度模块均单向连接,所述调度策略模块与任务调度模块单向连接。
所述老化探测模块包括采集代理,所述采集代理部署在资源节点上,采集代理将采集的内存使用率和CPU使用率传送给资源信息库模块,实现资源节点老化状态的实时更新。
所述软件再生模块主要对系统资源进行再生操作,其主要包括软件再生时机判定模块和软件再生执行模块。
所述软件再生时机判定模块采用基于模型的方法或基于测量的方法完成软件再生时机的判定;
基于模型的方法运用马尔科夫、petri网对资源节点建模,训练得出模型参数,并根据资源节点的实际状态得出再生概率;
基于测量的方法通过不断探测资源节点关键指标值,通过机器学习方法预测关键指标值的变化趋势,当探测到资源节点的老化状态达到设定阈值时,立即执行再生操作;
所述关键指标值包括CPU利用率、内存使用率和带宽占用率。
所述软件再生执行模块根据资源信息库模块对资源节点执行重启操作,以将资源节点恢复到初始状态;如需上层应用不中断,则采用热迁移的方式以在软件再生前将应用迁移到其他的资源节点,否则在保存完运行环境后直接采取重启操作。
所述调度策略模块以插件的形式嵌入任务调度系统中,用于存储可供用户选择的任务调度策略;所述任务调度策略根据不同的应用场景采用不同的调度算法实现,所述调度算法包括Min-Min、Max-Min或遗传算法。
所述资源信息库模块用于存储资源节点信息,资源节点信息包括资源节点的编号、物理位置和实际状态。
所述任务调度模块根据任务到达情况、并结合用户的实际需求选择相应的调度策略进行任务调度;对于高优先级用户提交的任务或是运行时间短且任务执行截止期限近的任务,任务调度模块优先选择初始状态的资源节点执行任务;在任务执行时,当探测到资源节点的老化状态超过设定阈值时,启动软件再生模块及时恢复资源节点的服务能力,以提高任务的执行效率。
与现有技术相比,本发明的有益效果在于:
本发明提供的老化感知的任务调度系统设置了老化探测模块、软件再生模块、任务调度模块、调度策略模块和资源信息库模块;通过监测资源节点的实际状态,考虑了软件老化给任务执行带来的负面影响,能够及时再生老化的资源节点,避免了因老化造成节点的崩溃进而影响了任务的执行,提升了任务调度质量和执行效率。
附图说明
图1是本发明实施例中老化感知的任务调度系统结构图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提供一种老化感知的任务调度系统,(如图1)所述任务调度系统包括老化探测模块、软件再生模块、任务调度模块、调度策略模块和资源信息库模块;所述老化探测模块与资源信息库模块双向连接,所述资源信息库模块与软件再生模块和任务调度模块均单向连接,所述调度策略模块与任务调度模块单向连接。
所述老化探测模块包括采集代理,所述采集代理部署在资源节点上,采集代理将采集的内存使用率和CPU使用率传送给资源信息库模块,实现资源节点老化状态的实时更新。
所述软件再生模块主要对系统资源进行再生操作,其主要包括软件再生时机判定模块和软件再生执行模块。
所述软件再生时机判定模块采用基于模型的方法或基于测量的方法完成软件再生时机的判定;
基于模型的方法运用马尔科夫、petri网对资源节点建模,训练得出模型参数,并根据资源节点的实际状态得出再生概率;
基于测量的方法通过不断探测资源节点关键指标值,通过机器学习方法预测关键指标值的变化趋势,当探测到资源节点的老化状态达到设定阈值时,立即执行再生操作;
所述关键指标值包括CPU利用率、内存使用率和带宽占用率。
所述软件再生执行模块根据资源信息库模块对资源节点执行重启操作,以将资源节点恢复到初始状态;如需上层应用不中断,则采用热迁移的方式以在软件再生前将应用迁移到其他的资源节点,否则在保存完运行环境后直接采取重启操作。
所述调度策略模块以插件的形式嵌入任务调度系统中,用于存储可供用户选择的任务调度策略;所述任务调度策略根据不同的应用场景采用不同的调度算法实现,所述调度算法包括Min-Min、Max-Min或遗传算法。
所述资源信息库模块用于存储资源节点信息,资源节点信息包括资源节点的编号、物理位置和实际状态。
所述任务调度模块根据任务到达情况、并结合用户的实际需求选择相应的调度策略进行任务调度;对于高优先级用户提交的任务或是运行时间短且任务执行截止期限近的任务,任务调度模块优先选择初始状态的资源节点执行任务;在任务执行时,当探测到资源节点的老化状态超过设定阈值时,启动软件再生模块及时恢复资源节点的服务能力,以提高任务的执行效率。
本发明提供的老化感知的任务调度系统设置了老化探测模块、软件再生模块、任务调度模块、调度策略模块和资源信息库模块;通过监测资源节点的实际状态,考虑了软件老化给任务执行带来的负面影响,能够及时再生老化的资源节点,避免了因老化造成节点的崩溃进而影响了任务的执行,提升了任务调度质量和执行效率。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (1)

1.一种老化感知的任务调度系统,其特征在于:所述任务调度系统包括老化探测模块、软件再生模块、任务调度模块、调度策略模块和资源信息库模块;所述老化探测模块与资源信息库模块双向连接,所述资源信息库模块与软件再生模块和任务调度模块均单向连接,所述调度策略模块与任务调度模块单向连接;
所述老化探测模块包括采集代理,所述采集代理部署在资源节点上,采集代理将采集的内存使用率和CPU使用率传送给资源信息库模块,实现资源节点老化状态的实时更新;
所述软件再生模块主要对系统资源进行再生操作,其主要包括软件再生时机判定模块和软件再生执行模块;
所述软件再生时机判定模块采用基于模型的方法或基于测量的方法完成软件再生时机的判定;
基于模型的方法运用马尔科夫、petri网对资源节点建模,训练得出模型参数,并根据资源节点的实际状态得出再生概率;
基于测量的方法通过不断探测资源节点关键指标值,通过机器学习方法预测关键指标值的变化趋势,当探测到资源节点的老化状态达到设定阈值时,立即执行再生操作;
所述关键指标值包括CPU利用率、内存使用率和带宽占用率;
所述软件再生执行模块根据资源信息库模块对资源节点执行重启操作,以将资源节点恢复到初始状态;如需上层应用不中断,则采用热迁移的方式以在软件再生前将应用迁移到其他的资源节点,否则在保存完运行环境后直接采取重启操作;
所述调度策略模块以插件的形式嵌入任务调度系统中,用于存储可供用户选择的任务调度策略;所述任务调度策略根据不同的应用场景采用不同的调度算法实现,所述调度算法包括Min-Min、Max-Min或遗传算法;
所述资源信息库模块用于存储资源节点信息,资源节点信息包括资源节点的编号、物理位置和实际状态;
所述任务调度模块根据任务到达情况、并结合用户的实际需求选择相应的调度策略进行任务调度;对于高优先级用户提交的任务或是运行时间短且任务执行截止期限近的任务,任务调度模块优先选择初始状态的资源节点执行任务;在任务执行时,当探测到资源节点的老化状态超过设定阈值时,启动软件再生模块及时恢复资源节点的服务能力,以提高任务的执行效率。
CN201510432304.XA 2015-07-21 2015-07-21 一种老化感知的任务调度系统 Active CN104965763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510432304.XA CN104965763B (zh) 2015-07-21 2015-07-21 一种老化感知的任务调度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510432304.XA CN104965763B (zh) 2015-07-21 2015-07-21 一种老化感知的任务调度系统

Publications (2)

Publication Number Publication Date
CN104965763A CN104965763A (zh) 2015-10-07
CN104965763B true CN104965763B (zh) 2019-03-15

Family

ID=54219799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510432304.XA Active CN104965763B (zh) 2015-07-21 2015-07-21 一种老化感知的任务调度系统

Country Status (1)

Country Link
CN (1) CN104965763B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675005A (zh) * 2019-10-15 2020-01-10 深圳埃克斯工业自动化有限公司 一种基于人工智能技术与ropn技术的智能决策方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017127976A1 (zh) * 2016-01-25 2017-08-03 华为技术有限公司 一种用于增量式学习云系统的训练、调度方法及相关设备
CN109074303B (zh) * 2017-06-27 2021-08-20 华为技术有限公司 一种卡顿检测方法及装置
CN109522129A (zh) * 2018-11-23 2019-03-26 快云信息科技有限公司 一种资源动态均衡方法、装置及相关设备
CN112766782A (zh) * 2021-01-28 2021-05-07 哈尔滨工业大学(深圳) 政务流程的建模方法、调度方法、智能设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060130044A1 (en) * 2004-12-01 2006-06-15 Alberto Avritzer System and method for triggering software rejuvenation using a customer affecting performance metric
CN101387977A (zh) * 2008-10-30 2009-03-18 西安交通大学 一种可最大化任务吞吐量的服务器软件再生方法
CN101387971A (zh) * 2008-09-26 2009-03-18 中兴通讯股份有限公司 一种嵌入式软件的任务调整方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060130044A1 (en) * 2004-12-01 2006-06-15 Alberto Avritzer System and method for triggering software rejuvenation using a customer affecting performance metric
CN101387971A (zh) * 2008-09-26 2009-03-18 中兴通讯股份有限公司 一种嵌入式软件的任务调整方法和装置
CN101387977A (zh) * 2008-10-30 2009-03-18 西安交通大学 一种可最大化任务吞吐量的服务器软件再生方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675005A (zh) * 2019-10-15 2020-01-10 深圳埃克斯工业自动化有限公司 一种基于人工智能技术与ropn技术的智能决策方法

Also Published As

Publication number Publication date
CN104965763A (zh) 2015-10-07

Similar Documents

Publication Publication Date Title
CN104965763B (zh) 一种老化感知的任务调度系统
CN109491790B (zh) 基于容器的工业物联网边缘计算资源分配方法及系统
CN103605567B (zh) 面向实时性需求变化的云计算任务调度方法
CN110413389B (zh) 一种资源不均衡Spark环境下的任务调度优化方法
CN107239336B (zh) 一种实现任务调度的方法及装置
CN105302630B (zh) 一种虚拟机的动态调整方法及其系统
CN104572307B (zh) 一种对虚拟资源进行弹性调度的方法
Yao et al. Scheduling real-time deep learning services as imprecise computations
CN109672709B (zh) 一种混合云业务调度系统及方法
WO2015066979A1 (zh) 一种MapReduce任务资源配置参数的机器学习方法
CN105426241A (zh) 一种基于云计算数据中心的统一资源调度节能方法
CN110442428B (zh) Docker容器的协调方法
CN112416585A (zh) 面向深度学习的gpu资源管理与智能化调度方法
CN109684078A (zh) 用于spark streaming的资源动态分配方法和系统
CN103699433A (zh) 一种于Hadoop平台中动态调整任务数目的方法及系统
CN112685153A (zh) 微服务调度方法、装置以及电子设备
CN105740059B (zh) 一种面向可分割任务的粒子群调度方法
CN106201701A (zh) 一种带任务重复的工作流调度算法
CN109861850A (zh) 一种基于sla的无状态云工作流负载均衡调度的方法
CN112162835A (zh) 一种异构云环境下实时任务的调度优化方法
Monil et al. QoS-aware virtual machine consolidation in cloud datacenter
CN114579270A (zh) 一种基于资源需求预测的任务调度方法及系统
CN114116183B (zh) 基于深度强化学习的数据中心业务负载调度方法及系统
US11868808B2 (en) Automatic driving simulation task scheduling method and apparatus, device, and readable medium
CN104571931A (zh) 基于系统资源的i/o请求合并调度系统与方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant