CN104965763B

CN104965763B - 一种老化感知的任务调度系统

Info

Publication number: CN104965763B
Application number: CN201510432304.XA
Authority: CN
Inventors: 李焱; 王勇; 张鸿; 朱春鸽; 黄道超; 周润林; 李正民; 刘欣然; 沈时军
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2015-07-21
Filing date: 2015-07-21
Publication date: 2019-03-15
Anticipated expiration: 2035-07-21
Also published as: CN104965763A

Abstract

本发明提供一种老化感知的任务调度系统，所述任务调度系统包括老化探测模块、软件再生模块、任务调度模块、调度策略模块和资源信息库模块；所述老化探测模块与资源信息库模块双向连接，所述资源信息库模块与软件再生模块和任务调度模块均单向连接，所述调度策略模块与任务调度模块单向连接。本发明提供一种老化感知的任务调度系统，在任务调度和运行时，能够实时感知资源节点的老化状态，及时恢复资源节点的服务能力，提高了任务执行效率。

Description

一种老化感知的任务调度系统

技术领域

本发明属于计算机技术领域，特别是涉及一种老化感知的任务调度系统。

背景技术

已有研究表明，当软件连续运行较长时间时，它们内部的一些错误条件的积累会导致软件性能衰退甚至停止运行，这种现象称为软件老化。软件老化在需要长时间运行的系统中尤为常见，如虚拟机和虚拟机管理器、操作系统、云平台系统软件等。为降低甚至消除软件老化带来的风险，人们提出了一种名为软件再生的方法，及时评估系统老化状态并适时采取重启操作，提升系统可靠性。如何选择再生的时机是消除软件老化风险的关键，再生太早则代价过高、效果不明显，而再生太晚则起不到降低风险的作用。

任务调度是计算机领域的经典问题，操作系统、网格计算、云计算等领域已对任务调度已经有了非常多的研究。常见的有先来先服务(FIFO)、轮转调度、公平性调度等策略。任务调度已被证明为NP问题，很难找到一种最优的任务调度算法以满足所有的约束条件。现有任务调度的目标主要有以下两种：用户利益驱动的调度方法和考虑服务提供成本的调度方法。前者主要考虑用户的服务质量，如任务完成时间最短、服务质量最高等；后者在满足用户服务的基础上还需考虑平台服务提供商的服务成本，如资源负载均衡、系统资源利用率最高、降低平台能耗等。还有一些调度策略主要考虑调度方法的可扩展性，如多级任务调度策略等。

然而，现有调度方法对执行节点支撑平台的老化问题考虑不足。已有的可用性调度方法主要通过副本或是为关键任务分配较为可靠的计算资源、网络资源来完成，但软件老化使得计算能力强的资源在运行过程中也不可避免地会发生性能下降现象甚至崩溃，影响了任务实际运行效果。

发明内容

为克服考虑资源节点支撑平台软件老化所带来的负面影响，本发明提供一种老化感知的任务调度系统，在任务调度和运行时，能够实时感知资源节点的老化状态，及时恢复资源节点的服务能力，提高了任务执行效率。

为了实现上述发明目的，本发明采取如下技术方案：

本发明提供一种老化感知的任务调度系统，所述任务调度系统包括老化探测模块、软件再生模块、任务调度模块、调度策略模块和资源信息库模块；所述老化探测模块与资源信息库模块双向连接，所述资源信息库模块与软件再生模块和任务调度模块均单向连接，所述调度策略模块与任务调度模块单向连接。

所述老化探测模块包括采集代理，所述采集代理部署在资源节点上，采集代理将采集的内存使用率和CPU使用率传送给资源信息库模块，实现资源节点老化状态的实时更新。

所述软件再生模块主要对系统资源进行再生操作，其主要包括软件再生时机判定模块和软件再生执行模块。

所述软件再生时机判定模块采用基于模型的方法或基于测量的方法完成软件再生时机的判定；

基于模型的方法运用马尔科夫、petri网对资源节点建模，训练得出模型参数，并根据资源节点的实际状态得出再生概率；

基于测量的方法通过不断探测资源节点关键指标值，通过机器学习方法预测关键指标值的变化趋势，当探测到资源节点的老化状态达到设定阈值时，立即执行再生操作；

所述关键指标值包括CPU利用率、内存使用率和带宽占用率。

所述软件再生执行模块根据资源信息库模块对资源节点执行重启操作，以将资源节点恢复到初始状态；如需上层应用不中断，则采用热迁移的方式以在软件再生前将应用迁移到其他的资源节点，否则在保存完运行环境后直接采取重启操作。

所述调度策略模块以插件的形式嵌入任务调度系统中，用于存储可供用户选择的任务调度策略；所述任务调度策略根据不同的应用场景采用不同的调度算法实现，所述调度算法包括Min-Min、Max-Min或遗传算法。

所述资源信息库模块用于存储资源节点信息，资源节点信息包括资源节点的编号、物理位置和实际状态。

所述任务调度模块根据任务到达情况、并结合用户的实际需求选择相应的调度策略进行任务调度；对于高优先级用户提交的任务或是运行时间短且任务执行截止期限近的任务，任务调度模块优先选择初始状态的资源节点执行任务；在任务执行时，当探测到资源节点的老化状态超过设定阈值时，启动软件再生模块及时恢复资源节点的服务能力，以提高任务的执行效率。

与现有技术相比，本发明的有益效果在于：

本发明提供的老化感知的任务调度系统设置了老化探测模块、软件再生模块、任务调度模块、调度策略模块和资源信息库模块；通过监测资源节点的实际状态，考虑了软件老化给任务执行带来的负面影响，能够及时再生老化的资源节点，避免了因老化造成节点的崩溃进而影响了任务的执行，提升了任务调度质量和执行效率。

附图说明

图1是本发明实施例中老化感知的任务调度系统结构图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提供一种老化感知的任务调度系统，(如图1)所述任务调度系统包括老化探测模块、软件再生模块、任务调度模块、调度策略模块和资源信息库模块；所述老化探测模块与资源信息库模块双向连接，所述资源信息库模块与软件再生模块和任务调度模块均单向连接，所述调度策略模块与任务调度模块单向连接。

所述关键指标值包括CPU利用率、内存使用率和带宽占用率。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种老化感知的任务调度系统，其特征在于：所述任务调度系统包括老化探测模块、软件再生模块、任务调度模块、调度策略模块和资源信息库模块；所述老化探测模块与资源信息库模块双向连接，所述资源信息库模块与软件再生模块和任务调度模块均单向连接，所述调度策略模块与任务调度模块单向连接；

所述老化探测模块包括采集代理，所述采集代理部署在资源节点上，采集代理将采集的内存使用率和CPU使用率传送给资源信息库模块，实现资源节点老化状态的实时更新；

所述软件再生模块主要对系统资源进行再生操作，其主要包括软件再生时机判定模块和软件再生执行模块；

所述关键指标值包括CPU利用率、内存使用率和带宽占用率；

所述软件再生执行模块根据资源信息库模块对资源节点执行重启操作，以将资源节点恢复到初始状态；如需上层应用不中断，则采用热迁移的方式以在软件再生前将应用迁移到其他的资源节点，否则在保存完运行环境后直接采取重启操作；

所述调度策略模块以插件的形式嵌入任务调度系统中，用于存储可供用户选择的任务调度策略；所述任务调度策略根据不同的应用场景采用不同的调度算法实现，所述调度算法包括Min-Min、Max-Min或遗传算法；

所述资源信息库模块用于存储资源节点信息，资源节点信息包括资源节点的编号、物理位置和实际状态；