CN115033343A

CN115033343A - 一种云环境下遥感数据流程调度模型的建立方法

Info

Publication number: CN115033343A
Application number: CN202210585542.4A
Authority: CN
Inventors: 杜莹; 张硕; 汤承翰; 程普; 何思源
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-09
Anticipated expiration: 2042-05-27
Also published as: CN115033343B

Abstract

本发明提供了一种云环境下遥感数据流程调度模型的建立方法，在适应多种类型科学工作流调度问题的情况下，依据遥感产品自身特点和生产规律，结合强化学习的独特学习能力以及深度神经网络的优点，提出了基于深度强化学习的工作流任务调度算法WDRL(Workflow Task Scheduling Algorithm based on Deep Reinforce Learning，WDRL)，以此解决遥感数据流程中产生的调度问题，不仅考虑了计算节点的完成时间差异情况，而且将遥感产品生产任务重复性高、单任务数据量大等因素加入一定的权重确保分配任务的均衡性。从而实现遥感数据处理流程执行跨度时间最小化。

Description

一种云环境下遥感数据流程调度模型的建立方法

技术领域

本发明涉及一种任务调度模型的建立方法，具体是一种云环境下遥感数据流程调度模型的建立方法。

背景技术

云计算是一种最新的分布式系统计算范例，其按使用付费与弹性资源模式为大规模工作流的快速、分布式高效执行提供了易于访问、灵活、可扩展的基础设施与部署环境，遥感数据处理流程在其应用框架下适用性较强。在云计算中，云资源提供商将基于物理资源创建多个虚拟机(VM)，以处理用户提交的遥感数据订单任务。任务通过调度算法分配给某个虚拟机。此时，调度算法能否将任务分配到合适的虚拟机上成为影响云计算环境下信息资源分配效率的关键因素。因此，在云计算环境中高效的调度算法对于遥感数据处理流程是必不可少的。

针对遥感数据流程的调度问题而言，其调度多个目标之间有时会发生冲突。例如，为了最小化执行时间，具有高性能配置的云主机比低性能配置的云主机更可取；然而高性能配置的云主机通常更昂贵，因此最小化执行时间可能与降低成本目标相矛盾。这导致传统算法中性能优良的调度算法在遥感数据流程处理的过程中的性能较差。

发明内容

为了解决上述问题，解决多目标之间的需求冲突，找到一种在遥感数据流程处理过程中性能更优良的调度模型，本发明提供了一种云环境下遥感数据流程调度模型的建立方法，在适应多种类型科学工作流调度问题的情况下，依据遥感产品自身特点和生产规律，结合强化学习的独特学习能力以及深度神经网络的优点，提出了基于深度强化学习的工作流任务调度算法WDRL(Workflow Task Scheduling Algorithm based on Deep ReinforceLearning，WDRL)，以此解决遥感数据流程中产生的调度问题，不仅考虑了计算节点的完成时间差异情况，而且将遥感产品生产任务重复性高、单任务数据量大等因素加入一定的权重确保分配任务的均衡性。从而实现遥感数据处理流程执行跨度时间最小化。

为了实现上述目的，本发明采用以下技术方案：一种云环境下遥感数据流程调度模型的建立方法，包括以下步骤：

S1、以全连接前馈神经网络作为隐含层构建策略模型网络Agent；

S2、通过遥感数据流程信息形成具有依赖关系的DAG；

S3、初始化任务配置参数及虚拟机配置参数；

S4、初始化神经网络参数及配置参数；

S5、获取任务和备选虚拟机创建列表存储，其中任务来自于所述DAG的配置文件，备选虚拟机来自仿真实验的配置参数；

S6、所述Agent与环境模拟交互进行学习；其中，一轮学习包括N次调度，一次调度指执行DAG中规定的所有任务，DAG的任务数即DAG中任务节点数，一次调度包括以下步骤：

S61、在执行当前任务之前通过全连接层与Softmax分类网络计算所有备选虚拟机的所有特征张量，得出该次调度中当前任务与所有虚拟机的适配度，Agent根据高适配度的虚拟机任务对优先调度，再获取下个任务的适配度，之后再选择一个虚拟机任务对执行，直到所有任务对执行结束；

S62、将此次调度过程所涉及的所有状态s、动作a和奖励r存入一组轨迹序列中，奖励r指在每个时间步t中，Agent通过观察状态s_t，并将在环境的状态从s_t转移到s_t+1，给出的奖励r；

S63、计算一组轨迹序列的奖励和

，其中，T指总任务的时间步，t指当前任务的时间步，i指当次调度，sⁱ _t为当次调度的当前任务的时间步的状态，aⁱ _t为当次调度的当前任务的时间步的动作，rⁱ（sⁱ _t，aⁱ _t）表示当次调度下状态s_t和动作a_t的所得的奖励；

S7、计算平均采样的基准线，其中平均采样的基准线计算公式为

，其中N指调度循环次数，将所述奖励和与平均采样的基准线作差得出回报奖励advantageⁱ _t，即advantageⁱ _t=qⁱ _t-bⁱ _t；

S8、计算策略损失函数，策略损失函数的计算方式为softmax交叉熵损失函数和advantageⁱ _t状态价值函数的乘积，其中，softmax交叉熵损失函数指归一化指数函数，用于分类每个动作的概率大小；

S9、从所有轨迹序列中按存入顺序取出一个（sⁱ _t，aⁱ _t，rⁱ _t）采样序列，其中sⁱ _t、aⁱ _t及rⁱ _t表示第i次调度的t任务的时间步对应的状态、动作及奖励，并逆序更新参数，即从最后一个采样时刻开始，依次向前更新Agent模型回报并将上述策略损失函数累计至该模型：

，其中

为更新前的策略模型，

为更新后的策略模型，

表示求偏导运算，advantageⁱ _t为上述回报奖励也称状态价值函数；

S10、判断是否达到训练次数，若达到则确定为最优调度方案并输出模型，否则重复步骤S6-S9直至达到训练次数，判断达到训练次数的原则为在训练的过程中累计奖励的累计期望最大化。

进一步地，所述步骤S6还包括：设置完成一次完整的调度周期奖励值-1。

进一步地，所述步骤S4中初始化神经网络参数选择4层。

进一步地，所述步骤S4中神经网络激活函数使用tanh。

进一步地，所述步骤S4中采用Adam学习率优化器。

与现有技术相比，本发明的有益效果为：提出了一种遥感数据处理流程中动态在线任务调度模型的训练算法，并说明了在云计算仿真环境中算法的结构以及计算方式；通过调度策略将最大完工时间作为优化目标，在完整的调度周期中学习经验，实现最小化总执行时间；由于策略梯度方法通常有较高的方差，通过加权对特征进行重点采样、并使用平均基准线来解决策略梯度方法中的高方差问题，实现更快的收敛；优化了程序内的神经网络模型和超参数，并实现了依赖遥感数据处理流程的任务调度算法。

附图说明

图1是本发明的流程图。

图2是本发明的马尔科夫决策模型图。

图3是本发明在Sipht科学工作流的测试。

图4是本发明的算法性能比较图。

具体实施方式

本发明实施例提供的一种云环境下遥感数据流程调度模型的建立方法，所述方法的步骤流程图如图1所示，该方法具体可以包括如下步骤：

S2、通过遥感数据流程信息形成具有依赖关系的有向无环图（DAG），其中遥感数据流程信息来源于遥感算法处理软件中的遥感算法流程及运行执行日志，

S3、初始化任务配置参数，具体包括task_id、task_duration、task_cpu、task_mem；配置虚拟机数量，每个虚拟机承载CPU为2个核心、内存为1个单元；初始化虚拟机配置参数，具体包括vm_cpu、vm_mem；

S4、初始化神经网络参数选择4层、神经网络激活函数使用tanh、训练限制episodes常量，采用Adam学习率优化器；

S5、获取所有任务和备选虚拟机创建列表存储，其中，任务来自形成DAG中的配置文件，在本实施例中为RS21.xml，备选虚拟机来自仿真试验的配置参数。提取任务和虚拟机所有特征并作加权和归一化处理，其中加权用于增强数据特征，归一化用于减小数据量；

S6、所述Agent与环境模拟交互进行学习，并配置奖励参数，设置完成一次完整的调度周期奖励值-1，其中，一轮学习包括N次调度，一次调度指执行DAG中规定的所有任务，DAG的任务数即DAG中任务节点数，例如DAG规定了21个任务节点，完整调度21个任务形成一组轨迹序列，一次调度包括以下步骤；

S61、为了在调度之前确定优先级，在调度当前任务之前通过全连接层与Softmax分类网络计算所有备选虚拟机（例如4个备选虚拟机）的所有特征张量，得出该次调度中当前任务与所有虚拟机的适配度，Agent根据高适配度的虚拟机任务对优先调度，例如task1-vm3 效果更好，就安排这对进入仿真环境执行，再获取下个任务的适配度，之后再选择一个虚拟机任务对执行，直到所有任务对执行结束；

S63、计算一组轨迹序列的奖励和

，其中

为更新前的策略网络模型，

为更新后的策略模型，

在之后的实验采用结构较为复杂的Sipht大规模工作流，以任务节点数为100为例，训练强化学习模型，其训练过程的优化目标值变化趋势如图4所示，由图4可知，算法模型随着训练次数的增加趋于收敛，说明了算法的可行性。

在这个实验中，我们使用Cloudsim平台来测试这些算法。对makespan的性能进行了评估，并与现有的调度技术如Random、HEFT、Min-min和Max-min等技术进行了比较，参数配置表如表1所示。

为了展示该算法在任务数方面的可扩展性，我们在30、100、1000 个任务节点下进行了实验测试，并与其他算法进行了比较。本发明在不同任务数量维度下，WDRL性能对比启发式算法总体有所提升。

表 1 参数配置