CN117687791A

CN117687791A - 基于强化学习的物联网采集平台计算资源调度方法

Info

Publication number: CN117687791A
Application number: CN202311819236.3A
Authority: CN
Inventors: 赵邦国; 朱宏博; 甄黎明; 刘道学; 付香才; 程维国; 耿天宝
Original assignee: Anhui Shuzhi Construction Research Institute Co ltd; China Tiesiju Civil Engineering Group Co Ltd CTCE Group
Current assignee: Anhui Shuzhi Construction Research Institute Co ltd; China Tiesiju Civil Engineering Group Co Ltd CTCE Group
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-12

Abstract

本发明涉及物联网资源调度技术领域，具体是基于强化学习的物联网采集平台计算资源调度方法，本发明通过构建物联网采集平台，确定状态空间、动作空间、奖励函数和目标方程；引入Double DQN算法，构建强化学习网络；训练强化学习网络，得到最优的计算资源智能调度方案。本发明利用Double DQN算法来改进建筑物联网采集平台的任务调度方法，极大提高了任务调度的处理效率、降低了处理时延，有效降低了建筑物联网采集平台的运行成本。

Description

基于强化学习的物联网采集平台计算资源调度方法

技术领域

本发明涉及物联网资源调度技术领域，具体是基于强化学习的物联网采集平台计算资源调度方法。

背景技术

随着工业物联网现场节点数量迅速增长、采集数据频率不断提高、采集属性不断扩充，接入物联网采集平台的数据量迅速增长，给平台的处理速度、资源利用效率等性能提出了更苛刻的要求。物联网采集平台包含数量众多的计算资源，包括GPU、CPU、内存等，如何对资源进行调度直接影响着平台的性能。

为了解决上述技术问题，专利CN107819866A公开了一种物联网数据采集控制平台，结构中包括依次串行连接的现场数据采集单元、网络传输单元、数据处理中间件和数据服务中心；所述现场数据采集单元用于采集现场各类数据，并通过网络传输单元上传到数据处理中间件进行处理，数据服务中心在数据处理中间件处理的基础上实现业务管控。上述现有技术客户提供灵活的综合业务系统整合的一体化物联网信息采集、管控系统。尽管上述现有技术能够提高信息采集的水平，但是在对控制平台中的GPU、CPU、内存等计算资源的调度过程中，通常是以最大化信息采集水平为目标，没有采用合适的计算资源调度方案，导致在提高控制平台资源过度消耗的同时，降低了计算的效率，因此亟待解决。

发明内容

为了避免和克服现有技术中存在的技术问题，本发明提供了基于强化学习的物联网采集平台计算资源调度方法。本发明能够为计算任务分配合理的计算资源调度方案，有效的提高计算效率，同时降低计算资源的消耗。

为实现上述目的，本发明提供如下技术方案：

基于强化学习的物联网采集平台计算资源调度方法，包括以下步骤：

S1、构建由多个计算资源组成的物联网采集平台，计算资源包括CPU资源和GPU资源；将物联网采集平台作为强化学习模型的训练环境，以确定训练环境的状态空间；

S2、将调度算法作为强化学习模型的智能体，通过利用物联网采集平台中的CPU资源和GPU资源初步估计各个任务的执行时间和各个任务的最大可接受执行延迟时间，并将CPU资源和GPU资源在时间计算过程中的调度范围作为智能体的动作空间。

S3、以最小化各个任务的执行时间和最小化各个任务的最大可接受执行延迟时间为目标，确定强化学习模型的奖励函数，并获取该目标对应的CPU资源和GPU资源的调度方案；

S4、引入Double DQN网络，并将Double DQN网络作为智能体，同时对Double DQN网络进行训练，以得到最优强化学习模型；

S5、将各个任务输入到最优强化学习模型，通过最小化奖励函数来得到各个任务执行时间和最大可接受执行延迟时间最小时对应的CPU资源和GPU资源的调度方案。

作为本发明再进一步的方案：物联网采集平台为由基于CPU资源和GPU资源的物联网数据接入与解析服务器、基于CPU资源和GPU资源的数据转发与大数据流处理服务器，以及基于CPU资源和GPU资源的数据存储与可视化服务器组成的计算集群；

计算集群使用计算任务的开始时刻、计算任务的结束时刻，以及在执行计算任务过程中数据接入与解析服务器的资源状态作为强化学习模型的状态空间S，S＝{T_start，T_end，RES_node}；其中，T_start为一个M×N维的矩阵，T_start表示每一轮调度中，M个计算任务的N个开始时刻组合而成的M行N列的矩阵；T_end为一个M×N维的矩阵，T_end表示每一轮调度中，M个计算任务的N个结束时刻组合而成的M行N列的矩阵；RES_node为一个M×K维的矩阵，RES_node表示在每一轮调度中，M个计算任务在K个边缘节点上运行的分布状态。

作为本发明再进一步的方案：调度算法输出的动作空间Q_M×K为一个M×K维的矩阵，Q_M×K中的各个元素分别表示将对应计算任务调度至K个边缘节点的概率值Q；动作空间Q_M×K中第m行第k列的元素Q_mk的值与调度算法将计算任务m调度至边缘计算节点k的概率成正比；动作空间Q_M×K表示如下：

其中，Q_π(s，a)表示动作空间Q_M×K的矩阵名，s表示空间状态，a表示动作；Q₁₁为Q_π(s，a)中第1行第1列的元素；Q_1K为Q_π(s，a)中第1行第K列的元素；Q_M1为Q_π(s，a)中第M行第1列的元素；Q_MK为Q_π(s，a)中第M行第K列的元素；

智能体根据下式进行动作选择：

其中，(m，k)表示将计算任务m调度至边缘计算节点k的动作；argmax表示取最大值操作；a_i表示智能体在第i轮调度的动作，s表示空间状态。

作为本发明再进一步的方案：调度算法针对不同计算任务输出动作决策，之后根据动作决策将计算任务分别提交至不同的计算节点，调度完成后在下一轮调度开始前根据观测到的平均任务执行时间和任务执行延迟进行奖励计算；第i轮调度的奖励定义为：

其中，reward_i表示第i轮调度的奖励；rw表示奖励常数，用于调节当前所获得奖励的值；cost(s_i，M)表示第i轮调度的价值函数值，s_i表示第i个空间状态；MinCost最小价值函数值；λ₁和λ₂均为可变的奖励控制函数；δ表示价值函数阈值；otherwise表示范围；

cost(s_i，M)具体计算如下：

cost(s_i，M)＝λ₃(ω₁JCT₁+…+ω_KJCT_K)+λ₄Var(Num_i)

其中，Num_i表示第i轮调度时在K个边缘节点上的任务数量矩阵；Var(Num_i)表示对Num_i求方差操作；ω₁表示第1个计算节点上的任务平均完成时间的对应权重；ω_K表示第K个计算节点上的任务平均完成时间的对应权重；λ₃和λ₄均为可变的奖励控制函数；JCT₁表示第1个计算任务的任务执行时间；JCT_K表示第K个计算任务的任务执行时间。

作为本发明再进一步的方案：步骤S4的具体步骤如下：

S41、训练回合初始化为0；

S42、用随机参数ω初始化Double DQN网络，并得到训练网络

S43、使用参数ω_target来初始化目标网络

S44、初始化经验回放器；

S45、迭代进行：获取状态空间S＝{T_start，T_end，RES_node}，根据当前训练网络以贪婪策略ε选取动作，执行动作，获得汇报，更新状态空间S；

S46、将经验(s_i，a_i，s_i+1)存入经验回放器；若经验回放器中经验数据量达到设定数量，从经验回放器中随机选取N组数据{(s_i，a_i，s_i+1)}_{i-1，...，N}，用和计算损失函数，根据损失函数更新/>的参数；

S47、迭代进行设定代数C步时将的参数同步到/>以得到最优目标网络，该最优目标网络即为对应的最优强化学习模型。

与现有技术相比，本发明的有益效果是：

本发明利用Double DQN算法来改进物联网采集平台的任务调度方法，极大提高了任务调度的处理效率、降低了处理时延，有效降低了物联网采集平台的运行成本。

附图说明

图1为本发明的主要流程结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中，基于强化学习的物联网采集平台计算资源调度方法，主要包括以下内容：

1、构建物联网采集平台。

物联网采集平台包括调度控制器、数据中间件、数据存储、计算资源。将物联网采集平台作为强化学习训练环境，确定环境的状态空间。搭建GPU、CPU的集群测试环境，开发调度控制器、调度命令执行器程序，部署RabbitMQ消息中间件系统，开发数据存储发布系统，部署强化学习网络运行环境。

2、将调度算法作为智能体。

根据物联网采集平台初步估计各任务执行时间、最大可接受任务执行延迟；确定智能体的动作空间。

给定采集平台P和一个任务队列Γ＝{task₁，task₂，...}，智能调度方法的目标是找到合适的放置策略和执行顺序，在满足每个任务的服务质量(QoS)的同时尽可能提高采集平台的计算集群利用率。

使用计算任务的开始时间、结束时间以及数据接入与解析服务器的资源状态作为Double DQN深度网络的状态空间，使用S＝{T_start，T_end，RES_node}表示。其中，T_start为一个M×N维的矩阵，T_start表示每一轮调度中，M个计算任务的N个开始时刻组合而成的M行N列的矩阵。如调度流程开始时刻为t₀＝0，某个计算任务在一轮调度中共执行三次，则此计算任务的N＝3，开始时间表示为{t₁，t₂，t₃}。

T_end为一个M×N维的矩阵，T_end表示每一轮调度中，M个计算任务的N个结束时刻组合而成的M行N列的矩阵；RES_node为一个M×K维的矩阵，RES_node表示在每一轮调度中，M个计算任务在K个边缘节点上运行的分布状态。

Double DQN调度算法输出的动作空间Q_M×K为一个M×K维的矩阵，表示将M个计算任务调度至K个边缘计算节点的概率值Q。动作空间Q_M×K中第m行第k列的元素Q_mk的值与调度算法将计算任务m调度至边缘计算节点k的概率成正比。动作空间Q_M×K表示如下：

其中，Q_π(s，a)表示动作空间Q_M×K的矩阵名，s表示空间状态，a表示动作；Q₁₁为Q_π(s，a)中第1行第1列的元素；Q_1K为Q_π(s，a)中第1行第K列的元素；Q_M1为Q_π(s，a)中第M行第1列的元素；Q_MK为Q_π(s，a)中第M行第K列的元素。

智能体根据下式进行动作选择：

3、以最小化各任务执行时间和任务执行延迟为目标，确定奖励函数。

调度算法针对不同计算任务输出动作决策，之后根据动作决策将计算任务分别提交至不同的计算节点，调度完成后在下一轮调度开始前根据观测到的任务执行时间(JobCompletion Time，JCT)和任务执行延迟进行奖励计算。第i轮调度的奖励定义为：

其中，λ₁设为100，λ₂设为10。rw用于调节当前所获得奖励的值。cost(s_i，M)具体计算如下：

cost(s_i，M)＝λ₃(ω₁JCT₁+…+ω_KJCT_K)+λ₄Var(Num_i)

λ₃设为0.01，λ₄设为20。

4、引入Double DQN网络，得到最优物联网采集平台计算资源智能调度方案。

训练回合初始化为0。

用随机参数ω初始化Double DQN网络，并得到训练网络

使用参数ω_target来初始化目标网络

初始化经验回放器。

迭代进行：获取状态空间S＝{T_start，T_end，RES_node}，根据当前训练网络以贪婪策略ε选取动作，执行动作，获得汇报，更新状态空间S；

将经验(s_i，a_i，s_i+1)存入经验回放器；若经验回放器中经验数据量达到设定数量，从经验回放器中随机选取N组数据{(s_i，a_i，s_i+1)}_{i-1，...，N}，用和/>计算损失函数，根据损失函数更新/>的参数；

迭代进行设定代数C步时将的参数同步到/>以得到最优目标网络，该最优目标网络即为对应的最优强化学习模型。

由于离线模拟同样需要估计每个任务的平均JCT来得到当前状态下的奖励值。计算任务的完成时间与当前节点上运行的任务实际使用的计算资源相关。当节点上运行多个机器学习任务时，每个任务所获得的计算资源使用时间相对减小。依据计算任务平均JCT与执行重叠时间对比实验结果，假设任务在边缘节点k上运行的JCT与该任务的平均JCT与节点k上的任务运行重叠时间间隔有关，通过以下计算方法估计：

其中，N(k)表示第k个边缘节点上的任务重叠时间之和，通过节点上全部计算任务的开始时间和截止时间计算得到。Num(k)表示第k个边缘节点上的任务数量。

表示当只有第m个计算任务运行在边缘节点k上时的平均JCT，可以通过部署该任务到节点上进行实际测量得到。λ₅和λ₆均为可变的权重系数。

为了评估本发明中提出的DQN强化学习算法框架，首先将其与DDPG-DQN算法进行比较。对于每个智能体，将训练回合设置为1000，每个回合包含100个步。在每一步中，智能体都必须不断地做出决策，与环境进行交互，并基于环境反馈不断地更新网络模型。可以看出，本发明的Double DQN强化学习算法的平均奖励随着训练次数的增加而不断上升，最终趋于收敛。这一趋势表明MID在没有任何先验知识的情况下仍然可以学习有效的策略。注意，本发明提出的Double DQN强化学习算法在380个回合后开始收敛，600个回合后逐渐趋于稳定，结果表明，利用Double DQN网络设计的算法具有较快的收敛速度和较好的稳定性能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于强化学习的物联网采集平台计算资源调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的物联网采集平台计算资源调度方法，其特征在于，物联网采集平台为由基于CPU资源和GPU资源的物联网数据接入与解析服务器、基于CPU资源和GPU资源的数据转发与大数据流处理服务器，以及基于CPU资源和GPU资源的数据存储与可视化服务器组成的计算集群；

3.根据权利要求2所述的基于强化学习的物联网采集平台计算资源调度方法，其特征在于，调度算法输出的动作空间Q_M×K为一个M×K维的矩阵，Q_M×K中的各个元素分别表示将对应计算任务调度至K个边缘节点的概率值Q；动作空间Q_M×K中第m行第k列的元素Q_mk的值与调度算法将计算任务m调度至边缘计算节点k的概率成正比；动作空间Q_M×K表示如下：

智能体根据下式进行动作选择：

4.根据权利要求3所述的基于强化学习的物联网采集平台计算资源调度方法，其特征在于，调度算法针对不同计算任务输出动作决策，之后根据动作决策将计算任务分别提交至不同的计算节点，调度完成后在下一轮调度开始前根据观测到的平均任务执行时间和任务执行延迟进行奖励计算；第i轮调度的奖励定义为：

cost(s_i，M)具体计算如下：

cost(s_i，M)＝λ₃(ω₁JCT₁+…+ω_KJCT_K)+λ₄Var(Num_i)

5.根据权利要求4所述的基于强化学习的物联网采集平台计算资源调度方法，其特征在于，步骤S4的具体步骤如下：

S41、训练回合初始化为0；

S42、用随机参数ω初始化Double DQN网络，并得到训练网络

S43、使用参数ω_target来初始化目标网络

S44、初始化经验回放器；

S46、将经验(s_i，a_i，s_i+1)存入经验回放器；若经验回放器中经验数据量达到设定数量，从经验回放器中随机选取N组数据{(s_i，a_i，S_i+1)}_{i-1，...，N}，用和/>计算损失函数，根据损失函数更新/>的参数；