CN117687791A - 基于强化学习的物联网采集平台计算资源调度方法 - Google Patents

基于强化学习的物联网采集平台计算资源调度方法 Download PDF

Info

Publication number
CN117687791A
CN117687791A CN202311819236.3A CN202311819236A CN117687791A CN 117687791 A CN117687791 A CN 117687791A CN 202311819236 A CN202311819236 A CN 202311819236A CN 117687791 A CN117687791 A CN 117687791A
Authority
CN
China
Prior art keywords
task
computing
scheduling
reinforcement learning
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311819236.3A
Other languages
English (en)
Inventor
赵邦国
朱宏博
甄黎明
刘道学
付香才
程维国
耿天宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Shuzhi Construction Research Institute Co ltd
China Tiesiju Civil Engineering Group Co Ltd CTCE Group
Original Assignee
Anhui Shuzhi Construction Research Institute Co ltd
China Tiesiju Civil Engineering Group Co Ltd CTCE Group
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Shuzhi Construction Research Institute Co ltd, China Tiesiju Civil Engineering Group Co Ltd CTCE Group filed Critical Anhui Shuzhi Construction Research Institute Co ltd
Priority to CN202311819236.3A priority Critical patent/CN117687791A/zh
Publication of CN117687791A publication Critical patent/CN117687791A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及物联网资源调度技术领域,具体是基于强化学习的物联网采集平台计算资源调度方法,本发明通过构建物联网采集平台,确定状态空间、动作空间、奖励函数和目标方程;引入Double DQN算法,构建强化学习网络;训练强化学习网络,得到最优的计算资源智能调度方案。本发明利用Double DQN算法来改进建筑物联网采集平台的任务调度方法,极大提高了任务调度的处理效率、降低了处理时延,有效降低了建筑物联网采集平台的运行成本。

Description

基于强化学习的物联网采集平台计算资源调度方法
技术领域
本发明涉及物联网资源调度技术领域,具体是基于强化学习的物联网采集平台计算资源调度方法。
背景技术
随着工业物联网现场节点数量迅速增长、采集数据频率不断提高、采集属性不断扩充,接入物联网采集平台的数据量迅速增长,给平台的处理速度、资源利用效率等性能提出了更苛刻的要求。物联网采集平台包含数量众多的计算资源,包括GPU、CPU、内存等,如何对资源进行调度直接影响着平台的性能。
为了解决上述技术问题,专利CN107819866A公开了一种物联网数据采集控制平台,结构中包括依次串行连接的现场数据采集单元、网络传输单元、数据处理中间件和数据服务中心;所述现场数据采集单元用于采集现场各类数据,并通过网络传输单元上传到数据处理中间件进行处理,数据服务中心在数据处理中间件处理的基础上实现业务管控。上述现有技术客户提供灵活的综合业务系统整合的一体化物联网信息采集、管控系统。尽管上述现有技术能够提高信息采集的水平,但是在对控制平台中的GPU、CPU、内存等计算资源的调度过程中,通常是以最大化信息采集水平为目标,没有采用合适的计算资源调度方案,导致在提高控制平台资源过度消耗的同时,降低了计算的效率,因此亟待解决。
发明内容
为了避免和克服现有技术中存在的技术问题,本发明提供了基于强化学习的物联网采集平台计算资源调度方法。本发明能够为计算任务分配合理的计算资源调度方案,有效的提高计算效率,同时降低计算资源的消耗。
为实现上述目的,本发明提供如下技术方案:
基于强化学习的物联网采集平台计算资源调度方法,包括以下步骤:
S1、构建由多个计算资源组成的物联网采集平台,计算资源包括CPU资源和GPU资源;将物联网采集平台作为强化学习模型的训练环境,以确定训练环境的状态空间;
S2、将调度算法作为强化学习模型的智能体,通过利用物联网采集平台中的CPU资源和GPU资源初步估计各个任务的执行时间和各个任务的最大可接受执行延迟时间,并将CPU资源和GPU资源在时间计算过程中的调度范围作为智能体的动作空间。
S3、以最小化各个任务的执行时间和最小化各个任务的最大可接受执行延迟时间为目标,确定强化学习模型的奖励函数,并获取该目标对应的CPU资源和GPU资源的调度方案;
S4、引入Double DQN网络,并将Double DQN网络作为智能体,同时对Double DQN网络进行训练,以得到最优强化学习模型;
S5、将各个任务输入到最优强化学习模型,通过最小化奖励函数来得到各个任务执行时间和最大可接受执行延迟时间最小时对应的CPU资源和GPU资源的调度方案。
作为本发明再进一步的方案:物联网采集平台为由基于CPU资源和GPU资源的物联网数据接入与解析服务器、基于CPU资源和GPU资源的数据转发与大数据流处理服务器,以及基于CPU资源和GPU资源的数据存储与可视化服务器组成的计算集群;
计算集群使用计算任务的开始时刻、计算任务的结束时刻,以及在执行计算任务过程中数据接入与解析服务器的资源状态作为强化学习模型的状态空间S,S={Tstart,Tend,RESnode};其中,Tstart为一个M×N维的矩阵,Tstart表示每一轮调度中,M个计算任务的N个开始时刻组合而成的M行N列的矩阵;Tend为一个M×N维的矩阵,Tend表示每一轮调度中,M个计算任务的N个结束时刻组合而成的M行N列的矩阵;RESnode为一个M×K维的矩阵,RESnode表示在每一轮调度中,M个计算任务在K个边缘节点上运行的分布状态。
作为本发明再进一步的方案:调度算法输出的动作空间QM×K为一个M×K维的矩阵,QM×K中的各个元素分别表示将对应计算任务调度至K个边缘节点的概率值Q;动作空间QM×K中第m行第k列的元素Qmk的值与调度算法将计算任务m调度至边缘计算节点k的概率成正比;动作空间QM×K表示如下:
其中,Qπ(s,a)表示动作空间QM×K的矩阵名,s表示空间状态,a表示动作;Q11为Qπ(s,a)中第1行第1列的元素;Q1K为Qπ(s,a)中第1行第K列的元素;QM1为Qπ(s,a)中第M行第1列的元素;QMK为Qπ(s,a)中第M行第K列的元素;
智能体根据下式进行动作选择:
其中,(m,k)表示将计算任务m调度至边缘计算节点k的动作;argmax表示取最大值操作;ai表示智能体在第i轮调度的动作,s表示空间状态。
作为本发明再进一步的方案:调度算法针对不同计算任务输出动作决策,之后根据动作决策将计算任务分别提交至不同的计算节点,调度完成后在下一轮调度开始前根据观测到的平均任务执行时间和任务执行延迟进行奖励计算;第i轮调度的奖励定义为:
其中,rewardi表示第i轮调度的奖励;rw表示奖励常数,用于调节当前所获得奖励的值;cost(si,M)表示第i轮调度的价值函数值,si表示第i个空间状态;MinCost最小价值函数值;λ1和λ2均为可变的奖励控制函数;δ表示价值函数阈值;otherwise表示范围;
cost(si,M)具体计算如下:
cost(si,M)=λ31JCT1+…+ωKJCTK)+λ4Var(Numi)
其中,Numi表示第i轮调度时在K个边缘节点上的任务数量矩阵;Var(Numi)表示对Numi求方差操作;ω1表示第1个计算节点上的任务平均完成时间的对应权重;ωK表示第K个计算节点上的任务平均完成时间的对应权重;λ3和λ4均为可变的奖励控制函数;JCT1表示第1个计算任务的任务执行时间;JCTK表示第K个计算任务的任务执行时间。
作为本发明再进一步的方案:步骤S4的具体步骤如下:
S41、训练回合初始化为0;
S42、用随机参数ω初始化Double DQN网络,并得到训练网络
S43、使用参数ωtarget来初始化目标网络
S44、初始化经验回放器;
S45、迭代进行:获取状态空间S={Tstart,Tend,RESnode},根据当前训练网络以贪婪策略ε选取动作,执行动作,获得汇报,更新状态空间S;
S46、将经验(si,ai,si+1)存入经验回放器;若经验回放器中经验数据量达到设定数量,从经验回放器中随机选取N组数据{(si,ai,si+1)}i-1,...,N,用计算损失函数,根据损失函数更新/>的参数;
S47、迭代进行设定代数C步时将的参数同步到/>以得到最优目标网络,该最优目标网络即为对应的最优强化学习模型。
与现有技术相比,本发明的有益效果是:
本发明利用Double DQN算法来改进物联网采集平台的任务调度方法,极大提高了任务调度的处理效率、降低了处理时延,有效降低了物联网采集平台的运行成本。
附图说明
图1为本发明的主要流程结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中,基于强化学习的物联网采集平台计算资源调度方法,主要包括以下内容:
1、构建物联网采集平台。
物联网采集平台包括调度控制器、数据中间件、数据存储、计算资源。将物联网采集平台作为强化学习训练环境,确定环境的状态空间。搭建GPU、CPU的集群测试环境,开发调度控制器、调度命令执行器程序,部署RabbitMQ消息中间件系统,开发数据存储发布系统,部署强化学习网络运行环境。
2、将调度算法作为智能体。
根据物联网采集平台初步估计各任务执行时间、最大可接受任务执行延迟;确定智能体的动作空间。
给定采集平台P和一个任务队列Γ={task1,task2,...},智能调度方法的目标是找到合适的放置策略和执行顺序,在满足每个任务的服务质量(QoS)的同时尽可能提高采集平台的计算集群利用率。
使用计算任务的开始时间、结束时间以及数据接入与解析服务器的资源状态作为Double DQN深度网络的状态空间,使用S={Tstart,Tend,RESnode}表示。其中,Tstart为一个M×N维的矩阵,Tstart表示每一轮调度中,M个计算任务的N个开始时刻组合而成的M行N列的矩阵。如调度流程开始时刻为t0=0,某个计算任务在一轮调度中共执行三次,则此计算任务的N=3,开始时间表示为{t1,t2,t3}。
Tend为一个M×N维的矩阵,Tend表示每一轮调度中,M个计算任务的N个结束时刻组合而成的M行N列的矩阵;RESnode为一个M×K维的矩阵,RESnode表示在每一轮调度中,M个计算任务在K个边缘节点上运行的分布状态。
Double DQN调度算法输出的动作空间QM×K为一个M×K维的矩阵,表示将M个计算任务调度至K个边缘计算节点的概率值Q。动作空间QM×K中第m行第k列的元素Qmk的值与调度算法将计算任务m调度至边缘计算节点k的概率成正比。动作空间QM×K表示如下:
其中,Qπ(s,a)表示动作空间QM×K的矩阵名,s表示空间状态,a表示动作;Q11为Qπ(s,a)中第1行第1列的元素;Q1K为Qπ(s,a)中第1行第K列的元素;QM1为Qπ(s,a)中第M行第1列的元素;QMK为Qπ(s,a)中第M行第K列的元素。
智能体根据下式进行动作选择:
其中,(m,k)表示将计算任务m调度至边缘计算节点k的动作;argmax表示取最大值操作;ai表示智能体在第i轮调度的动作,s表示空间状态。
3、以最小化各任务执行时间和任务执行延迟为目标,确定奖励函数。
调度算法针对不同计算任务输出动作决策,之后根据动作决策将计算任务分别提交至不同的计算节点,调度完成后在下一轮调度开始前根据观测到的任务执行时间(JobCompletion Time,JCT)和任务执行延迟进行奖励计算。第i轮调度的奖励定义为:
其中,λ1设为100,λ2设为10。rw用于调节当前所获得奖励的值。cost(si,M)具体计算如下:
cost(si,M)=λ31JCT1+…+ωKJCTK)+λ4Var(Numi)
λ3设为0.01,λ4设为20。
4、引入Double DQN网络,得到最优物联网采集平台计算资源智能调度方案。
训练回合初始化为0。
用随机参数ω初始化Double DQN网络,并得到训练网络
使用参数ωtarget来初始化目标网络
初始化经验回放器。
迭代进行:获取状态空间S={Tstart,Tend,RESnode},根据当前训练网络以贪婪策略ε选取动作,执行动作,获得汇报,更新状态空间S;
将经验(si,ai,si+1)存入经验回放器;若经验回放器中经验数据量达到设定数量,从经验回放器中随机选取N组数据{(si,ai,si+1)}i-1,...,N,用和/>计算损失函数,根据损失函数更新/>的参数;
迭代进行设定代数C步时将的参数同步到/>以得到最优目标网络,该最优目标网络即为对应的最优强化学习模型。
由于离线模拟同样需要估计每个任务的平均JCT来得到当前状态下的奖励值。计算任务的完成时间与当前节点上运行的任务实际使用的计算资源相关。当节点上运行多个机器学习任务时,每个任务所获得的计算资源使用时间相对减小。依据计算任务平均JCT与执行重叠时间对比实验结果,假设任务在边缘节点k上运行的JCT与该任务的平均JCT与节点k上的任务运行重叠时间间隔有关,通过以下计算方法估计:
其中,N(k)表示第k个边缘节点上的任务重叠时间之和,通过节点上全部计算任务的开始时间和截止时间计算得到。Num(k)表示第k个边缘节点上的任务数量。
表示当只有第m个计算任务运行在边缘节点k上时的平均JCT,可以通过部署该任务到节点上进行实际测量得到。λ5和λ6均为可变的权重系数。
为了评估本发明中提出的DQN强化学习算法框架,首先将其与DDPG-DQN算法进行比较。对于每个智能体,将训练回合设置为1000,每个回合包含100个步。在每一步中,智能体都必须不断地做出决策,与环境进行交互,并基于环境反馈不断地更新网络模型。可以看出,本发明的Double DQN强化学习算法的平均奖励随着训练次数的增加而不断上升,最终趋于收敛。这一趋势表明MID在没有任何先验知识的情况下仍然可以学习有效的策略。注意,本发明提出的Double DQN强化学习算法在380个回合后开始收敛,600个回合后逐渐趋于稳定,结果表明,利用Double DQN网络设计的算法具有较快的收敛速度和较好的稳定性能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.基于强化学习的物联网采集平台计算资源调度方法,其特征在于,包括以下步骤:
S1、构建由多个计算资源组成的物联网采集平台,计算资源包括CPU资源和GPU资源;将物联网采集平台作为强化学习模型的训练环境,以确定训练环境的状态空间;
S2、将调度算法作为强化学习模型的智能体,通过利用物联网采集平台中的CPU资源和GPU资源初步估计各个任务的执行时间和各个任务的最大可接受执行延迟时间,并将CPU资源和GPU资源在时间计算过程中的调度范围作为智能体的动作空间。
S3、以最小化各个任务的执行时间和最小化各个任务的最大可接受执行延迟时间为目标,确定强化学习模型的奖励函数,并获取该目标对应的CPU资源和GPU资源的调度方案;
S4、引入Double DQN网络,并将Double DQN网络作为智能体,同时对Double DQN网络进行训练,以得到最优强化学习模型;
S5、将各个任务输入到最优强化学习模型,通过最小化奖励函数来得到各个任务执行时间和最大可接受执行延迟时间最小时对应的CPU资源和GPU资源的调度方案。
2.根据权利要求1所述的基于强化学习的物联网采集平台计算资源调度方法,其特征在于,物联网采集平台为由基于CPU资源和GPU资源的物联网数据接入与解析服务器、基于CPU资源和GPU资源的数据转发与大数据流处理服务器,以及基于CPU资源和GPU资源的数据存储与可视化服务器组成的计算集群;
计算集群使用计算任务的开始时刻、计算任务的结束时刻,以及在执行计算任务过程中数据接入与解析服务器的资源状态作为强化学习模型的状态空间S,S={Tstart,Tend,RESnode};其中,Tstart为一个M×N维的矩阵,Tstart表示每一轮调度中,M个计算任务的N个开始时刻组合而成的M行N列的矩阵;Tend为一个M×N维的矩阵,Tend表示每一轮调度中,M个计算任务的N个结束时刻组合而成的M行N列的矩阵;RESnode为一个M×K维的矩阵,RESnode表示在每一轮调度中,M个计算任务在K个边缘节点上运行的分布状态。
3.根据权利要求2所述的基于强化学习的物联网采集平台计算资源调度方法,其特征在于,调度算法输出的动作空间QM×K为一个M×K维的矩阵,QM×K中的各个元素分别表示将对应计算任务调度至K个边缘节点的概率值Q;动作空间QM×K中第m行第k列的元素Qmk的值与调度算法将计算任务m调度至边缘计算节点k的概率成正比;动作空间QM×K表示如下:
其中,Qπ(s,a)表示动作空间QM×K的矩阵名,s表示空间状态,a表示动作;Q11为Qπ(s,a)中第1行第1列的元素;Q1K为Qπ(s,a)中第1行第K列的元素;QM1为Qπ(s,a)中第M行第1列的元素;QMK为Qπ(s,a)中第M行第K列的元素;
智能体根据下式进行动作选择:
其中,(m,k)表示将计算任务m调度至边缘计算节点k的动作;argmax表示取最大值操作;ai表示智能体在第i轮调度的动作,s表示空间状态。
4.根据权利要求3所述的基于强化学习的物联网采集平台计算资源调度方法,其特征在于,调度算法针对不同计算任务输出动作决策,之后根据动作决策将计算任务分别提交至不同的计算节点,调度完成后在下一轮调度开始前根据观测到的平均任务执行时间和任务执行延迟进行奖励计算;第i轮调度的奖励定义为:
其中,rewardi表示第i轮调度的奖励;rw表示奖励常数,用于调节当前所获得奖励的值;cost(si,M)表示第i轮调度的价值函数值,si表示第i个空间状态;MinCost最小价值函数值;λ1和λ2均为可变的奖励控制函数;δ表示价值函数阈值;otherwise表示范围;
cost(si,M)具体计算如下:
cost(si,M)=λ31JCT1+…+ωKJCTK)+λ4Var(Numi)
其中,Numi表示第i轮调度时在K个边缘节点上的任务数量矩阵;Var(Numi)表示对Numi求方差操作;ω1表示第1个计算节点上的任务平均完成时间的对应权重;ωK表示第K个计算节点上的任务平均完成时间的对应权重;λ3和λ4均为可变的奖励控制函数;JCT1表示第1个计算任务的任务执行时间;JCTK表示第K个计算任务的任务执行时间。
5.根据权利要求4所述的基于强化学习的物联网采集平台计算资源调度方法,其特征在于,步骤S4的具体步骤如下:
S41、训练回合初始化为0;
S42、用随机参数ω初始化Double DQN网络,并得到训练网络
S43、使用参数ωtarget来初始化目标网络
S44、初始化经验回放器;
S45、迭代进行:获取状态空间S={Tstart,Tend,RESnode},根据当前训练网络以贪婪策略ε选取动作,执行动作,获得汇报,更新状态空间S;
S46、将经验(si,ai,si+1)存入经验回放器;若经验回放器中经验数据量达到设定数量,从经验回放器中随机选取N组数据{(si,ai,Si+1)}i-1,...,N,用和/>计算损失函数,根据损失函数更新/>的参数;
S47、迭代进行设定代数C步时将的参数同步到/>以得到最优目标网络,该最优目标网络即为对应的最优强化学习模型。
CN202311819236.3A 2023-12-27 2023-12-27 基于强化学习的物联网采集平台计算资源调度方法 Pending CN117687791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311819236.3A CN117687791A (zh) 2023-12-27 2023-12-27 基于强化学习的物联网采集平台计算资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311819236.3A CN117687791A (zh) 2023-12-27 2023-12-27 基于强化学习的物联网采集平台计算资源调度方法

Publications (1)

Publication Number Publication Date
CN117687791A true CN117687791A (zh) 2024-03-12

Family

ID=90137073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311819236.3A Pending CN117687791A (zh) 2023-12-27 2023-12-27 基于强化学习的物联网采集平台计算资源调度方法

Country Status (1)

Country Link
CN (1) CN117687791A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909667A (zh) * 2024-03-19 2024-04-19 中铁四局集团有限公司 适应于复杂环境下的物联网采集方法及采集装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909667A (zh) * 2024-03-19 2024-04-19 中铁四局集团有限公司 适应于复杂环境下的物联网采集方法及采集装置
CN117909667B (zh) * 2024-03-19 2024-06-07 中铁四局集团有限公司 适应于复杂环境下的物联网采集方法及采集装置

Similar Documents

Publication Publication Date Title
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
CN117687791A (zh) 基于强化学习的物联网采集平台计算资源调度方法
Zhu et al. A deep-reinforcement-learning-based optimization approach for real-time scheduling in cloud manufacturing
CN114340016A (zh) 一种电网边缘计算卸载分配方法及系统
CN112533237B (zh) 工业互联网中支持大规模设备通信的网络容量优化方法
CN114205353B (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
Ye et al. A new approach for resource scheduling with deep reinforcement learning
CN113626104A (zh) 边云架构下基于深度强化学习的多目标优化卸载策略
CN110414826A (zh) 一种云制造环境下柔性多任务前摄性调度优化方法
CN110490319B (zh) 一种基于融合神经网络参数的分布式深度强化学习方法
CN113780576A (zh) 基于奖励自适应分配的合作多智能体强化学习方法
CN113590279A (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
CN116489712A (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
Chen et al. A3c-based and dependency-aware computation offloading and service caching in digital twin edge networks
CN111488208B (zh) 基于可变步长蝙蝠算法的边云协同计算节点调度优化方法
CN117851056A (zh) 一种基于约束近端策略优化的时变任务调度方法及系统
CN112312299A (zh) 服务卸载方法、装置及系统
CN111708620A (zh) 一种具有计费机制的任务卸载方法
CN116009990B (zh) 基于宽注意力机制的云边协同元强化学习计算卸载方法
CN115329985B (zh) 无人集群智能模型训练方法、装置和电子设备
CN116204319A (zh) 基于sac算法与任务依赖关系的云边端协同卸载方法及系统
CN116340393A (zh) 数据库饱和度的预测方法、存储介质及数据库系统
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN115912430A (zh) 基于云边端协同的大规模储能电站资源分配方法及系统
CN117709486B (zh) 一种面向协作学习的动态聚合方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination