CN111026548A - 一种逆向深度强化学习的电力通信设备测试资源调度方法 - Google Patents

一种逆向深度强化学习的电力通信设备测试资源调度方法 Download PDF

Info

Publication number
CN111026548A
CN111026548A CN201911192808.3A CN201911192808A CN111026548A CN 111026548 A CN111026548 A CN 111026548A CN 201911192808 A CN201911192808 A CN 201911192808A CN 111026548 A CN111026548 A CN 111026548A
Authority
CN
China
Prior art keywords
strategy
function
reinforcement learning
calculation
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911192808.3A
Other languages
English (en)
Other versions
CN111026548B (zh
Inventor
马志程
张驯
朱小琴
崔阿军
张宪康
魏峰
杨凡
赵金雄
马宏忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Gansu Electric Power Co Ltd
Electric Power Research Institute of State Grid Gansu Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Gansu Electric Power Co Ltd
Electric Power Research Institute of State Grid Gansu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Gansu Electric Power Co Ltd, Electric Power Research Institute of State Grid Gansu Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911192808.3A priority Critical patent/CN111026548B/zh
Publication of CN111026548A publication Critical patent/CN111026548A/zh
Application granted granted Critical
Publication of CN111026548B publication Critical patent/CN111026548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/501Performance criteria
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种逆向深度强化学习的电力通信设备测试资源调度方法。该方法首次采用逆向深度强化学习相关理论,分析了基于边缘计算的通信设备中自动化测试资源需求,综合考虑资源调度时间和测试执行时间以及通信时间,采用深度逆向强化学习算法框架,设计了一种电力信息通信设备自动化测试移动边缘计算资源动态调度方法,提高测试资源利用率。

Description

一种逆向深度强化学习的电力通信设备测试资源调度方法
技术领域
本发明属于电力领域,尤其涉及电力信息通信设备测试资源调度方法。
背景技术
随着智能电网的发展,通信设备对于泛在电力物联网的运行以及维护起到了决定性的作用,其性能的好坏直接影响网络的安全性和稳定性;传统的通信设备测试也向分布式的通信设备节点测试发展。传统的通信设备测试往往采用人工的方式,费时、费力,同时测试的结果也不准确。
发明内容
(一)要解决的技术问题
为了提高电力信息通信设备测试效率,本发明公开了一种逆向深度强化学习的电力通信设备测试资源调度方法。本发明采用多接入边缘计算方式,利用逆向深度强化学习理论,利用历史上分配和调度的专家数据,增强了调度方法的收敛性,有效的降低了测试时间,提高了测试精度。
(二)技术方案
一种逆向深度强化学习的电力通信设备测试资源调度方法,其具体包括如下步骤:
步骤A,分析基于移动边缘计算的电力信息通信设备计算卸载模型。
步骤B,根据步骤A资源模型的分析,构建基于逆向深度强化学习的资源调度算法模型,并且综合利用已有较好回报值的专家决策数据作为强化学习初始的策略函数样本;
步骤C,综合分析电力信息通信设备计算卸载环境与资源调度算法方案,确定深度强化学习与测试环境交互的状态、动作、奖励等值;
步骤D,确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数,构建算法流程;
步骤E,最后设计基于逆向深度强化学习的资源分配算法具体流程,求解最优资源分配策略。
其中,步骤A具体包括:
A1,分析基于移动边缘计算的电力信息通信设备自动化计算卸载模型,若进行计算卸载,可分为3个阶段,电力信息数据上传阶段,在移动边缘服务器计算阶段,计算结果回传阶段;若未成功进行计算卸载,则需本地计算。
A2,假设当前需要服务的电力设备数为N,每个设备需要服务信息总量为Lk,其为二进制卸载,其中an表示卸载指标,an=0表示未卸载,an=1表示卸载到服务器。
A3,电力数据上传阶段:设模型为一个服务器,多个电力系统设备,服务器为电力设备提供边缘计算。电力系统设备n的传输速率表示为:
Figure BDA0002293994810000021
其中pn为用户n的发射功率,hn为用户n到服务器的信道增益,N0表示噪声。
A4,若电力设备本地计算,则所需时间表示为:
Figure BDA0002293994810000022
其中,bn表示电力设备计算1bit数据所需的CPU周期数,fn表示电力设备的CPU周期频率。计算所消耗的能量表示为:Enloc=μ(fn)2Lnbn若电力设备将任务上传到服务器进行边缘计算,由于结果数据量很小,忽略结果回传时间及能耗。则所需时间由上行传输时间和边缘计算时间构成,所需时间表示为:
Figure BDA0002293994810000023
其中bMEC表示MEC计算1bit数据所需的CPU周期数,fMEC表示MEC的CPU周期频率。消耗能量表示为:
Figure BDA0002293994810000024
A5,由上述步骤可知,系统的时间成本表示为:
Figure BDA0002293994810000031
系统的能耗成本表示为:
Figure BDA0002293994810000032
其中,步骤B具体包括:
B1,将基于电力通信设备的移动边缘计算的资源调度算法模型分为环境模块和逆向深度强化学习训练模块,环境模块包括任务分配、功率分配,计算资源分配等状态,逆向深度强化学习训练模块采用专家高回报示例函数与深度强化学习相结合的模式;
B2,采用逆向深度强化学习时,需要收集一些专家的数据,智能体
通过从专家示例中学习到回报函数作为深度强化学习初始数据的策略函数。训练时,智能体分别与通信设备计算卸载环境进行状态、动作和奖励的交互训练,计算优化各自的策略函数和值函数,使策略表现更加准确;
B3,智能体通过学习到的回报函数,使得该回报函数下的所得最优策略在专家的示例策略附近,其中回报函数定义为R(s),参数化的K个特征函数φk(s,a)的和
Figure BDA0002293994810000033
回报函数中的参数为θ。策略π的值函数表示为
Figure BDA0002293994810000034
B4,提供的参数更新本体策略值函数,智能体下一次与环境交互学习时,进而来更新参数来获得最优的策略,直到达到训练终止条件获得最优的专家策略。
其中,步骤C具体包括:
C1,设置状态st,指具体测试任务资源配置情况等,例如计算任务的输入位,任务n的计算需求,通信设备与基站之间的功率分配,令S定义为状态空间,在t时刻的系统状态st∈S定义为
st={z1(t),z2(t),…zN(t),d1(t),d2(t)…,dN(t),p1(t),p2(t)…pn(t)}
C2,设置动作at,:智能体将会对如何为N个电力设备是在本地计算还是在移动边缘服务器计算,执行计算任务的多少,设置动作空间为at={a1(t),a2(t),…aN(t),b1(t),b2(t),…bN(t)}。
C3,设置奖励r,指资源调度系统采取深度强化学习算法下发的动作后获得的回报,为降低复杂度,本发明只考虑计算和传输任务传输时延,以及过程中所消耗的能耗,将其可表示为线性组合的方法rt=-(ρcptcpcaEcP),其中代表电力通信设备在进行计算卸载时的总成本消耗,其中ccp为总的时间成本,Ecp为总的能耗成本。r越小表示资源利用率越高,时延越小,能耗越小,代表资源调度效果越好,训练模型获得奖励越高。
其中,步骤D具体包括:
D1,算法训练使用n步采样来加快收敛,采用优势函数评估策略,通过评论家网络产生,表示为:
A(s,t)=Rt++γRt+1+...γn-1Rt+n-1nV(s′)-V(s)
其中,γ表示衰减因子,取值(0,1);n表示状态特征维度;A表示动作集;c表示策略π的熵项熵系数;t表示时间序列;R表示每个动作总回报;V(s)表示输入状态价值函数。
D2,通过更新策略梯度函数,使总回报期望上升,寻找最优策略。
策略梯度函数为:
Figure BDA0002293994810000051
策略参数梯度下降更新函数为:
θ=θ+α▽θlogπθ(st,at)A(S,t)+c▽θH(π(St,θ))
其中,步骤E具体包括:
E1,测试人员将计算任务提交到基于移动边缘计算的软件自动化测试平台,资源调度系统提取计算任务需求Ln
E2,智能体根据电力设备进行计算的已有的专家数据进行学习示例函数,并通过深度强化学习模型,主要包括环境等状态st和训练参数。训练参数包括表示全局神经网络策略函数和状态值函数参数参数θ、θv,线程智能体网络策略函数和状态值函数参数θ′、θ′v
E3,执行训练。智能体与分别与环境进行状态和动作交互,实施资源分配动作,获得奖励rt和新状态st+1,生成训练数据样本(s,a,r);
E4,根据奖励回馈,调整资源分配动作,累计n步梯度更新;
E5,异步更新全局网络参数θ←dθ、θv←dθv
E6,循环迭代训练,直到最大迭代次数Tmax,获得最大奖励Rmax
E7,获得最优资源分配策略。
(三)有益效果
本发明公开了一种逆向深度强化学习的电力通信设备测试资源调度方法。该方法首次采用逆向深度强化学习相关理论,分析了基于边缘计算的通信设备中自动化测试资源需求,综合考虑资源调度时间和测试执行时间以及通信时间,采用深度逆向强化学习算法框架,设计了一种电力信息通信设备自动化测试移动边缘计算资源动态调度方法,提高测试资源利用率。
附图说明
图1本发明实施例的方法流程图。
具体实施方式
为了提高电力信息通信设备测试效率,本发明公开了一种逆向深度强化学习的电力通信设备测试资源调度方法。该方法首次采用逆向深度强化学习相关理论,分析了基于边缘计算的通信设备中自动化测试资源需求,综合考虑资源调度时间和测试执行时间以及通信时间,采用深度逆向强化学习算法框架,设计了一种电力信息通信设备自动化测试移动边缘计算资源动态调度方法,提高测试资源利用率。
也就是说,本发明采用多接入边缘计算方式,利用逆向深度强化学习理论,利用历史上分配和调度的专家数据,增强了调度方法的收敛性,有效的降低了测试时间,提高了测试精度。
如图1所示,一种逆向深度强化学习的电力通信设备测试资源调度方法,其具体包括如下步骤:
其具体包括如下步骤:
步骤A,分析基于移动边缘计算的电力信息通信设备计算卸载模型。
步骤B,根据步骤A资源模型的分析,构建基于逆向深度强化学习的资源调度算法模型,并且综合利用已有较好回报值的专家决策数据作为强化学习初始的策略函数样本;
步骤C,综合分析电力信息通信设备计算卸载环境与资源调度算法方案,确定深度强化学习与测试环境交互的状态、动作、奖励等值;
步骤D,确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数,构建算法流程;
步骤E,最后设计基于逆向深度强化学习的资源分配算法具体流程,求解最优资源分配策略。
其中,步骤A具体包括:
A1,分析基于移动边缘计算的电力信息通信设备自动化计算卸载模型,若进行计算卸载,可分为3个阶段,电力信息数据上传阶段,在移动边缘服务器计算阶段,计算结果回传阶段;若未成功进行计算卸载,则需本地计算。
A2,假设当前需要服务的电力设备数为N,每个设备需要服务信息总量为Lk,其为二进制卸载,其中an表示卸载指标,an=0表示未卸载,an=1表示卸载到服务器。
A3,电力数据上传阶段:设模型为一个服务器,多个电力系统设备,服务器为电力设备提供边缘计算。电力系统设备n的传输速率表示为:
Figure BDA0002293994810000071
其中pn为用户n的发射功率,hn为用户n到服务器的信道增益,N0表示噪声。
A4,若电力设备本地计算,则所需时间表示为:
Figure BDA0002293994810000072
其中,bn表示电力设备计算1bit数据所需的CPU周期数,fn表示电力设备的CPU周期频率。计算所消耗的能量表示为:Enloc=μ(fn)2Lnbn若电力设备将任务上传到服务器进行边缘计算,由于结果数据量很小,忽略结果回传时间及能耗。则所需时间由上行传输时间和边缘计算时间构成,所需时间表示为:
Figure BDA0002293994810000073
其中bMEC表示MEC计算1bit数据所需的CPU周期数,fMEC表示MEC的CPU周期频率。消耗能量表示为:
Figure BDA0002293994810000074
A5,由上述步骤可知,系统的时间成本表示为:
Figure BDA0002293994810000075
系统的能耗成本表示为:
Figure BDA0002293994810000076
其中,步骤B具体包括:
B1,将基于电力通信设备的移动边缘计算的资源调度算法模型分为环境模块和逆向深度强化学习训练模块,环境模块包括任务分配、功率分配,计算资源分配等状态,逆向深度强化学习训练模块采用专家高回报示例函数与深度强化学习相结合的模式;
B2,采用逆向深度强化学习时,需要收集一些专家的数据,智能体通过从专家示例中学习到回报函数作为深度强化学习初始数据的策略函数。训练时,智能体分别与通信设备计算卸载环境进行状态、动作和奖励的交互训练,计算优化各自的策略函数和值函数,使策略表现更加准确;
B3,智能体通过学习到的回报函数,使得该回报函数下的所得最优策略在专家的示例策略附近,其中回报函数定义为R(s),参数化的K个特征函数φk(s,a)的和
Figure BDA0002293994810000081
回报函数中的参数为θ。策略π的值函数表示为
Figure BDA0002293994810000082
B4,提供的参数更新本体策略值函数,智能体下一次与环境交互学习时,进而来更新参数来获得最优的策略,直到达到训练终止条件获得最优的专家策略。
其中,步骤C具体包括:
C1,设置状态st,指具体测试任务资源配置情况等,例如计算任务的输入位,任务n的计算需求,通信设备与基站之间的功率分配,令S定义为状态空间,在t时刻的系统状态st∈S定义为
st={z1(t),z2(t),…zN(t),d1(t),d2(t)…,dN(t),p1(t),p2(t)…pn(t)}
C2,设置动作at,:智能体将会对如何为N个电力设备是在本地计算还是在移动边缘服务器计算,执行计算任务的多少,设置动作空间为at={a1(t),a2(t),…aN(t),b1(t),b2(t),…bN(t)}。
C3,设置奖励r,指资源调度系统采取深度强化学习算法下发的动作后获得的回报,为降低复杂度,本发明只考虑计算和传输任务传输时延,以及过程中所消耗的能耗,将其可表示为线性组合的方法rt=-(ρcptcpcaEcP),其中代表电力通信设备在进行计算卸载时的总成本消耗,其中ccp为总的时间成本,Ecp为总的能耗成本。r越小表示资源利用率越高,时延越小,能耗越小,代表资源调度效果越好,训练模型获得奖励越高。
其中,步骤D具体包括:
D1,算法训练使用n步采样来加快收敛,采用优势函数评估策略,通过评论家网络产生,表示为:
A(s,t)=Rt++γRt+1+...γn-1Rt+n-1nV(s′)-V(s)
其中,γ表示衰减因子,取值(0,1);n表示状态特征维度;A表示动作集;c表示策略π的熵项熵系数;t表示时间序列;R表示每个动作总回报;V(s)表示输入状态价值函数。
D2,通过更新策略梯度函数,使总回报期望上升,寻找最优策略。
策略梯度函数为:
Figure BDA0002293994810000091
策略参数梯度下降更新函数为:
θ=θ+α▽θlogπθ(st,at)A(S,t)+c▽θH(π(St,θ))
其中,步骤E具体包括:
E1,测试人员将计算任务提交到基于移动边缘计算的软件自动化测试平台,资源调度系统提取计算任务需求Ln
E2,智能体根据电力设备进行计算的已有的专家数据进行学习示例函数,并通过深度强化学习模型,主要包括环境等状态st和训练参数。训练参数包括表示全局神经网络策略函数和状态值函数参数参数θ、θv,线程智能体网络策略函数和状态值函数参数θ′、θ′v
E3,执行训练。智能体与分别与环境进行状态和动作交互,实施资源分配动作,获得奖励rt和新状态st+1,生成训练数据样本(s,a,r);
E4,根据奖励回馈,调整资源分配动作,累计n步梯度更新;
E5,异步更新全局网络参数θ←dθ、θv←dθv
E6,循环迭代训练,直到最大迭代次数Tmax,获得最大奖励Rmax
E7,获得最优资源分配策略。
本发明采用多接入边缘计算方式,利用逆向深度强化学习理论,利用历史上分配和调度的专家数据,增强了调度方法的收敛性,有效的降低了测试时间,提高了测试精度。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (1)

1.一种逆向深度强化学习的电力通信设备测试资源调度方法,其特征在于,该方法具体包括如下步骤:
步骤A,分析基于移动边缘计算的电力信息通信设备计算卸载模型。
步骤B,根据步骤A资源模型的分析,构建基于逆向深度强化学习的资源调度算法模型,并且综合利用已有较好回报值的专家决策数据作为强化学习初始的策略函数样本;
步骤C,综合分析电力信息通信设备计算卸载环境与资源调度算法方案,确定深度强化学习与测试环境交互的状态、动作、奖励等值;
步骤D,确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数,构建算法流程;
步骤E,最后设计基于逆向深度强化学习的资源分配算法具体流程,求解最优资源分配策略。
其中,步骤A具体包括:
A1,分析基于移动边缘计算的电力信息通信设备自动化计算卸载模型,若进行计算卸载,可分为3个阶段,电力信息数据上传阶段,在移动边缘服务器计算阶段,计算结果回传阶段;若未成功进行计算卸载,则需本地计算。
A2,假设当前需要服务的电力设备数为N,每个设备需要服务信息总量为Lk,其为二进制卸载,其中an表示卸载指标,an=0表示未卸载,an=1表示卸载到服务器。
A3,电力数据上传阶段:设模型为一个服务器,多个电力系统设备,服务器为电力设备提供边缘计算。电力系统设备n的传输速率表示为:
Figure FDA0002293994800000011
其中pn为用户n的发射功率,hn为用户n到服务器的信道增益,N0表示噪声。
A4,若电力设备本地计算,则所需时间表示为:
Figure FDA0002293994800000021
其中,bn表示电力设备计算1bit数据所需的CPU周期数,fn表示电力设备的CPU周期频率。计算所消耗的能量表示为:Enloc=μ(fn)2Lnbn若电力设备将任务上传到服务器进行边缘计算,由于结果数据量很小,忽略结果回传时间及能耗。则所需时间由上行传输时间和边缘计算时间构成,所需时间表示为:
Figure FDA0002293994800000022
其中bMEC表示MEC计算1bit数据所需的CPU周期数,fMEC表示MEC的CPU周期频率。消耗能量表示为:
Figure FDA0002293994800000023
A5,由上述步骤可知,系统的时间成本表示为:
Figure FDA0002293994800000024
系统的能耗成本表示为:
Figure FDA0002293994800000025
其中,步骤B具体包括:
B1,将基于电力通信设备的移动边缘计算的资源调度算法模型分为环境模块和逆向深度强化学习训练模块,环境模块包括任务分配、功率分配,计算资源分配等状态,逆向深度强化学习训练模块采用专家高回报示例函数与深度强化学习相结合的模式;
B2,采用逆向深度强化学习时,需要收集一些专家的数据,智能体
通过从专家示例中学习到回报函数作为深度强化学习初始数据的策略函数,训练时,智能体分别与通信设备计算卸载环境进行状态、动作和奖励的交互训练,计算优化各自的策略函数和值函数,使策略表现更加准确;
B3,智能体通过学习到的回报函数,使得该回报函数下的所得最优策略在专家的示例策略附近,其中回报函数定义为R(s),参数化的K个特征函数φk(s,a)的和
Figure FDA0002293994800000031
回报函数中的参数为θ。策略π的值函数表示为
Figure FDA0002293994800000032
B4,提供的参数更新本体策略值函数,智能体下一次与环境交互学习时,进而来更新参数来获得最优的策略,直到达到训练终止条件获得最优的专家策略。
其中,步骤C具体包括:
C1,设置状态st,指具体测试任务资源配置情况等,例如计算任务的输入位,任务n的计算需求,通信设备与基站之间的功率分配,令S定义为状态空间,在t时刻的系统状态st∈S定义为
st={z1(t),z2(t),…zN(t),d1(t),d2(t)…,dN(t),p1(t),p2(t)…pn(t)}
C2,设置动作at,智能体将会对如何为N个电力设备是在本地计算还是在移动边缘服务器计算,执行计算任务的多少,设置动作空间为at={a1(t),a2(t),…aN(t),b1(t),b2(t),…bN(t)}。
C3,设置奖励r,指资源调度系统采取深度强化学习算法下发的动作后获得的回报,为降低复杂度,本发明只考虑计算和传输任务传输时延,以及过程中所消耗的能耗,将其可表示为线性组合的方法rt=-(ρcptcpcaEcP),其中代表电力通信设备在进行计算卸载时的总成本消耗,其中ccp为总的时间成本,Ecp为总的能耗成本,r越小表示资源利用率越高,时延越小,能耗越小,代表资源调度效果越好,训练模型获得奖励越高。
其中,步骤D具体包括:
D1,算法训练使用n步采样来加快收敛,采用优势函数评估策略,通过评论家网络产生,表示为:
A(s,t)=Rt++γRt+1+...γn-1Rt+n-1nV(s′)-V(s)
其中,γ表示衰减因子,取值(0,1);n表示状态特征维度;A表示动作集;c表示策略π的熵项熵系数;t表示时间序列;R表示每个动作总回报;V(s)表示输入状态价值函数。
D2,通过更新策略梯度函数,使总回报期望上升,寻找最优策略。策略梯度函数为:
Figure FDA0002293994800000041
策略参数梯度下降更新函数为:
Figure FDA0002293994800000042
其中,步骤E具体包括:
E1,测试人员将计算任务提交到基于移动边缘计算的软件自动化测试平台,资源调度系统提取计算任务需求Ln
E2,智能体根据电力设备进行计算的已有的专家数据进行学习示例函数,并通过深度强化学习模型,主要包括环境等状态st和训练参数。训练参数包括表示全局神经网络策略函数和状态值函数参数参数θ、θv,线程智能体网络策略函数和状态值函数参数θ′、θ′v
E3,执行训练。智能体与分别与环境进行状态和动作交互,实施资源分配动作,获得奖励rt和新状态st+1,生成训练数据样本(s,a,r);
E4,根据奖励回馈,调整资源分配动作,累计n步梯度更新;
E5,异步更新全局网络参数θ←dθ、θv←dθv
E6,循环迭代训练,直到最大迭代次数Tmax,获得最大奖励Rmax
E7,获得最优资源分配策略。
CN201911192808.3A 2019-11-28 2019-11-28 一种逆向深度强化学习的电力通信设备测试资源调度方法 Active CN111026548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911192808.3A CN111026548B (zh) 2019-11-28 2019-11-28 一种逆向深度强化学习的电力通信设备测试资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911192808.3A CN111026548B (zh) 2019-11-28 2019-11-28 一种逆向深度强化学习的电力通信设备测试资源调度方法

Publications (2)

Publication Number Publication Date
CN111026548A true CN111026548A (zh) 2020-04-17
CN111026548B CN111026548B (zh) 2023-05-09

Family

ID=70207004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911192808.3A Active CN111026548B (zh) 2019-11-28 2019-11-28 一种逆向深度强化学习的电力通信设备测试资源调度方法

Country Status (1)

Country Link
CN (1) CN111026548B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111064633A (zh) * 2019-11-28 2020-04-24 国网甘肃省电力公司电力科学研究院 一种云边协同电力信息通信设备自动化测试资源分配方法
CN111767991A (zh) * 2020-06-29 2020-10-13 重庆大学 一种基于深度q学习的测控资源调度方法
CN112383433A (zh) * 2020-11-13 2021-02-19 天津大学 面向区域电网cps稳定控制的边缘计算优化配置方法
CN112637806A (zh) * 2020-12-15 2021-04-09 合肥工业大学 基于深度强化学习的变电站监测系统及其资源调度方法
CN113360203A (zh) * 2021-04-20 2021-09-07 广东电网有限责任公司电力调度控制中心 一种电力物联网的任务卸载方法及装置
CN113420296A (zh) * 2021-07-08 2021-09-21 国网甘肃省电力公司电力科学研究院 一种基于Bert模型与BiLSTM的C源代码漏洞检测方法
CN117032936A (zh) * 2023-09-28 2023-11-10 之江实验室 一种数据调度方法、装置和计算机设备
CN117963658A (zh) * 2024-03-28 2024-05-03 通用电梯股份有限公司 基于逆向强化学习的电梯调度方法、电子设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160034305A1 (en) * 2013-03-15 2016-02-04 Advanced Elemental Technologies, Inc. Methods and systems for purposeful computing
CN106560848A (zh) * 2016-10-09 2017-04-12 辽宁工程技术大学 模拟生物双向认知能力的新型神经网络模型及训练方法
CN106663038A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 用于机器学习的特征处理配方
CN108738045A (zh) * 2018-04-17 2018-11-02 浙江工业大学 一种基于深度确定性策略梯度方法的移动边缘计算速率最大化方法
CN109388484A (zh) * 2018-08-16 2019-02-26 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
CN109496318A (zh) * 2018-07-30 2019-03-19 东莞理工学院 基于深度强化学习的自适应博弈算法
CN109598332A (zh) * 2018-11-14 2019-04-09 北京市商汤科技开发有限公司 神经网络生成方法及装置、电子设备和存储介质
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法
US20190220703A1 (en) * 2019-03-28 2019-07-18 Intel Corporation Technologies for distributing iterative computations in heterogeneous computing environments

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160034305A1 (en) * 2013-03-15 2016-02-04 Advanced Elemental Technologies, Inc. Methods and systems for purposeful computing
CN106663038A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 用于机器学习的特征处理配方
CN106560848A (zh) * 2016-10-09 2017-04-12 辽宁工程技术大学 模拟生物双向认知能力的新型神经网络模型及训练方法
CN108738045A (zh) * 2018-04-17 2018-11-02 浙江工业大学 一种基于深度确定性策略梯度方法的移动边缘计算速率最大化方法
CN109496318A (zh) * 2018-07-30 2019-03-19 东莞理工学院 基于深度强化学习的自适应博弈算法
CN109388484A (zh) * 2018-08-16 2019-02-26 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
CN109598332A (zh) * 2018-11-14 2019-04-09 北京市商汤科技开发有限公司 神经网络生成方法及装置、电子设备和存储介质
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法
US20190220703A1 (en) * 2019-03-28 2019-07-18 Intel Corporation Technologies for distributing iterative computations in heterogeneous computing environments

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HOOGLE: ""演员评论家(actor-critic)算法"", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/68464373》 *
XIAOYU QIU: ""Online Deep Reinforcement Learning for Computation Offloading in Blockchain-Empowered Mobile Edge Computing"", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
朱小琴: ""基于深度强化学习的电力通信网路由策略"", 《科学技术创新.2019》 *
段军红: ""面向智能电网的网络信息安全架构"", 《信息安全与技术》 *
陈希亮: ""深度逆向强化学习研究综述"", 《计算机工程与应用》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111064633B (zh) * 2019-11-28 2021-09-24 国网甘肃省电力公司电力科学研究院 一种云边协同电力信息通信设备自动化测试资源分配方法
CN111064633A (zh) * 2019-11-28 2020-04-24 国网甘肃省电力公司电力科学研究院 一种云边协同电力信息通信设备自动化测试资源分配方法
CN111767991B (zh) * 2020-06-29 2023-08-15 重庆大学 一种基于深度q学习的测控资源调度方法
CN111767991A (zh) * 2020-06-29 2020-10-13 重庆大学 一种基于深度q学习的测控资源调度方法
CN112383433A (zh) * 2020-11-13 2021-02-19 天津大学 面向区域电网cps稳定控制的边缘计算优化配置方法
CN112383433B (zh) * 2020-11-13 2022-01-14 天津大学 面向区域电网cps稳定控制的边缘计算优化配置方法
CN112637806A (zh) * 2020-12-15 2021-04-09 合肥工业大学 基于深度强化学习的变电站监测系统及其资源调度方法
CN112637806B (zh) * 2020-12-15 2022-07-05 合肥工业大学 基于深度强化学习的变电站监测系统及其资源调度方法
CN113360203A (zh) * 2021-04-20 2021-09-07 广东电网有限责任公司电力调度控制中心 一种电力物联网的任务卸载方法及装置
CN113420296A (zh) * 2021-07-08 2021-09-21 国网甘肃省电力公司电力科学研究院 一种基于Bert模型与BiLSTM的C源代码漏洞检测方法
CN117032936A (zh) * 2023-09-28 2023-11-10 之江实验室 一种数据调度方法、装置和计算机设备
CN117032936B (zh) * 2023-09-28 2024-02-06 之江实验室 一种数据调度方法、装置和计算机设备
CN117963658A (zh) * 2024-03-28 2024-05-03 通用电梯股份有限公司 基于逆向强化学习的电梯调度方法、电子设备和存储介质

Also Published As

Publication number Publication date
CN111026548B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN111026548B (zh) 一种逆向深度强化学习的电力通信设备测试资源调度方法
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN110928654B (zh) 一种边缘计算系统中分布式的在线任务卸载调度方法
CN112105062B (zh) 时敏条件下移动边缘计算网络能耗最小化策略方法
CN111026549A (zh) 一种电力信息通信设备自动化测试资源调度方法
CN113469325B (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
CN113157422A (zh) 基于深度强化学习的云数据中心集群资源调度方法及装置
CN109246761A (zh) 考虑延迟及能耗的基于交替方向乘子法的卸载方法
CN113781002B (zh) 云边协同网络中基于代理模型和多种群优化的低成本工作流应用迁移方法
CN112257928A (zh) 一种基于cnn和分位数回归的短期电力负荷概率预测方法
CN114650228B (zh) 一种异构网络中基于计算卸载的联邦学习调度方法
CN111191113B (zh) 一种基于边缘计算环境的数据资源需求预测和调整方法
CN115562940A (zh) 负载能耗监控方法、装置、介质及电子设备
CN115543626A (zh) 采用异构计算资源负载均衡调度的电力缺陷图像仿真方法
CN115473896A (zh) 基于dqn算法的电力物联网卸载策略和资源配置优化方法
CN114936708A (zh) 基于边云协同任务卸载的故障诊断优化方法及电子设备
CN105808355B (zh) 一种基于二元线性回归方程的动态调频方法
CN117555683A (zh) 基于深度强化学习的云集群资源调度方法
Kim et al. FedGPO: Heterogeneity-Aware Global Parameter optimization for Efficient Federated Learning
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
CN116470491A (zh) 基于copula函数的光伏功率概率预测方法及系统
CN113434034B (zh) 利用深度学习调整计算任务cpu频率的大型集群节能方法
CN115373836A (zh) 计算网络、算力度量方法、调度装置及相关产品
CN114860398A (zh) 一种智能的云平台的任务调度方法、装置及设备
CN113793298A (zh) 肺结节检测模型构建优化方法、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant