CN111026548A

CN111026548A - 一种逆向深度强化学习的电力通信设备测试资源调度方法

Info

Publication number: CN111026548A
Application number: CN201911192808.3A
Authority: CN
Inventors: 马志程; 张驯; 朱小琴; 崔阿军; 张宪康; 魏峰; 杨凡; 赵金雄; 马宏忠
Original assignee: State Grid Corp of China SGCC; State Grid Gansu Electric Power Co Ltd; Electric Power Research Institute of State Grid Gansu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Gansu Electric Power Co Ltd; Electric Power Research Institute of State Grid Gansu Electric Power Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-17
Anticipated expiration: 2039-11-28
Also published as: CN111026548B

Abstract

本发明公开了一种逆向深度强化学习的电力通信设备测试资源调度方法。该方法首次采用逆向深度强化学习相关理论，分析了基于边缘计算的通信设备中自动化测试资源需求，综合考虑资源调度时间和测试执行时间以及通信时间，采用深度逆向强化学习算法框架，设计了一种电力信息通信设备自动化测试移动边缘计算资源动态调度方法，提高测试资源利用率。

Description

一种逆向深度强化学习的电力通信设备测试资源调度方法

技术领域

本发明属于电力领域，尤其涉及电力信息通信设备测试资源调度方法。

背景技术

随着智能电网的发展，通信设备对于泛在电力物联网的运行以及维护起到了决定性的作用，其性能的好坏直接影响网络的安全性和稳定性；传统的通信设备测试也向分布式的通信设备节点测试发展。传统的通信设备测试往往采用人工的方式，费时、费力，同时测试的结果也不准确。

发明内容

(一)要解决的技术问题

为了提高电力信息通信设备测试效率，本发明公开了一种逆向深度强化学习的电力通信设备测试资源调度方法。本发明采用多接入边缘计算方式，利用逆向深度强化学习理论，利用历史上分配和调度的专家数据，增强了调度方法的收敛性，有效的降低了测试时间，提高了测试精度。

(二)技术方案

一种逆向深度强化学习的电力通信设备测试资源调度方法，其具体包括如下步骤：

步骤A，分析基于移动边缘计算的电力信息通信设备计算卸载模型。

步骤B，根据步骤A资源模型的分析，构建基于逆向深度强化学习的资源调度算法模型，并且综合利用已有较好回报值的专家决策数据作为强化学习初始的策略函数样本；

步骤C，综合分析电力信息通信设备计算卸载环境与资源调度算法方案，确定深度强化学习与测试环境交互的状态、动作、奖励等值；

步骤D，确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数，构建算法流程；

步骤E，最后设计基于逆向深度强化学习的资源分配算法具体流程，求解最优资源分配策略。

其中，步骤A具体包括：

A1，分析基于移动边缘计算的电力信息通信设备自动化计算卸载模型，若进行计算卸载，可分为3个阶段，电力信息数据上传阶段，在移动边缘服务器计算阶段，计算结果回传阶段；若未成功进行计算卸载，则需本地计算。

A2，假设当前需要服务的电力设备数为N,每个设备需要服务信息总量为L_k，其为二进制卸载，其中a_n表示卸载指标，a_n＝0表示未卸载，a_n＝1表示卸载到服务器。

A3，电力数据上传阶段：设模型为一个服务器，多个电力系统设备，服务器为电力设备提供边缘计算。电力系统设备n的传输速率表示为：

其中p_n为用户n的发射功率，h_n为用户n到服务器的信道增益，N₀表示噪声。

A4，若电力设备本地计算，则所需时间表示为：

其中，b_n表示电力设备计算1bit数据所需的CPU周期数，f_n表示电力设备的CPU周期频率。计算所消耗的能量表示为：E_nloc＝μ(f_n)²L_nb_n若电力设备将任务上传到服务器进行边缘计算，由于结果数据量很小，忽略结果回传时间及能耗。则所需时间由上行传输时间和边缘计算时间构成，所需时间表示为：

其中b_MEC表示MEC计算1bit数据所需的CPU周期数，f_MEC表示MEC的CPU周期频率。消耗能量表示为：

A5，由上述步骤可知，系统的时间成本表示为：

系统的能耗成本表示为：

其中，步骤B具体包括：

B1，将基于电力通信设备的移动边缘计算的资源调度算法模型分为环境模块和逆向深度强化学习训练模块，环境模块包括任务分配、功率分配，计算资源分配等状态，逆向深度强化学习训练模块采用专家高回报示例函数与深度强化学习相结合的模式；

B2，采用逆向深度强化学习时，需要收集一些专家的数据，智能体

通过从专家示例中学习到回报函数作为深度强化学习初始数据的策略函数。训练时，智能体分别与通信设备计算卸载环境进行状态、动作和奖励的交互训练，计算优化各自的策略函数和值函数，使策略表现更加准确；

B3，智能体通过学习到的回报函数，使得该回报函数下的所得最优策略在专家的示例策略附近，其中回报函数定义为R(s)，参数化的K个特征函数φ_k(s,a)的和

回报函数中的参数为θ。策略π的值函数表示为

B4，提供的参数更新本体策略值函数，智能体下一次与环境交互学习时，进而来更新参数来获得最优的策略，直到达到训练终止条件获得最优的专家策略。

其中，步骤C具体包括：

C1，设置状态s_t，指具体测试任务资源配置情况等，例如计算任务的输入位，任务n的计算需求，通信设备与基站之间的功率分配，令S定义为状态空间,在t时刻的系统状态s_t∈S定义为

s_t＝{z₁(t),z₂(t),…z_N(t),d₁(t),d₂(t)…,d_N(t),p₁(t),p₂(t)…p_n(t)}

C2，设置动作a_t，:智能体将会对如何为N个电力设备是在本地计算还是在移动边缘服务器计算,执行计算任务的多少，设置动作空间为a_t＝{a₁(t),a₂(t),…a_N(t),b₁(t),b₂(t),…b_N(t)}。

C3，设置奖励r，指资源调度系统采取深度强化学习算法下发的动作后获得的回报，为降低复杂度，本发明只考虑计算和传输任务传输时延，以及过程中所消耗的能耗，将其可表示为线性组合的方法r_t＝-(ρ_cpt_cp+ρ_caE_cP)，其中代表电力通信设备在进行计算卸载时的总成本消耗，其中c_cp为总的时间成本，E_cp为总的能耗成本。r越小表示资源利用率越高，时延越小，能耗越小，代表资源调度效果越好，训练模型获得奖励越高。

其中，步骤D具体包括：

D1，算法训练使用n步采样来加快收敛，采用优势函数评估策略，通过评论家网络产生，表示为：

A(s,t)＝R_t++γR_t+1+...γ^n-1R_t+n-1+γⁿV(s′)-V(s)

其中，γ表示衰减因子，取值(0，1)；n表示状态特征维度；A表示动作集；c表示策略π的熵项熵系数；t表示时间序列；R表示每个动作总回报；V(s)表示输入状态价值函数。

D2，通过更新策略梯度函数，使总回报期望上升，寻找最优策略。

策略梯度函数为：

策略参数梯度下降更新函数为：

θ＝θ+α▽_θlogπ_θ(s_t,a_t)A(S,t)+c▽_θH(π(S_t,θ))

其中，步骤E具体包括：

E1，测试人员将计算任务提交到基于移动边缘计算的软件自动化测试平台，资源调度系统提取计算任务需求L_n；

E2，智能体根据电力设备进行计算的已有的专家数据进行学习示例函数，并通过深度强化学习模型，主要包括环境等状态s_t和训练参数。训练参数包括表示全局神经网络策略函数和状态值函数参数参数θ、θ_v，线程智能体网络策略函数和状态值函数参数θ′、θ′_v；

E3，执行训练。智能体与分别与环境进行状态和动作交互，实施资源分配动作，获得奖励r_t和新状态s_t+1，生成训练数据样本(s,a,r)；

E4，根据奖励回馈，调整资源分配动作，累计n步梯度更新；

E5，异步更新全局网络参数θ←dθ、θ_v←dθ_v；

E6，循环迭代训练，直到最大迭代次数T_max，获得最大奖励R_max；

E7，获得最优资源分配策略。

(三)有益效果

附图说明

图1本发明实施例的方法流程图。

具体实施方式

为了提高电力信息通信设备测试效率，本发明公开了一种逆向深度强化学习的电力通信设备测试资源调度方法。该方法首次采用逆向深度强化学习相关理论，分析了基于边缘计算的通信设备中自动化测试资源需求，综合考虑资源调度时间和测试执行时间以及通信时间，采用深度逆向强化学习算法框架，设计了一种电力信息通信设备自动化测试移动边缘计算资源动态调度方法，提高测试资源利用率。

也就是说，本发明采用多接入边缘计算方式，利用逆向深度强化学习理论，利用历史上分配和调度的专家数据，增强了调度方法的收敛性，有效的降低了测试时间，提高了测试精度。

如图1所示，一种逆向深度强化学习的电力通信设备测试资源调度方法，其具体包括如下步骤：

其具体包括如下步骤：

其中，步骤A具体包括：

A4，若电力设备本地计算，则所需时间表示为：

A5，由上述步骤可知，系统的时间成本表示为：

系统的能耗成本表示为：

其中，步骤B具体包括：

B2，采用逆向深度强化学习时，需要收集一些专家的数据，智能体通过从专家示例中学习到回报函数作为深度强化学习初始数据的策略函数。训练时，智能体分别与通信设备计算卸载环境进行状态、动作和奖励的交互训练，计算优化各自的策略函数和值函数，使策略表现更加准确；

回报函数中的参数为θ。策略π的值函数表示为

B4,提供的参数更新本体策略值函数，智能体下一次与环境交互学习时，进而来更新参数来获得最优的策略，直到达到训练终止条件获得最优的专家策略。

其中，步骤C具体包括：

其中，步骤D具体包括：

A(s,t)＝R_t++γR_t+1+...γ^n-1R_t+n-1+γⁿV(s′)-V(s)

策略梯度函数为：

策略参数梯度下降更新函数为：

θ＝θ+α▽_θlogπ_θ(s_t,a_t)A(S,t)+c▽_θH(π(S_t,θ))

其中，步骤E具体包括：

E4，根据奖励回馈，调整资源分配动作，累计n步梯度更新；

E5，异步更新全局网络参数θ←dθ、θ_v←dθ_v；

E7，获得最优资源分配策略。

本发明采用多接入边缘计算方式，利用逆向深度强化学习理论，利用历史上分配和调度的专家数据，增强了调度方法的收敛性，有效的降低了测试时间，提高了测试精度。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种逆向深度强化学习的电力通信设备测试资源调度方法，其特征在于，该方法具体包括如下步骤：

其中，步骤A具体包括：

A2，假设当前需要服务的电力设备数为N，每个设备需要服务信息总量为L_k，其为二进制卸载，其中a_n表示卸载指标，a_n＝0表示未卸载，a_n＝1表示卸载到服务器。

A4，若电力设备本地计算，则所需时间表示为：

A5，由上述步骤可知，系统的时间成本表示为：

系统的能耗成本表示为：

其中，步骤B具体包括：

通过从专家示例中学习到回报函数作为深度强化学习初始数据的策略函数，训练时，智能体分别与通信设备计算卸载环境进行状态、动作和奖励的交互训练，计算优化各自的策略函数和值函数，使策略表现更加准确；

回报函数中的参数为θ。策略π的值函数表示为

其中，步骤C具体包括：

C2，设置动作a_t，智能体将会对如何为N个电力设备是在本地计算还是在移动边缘服务器计算,执行计算任务的多少，设置动作空间为a_t＝{a₁(t),a₂(t),…a_N(t),b₁(t),b₂(t),…b_N(t)}。

C3，设置奖励r，指资源调度系统采取深度强化学习算法下发的动作后获得的回报，为降低复杂度，本发明只考虑计算和传输任务传输时延，以及过程中所消耗的能耗，将其可表示为线性组合的方法r_t＝-(ρ_cpt_cp+ρ_caE_cP)，其中代表电力通信设备在进行计算卸载时的总成本消耗，其中c_cp为总的时间成本，E_cp为总的能耗成本，r越小表示资源利用率越高，时延越小，能耗越小，代表资源调度效果越好，训练模型获得奖励越高。

其中，步骤D具体包括：

A(s,t)＝R_t++γR_t+1+...γ^n-1R_t+n-1+γⁿV(s′)-V(s)

D2，通过更新策略梯度函数，使总回报期望上升，寻找最优策略。策略梯度函数为：

策略参数梯度下降更新函数为：

其中，步骤E具体包括：

E4，根据奖励回馈，调整资源分配动作，累计n步梯度更新；

E5，异步更新全局网络参数θ←dθ、θ_v←dθ_v；

E7，获得最优资源分配策略。