CN114626306B - 一种园区分布式能源调控信息新鲜度保障方法及系统 - Google Patents

一种园区分布式能源调控信息新鲜度保障方法及系统 Download PDF

Info

Publication number
CN114626306B
CN114626306B CN202210287027.8A CN202210287027A CN114626306B CN 114626306 B CN114626306 B CN 114626306B CN 202210287027 A CN202210287027 A CN 202210287027A CN 114626306 B CN114626306 B CN 114626306B
Authority
CN
China
Prior art keywords
terminal
regulation
freshness
model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210287027.8A
Other languages
English (en)
Other versions
CN114626306A (zh
Inventor
廖海君
周振宇
王雅倩
卢文冰
杨阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuaidian Technology Co ltd
North China Electric Power University
Original Assignee
Beijing Kuaidian Technology Co ltd
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuaidian Technology Co ltd, North China Electric Power University filed Critical Beijing Kuaidian Technology Co ltd
Priority to CN202210287027.8A priority Critical patent/CN114626306B/zh
Publication of CN114626306A publication Critical patent/CN114626306A/zh
Application granted granted Critical
Publication of CN114626306B publication Critical patent/CN114626306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/04Power grid distribution networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种园区分布式能源调控信息新鲜度保障方法及系统,从下至上包括:数据层通过在电气设备上部署物联终端,为园区分布式能源调控决策模型训练提供样本数据和本地模型;网络层包含多种通信媒介,为数据层和控制层的交互提供通道;控制层,通过调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度;业务层,包括调控业务。步骤包括:园区分布式能源调控决策模型训练;对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模;基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法IDEAL设计。能够在降低全局损失的同时,降低等待时延,保障信息新鲜度。

Description

一种园区分布式能源调控信息新鲜度保障方法及系统
技术领域
本发明提供一种园区分布式能源调控信息新鲜度保障方法及系统,属于电力系统技术领域。
背景技术
随着整县光伏的大力发展,以及新型电力系统的建设,分布式能源迎来爆发式增长。然而,由于光伏等分布式能源具有间歇性、随机性、波动性等特点,高比例分布式能源的并网会对电力系统的潮流分布、电能质量、网络损耗及调节能力造成巨大的影响。因此,需要根据负荷动态调控分布式能源,从而提高新型电力系统的稳定性,实现有功/无功功率的平衡,使光伏等分布式能源得到更好的消纳,避免因消纳困难而出现弃光等现象。园区分布式能源调控需要通过海量信息来构建并训练负荷需求、光伏出力、气象信息与调控策略之间的模型。信息年龄是衡量信息新鲜度的有效指标,表示了信息自产生以来到用于调控模型训练所经历的时延。能源调控信息的新鲜度对模型训练的精度具有重要的影响。信息年龄较大时,信息的新鲜度、时效性较差,会导致训练模型损失函数大,即模型输出与真实输出之间存在较大偏差,从而降低分布式能源调控的可靠性、经济性、准确性。
电力至简物联网具有控制-数据解耦、多模态通信、跨域资源协同等优点,为分布式能源调控模型训练所需要数据的采集和传输提供强有力的通信网络支撑。然而,面向分布式能源调控的电力至简物联网还需要解决如下技术挑战。
第一,模型训练与数据传输的耦合导致模型训练过程中需要将大量原始数据上传至中心训练节点,造成网络拥塞、通信资源浪费、以及本地数据隐私泄露。
第二,通信、计算、存储等跨域资源的优化与模型训练的适配性差,导致模型损失函数大,降低分布式能源调控的准确性与可靠性。而跨域资源协同优化涉及大维优化空间,难以获得精确的概率统计模型与闭式解。
第三,调控现场中存在电力线载波(PLC,power line communication)、WLAN、5G等多模态异构网络,终端计算资源与多模态信道质量差异性导致信息年龄增大,难以保障分布式能源调控信息新鲜度长期约束。
因此,迫切需要设计一种园区分布式能源调控信息新鲜度保障方法及系统,能够在长期调控信息新鲜度约束下实现分布式能源调控模型损失函数最小化,解决园区跨域资源优化与模型训练适配性差、调控信息新鲜度难以保障等问题,保障分布式能源调控的可靠性与经济性。
发明内容
针对如何避免园区分布式能源调控大规模数据交互导致的通信资源浪费、网络拥塞和数据隐私泄露问题,本发明建立基于联邦学习的半分布式调控模型训练架构,通过数据层本地模型训练与控制层全局模型训练,实现决策优化与原始数据传输解耦,避免大规模数据交互导致的通信资源浪费与网络拥塞。
针对如何解决通信、计算、存储等跨域资源的优化与分布式能源调控决策模型损失函数最小化之间适配性差的问题。本发明利用伸缩和与李雅普诺夫优化对长期调控模型损失函数最小化问题进行迭代间解耦,转化为短期马尔科夫决策过程优化问题,并采用深度Q网络(DQN,deep Q network)提高高维优化空间下状态-动作价值拟合精度,学习信道分配与批量规模联合优化策略实现通信与计算资源分配协同,利用更多样本训练全局模型,最小化分布式能源调控决策模型损失函数,保障分布式能源调控的准确性与可靠性。特别地,控制器比较Q值解决多模态信道分配冲突,将信道分配给能获得最大状态-动作价值的终端。
针对如何解决时隙间跨域资源分配策略的耦合与调控信息新鲜度长期保障问题。本发明具备调控信息新鲜度感知能力,利用赤字虚拟队列演进感知每个时隙调控信息新鲜度与规定约束的偏差,动态调整多模态信道分配与批量规模策略,减小信息年龄,实现调控信息新鲜度长期保障,例如,针对由于某一终端计算性能较差所引起的其它终端信息年龄增大、信息新鲜度低的问题,通过为这些被影响的终端增加批量规模并为其分配信道质量更好信道,消除等待时延,提高全局模型信息新鲜度。
具有的技术方案为:
园区分布式能源调控信息新鲜度保障系统从下至上包括数据层、网络层、控制层和业务层;其中,数据层,通过在电气设备上部署物联终端,为园区分布式能源调控决策模型训练提供样本数据和本地模型;
网络层,包含多种通信媒介,为数据层和控制层的交互提供通道;
控制层,通过调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性;
业务层,包括调控业务。
所述的调控业务,包括储能调控、分布式能源出力预测、柔性负荷调控、分布式光伏调控。
园区分布式能源调控信息新鲜度保障方法,利用上述园区分布式能源调控信息新鲜度保障系统,步骤包括:
S1园区分布式能源调控决策模型训练;
S2对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模;
S3基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法IDEAL设计;
其中,调控信息新鲜度问题建模为通过优化分布式能源调控决策模型训练过程中的批量规模、多模态信道选择从而在保障调控信息新鲜度的情况下最小化能源调控决策模型的损失函数。所提出的IDEAL算法承载于园区分布式能源调控信息新鲜度保障系统控制层的控制器中。控制器通过在分布式能源调控决策模型训练中执行该算法动态优化批量规模和多模态信道选择,能够实现调控信息新鲜度长期保障。
具体的:
S1.园区分布式能源调控决策模型训练
采用联邦学习架构迭代训练园区分布式能源调控决策模型,假设共需要T次迭代,集合表示为T={1,…,t,…,T}。每次迭代包括四个步骤,具体介绍如下:
1)全局模型下发:控制器通过融合AC/DC PLC、WLAN、5G的多模态通信网络将全局模型下发至终端。
2)本地模型训练:各终端基于本地数据集执行本地模型训练。
3)本地模型上传:各终端通过多模态通信网络将训练后的本地模型上传到控制器。
4)全局模型训练:控制器在收到所有终端上传的本地模型后,基于加权聚合训练全局模型,为精准分布式能源调控优化提供支撑。
具体的,本地模型训练:
假设存在N个物联终端,集合表示为N={1,…,n,…N}。第t次迭代中,终端n首先用第t-1次迭代后的全局模型ωt-1更新本地模型ωn,t-1,即ωn,t-1=ωt-1。随后,终端n利用本地数据集Dn的部分样本训练本地模型。定义终端n在第t次迭代中用于本地模型训练的样本数量为批量规模βn,t,采用损失函数来量化模型的真实输出与目标输出之间的偏差。定义终端n在第t次迭代的本地损失函数为本地样本的平均损失
Figure BDA0003558664750000031
其中,样本损失函数f(ωn,t-1,xn,m)量化了本地模型ωn,t-1在本地数据集Dn中第m个样本的输出与最优输出之间的性能差异。Fnn,t-1n,t)反映了本地模型ωn,t-1的精度,可用于本地模型更新。基于梯度下降法,终端n的本地模型更新为
Figure BDA0003558664750000032
其中,γ>0为学习步长,
Figure BDA0003558664750000033
为损失函数Fnn,t-1n,t)关于本地模型ωn,t-1的梯度。
定义终端n在第t次迭代的可用计算资源为fn,t,则本地模型训练的时延与能耗为
Figure BDA0003558664750000041
Figure BDA0003558664750000042
其中,en为能耗系数(Watt·s3/cycle3),ξn为训练单个样本所需要的CPU周期数(cycles/样本)。
本地模型上传:
假设存在J个多模态信道,包括J1个5G信道,J2个WLAN信道和J3个PLC信道,即J=J1+J2+J3。信道集合表示为θ={1,…,J1,…,J1+J2,…,J},其中j=1,…,J1为5G信道,j=J1+1,…,J1+J2为WLAN信道,j=J1+J2+1,…,J为PLC信道。定义信道分配变量为αn,j,t∈{0,1}。其中,αn,j,t=1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型,否则αn,j,t=0。在第t次迭代,终端n通过信道j上传模型的传输速率为
Figure BDA0003558664750000043
其中,Bn,j为信道带宽,
Figure BDA0003558664750000044
为信道增益,
Figure BDA0003558664750000045
为上行传输功率,
Figure BDA0003558664750000046
为电气设备运行的电磁干扰功率,
Figure BDA0003558664750000047
为噪声功率。
定义|ωn,t|为本地模型ωn,t的大小(bits),终端n上传本地模型的时延和能耗为
Figure BDA0003558664750000048
Figure BDA0003558664750000049
终端n在第t次迭代的总能耗为本地模型训练与上传的能耗之和,表示为
Figure BDA00035586647500000410
在第t次迭代中,控制器接收到终端n的本地模型所经历的时延为
Figure BDA00035586647500000411
全局模型训练:
当控制器收到N个终端的本地模型后,基于本地模型加权聚合训练全局模型,表示为
Figure BDA00035586647500000412
其中,
Figure BDA00035586647500000413
表示终端n的本地模型权重,定义为其批量规模与N个终端批量规模之和的比值。
采用全局损失函数来量化全局模型真实输出与目标输出之间的差异,定义为N个终端本地损失函数的加权和,表示为
Figure BDA0003558664750000051
本地训练、本地模型上传、全局模型聚合需要满足调控信息新鲜度的约束。
调控信息新鲜度是一种信息时效性度量指标,对分布式能源调控的准确性与实时性具有重要影响。调控模型训练时采用的信息新鲜度越高,所生成的调控策略与最优策略之间的性能差距越小。由于控制器在收到所有终端本地模型后才能开始全局模型训练,调控信息新鲜度与控制器接受到各个终端本地模型所经历的时延密切相关。
调控信息新鲜度约束模型的具体描述如下:
定义终端n在第t次迭代训练得到的本地模型信息年龄(AoI,age ofinformation)为该模型离开终端n到参加全局模型训练的时延,主要包括传输时延
Figure BDA0003558664750000052
和等待时延
Figure BDA0003558664750000053
表示为
Figure BDA0003558664750000054
终端n的本地模型等待时延
Figure BDA0003558664750000055
取决于控制器收到最后一个终端本地模型所经历时延,表示为
Figure BDA0003558664750000056
定义第t次迭代中终端n的调控信息新鲜度为信息年龄的倒数,表示为
Figure BDA0003558664750000057
通过对信息年龄最大的模型进行约束,保障调控信息新鲜度。定义所有终端调控信息新鲜度的集合为ht={h1,t,…,hn,t,…,hN,t},T次迭代调控信息新鲜度长期约束模型可构建为
Figure BDA0003558664750000058
其中,hmin为信息新鲜度约束阈值。
S2.针对多模态信道分配优化与批量规模优化的调控信息新鲜度保障问题建模
本发明旨在解决分布式能源调控决策模型损失函数最小化问题,其优化目标为在保障调控信息新鲜度等长期约束的同时,通过电力至简物联网通信与计算资源的协同优化,最小化T次迭代后调控模型的全局损失函数F(ωT)。定义多模态信道分配优化变量的集合为αn,t={αn,1,t,…,αn,j,t,…,αn,J,t},批量规模优化变量的集合为βn,t={1,2,…,Dn},优化问题构建为
Figure BDA0003558664750000061
其中,C1表示每个信道只能分配给一个终端;C2表示每个终端只能被分配一个信道;C3表示终端本地模型训练批量规模约束,其中|Δn|表示终端n本地数据集Dn的大小;C4为终端n的能耗长期约束,其中En,max为终端n的长期能量预算;C5为T次迭代调控信息新鲜度长期约束模型;C6表示终端传输功率约束,其中PPLC、PWLAN和P5G分别表示PLC、WLAN和5G信道传输功率。
由于每次迭代的优化策略不仅与T次迭代后的全局损失函数F(ωT)耦合,而且与信息新鲜度等长期约束耦合,导致优化问题P1难以直接求解,需要进行迭代间优化问题解耦;
针对第一种耦合,基于伸缩和定理将F(ωT)解耦为
Figure BDA0003558664750000062
其中,F(ωt-1)是第t-1次迭代后的全局损失函数,在第t次迭代优化时是已知参量。由上式可知,F(ωT)只与第t次迭代的全局损失函数F(ωt)相关,即将F(ωT)的优化转化为对第t次迭代的损失函数F(ωt)优化。
针对第二种耦合,基于虚拟队列理论,分别构造对应于约束C4和C5的终端能耗赤字虚拟队列Gn(t)与调控信息新鲜度赤字虚拟队列H(t),其队列积压更新为
Figure BDA0003558664750000063
H(t+1)=max{H(t)-min{ht}+hmin,0} (19)
其中,Gn(t)表示第t次迭代后终端n的能耗与能量预算En,max/T之间的偏差,H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束hmin之间的偏差。
基于李雅普诺夫优化理论,计算李雅普诺夫漂移加惩罚并推导其上界,可将P1解耦为最小化各次迭代损失函数的短期优化问题,优化目标为最小化损失函数、调控信息新鲜度赤字与终端能耗赤字的加权和。第t次迭代的联合优化问题表示为
Figure BDA0003558664750000071
其中,VH和VG为对应于调控信息新鲜度赤字和终端能耗赤字的权重。
进一步将转化后的问题P2建模为MDP优化问题,其关键元素包括状态空间、动作空间与回报函数,具体介绍如下:
1)状态空间:定义终端能耗赤字集合为G(t)={G1(t),…,Gn(t),…,GN(t)},终端能量预算集合为Emax={E1,max,…E2,max,…,EN,max}。状态空间包含终端能耗赤字、调控信息新鲜度赤字、终端能量预算和调控信息新鲜度约束阈值等,表示为
Figure BDA0003558664750000072
2)动作空间:动作空间定义为At={A1,t,…,An,t,…,AN,t},其中An,t为终端n对应的动作空间,表示为αn,t和βn,t的笛卡尔积,即
Figure BDA0003558664750000073
3)回报函数:回报函数定义为P2的优化目标,即
Figure BDA0003558664750000074
S3.基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法设计
该算法应用于控制层中,用于协调控制园区各终端参与分布式能源调控决策模型训练。其核心思想是利用深度Q网络量化与拟合高维状态空间下的状态-动作价值,即表征动作累积奖励值的Q值,并以此为依据优化信道分配与批量规模决策。
IDEAL算法结构,包括主网络、目标网络、经验池、以多模态信道分配冲突解决模块、调控信息新鲜度赤字更新模块。
IDEAL算法的执行主体为控制器。针对每个终端n,控制器构造了两个DQN,分别为用于优化决策的主网络
Figure BDA0003558664750000075
和用于辅助主网络训练的目标网络
Figure BDA0003558664750000076
其中,目标网络与主网络具有相同神经网络结构,通过采用更长的目标网络更新周期,使主网络在一段时间内的目标值保持相对固定,提升学习稳定性。控制器构造经验池用于存储经验数据。在此基础上,IDEAL采用经验回放机制,通过周期性随机采样部分经验数据训练DQN;
一次调控决策模型训练迭代可分为以下三个步骤:首先,控制器基于主网络估计的Q值优化信道分配和批量规模决策,并通过比较Q值解决多模态信道分配冲突,其核心思想是将信道分配给能获得最大状态-动作价值的终端。其次,控制器下发信道分配和批量规模决策,所有终端执行本地模型训练和模型上传,并将能耗信息反馈至控制器。最后,基于终端上传的信息,控制器更新调控信息新鲜度赤字、终端能耗赤字,计算回报函数,更新经验池,并转移至下一状态。控制器计算DQN损失函数,以此为依据更新主网络参数,并周期性更新目标网络参数。
IDEAL算法执行流程如算法,包括三个阶段,分别为初始化、动作选择及多模态信道分配冲突解决以及学习。
1)初始化阶段:初始化Gn(t)=0,H(t)=0,αn,j,t=0,βn,t=0,
Figure BDA0003558664750000081
定义未被分配信道的终端集合为Nt,并初始化Nt=N。定义终端n∈Nt的可分配信道集合为θn,t,并初始化θn,t=θ。
2)动作选择及多模态信道分配冲突解决阶段:首先,控制器基于ε-贪婪算法为每个终端选择动作,以终端n为例,控制器基于终端n主网络
Figure BDA0003558664750000082
估计的Q值
Figure BDA0003558664750000083
以概率ε随机选择动作,以概率1-ε选择Q值最大的动作
Figure BDA0003558664750000084
其次,当存在信道分配冲突时,同时为终端n和m分配信道j且
Figure BDA0003558664750000085
控制器通过比较终端n和m的Q值,将信道j分配给Q值较大的终端n并拒绝终端m。随后,控制器将终端n移出未被分配信道的终端集合,即Nt=Nt\n,并设置被拒绝终端m的Q值为
Figure BDA0003558664750000086
其中am,t为终端m动作空间Am,t中对应于信道j的动作集合,表示为am,t={Am,t(j,1),Am,t(j,2),…,Am,t(j,|Δn|)}。基于更新的Q值,重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道。
最后,控制器下发信道分配和批量规模决策,终端n∈N按照决策执行本地模型训练和本地模型上传,并将能耗信息En,t上传至控制器。
3)学习阶段:在学习阶段,控制器通过计算终端执行动作后的回报函数来更新DQN网络参数,以提高DQN对状态-动作价值的拟合精度,使DQN输出最佳策略,实现信道分配和批量规模的优化,提高全局模型的精度,保障调控信息新鲜度,降低终端能耗。
首先,基于终端上传的能耗信息,控制器根据(18)更新终端能耗赤字Gn(t+1)。同时,控制器根据所收到本地模型时间戳、模型下发时间以及公式(9)、(13)、(14)计算获得第t次迭代的信息新鲜度,并根据(19)更新调控信息新鲜度赤字H(t+1)。控制器根据(20)计算回报函数
Figure BDA0003558664750000087
由(20)可以看出,当调控信息新鲜度与规定约束偏离严重时,H(t)逐渐增加,导致回报函数值降低,迫使控制器调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性,从而实现调控信息新鲜度感知,提高控制器分布式能源调控决策的准确性和可靠性。
其次,控制器生成一个样本
Figure BDA0003558664750000091
用于更新回放经验池Γn,t,并转移至状态St+1。从回放经验池中随机抽取部分样本构成
Figure BDA0003558664750000092
Figure BDA0003558664750000093
中的样本数量。DQN损失函数可计算为
Figure BDA0003558664750000094
其中
Figure BDA0003558664750000095
其中,λ为折扣因子。
最后,基于υn,更新主网络参数
Figure BDA0003558664750000096
如下
Figure BDA0003558664750000097
其中,κ为学习步长。每T0次迭代更新目标网络为
Figure BDA0003558664750000098
本发明将调控信息新鲜度长期约束纳入园区分布式能源调控过程中,通过建立园区分布式能源调控决策模型,能够在最小化全局损失的同时,降低信息年龄,保障调控信息新鲜度。此外本发明可运用于整县光伏、新型电力系统分布式能源并网工程中,为分布式能源调控模型训练提供信息新鲜度保障。
(1)提出园区分布式能源调控信息新鲜度保障系统,通过将调控信息新鲜度长期约束纳入园区分布式能源调控过程中,能够在降低全局损失的同时,降低等待时延,保障信息新鲜度。
(2)提出园区分布式能源调控信息新鲜度保障方法,通过建立基于联邦学习的半分布式调控模型训练架构,进行数据层本地模型训练与控制层全局模型训练,实现决策优化与原始数据传输解耦,避免大规模数据交互导致的通信资源浪费与网络拥塞。
(3)提出园区分布式能源调控信息新鲜度保障方法,针对多模态信道分配优化与批量规模优化建立调控新鲜度保障问题模型,利用伸缩和与李雅普诺夫优化定理实现长期调控模型损失函数最小化问题迭代间解耦。
(4)提出园区分布式能源调控信息新鲜度保障方法,通过提出基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法(IDEAL,information freshnessaware-based communication-and-computation collaborative optimizationalgorithm for simplified Power Internet of Things),利用深度Q网络(DQN,deep Qnetwork)提高高维优化空间下状态-动作价值拟合精度,通过学习信道分配与批量规模联合优化策略实现通信与计算资源分配协同,基于终端Q值比较解决多模态信道竞争冲突。其中,IDEAL具备新鲜度感知能力,通过赤字虚拟队列演进感知每个时隙调控信息新鲜度与规定约束的偏差,并根据偏差动态调整信道分配与批量规模优化策略,降低调控信息年龄,实现调控信息新鲜度长期保障。
附图说明
图1为本发明的园区分布式能源调控信息新鲜度保障系统结构示意图;
图2(a)为本发明终端计算资源差异性与多模态信道差异性导致信息年龄大示意图;
图2(b)为本发明信道分配与批量规模协同优化减小信息年龄示意图;
图3为本发明IDEAL算法结构图;
图4为全局损失函数随迭代次数变化情况;
图5为平均调控信息新鲜度和平均批量规模对比;
图6为训练时延、传输时延、等待时延和批量规模随迭代次数变化情况;
图7为对比了不同算法的终端能耗与调控信息新鲜度分布情况;
图8为对比了平均调控信息新鲜度与平均信息年龄随调控信息新鲜度权重变化情况。
具体实施方式
结合附图说明本发明的具体技术方案。
整个技术方案包括园区分布式能源调控信息新鲜度保障系统和园区分布式能源调控信息新鲜度保障方法。
如图1所示,园区分布式能源调控信息新鲜度保障系统从下至上包括数据层、网络层、控制层和业务层。其中,数据层通过在分布式光伏、可控负荷、充电桩等电气设备上部署物联终端,为园区分布式能源调控决策模型训练提供样本数据和本地模型。网络层包含PLC、WLAN和5G等多种通信媒介,为数据层和控制层的交互提供通道。控制层通过调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性,从而实现调控信息新鲜度感知,提高控制器分布式能源调控决策的准确性和可靠性。业务层包括储能调控、分布式能源出力预测、柔性负荷调控、分布式光伏调控等调控业务。
本系统基于电力至简物联网架构,采用分布式人工智能、控制-数据解耦、统一信令交互、跨域资源融合等技术,实现多模态物联终端异构融合,支撑分布式能源调控决策模型训练。通过将调控信息新鲜度长期约束纳入园区分布式能源调控过程中,能够在降低全局损失的同时,降低等待时延,保障信息新鲜度。
园区分布式能源调控信息新鲜度保障方法,利用上述园区分布式能源调控信息新鲜度保障系统,步骤包括:S1园区分布式能源调控决策模型训练,S2对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模,S3基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法(IDEAL,information freshness aware-basedcommunication-and-computation collaborative optimization algorithm forsimplified Power Internet of Things)设计。其中,调控信息新鲜度问题建模为通过优化分布式能源调控决策模型训练过程中的批量规模、多模态信道选择从而在保障调控信息新鲜度的情况下最小化能源调控决策模型的损失函数。所提出的IDEAL算法承载于园区分布式能源调控信息新鲜度保障系统控制层的控制器中。控制器通过在分布式能源调控决策模型训练中执行该算法动态优化批量规模和多模态信道选择,能够实现调控信息新鲜度长期保障。
S1.园区分布式能源调控决策模型训练
本发明采用联邦学习架构迭代训练园区分布式能源调控决策模型,假设共需要T次迭代,集合表示为T={1,…,t,…,T}。每次迭代包括四个步骤,具体介绍如下:
1)全局模型下发:控制器通过融合AC/DC PLC、WLAN、5G的多模态通信网络将全局模型下发至终端。
2)本地模型训练:各终端基于本地数据集执行本地模型训练。
3)本地模型上传:各终端通过多模态通信网络将训练后的本地模型上传到控制器。
4)全局模型训练:控制器在收到所有终端上传的本地模型后,基于加权聚合训练全局模型,为精准分布式能源调控优化提供支撑。
由于下行传输能力强,全局模型下发时延可忽略不计。因此,本发明重点考虑本地模型训练、本地模型上传、全局模型聚合三个步骤。
(1)本地模型训练
假设存在N个物联终端,集合表示为N={1,…,n,…N}。第t次迭代中,终端n首先用第t-1次迭代后的全局模型ωt-1更新本地模型ωn,t-1,即ωn,t-1=ωt-1。随后,终端n利用本地数据集Dn的部分样本训练本地模型。定义终端n在第t次迭代中用于本地模型训练的样本数量为批量规模βn,t,采用损失函数来量化模型的真实输出与目标输出之间的偏差。定义终端n在第t次迭代的本地损失函数为本地样本的平均损失,即
Figure BDA0003558664750000111
其中,样本损失函数f(ωn,t-1,xn,m)量化了本地模型ωn,t-1在本地数据集Dn中第m个样本的输出与最优输出之间的性能差异。Fnn,t-1n,t)反映了本地模型ωn,t-1的精度,可用于本地模型更新。基于梯度下降法,终端n的本地模型更新为
Figure BDA0003558664750000112
其中,γ>0为学习步长,
Figure BDA0003558664750000113
为损失函数Fnn,t-1n,t)关于本地模型ωn,t-1的梯度。
定义终端n在第t次迭代的可用计算资源为fn,t,则本地模型训练的时延与能耗为
Figure BDA0003558664750000121
Figure BDA0003558664750000122
其中,en为能耗系数(Watt·s3/cycle3),ξn为训练单个样本所需要的CPU周期数(cycles/样本)。
(2)本地模型上传
假设存在J个多模态信道,包括J1个5G信道,J2个WLAN信道和J3个PLC信道,即J=J1+J2+J3。信道集合表示为θ={1,…,J1,…,J1+J2,…,J},其中j=1,…,J1为5G信道,j=J1+1,…,J1+J2为WLAN信道,j=J1+J2+1,…,J为PLC信道。定义信道分配变量为αn,j,t∈{0,1}。其中,αn,j,t=1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型,否则αn,j,t=0。在第t次迭代,终端n通过信道j上传模型的传输速率为
Figure BDA0003558664750000123
其中,Bn,j为信道带宽,
Figure BDA0003558664750000124
为信道增益,
Figure BDA0003558664750000125
为上行传输功率,
Figure BDA0003558664750000126
为电气设备运行的电磁干扰功率,
Figure BDA0003558664750000127
为噪声功率。
定义|ωn,t|为本地模型ωn,t的大小(bits),终端n上传本地模型的时延和能耗为
Figure BDA0003558664750000128
Figure BDA0003558664750000129
终端n在第t次迭代的总能耗为本地模型训练与上传的能耗之和,表示为
Figure BDA00035586647500001210
在第t次迭代中,控制器接收到终端n的本地模型所经历的时延为
Figure BDA00035586647500001211
(3)全局模型训练
当控制器收到N个终端的本地模型后,基于本地模型加权聚合训练全局模型,表示为
Figure BDA00035586647500001212
其中,
Figure BDA0003558664750000131
表示终端n的本地模型权重,定义为其批量规模与N个终端批量规模之和的比值。
采用全局损失函数来量化全局模型真实输出与目标输出之间的差异,定义为N个终端本地损失函数的加权和,即
Figure BDA0003558664750000132
本地训练、本地模型上传、全局模型聚合需要满足调控信息新鲜度的约束。
调控信息新鲜度是一种信息时效性度量指标,对分布式能源调控的准确性与实时性具有重要影响。调控模型训练时采用的信息新鲜度越高,所生成的调控策略与最优策略之间的性能差距越小。由于控制器在收到所有终端本地模型后才能开始全局模型训练,调控信息新鲜度与控制器接受到各个终端本地模型所经历的时延密切相关。
本地训练模型信息年龄示意图如图2(a)和图2(b)所示,调控信息新鲜度约束模型的具体描述如下:
定义终端n在第t次迭代训练得到的本地模型信息年龄(AoI,age ofinformation)为该模型离开终端n到参加全局模型训练的时延,主要包括传输时延
Figure BDA0003558664750000133
和等待时延
Figure BDA0003558664750000134
表示为
Figure BDA0003558664750000135
如图2(a)所示,由于终端可用计算资源和通信媒介的差异性,先到达的模型需等待控制器收到所有终端的本地模型后才能参加全局模型训练,导致调控信息年龄增加与信息新鲜度下降。因此,终端n的本地模型等待时延
Figure BDA0003558664750000136
取决于控制器收到最后一个终端本地模型所经历时延,即
Figure BDA0003558664750000137
定义第t次迭代中终端n的调控信息新鲜度为信息年龄的倒数,即
Figure BDA0003558664750000138
通过对信息年龄最大的模型进行约束,保障调控信息新鲜度。定义所有终端调控信息新鲜度的集合为ht={h1,t,…,hn,t,…,hN,t},T次迭代调控信息新鲜度长期约束模型可构建为
Figure BDA0003558664750000139
其中,hmin为信息新鲜度约束阈值。
对比图2(a)与图2(b)可知,动态调整多模态信道分配与批量规模策略能够减小信息年龄、提高信息新鲜度。如图2(a)所示,由于终端1计算性能较差,终端2和3上传的本地模型需要等待终端1完成本地模型上传后才能被聚合,导致终端2和3信息年龄增大,信息新鲜度低。如图2(b)所示,通过协同信道分配与批量规模,增加终端2和3的批量规模并为其分配信道质量更好的5G和WLAN信道,消除等待时延、提高全局模型信息新鲜度的同时能够利用更多样本训练全局模型、减小全局损失函数,保障了分布式能源调控的准确性与可靠性。
S2.针对多模态信道分配优化与批量规模优化的调控信息新鲜度保障问题建模
本发明旨在解决分布式能源调控决策模型损失函数最小化问题,其优化目标为在保障调控信息新鲜度等长期约束的同时,通过电力至简物联网通信与计算资源的协同优化,最小化T次迭代后调控模型的全局损失函数F(ωT)。定义多模态信道分配优化变量的集合为αn,t={αn,1,t,…,αn,j,t,…,αn,J,t},批量规模优化变量的集合为βn,t={1,2,…,Dn},优化问题构建为
Figure BDA0003558664750000141
其中,C1表示每个信道只能分配给一个终端;C2表示每个终端只能被分配一个信道;C3表示终端本地模型训练批量规模约束,其中|Δn|表示终端n本地数据集Dn的大小;C4为终端n的能耗长期约束,其中En,max为终端n的长期能量预算;C5为T次迭代调控信息新鲜度长期约束模型;C6表示终端传输功率约束,其中PPLC、PWLAN和P5G分别表示PLC、WLAN和5G信道传输功率。
由于每次迭代的优化策略不仅与T次迭代后的全局损失函数F(ωT)耦合,而且与信息新鲜度等长期约束耦合,导致优化问题P1难以直接求解,需要进行迭代间优化问题解耦;
针对第一种耦合,基于伸缩和定理将F(ωT)解耦为
Figure BDA0003558664750000151
其中,F(ωt-1)是第t-1次迭代后的全局损失函数,在第t次迭代优化时是已知参量。由上式可知,F(ωT)只与第t次迭代的全局损失函数F(ωt)相关,即将F(ωT)的优化转化为对第t次迭代的损失函数F(ωt)优化。
针对第二种耦合,基于虚拟队列理论,分别构造对应于约束C4和C5的终端能耗赤字虚拟队列Gn(t)与调控信息新鲜度赤字虚拟队列H(t),其队列积压更新为
Figure BDA0003558664750000152
H(t+1)=max{H(t)-min{ht}+hmin,0} (19)
其中,Gn(t)表示第t次迭代后终端n的能耗与能量预算En,max/T之间的偏差,H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束hmin之间的偏差。
基于李雅普诺夫优化理论,计算李雅普诺夫漂移加惩罚并推导其上界,可将P1解耦为最小化各次迭代损失函数的短期优化问题,优化目标为最小化损失函数、调控信息新鲜度赤字与终端能耗赤字的加权和。第t次迭代的联合优化问题表示为
Figure BDA0003558664750000153
其中,VH和VG为对应于调控信息新鲜度赤字和终端能耗赤字的权重。
进一步将转化后的问题P2建模为MDP优化问题,其关键元素包括状态空间、动作空间与回报函数,具体介绍如下:
1)状态空间:定义终端能耗赤字集合为G(t)={G1(t),…,Gn(t),…,GN(t)},终端能量预算集合为Emax={E1,max,…E2,max,…,EN,max}。状态空间包含终端能耗赤字、调控信息新鲜度赤字、终端能量预算和调控信息新鲜度约束阈值等,表示为
Figure BDA0003558664750000154
2)动作空间:动作空间定义为At={A1,t,…,An,t,…,AN,t},其中An,t为终端n对应的动作空间,表示为αn,t和βn,t的笛卡尔积,即
Figure BDA0003558664750000155
3)回报函数:回报函数定义为P2的优化目标,即
Figure BDA0003558664750000156
S3.基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法设计
本发明提出一种园区分布式能源调控新鲜度保障方法及系统,并提出基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法(IDEAL,informationfreshness aware-based communication-and-computation collaborativeoptimization algorithm for simplified Power Internet of Things)。该算法应用于控制层中,用于协调控制园区各终端参与分布式能源调控决策模型训练。其核心思想是利用深度Q网络量化与拟合高维状态空间下的状态-动作价值,即表征动作累积奖励值的Q值,并以此为依据优化信道分配与批量规模决策。
IDEAL算法结构图如图3所示,包括主网络、目标网络、经验池、以多模态信道分配冲突解决模块、调控信息新鲜度赤字更新模块等。
IDEAL算法的执行主体为控制器。针对每个终端,例如终端n,控制器构造了两个DQN,分别为用于优化决策的主网络
Figure BDA0003558664750000161
和用于辅助主网络训练的目标网络
Figure BDA0003558664750000162
其中,目标网络与主网络具有相同神经网络结构,通过采用更长的目标网络更新周期,使主网络在一段时间内的目标值保持相对固定,提升学习稳定性。控制器构造经验池用于存储状态、动作、成本等经验数据。在此基础上,IDEAL采用经验回放机制,通过周期性随机采样部分经验数据训练DQN,克服经验数据的相关性与非平稳分布问题,提高优化性能。
一次调控决策模型训练迭代可分为以下三个步骤:首先,控制器基于主网络估计的Q值优化信道分配和批量规模决策,并通过比较Q值解决多模态信道分配冲突,其核心思想是将信道分配给能获得最大状态-动作价值的终端。其次,控制器下发信道分配和批量规模决策,所有终端执行本地模型训练和模型上传,并将能耗信息反馈至控制器。最后,基于终端上传的信息,控制器更新调控信息新鲜度赤字、终端能耗赤字,计算回报函数,更新经验池,并转移至下一状态。控制器计算DQN损失函数,以此为依据更新主网络参数,并周期性更新目标网络参数。
IDEAL算法执行流程如算法1所示,包括三个阶段,分别为初始化(1-3行)、动作选择及多模态信道分配冲突解决(5-16行)以及学习(17-25行)。
1)初始化阶段:初始化Gn(t)=0,H(t)=0,αn,j,t=0,βn,t=0,
Figure BDA0003558664750000163
定义未被分配信道的终端集合为Nt,并初始化Nt=N。定义终端n∈Nt的可分配信道集合为θn,t,并初始化θn,t=θ。
2)动作选择及多模态信道分配冲突解决阶段:首先,控制器基于ε-贪婪算法为每个终端选择动作,以终端n为例,控制器基于终端n主网络
Figure BDA0003558664750000164
估计的Q值
Figure BDA0003558664750000165
以概率ε随机选择动作,以概率1-ε选择Q值最大的动作
Figure BDA0003558664750000166
其次,当存在信道分配冲突时,例如同时为终端n和m分配信道j且
Figure BDA0003558664750000171
控制器通过比较终端n和m的Q值,将信道j分配给Q值较大的终端n并拒绝终端m。随后,控制器将终端n移出未被分配信道的终端集合,即Nt=Nt\n,并设置被拒绝终端m的Q值为
Figure BDA0003558664750000172
其中am,t为终端m动作空间Am,t中对应于信道j的动作集合,表示为am,t={Am,t(j,1),Am,t(j,2),…,Am,t(j,|Δn|)}。基于更新的Q值,重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道。
最后,控制器下发信道分配和批量规模决策,终端n∈N按照决策执行本地模型训练和本地模型上传,并将能耗信息En,t上传至控制器。
3)学习阶段:在学习阶段,控制器通过计算终端执行动作后的回报函数来更新DQN网络参数,以提高DQN对状态-动作价值的拟合精度,使DQN输出最佳策略,实现信道分配和批量规模的优化,提高全局模型的精度,保障调控信息新鲜度,降低终端能耗。首先,基于终端上传的能耗信息,控制器根据(18)更新终端能耗赤字Gn(t+1)。同时,控制器根据所收到本地模型时间戳、模型下发时间以及公式(9)、(13)、(14)计算获得第t次迭代的信息新鲜度,并根据(19)更新调控信息新鲜度赤字H(t+1)。控制器根据(20)计算回报函数
Figure BDA0003558664750000173
由(20)可以看出,当调控信息新鲜度与规定约束偏离严重时,H(t)逐渐增加,导致回报函数值降低,迫使控制器调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性,从而实现调控信息新鲜度感知,提高控制器分布式能源调控决策的准确性和可靠性。
其次,控制器生成一个样本
Figure BDA0003558664750000174
用于更新回放经验池Γn,t,并转移至状态St+1。从回放经验池中随机抽取部分样本构成
Figure BDA0003558664750000175
Figure BDA0003558664750000176
中的样本数量。DQN损失函数可计算为
Figure BDA0003558664750000177
其中
Figure BDA0003558664750000178
其中,λ为折扣因子。
最后,基于υn,更新主网络参数
Figure BDA0003558664750000179
如下
Figure BDA00035586647500001710
其中,κ为学习步长。每T0次迭代更新目标网络为
Figure BDA00035586647500001711
算法1IDEAL算法
输入N,J,T,V,{En,max},{hmin}
输出αn,t,βn,t
1)阶段一:初始化
2)初始化Gn(t)=0,H(t)=0,αn,j,t=0,βn,t=0,
Figure BDA0003558664750000181
3)定义未分配信道的终端集合为Nt,并初始化Nt=N
4)for t=1,…,T
5)阶段二:动作选择及多模态信道分配冲突解决
6)for n=1,…,N
7)以概率ε随机选择动作,以概率1-ε选择Q值最大的动作
Figure BDA0003558664750000182
8)end for
9)ifαn,j,tm,j,t=1,
Figure BDA0003558664750000183
10)假设
Figure BDA0003558664750000184
Figure BDA0003558664750000185
11)控制器将信道j分配给Q值较大的终端n,并拒绝终端m
12)end if
13)更新Nt=Nt\n
14)设置被拒绝终端m的Q值为
Figure BDA0003558664750000186
15)基于更新的Q值,重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道
16)终端n∈N按照决策执行本地模型训练和本地模型上传,并将能耗信息En,t上传至控制器
17)阶段三:学习
18)控制器根据(18)和(19)更新终端能耗赤字Gn(t+1)和调控信息新鲜度赤字H(t+1),根据(20)计算回报函数
Figure BDA0003558664750000187
生成样本ηn,t并更新回放经验池Γn,t
19)转移至状态St+1
20)for n=1,…,N
21)控制器根据(21)计算损失函数υn,根据(23)更新主网络
Figure BDA0003558664750000188
22)if t mod T0=0
23)更新
Figure BDA0003558664750000189
24)end if
25)end for
26)end for
本发明对上述提出的IDEAL算法进行了仿真,并设置了两个对比算法进行性能的对比验证,对比算法设置如下:
对比算法1:基于联邦深度强化学习的低时延资源分配算法(FLRA,federatedDRLbased low-latencyresource allocation algorithm),该算法基于深度确定性策略梯度,通过优化批量规模与信道分配策略最小化联邦学习全局损失函数,该算法不具有能耗感知与调控信息新鲜度感知能力。
对比算法2:自适应联邦学习批量规模优化算法(AFLB,adaptive federatedlearning based batch size optimizationalgorithm),该算法基于近端策略优化,通过优化批量规模最小化全局损失函数,该算法无法实现信道分配优化,无法解决信道分配冲突,不具有调控信息新鲜度感知能力。
图4描述了全局损失函数随迭代次数的变化情况。随着迭代次数增加,全局损失函数先下降后稳定。在迭代次数为200时,相比于FLRA和AFLB,IDEAL的全局损失函数分别降低了63.29%和38.88%。IDEAL在保障终端能耗与调控信息新鲜度长期约束的前提下,能够最大化参与本地模型训练的批量规模,从而降低全局损失函数。相关仿真结果将在图5中进一步阐述。
图5对比了不同算法的平均调控信息新鲜度和平均批量规模。其中,平均调控信息新鲜度和平均批量规模分别定义为
Figure BDA0003558664750000191
Figure BDA0003558664750000192
与FLRA和AFLB相比,IDEAL的平均调控信息新鲜度分别提高了20.59%和57.69%,平均批量规模分别提高了70.37%和6.98%。针对计算能力较差的终端,IDEAL通过为其分配质量更好的信道,降低传输时延。针对等待时延较大的终端,IDEAL通过增加其本地训练的批量规模,降低等待时延,提高调控信息新鲜度。
图6描述了训练时延、传输时延、等待时延和平均批量规模随迭代次数的变化情况。经过200次迭代后,训练时延增加了23.08%,传输时延下降了52.50%,等待时延下降71.88%,总时延下降21.17%。IDEAL调整了训练时延与等待时延占比,即通过优化信道分配降低传输时延,通过增加批量规模增大训练时延,从而使等待时延与总时延显著下降。
图7对比了不同算法200次迭代终端能耗与调控信息新鲜度分布情况。由仿真结果可以看出,IDEAL具有最小终端能耗中位数与最高调控信息新鲜度中位数。与FLRA和AFLB相比,IDEAL的终端能耗波动范围分别降低了24.93%和16.38%,调控信息新鲜度波动范围分别降低了30.97%和39.61%。FLRA无法保障终端能耗与调控信息新鲜度长期约束,导致波动范围较大。结合图5,FLRA的批量规模较小,训练能耗较低,因此终端能耗性能优于AFLB。
图8描述了平均调控信息新鲜度和平均信息年龄随调控信息新鲜度权重VH的变化情况。随着VH增大,平均信息年龄逐渐减小,平均调控信息新鲜度逐渐增加,同时等待时延显著下降。当VH由5增加至12时,平均调控信息新鲜度提高了55.56%,平均信息年龄下降了35.61%,等待时延降低了67.05%。仿真结果表明,IDEAL主要通过减少等待时延,进而降低信息年龄,提高调控信息新鲜度。

Claims (8)

1.一种园区分布式能源调控信息新鲜度保障方法,利用一种园区分布式能源调控信息新鲜度保障系统,所述的一种园区分布式能源调控信息新鲜度保障系统,从下至上包括数据层、网络层、控制层和业务层;
其中,数据层,通过在电气设备上部署物联终端,为园区分布式能源调控决策模型训练提供样本数据和本地模型;
网络层,包含多种通信媒介,为数据层和控制层的交互提供通道;
控制层,通过调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性;
业务层,包括能源调控业务;
其特征在于,步骤包括:
S1园区分布式能源调控决策模型训练;
S2对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模;
S3基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法IDEAL设计;
其中,调控信息新鲜度问题建模为通过优化分布式能源调控决策模型训练过程中的批量规模、多模态信道选择从而在保障调控信息新鲜度的情况下最小化能源调控决策模型的损失函数;
所提出的IDEAL算法承载于园区分布式能源调控信息新鲜度保障系统控制层的控制器中;控制器通过在分布式能源调控决策模型训练中执行该IDEAL算法动态优化批量规模和多模态信道选择,能够实现调控信息新鲜度长期保障;
IDEAL算法结构,包括主网络、目标网络、经验池、以多模态信道分配冲突解决模块、调控信息新鲜度赤字更新模块;
IDEAL算法的执行主体为控制器;针对每个终端n,控制器构造了两个深度Q网络DQN,分别为用于优化决策的主网络
Figure FDA0003860262050000011
和用于辅助主网络训练的目标网络
Figure FDA0003860262050000012
其中,目标网络与主网络具有相同神经网络结构,通过采用更长的目标网络更新周期,使主网络在一段时间内的目标值保持相对固定,提升学习稳定性;控制器构造经验池用于存储经验数据;在此基础上,IDEAL采用经验回放机制,通过周期性随机采样部分经验数据训练DQN;
所述的IDEAL算法执行流程,包括三个阶段,分别为初始化、动作选择及多模态信道分配冲突解决以及学习;
1)初始化阶段:初始化Gn(t)=0,H(t)=0,αn,j,t=0,βn,t=0,
Figure FDA0003860262050000013
Gn(t)表示第t次迭代后终端n的能耗与能量预算En,max/T之间的偏差;
H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束hmin之间的偏差;
αn,j,t∈{0,1}为信道分配变量;其中,αn,j,t=1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型,否则αn,j,t=0;
βn,t为批量规模,即终端n在第t次迭代中用于本地模型训练的样本数量;
N个物联终端集合表示为
Figure FDA0003860262050000021
信道集合表示为
Figure FDA0003860262050000022
其中j=1,…,J1为5G信道,j=J1+1,…,J1+J2为WLAN信道,j=J1+J2+1,…,J为PLC信道;T次迭代,集合表示为
Figure FDA0003860262050000023
此处的意思是对于所有物联终端、信道以及迭代,将其能耗偏差Gn(t)、调控信息新鲜度偏差H(t)以及信道分配变量都初始化为0;
定义未被分配信道的终端集合为
Figure FDA0003860262050000024
并初始化
Figure FDA0003860262050000025
定义终端
Figure FDA0003860262050000026
的可分配信道集合为
Figure FDA0003860262050000027
并初始化
Figure FDA0003860262050000028
2)动作选择及多模态信道分配冲突解决阶段:
首先,控制器基于ε-贪婪算法为每个终端选择动作,以终端n为例,St为状态空间,An,t为执行动作空间,
Figure FDA0003860262050000029
为主网络参数,控制器基于终端n主网络参数
Figure FDA00038602620500000210
估计的Q值
Figure FDA00038602620500000211
反映了在状态空间St下执行动作空间An,t对应的价值,以概率ε随机选择动作,以概率1-ε选择Q值最大的动作
Figure FDA00038602620500000212
其次,当存在信道分配冲突时,同时为终端n和m分配信道j且
Figure FDA00038602620500000213
控制器通过比较终端n和m的Q值,将信道j分配给Q值较大的终端n并拒绝终端m;随后,控制器将终端n移出未被分配信道的终端集合,即
Figure FDA00038602620500000214
并设置被拒绝终端m的Q值为
Figure FDA00038602620500000215
其中am,t为终端m动作空间Am,t中对应于信道j的动作集合,表示为am,t={Am,t(j,1),Am,t(j,2),…,Am,t(j,|Δn|);其中|Δn|表示终端n本地数据集
Figure FDA00038602620500000216
的大小;基于更新的Q值,重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道;
最后,控制器下发信道分配和批量规模决策,终端
Figure FDA00038602620500000217
按照决策执行本地模型训练和本地模型上传,并将能耗信息En,t上传至控制器;
3)学习阶段:在学习阶段,控制器通过计算终端执行动作后的回报函数来更新DQN网络参数,以提高DQN对状态-动作价值的拟合精度,使DQN输出最佳策略,实现信道分配和批量规模的优化,提高全局模型的精度,保障调控信息新鲜度,降低终端能耗;
所述的学习阶段,包括以下步骤:首先,基于终端上传的能耗信息,控制器更新终端能耗赤字虚拟队列Gn(t+1);同时,控制器根据所收到本地模型时间戳、模型下发时间以及终端n的本地模型所经历的时延、最后一个终端本地模型所经历时延、本地模型信息年龄的倒数计算获得第t次迭代的信息新鲜度,并更新调控信息新鲜度赤字虚拟队列H(t+1);控制器计算回报函数
Figure FDA0003860262050000031
当调控信息新鲜度与规定约束偏离严重时,H(t)逐渐增加,导致回报函数值降低,迫使控制器调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性,从而实现调控信息新鲜度感知,提高控制器分布式能源调控决策的准确性和可靠性;
其次,控制器生成一个样本
Figure FDA0003860262050000032
用于更新回放经验池Γn,t,并转移至状态St+1;从回放经验池中随机抽取部分样本构成
Figure FDA0003860262050000033
Figure FDA0003860262050000034
中的样本数量;DQN损失函数计算为
Figure FDA0003860262050000035
其中
Figure FDA0003860262050000036
其中,λ为折扣因子;
最后,基于υn,更新主网络参数
Figure FDA0003860262050000037
如下
Figure FDA0003860262050000038
其中,κ为学习步长;每T0次迭代更新目标网络为
Figure FDA0003860262050000039
2.根据权利要求1所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,所述的调控业务,包括储能调控、分布式能源出力预测、柔性负荷调控、分布式光伏调控。
3.根据权利要求1所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,S1步骤中,采用联邦学习架构迭代训练园区分布式能源调控决策模型,假设共需要T次迭代,集合表示为
Figure FDA00038602620500000310
每次迭代包括四个步骤:
1)全局模型下发:控制器通过融合AC/DC PLC、WLAN、5G的多模态通信网络将全局模型下发至终端;
2)本地模型训练:各终端基于本地数据集执行本地模型训练;
3)本地模型上传:各终端通过多模态通信网络将训练后的本地模型上传到控制器;
4)全局模型训练:控制器在收到所有终端上传的本地模型后,基于加权聚合训练全局模型,为精准分布式能源调控优化提供支撑。
4.根据权利要求3所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,所述的本地模型训练,包括以下过程:
N个物联终端集合表示为
Figure FDA0003860262050000041
第t次迭代中,终端n首先用第t-1次迭代后的全局模型ωt-1更新本地模型ωn,t-1;随后,终端n利用本地数据集
Figure FDA0003860262050000042
的部分样本训练本地模型;定义终端n在第t次迭代中用于本地模型训练的样本数量为批量规模βn,t,采用损失函数来量化模型的真实输出与目标输出之间的偏差;定义终端n在第t次迭代的本地损失函数为本地样本的平均损失
Figure FDA0003860262050000043
其中,样本损失函数f(ωn,t-1,xn,m)量化了本地模型ωn,t-1在本地数据集
Figure FDA0003860262050000044
中第m个样本的输出与最优输出之间的性能差异;Fnn,t-1n,t)反映了本地模型ωn,t-1的精度,可用于本地模型更新;基于梯度下降法,终端n的本地模型更新为
Figure FDA0003860262050000045
其中,γ>0为学习步长,
Figure FDA0003860262050000046
为损失函数Fnn,t-1n,t)关于本地模型ωn,t-1的梯度;
定义终端n在第t次迭代的可用计算资源为fn,t,则本地模型训练的时延与能耗为
Figure FDA0003860262050000047
Figure FDA0003860262050000048
其中,en为能耗系数,Watt·s3/cycle3;ξn为训练单个样本所需要的CPU周期数,cycles/样本;
所述的本地模型上传,包括以下过程:
J个多模态信道包括J1个5G信道,J2个WLAN信道和J3个PLC信道,J=J1+J2+J3;信道集合表示为
Figure FDA0003860262050000049
其中j=1,…,J1为5G信道,j=J1+1,…,J1+J2为WLAN信道,j=J1+J2+1,…,J为PLC信道;定义信道分配变量为αn,j,t∈{0,1};其中,αn,j,t=1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型,否则αn,j,t=0;在第t次迭代,终端n通过信道j上传模型的传输速率为
Figure FDA00038602620500000410
其中,Bn,j为信道带宽,
Figure FDA00038602620500000411
为信道增益,
Figure FDA00038602620500000412
为上行传输功率,
Figure FDA00038602620500000413
为电气设备运行的电磁干扰功率,
Figure FDA00038602620500000414
为噪声功率;
定义|ωn,t|为本地模型ωn,t的大小(bits),终端n上传本地模型的时延和能耗为
Figure FDA0003860262050000051
Figure FDA0003860262050000052
终端n在第t次迭代的总能耗为本地模型训练与上传的能耗之和,表示为
Figure FDA0003860262050000053
在第t次迭代中,控制器接收到终端n的本地模型所经历的时延为
Figure FDA0003860262050000054
所述的全局模型训练,包括以下过程:
当控制器收到N个终端的本地模型后,基于本地模型加权聚合训练全局模型,表示为
Figure FDA0003860262050000055
其中,
Figure FDA0003860262050000056
表示终端n的本地模型权重,定义为其批量规模与N个终端批量规模之和的比值;
采用全局损失函数来量化全局模型真实输出与目标输出之间的差异,定义为N个终端本地损失函数的加权和F(ωt),表示为
Figure FDA0003860262050000057
5.根据权利要求4所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,所述的本地模型训练、本地模型上传、本地模型加权聚合需要满足调控信息新鲜度的约束;
调控信息新鲜度约束模型为:
定义终端n在第t次迭代训练得到的本地模型信息年龄为该模型离开终端n到参加全局模型训练的时延,主要包括传输时延
Figure FDA0003860262050000058
和等待时延
Figure FDA0003860262050000059
表示为
Figure FDA00038602620500000510
终端n的本地模型等待时延
Figure FDA00038602620500000511
取决于控制器收到最后一个终端本地模型所经历时延,表示为
Figure FDA00038602620500000512
定义第t次迭代中终端n的调控信息新鲜度为本地模型信息年龄的倒数,表示为
Figure FDA0003860262050000061
通过对信息年龄最大的模型进行约束,保障调控信息新鲜度;定义所有终端调控信息新鲜度的集合为ht={h1,t,…,hn,t,…,hN,t},T次迭代调控信息新鲜度长期约束模型构建为
Figure FDA0003860262050000062
其中,hmin为信息新鲜度约束阈值。
6.根据权利要求1所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,S2步骤中,在保障调控信息新鲜度等长期约束的同时,通过电力至简物联网通信与计算资源的协同优化,最小化T次迭代后调控模型的全局损失函数F(ωT);定义多模态信道分配优化变量的集合为:αn,t={αn,1,t,…,αn,j,t,…,αn,J,t},批量规模优化变量的集合为βn,t={1,2,…,Dn},优化问题构建为:
Figure FDA0003860262050000063
Figure FDA0003860262050000064
其中,C1表示每个信道只能分配给一个终端;C2表示每个终端只能被分配一个信道;C3表示终端本地模型训练批量规模约束,C4为终端n的能耗长期约束,其中En,max为终端n的长期能量预算;C5为T次迭代调控信息新鲜度长期约束模型;C6表示终端传输功率约束,其中PPLC、PWLAN和P5G分别表示PLC、WLAN和5G信道传输功率。
7.根据权利要求6所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,由于每次迭代的优化策略不仅与T次迭代后的全局损失函数F(ωT)耦合,而且与信息新鲜度等长期约束耦合,导致优化问题P1难以直接求解,需要进行迭代间优化问题解耦;
针对第一种耦合,基于伸缩和定理将F(ωT)解耦为
Figure FDA0003860262050000071
其中,F(ωt-1)是第t-1次迭代后的全局损失函数,在第t次迭代优化时是已知参量;将F(ωT)的优化转化为对第t次迭代的损失函数F(ωt)优化;
针对第二种耦合,基于虚拟队列理论,分别构造对应于约束C4和C5的终端能耗赤字虚拟队列Gn(t)与调控信息新鲜度赤字虚拟队列H(t),其队列积压更新为
Figure FDA0003860262050000072
H(t+1)=max{H(t)-min{ht}+hmin,0} (19)
其中,Gn(t)表示第t次迭代后终端n的能耗与能量预算En,max/T之间的偏差,H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束hmin之间的偏差;
基于李雅普诺夫优化理论,计算李雅普诺夫漂移加惩罚并推导其上界,将P1解耦为最小化各次迭代损失函数的短期优化问题,优化目标为最小化损失函数、调控信息新鲜度赤字与终端能耗赤字的加权和;第t次迭代的联合优化问题表示为
Figure FDA0003860262050000073
其中,VH和VG为对应于调控信息新鲜度赤字和终端能耗赤字的权重;
进一步将转化后的问题P2建模为MDP优化问题,其关键元素包括状态空间、动作空间与回报函数,具体介绍如下:
1)状态空间:定义终端能耗赤字集合为G(t)={G1(t),…,Gn(t),…,GN(t)},终端能量预算集合为Emax={E1,max,…E2,max,…,EN,max};状态空间包含终端能耗赤字、调控信息新鲜度赤字、终端能量预算和调控信息新鲜度约束阈值等,表示为
Figure FDA0003860262050000074
2)动作空间:动作空间定义为At={A1,t,…,An,t,…,AN,t},其中An,t为终端n对应的动作空间,表示为αn,t和βn,t的笛卡尔积,即
Figure FDA0003860262050000075
3)回报函数:回报函数定义为P2的优化目标,即
Figure FDA0003860262050000076
8.根据权利要求1所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,S3中的IDEAL算法应用于控制层中,用于协调控制园区各终端参与分布式能源调控决策模型训练;其核心思想是利用深度Q网络量化与拟合高维状态空间下的状态-动作价值,即表征动作累积奖励值的Q值,并以此为依据优化信道分配与批量规模决策。
CN202210287027.8A 2022-03-22 2022-03-22 一种园区分布式能源调控信息新鲜度保障方法及系统 Active CN114626306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210287027.8A CN114626306B (zh) 2022-03-22 2022-03-22 一种园区分布式能源调控信息新鲜度保障方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210287027.8A CN114626306B (zh) 2022-03-22 2022-03-22 一种园区分布式能源调控信息新鲜度保障方法及系统

Publications (2)

Publication Number Publication Date
CN114626306A CN114626306A (zh) 2022-06-14
CN114626306B true CN114626306B (zh) 2023-01-24

Family

ID=81904355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210287027.8A Active CN114626306B (zh) 2022-03-22 2022-03-22 一种园区分布式能源调控信息新鲜度保障方法及系统

Country Status (1)

Country Link
CN (1) CN114626306B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114979014B (zh) * 2022-06-30 2024-06-14 国网北京市电力公司 数据转发路径规划方法、装置以及电子设备
CN115174396B (zh) * 2022-07-02 2024-04-16 华北电力大学 一种基于数字孪生的低碳能源管控通信网业务管理方法
CN115149586B (zh) * 2022-08-01 2024-07-19 华北电力大学 一种分布式能源聚合调控与自主调控协同优化方法及系统
CN117240610B (zh) * 2023-11-13 2024-01-23 傲拓科技股份有限公司 一种基于数据加密的plc模组运行数据传输方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201508269D0 (en) * 2015-05-14 2015-06-24 Barletta Media Ltd A system and method for providing a search engine, and a graphical user interface therefor
CN112637914A (zh) * 2020-12-10 2021-04-09 天津(滨海)人工智能军民融合创新中心 在双通道环境下基于dqn算法的信道切换系统及方法
CN112752337A (zh) * 2020-12-16 2021-05-04 南京航空航天大学 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法
CN113902021A (zh) * 2021-10-13 2022-01-07 北京邮电大学 一种高能效的聚类联邦边缘学习策略生成方法和装置
CN113988356A (zh) * 2021-09-02 2022-01-28 华北电力大学 一种基于dqn的5g融合智能配电网能量管理方法
CN114143355A (zh) * 2021-12-08 2022-03-04 华北电力大学 一种电力物联网低时延安全云边端协同方法
CN114205374A (zh) * 2020-09-17 2022-03-18 北京邮电大学 基于信息时效性的传输和计算联合调度方法、装置及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253998B (zh) * 2011-07-12 2013-08-14 武汉大学 基于Web时间不一致的过时网页自动发现与排序方法
CN113162798A (zh) * 2021-03-03 2021-07-23 国网能源研究院有限公司 一种无线供电通信网络的信息传输优化方法及系统
CN113657678A (zh) * 2021-08-23 2021-11-16 国网安徽省电力有限公司电力科学研究院 一种基于信息新鲜度的电网电力数据预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201508269D0 (en) * 2015-05-14 2015-06-24 Barletta Media Ltd A system and method for providing a search engine, and a graphical user interface therefor
CN114205374A (zh) * 2020-09-17 2022-03-18 北京邮电大学 基于信息时效性的传输和计算联合调度方法、装置及系统
CN112637914A (zh) * 2020-12-10 2021-04-09 天津(滨海)人工智能军民融合创新中心 在双通道环境下基于dqn算法的信道切换系统及方法
CN112752337A (zh) * 2020-12-16 2021-05-04 南京航空航天大学 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法
CN113988356A (zh) * 2021-09-02 2022-01-28 华北电力大学 一种基于dqn的5g融合智能配电网能量管理方法
CN113902021A (zh) * 2021-10-13 2022-01-07 北京邮电大学 一种高能效的聚类联邦边缘学习策略生成方法和装置
CN114143355A (zh) * 2021-12-08 2022-03-04 华北电力大学 一种电力物联网低时延安全云边端协同方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Age-optimal scheduling for heterogeneous;Jingzhou Sun,Lehan Wang,Zhiyuan Jiang,Sheng Zhou;《IEEE Transactions on Industrial Informatics》;20210531;全文 *
al.Joint rate control and power;BAO Wei,CHEN He,LI Yonghui;《IEEE Transactions on Industrial Informatics》;20170717;全文 *
Dynamic scheduling for;Yuxuan Sun,Sheng Zhou,Zhisheng Niu,Deniz Gündüz;《IEEE Transactions on Industrial Informatics》;20220131;全文 *
Efficient federated;Van-Dinh Nguyen,Shree Krishna Sharma,Thang X. Vu;《IEEE Transactions on Industrial Informatics》;20210331;全文 *
Low-latency federated;Yunlong Lu ,Xiaohong Huang;《IEEE Transactions on Industrial Informatics》;20210731;全文 *
基于上下文学习的电力物联网接入控制方法;周振宇, 贾泽晗,廖海君,赵雄文,张磊;《通信学报》;20210304;全文 *
基于强化学习算法的智能电网需求侧响应及优化调度策略研究;李金洧;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20220315;全文 *

Also Published As

Publication number Publication date
CN114626306A (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN114626306B (zh) 一种园区分布式能源调控信息新鲜度保障方法及系统
Liu et al. FedCPF: An efficient-communication federated learning approach for vehicular edge computing in 6G communication networks
CN112598150B (zh) 一种在智能电厂中基于联邦学习提升火灾检测效果的方法
CN113905347B (zh) 一种空地一体化电力物联网云边端协同方法
CN113326002A (zh) 基于计算迁移的云边协同控制系统及迁移决策生成方法
CN113778677B (zh) 面向sla的云边协同资源编排与请求调度智能优化方法
CN106886603A (zh) 一种需求响应资源组合优化的分层分布式体系架构和方法
CN105446817A (zh) 移动云计算中一种基于鲁棒优化的联合资源预留配置算法
CN114885422A (zh) 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法
CN116009990B (zh) 基于宽注意力机制的云边协同元强化学习计算卸载方法
CN114641076A (zh) 一种超密集网络中基于动态用户满意度的边缘计算卸载方法
CN115499441A (zh) 超密集网络中基于深度强化学习的边缘计算任务卸载方法
Su et al. Joint DNN partition and resource allocation optimization for energy-constrained hierarchical edge-cloud systems
Jiang et al. MARS: A DRL-based Multi-task Resource Scheduling Framework for UAV with IRS-assisted Mobile Edge Computing System
CN117376355B (zh) 基于超图的b5g海量物联网资源分配方法及系统
CN117119486B (zh) 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法
CN117880122A (zh) 一种基于madfpg的任务卸载和资源分配联合优化方法
CN115883371B (zh) 边缘-云协同系统中基于学习优化方法的虚拟网络功能放置方法
Duan et al. Lightweight federated reinforcement learning for independent request scheduling in microgrids
CN116341679A (zh) 一种高时效的联邦边缘学习调度策略设计方法
Do et al. Actor-critic deep learning for efficient user association and bandwidth allocation in dense mobile networks with green base stations
Behmandpoor et al. Model-free decentralized training for deep learning based resource allocation in communication networks
CN114327853A (zh) 云边混合系统中面向复杂任务的低成本用户关联和计算迁移方法
Ma et al. FLIRRAS: fast learning with integrated reward and reduced action space for online multitask offloading
CN113835894A (zh) 一种基于双延迟深度确定性策略梯度的智能计算迁移方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant