CN114626306B - 一种园区分布式能源调控信息新鲜度保障方法及系统 - Google Patents
一种园区分布式能源调控信息新鲜度保障方法及系统 Download PDFInfo
- Publication number
- CN114626306B CN114626306B CN202210287027.8A CN202210287027A CN114626306B CN 114626306 B CN114626306 B CN 114626306B CN 202210287027 A CN202210287027 A CN 202210287027A CN 114626306 B CN114626306 B CN 114626306B
- Authority
- CN
- China
- Prior art keywords
- terminal
- regulation
- freshness
- model
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033228 biological regulation Effects 0.000 title claims abstract description 203
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 107
- 238000005457 optimization Methods 0.000 claims abstract description 92
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 46
- 238000004891 communication Methods 0.000 claims abstract description 34
- 230000008447 perception Effects 0.000 claims abstract description 14
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 88
- 238000005265 energy consumption Methods 0.000 claims description 66
- 230000001105 regulatory effect Effects 0.000 claims description 40
- 230000009471 action Effects 0.000 claims description 39
- 230000007774 longterm Effects 0.000 claims description 29
- 230000005540 biological transmission Effects 0.000 claims description 22
- 230000006735 deficit Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 230000008878 coupling Effects 0.000 claims description 14
- 238000010168 coupling process Methods 0.000 claims description 14
- 238000005859 coupling reaction Methods 0.000 claims description 14
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 230000001276 controlling effect Effects 0.000 claims description 7
- 229910052739 hydrogen Inorganic materials 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004146 energy storage Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 239000002699 waste material Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011217 control strategy Methods 0.000 description 3
- 238000013468 resource allocation Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 230000009063 long-term regulation Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/06—Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2113/00—Details relating to the application field
- G06F2113/04—Power grid distribution networks
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Supply And Distribution Of Alternating Current (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种园区分布式能源调控信息新鲜度保障方法及系统,从下至上包括:数据层通过在电气设备上部署物联终端,为园区分布式能源调控决策模型训练提供样本数据和本地模型;网络层包含多种通信媒介,为数据层和控制层的交互提供通道;控制层,通过调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度;业务层,包括调控业务。步骤包括:园区分布式能源调控决策模型训练;对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模;基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法IDEAL设计。能够在降低全局损失的同时,降低等待时延,保障信息新鲜度。
Description
技术领域
本发明提供一种园区分布式能源调控信息新鲜度保障方法及系统,属于电力系统技术领域。
背景技术
随着整县光伏的大力发展,以及新型电力系统的建设,分布式能源迎来爆发式增长。然而,由于光伏等分布式能源具有间歇性、随机性、波动性等特点,高比例分布式能源的并网会对电力系统的潮流分布、电能质量、网络损耗及调节能力造成巨大的影响。因此,需要根据负荷动态调控分布式能源,从而提高新型电力系统的稳定性,实现有功/无功功率的平衡,使光伏等分布式能源得到更好的消纳,避免因消纳困难而出现弃光等现象。园区分布式能源调控需要通过海量信息来构建并训练负荷需求、光伏出力、气象信息与调控策略之间的模型。信息年龄是衡量信息新鲜度的有效指标,表示了信息自产生以来到用于调控模型训练所经历的时延。能源调控信息的新鲜度对模型训练的精度具有重要的影响。信息年龄较大时,信息的新鲜度、时效性较差,会导致训练模型损失函数大,即模型输出与真实输出之间存在较大偏差,从而降低分布式能源调控的可靠性、经济性、准确性。
电力至简物联网具有控制-数据解耦、多模态通信、跨域资源协同等优点,为分布式能源调控模型训练所需要数据的采集和传输提供强有力的通信网络支撑。然而,面向分布式能源调控的电力至简物联网还需要解决如下技术挑战。
第一,模型训练与数据传输的耦合导致模型训练过程中需要将大量原始数据上传至中心训练节点,造成网络拥塞、通信资源浪费、以及本地数据隐私泄露。
第二,通信、计算、存储等跨域资源的优化与模型训练的适配性差,导致模型损失函数大,降低分布式能源调控的准确性与可靠性。而跨域资源协同优化涉及大维优化空间,难以获得精确的概率统计模型与闭式解。
第三,调控现场中存在电力线载波(PLC,power line communication)、WLAN、5G等多模态异构网络,终端计算资源与多模态信道质量差异性导致信息年龄增大,难以保障分布式能源调控信息新鲜度长期约束。
因此,迫切需要设计一种园区分布式能源调控信息新鲜度保障方法及系统,能够在长期调控信息新鲜度约束下实现分布式能源调控模型损失函数最小化,解决园区跨域资源优化与模型训练适配性差、调控信息新鲜度难以保障等问题,保障分布式能源调控的可靠性与经济性。
发明内容
针对如何避免园区分布式能源调控大规模数据交互导致的通信资源浪费、网络拥塞和数据隐私泄露问题,本发明建立基于联邦学习的半分布式调控模型训练架构,通过数据层本地模型训练与控制层全局模型训练,实现决策优化与原始数据传输解耦,避免大规模数据交互导致的通信资源浪费与网络拥塞。
针对如何解决通信、计算、存储等跨域资源的优化与分布式能源调控决策模型损失函数最小化之间适配性差的问题。本发明利用伸缩和与李雅普诺夫优化对长期调控模型损失函数最小化问题进行迭代间解耦,转化为短期马尔科夫决策过程优化问题,并采用深度Q网络(DQN,deep Q network)提高高维优化空间下状态-动作价值拟合精度,学习信道分配与批量规模联合优化策略实现通信与计算资源分配协同,利用更多样本训练全局模型,最小化分布式能源调控决策模型损失函数,保障分布式能源调控的准确性与可靠性。特别地,控制器比较Q值解决多模态信道分配冲突,将信道分配给能获得最大状态-动作价值的终端。
针对如何解决时隙间跨域资源分配策略的耦合与调控信息新鲜度长期保障问题。本发明具备调控信息新鲜度感知能力,利用赤字虚拟队列演进感知每个时隙调控信息新鲜度与规定约束的偏差,动态调整多模态信道分配与批量规模策略,减小信息年龄,实现调控信息新鲜度长期保障,例如,针对由于某一终端计算性能较差所引起的其它终端信息年龄增大、信息新鲜度低的问题,通过为这些被影响的终端增加批量规模并为其分配信道质量更好信道,消除等待时延,提高全局模型信息新鲜度。
具有的技术方案为:
园区分布式能源调控信息新鲜度保障系统从下至上包括数据层、网络层、控制层和业务层;其中,数据层,通过在电气设备上部署物联终端,为园区分布式能源调控决策模型训练提供样本数据和本地模型;
网络层,包含多种通信媒介,为数据层和控制层的交互提供通道;
控制层,通过调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性;
业务层,包括调控业务。
所述的调控业务,包括储能调控、分布式能源出力预测、柔性负荷调控、分布式光伏调控。
园区分布式能源调控信息新鲜度保障方法,利用上述园区分布式能源调控信息新鲜度保障系统,步骤包括:
S1园区分布式能源调控决策模型训练;
S2对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模;
S3基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法IDEAL设计;
其中,调控信息新鲜度问题建模为通过优化分布式能源调控决策模型训练过程中的批量规模、多模态信道选择从而在保障调控信息新鲜度的情况下最小化能源调控决策模型的损失函数。所提出的IDEAL算法承载于园区分布式能源调控信息新鲜度保障系统控制层的控制器中。控制器通过在分布式能源调控决策模型训练中执行该算法动态优化批量规模和多模态信道选择,能够实现调控信息新鲜度长期保障。
具体的:
S1.园区分布式能源调控决策模型训练
采用联邦学习架构迭代训练园区分布式能源调控决策模型,假设共需要T次迭代,集合表示为T={1,…,t,…,T}。每次迭代包括四个步骤,具体介绍如下:
1)全局模型下发:控制器通过融合AC/DC PLC、WLAN、5G的多模态通信网络将全局模型下发至终端。
2)本地模型训练:各终端基于本地数据集执行本地模型训练。
3)本地模型上传:各终端通过多模态通信网络将训练后的本地模型上传到控制器。
4)全局模型训练:控制器在收到所有终端上传的本地模型后,基于加权聚合训练全局模型,为精准分布式能源调控优化提供支撑。
具体的,本地模型训练:
假设存在N个物联终端,集合表示为N={1,…,n,…N}。第t次迭代中,终端n首先用第t-1次迭代后的全局模型ωt-1更新本地模型ωn,t-1,即ωn,t-1=ωt-1。随后,终端n利用本地数据集Dn的部分样本训练本地模型。定义终端n在第t次迭代中用于本地模型训练的样本数量为批量规模βn,t,采用损失函数来量化模型的真实输出与目标输出之间的偏差。定义终端n在第t次迭代的本地损失函数为本地样本的平均损失
其中,样本损失函数f(ωn,t-1,xn,m)量化了本地模型ωn,t-1在本地数据集Dn中第m个样本的输出与最优输出之间的性能差异。Fn(ωn,t-1,βn,t)反映了本地模型ωn,t-1的精度,可用于本地模型更新。基于梯度下降法,终端n的本地模型更新为
定义终端n在第t次迭代的可用计算资源为fn,t,则本地模型训练的时延与能耗为
其中,en为能耗系数(Watt·s3/cycle3),ξn为训练单个样本所需要的CPU周期数(cycles/样本)。
本地模型上传:
假设存在J个多模态信道,包括J1个5G信道,J2个WLAN信道和J3个PLC信道,即J=J1+J2+J3。信道集合表示为θ={1,…,J1,…,J1+J2,…,J},其中j=1,…,J1为5G信道,j=J1+1,…,J1+J2为WLAN信道,j=J1+J2+1,…,J为PLC信道。定义信道分配变量为αn,j,t∈{0,1}。其中,αn,j,t=1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型,否则αn,j,t=0。在第t次迭代,终端n通过信道j上传模型的传输速率为
定义|ωn,t|为本地模型ωn,t的大小(bits),终端n上传本地模型的时延和能耗为
终端n在第t次迭代的总能耗为本地模型训练与上传的能耗之和,表示为
在第t次迭代中,控制器接收到终端n的本地模型所经历的时延为
全局模型训练:
当控制器收到N个终端的本地模型后,基于本地模型加权聚合训练全局模型,表示为
采用全局损失函数来量化全局模型真实输出与目标输出之间的差异,定义为N个终端本地损失函数的加权和,表示为
本地训练、本地模型上传、全局模型聚合需要满足调控信息新鲜度的约束。
调控信息新鲜度是一种信息时效性度量指标,对分布式能源调控的准确性与实时性具有重要影响。调控模型训练时采用的信息新鲜度越高,所生成的调控策略与最优策略之间的性能差距越小。由于控制器在收到所有终端本地模型后才能开始全局模型训练,调控信息新鲜度与控制器接受到各个终端本地模型所经历的时延密切相关。
调控信息新鲜度约束模型的具体描述如下:
定义第t次迭代中终端n的调控信息新鲜度为信息年龄的倒数,表示为
通过对信息年龄最大的模型进行约束,保障调控信息新鲜度。定义所有终端调控信息新鲜度的集合为ht={h1,t,…,hn,t,…,hN,t},T次迭代调控信息新鲜度长期约束模型可构建为
其中,hmin为信息新鲜度约束阈值。
S2.针对多模态信道分配优化与批量规模优化的调控信息新鲜度保障问题建模
本发明旨在解决分布式能源调控决策模型损失函数最小化问题,其优化目标为在保障调控信息新鲜度等长期约束的同时,通过电力至简物联网通信与计算资源的协同优化,最小化T次迭代后调控模型的全局损失函数F(ωT)。定义多模态信道分配优化变量的集合为αn,t={αn,1,t,…,αn,j,t,…,αn,J,t},批量规模优化变量的集合为βn,t={1,2,…,Dn},优化问题构建为
其中,C1表示每个信道只能分配给一个终端;C2表示每个终端只能被分配一个信道;C3表示终端本地模型训练批量规模约束,其中|Δn|表示终端n本地数据集Dn的大小;C4为终端n的能耗长期约束,其中En,max为终端n的长期能量预算;C5为T次迭代调控信息新鲜度长期约束模型;C6表示终端传输功率约束,其中PPLC、PWLAN和P5G分别表示PLC、WLAN和5G信道传输功率。
由于每次迭代的优化策略不仅与T次迭代后的全局损失函数F(ωT)耦合,而且与信息新鲜度等长期约束耦合,导致优化问题P1难以直接求解,需要进行迭代间优化问题解耦;
针对第一种耦合,基于伸缩和定理将F(ωT)解耦为
其中,F(ωt-1)是第t-1次迭代后的全局损失函数,在第t次迭代优化时是已知参量。由上式可知,F(ωT)只与第t次迭代的全局损失函数F(ωt)相关,即将F(ωT)的优化转化为对第t次迭代的损失函数F(ωt)优化。
针对第二种耦合,基于虚拟队列理论,分别构造对应于约束C4和C5的终端能耗赤字虚拟队列Gn(t)与调控信息新鲜度赤字虚拟队列H(t),其队列积压更新为
H(t+1)=max{H(t)-min{ht}+hmin,0} (19)
其中,Gn(t)表示第t次迭代后终端n的能耗与能量预算En,max/T之间的偏差,H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束hmin之间的偏差。
基于李雅普诺夫优化理论,计算李雅普诺夫漂移加惩罚并推导其上界,可将P1解耦为最小化各次迭代损失函数的短期优化问题,优化目标为最小化损失函数、调控信息新鲜度赤字与终端能耗赤字的加权和。第t次迭代的联合优化问题表示为
其中,VH和VG为对应于调控信息新鲜度赤字和终端能耗赤字的权重。
进一步将转化后的问题P2建模为MDP优化问题,其关键元素包括状态空间、动作空间与回报函数,具体介绍如下:
1)状态空间:定义终端能耗赤字集合为G(t)={G1(t),…,Gn(t),…,GN(t)},终端能量预算集合为Emax={E1,max,…E2,max,…,EN,max}。状态空间包含终端能耗赤字、调控信息新鲜度赤字、终端能量预算和调控信息新鲜度约束阈值等,表示为
S3.基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法设计
该算法应用于控制层中,用于协调控制园区各终端参与分布式能源调控决策模型训练。其核心思想是利用深度Q网络量化与拟合高维状态空间下的状态-动作价值,即表征动作累积奖励值的Q值,并以此为依据优化信道分配与批量规模决策。
IDEAL算法结构,包括主网络、目标网络、经验池、以多模态信道分配冲突解决模块、调控信息新鲜度赤字更新模块。
IDEAL算法的执行主体为控制器。针对每个终端n,控制器构造了两个DQN,分别为用于优化决策的主网络和用于辅助主网络训练的目标网络其中,目标网络与主网络具有相同神经网络结构,通过采用更长的目标网络更新周期,使主网络在一段时间内的目标值保持相对固定,提升学习稳定性。控制器构造经验池用于存储经验数据。在此基础上,IDEAL采用经验回放机制,通过周期性随机采样部分经验数据训练DQN;
一次调控决策模型训练迭代可分为以下三个步骤:首先,控制器基于主网络估计的Q值优化信道分配和批量规模决策,并通过比较Q值解决多模态信道分配冲突,其核心思想是将信道分配给能获得最大状态-动作价值的终端。其次,控制器下发信道分配和批量规模决策,所有终端执行本地模型训练和模型上传,并将能耗信息反馈至控制器。最后,基于终端上传的信息,控制器更新调控信息新鲜度赤字、终端能耗赤字,计算回报函数,更新经验池,并转移至下一状态。控制器计算DQN损失函数,以此为依据更新主网络参数,并周期性更新目标网络参数。
IDEAL算法执行流程如算法,包括三个阶段,分别为初始化、动作选择及多模态信道分配冲突解决以及学习。
1)初始化阶段:初始化Gn(t)=0,H(t)=0,αn,j,t=0,βn,t=0,定义未被分配信道的终端集合为Nt,并初始化Nt=N。定义终端n∈Nt的可分配信道集合为θn,t,并初始化θn,t=θ。
其次,当存在信道分配冲突时,同时为终端n和m分配信道j且控制器通过比较终端n和m的Q值,将信道j分配给Q值较大的终端n并拒绝终端m。随后,控制器将终端n移出未被分配信道的终端集合,即Nt=Nt\n,并设置被拒绝终端m的Q值为其中am,t为终端m动作空间Am,t中对应于信道j的动作集合,表示为am,t={Am,t(j,1),Am,t(j,2),…,Am,t(j,|Δn|)}。基于更新的Q值,重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道。
最后,控制器下发信道分配和批量规模决策,终端n∈N按照决策执行本地模型训练和本地模型上传,并将能耗信息En,t上传至控制器。
3)学习阶段:在学习阶段,控制器通过计算终端执行动作后的回报函数来更新DQN网络参数,以提高DQN对状态-动作价值的拟合精度,使DQN输出最佳策略,实现信道分配和批量规模的优化,提高全局模型的精度,保障调控信息新鲜度,降低终端能耗。
首先,基于终端上传的能耗信息,控制器根据(18)更新终端能耗赤字Gn(t+1)。同时,控制器根据所收到本地模型时间戳、模型下发时间以及公式(9)、(13)、(14)计算获得第t次迭代的信息新鲜度,并根据(19)更新调控信息新鲜度赤字H(t+1)。控制器根据(20)计算回报函数由(20)可以看出,当调控信息新鲜度与规定约束偏离严重时,H(t)逐渐增加,导致回报函数值降低,迫使控制器调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性,从而实现调控信息新鲜度感知,提高控制器分布式能源调控决策的准确性和可靠性。
其中
其中,λ为折扣因子。
本发明将调控信息新鲜度长期约束纳入园区分布式能源调控过程中,通过建立园区分布式能源调控决策模型,能够在最小化全局损失的同时,降低信息年龄,保障调控信息新鲜度。此外本发明可运用于整县光伏、新型电力系统分布式能源并网工程中,为分布式能源调控模型训练提供信息新鲜度保障。
(1)提出园区分布式能源调控信息新鲜度保障系统,通过将调控信息新鲜度长期约束纳入园区分布式能源调控过程中,能够在降低全局损失的同时,降低等待时延,保障信息新鲜度。
(2)提出园区分布式能源调控信息新鲜度保障方法,通过建立基于联邦学习的半分布式调控模型训练架构,进行数据层本地模型训练与控制层全局模型训练,实现决策优化与原始数据传输解耦,避免大规模数据交互导致的通信资源浪费与网络拥塞。
(3)提出园区分布式能源调控信息新鲜度保障方法,针对多模态信道分配优化与批量规模优化建立调控新鲜度保障问题模型,利用伸缩和与李雅普诺夫优化定理实现长期调控模型损失函数最小化问题迭代间解耦。
(4)提出园区分布式能源调控信息新鲜度保障方法,通过提出基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法(IDEAL,information freshnessaware-based communication-and-computation collaborative optimizationalgorithm for simplified Power Internet of Things),利用深度Q网络(DQN,deep Qnetwork)提高高维优化空间下状态-动作价值拟合精度,通过学习信道分配与批量规模联合优化策略实现通信与计算资源分配协同,基于终端Q值比较解决多模态信道竞争冲突。其中,IDEAL具备新鲜度感知能力,通过赤字虚拟队列演进感知每个时隙调控信息新鲜度与规定约束的偏差,并根据偏差动态调整信道分配与批量规模优化策略,降低调控信息年龄,实现调控信息新鲜度长期保障。
附图说明
图1为本发明的园区分布式能源调控信息新鲜度保障系统结构示意图;
图2(a)为本发明终端计算资源差异性与多模态信道差异性导致信息年龄大示意图;
图2(b)为本发明信道分配与批量规模协同优化减小信息年龄示意图;
图3为本发明IDEAL算法结构图;
图4为全局损失函数随迭代次数变化情况;
图5为平均调控信息新鲜度和平均批量规模对比;
图6为训练时延、传输时延、等待时延和批量规模随迭代次数变化情况;
图7为对比了不同算法的终端能耗与调控信息新鲜度分布情况;
图8为对比了平均调控信息新鲜度与平均信息年龄随调控信息新鲜度权重变化情况。
具体实施方式
结合附图说明本发明的具体技术方案。
整个技术方案包括园区分布式能源调控信息新鲜度保障系统和园区分布式能源调控信息新鲜度保障方法。
如图1所示,园区分布式能源调控信息新鲜度保障系统从下至上包括数据层、网络层、控制层和业务层。其中,数据层通过在分布式光伏、可控负荷、充电桩等电气设备上部署物联终端,为园区分布式能源调控决策模型训练提供样本数据和本地模型。网络层包含PLC、WLAN和5G等多种通信媒介,为数据层和控制层的交互提供通道。控制层通过调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性,从而实现调控信息新鲜度感知,提高控制器分布式能源调控决策的准确性和可靠性。业务层包括储能调控、分布式能源出力预测、柔性负荷调控、分布式光伏调控等调控业务。
本系统基于电力至简物联网架构,采用分布式人工智能、控制-数据解耦、统一信令交互、跨域资源融合等技术,实现多模态物联终端异构融合,支撑分布式能源调控决策模型训练。通过将调控信息新鲜度长期约束纳入园区分布式能源调控过程中,能够在降低全局损失的同时,降低等待时延,保障信息新鲜度。
园区分布式能源调控信息新鲜度保障方法,利用上述园区分布式能源调控信息新鲜度保障系统,步骤包括:S1园区分布式能源调控决策模型训练,S2对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模,S3基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法(IDEAL,information freshness aware-basedcommunication-and-computation collaborative optimization algorithm forsimplified Power Internet of Things)设计。其中,调控信息新鲜度问题建模为通过优化分布式能源调控决策模型训练过程中的批量规模、多模态信道选择从而在保障调控信息新鲜度的情况下最小化能源调控决策模型的损失函数。所提出的IDEAL算法承载于园区分布式能源调控信息新鲜度保障系统控制层的控制器中。控制器通过在分布式能源调控决策模型训练中执行该算法动态优化批量规模和多模态信道选择,能够实现调控信息新鲜度长期保障。
S1.园区分布式能源调控决策模型训练
本发明采用联邦学习架构迭代训练园区分布式能源调控决策模型,假设共需要T次迭代,集合表示为T={1,…,t,…,T}。每次迭代包括四个步骤,具体介绍如下:
1)全局模型下发:控制器通过融合AC/DC PLC、WLAN、5G的多模态通信网络将全局模型下发至终端。
2)本地模型训练:各终端基于本地数据集执行本地模型训练。
3)本地模型上传:各终端通过多模态通信网络将训练后的本地模型上传到控制器。
4)全局模型训练:控制器在收到所有终端上传的本地模型后,基于加权聚合训练全局模型,为精准分布式能源调控优化提供支撑。
由于下行传输能力强,全局模型下发时延可忽略不计。因此,本发明重点考虑本地模型训练、本地模型上传、全局模型聚合三个步骤。
(1)本地模型训练
假设存在N个物联终端,集合表示为N={1,…,n,…N}。第t次迭代中,终端n首先用第t-1次迭代后的全局模型ωt-1更新本地模型ωn,t-1,即ωn,t-1=ωt-1。随后,终端n利用本地数据集Dn的部分样本训练本地模型。定义终端n在第t次迭代中用于本地模型训练的样本数量为批量规模βn,t,采用损失函数来量化模型的真实输出与目标输出之间的偏差。定义终端n在第t次迭代的本地损失函数为本地样本的平均损失,即
其中,样本损失函数f(ωn,t-1,xn,m)量化了本地模型ωn,t-1在本地数据集Dn中第m个样本的输出与最优输出之间的性能差异。Fn(ωn,t-1,βn,t)反映了本地模型ωn,t-1的精度,可用于本地模型更新。基于梯度下降法,终端n的本地模型更新为
定义终端n在第t次迭代的可用计算资源为fn,t,则本地模型训练的时延与能耗为
其中,en为能耗系数(Watt·s3/cycle3),ξn为训练单个样本所需要的CPU周期数(cycles/样本)。
(2)本地模型上传
假设存在J个多模态信道,包括J1个5G信道,J2个WLAN信道和J3个PLC信道,即J=J1+J2+J3。信道集合表示为θ={1,…,J1,…,J1+J2,…,J},其中j=1,…,J1为5G信道,j=J1+1,…,J1+J2为WLAN信道,j=J1+J2+1,…,J为PLC信道。定义信道分配变量为αn,j,t∈{0,1}。其中,αn,j,t=1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型,否则αn,j,t=0。在第t次迭代,终端n通过信道j上传模型的传输速率为
定义|ωn,t|为本地模型ωn,t的大小(bits),终端n上传本地模型的时延和能耗为
终端n在第t次迭代的总能耗为本地模型训练与上传的能耗之和,表示为
在第t次迭代中,控制器接收到终端n的本地模型所经历的时延为
(3)全局模型训练
当控制器收到N个终端的本地模型后,基于本地模型加权聚合训练全局模型,表示为
采用全局损失函数来量化全局模型真实输出与目标输出之间的差异,定义为N个终端本地损失函数的加权和,即
本地训练、本地模型上传、全局模型聚合需要满足调控信息新鲜度的约束。
调控信息新鲜度是一种信息时效性度量指标,对分布式能源调控的准确性与实时性具有重要影响。调控模型训练时采用的信息新鲜度越高,所生成的调控策略与最优策略之间的性能差距越小。由于控制器在收到所有终端本地模型后才能开始全局模型训练,调控信息新鲜度与控制器接受到各个终端本地模型所经历的时延密切相关。
本地训练模型信息年龄示意图如图2(a)和图2(b)所示,调控信息新鲜度约束模型的具体描述如下:
如图2(a)所示,由于终端可用计算资源和通信媒介的差异性,先到达的模型需等待控制器收到所有终端的本地模型后才能参加全局模型训练,导致调控信息年龄增加与信息新鲜度下降。因此,终端n的本地模型等待时延取决于控制器收到最后一个终端本地模型所经历时延,即
定义第t次迭代中终端n的调控信息新鲜度为信息年龄的倒数,即
通过对信息年龄最大的模型进行约束,保障调控信息新鲜度。定义所有终端调控信息新鲜度的集合为ht={h1,t,…,hn,t,…,hN,t},T次迭代调控信息新鲜度长期约束模型可构建为
其中,hmin为信息新鲜度约束阈值。
对比图2(a)与图2(b)可知,动态调整多模态信道分配与批量规模策略能够减小信息年龄、提高信息新鲜度。如图2(a)所示,由于终端1计算性能较差,终端2和3上传的本地模型需要等待终端1完成本地模型上传后才能被聚合,导致终端2和3信息年龄增大,信息新鲜度低。如图2(b)所示,通过协同信道分配与批量规模,增加终端2和3的批量规模并为其分配信道质量更好的5G和WLAN信道,消除等待时延、提高全局模型信息新鲜度的同时能够利用更多样本训练全局模型、减小全局损失函数,保障了分布式能源调控的准确性与可靠性。
S2.针对多模态信道分配优化与批量规模优化的调控信息新鲜度保障问题建模
本发明旨在解决分布式能源调控决策模型损失函数最小化问题,其优化目标为在保障调控信息新鲜度等长期约束的同时,通过电力至简物联网通信与计算资源的协同优化,最小化T次迭代后调控模型的全局损失函数F(ωT)。定义多模态信道分配优化变量的集合为αn,t={αn,1,t,…,αn,j,t,…,αn,J,t},批量规模优化变量的集合为βn,t={1,2,…,Dn},优化问题构建为
其中,C1表示每个信道只能分配给一个终端;C2表示每个终端只能被分配一个信道;C3表示终端本地模型训练批量规模约束,其中|Δn|表示终端n本地数据集Dn的大小;C4为终端n的能耗长期约束,其中En,max为终端n的长期能量预算;C5为T次迭代调控信息新鲜度长期约束模型;C6表示终端传输功率约束,其中PPLC、PWLAN和P5G分别表示PLC、WLAN和5G信道传输功率。
由于每次迭代的优化策略不仅与T次迭代后的全局损失函数F(ωT)耦合,而且与信息新鲜度等长期约束耦合,导致优化问题P1难以直接求解,需要进行迭代间优化问题解耦;
针对第一种耦合,基于伸缩和定理将F(ωT)解耦为
其中,F(ωt-1)是第t-1次迭代后的全局损失函数,在第t次迭代优化时是已知参量。由上式可知,F(ωT)只与第t次迭代的全局损失函数F(ωt)相关,即将F(ωT)的优化转化为对第t次迭代的损失函数F(ωt)优化。
针对第二种耦合,基于虚拟队列理论,分别构造对应于约束C4和C5的终端能耗赤字虚拟队列Gn(t)与调控信息新鲜度赤字虚拟队列H(t),其队列积压更新为
H(t+1)=max{H(t)-min{ht}+hmin,0} (19)
其中,Gn(t)表示第t次迭代后终端n的能耗与能量预算En,max/T之间的偏差,H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束hmin之间的偏差。
基于李雅普诺夫优化理论,计算李雅普诺夫漂移加惩罚并推导其上界,可将P1解耦为最小化各次迭代损失函数的短期优化问题,优化目标为最小化损失函数、调控信息新鲜度赤字与终端能耗赤字的加权和。第t次迭代的联合优化问题表示为
其中,VH和VG为对应于调控信息新鲜度赤字和终端能耗赤字的权重。
进一步将转化后的问题P2建模为MDP优化问题,其关键元素包括状态空间、动作空间与回报函数,具体介绍如下:
1)状态空间:定义终端能耗赤字集合为G(t)={G1(t),…,Gn(t),…,GN(t)},终端能量预算集合为Emax={E1,max,…E2,max,…,EN,max}。状态空间包含终端能耗赤字、调控信息新鲜度赤字、终端能量预算和调控信息新鲜度约束阈值等,表示为
S3.基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法设计
本发明提出一种园区分布式能源调控新鲜度保障方法及系统,并提出基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法(IDEAL,informationfreshness aware-based communication-and-computation collaborativeoptimization algorithm for simplified Power Internet of Things)。该算法应用于控制层中,用于协调控制园区各终端参与分布式能源调控决策模型训练。其核心思想是利用深度Q网络量化与拟合高维状态空间下的状态-动作价值,即表征动作累积奖励值的Q值,并以此为依据优化信道分配与批量规模决策。
IDEAL算法结构图如图3所示,包括主网络、目标网络、经验池、以多模态信道分配冲突解决模块、调控信息新鲜度赤字更新模块等。
IDEAL算法的执行主体为控制器。针对每个终端,例如终端n,控制器构造了两个DQN,分别为用于优化决策的主网络和用于辅助主网络训练的目标网络其中,目标网络与主网络具有相同神经网络结构,通过采用更长的目标网络更新周期,使主网络在一段时间内的目标值保持相对固定,提升学习稳定性。控制器构造经验池用于存储状态、动作、成本等经验数据。在此基础上,IDEAL采用经验回放机制,通过周期性随机采样部分经验数据训练DQN,克服经验数据的相关性与非平稳分布问题,提高优化性能。
一次调控决策模型训练迭代可分为以下三个步骤:首先,控制器基于主网络估计的Q值优化信道分配和批量规模决策,并通过比较Q值解决多模态信道分配冲突,其核心思想是将信道分配给能获得最大状态-动作价值的终端。其次,控制器下发信道分配和批量规模决策,所有终端执行本地模型训练和模型上传,并将能耗信息反馈至控制器。最后,基于终端上传的信息,控制器更新调控信息新鲜度赤字、终端能耗赤字,计算回报函数,更新经验池,并转移至下一状态。控制器计算DQN损失函数,以此为依据更新主网络参数,并周期性更新目标网络参数。
IDEAL算法执行流程如算法1所示,包括三个阶段,分别为初始化(1-3行)、动作选择及多模态信道分配冲突解决(5-16行)以及学习(17-25行)。
1)初始化阶段:初始化Gn(t)=0,H(t)=0,αn,j,t=0,βn,t=0,定义未被分配信道的终端集合为Nt,并初始化Nt=N。定义终端n∈Nt的可分配信道集合为θn,t,并初始化θn,t=θ。
其次,当存在信道分配冲突时,例如同时为终端n和m分配信道j且控制器通过比较终端n和m的Q值,将信道j分配给Q值较大的终端n并拒绝终端m。随后,控制器将终端n移出未被分配信道的终端集合,即Nt=Nt\n,并设置被拒绝终端m的Q值为其中am,t为终端m动作空间Am,t中对应于信道j的动作集合,表示为am,t={Am,t(j,1),Am,t(j,2),…,Am,t(j,|Δn|)}。基于更新的Q值,重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道。
最后,控制器下发信道分配和批量规模决策,终端n∈N按照决策执行本地模型训练和本地模型上传,并将能耗信息En,t上传至控制器。
3)学习阶段:在学习阶段,控制器通过计算终端执行动作后的回报函数来更新DQN网络参数,以提高DQN对状态-动作价值的拟合精度,使DQN输出最佳策略,实现信道分配和批量规模的优化,提高全局模型的精度,保障调控信息新鲜度,降低终端能耗。首先,基于终端上传的能耗信息,控制器根据(18)更新终端能耗赤字Gn(t+1)。同时,控制器根据所收到本地模型时间戳、模型下发时间以及公式(9)、(13)、(14)计算获得第t次迭代的信息新鲜度,并根据(19)更新调控信息新鲜度赤字H(t+1)。控制器根据(20)计算回报函数由(20)可以看出,当调控信息新鲜度与规定约束偏离严重时,H(t)逐渐增加,导致回报函数值降低,迫使控制器调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性,从而实现调控信息新鲜度感知,提高控制器分布式能源调控决策的准确性和可靠性。
其中
其中,λ为折扣因子。
算法1IDEAL算法
输入N,J,T,V,{En,max},{hmin}
输出αn,t,βn,t
1)阶段一:初始化
3)定义未分配信道的终端集合为Nt,并初始化Nt=N
4)for t=1,…,T
5)阶段二:动作选择及多模态信道分配冲突解决
6)for n=1,…,N
8)end for
11)控制器将信道j分配给Q值较大的终端n,并拒绝终端m
12)end if
13)更新Nt=Nt\n
15)基于更新的Q值,重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道
16)终端n∈N按照决策执行本地模型训练和本地模型上传,并将能耗信息En,t上传至控制器
17)阶段三:学习
19)转移至状态St+1
20)for n=1,…,N
22)if t mod T0=0
24)end if
25)end for
26)end for
本发明对上述提出的IDEAL算法进行了仿真,并设置了两个对比算法进行性能的对比验证,对比算法设置如下:
对比算法1:基于联邦深度强化学习的低时延资源分配算法(FLRA,federatedDRLbased low-latencyresource allocation algorithm),该算法基于深度确定性策略梯度,通过优化批量规模与信道分配策略最小化联邦学习全局损失函数,该算法不具有能耗感知与调控信息新鲜度感知能力。
对比算法2:自适应联邦学习批量规模优化算法(AFLB,adaptive federatedlearning based batch size optimizationalgorithm),该算法基于近端策略优化,通过优化批量规模最小化全局损失函数,该算法无法实现信道分配优化,无法解决信道分配冲突,不具有调控信息新鲜度感知能力。
图4描述了全局损失函数随迭代次数的变化情况。随着迭代次数增加,全局损失函数先下降后稳定。在迭代次数为200时,相比于FLRA和AFLB,IDEAL的全局损失函数分别降低了63.29%和38.88%。IDEAL在保障终端能耗与调控信息新鲜度长期约束的前提下,能够最大化参与本地模型训练的批量规模,从而降低全局损失函数。相关仿真结果将在图5中进一步阐述。
图5对比了不同算法的平均调控信息新鲜度和平均批量规模。其中,平均调控信息新鲜度和平均批量规模分别定义为和与FLRA和AFLB相比,IDEAL的平均调控信息新鲜度分别提高了20.59%和57.69%,平均批量规模分别提高了70.37%和6.98%。针对计算能力较差的终端,IDEAL通过为其分配质量更好的信道,降低传输时延。针对等待时延较大的终端,IDEAL通过增加其本地训练的批量规模,降低等待时延,提高调控信息新鲜度。
图6描述了训练时延、传输时延、等待时延和平均批量规模随迭代次数的变化情况。经过200次迭代后,训练时延增加了23.08%,传输时延下降了52.50%,等待时延下降71.88%,总时延下降21.17%。IDEAL调整了训练时延与等待时延占比,即通过优化信道分配降低传输时延,通过增加批量规模增大训练时延,从而使等待时延与总时延显著下降。
图7对比了不同算法200次迭代终端能耗与调控信息新鲜度分布情况。由仿真结果可以看出,IDEAL具有最小终端能耗中位数与最高调控信息新鲜度中位数。与FLRA和AFLB相比,IDEAL的终端能耗波动范围分别降低了24.93%和16.38%,调控信息新鲜度波动范围分别降低了30.97%和39.61%。FLRA无法保障终端能耗与调控信息新鲜度长期约束,导致波动范围较大。结合图5,FLRA的批量规模较小,训练能耗较低,因此终端能耗性能优于AFLB。
图8描述了平均调控信息新鲜度和平均信息年龄随调控信息新鲜度权重VH的变化情况。随着VH增大,平均信息年龄逐渐减小,平均调控信息新鲜度逐渐增加,同时等待时延显著下降。当VH由5增加至12时,平均调控信息新鲜度提高了55.56%,平均信息年龄下降了35.61%,等待时延降低了67.05%。仿真结果表明,IDEAL主要通过减少等待时延,进而降低信息年龄,提高调控信息新鲜度。
Claims (8)
1.一种园区分布式能源调控信息新鲜度保障方法,利用一种园区分布式能源调控信息新鲜度保障系统,所述的一种园区分布式能源调控信息新鲜度保障系统,从下至上包括数据层、网络层、控制层和业务层;
其中,数据层,通过在电气设备上部署物联终端,为园区分布式能源调控决策模型训练提供样本数据和本地模型;
网络层,包含多种通信媒介,为数据层和控制层的交互提供通道;
控制层,通过调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性;
业务层,包括能源调控业务;
其特征在于,步骤包括:
S1园区分布式能源调控决策模型训练;
S2对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模;
S3基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法IDEAL设计;
其中,调控信息新鲜度问题建模为通过优化分布式能源调控决策模型训练过程中的批量规模、多模态信道选择从而在保障调控信息新鲜度的情况下最小化能源调控决策模型的损失函数;
所提出的IDEAL算法承载于园区分布式能源调控信息新鲜度保障系统控制层的控制器中;控制器通过在分布式能源调控决策模型训练中执行该IDEAL算法动态优化批量规模和多模态信道选择,能够实现调控信息新鲜度长期保障;
IDEAL算法结构,包括主网络、目标网络、经验池、以多模态信道分配冲突解决模块、调控信息新鲜度赤字更新模块;
IDEAL算法的执行主体为控制器;针对每个终端n,控制器构造了两个深度Q网络DQN,分别为用于优化决策的主网络和用于辅助主网络训练的目标网络其中,目标网络与主网络具有相同神经网络结构,通过采用更长的目标网络更新周期,使主网络在一段时间内的目标值保持相对固定,提升学习稳定性;控制器构造经验池用于存储经验数据;在此基础上,IDEAL采用经验回放机制,通过周期性随机采样部分经验数据训练DQN;
所述的IDEAL算法执行流程,包括三个阶段,分别为初始化、动作选择及多模态信道分配冲突解决以及学习;
H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束hmin之间的偏差;
αn,j,t∈{0,1}为信道分配变量;其中,αn,j,t=1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型,否则αn,j,t=0;
βn,t为批量规模,即终端n在第t次迭代中用于本地模型训练的样本数量;
N个物联终端集合表示为信道集合表示为其中j=1,…,J1为5G信道,j=J1+1,…,J1+J2为WLAN信道,j=J1+J2+1,…,J为PLC信道;T次迭代,集合表示为此处的意思是对于所有物联终端、信道以及迭代,将其能耗偏差Gn(t)、调控信息新鲜度偏差H(t)以及信道分配变量都初始化为0;
2)动作选择及多模态信道分配冲突解决阶段:
首先,控制器基于ε-贪婪算法为每个终端选择动作,以终端n为例,St为状态空间,An,t为执行动作空间,为主网络参数,控制器基于终端n主网络参数估计的Q值反映了在状态空间St下执行动作空间An,t对应的价值,以概率ε随机选择动作,以概率1-ε选择Q值最大的动作
其次,当存在信道分配冲突时,同时为终端n和m分配信道j且控制器通过比较终端n和m的Q值,将信道j分配给Q值较大的终端n并拒绝终端m;随后,控制器将终端n移出未被分配信道的终端集合,即并设置被拒绝终端m的Q值为其中am,t为终端m动作空间Am,t中对应于信道j的动作集合,表示为am,t={Am,t(j,1),Am,t(j,2),…,Am,t(j,|Δn|);其中|Δn|表示终端n本地数据集的大小;基于更新的Q值,重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道;
3)学习阶段:在学习阶段,控制器通过计算终端执行动作后的回报函数来更新DQN网络参数,以提高DQN对状态-动作价值的拟合精度,使DQN输出最佳策略,实现信道分配和批量规模的优化,提高全局模型的精度,保障调控信息新鲜度,降低终端能耗;
所述的学习阶段,包括以下步骤:首先,基于终端上传的能耗信息,控制器更新终端能耗赤字虚拟队列Gn(t+1);同时,控制器根据所收到本地模型时间戳、模型下发时间以及终端n的本地模型所经历的时延、最后一个终端本地模型所经历时延、本地模型信息年龄的倒数计算获得第t次迭代的信息新鲜度,并更新调控信息新鲜度赤字虚拟队列H(t+1);控制器计算回报函数当调控信息新鲜度与规定约束偏离严重时,H(t)逐渐增加,导致回报函数值降低,迫使控制器调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性,从而实现调控信息新鲜度感知,提高控制器分布式能源调控决策的准确性和可靠性;
其中
其中,λ为折扣因子;
2.根据权利要求1所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,所述的调控业务,包括储能调控、分布式能源出力预测、柔性负荷调控、分布式光伏调控。
4.根据权利要求3所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,所述的本地模型训练,包括以下过程:
N个物联终端集合表示为第t次迭代中,终端n首先用第t-1次迭代后的全局模型ωt-1更新本地模型ωn,t-1;随后,终端n利用本地数据集的部分样本训练本地模型;定义终端n在第t次迭代中用于本地模型训练的样本数量为批量规模βn,t,采用损失函数来量化模型的真实输出与目标输出之间的偏差;定义终端n在第t次迭代的本地损失函数为本地样本的平均损失
其中,样本损失函数f(ωn,t-1,xn,m)量化了本地模型ωn,t-1在本地数据集中第m个样本的输出与最优输出之间的性能差异;Fn(ωn,t-1,βn,t)反映了本地模型ωn,t-1的精度,可用于本地模型更新;基于梯度下降法,终端n的本地模型更新为
定义终端n在第t次迭代的可用计算资源为fn,t,则本地模型训练的时延与能耗为
其中,en为能耗系数,Watt·s3/cycle3;ξn为训练单个样本所需要的CPU周期数,cycles/样本;
所述的本地模型上传,包括以下过程:
J个多模态信道包括J1个5G信道,J2个WLAN信道和J3个PLC信道,J=J1+J2+J3;信道集合表示为其中j=1,…,J1为5G信道,j=J1+1,…,J1+J2为WLAN信道,j=J1+J2+1,…,J为PLC信道;定义信道分配变量为αn,j,t∈{0,1};其中,αn,j,t=1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型,否则αn,j,t=0;在第t次迭代,终端n通过信道j上传模型的传输速率为
定义|ωn,t|为本地模型ωn,t的大小(bits),终端n上传本地模型的时延和能耗为
终端n在第t次迭代的总能耗为本地模型训练与上传的能耗之和,表示为
在第t次迭代中,控制器接收到终端n的本地模型所经历的时延为
所述的全局模型训练,包括以下过程:
当控制器收到N个终端的本地模型后,基于本地模型加权聚合训练全局模型,表示为
采用全局损失函数来量化全局模型真实输出与目标输出之间的差异,定义为N个终端本地损失函数的加权和F(ωt),表示为
5.根据权利要求4所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,所述的本地模型训练、本地模型上传、本地模型加权聚合需要满足调控信息新鲜度的约束;
调控信息新鲜度约束模型为:
定义第t次迭代中终端n的调控信息新鲜度为本地模型信息年龄的倒数,表示为
通过对信息年龄最大的模型进行约束,保障调控信息新鲜度;定义所有终端调控信息新鲜度的集合为ht={h1,t,…,hn,t,…,hN,t},T次迭代调控信息新鲜度长期约束模型构建为
其中,hmin为信息新鲜度约束阈值。
6.根据权利要求1所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,S2步骤中,在保障调控信息新鲜度等长期约束的同时,通过电力至简物联网通信与计算资源的协同优化,最小化T次迭代后调控模型的全局损失函数F(ωT);定义多模态信道分配优化变量的集合为:αn,t={αn,1,t,…,αn,j,t,…,αn,J,t},批量规模优化变量的集合为βn,t={1,2,…,Dn},优化问题构建为:
其中,C1表示每个信道只能分配给一个终端;C2表示每个终端只能被分配一个信道;C3表示终端本地模型训练批量规模约束,C4为终端n的能耗长期约束,其中En,max为终端n的长期能量预算;C5为T次迭代调控信息新鲜度长期约束模型;C6表示终端传输功率约束,其中PPLC、PWLAN和P5G分别表示PLC、WLAN和5G信道传输功率。
7.根据权利要求6所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,由于每次迭代的优化策略不仅与T次迭代后的全局损失函数F(ωT)耦合,而且与信息新鲜度等长期约束耦合,导致优化问题P1难以直接求解,需要进行迭代间优化问题解耦;
针对第一种耦合,基于伸缩和定理将F(ωT)解耦为
其中,F(ωt-1)是第t-1次迭代后的全局损失函数,在第t次迭代优化时是已知参量;将F(ωT)的优化转化为对第t次迭代的损失函数F(ωt)优化;
针对第二种耦合,基于虚拟队列理论,分别构造对应于约束C4和C5的终端能耗赤字虚拟队列Gn(t)与调控信息新鲜度赤字虚拟队列H(t),其队列积压更新为
H(t+1)=max{H(t)-min{ht}+hmin,0} (19)
其中,Gn(t)表示第t次迭代后终端n的能耗与能量预算En,max/T之间的偏差,H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束hmin之间的偏差;
基于李雅普诺夫优化理论,计算李雅普诺夫漂移加惩罚并推导其上界,将P1解耦为最小化各次迭代损失函数的短期优化问题,优化目标为最小化损失函数、调控信息新鲜度赤字与终端能耗赤字的加权和;第t次迭代的联合优化问题表示为
其中,VH和VG为对应于调控信息新鲜度赤字和终端能耗赤字的权重;
进一步将转化后的问题P2建模为MDP优化问题,其关键元素包括状态空间、动作空间与回报函数,具体介绍如下:
1)状态空间:定义终端能耗赤字集合为G(t)={G1(t),…,Gn(t),…,GN(t)},终端能量预算集合为Emax={E1,max,…E2,max,…,EN,max};状态空间包含终端能耗赤字、调控信息新鲜度赤字、终端能量预算和调控信息新鲜度约束阈值等,表示为
8.根据权利要求1所述的一种园区分布式能源调控信息新鲜度保障方法,其特征在于,S3中的IDEAL算法应用于控制层中,用于协调控制园区各终端参与分布式能源调控决策模型训练;其核心思想是利用深度Q网络量化与拟合高维状态空间下的状态-动作价值,即表征动作累积奖励值的Q值,并以此为依据优化信道分配与批量规模决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210287027.8A CN114626306B (zh) | 2022-03-22 | 2022-03-22 | 一种园区分布式能源调控信息新鲜度保障方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210287027.8A CN114626306B (zh) | 2022-03-22 | 2022-03-22 | 一种园区分布式能源调控信息新鲜度保障方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114626306A CN114626306A (zh) | 2022-06-14 |
CN114626306B true CN114626306B (zh) | 2023-01-24 |
Family
ID=81904355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210287027.8A Active CN114626306B (zh) | 2022-03-22 | 2022-03-22 | 一种园区分布式能源调控信息新鲜度保障方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114626306B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114979014B (zh) * | 2022-06-30 | 2024-06-14 | 国网北京市电力公司 | 数据转发路径规划方法、装置以及电子设备 |
CN115174396B (zh) * | 2022-07-02 | 2024-04-16 | 华北电力大学 | 一种基于数字孪生的低碳能源管控通信网业务管理方法 |
CN115149586B (zh) * | 2022-08-01 | 2024-07-19 | 华北电力大学 | 一种分布式能源聚合调控与自主调控协同优化方法及系统 |
CN117240610B (zh) * | 2023-11-13 | 2024-01-23 | 傲拓科技股份有限公司 | 一种基于数据加密的plc模组运行数据传输方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201508269D0 (en) * | 2015-05-14 | 2015-06-24 | Barletta Media Ltd | A system and method for providing a search engine, and a graphical user interface therefor |
CN112637914A (zh) * | 2020-12-10 | 2021-04-09 | 天津(滨海)人工智能军民融合创新中心 | 在双通道环境下基于dqn算法的信道切换系统及方法 |
CN112752337A (zh) * | 2020-12-16 | 2021-05-04 | 南京航空航天大学 | 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法 |
CN113902021A (zh) * | 2021-10-13 | 2022-01-07 | 北京邮电大学 | 一种高能效的聚类联邦边缘学习策略生成方法和装置 |
CN113988356A (zh) * | 2021-09-02 | 2022-01-28 | 华北电力大学 | 一种基于dqn的5g融合智能配电网能量管理方法 |
CN114143355A (zh) * | 2021-12-08 | 2022-03-04 | 华北电力大学 | 一种电力物联网低时延安全云边端协同方法 |
CN114205374A (zh) * | 2020-09-17 | 2022-03-18 | 北京邮电大学 | 基于信息时效性的传输和计算联合调度方法、装置及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253998B (zh) * | 2011-07-12 | 2013-08-14 | 武汉大学 | 基于Web时间不一致的过时网页自动发现与排序方法 |
CN113162798A (zh) * | 2021-03-03 | 2021-07-23 | 国网能源研究院有限公司 | 一种无线供电通信网络的信息传输优化方法及系统 |
CN113657678A (zh) * | 2021-08-23 | 2021-11-16 | 国网安徽省电力有限公司电力科学研究院 | 一种基于信息新鲜度的电网电力数据预测方法 |
-
2022
- 2022-03-22 CN CN202210287027.8A patent/CN114626306B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201508269D0 (en) * | 2015-05-14 | 2015-06-24 | Barletta Media Ltd | A system and method for providing a search engine, and a graphical user interface therefor |
CN114205374A (zh) * | 2020-09-17 | 2022-03-18 | 北京邮电大学 | 基于信息时效性的传输和计算联合调度方法、装置及系统 |
CN112637914A (zh) * | 2020-12-10 | 2021-04-09 | 天津(滨海)人工智能军民融合创新中心 | 在双通道环境下基于dqn算法的信道切换系统及方法 |
CN112752337A (zh) * | 2020-12-16 | 2021-05-04 | 南京航空航天大学 | 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法 |
CN113988356A (zh) * | 2021-09-02 | 2022-01-28 | 华北电力大学 | 一种基于dqn的5g融合智能配电网能量管理方法 |
CN113902021A (zh) * | 2021-10-13 | 2022-01-07 | 北京邮电大学 | 一种高能效的聚类联邦边缘学习策略生成方法和装置 |
CN114143355A (zh) * | 2021-12-08 | 2022-03-04 | 华北电力大学 | 一种电力物联网低时延安全云边端协同方法 |
Non-Patent Citations (7)
Title |
---|
Age-optimal scheduling for heterogeneous;Jingzhou Sun,Lehan Wang,Zhiyuan Jiang,Sheng Zhou;《IEEE Transactions on Industrial Informatics》;20210531;全文 * |
al.Joint rate control and power;BAO Wei,CHEN He,LI Yonghui;《IEEE Transactions on Industrial Informatics》;20170717;全文 * |
Dynamic scheduling for;Yuxuan Sun,Sheng Zhou,Zhisheng Niu,Deniz Gündüz;《IEEE Transactions on Industrial Informatics》;20220131;全文 * |
Efficient federated;Van-Dinh Nguyen,Shree Krishna Sharma,Thang X. Vu;《IEEE Transactions on Industrial Informatics》;20210331;全文 * |
Low-latency federated;Yunlong Lu ,Xiaohong Huang;《IEEE Transactions on Industrial Informatics》;20210731;全文 * |
基于上下文学习的电力物联网接入控制方法;周振宇, 贾泽晗,廖海君,赵雄文,张磊;《通信学报》;20210304;全文 * |
基于强化学习算法的智能电网需求侧响应及优化调度策略研究;李金洧;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20220315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114626306A (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114626306B (zh) | 一种园区分布式能源调控信息新鲜度保障方法及系统 | |
Liu et al. | FedCPF: An efficient-communication federated learning approach for vehicular edge computing in 6G communication networks | |
CN112598150B (zh) | 一种在智能电厂中基于联邦学习提升火灾检测效果的方法 | |
CN113905347B (zh) | 一种空地一体化电力物联网云边端协同方法 | |
CN113326002A (zh) | 基于计算迁移的云边协同控制系统及迁移决策生成方法 | |
CN113778677B (zh) | 面向sla的云边协同资源编排与请求调度智能优化方法 | |
CN106886603A (zh) | 一种需求响应资源组合优化的分层分布式体系架构和方法 | |
CN105446817A (zh) | 移动云计算中一种基于鲁棒优化的联合资源预留配置算法 | |
CN114885422A (zh) | 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法 | |
CN116009990B (zh) | 基于宽注意力机制的云边协同元强化学习计算卸载方法 | |
CN114641076A (zh) | 一种超密集网络中基于动态用户满意度的边缘计算卸载方法 | |
CN115499441A (zh) | 超密集网络中基于深度强化学习的边缘计算任务卸载方法 | |
Su et al. | Joint DNN partition and resource allocation optimization for energy-constrained hierarchical edge-cloud systems | |
Jiang et al. | MARS: A DRL-based Multi-task Resource Scheduling Framework for UAV with IRS-assisted Mobile Edge Computing System | |
CN117376355B (zh) | 基于超图的b5g海量物联网资源分配方法及系统 | |
CN117119486B (zh) | 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法 | |
CN117880122A (zh) | 一种基于madfpg的任务卸载和资源分配联合优化方法 | |
CN115883371B (zh) | 边缘-云协同系统中基于学习优化方法的虚拟网络功能放置方法 | |
Duan et al. | Lightweight federated reinforcement learning for independent request scheduling in microgrids | |
CN116341679A (zh) | 一种高时效的联邦边缘学习调度策略设计方法 | |
Do et al. | Actor-critic deep learning for efficient user association and bandwidth allocation in dense mobile networks with green base stations | |
Behmandpoor et al. | Model-free decentralized training for deep learning based resource allocation in communication networks | |
CN114327853A (zh) | 云边混合系统中面向复杂任务的低成本用户关联和计算迁移方法 | |
Ma et al. | FLIRRAS: fast learning with integrated reward and reduced action space for online multitask offloading | |
CN113835894A (zh) | 一种基于双延迟深度确定性策略梯度的智能计算迁移方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |