CN114626306B

CN114626306B - 一种园区分布式能源调控信息新鲜度保障方法及系统

Info

Publication number: CN114626306B
Application number: CN202210287027.8A
Authority: CN
Inventors: 廖海君; 周振宇; 王雅倩; 卢文冰; 杨阳
Original assignee: Beijing Kuaidian Technology Co ltd; North China Electric Power University
Current assignee: Beijing Kuaidian Technology Co ltd; North China Electric Power University
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2023-01-24
Anticipated expiration: 2042-03-22
Also published as: CN114626306A

Abstract

本发明提供一种园区分布式能源调控信息新鲜度保障方法及系统，从下至上包括：数据层通过在电气设备上部署物联终端，为园区分布式能源调控决策模型训练提供样本数据和本地模型；网络层包含多种通信媒介，为数据层和控制层的交互提供通道；控制层，通过调整信道分配和批量规模决策以降低调控信息年龄，提高调控信息新鲜度；业务层，包括调控业务。步骤包括：园区分布式能源调控决策模型训练；对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模；基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法IDEAL设计。能够在降低全局损失的同时，降低等待时延，保障信息新鲜度。

Description

一种园区分布式能源调控信息新鲜度保障方法及系统

技术领域

本发明提供一种园区分布式能源调控信息新鲜度保障方法及系统，属于电力系统技术领域。

背景技术

随着整县光伏的大力发展，以及新型电力系统的建设，分布式能源迎来爆发式增长。然而，由于光伏等分布式能源具有间歇性、随机性、波动性等特点，高比例分布式能源的并网会对电力系统的潮流分布、电能质量、网络损耗及调节能力造成巨大的影响。因此，需要根据负荷动态调控分布式能源，从而提高新型电力系统的稳定性，实现有功/无功功率的平衡，使光伏等分布式能源得到更好的消纳，避免因消纳困难而出现弃光等现象。园区分布式能源调控需要通过海量信息来构建并训练负荷需求、光伏出力、气象信息与调控策略之间的模型。信息年龄是衡量信息新鲜度的有效指标，表示了信息自产生以来到用于调控模型训练所经历的时延。能源调控信息的新鲜度对模型训练的精度具有重要的影响。信息年龄较大时，信息的新鲜度、时效性较差，会导致训练模型损失函数大，即模型输出与真实输出之间存在较大偏差，从而降低分布式能源调控的可靠性、经济性、准确性。

电力至简物联网具有控制-数据解耦、多模态通信、跨域资源协同等优点，为分布式能源调控模型训练所需要数据的采集和传输提供强有力的通信网络支撑。然而，面向分布式能源调控的电力至简物联网还需要解决如下技术挑战。

第一，模型训练与数据传输的耦合导致模型训练过程中需要将大量原始数据上传至中心训练节点，造成网络拥塞、通信资源浪费、以及本地数据隐私泄露。

第二，通信、计算、存储等跨域资源的优化与模型训练的适配性差，导致模型损失函数大，降低分布式能源调控的准确性与可靠性。而跨域资源协同优化涉及大维优化空间，难以获得精确的概率统计模型与闭式解。

第三，调控现场中存在电力线载波(PLC,power line communication)、WLAN、5G等多模态异构网络，终端计算资源与多模态信道质量差异性导致信息年龄增大，难以保障分布式能源调控信息新鲜度长期约束。

因此，迫切需要设计一种园区分布式能源调控信息新鲜度保障方法及系统，能够在长期调控信息新鲜度约束下实现分布式能源调控模型损失函数最小化，解决园区跨域资源优化与模型训练适配性差、调控信息新鲜度难以保障等问题，保障分布式能源调控的可靠性与经济性。

发明内容

针对如何避免园区分布式能源调控大规模数据交互导致的通信资源浪费、网络拥塞和数据隐私泄露问题，本发明建立基于联邦学习的半分布式调控模型训练架构，通过数据层本地模型训练与控制层全局模型训练，实现决策优化与原始数据传输解耦，避免大规模数据交互导致的通信资源浪费与网络拥塞。

针对如何解决通信、计算、存储等跨域资源的优化与分布式能源调控决策模型损失函数最小化之间适配性差的问题。本发明利用伸缩和与李雅普诺夫优化对长期调控模型损失函数最小化问题进行迭代间解耦，转化为短期马尔科夫决策过程优化问题，并采用深度Q网络(DQN,deep Q network)提高高维优化空间下状态-动作价值拟合精度，学习信道分配与批量规模联合优化策略实现通信与计算资源分配协同，利用更多样本训练全局模型，最小化分布式能源调控决策模型损失函数，保障分布式能源调控的准确性与可靠性。特别地，控制器比较Q值解决多模态信道分配冲突，将信道分配给能获得最大状态-动作价值的终端。

针对如何解决时隙间跨域资源分配策略的耦合与调控信息新鲜度长期保障问题。本发明具备调控信息新鲜度感知能力，利用赤字虚拟队列演进感知每个时隙调控信息新鲜度与规定约束的偏差，动态调整多模态信道分配与批量规模策略，减小信息年龄，实现调控信息新鲜度长期保障，例如，针对由于某一终端计算性能较差所引起的其它终端信息年龄增大、信息新鲜度低的问题，通过为这些被影响的终端增加批量规模并为其分配信道质量更好信道，消除等待时延，提高全局模型信息新鲜度。

具有的技术方案为：

园区分布式能源调控信息新鲜度保障系统从下至上包括数据层、网络层、控制层和业务层；其中，数据层，通过在电气设备上部署物联终端，为园区分布式能源调控决策模型训练提供样本数据和本地模型；

网络层，包含多种通信媒介，为数据层和控制层的交互提供通道；

控制层，通过调整信道分配和批量规模决策以降低调控信息年龄，提高调控信息新鲜度，保证控制器所接收本地终端模型的时效性；

业务层，包括调控业务。

所述的调控业务，包括储能调控、分布式能源出力预测、柔性负荷调控、分布式光伏调控。

园区分布式能源调控信息新鲜度保障方法，利用上述园区分布式能源调控信息新鲜度保障系统，步骤包括：

S1园区分布式能源调控决策模型训练；

S2对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模；

S3基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法IDEAL设计；

其中，调控信息新鲜度问题建模为通过优化分布式能源调控决策模型训练过程中的批量规模、多模态信道选择从而在保障调控信息新鲜度的情况下最小化能源调控决策模型的损失函数。所提出的IDEAL算法承载于园区分布式能源调控信息新鲜度保障系统控制层的控制器中。控制器通过在分布式能源调控决策模型训练中执行该算法动态优化批量规模和多模态信道选择，能够实现调控信息新鲜度长期保障。

具体的：

S1.园区分布式能源调控决策模型训练

采用联邦学习架构迭代训练园区分布式能源调控决策模型，假设共需要T次迭代，集合表示为T＝{1,…,t,…,T}。每次迭代包括四个步骤，具体介绍如下：

1)全局模型下发：控制器通过融合AC/DC PLC、WLAN、5G的多模态通信网络将全局模型下发至终端。

2)本地模型训练：各终端基于本地数据集执行本地模型训练。

3)本地模型上传：各终端通过多模态通信网络将训练后的本地模型上传到控制器。

4)全局模型训练：控制器在收到所有终端上传的本地模型后，基于加权聚合训练全局模型，为精准分布式能源调控优化提供支撑。

具体的，本地模型训练：

假设存在N个物联终端，集合表示为N＝{1,…,n,…N}。第t次迭代中，终端n首先用第t-1次迭代后的全局模型ω_t-1更新本地模型ω_n,t-1，即ω_n,t-1＝ω_t-1。随后，终端n利用本地数据集D_n的部分样本训练本地模型。定义终端n在第t次迭代中用于本地模型训练的样本数量为批量规模β_n,t，采用损失函数来量化模型的真实输出与目标输出之间的偏差。定义终端n在第t次迭代的本地损失函数为本地样本的平均损失

其中，样本损失函数f(ω_n,t-1,x_n,m)量化了本地模型ω_n,t-1在本地数据集D_n中第m个样本的输出与最优输出之间的性能差异。F_n(ω_n,t-1,β_n,t)反映了本地模型ω_n,t-1的精度，可用于本地模型更新。基于梯度下降法，终端n的本地模型更新为

其中，γ＞0为学习步长，

为损失函数F_n(ω_n,t-1,β_n,t)关于本地模型ω_n,t-1的梯度。

定义终端n在第t次迭代的可用计算资源为f_n,t，则本地模型训练的时延与能耗为

其中，e_n为能耗系数(Watt·s³/cycle³)，ξ_n为训练单个样本所需要的CPU周期数(cycles/样本)。

本地模型上传：

假设存在J个多模态信道，包括J₁个5G信道，J₂个WLAN信道和J₃个PLC信道，即J＝J₁+J₂+J₃。信道集合表示为θ＝{1,…,J₁,…,J₁+J₂,…,J}，其中j＝1,…,J₁为5G信道,j＝J₁+1,…,J₁+J₂为WLAN信道，j＝J₁+J₂+1,…,J为PLC信道。定义信道分配变量为α_n,j,t∈{0,1}。其中，α_n,j,t＝1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型，否则α_n,j,t＝0。在第t次迭代，终端n通过信道j上传模型的传输速率为

其中，B_n,j为信道带宽，

为信道增益，

为上行传输功率，

为电气设备运行的电磁干扰功率，

为噪声功率。

定义|ω_n,t|为本地模型ω_n,t的大小(bits)，终端n上传本地模型的时延和能耗为

终端n在第t次迭代的总能耗为本地模型训练与上传的能耗之和，表示为

在第t次迭代中，控制器接收到终端n的本地模型所经历的时延为

全局模型训练：

当控制器收到N个终端的本地模型后，基于本地模型加权聚合训练全局模型，表示为

其中，

表示终端n的本地模型权重，定义为其批量规模与N个终端批量规模之和的比值。

采用全局损失函数来量化全局模型真实输出与目标输出之间的差异，定义为N个终端本地损失函数的加权和，表示为

本地训练、本地模型上传、全局模型聚合需要满足调控信息新鲜度的约束。

调控信息新鲜度是一种信息时效性度量指标，对分布式能源调控的准确性与实时性具有重要影响。调控模型训练时采用的信息新鲜度越高，所生成的调控策略与最优策略之间的性能差距越小。由于控制器在收到所有终端本地模型后才能开始全局模型训练，调控信息新鲜度与控制器接受到各个终端本地模型所经历的时延密切相关。

调控信息新鲜度约束模型的具体描述如下：

定义终端n在第t次迭代训练得到的本地模型信息年龄(AoI,age ofinformation)为该模型离开终端n到参加全局模型训练的时延，主要包括传输时延

和等待时延

表示为

终端n的本地模型等待时延

取决于控制器收到最后一个终端本地模型所经历时延，表示为

定义第t次迭代中终端n的调控信息新鲜度为信息年龄的倒数，表示为

通过对信息年龄最大的模型进行约束，保障调控信息新鲜度。定义所有终端调控信息新鲜度的集合为h_t＝{h_1,t,…,h_n,t,…,h_N,t}，T次迭代调控信息新鲜度长期约束模型可构建为

其中，h_min为信息新鲜度约束阈值。

S2.针对多模态信道分配优化与批量规模优化的调控信息新鲜度保障问题建模

本发明旨在解决分布式能源调控决策模型损失函数最小化问题，其优化目标为在保障调控信息新鲜度等长期约束的同时，通过电力至简物联网通信与计算资源的协同优化，最小化T次迭代后调控模型的全局损失函数F(ω_T)。定义多模态信道分配优化变量的集合为α_n,t＝{α_n,1,t,…,α_n,j,t,…,α_n,J,t}，批量规模优化变量的集合为β_n,t＝{1,2,…,D_n}，优化问题构建为

其中，C₁表示每个信道只能分配给一个终端；C₂表示每个终端只能被分配一个信道；C₃表示终端本地模型训练批量规模约束，其中|Δ_n|表示终端n本地数据集D_n的大小；C₄为终端n的能耗长期约束，其中E_n,max为终端n的长期能量预算；C₅为T次迭代调控信息新鲜度长期约束模型；C₆表示终端传输功率约束，其中P_PLC、P_WLAN和P_5G分别表示PLC、WLAN和5G信道传输功率。

由于每次迭代的优化策略不仅与T次迭代后的全局损失函数F(ω_T)耦合，而且与信息新鲜度等长期约束耦合，导致优化问题P1难以直接求解，需要进行迭代间优化问题解耦；

针对第一种耦合，基于伸缩和定理将F(ω_T)解耦为

其中，F(ω_t-1)是第t-1次迭代后的全局损失函数，在第t次迭代优化时是已知参量。由上式可知，F(ω_T)只与第t次迭代的全局损失函数F(ω_t)相关，即将F(ω_T)的优化转化为对第t次迭代的损失函数F(ω_t)优化。

针对第二种耦合，基于虚拟队列理论，分别构造对应于约束C₄和C₅的终端能耗赤字虚拟队列G_n(t)与调控信息新鲜度赤字虚拟队列H(t)，其队列积压更新为

H(t+1)＝max{H(t)-min{h_t}+h_min,0} (19)

其中，G_n(t)表示第t次迭代后终端n的能耗与能量预算E_n,max/T之间的偏差，H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束h_min之间的偏差。

基于李雅普诺夫优化理论，计算李雅普诺夫漂移加惩罚并推导其上界，可将P1解耦为最小化各次迭代损失函数的短期优化问题，优化目标为最小化损失函数、调控信息新鲜度赤字与终端能耗赤字的加权和。第t次迭代的联合优化问题表示为

其中，V_H和V_G为对应于调控信息新鲜度赤字和终端能耗赤字的权重。

进一步将转化后的问题P2建模为MDP优化问题，其关键元素包括状态空间、动作空间与回报函数，具体介绍如下：

1)状态空间：定义终端能耗赤字集合为G(t)＝{G₁(t),…,G_n(t),…,G_N(t)}，终端能量预算集合为E_max＝{E_1,max,…E_2,max,…,E_N,max}。状态空间包含终端能耗赤字、调控信息新鲜度赤字、终端能量预算和调控信息新鲜度约束阈值等，表示为

2)动作空间：动作空间定义为A_t＝{A_1,t,…,A_n,t,…,A_N,t}，其中A_n,t为终端n对应的动作空间，表示为α_n,t和β_n,t的笛卡尔积，即

3)回报函数：回报函数定义为P2的优化目标，即

S3.基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法设计

该算法应用于控制层中，用于协调控制园区各终端参与分布式能源调控决策模型训练。其核心思想是利用深度Q网络量化与拟合高维状态空间下的状态-动作价值，即表征动作累积奖励值的Q值，并以此为依据优化信道分配与批量规模决策。

IDEAL算法结构，包括主网络、目标网络、经验池、以多模态信道分配冲突解决模块、调控信息新鲜度赤字更新模块。

IDEAL算法的执行主体为控制器。针对每个终端n，控制器构造了两个DQN，分别为用于优化决策的主网络

和用于辅助主网络训练的目标网络

其中，目标网络与主网络具有相同神经网络结构，通过采用更长的目标网络更新周期，使主网络在一段时间内的目标值保持相对固定，提升学习稳定性。控制器构造经验池用于存储经验数据。在此基础上，IDEAL采用经验回放机制，通过周期性随机采样部分经验数据训练DQN；

一次调控决策模型训练迭代可分为以下三个步骤：首先，控制器基于主网络估计的Q值优化信道分配和批量规模决策，并通过比较Q值解决多模态信道分配冲突，其核心思想是将信道分配给能获得最大状态-动作价值的终端。其次，控制器下发信道分配和批量规模决策，所有终端执行本地模型训练和模型上传，并将能耗信息反馈至控制器。最后，基于终端上传的信息，控制器更新调控信息新鲜度赤字、终端能耗赤字，计算回报函数，更新经验池，并转移至下一状态。控制器计算DQN损失函数，以此为依据更新主网络参数，并周期性更新目标网络参数。

IDEAL算法执行流程如算法，包括三个阶段，分别为初始化、动作选择及多模态信道分配冲突解决以及学习。

1)初始化阶段：初始化G_n(t)＝0，H(t)＝0，α_n,j,t＝0，β_n,t＝0，

定义未被分配信道的终端集合为N_t，并初始化N_t＝N。定义终端n∈N_t的可分配信道集合为θ_n,t，并初始化θ_n,t＝θ。

2)动作选择及多模态信道分配冲突解决阶段：首先，控制器基于ε-贪婪算法为每个终端选择动作，以终端n为例，控制器基于终端n主网络

估计的Q值

以概率ε随机选择动作，以概率1-ε选择Q值最大的动作

其次，当存在信道分配冲突时，同时为终端n和m分配信道j且

控制器通过比较终端n和m的Q值，将信道j分配给Q值较大的终端n并拒绝终端m。随后，控制器将终端n移出未被分配信道的终端集合，即N_t＝N_t\n，并设置被拒绝终端m的Q值为

其中a_m,t为终端m动作空间A_m,t中对应于信道j的动作集合，表示为a_m,t＝{A_m,t(j,1),A_m,t(j,2),…,A_m,t(j,|Δ_n|)}。基于更新的Q值，重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道。

最后，控制器下发信道分配和批量规模决策，终端n∈N按照决策执行本地模型训练和本地模型上传，并将能耗信息E_n,t上传至控制器。

3)学习阶段：在学习阶段，控制器通过计算终端执行动作后的回报函数来更新DQN网络参数，以提高DQN对状态-动作价值的拟合精度，使DQN输出最佳策略，实现信道分配和批量规模的优化，提高全局模型的精度，保障调控信息新鲜度，降低终端能耗。

首先，基于终端上传的能耗信息，控制器根据(18)更新终端能耗赤字G_n(t+1)。同时，控制器根据所收到本地模型时间戳、模型下发时间以及公式(9)、(13)、(14)计算获得第t次迭代的信息新鲜度，并根据(19)更新调控信息新鲜度赤字H(t+1)。控制器根据(20)计算回报函数

由(20)可以看出，当调控信息新鲜度与规定约束偏离严重时，H(t)逐渐增加，导致回报函数值降低，迫使控制器调整信道分配和批量规模决策以降低调控信息年龄，提高调控信息新鲜度，保证控制器所接收本地终端模型的时效性，从而实现调控信息新鲜度感知，提高控制器分布式能源调控决策的准确性和可靠性。

其次，控制器生成一个样本

用于更新回放经验池Γ_n,t，并转移至状态S_t+1。从回放经验池中随机抽取部分样本构成

为

中的样本数量。DQN损失函数可计算为

其中

其中，λ为折扣因子。

最后，基于υ_n，更新主网络参数

如下

其中，κ为学习步长。每T₀次迭代更新目标网络为

本发明将调控信息新鲜度长期约束纳入园区分布式能源调控过程中，通过建立园区分布式能源调控决策模型，能够在最小化全局损失的同时，降低信息年龄，保障调控信息新鲜度。此外本发明可运用于整县光伏、新型电力系统分布式能源并网工程中，为分布式能源调控模型训练提供信息新鲜度保障。

(1)提出园区分布式能源调控信息新鲜度保障系统，通过将调控信息新鲜度长期约束纳入园区分布式能源调控过程中，能够在降低全局损失的同时，降低等待时延，保障信息新鲜度。

(2)提出园区分布式能源调控信息新鲜度保障方法，通过建立基于联邦学习的半分布式调控模型训练架构，进行数据层本地模型训练与控制层全局模型训练，实现决策优化与原始数据传输解耦，避免大规模数据交互导致的通信资源浪费与网络拥塞。

(3)提出园区分布式能源调控信息新鲜度保障方法，针对多模态信道分配优化与批量规模优化建立调控新鲜度保障问题模型，利用伸缩和与李雅普诺夫优化定理实现长期调控模型损失函数最小化问题迭代间解耦。

(4)提出园区分布式能源调控信息新鲜度保障方法，通过提出基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法(IDEAL,information freshnessaware-based communication-and-computation collaborative optimizationalgorithm for simplified Power Internet of Things)，利用深度Q网络(DQN,deep Qnetwork)提高高维优化空间下状态-动作价值拟合精度，通过学习信道分配与批量规模联合优化策略实现通信与计算资源分配协同，基于终端Q值比较解决多模态信道竞争冲突。其中，IDEAL具备新鲜度感知能力，通过赤字虚拟队列演进感知每个时隙调控信息新鲜度与规定约束的偏差，并根据偏差动态调整信道分配与批量规模优化策略，降低调控信息年龄，实现调控信息新鲜度长期保障。

附图说明

图1为本发明的园区分布式能源调控信息新鲜度保障系统结构示意图；

图2(a)为本发明终端计算资源差异性与多模态信道差异性导致信息年龄大示意图；

图2(b)为本发明信道分配与批量规模协同优化减小信息年龄示意图；

图3为本发明IDEAL算法结构图；

图4为全局损失函数随迭代次数变化情况；

图5为平均调控信息新鲜度和平均批量规模对比；

图6为训练时延、传输时延、等待时延和批量规模随迭代次数变化情况；

图7为对比了不同算法的终端能耗与调控信息新鲜度分布情况；

图8为对比了平均调控信息新鲜度与平均信息年龄随调控信息新鲜度权重变化情况。

具体实施方式

结合附图说明本发明的具体技术方案。

整个技术方案包括园区分布式能源调控信息新鲜度保障系统和园区分布式能源调控信息新鲜度保障方法。

如图1所示，园区分布式能源调控信息新鲜度保障系统从下至上包括数据层、网络层、控制层和业务层。其中，数据层通过在分布式光伏、可控负荷、充电桩等电气设备上部署物联终端，为园区分布式能源调控决策模型训练提供样本数据和本地模型。网络层包含PLC、WLAN和5G等多种通信媒介，为数据层和控制层的交互提供通道。控制层通过调整信道分配和批量规模决策以降低调控信息年龄，提高调控信息新鲜度，保证控制器所接收本地终端模型的时效性，从而实现调控信息新鲜度感知，提高控制器分布式能源调控决策的准确性和可靠性。业务层包括储能调控、分布式能源出力预测、柔性负荷调控、分布式光伏调控等调控业务。

本系统基于电力至简物联网架构，采用分布式人工智能、控制-数据解耦、统一信令交互、跨域资源融合等技术，实现多模态物联终端异构融合，支撑分布式能源调控决策模型训练。通过将调控信息新鲜度长期约束纳入园区分布式能源调控过程中，能够在降低全局损失的同时，降低等待时延，保障信息新鲜度。

园区分布式能源调控信息新鲜度保障方法，利用上述园区分布式能源调控信息新鲜度保障系统，步骤包括:S1园区分布式能源调控决策模型训练，S2对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模，S3基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法(IDEAL,information freshness aware-basedcommunication-and-computation collaborative optimization algorithm forsimplified Power Internet of Things)设计。其中，调控信息新鲜度问题建模为通过优化分布式能源调控决策模型训练过程中的批量规模、多模态信道选择从而在保障调控信息新鲜度的情况下最小化能源调控决策模型的损失函数。所提出的IDEAL算法承载于园区分布式能源调控信息新鲜度保障系统控制层的控制器中。控制器通过在分布式能源调控决策模型训练中执行该算法动态优化批量规模和多模态信道选择，能够实现调控信息新鲜度长期保障。

S1.园区分布式能源调控决策模型训练

本发明采用联邦学习架构迭代训练园区分布式能源调控决策模型，假设共需要T次迭代，集合表示为T＝{1,…,t,…,T}。每次迭代包括四个步骤，具体介绍如下：

由于下行传输能力强，全局模型下发时延可忽略不计。因此，本发明重点考虑本地模型训练、本地模型上传、全局模型聚合三个步骤。

(1)本地模型训练

假设存在N个物联终端，集合表示为N＝{1,…,n,…N}。第t次迭代中，终端n首先用第t-1次迭代后的全局模型ω_t-1更新本地模型ω_n,t-1，即ω_n,t-1＝ω_t-1。随后，终端n利用本地数据集D_n的部分样本训练本地模型。定义终端n在第t次迭代中用于本地模型训练的样本数量为批量规模β_n,t，采用损失函数来量化模型的真实输出与目标输出之间的偏差。定义终端n在第t次迭代的本地损失函数为本地样本的平均损失，即

其中，γ＞0为学习步长，

为损失函数F_n(ω_n,t-1,β_n,t)关于本地模型ω_n,t-1的梯度。

(2)本地模型上传

其中，B_n,j为信道带宽，

为信道增益，

为上行传输功率，

为电气设备运行的电磁干扰功率，

为噪声功率。

(3)全局模型训练

其中，

采用全局损失函数来量化全局模型真实输出与目标输出之间的差异，定义为N个终端本地损失函数的加权和，即

本地训练模型信息年龄示意图如图2(a)和图2(b)所示，调控信息新鲜度约束模型的具体描述如下：

和等待时延

表示为

如图2(a)所示，由于终端可用计算资源和通信媒介的差异性，先到达的模型需等待控制器收到所有终端的本地模型后才能参加全局模型训练，导致调控信息年龄增加与信息新鲜度下降。因此，终端n的本地模型等待时延

取决于控制器收到最后一个终端本地模型所经历时延，即

定义第t次迭代中终端n的调控信息新鲜度为信息年龄的倒数，即

其中，h_min为信息新鲜度约束阈值。

对比图2(a)与图2(b)可知，动态调整多模态信道分配与批量规模策略能够减小信息年龄、提高信息新鲜度。如图2(a)所示，由于终端1计算性能较差，终端2和3上传的本地模型需要等待终端1完成本地模型上传后才能被聚合，导致终端2和3信息年龄增大，信息新鲜度低。如图2(b)所示，通过协同信道分配与批量规模，增加终端2和3的批量规模并为其分配信道质量更好的5G和WLAN信道，消除等待时延、提高全局模型信息新鲜度的同时能够利用更多样本训练全局模型、减小全局损失函数，保障了分布式能源调控的准确性与可靠性。

针对第一种耦合，基于伸缩和定理将F(ω_T)解耦为

H(t+1)＝max{H(t)-min{h_t}+h_min,0} (19)

3)回报函数：回报函数定义为P2的优化目标，即

本发明提出一种园区分布式能源调控新鲜度保障方法及系统，并提出基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法(IDEAL,informationfreshness aware-based communication-and-computation collaborativeoptimization algorithm for simplified Power Internet of Things)。该算法应用于控制层中，用于协调控制园区各终端参与分布式能源调控决策模型训练。其核心思想是利用深度Q网络量化与拟合高维状态空间下的状态-动作价值，即表征动作累积奖励值的Q值，并以此为依据优化信道分配与批量规模决策。

IDEAL算法结构图如图3所示，包括主网络、目标网络、经验池、以多模态信道分配冲突解决模块、调控信息新鲜度赤字更新模块等。

IDEAL算法的执行主体为控制器。针对每个终端，例如终端n，控制器构造了两个DQN，分别为用于优化决策的主网络

和用于辅助主网络训练的目标网络

其中，目标网络与主网络具有相同神经网络结构，通过采用更长的目标网络更新周期，使主网络在一段时间内的目标值保持相对固定，提升学习稳定性。控制器构造经验池用于存储状态、动作、成本等经验数据。在此基础上，IDEAL采用经验回放机制，通过周期性随机采样部分经验数据训练DQN，克服经验数据的相关性与非平稳分布问题，提高优化性能。

IDEAL算法执行流程如算法1所示，包括三个阶段，分别为初始化(1-3行)、动作选择及多模态信道分配冲突解决(5-16行)以及学习(17-25行)。

估计的Q值

以概率ε随机选择动作，以概率1-ε选择Q值最大的动作

其次，当存在信道分配冲突时，例如同时为终端n和m分配信道j且

3)学习阶段：在学习阶段，控制器通过计算终端执行动作后的回报函数来更新DQN网络参数，以提高DQN对状态-动作价值的拟合精度，使DQN输出最佳策略，实现信道分配和批量规模的优化，提高全局模型的精度，保障调控信息新鲜度，降低终端能耗。首先，基于终端上传的能耗信息，控制器根据(18)更新终端能耗赤字G_n(t+1)。同时，控制器根据所收到本地模型时间戳、模型下发时间以及公式(9)、(13)、(14)计算获得第t次迭代的信息新鲜度，并根据(19)更新调控信息新鲜度赤字H(t+1)。控制器根据(20)计算回报函数

其次，控制器生成一个样本

为

中的样本数量。DQN损失函数可计算为

其中

其中，λ为折扣因子。

最后，基于υ_n，更新主网络参数

如下

其中，κ为学习步长。每T₀次迭代更新目标网络为

算法1IDEAL算法

输入N，J，T，V，{E_n,max}，{h_min}

输出α_n,t，β_n,t

1)阶段一：初始化

2)初始化G_n(t)＝0，H(t)＝0，α_n,j,t＝0，β_n,t＝0，

3)定义未分配信道的终端集合为N_t，并初始化N_t＝N

4)for t＝1,…,T

5)阶段二：动作选择及多模态信道分配冲突解决

6)for n＝1,…,N

7)以概率ε随机选择动作，以概率1-ε选择Q值最大的动作

8)end for

9)ifα_n,j,t&α_m,j,t＝1，

10)假设

11)控制器将信道j分配给Q值较大的终端n，并拒绝终端m

12)end if

13)更新N_t＝N_t\n

14)设置被拒绝终端m的Q值为

15)基于更新的Q值，重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道

16)终端n∈N按照决策执行本地模型训练和本地模型上传，并将能耗信息E_n,t上传至控制器

17)阶段三：学习

18)控制器根据(18)和(19)更新终端能耗赤字G_n(t+1)和调控信息新鲜度赤字H(t+1)，根据(20)计算回报函数

生成样本η_n,t并更新回放经验池Γ_n,t

19)转移至状态S_t+1

20)for n＝1,…,N

21)控制器根据(21)计算损失函数υ_n，根据(23)更新主网络

22)if t mod T₀＝0

23)更新

24)end if

25)end for

26)end for

本发明对上述提出的IDEAL算法进行了仿真，并设置了两个对比算法进行性能的对比验证，对比算法设置如下：

对比算法1：基于联邦深度强化学习的低时延资源分配算法(FLRA,federatedDRLbased low-latencyresource allocation algorithm)，该算法基于深度确定性策略梯度，通过优化批量规模与信道分配策略最小化联邦学习全局损失函数，该算法不具有能耗感知与调控信息新鲜度感知能力。

对比算法2：自适应联邦学习批量规模优化算法(AFLB,adaptive federatedlearning based batch size optimizationalgorithm)，该算法基于近端策略优化，通过优化批量规模最小化全局损失函数，该算法无法实现信道分配优化，无法解决信道分配冲突，不具有调控信息新鲜度感知能力。

图4描述了全局损失函数随迭代次数的变化情况。随着迭代次数增加，全局损失函数先下降后稳定。在迭代次数为200时，相比于FLRA和AFLB，IDEAL的全局损失函数分别降低了63.29％和38.88％。IDEAL在保障终端能耗与调控信息新鲜度长期约束的前提下，能够最大化参与本地模型训练的批量规模，从而降低全局损失函数。相关仿真结果将在图5中进一步阐述。

图5对比了不同算法的平均调控信息新鲜度和平均批量规模。其中，平均调控信息新鲜度和平均批量规模分别定义为

和

与FLRA和AFLB相比，IDEAL的平均调控信息新鲜度分别提高了20.59％和57.69％，平均批量规模分别提高了70.37％和6.98％。针对计算能力较差的终端，IDEAL通过为其分配质量更好的信道，降低传输时延。针对等待时延较大的终端，IDEAL通过增加其本地训练的批量规模，降低等待时延，提高调控信息新鲜度。

图6描述了训练时延、传输时延、等待时延和平均批量规模随迭代次数的变化情况。经过200次迭代后，训练时延增加了23.08％，传输时延下降了52.50％，等待时延下降71.88％，总时延下降21.17％。IDEAL调整了训练时延与等待时延占比，即通过优化信道分配降低传输时延，通过增加批量规模增大训练时延，从而使等待时延与总时延显著下降。

图7对比了不同算法200次迭代终端能耗与调控信息新鲜度分布情况。由仿真结果可以看出，IDEAL具有最小终端能耗中位数与最高调控信息新鲜度中位数。与FLRA和AFLB相比，IDEAL的终端能耗波动范围分别降低了24.93％和16.38％，调控信息新鲜度波动范围分别降低了30.97％和39.61％。FLRA无法保障终端能耗与调控信息新鲜度长期约束，导致波动范围较大。结合图5，FLRA的批量规模较小，训练能耗较低，因此终端能耗性能优于AFLB。

图8描述了平均调控信息新鲜度和平均信息年龄随调控信息新鲜度权重V_H的变化情况。随着V_H增大，平均信息年龄逐渐减小，平均调控信息新鲜度逐渐增加，同时等待时延显著下降。当V_H由5增加至12时，平均调控信息新鲜度提高了55.56％，平均信息年龄下降了35.61％，等待时延降低了67.05％。仿真结果表明，IDEAL主要通过减少等待时延，进而降低信息年龄，提高调控信息新鲜度。

Claims

1.一种园区分布式能源调控信息新鲜度保障方法，利用一种园区分布式能源调控信息新鲜度保障系统，所述的一种园区分布式能源调控信息新鲜度保障系统，从下至上包括数据层、网络层、控制层和业务层；

其中，数据层，通过在电气设备上部署物联终端，为园区分布式能源调控决策模型训练提供样本数据和本地模型；

业务层，包括能源调控业务；

其特征在于，步骤包括：

S1园区分布式能源调控决策模型训练；

其中，调控信息新鲜度问题建模为通过优化分布式能源调控决策模型训练过程中的批量规模、多模态信道选择从而在保障调控信息新鲜度的情况下最小化能源调控决策模型的损失函数；

所提出的IDEAL算法承载于园区分布式能源调控信息新鲜度保障系统控制层的控制器中；控制器通过在分布式能源调控决策模型训练中执行该IDEAL算法动态优化批量规模和多模态信道选择，能够实现调控信息新鲜度长期保障；

IDEAL算法结构，包括主网络、目标网络、经验池、以多模态信道分配冲突解决模块、调控信息新鲜度赤字更新模块；

IDEAL算法的执行主体为控制器；针对每个终端n，控制器构造了两个深度Q网络DQN，分别为用于优化决策的主网络

和用于辅助主网络训练的目标网络

其中，目标网络与主网络具有相同神经网络结构，通过采用更长的目标网络更新周期，使主网络在一段时间内的目标值保持相对固定，提升学习稳定性；控制器构造经验池用于存储经验数据；在此基础上，IDEAL采用经验回放机制，通过周期性随机采样部分经验数据训练DQN；

所述的IDEAL算法执行流程，包括三个阶段，分别为初始化、动作选择及多模态信道分配冲突解决以及学习；

G_n(t)表示第t次迭代后终端n的能耗与能量预算E_n,max/T之间的偏差；

H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束h_min之间的偏差；

α_n,j,t∈{0,1}为信道分配变量；其中，α_n,j,t＝1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型，否则α_n,j,t＝0；

β_n,t为批量规模，即终端n在第t次迭代中用于本地模型训练的样本数量；

N个物联终端集合表示为

信道集合表示为

其中j＝1,…,J₁为5G信道,j＝J₁+1,…,J₁+J₂为WLAN信道，j＝J₁+J₂+1,…,J为PLC信道；T次迭代，集合表示为

此处的意思是对于所有物联终端、信道以及迭代，将其能耗偏差G_n(t)、调控信息新鲜度偏差H(t)以及信道分配变量都初始化为0；

定义未被分配信道的终端集合为

并初始化

定义终端

的可分配信道集合为

并初始化

2)动作选择及多模态信道分配冲突解决阶段：

首先，控制器基于ε-贪婪算法为每个终端选择动作，以终端n为例，S_t为状态空间，A_n,t为执行动作空间，

为主网络参数，控制器基于终端n主网络参数

估计的Q值

反映了在状态空间S_t下执行动作空间A_n,t对应的价值，以概率ε随机选择动作，以概率1-ε选择Q值最大的动作

其次，当存在信道分配冲突时，同时为终端n和m分配信道j且

控制器通过比较终端n和m的Q值，将信道j分配给Q值较大的终端n并拒绝终端m；随后，控制器将终端n移出未被分配信道的终端集合，即

并设置被拒绝终端m的Q值为

其中a_m,t为终端m动作空间A_m,t中对应于信道j的动作集合，表示为a_m，t＝{A_m，t(j，1)，A_m，t(j，2)，…，A_m，t(j，|Δ_n|)；其中|Δ_n|表示终端n本地数据集

的大小；基于更新的Q值，重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道；

最后，控制器下发信道分配和批量规模决策，终端

按照决策执行本地模型训练和本地模型上传，并将能耗信息E_n,t上传至控制器；

3)学习阶段：在学习阶段，控制器通过计算终端执行动作后的回报函数来更新DQN网络参数，以提高DQN对状态-动作价值的拟合精度，使DQN输出最佳策略，实现信道分配和批量规模的优化，提高全局模型的精度，保障调控信息新鲜度，降低终端能耗；

所述的学习阶段，包括以下步骤：首先，基于终端上传的能耗信息，控制器更新终端能耗赤字虚拟队列G_n(t+1)；同时，控制器根据所收到本地模型时间戳、模型下发时间以及终端n的本地模型所经历的时延、最后一个终端本地模型所经历时延、本地模型信息年龄的倒数计算获得第t次迭代的信息新鲜度，并更新调控信息新鲜度赤字虚拟队列H(t+1)；控制器计算回报函数

当调控信息新鲜度与规定约束偏离严重时，H(t)逐渐增加，导致回报函数值降低，迫使控制器调整信道分配和批量规模决策以降低调控信息年龄，提高调控信息新鲜度，保证控制器所接收本地终端模型的时效性，从而实现调控信息新鲜度感知，提高控制器分布式能源调控决策的准确性和可靠性；

其次，控制器生成一个样本

用于更新回放经验池Γ_n,t，并转移至状态S_t+1；从回放经验池中随机抽取部分样本构成

为

中的样本数量；DQN损失函数计算为

其中

其中，λ为折扣因子；

最后，基于υ_n，更新主网络参数

如下

其中，κ为学习步长；每T₀次迭代更新目标网络为

2.根据权利要求1所述的一种园区分布式能源调控信息新鲜度保障方法，其特征在于，所述的调控业务，包括储能调控、分布式能源出力预测、柔性负荷调控、分布式光伏调控。

3.根据权利要求1所述的一种园区分布式能源调控信息新鲜度保障方法，其特征在于，S1步骤中，采用联邦学习架构迭代训练园区分布式能源调控决策模型，假设共需要T次迭代，集合表示为

每次迭代包括四个步骤：

1)全局模型下发：控制器通过融合AC/DC PLC、WLAN、5G的多模态通信网络将全局模型下发至终端；

2)本地模型训练：各终端基于本地数据集执行本地模型训练；

3)本地模型上传：各终端通过多模态通信网络将训练后的本地模型上传到控制器；

4.根据权利要求3所述的一种园区分布式能源调控信息新鲜度保障方法，其特征在于，所述的本地模型训练，包括以下过程：

N个物联终端集合表示为

第t次迭代中，终端n首先用第t-1次迭代后的全局模型ω_t-1更新本地模型ω_n,t-1；随后，终端n利用本地数据集

的部分样本训练本地模型；定义终端n在第t次迭代中用于本地模型训练的样本数量为批量规模β_n,t，采用损失函数来量化模型的真实输出与目标输出之间的偏差；定义终端n在第t次迭代的本地损失函数为本地样本的平均损失

其中，样本损失函数f(ω_n,t-1,x_n,m)量化了本地模型ω_n,t-1在本地数据集

中第m个样本的输出与最优输出之间的性能差异；F_n(ω_n,t-1,β_n,t)反映了本地模型ω_n,t-1的精度，可用于本地模型更新；基于梯度下降法，终端n的本地模型更新为

其中，γ＞0为学习步长，

为损失函数F_n(ω_n,t-1,β_n,t)关于本地模型ω_n,t-1的梯度；

其中，e_n为能耗系数，Watt·s³/cycle³；ξ_n为训练单个样本所需要的CPU周期数，cycles/样本；

所述的本地模型上传，包括以下过程：

J个多模态信道包括J₁个5G信道，J₂个WLAN信道和J₃个PLC信道，J＝J₁+J₂+J₃；信道集合表示为

其中j＝1,…,J₁为5G信道,j＝J₁+1,…,J₁+J₂为WLAN信道，j＝J₁+J₂+1,…,J为PLC信道；定义信道分配变量为α_n,j,t∈{0,1}；其中，α_n,j,t＝1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型，否则α_n,j,t＝0；在第t次迭代，终端n通过信道j上传模型的传输速率为

其中，B_n,j为信道带宽，

为信道增益，

为上行传输功率，

为电气设备运行的电磁干扰功率，

为噪声功率；

所述的全局模型训练，包括以下过程：

其中，

表示终端n的本地模型权重，定义为其批量规模与N个终端批量规模之和的比值；

采用全局损失函数来量化全局模型真实输出与目标输出之间的差异，定义为N个终端本地损失函数的加权和F(ω_t)，表示为

5.根据权利要求4所述的一种园区分布式能源调控信息新鲜度保障方法，其特征在于，所述的本地模型训练、本地模型上传、本地模型加权聚合需要满足调控信息新鲜度的约束；

调控信息新鲜度约束模型为：

定义终端n在第t次迭代训练得到的本地模型信息年龄为该模型离开终端n到参加全局模型训练的时延，主要包括传输时延

和等待时延

表示为

终端n的本地模型等待时延

定义第t次迭代中终端n的调控信息新鲜度为本地模型信息年龄的倒数，表示为

通过对信息年龄最大的模型进行约束，保障调控信息新鲜度；定义所有终端调控信息新鲜度的集合为h_t＝{h_1,t,…,h_n,t,…,h_N,t}，T次迭代调控信息新鲜度长期约束模型构建为

其中，h_min为信息新鲜度约束阈值。

6.根据权利要求1所述的一种园区分布式能源调控信息新鲜度保障方法，其特征在于，S2步骤中，在保障调控信息新鲜度等长期约束的同时，通过电力至简物联网通信与计算资源的协同优化，最小化T次迭代后调控模型的全局损失函数F(ω_T)；定义多模态信道分配优化变量的集合为：α_n,t＝{α_n,1,t,…,α_n,j,t,…,α_n,J,t}，批量规模优化变量的集合为β_n,t＝{1,2,…,D_n}，优化问题构建为：

其中，C₁表示每个信道只能分配给一个终端；C₂表示每个终端只能被分配一个信道；C₃表示终端本地模型训练批量规模约束，C₄为终端n的能耗长期约束，其中E_n,max为终端n的长期能量预算；C₅为T次迭代调控信息新鲜度长期约束模型；C₆表示终端传输功率约束，其中P_PLC、P_WLAN和P_5G分别表示PLC、WLAN和5G信道传输功率。

7.根据权利要求6所述的一种园区分布式能源调控信息新鲜度保障方法，其特征在于，由于每次迭代的优化策略不仅与T次迭代后的全局损失函数F(ω_T)耦合，而且与信息新鲜度等长期约束耦合，导致优化问题P1难以直接求解，需要进行迭代间优化问题解耦；

针对第一种耦合，基于伸缩和定理将F(ω_T)解耦为

其中，F(ω_t-1)是第t-1次迭代后的全局损失函数，在第t次迭代优化时是已知参量；将F(ω_T)的优化转化为对第t次迭代的损失函数F(ω_t)优化；

H(t+1)＝max{H(t)-min{h_t}+h_min,0} (19)

其中，G_n(t)表示第t次迭代后终端n的能耗与能量预算E_n,max/T之间的偏差，H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束h_min之间的偏差；

基于李雅普诺夫优化理论，计算李雅普诺夫漂移加惩罚并推导其上界，将P1解耦为最小化各次迭代损失函数的短期优化问题，优化目标为最小化损失函数、调控信息新鲜度赤字与终端能耗赤字的加权和；第t次迭代的联合优化问题表示为

其中，V_H和V_G为对应于调控信息新鲜度赤字和终端能耗赤字的权重；

1)状态空间：定义终端能耗赤字集合为G(t)＝{G₁(t),…,G_n(t),…,G_N(t)}，终端能量预算集合为E_max＝{E_1,max,…E_2,max,…,E_N,max}；状态空间包含终端能耗赤字、调控信息新鲜度赤字、终端能量预算和调控信息新鲜度约束阈值等，表示为

3)回报函数：回报函数定义为P2的优化目标，即

8.根据权利要求1所述的一种园区分布式能源调控信息新鲜度保障方法，其特征在于，S3中的IDEAL算法应用于控制层中，用于协调控制园区各终端参与分布式能源调控决策模型训练；其核心思想是利用深度Q网络量化与拟合高维状态空间下的状态-动作价值，即表征动作累积奖励值的Q值，并以此为依据优化信道分配与批量规模决策。