CN115439026B

CN115439026B - 基于嵌套联邦学习的多智能体自组织需求响应方法及系统

Info

Publication number: CN115439026B
Application number: CN202211388054.0A
Authority: CN
Inventors: 吕天光; 李竞; 程浩源; 艾芊; 杨明; 王飞; 韩学山; 邹贵彬; 王成福
Original assignee: Shanghai Jiaotong University; Shandong University
Current assignee: Shanghai Jiaotong University; Shandong University
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-03-24
Anticipated expiration: 2042-11-08
Also published as: CN115439026A; JP7382045B1; JP2024068611A

Abstract

本发明属于电力系统需求响应技术领域，提供了基于嵌套联邦学习的多智能体自组织需求响应方法及系统，包括：建立了时变影响模型来描述各智能体用户参与需求响应的能力；构建了基于时变影响模型的自组织激励机制；以分布式网络管理器中的参数服务器为基础，建立了一个嵌套联邦学习优化计算框架，该框架可以在保证用户隐私的前提下，计算出自组织体中各智能体效用的最优收敛值，并进一步从分布式网络管理器中获取该信息；最后，参数服务器集成模型并将其返回给智能体，以实现高效和经济的需求响应管理。

Description

基于嵌套联邦学习的多智能体自组织需求响应方法及系统

技术领域

本发明属于电力系统需求响应技术领域，尤其涉及基于嵌套联邦学习的多智能体自组织需求响应方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

当配电系统中分布式发电机、负荷等资源的数量并不庞大时，控制中心能充分整合所有资源的特点，然后通过集中清算的方式实现资源的整合调度。但随着配电系统的快速发展，新型配电系统中通常存在大量分布式电源、储能装置、柔性负荷等智能体，传统模式的控制中心无法接触到所有资源的特点，可能造成集中调度效果不佳。同时，在传统电力市场中，由于缺乏良好的激励机制，且对需求方用电特征识别不准确，市场交易和调度过程效率相对较低。

传统的需求响应方法是一种让客户响应分时电价信号或实时调度指令的机制，通过动态改变电能消耗行为可以降低临界峰值需求或将不同时段的电能消耗转移。但传统的需求响应方法都是从用户用电特点和市场运行规律出发，这种做法将导致用户的私人信息完全泄露。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供基于嵌套联邦学习的多智能体自组织需求响应方法及系统，提出了嵌套联邦学习算法，在计算过程中充分结合了自组织体的演变，通过根据智能体的特点将其分组，来提高调度过程中智能体的反应率，实现对智能体更精确的控制，从而减少调度成本。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于嵌套联邦学习的多智能体自组织需求响应方法，其包括：

步骤1、初始化迭代次数、隐私预算和需求响应能力，并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值；

步骤2、基于贡献能力标准值、参与能力标准值、主动性标准值，计算得到影响值并上传至参数服务器端，以获取是否加入自组织体的反馈和更新的主动性标准值；

步骤3、在收到加入自组织体的反馈后生成训练样本，并以隐私预算和需求响应能力作为训练参数，执行内层联邦学习过程，并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力，计算用户端的最优效用并上传至参数服务器端，以获取参数服务器返回的平均梯度；

步骤4、基于平均梯度，以隐私预算和需求响应能力作为训练参数，执行外层联邦学习过程，得到分布式网络管理器的最优效用；

步骤5、基于最优效用，计算更新隐私预算和需求响应能力并上传至分布式网络管理器，以获取分布式网络管理器返回的总隐私补偿成本；

步骤6、判断结果是否收敛，如果结果不收敛，则返回步骤3；如果结果收敛，则在自组织体中确定参与需求响应的最终自组织体成员，并更新参与能力标准值和隐私预算标准值，令迭代次数增加，并返回步骤2。

进一步地，所述参数服务器端根据影响值判断各个用户端是否加入自组织体，用户端的影响值越高，加入自组织体的可能性越高。

进一步地，用户端i的效用U _i,t为：

其中，t表示迭代次数；c _p(v _i,β _i,t)表示用户端i的隐私成本；P _DR,i,t表示用户端i的需求响应能力；P _DR,t表示参与联邦学习过程的一组用户端

的需求响应能力；/>

表示分布式网络管理器支付给用户端的需求响应补偿成本；c _DR(P _DR,i,t)表示用户端i的需求响应引起的停电经济损失；R _t为第t次迭代的总隐私补偿成本；ξ _2,t反映时间特征；β _i,t为用户端i的隐私预算；v _i表示用户端i的隐私值参数。

进一步地，分布式网络管理器的效用取决于两个部分：联邦学习训练模型的性能和分布式网络管理器的成本。

进一步地，所述分布式网络管理器的成本取决于需求响应过程中的响应成本和联邦学习过程中的总隐私补偿成本。

进一步地，判断结果是否收敛的方法为：如果用户端和分布式网络管理器的最大效用均唯一，则收敛。

进一步地，所述隐私预算与隐私预算标准值成正比。

本发明的第二个方面提供基于嵌套联邦学习的多智能体自组织需求响应系统，其包括：

初始化模块，其被配置为：初始化迭代次数、隐私预算和需求响应能力，并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值；

影响值计算模块，其被配置为：基于贡献能力标准值、参与能力标准值、主动性标准值，计算得到影响值并上传至参数服务器端，以获取是否加入自组织体的反馈和更新的主动性标准值；

内层联邦学习模块，其被配置为：在收到加入自组织体的反馈后生成训练样本，并以隐私预算和需求响应能力作为训练参数，执行内层联邦学习过程，并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力，计算用户端的最优效用并上传至参数服务器端，以获取参数服务器返回的平均梯度；

外层联邦学习模块，其被配置为：基于平均梯度，以隐私预算和需求响应能力作为训练参数，执行外层联邦学习过程，得到分布式网络管理器的最优效用；

总隐私补偿成本更新模块，其被配置为：基于最优效用，计算更新隐私预算和需求响应能力并上传至分布式网络管理器，以获取分布式网络管理器返回的总隐私补偿成本；

自组织体确定模块，其被配置为：判断结果是否收敛，如果结果不收敛，则返回内层联邦学习模块；如果结果收敛，则在自组织体中确定参与需求响应的最终自组织体成员，并更新参与能力标准值和隐私预算标准值，令迭代次数增加，并返回外层联邦学习模块。

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提供了基于嵌套联邦学习的多智能体自组织需求响应方法，其提出了一种嵌套联邦学习算法，在计算过程中充分结合了自组织体的演变，通过根据智能体的特点将其分组集群来提高调度过程中智能体的反应率，实现对智能体更精确的控制，从而减少调度成本，在保证收敛性和用户隐私的前提下实现高效和经济的需求响应管理。

本发明提供了基于嵌套联邦学习的多智能体自组织需求响应方法，其建立了时变影响模型，可以充分反映各智能体的特性，让用户选择自动更新自己的影响值，为多智能体的自组织方案提供精确的参考。

本发明提供了基于嵌套联邦学习的多智能体自组织需求响应方法，其提出了一种自组织激励机制，以选择自组织体中的最佳执行者，提高了自组织体的稳定性，同时充分调动所有可用资源参与需求响应。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一的基于嵌套联邦学习的多智能体自组织需求响应方法流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

实施例一

本实施例提供了基于嵌套联邦学习的多智能体自组织需求响应方法，如图1所示，具体包括如下步骤：

步骤1、用户端和参数服务器端分别进行参数初始化。

其中，用户端（智能体）i进行参数初始化的具体方法为：初始化迭代次数t=1；智能体i获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值，并计算影响值I _i,t；初始化隐私预算β _i,t和需求响应能力（简称，响应能力）P _DR,i,t。I _i,_t为第i个智能体在第t代的影响值；β _i,t为第i个智能体在第t代的隐私预算金额实际值，β _i , _t＞0；P _DR,i,t为第i个智能体在第t代的响应能力。

其中，分布式网络管理器中的参数服务器端初始化：迭代次数t=1和总隐私补偿成本R _t。R _t为第t次迭代的总隐私补偿成本。

具体的，建立一个影响模型（时变影响模型）来充分描述各智能体的特性，在所建立的影响模型中，智能体i的影响值I _i,t由贡献能力、参与能力、主动性和隐私预算四部分进行加权得到。其中，贡献能力是指智能体i的最大贡献值，即最大可调容量，贡献能力的权重最大；参与能力是指影响用户端i决策的外部环境条件，外部环境受市场政策、天气、系统稳定性等因素影响，环境越友好，参与能力的值就越大；主动性表示用户端i的历史影响性能，这可以避免出现不当的数据，并且赋予了影响模型时间属性，历史影响值越大，该部分值越大，但为了鼓励用户参与需求响应过程，这部分的权重不能过高或过低；隐私预算与用户端i提供的私人数据有关，假设需求响应由分布式网络管理器发起，在激励机制中，分布式网络管理器根据用户端i的隐私预算对用户端i提供的私人数据进行回报，隐私预算值越高的用户端i从分布式网络管理器获得的回报就越高，这有利于鼓励用户进一步参与联邦学习过程，用户通过设计自己的隐私预算以最大化自身效用。

假设N为智能体总数，智能体i的影响值I _i,t可以描述为：

I _i,_t=a _i I _C,i,t+b _i I _P,i,t+c _i I _A,i,t+d _i I _B,i,t（1）

其中，i∈{1,2,…,N}；a _i、b _i、c _i和d _i均表示智能体i的线性权重参数，且满足a _i+b _i+c _i+d _i=1；I _C,i,t、I _P,i,t、I _A,i,t、I _B,i,t∈[0,1]分别表示智能体i的贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值；β _i,t∝I _B,i,t，即β _i,t与I _B,i,t成正比。具体地，贡献能力标准值I _C,i,t用来表示用户的最大可调容量，其值由数据采集装置根据用户实际情况获取后再进行0-1标准化；参与能力标准值I _P,i,t用来表示影响用户端决策的外部环境条件，受市场政策、天气、系统稳定性等因素影响，其值由数据采集装置根据市场政策、天气、系统稳定性等环境条件获取，并进行0-1标准化，环境越友好，参与能力标准值越大；主动性标准值I _A,i,t用来表示用户端参与需求响应的历史表现，赋予了影响模型时间属性，可以避免出现不当的数据，其值由数据采集装置根据用户的历史表现获取，并进行0-1标准化，历史表现越好，主动性标准值越大；隐私预算标准值I _B,i,t是由用户端i提供的私人数据进行0-1标准化后得到。假设需求响应由分布式网络管理器发起，在激励机制中，分布式网络管理器根据用户端i的隐私预算标准值I _B,i,t对用户i提供的私人数据进行回报，隐私预算标准值越高的用户端i从分布式网络管理器获得的回报就越高，这有利于鼓励用户进一步参与联邦学习过程，用户可以通过设计自己的隐私预算以最大化自身效用。则智能体i的特性可以表示为[I _C,i,t，I _P,i,t，I _A,i,t，I _B,i,t]^T。4个线性权重参数根据各智能体特性设定，其中，贡献能力的权重最大，主动性的权重不能过高或过低以通过历史表现筛选不当数据的同时鼓励用户参与需求响应过程，且满足a _i+b _i+c _i+d _i=1。不同智能体的线性权重参数可能不同。

影响模型的影响值越高，形成自组织体时，智能体加入自组织体的优先级就越高。

用户自组织方法基于智能体自动聚合为动态虚拟电厂的原则，这可以减少计算压力和需求响应过程中需要控制的智能体数量。基于之前的分析，影响值较高的智能体更有可能参与自组织，其目的是优化自身效用。

通过对影响模型四个部分的分析可知：I _C,i,t越高，智能体越灵活，因此可调度的电能就越多；I _P,i,t越高，需求响应调度环境越好；I _A,i,t越高，则调度期间的稳定性越高；I _B,i,t越高，智能体参与自组织的可能性越高。上述分析还包括以下假设：β _i,t∝I _B,i,t，P _DR,i,t∝I _P,i,t。

步骤2、用户端i基于贡献能力标准值、参与能力标准值、主动性标准值，计算得到影响值，并将影响值上传至参数服务器端，以获取是否加入自组织体的反馈和更新的主动性标准值。

参数服务器端根据影响值I _i,_t判断各个智能体是否加入预自组织体（通过对影响模型四个部分的分析可知：I _B,i,t越高，加入自组织的可能性越高；在不降低其他智能体利益的基础上，如果至少存在一个智能体通过自组织能够提升自身利益，则可以加入预自组织体；所有参与自组织的智能体都将参与嵌套联邦学习）；如果智能体i满足自组织（预自组织体）的参与条件，则将智能体i加入自组织

，即/>

，参数服务器端向加入自组织的智能体i反馈，并更新所有智能体i的主动性标准值I _A,i,t+1（智能体i加入自组织后，参数服务器会向智能体i反馈，智能体i的数据采集装置收到反馈信息后更新用户的历史表现，由于用户参与了自组织，其主动性标准值增加）。

步骤3、用户端i在收到加入预自组织体的反馈后生成训练样本，并以隐私预算和需求响应能力作为训练参数，执行内层联邦学习过程（

），并结合总隐私补偿成本R _t和参与联邦学习过程的一组用户端/>

的需求响应能力P _DR,t，计算用户端i的最优效用/>

。

具体的，若是首次迭代，即t=1，则隐私预算和需求响应能力分别初始化为隐私预算β _i,t和需求响应能力P _DR,i,t，并直接生成训练样本；若非首次迭代，即t＞1，则隐私预算和需求响应能力分别设定为t-1次迭代时得到的用户端i的最佳隐私预算

和最佳需求响应能力/>

，并生成训练样本。

用户端i的目标是通过设定隐私预算β _i,t和影响值I _i,_t来最大化自身效用U _i,t；用户端i的隐私成本可以表示为c _p(v _i,β _i,t)，其中，v _i＞0表示隐私值参数；用户端i的效用U _i,t可以表示为：

（2）

其中，t表示迭代次数，c _p(v _i,β _i,t)表示隐私成本；P _DR,i,t表示用户端i的需求响应能力；

，P _DR,t表示参与联邦学习过程的一组用户端/>

的需求响应能力（/>

）；/>

表示第t次迭代时，分布式网络管理器支付给用户端的需求响应补偿成本，k ₁和k ₂表示需求响应补偿因子；c _DR(P _DR,i,t)表示用户端i的需求响应引起的停电经济损失，通常为二次函数形式。值得注意的是，每个用端户i的隐私成本c _p(v _i,β _i,t)为其他每个用户端所知，但隐私值参数v _i仅为自己所知；假设所有用户端/>

的隐私成本函数呈线性正相关，对于任何j≠k和任何β _i,t＞0，/>

当且仅当/>

时成立，v _i表示隐私值参数，/>

和/>

表示两个不同的隐私值参数（j≠k）。

为了吸引用户参与自组织，ξ _2,t应该反映时间特征，例如，可以降低参与自组织较少的用户的响应成本，ξ _2,t定义如下：

（3）

其中，q为设定值，可设置为0.5；τ=t-1。

步骤4、用户端i将第t次迭代时得到的其自身最优效用

上传至参数服务器，以获取参数服务器返回的平均梯度，并且用户端i以隐私预算β _i,t和需求响应能力P _DR,i,t作为训练参数，执行外层联邦学习过程，得到分布式网络管理器的最优效用/>

。

外层联邦学习：在内层联邦学习的基础上，输入用户端i的最佳效用

；输出分布式网络管理器的最优效用/>

。

分布式网络管理器的目标是选择一个合适的奖励R _t值以使其效用U _DNM,t最大化。分布式网络管理器的效用取决于两个部分：联邦学习训练模型的性能P _FL,t和分布式网络管理器的成本；分布式网络管理器的成本取决于需求响应过程中的响应成本ξ _1,t C _DR,t和联邦学习过程中的总隐私补偿成本R _t；因此，分布式网络管理器的效用U _DNM,t如下式所示：

U _DNM,t=P _FL,t-ξ _1,t C _DR,t-R _t（4）

其中，t∈{1,2,…,T}，T表示联邦学习过程的最大迭代次数；ξ _1,t＞0表示需求响应成本参数，ξ _1,t定义如下：

ξ _1,t=1+(1-ξ _2,t) (5)

联邦学习训练模型的性能P _FL,t如下式所示：

（6）

其中，

表示参与联邦学习过程的一组用户，即自组织体；β _i,t表示用户端i的隐私预算；权重参数λ＞1；/>

表示学习率；m表示用户端i的数据集大小，即用户端i中训练样本的个数；L表示损失函数。

噪声σ的大小定义为：

（7）

其中，σ _i,t表示用户端i在第t迭代的噪声。如公式（6）和（7）所示，当高斯噪声σ的幅值增大时，联邦学习训练模型精度降低。

响应成本C _DR,t等于响应前的收入

减去响应后的收入/>

：

（8）

其中，

表示时间t（第t次迭代）时分布式网络管理器支付给用户i的需求响应补偿成本；/>

可以假设为一个通过原点的二次函数；k ₁和k ₂表示需求响应补偿因子；r _p表示分布式网络管理器通过联络线的电价。

隐私补偿成本R _t表示支付给联邦学习参与者的奖励；由高斯噪声公式可知，隐私预算将会影响联邦学习训练模型的精度；因此，隐私补偿成本与联邦学习训练模型的性能之间存在耦合关系；通过分析隐私预算对联邦学习训练模型收敛特性的影响，可以在联邦学习的初始阶段初始化和估计联邦学习训练模型的精度。

对于公式（2）和（4），假设总响应能力P _DR,t和隐私补偿成本R _t呈负相关，则可以得出以下结论：分布式网络管理器的效用包括训练模型的性能P _FL,t（与β _i,t正相关）、响应成本ξ _1,t C _DR,t（与

负相关）和隐私补偿成本R _t（与P _DR,i,t负相关）；而用户的效用包括隐私补偿成本/>

（与β _i,t正相关，与P _DR,i,t负相关），隐私成本c _p(v _i,β _i,t)（与β _i,t负相关），需求响应补偿成本/>

(与/>

正相关）和停电成本c _DR(P _DR,i,t)（与/>

负相关）；因此，分布式网络管理器和用户之间的效用冲突体现在隐私预算β _i,t和响应补偿的平方/>

；因为在所有情况下P _DR,i,t≥0，所以在联邦学习过程中训练参数应选择为β _i,t和P _DR,i,t。

步骤5、用户端基于最优效用，计算更新隐私预算和需求响应能力并上传至分布式网络管理器，以获取分布式网络管理器返回的总隐私补偿成本。

基于分布式网络管理器的最优效用

，用户端计算并输出最佳隐私预算

和最佳需求响应能力/>

，令最佳隐私预算/>

和最佳需求响应能力

为用户端i的隐私预算β _i,t+1和需求响应能力P _DR,i,t+1；分布式网络管理器更新总隐私补偿成本R _t+1。

用户端i基于R _t、步骤3得到的

和步骤4得到的/>

，通过公式（9）计算最佳隐私预算/>

和最佳需求响应能力/>

：

（9）

分布式网络管理器根据用户端i反馈的隐私预算β _i,t+1，通过公式（2），更新R _t+1。

步骤6、判断结果是否收敛（如果最终用户端和分布式网络管理器的最大效用

和/>

均唯一，则收敛），如果结果不收敛，则更新参数β _i,t和P _DR,i,t并返回到步骤3的内层联邦学习过程；如果结果收敛，则根据P _DR,t确定参与需求响应的最终自组织体成员，并更新I _P,i,t+1和I _B,i,t+1，令t=t+1，并返回步骤2，当t＞T时，则结束计算。

更新I _P,i,t+1和I _B,i,t+1的具体方法为：通过形成自组织体参与需求响应，需求响应的调度环境发生改变，故数据采集装置根据新的调度环境条件重新获取I _P,i,t+1进行更新；通过输出的最佳隐私预算

，由β _i,t∝I _B,i,t重新计算I _B,i,t+1进行更新。

在本实施例中，内层联邦学习和外层联邦学习的运行机制一致，仅输入、输出不同。

根据联邦学习的特点，联邦学习的参数服务器可以收集用户的信息，并在考虑用户隐私和通信效率的情况下，用户使用同态加密将其信息（即影响值）映射到服务器中的加密空间。联邦学习的运行机制为：

1）每个用户端从参数服务器下载模型

，即/>

，并使用其本地数据来训练模型；其中，/>

表示用户端的模型；

2）用户端将新的模型权重或梯度上传到参数服务器以更新全局模型。

因此，具有数据集x_i的用户端i的损失函数为：

（10）

其中，

表示用户端i的数据样本j的损失函数。

联邦学习的目标是通过最小化每个用户端的局部损失函数

的平均值来优化全局损失函数/>

：

（11）

本实施例中的内层联邦学习和外层联邦学习均采用自适应运动估计联邦学习算法，自适应运动估计联邦学习算法的具体步骤为：

①获取用户模型

；

②对于第t次循环中的第i

个用户端，对模型进行更新：

③对于第t次循环中的参数服务器，更新全局模型：

其中，

，/>

，Weight _i表示用户i的重要性权重，可以为每个用户设置相同的权重，/>

表示学习率，/>

表示/>

的激活函数，TotalWeight表示总权重。

本实施例提供的基于嵌套联邦学习的多智能体自组织需求响应方法，从需求响应的角度出发，考虑到用户的通信成本和隐私保护，建立了一个时变影响模型来描述各智能体用户参与需求响应的能力；在此基础上，构建了基于时变影响模型的自组织激励机制；然后，以分布式网络管理器中的参数服务器为基础，建立了一个嵌套联邦学习优化计算框架，该框架可以在保证用户隐私的前提下，计算出自组织体中各智能体效用的最优收敛值，并进一步从分布式网络管理器中获取该信息；最后，参数服务器集成模型并将其返回给智能体，以实现高效和经济的需求响应管理。

本实施例提供的基于嵌套联邦学习的多智能体自组织需求响应方法，建立了时变影响模型，可以充分反映各智能体的特性，让用户选择自动更新自己的影响值，为多智能体的自组织方案提供精确的参考。

本实施例提供的基于嵌套联邦学习的多智能体自组织需求响应方法，提出了一种自组织激励机制，以选择自组织体中的最佳执行者，提高了自组织体的稳定性，同时充分调动所有可用资源参与需求响应。

本实施例提供的基于嵌套联邦学习的多智能体自组织需求响应方法，提出了一种嵌套联邦学习算法，在计算过程中充分结合了自组织体的演变，通过根据智能体的特点将其分组集群来提高调度过程中智能体的反应率，实现对智能体更精确的控制，从而减少调度成本，在保证收敛性和用户隐私的前提下实现高效和经济的需求响应管理。

实施例二

本实施例提供了基于嵌套联邦学习的多智能体自组织需求响应系统，其具体包括如下模块：

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在于，包括：

步骤2、基于贡献能力标准值、参与能力标准值、主动性标准值，计算得到影响值并上传至参数服务器端，以获取是否加入自组织体的反馈和更新的主动性标准值；所述参数服务器端根据影响值判断各个用户端是否加入自组织体，用户端的影响值越高，加入自组织体的可能性越高；

2.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在于，用户端i的效用U _i,t为：

的需求响应能力；

3.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在于，分布式网络管理器的效用取决于两个部分：联邦学习训练模型的性能和分布式网络管理器的成本。

4.如权利要求3所述的基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在于，所述分布式网络管理器的成本取决于需求响应过程中的响应成本和联邦学习过程中的总隐私补偿成本。

5.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在于，判断结果是否收敛的方法为：如果用户端和分布式网络管理器的最大效用均唯一，则收敛。

6.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在于，所述隐私预算与隐私预算标准值成正比。

7.基于嵌套联邦学习的多智能体自组织需求响应系统，其特征在于，包括：

影响值计算模块，其被配置为：基于贡献能力标准值、参与能力标准值、主动性标准值，计算得到影响值并上传至参数服务器端，以获取是否加入自组织体的反馈和更新的主动性标准值；所述参数服务器端根据影响值判断各个用户端是否加入自组织体，用户端的影响值越高，加入自组织体的可能性越高；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。