CN115439026B - 基于嵌套联邦学习的多智能体自组织需求响应方法及系统 - Google Patents
基于嵌套联邦学习的多智能体自组织需求响应方法及系统 Download PDFInfo
- Publication number
- CN115439026B CN115439026B CN202211388054.0A CN202211388054A CN115439026B CN 115439026 B CN115439026 B CN 115439026B CN 202211388054 A CN202211388054 A CN 202211388054A CN 115439026 B CN115439026 B CN 115439026B
- Authority
- CN
- China
- Prior art keywords
- demand response
- self
- privacy
- standard value
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004044 response Effects 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 8
- 230000005284 excitation Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 238000005304 joining Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012887 quadratic function Methods 0.000 description 2
- ZRTQSJFIDWNVJW-WYMLVPIESA-N Lanoconazole Chemical compound ClC1=CC=CC=C1C(CS\1)SC/1=C(\C#N)N1C=NC=C1 ZRTQSJFIDWNVJW-WYMLVPIESA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001483 mobilizing effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于电力系统需求响应技术领域,提供了基于嵌套联邦学习的多智能体自组织需求响应方法及系统,包括:建立了时变影响模型来描述各智能体用户参与需求响应的能力;构建了基于时变影响模型的自组织激励机制;以分布式网络管理器中的参数服务器为基础,建立了一个嵌套联邦学习优化计算框架,该框架可以在保证用户隐私的前提下,计算出自组织体中各智能体效用的最优收敛值,并进一步从分布式网络管理器中获取该信息;最后,参数服务器集成模型并将其返回给智能体,以实现高效和经济的需求响应管理。
Description
技术领域
本发明属于电力系统需求响应技术领域,尤其涉及基于嵌套联邦学习的多智能体自组织需求响应方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
当配电系统中分布式发电机、负荷等资源的数量并不庞大时,控制中心能充分整合所有资源的特点,然后通过集中清算的方式实现资源的整合调度。但随着配电系统的快速发展,新型配电系统中通常存在大量分布式电源、储能装置、柔性负荷等智能体,传统模式的控制中心无法接触到所有资源的特点,可能造成集中调度效果不佳。同时,在传统电力市场中,由于缺乏良好的激励机制,且对需求方用电特征识别不准确,市场交易和调度过程效率相对较低。
传统的需求响应方法是一种让客户响应分时电价信号或实时调度指令的机制,通过动态改变电能消耗行为可以降低临界峰值需求或将不同时段的电能消耗转移。但传统的需求响应方法都是从用户用电特点和市场运行规律出发,这种做法将导致用户的私人信息完全泄露。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供基于嵌套联邦学习的多智能体自组织需求响应方法及系统,提出了嵌套联邦学习算法,在计算过程中充分结合了自组织体的演变,通过根据智能体的特点将其分组,来提高调度过程中智能体的反应率,实现对智能体更精确的控制,从而减少调度成本。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供基于嵌套联邦学习的多智能体自组织需求响应方法,其包括:
步骤1、初始化迭代次数、隐私预算和需求响应能力,并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值;
步骤2、基于贡献能力标准值、参与能力标准值、主动性标准值,计算得到影响值并上传至参数服务器端,以获取是否加入自组织体的反馈和更新的主动性标准值;
步骤3、在收到加入自组织体的反馈后生成训练样本,并以隐私预算和需求响应能力作为训练参数,执行内层联邦学习过程,并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力,计算用户端的最优效用并上传至参数服务器端,以获取参数服务器返回的平均梯度;
步骤4、基于平均梯度,以隐私预算和需求响应能力作为训练参数,执行外层联邦学习过程,得到分布式网络管理器的最优效用;
步骤5、基于最优效用,计算更新隐私预算和需求响应能力并上传至分布式网络管理器,以获取分布式网络管理器返回的总隐私补偿成本;
步骤6、判断结果是否收敛,如果结果不收敛,则返回步骤3;如果结果收敛,则在自组织体中确定参与需求响应的最终自组织体成员,并更新参与能力标准值和隐私预算标准值,令迭代次数增加,并返回步骤2。
进一步地,所述参数服务器端根据影响值判断各个用户端是否加入自组织体,用户端的影响值越高,加入自组织体的可能性越高。
进一步地,用户端i的效用U i,t 为:
其中,t表示迭代次数;c p(v i ,β i,t )表示用户端i的隐私成本;P DR,i,t 表示用户端i的需求响应能力;P DR,t 表示参与联邦学习过程的一组用户端的需求响应能力;/>表示分布式网络管理器支付给用户端的需求响应补偿成本;c DR(P DR,i,t )表示用户端i的需求响应引起的停电经济损失;R t 为第t次迭代的总隐私补偿成本;ξ 2,t 反映时间特征;β i,t 为用户端i的隐私预算;v i 表示用户端i的隐私值参数。
进一步地,分布式网络管理器的效用取决于两个部分:联邦学习训练模型的性能和分布式网络管理器的成本。
进一步地,所述分布式网络管理器的成本取决于需求响应过程中的响应成本和联邦学习过程中的总隐私补偿成本。
进一步地,判断结果是否收敛的方法为:如果用户端和分布式网络管理器的最大效用均唯一,则收敛。
进一步地,所述隐私预算与隐私预算标准值成正比。
本发明的第二个方面提供基于嵌套联邦学习的多智能体自组织需求响应系统,其包括:
初始化模块,其被配置为:初始化迭代次数、隐私预算和需求响应能力,并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值;
影响值计算模块,其被配置为:基于贡献能力标准值、参与能力标准值、主动性标准值,计算得到影响值并上传至参数服务器端,以获取是否加入自组织体的反馈和更新的主动性标准值;
内层联邦学习模块,其被配置为:在收到加入自组织体的反馈后生成训练样本,并以隐私预算和需求响应能力作为训练参数,执行内层联邦学习过程,并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力,计算用户端的最优效用并上传至参数服务器端,以获取参数服务器返回的平均梯度;
外层联邦学习模块,其被配置为:基于平均梯度,以隐私预算和需求响应能力作为训练参数,执行外层联邦学习过程,得到分布式网络管理器的最优效用;
总隐私补偿成本更新模块,其被配置为:基于最优效用,计算更新隐私预算和需求响应能力并上传至分布式网络管理器,以获取分布式网络管理器返回的总隐私补偿成本;
自组织体确定模块,其被配置为:判断结果是否收敛,如果结果不收敛,则返回内层联邦学习模块;如果结果收敛,则在自组织体中确定参与需求响应的最终自组织体成员,并更新参与能力标准值和隐私预算标准值,令迭代次数增加,并返回外层联邦学习模块。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。
本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明提供了基于嵌套联邦学习的多智能体自组织需求响应方法,其提出了一种嵌套联邦学习算法,在计算过程中充分结合了自组织体的演变,通过根据智能体的特点将其分组集群来提高调度过程中智能体的反应率,实现对智能体更精确的控制,从而减少调度成本,在保证收敛性和用户隐私的前提下实现高效和经济的需求响应管理。
本发明提供了基于嵌套联邦学习的多智能体自组织需求响应方法,其建立了时变影响模型,可以充分反映各智能体的特性,让用户选择自动更新自己的影响值,为多智能体的自组织方案提供精确的参考。
本发明提供了基于嵌套联邦学习的多智能体自组织需求响应方法,其提出了一种自组织激励机制,以选择自组织体中的最佳执行者,提高了自组织体的稳定性,同时充分调动所有可用资源参与需求响应。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例一的基于嵌套联邦学习的多智能体自组织需求响应方法流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
实施例一
本实施例提供了基于嵌套联邦学习的多智能体自组织需求响应方法,如图1所示,具体包括如下步骤:
步骤1、用户端和参数服务器端分别进行参数初始化。
其中,用户端(智能体)i进行参数初始化的具体方法为:初始化迭代次数t=1;智能体i获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值,并计算影响值I i,t ;初始化隐私预算β i,t 和需求响应能力(简称,响应能力)P DR,i,t 。I i , t 为第i个智能体在第t代的影响值;β i,t 为第i个智能体在第t代的隐私预算金额实际值,β i , t >0;P DR,i,t 为第i个智能体在第t代的响应能力。
其中,分布式网络管理器中的参数服务器端初始化:迭代次数t=1和总隐私补偿成本R t 。R t 为第t次迭代的总隐私补偿成本。
具体的,建立一个影响模型(时变影响模型)来充分描述各智能体的特性,在所建立的影响模型中,智能体i的影响值I i,t 由贡献能力、参与能力、主动性和隐私预算四部分进行加权得到。其中,贡献能力是指智能体i的最大贡献值,即最大可调容量,贡献能力的权重最大;参与能力是指影响用户端i决策的外部环境条件,外部环境受市场政策、天气、系统稳定性等因素影响,环境越友好,参与能力的值就越大;主动性表示用户端i的历史影响性能,这可以避免出现不当的数据,并且赋予了影响模型时间属性,历史影响值越大,该部分值越大,但为了鼓励用户参与需求响应过程,这部分的权重不能过高或过低;隐私预算与用户端i提供的私人数据有关,假设需求响应由分布式网络管理器发起,在激励机制中,分布式网络管理器根据用户端i的隐私预算对用户端i提供的私人数据进行回报,隐私预算值越高的用户端i从分布式网络管理器获得的回报就越高,这有利于鼓励用户进一步参与联邦学习过程,用户通过设计自己的隐私预算以最大化自身效用。
假设N为智能体总数,智能体i的影响值I i,t 可以描述为:
I i , t =a i I C,i,t +b i I P,i,t +c i I A,i,t +d i I B,i,t (1)
其中,i∈{1,2,…,N};a i 、b i 、c i 和d i 均表示智能体i的线性权重参数,且满足a i +b i +c i +d i =1;I C,i,t 、I P,i,t 、I A,i,t 、I B,i,t ∈[0,1]分别表示智能体i的贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值;β i,t ∝I B,i,t ,即β i,t 与I B,i,t 成正比。具体地,贡献能力标准值I C,i,t 用来表示用户的最大可调容量,其值由数据采集装置根据用户实际情况获取后再进行0-1标准化;参与能力标准值I P,i,t 用来表示影响用户端决策的外部环境条件,受市场政策、天气、系统稳定性等因素影响,其值由数据采集装置根据市场政策、天气、系统稳定性等环境条件获取,并进行0-1标准化,环境越友好,参与能力标准值越大;主动性标准值I A,i,t 用来表示用户端参与需求响应的历史表现,赋予了影响模型时间属性,可以避免出现不当的数据,其值由数据采集装置根据用户的历史表现获取,并进行0-1标准化,历史表现越好,主动性标准值越大;隐私预算标准值I B,i,t 是由用户端i提供的私人数据进行0-1标准化后得到。假设需求响应由分布式网络管理器发起,在激励机制中,分布式网络管理器根据用户端i的隐私预算标准值I B,i,t 对用户i提供的私人数据进行回报,隐私预算标准值越高的用户端i从分布式网络管理器获得的回报就越高,这有利于鼓励用户进一步参与联邦学习过程,用户可以通过设计自己的隐私预算以最大化自身效用。则智能体i的特性可以表示为[I C,i,t ,I P,i,t ,I A,i,t ,I B,i,t ] T 。4个线性权重参数根据各智能体特性设定,其中,贡献能力的权重最大,主动性的权重不能过高或过低以通过历史表现筛选不当数据的同时鼓励用户参与需求响应过程,且满足a i +b i +c i +d i =1。不同智能体的线性权重参数可能不同。
影响模型的影响值越高,形成自组织体时,智能体加入自组织体的优先级就越高。
用户自组织方法基于智能体自动聚合为动态虚拟电厂的原则,这可以减少计算压力和需求响应过程中需要控制的智能体数量。基于之前的分析,影响值较高的智能体更有可能参与自组织,其目的是优化自身效用。
通过对影响模型四个部分的分析可知:I C,i,t 越高,智能体越灵活,因此可调度的电能就越多;I P,i,t 越高,需求响应调度环境越好;I A,i,t 越高,则调度期间的稳定性越高;I B,i,t 越高,智能体参与自组织的可能性越高。上述分析还包括以下假设:β i,t ∝I B,i,t ,P DR,i,t ∝I P,i,t 。
步骤2、用户端i基于贡献能力标准值、参与能力标准值、主动性标准值,计算得到影响值,并将影响值上传至参数服务器端,以获取是否加入自组织体的反馈和更新的主动性标准值。
参数服务器端根据影响值I i , t 判断各个智能体是否加入预自组织体(通过对影响模型四个部分的分析可知:I B,i,t 越高,加入自组织的可能性越高;在不降低其他智能体利益的基础上,如果至少存在一个智能体通过自组织能够提升自身利益,则可以加入预自组织体;所有参与自组织的智能体都将参与嵌套联邦学习);如果智能体i满足自组织(预自组织体)的参与条件,则将智能体i加入自组织,即/>,参数服务器端向加入自组织的智能体i反馈,并更新所有智能体i的主动性标准值I A,i,t+1(智能体i加入自组织后,参数服务器会向智能体i反馈,智能体i的数据采集装置收到反馈信息后更新用户的历史表现,由于用户参与了自组织,其主动性标准值增加)。
步骤3、用户端i在收到加入预自组织体的反馈后生成训练样本,并以隐私预算和需求响应能力作为训练参数,执行内层联邦学习过程(),并结合总隐私补偿成本R t 和参与联邦学习过程的一组用户端/>的需求响应能力P DR,t ,计算用户端i的最优效用/>。
具体的,若是首次迭代,即t=1,则隐私预算和需求响应能力分别初始化为隐私预算β i,t 和需求响应能力P DR,i,t ,并直接生成训练样本;若非首次迭代,即t>1,则隐私预算和需求响应能力分别设定为t-1次迭代时得到的用户端i的最佳隐私预算和最佳需求响应能力/>,并生成训练样本。
用户端i的目标是通过设定隐私预算β i,t 和影响值I i , t 来最大化自身效用U i,t ;用户端i的隐私成本可以表示为c p (v i ,β i,t ),其中,v i >0表示隐私值参数;用户端i的效用U i,t 可以表示为:
其中,t表示迭代次数,c p(v i ,β i,t )表示隐私成本;P DR,i,t 表示用户端i的需求响应能力;,P DR,t 表示参与联邦学习过程的一组用户端/>的需求响应能力(/>);/>表示第t次迭代时,分布式网络管理器支付给用户端的需求响应补偿成本,k 1和k 2表示需求响应补偿因子;c DR(P DR,i,t )表示用户端i的需求响应引起的停电经济损失,通常为二次函数形式。值得注意的是,每个用端户i的隐私成本c p(v i ,β i,t )为其他每个用户端所知,但隐私值参数v i 仅为自己所知;假设所有用户端/>的隐私成本函数呈线性正相关,对于任何j≠k和任何β i,t >0,/>当且仅当/>时成立,v i 表示隐私值参数,/>和/>表示两个不同的隐私值参数(j≠k)。
为了吸引用户参与自组织,ξ 2,t 应该反映时间特征,例如,可以降低参与自组织较少的用户的响应成本,ξ 2,t 定义如下:
其中,q为设定值,可设置为0.5;τ=t-1。
步骤4、用户端i将第t次迭代时得到的其自身最优效用上传至参数服务器,以获取参数服务器返回的平均梯度,并且用户端i以隐私预算β i,t 和需求响应能力P DR,i,t 作为训练参数,执行外层联邦学习过程,得到分布式网络管理器的最优效用/>。
分布式网络管理器的目标是选择一个合适的奖励R t 值以使其效用U DNM,t 最大化。分布式网络管理器的效用取决于两个部分:联邦学习训练模型的性能P FL,t 和分布式网络管理器的成本;分布式网络管理器的成本取决于需求响应过程中的响应成本ξ 1,t C DR,t 和联邦学习过程中的总隐私补偿成本R t ;因此,分布式网络管理器的效用U DNM,t 如下式所示:
U DNM,t =P FL,t -ξ 1,t C DR,t -R t (4)
其中,t∈{1,2,…,T},T表示联邦学习过程的最大迭代次数;ξ 1,t >0表示需求响应成本参数,ξ 1,t 定义如下:
ξ 1,t =1+(1-ξ 2,t ) (5)
联邦学习训练模型的性能P FL,t 如下式所示:
噪声σ的大小定义为:
其中,σ i,t 表示用户端i在第t迭代的噪声。如公式(6)和(7)所示,当高斯噪声σ的幅值增大时,联邦学习训练模型精度降低。
其中,表示时间t(第t次迭代)时分布式网络管理器支付给用户i的需求响应补偿成本;/>可以假设为一个通过原点的二次函数;k 1和k 2表示需求响应补偿因子;r p 表示分布式网络管理器通过联络线的电价。
隐私补偿成本R t 表示支付给联邦学习参与者的奖励;由高斯噪声公式可知,隐私预算将会影响联邦学习训练模型的精度;因此,隐私补偿成本与联邦学习训练模型的性能之间存在耦合关系;通过分析隐私预算对联邦学习训练模型收敛特性的影响,可以在联邦学习的初始阶段初始化和估计联邦学习训练模型的精度。
对于公式(2)和(4),假设总响应能力P DR,t 和隐私补偿成本R t 呈负相关,则可以得出以下结论:分布式网络管理器的效用包括训练模型的性能P FL,t (与β i,t 正相关)、响应成本ξ 1,t C DR,t (与负相关)和隐私补偿成本R t (与P DR,i,t 负相关);而用户的效用包括隐私补偿成本/>(与β i,t 正相关,与P DR,i,t 负相关),隐私成本c p(v i ,β i,t )(与β i,t 负相关),需求响应补偿成本/>(与/>正相关)和停电成本c DR(P DR,i,t )(与/>负相关);因此,分布式网络管理器和用户之间的效用冲突体现在隐私预算β i,t 和响应补偿的平方/>;因为在所有情况下P DR,i,t ≥0,所以在联邦学习过程中训练参数应选择为β i,t 和P DR,i,t 。
步骤5、用户端基于最优效用,计算更新隐私预算和需求响应能力并上传至分布式网络管理器,以获取分布式网络管理器返回的总隐私补偿成本。
基于分布式网络管理器的最优效用,用户端计算并输出最佳隐私预算和最佳需求响应能力/>,令最佳隐私预算/>和最佳需求响应能力为用户端i的隐私预算β i,t+1和需求响应能力P DR,i,t+1;分布式网络管理器更新总隐私补偿成本R t+1。
分布式网络管理器根据用户端i反馈的隐私预算β i,t+1,通过公式(2),更新R t+1。
步骤6、判断结果是否收敛(如果最终用户端和分布式网络管理器的最大效用和/>均唯一,则收敛),如果结果不收敛,则更新参数β i,t 和P DR,i,t 并返回到步骤3的内层联邦学习过程;如果结果收敛,则根据P DR,t 确定参与需求响应的最终自组织体成员,并更新I P,i,t+1和I B,i,t+1,令t=t+1,并返回步骤2,当t>T时,则结束计算。
更新I P,i,t+1和I B,i,t+1的具体方法为:通过形成自组织体参与需求响应,需求响应的调度环境发生改变,故数据采集装置根据新的调度环境条件重新获取I P,i,t+1进行更新;通过输出的最佳隐私预算,由β i,t ∝I B,i,t 重新计算I B,i,t+1进行更新。
在本实施例中,内层联邦学习和外层联邦学习的运行机制一致,仅输入、输出不同。
根据联邦学习的特点,联邦学习的参数服务器可以收集用户的信息,并在考虑用户隐私和通信效率的情况下,用户使用同态加密将其信息(即影响值)映射到服务器中的加密空间。联邦学习的运行机制为:
2)用户端将新的模型权重或梯度上传到参数服务器以更新全局模型。
因此,具有数据集x i 的用户端i的损失函数为:
本实施例中的内层联邦学习和外层联邦学习均采用自适应运动估计联邦学习算法,自适应运动估计联邦学习算法的具体步骤为:
③对于第t次循环中的参数服务器,更新全局模型:
本实施例提供的基于嵌套联邦学习的多智能体自组织需求响应方法,从需求响应的角度出发,考虑到用户的通信成本和隐私保护,建立了一个时变影响模型来描述各智能体用户参与需求响应的能力;在此基础上,构建了基于时变影响模型的自组织激励机制;然后,以分布式网络管理器中的参数服务器为基础,建立了一个嵌套联邦学习优化计算框架,该框架可以在保证用户隐私的前提下,计算出自组织体中各智能体效用的最优收敛值,并进一步从分布式网络管理器中获取该信息;最后,参数服务器集成模型并将其返回给智能体,以实现高效和经济的需求响应管理。
本实施例提供的基于嵌套联邦学习的多智能体自组织需求响应方法,建立了时变影响模型,可以充分反映各智能体的特性,让用户选择自动更新自己的影响值,为多智能体的自组织方案提供精确的参考。
本实施例提供的基于嵌套联邦学习的多智能体自组织需求响应方法,提出了一种自组织激励机制,以选择自组织体中的最佳执行者,提高了自组织体的稳定性,同时充分调动所有可用资源参与需求响应。
本实施例提供的基于嵌套联邦学习的多智能体自组织需求响应方法,提出了一种嵌套联邦学习算法,在计算过程中充分结合了自组织体的演变,通过根据智能体的特点将其分组集群来提高调度过程中智能体的反应率,实现对智能体更精确的控制,从而减少调度成本,在保证收敛性和用户隐私的前提下实现高效和经济的需求响应管理。
实施例二
本实施例提供了基于嵌套联邦学习的多智能体自组织需求响应系统,其具体包括如下模块:
初始化模块,其被配置为:初始化迭代次数、隐私预算和需求响应能力,并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值;
影响值计算模块,其被配置为:基于贡献能力标准值、参与能力标准值、主动性标准值,计算得到影响值并上传至参数服务器端,以获取是否加入自组织体的反馈和更新的主动性标准值;
内层联邦学习模块,其被配置为:在收到加入自组织体的反馈后生成训练样本,并以隐私预算和需求响应能力作为训练参数,执行内层联邦学习过程,并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力,计算用户端的最优效用并上传至参数服务器端,以获取参数服务器返回的平均梯度;
外层联邦学习模块,其被配置为:基于平均梯度,以隐私预算和需求响应能力作为训练参数,执行外层联邦学习过程,得到分布式网络管理器的最优效用;
总隐私补偿成本更新模块,其被配置为:基于最优效用,计算更新隐私预算和需求响应能力并上传至分布式网络管理器,以获取分布式网络管理器返回的总隐私补偿成本;
自组织体确定模块,其被配置为:判断结果是否收敛,如果结果不收敛,则返回内层联邦学习模块;如果结果收敛,则在自组织体中确定参与需求响应的最终自组织体成员,并更新参与能力标准值和隐私预算标准值,令迭代次数增加,并返回外层联邦学习模块。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于嵌套联邦学习的多智能体自组织需求响应方法,其特征在于,包括:
步骤1、初始化迭代次数、隐私预算和需求响应能力,并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值;
步骤2、基于贡献能力标准值、参与能力标准值、主动性标准值,计算得到影响值并上传至参数服务器端,以获取是否加入自组织体的反馈和更新的主动性标准值;所述参数服务器端根据影响值判断各个用户端是否加入自组织体,用户端的影响值越高,加入自组织体的可能性越高;
步骤3、在收到加入自组织体的反馈后生成训练样本,并以隐私预算和需求响应能力作为训练参数,执行内层联邦学习过程,并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力,计算用户端的最优效用并上传至参数服务器端,以获取参数服务器返回的平均梯度;
步骤4、基于平均梯度,以隐私预算和需求响应能力作为训练参数,执行外层联邦学习过程,得到分布式网络管理器的最优效用;
步骤5、基于最优效用,计算更新隐私预算和需求响应能力并上传至分布式网络管理器,以获取分布式网络管理器返回的总隐私补偿成本;
步骤6、判断结果是否收敛,如果结果不收敛,则返回步骤3;如果结果收敛,则在自组织体中确定参与需求响应的最终自组织体成员,并更新参与能力标准值和隐私预算标准值,令迭代次数增加,并返回步骤2。
3.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法,其特征在于,分布式网络管理器的效用取决于两个部分:联邦学习训练模型的性能和分布式网络管理器的成本。
4.如权利要求3所述的基于嵌套联邦学习的多智能体自组织需求响应方法,其特征在于,所述分布式网络管理器的成本取决于需求响应过程中的响应成本和联邦学习过程中的总隐私补偿成本。
5.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法,其特征在于,判断结果是否收敛的方法为:如果用户端和分布式网络管理器的最大效用均唯一,则收敛。
6.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法,其特征在于,所述隐私预算与隐私预算标准值成正比。
7.基于嵌套联邦学习的多智能体自组织需求响应系统,其特征在于,包括:
初始化模块,其被配置为:初始化迭代次数、隐私预算和需求响应能力,并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值;
影响值计算模块,其被配置为:基于贡献能力标准值、参与能力标准值、主动性标准值,计算得到影响值并上传至参数服务器端,以获取是否加入自组织体的反馈和更新的主动性标准值;所述参数服务器端根据影响值判断各个用户端是否加入自组织体,用户端的影响值越高,加入自组织体的可能性越高;
内层联邦学习模块,其被配置为:在收到加入自组织体的反馈后生成训练样本,并以隐私预算和需求响应能力作为训练参数,执行内层联邦学习过程,并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力,计算用户端的最优效用并上传至参数服务器端,以获取参数服务器返回的平均梯度;
外层联邦学习模块,其被配置为:基于平均梯度,以隐私预算和需求响应能力作为训练参数,执行外层联邦学习过程,得到分布式网络管理器的最优效用;
总隐私补偿成本更新模块,其被配置为:基于最优效用,计算更新隐私预算和需求响应能力并上传至分布式网络管理器,以获取分布式网络管理器返回的总隐私补偿成本;
自组织体确定模块,其被配置为:判断结果是否收敛,如果结果不收敛,则返回内层联邦学习模块;如果结果收敛,则在自组织体中确定参与需求响应的最终自组织体成员,并更新参与能力标准值和隐私预算标准值,令迭代次数增加,并返回外层联邦学习模块。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211388054.0A CN115439026B (zh) | 2022-11-08 | 2022-11-08 | 基于嵌套联邦学习的多智能体自组织需求响应方法及系统 |
JP2023072062A JP7382045B1 (ja) | 2022-11-08 | 2023-04-26 | ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211388054.0A CN115439026B (zh) | 2022-11-08 | 2022-11-08 | 基于嵌套联邦学习的多智能体自组织需求响应方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115439026A CN115439026A (zh) | 2022-12-06 |
CN115439026B true CN115439026B (zh) | 2023-03-24 |
Family
ID=84252563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211388054.0A Active CN115439026B (zh) | 2022-11-08 | 2022-11-08 | 基于嵌套联邦学习的多智能体自组织需求响应方法及系统 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7382045B1 (zh) |
CN (1) | CN115439026B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575291B (zh) * | 2024-01-15 | 2024-05-10 | 湖南科技大学 | 基于边缘参数熵的联邦学习的数据协同管理方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102012249B1 (ko) * | 2013-03-28 | 2019-08-21 | 한국전자통신연구원 | 동적 자원 할당 방법 및 장치 |
CN111091200B (zh) * | 2019-12-20 | 2021-03-19 | 深圳前海微众银行股份有限公司 | 训练模型的更新方法、系统、智能设备、服务器及存储介质 |
CN112446040A (zh) * | 2020-11-24 | 2021-03-05 | 平安科技(深圳)有限公司 | 基于选择性梯度更新的联邦建模方法及相关设备 |
US20220328189A1 (en) * | 2021-04-09 | 2022-10-13 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems, methods, and apparatuses for implementing advancements towards annotation efficient deep learning in computer-aided diagnosis |
CN113361694B (zh) * | 2021-06-30 | 2022-03-15 | 哈尔滨工业大学 | 一种应用差分隐私保护的分层联邦学习方法及系统 |
CN114462090B (zh) * | 2022-02-18 | 2023-06-27 | 北京邮电大学 | 一种针对联邦学习中差分隐私预算计算的收紧方法 |
CN114841364B (zh) * | 2022-04-14 | 2024-06-14 | 北京理工大学 | 一种满足个性化本地差分隐私需求的联邦学习方法 |
-
2022
- 2022-11-08 CN CN202211388054.0A patent/CN115439026B/zh active Active
-
2023
- 2023-04-26 JP JP2023072062A patent/JP7382045B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN115439026A (zh) | 2022-12-06 |
JP7382045B1 (ja) | 2023-11-16 |
JP2024068611A (ja) | 2024-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | Optimization of lightweight task offloading strategy for mobile edge computing based on deep reinforcement learning | |
Zhan et al. | A learning-based incentive mechanism for federated learning | |
CN112367109B (zh) | 空地网络中由数字孪生驱动的联邦学习的激励方法 | |
Zhang et al. | Security-aware virtual network embedding algorithm based on reinforcement learning | |
Chapman et al. | Algorithmic and strategic aspects to integrating demand-side aggregation and energy management methods | |
CN115439026B (zh) | 基于嵌套联邦学习的多智能体自组织需求响应方法及系统 | |
Li et al. | Deep reinforcement learning based residential demand side management with edge computing | |
CN115016889A (zh) | 一种用于云计算的虚拟机优化调度方法 | |
Németh et al. | A snapshot of the frontiers of client selection in federated learning | |
Tao et al. | Sensing-gain constrained participant selection mechanism for mobile crowdsensing | |
Jiang et al. | Coalition formation game in the cross-silo federated learning system | |
CN116628731A (zh) | 一种隐私数据共享和数据交易方法 | |
Bistritz et al. | Online learning for load balancing of unknown monotone resource allocation games | |
Gao et al. | Deep reinforcement learning based node pairing scheme in edge-chain for IoT applications | |
Mamounakis et al. | A novel pricing scheme for virtual communities towards energy Efficiency | |
Xiao et al. | Efl-wp: Federated learning-based workload prediction in inter-cloud environments | |
Guo et al. | Incentive-driven and SAC-based Resource Allocation and Offloading Strategy in Vehicular Edge Computing Networks | |
Li et al. | A cooperative analysis to incentivize communication-efficient federated learning | |
Singh et al. | A theory for the economic operation of a smart grid with stochastic renewables, demand response and storage | |
Tang et al. | A blockchain-empowered incentive mechanism for cross-silo federated learning | |
CN116643808B (zh) | 一种基于远期合同的边缘网络计算卸载方法 | |
CN117175561B (zh) | 一种计及dlmp的虚拟电厂调频收益分配方法及装置 | |
Liu et al. | Optimal Pricing and Energy Scheduling with Adaptive Grouping Based on Trading Contribution Evaluation in Smart Grid | |
Irtija | Energy-efficient Operation and Performance Optimization in Computing Systems | |
Sun et al. | Budget-constraint mechanism for incremental multi-labeling crowdsensing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |