CN115439026B - 基于嵌套联邦学习的多智能体自组织需求响应方法及系统 - Google Patents

基于嵌套联邦学习的多智能体自组织需求响应方法及系统 Download PDF

Info

Publication number
CN115439026B
CN115439026B CN202211388054.0A CN202211388054A CN115439026B CN 115439026 B CN115439026 B CN 115439026B CN 202211388054 A CN202211388054 A CN 202211388054A CN 115439026 B CN115439026 B CN 115439026B
Authority
CN
China
Prior art keywords
demand response
self
privacy
standard value
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211388054.0A
Other languages
English (en)
Other versions
CN115439026A (zh
Inventor
吕天光
李竞
程浩源
艾芊
杨明
王飞
韩学山
邹贵彬
王成福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Shandong University
Original Assignee
Shanghai Jiaotong University
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, Shandong University filed Critical Shanghai Jiaotong University
Priority to CN202211388054.0A priority Critical patent/CN115439026B/zh
Publication of CN115439026A publication Critical patent/CN115439026A/zh
Application granted granted Critical
Publication of CN115439026B publication Critical patent/CN115439026B/zh
Priority to JP2023072062A priority patent/JP7382045B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Bioethics (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Water Supply & Treatment (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于电力系统需求响应技术领域,提供了基于嵌套联邦学习的多智能体自组织需求响应方法及系统,包括:建立了时变影响模型来描述各智能体用户参与需求响应的能力;构建了基于时变影响模型的自组织激励机制;以分布式网络管理器中的参数服务器为基础,建立了一个嵌套联邦学习优化计算框架,该框架可以在保证用户隐私的前提下,计算出自组织体中各智能体效用的最优收敛值,并进一步从分布式网络管理器中获取该信息;最后,参数服务器集成模型并将其返回给智能体,以实现高效和经济的需求响应管理。

Description

基于嵌套联邦学习的多智能体自组织需求响应方法及系统
技术领域
本发明属于电力系统需求响应技术领域,尤其涉及基于嵌套联邦学习的多智能体自组织需求响应方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
当配电系统中分布式发电机、负荷等资源的数量并不庞大时,控制中心能充分整合所有资源的特点,然后通过集中清算的方式实现资源的整合调度。但随着配电系统的快速发展,新型配电系统中通常存在大量分布式电源、储能装置、柔性负荷等智能体,传统模式的控制中心无法接触到所有资源的特点,可能造成集中调度效果不佳。同时,在传统电力市场中,由于缺乏良好的激励机制,且对需求方用电特征识别不准确,市场交易和调度过程效率相对较低。
传统的需求响应方法是一种让客户响应分时电价信号或实时调度指令的机制,通过动态改变电能消耗行为可以降低临界峰值需求或将不同时段的电能消耗转移。但传统的需求响应方法都是从用户用电特点和市场运行规律出发,这种做法将导致用户的私人信息完全泄露。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供基于嵌套联邦学习的多智能体自组织需求响应方法及系统,提出了嵌套联邦学习算法,在计算过程中充分结合了自组织体的演变,通过根据智能体的特点将其分组,来提高调度过程中智能体的反应率,实现对智能体更精确的控制,从而减少调度成本。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供基于嵌套联邦学习的多智能体自组织需求响应方法,其包括:
步骤1、初始化迭代次数、隐私预算和需求响应能力,并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值;
步骤2、基于贡献能力标准值、参与能力标准值、主动性标准值,计算得到影响值并上传至参数服务器端,以获取是否加入自组织体的反馈和更新的主动性标准值;
步骤3、在收到加入自组织体的反馈后生成训练样本,并以隐私预算和需求响应能力作为训练参数,执行内层联邦学习过程,并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力,计算用户端的最优效用并上传至参数服务器端,以获取参数服务器返回的平均梯度;
步骤4、基于平均梯度,以隐私预算和需求响应能力作为训练参数,执行外层联邦学习过程,得到分布式网络管理器的最优效用;
步骤5、基于最优效用,计算更新隐私预算和需求响应能力并上传至分布式网络管理器,以获取分布式网络管理器返回的总隐私补偿成本;
步骤6、判断结果是否收敛,如果结果不收敛,则返回步骤3;如果结果收敛,则在自组织体中确定参与需求响应的最终自组织体成员,并更新参与能力标准值和隐私预算标准值,令迭代次数增加,并返回步骤2。
进一步地,所述参数服务器端根据影响值判断各个用户端是否加入自组织体,用户端的影响值越高,加入自组织体的可能性越高。
进一步地,用户端i的效用U i,t 为:
Figure 100545DEST_PATH_IMAGE001
其中,t表示迭代次数;c p(v i ,β i,t )表示用户端i的隐私成本;P DR,i,t 表示用户端i的需求响应能力;P DR,t 表示参与联邦学习过程的一组用户端
Figure 889509DEST_PATH_IMAGE002
的需求响应能力;/>
Figure 850512DEST_PATH_IMAGE003
表示分布式网络管理器支付给用户端的需求响应补偿成本;c DR(P DR,i,t )表示用户端i的需求响应引起的停电经济损失;R t 为第t次迭代的总隐私补偿成本;ξ 2,t 反映时间特征;β i,t 为用户端i的隐私预算;v i 表示用户端i的隐私值参数。
进一步地,分布式网络管理器的效用取决于两个部分:联邦学习训练模型的性能和分布式网络管理器的成本。
进一步地,所述分布式网络管理器的成本取决于需求响应过程中的响应成本和联邦学习过程中的总隐私补偿成本。
进一步地,判断结果是否收敛的方法为:如果用户端和分布式网络管理器的最大效用均唯一,则收敛。
进一步地,所述隐私预算与隐私预算标准值成正比。
本发明的第二个方面提供基于嵌套联邦学习的多智能体自组织需求响应系统,其包括:
初始化模块,其被配置为:初始化迭代次数、隐私预算和需求响应能力,并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值;
影响值计算模块,其被配置为:基于贡献能力标准值、参与能力标准值、主动性标准值,计算得到影响值并上传至参数服务器端,以获取是否加入自组织体的反馈和更新的主动性标准值;
内层联邦学习模块,其被配置为:在收到加入自组织体的反馈后生成训练样本,并以隐私预算和需求响应能力作为训练参数,执行内层联邦学习过程,并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力,计算用户端的最优效用并上传至参数服务器端,以获取参数服务器返回的平均梯度;
外层联邦学习模块,其被配置为:基于平均梯度,以隐私预算和需求响应能力作为训练参数,执行外层联邦学习过程,得到分布式网络管理器的最优效用;
总隐私补偿成本更新模块,其被配置为:基于最优效用,计算更新隐私预算和需求响应能力并上传至分布式网络管理器,以获取分布式网络管理器返回的总隐私补偿成本;
自组织体确定模块,其被配置为:判断结果是否收敛,如果结果不收敛,则返回内层联邦学习模块;如果结果收敛,则在自组织体中确定参与需求响应的最终自组织体成员,并更新参与能力标准值和隐私预算标准值,令迭代次数增加,并返回外层联邦学习模块。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。
本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明提供了基于嵌套联邦学习的多智能体自组织需求响应方法,其提出了一种嵌套联邦学习算法,在计算过程中充分结合了自组织体的演变,通过根据智能体的特点将其分组集群来提高调度过程中智能体的反应率,实现对智能体更精确的控制,从而减少调度成本,在保证收敛性和用户隐私的前提下实现高效和经济的需求响应管理。
本发明提供了基于嵌套联邦学习的多智能体自组织需求响应方法,其建立了时变影响模型,可以充分反映各智能体的特性,让用户选择自动更新自己的影响值,为多智能体的自组织方案提供精确的参考。
本发明提供了基于嵌套联邦学习的多智能体自组织需求响应方法,其提出了一种自组织激励机制,以选择自组织体中的最佳执行者,提高了自组织体的稳定性,同时充分调动所有可用资源参与需求响应。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例一的基于嵌套联邦学习的多智能体自组织需求响应方法流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
实施例一
本实施例提供了基于嵌套联邦学习的多智能体自组织需求响应方法,如图1所示,具体包括如下步骤:
步骤1、用户端和参数服务器端分别进行参数初始化。
其中,用户端(智能体)i进行参数初始化的具体方法为:初始化迭代次数t=1;智能体i获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值,并计算影响值I i,t ;初始化隐私预算β i,t 和需求响应能力(简称,响应能力)P DR,i,t I i , t 为第i个智能体在第t代的影响值;β i,t 为第i个智能体在第t代的隐私预算金额实际值,β i , t >0;P DR,i,t 为第i个智能体在第t代的响应能力。
其中,分布式网络管理器中的参数服务器端初始化:迭代次数t=1和总隐私补偿成本R t R t 为第t次迭代的总隐私补偿成本。
具体的,建立一个影响模型(时变影响模型)来充分描述各智能体的特性,在所建立的影响模型中,智能体i的影响值I i,t 由贡献能力、参与能力、主动性和隐私预算四部分进行加权得到。其中,贡献能力是指智能体i的最大贡献值,即最大可调容量,贡献能力的权重最大;参与能力是指影响用户端i决策的外部环境条件,外部环境受市场政策、天气、系统稳定性等因素影响,环境越友好,参与能力的值就越大;主动性表示用户端i的历史影响性能,这可以避免出现不当的数据,并且赋予了影响模型时间属性,历史影响值越大,该部分值越大,但为了鼓励用户参与需求响应过程,这部分的权重不能过高或过低;隐私预算与用户端i提供的私人数据有关,假设需求响应由分布式网络管理器发起,在激励机制中,分布式网络管理器根据用户端i的隐私预算对用户端i提供的私人数据进行回报,隐私预算值越高的用户端i从分布式网络管理器获得的回报就越高,这有利于鼓励用户进一步参与联邦学习过程,用户通过设计自己的隐私预算以最大化自身效用。
假设N为智能体总数,智能体i的影响值I i,t 可以描述为:
I i , t =a i I C,i,t +b i I P,i,t +c i I A,i,t +d i I B,i,t (1)
其中,i∈{1,2,…,N};a i b i c i d i 均表示智能体i的线性权重参数,且满足a i +b i +c i +d i =1;I C,i,t I P,i,t I A,i,t I B,i,t ∈[0,1]分别表示智能体i的贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值;β i,t I B,i,t ,即β i,t I B,i,t 成正比。具体地,贡献能力标准值I C,i,t 用来表示用户的最大可调容量,其值由数据采集装置根据用户实际情况获取后再进行0-1标准化;参与能力标准值I P,i,t 用来表示影响用户端决策的外部环境条件,受市场政策、天气、系统稳定性等因素影响,其值由数据采集装置根据市场政策、天气、系统稳定性等环境条件获取,并进行0-1标准化,环境越友好,参与能力标准值越大;主动性标准值I A,i,t 用来表示用户端参与需求响应的历史表现,赋予了影响模型时间属性,可以避免出现不当的数据,其值由数据采集装置根据用户的历史表现获取,并进行0-1标准化,历史表现越好,主动性标准值越大;隐私预算标准值I B,i,t 是由用户端i提供的私人数据进行0-1标准化后得到。假设需求响应由分布式网络管理器发起,在激励机制中,分布式网络管理器根据用户端i的隐私预算标准值I B,i,t 对用户i提供的私人数据进行回报,隐私预算标准值越高的用户端i从分布式网络管理器获得的回报就越高,这有利于鼓励用户进一步参与联邦学习过程,用户可以通过设计自己的隐私预算以最大化自身效用。则智能体i的特性可以表示为[I C,i,t I P,i,t I A,i,t I B,i,t ] T 。4个线性权重参数根据各智能体特性设定,其中,贡献能力的权重最大,主动性的权重不能过高或过低以通过历史表现筛选不当数据的同时鼓励用户参与需求响应过程,且满足a i +b i +c i +d i =1。不同智能体的线性权重参数可能不同。
影响模型的影响值越高,形成自组织体时,智能体加入自组织体的优先级就越高。
用户自组织方法基于智能体自动聚合为动态虚拟电厂的原则,这可以减少计算压力和需求响应过程中需要控制的智能体数量。基于之前的分析,影响值较高的智能体更有可能参与自组织,其目的是优化自身效用。
通过对影响模型四个部分的分析可知:I C,i,t 越高,智能体越灵活,因此可调度的电能就越多;I P,i,t 越高,需求响应调度环境越好;I A,i,t 越高,则调度期间的稳定性越高;I B,i,t 越高,智能体参与自组织的可能性越高。上述分析还包括以下假设:β i,t I B,i,t P DR,i,t I P,i,t
步骤2、用户端i基于贡献能力标准值、参与能力标准值、主动性标准值,计算得到影响值,并将影响值上传至参数服务器端,以获取是否加入自组织体的反馈和更新的主动性标准值。
参数服务器端根据影响值I i , t 判断各个智能体是否加入预自组织体(通过对影响模型四个部分的分析可知:I B,i,t 越高,加入自组织的可能性越高;在不降低其他智能体利益的基础上,如果至少存在一个智能体通过自组织能够提升自身利益,则可以加入预自组织体;所有参与自组织的智能体都将参与嵌套联邦学习);如果智能体i满足自组织(预自组织体)的参与条件,则将智能体i加入自组织
Figure 593602DEST_PATH_IMAGE004
,即/>
Figure 665463DEST_PATH_IMAGE005
,参数服务器端向加入自组织的智能体i反馈,并更新所有智能体i的主动性标准值I A,i,t+1(智能体i加入自组织后,参数服务器会向智能体i反馈,智能体i的数据采集装置收到反馈信息后更新用户的历史表现,由于用户参与了自组织,其主动性标准值增加)。
步骤3、用户端i在收到加入预自组织体的反馈后生成训练样本,并以隐私预算和需求响应能力作为训练参数,执行内层联邦学习过程(
Figure 574514DEST_PATH_IMAGE006
),并结合总隐私补偿成本R t 和参与联邦学习过程的一组用户端/>
Figure 440838DEST_PATH_IMAGE002
的需求响应能力P DR,t ,计算用户端i的最优效用/>
Figure 435339DEST_PATH_IMAGE007
具体的,若是首次迭代,即t=1,则隐私预算和需求响应能力分别初始化为隐私预算β i,t 和需求响应能力P DR,i,t ,并直接生成训练样本;若非首次迭代,即t>1,则隐私预算和需求响应能力分别设定为t-1次迭代时得到的用户端i的最佳隐私预算
Figure 45312DEST_PATH_IMAGE008
和最佳需求响应能力/>
Figure 74448DEST_PATH_IMAGE009
,并生成训练样本。
用户端i的目标是通过设定隐私预算β i,t 和影响值I i , t 来最大化自身效用U i,t ;用户端i的隐私成本可以表示为c p (v i ,β i,t ),其中,v i >0表示隐私值参数;用户端i的效用U i,t 可以表示为:
Figure 111674DEST_PATH_IMAGE010
(2)
其中,t表示迭代次数,c p(v i ,β i,t )表示隐私成本;P DR,i,t 表示用户端i的需求响应能力;
Figure 859050DEST_PATH_IMAGE011
P DR,t 表示参与联邦学习过程的一组用户端/>
Figure 7135DEST_PATH_IMAGE002
的需求响应能力(/>
Figure 392242DEST_PATH_IMAGE012
);/>
Figure 865949DEST_PATH_IMAGE013
表示第t次迭代时,分布式网络管理器支付给用户端的需求响应补偿成本,k 1k 2表示需求响应补偿因子;c DR(P DR,i,t )表示用户端i的需求响应引起的停电经济损失,通常为二次函数形式。值得注意的是,每个用端户i的隐私成本c p(v i ,β i,t )为其他每个用户端所知,但隐私值参数v i 仅为自己所知;假设所有用户端/>
Figure 569463DEST_PATH_IMAGE014
的隐私成本函数呈线性正相关,对于任何jk和任何β i,t >0,/>
Figure 521238DEST_PATH_IMAGE015
当且仅当/>
Figure 259387DEST_PATH_IMAGE016
时成立,v i 表示隐私值参数,/>
Figure 638416DEST_PATH_IMAGE017
和/>
Figure 829226DEST_PATH_IMAGE018
表示两个不同的隐私值参数(jk)。
为了吸引用户参与自组织,ξ 2,t 应该反映时间特征,例如,可以降低参与自组织较少的用户的响应成本,ξ 2,t 定义如下:
Figure 584692DEST_PATH_IMAGE019
(3)
其中,q为设定值,可设置为0.5;τ=t-1。
步骤4、用户端i将第t次迭代时得到的其自身最优效用
Figure 177347DEST_PATH_IMAGE007
上传至参数服务器,以获取参数服务器返回的平均梯度,并且用户端i以隐私预算β i,t 和需求响应能力P DR,i,t 作为训练参数,执行外层联邦学习过程,得到分布式网络管理器的最优效用/>
Figure 992857DEST_PATH_IMAGE020
外层联邦学习:在内层联邦学习的基础上,输入用户端i的最佳效用
Figure 172427DEST_PATH_IMAGE007
;输出分布式网络管理器的最优效用/>
Figure 466006DEST_PATH_IMAGE020
分布式网络管理器的目标是选择一个合适的奖励R t 值以使其效用U DNM,t 最大化。分布式网络管理器的效用取决于两个部分:联邦学习训练模型的性能P FL,t 和分布式网络管理器的成本;分布式网络管理器的成本取决于需求响应过程中的响应成本ξ 1,t C DR,t 和联邦学习过程中的总隐私补偿成本R t ;因此,分布式网络管理器的效用U DNM,t 如下式所示:
U DNM,t =P FL,t -ξ 1,t C DR,t -R t (4)
其中,t∈{1,2,…,T},T表示联邦学习过程的最大迭代次数;ξ 1,t >0表示需求响应成本参数,ξ 1,t 定义如下:
ξ 1,t =1+(1-ξ 2,t ) (5)
联邦学习训练模型的性能P FL,t 如下式所示:
Figure 913167DEST_PATH_IMAGE021
(6)
其中,
Figure 899578DEST_PATH_IMAGE004
表示参与联邦学习过程的一组用户,即自组织体;β i,t 表示用户端i的隐私预算;权重参数λ>1;/>
Figure 64980DEST_PATH_IMAGE022
表示学习率;m表示用户端i的数据集大小,即用户端i中训练样本的个数;L表示损失函数。
噪声σ的大小定义为:
Figure 162249DEST_PATH_IMAGE023
(7)
其中,σ i,t 表示用户端i在第t迭代的噪声。如公式(6)和(7)所示,当高斯噪声σ的幅值增大时,联邦学习训练模型精度降低。
响应成本C DR,t 等于响应前的收入
Figure 463917DEST_PATH_IMAGE024
减去响应后的收入/>
Figure 621229DEST_PATH_IMAGE025
Figure 273928DEST_PATH_IMAGE026
Figure 909308DEST_PATH_IMAGE027
Figure 331062DEST_PATH_IMAGE028
(8)
其中,
Figure 160740DEST_PATH_IMAGE013
表示时间t(第t次迭代)时分布式网络管理器支付给用户i的需求响应补偿成本;/>
Figure 35155DEST_PATH_IMAGE003
可以假设为一个通过原点的二次函数;k 1k 2表示需求响应补偿因子;r p 表示分布式网络管理器通过联络线的电价。
隐私补偿成本R t 表示支付给联邦学习参与者的奖励;由高斯噪声公式可知,隐私预算将会影响联邦学习训练模型的精度;因此,隐私补偿成本与联邦学习训练模型的性能之间存在耦合关系;通过分析隐私预算对联邦学习训练模型收敛特性的影响,可以在联邦学习的初始阶段初始化和估计联邦学习训练模型的精度。
对于公式(2)和(4),假设总响应能力P DR,t 和隐私补偿成本R t 呈负相关,则可以得出以下结论:分布式网络管理器的效用包括训练模型的性能P FL,t (与β i,t 正相关)、响应成本ξ 1,t C DR,t (与
Figure 739806DEST_PATH_IMAGE029
负相关)和隐私补偿成本R t (与P DR,i,t 负相关);而用户的效用包括隐私补偿成本/>
Figure 281646DEST_PATH_IMAGE030
(与β i,t 正相关,与P DR,i,t 负相关),隐私成本c p(v i ,β i,t )(与β i,t 负相关),需求响应补偿成本/>
Figure 515181DEST_PATH_IMAGE031
(与/>
Figure 142472DEST_PATH_IMAGE029
正相关)和停电成本c DR(P DR,i,t )(与/>
Figure 854076DEST_PATH_IMAGE029
负相关);因此,分布式网络管理器和用户之间的效用冲突体现在隐私预算β i,t 和响应补偿的平方/>
Figure 516001DEST_PATH_IMAGE029
;因为在所有情况下P DR,i,t ≥0,所以在联邦学习过程中训练参数应选择为β i,t P DR,i,t
步骤5、用户端基于最优效用,计算更新隐私预算和需求响应能力并上传至分布式网络管理器,以获取分布式网络管理器返回的总隐私补偿成本。
基于分布式网络管理器的最优效用
Figure 186017DEST_PATH_IMAGE020
,用户端计算并输出最佳隐私预算
Figure 35024DEST_PATH_IMAGE032
和最佳需求响应能力/>
Figure 317363DEST_PATH_IMAGE033
,令最佳隐私预算/>
Figure 568216DEST_PATH_IMAGE032
和最佳需求响应能力
Figure 409133DEST_PATH_IMAGE033
为用户端i的隐私预算β i,t+1和需求响应能力P DR,i,t+1;分布式网络管理器更新总隐私补偿成本R t+1
用户端i基于R t 、步骤3得到的
Figure 11016DEST_PATH_IMAGE007
和步骤4得到的/>
Figure 330002DEST_PATH_IMAGE020
,通过公式(9)计算最佳隐私预算/>
Figure 700940DEST_PATH_IMAGE032
和最佳需求响应能力/>
Figure 447179DEST_PATH_IMAGE033
Figure 270779DEST_PATH_IMAGE034
(9)
分布式网络管理器根据用户端i反馈的隐私预算β i,t+1,通过公式(2),更新R t+1
步骤6、判断结果是否收敛(如果最终用户端和分布式网络管理器的最大效用
Figure 393456DEST_PATH_IMAGE007
和/>
Figure 353321DEST_PATH_IMAGE020
均唯一,则收敛),如果结果不收敛,则更新参数β i,t P DR,i,t 并返回到步骤3的内层联邦学习过程;如果结果收敛,则根据P DR,t 确定参与需求响应的最终自组织体成员,并更新I P,i,t+1I B,i,t+1,令t=t+1,并返回步骤2,当t>T时,则结束计算。
更新I P,i,t+1I B,i,t+1的具体方法为:通过形成自组织体参与需求响应,需求响应的调度环境发生改变,故数据采集装置根据新的调度环境条件重新获取I P,i,t+1进行更新;通过输出的最佳隐私预算
Figure 25787DEST_PATH_IMAGE035
,由β i,t I B,i,t 重新计算I B,i,t+1进行更新。
在本实施例中,内层联邦学习和外层联邦学习的运行机制一致,仅输入、输出不同。
根据联邦学习的特点,联邦学习的参数服务器可以收集用户的信息,并在考虑用户隐私和通信效率的情况下,用户使用同态加密将其信息(即影响值)映射到服务器中的加密空间。联邦学习的运行机制为:
1)每个用户端从参数服务器下载模型
Figure 602262DEST_PATH_IMAGE036
,即/>
Figure 263050DEST_PATH_IMAGE037
,并使用其本地数据来训练模型;其中,/>
Figure 343002DEST_PATH_IMAGE038
表示用户端的模型;
2)用户端将新的模型权重或梯度上传到参数服务器以更新全局模型。
因此,具有数据集x i 的用户端i的损失函数为:
Figure 696623DEST_PATH_IMAGE039
(10)
其中,
Figure 494814DEST_PATH_IMAGE040
表示用户端i的数据样本j的损失函数。
联邦学习的目标是通过最小化每个用户端的局部损失函数
Figure 693715DEST_PATH_IMAGE041
的平均值来优化全局损失函数/>
Figure 893752DEST_PATH_IMAGE042
Figure 683853DEST_PATH_IMAGE043
(11)
本实施例中的内层联邦学习和外层联邦学习均采用自适应运动估计联邦学习算法,自适应运动估计联邦学习算法的具体步骤为:
①获取用户模型
Figure 438183DEST_PATH_IMAGE044
②对于第t次循环中的第i
Figure 473397DEST_PATH_IMAGE045
个用户端,对模型进行更新:
Figure 262361DEST_PATH_IMAGE046
③对于第t次循环中的参数服务器,更新全局模型:
Figure 692206DEST_PATH_IMAGE047
其中,
Figure 464990DEST_PATH_IMAGE048
,/>
Figure 271272DEST_PATH_IMAGE049
Weight i 表示用户i的重要性权重,可以为每个用户设置相同的权重,/>
Figure 180322DEST_PATH_IMAGE022
表示学习率,/>
Figure 46647DEST_PATH_IMAGE050
表示/>
Figure 41148DEST_PATH_IMAGE051
的激活函数,TotalWeight表示总权重。
本实施例提供的基于嵌套联邦学习的多智能体自组织需求响应方法,从需求响应的角度出发,考虑到用户的通信成本和隐私保护,建立了一个时变影响模型来描述各智能体用户参与需求响应的能力;在此基础上,构建了基于时变影响模型的自组织激励机制;然后,以分布式网络管理器中的参数服务器为基础,建立了一个嵌套联邦学习优化计算框架,该框架可以在保证用户隐私的前提下,计算出自组织体中各智能体效用的最优收敛值,并进一步从分布式网络管理器中获取该信息;最后,参数服务器集成模型并将其返回给智能体,以实现高效和经济的需求响应管理。
本实施例提供的基于嵌套联邦学习的多智能体自组织需求响应方法,建立了时变影响模型,可以充分反映各智能体的特性,让用户选择自动更新自己的影响值,为多智能体的自组织方案提供精确的参考。
本实施例提供的基于嵌套联邦学习的多智能体自组织需求响应方法,提出了一种自组织激励机制,以选择自组织体中的最佳执行者,提高了自组织体的稳定性,同时充分调动所有可用资源参与需求响应。
本实施例提供的基于嵌套联邦学习的多智能体自组织需求响应方法,提出了一种嵌套联邦学习算法,在计算过程中充分结合了自组织体的演变,通过根据智能体的特点将其分组集群来提高调度过程中智能体的反应率,实现对智能体更精确的控制,从而减少调度成本,在保证收敛性和用户隐私的前提下实现高效和经济的需求响应管理。
实施例二
本实施例提供了基于嵌套联邦学习的多智能体自组织需求响应系统,其具体包括如下模块:
初始化模块,其被配置为:初始化迭代次数、隐私预算和需求响应能力,并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值;
影响值计算模块,其被配置为:基于贡献能力标准值、参与能力标准值、主动性标准值,计算得到影响值并上传至参数服务器端,以获取是否加入自组织体的反馈和更新的主动性标准值;
内层联邦学习模块,其被配置为:在收到加入自组织体的反馈后生成训练样本,并以隐私预算和需求响应能力作为训练参数,执行内层联邦学习过程,并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力,计算用户端的最优效用并上传至参数服务器端,以获取参数服务器返回的平均梯度;
外层联邦学习模块,其被配置为:基于平均梯度,以隐私预算和需求响应能力作为训练参数,执行外层联邦学习过程,得到分布式网络管理器的最优效用;
总隐私补偿成本更新模块,其被配置为:基于最优效用,计算更新隐私预算和需求响应能力并上传至分布式网络管理器,以获取分布式网络管理器返回的总隐私补偿成本;
自组织体确定模块,其被配置为:判断结果是否收敛,如果结果不收敛,则返回内层联邦学习模块;如果结果收敛,则在自组织体中确定参与需求响应的最终自组织体成员,并更新参与能力标准值和隐私预算标准值,令迭代次数增加,并返回外层联邦学习模块。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于嵌套联邦学习的多智能体自组织需求响应方法,其特征在于,包括:
步骤1、初始化迭代次数、隐私预算和需求响应能力,并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值;
步骤2、基于贡献能力标准值、参与能力标准值、主动性标准值,计算得到影响值并上传至参数服务器端,以获取是否加入自组织体的反馈和更新的主动性标准值;所述参数服务器端根据影响值判断各个用户端是否加入自组织体,用户端的影响值越高,加入自组织体的可能性越高;
步骤3、在收到加入自组织体的反馈后生成训练样本,并以隐私预算和需求响应能力作为训练参数,执行内层联邦学习过程,并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力,计算用户端的最优效用并上传至参数服务器端,以获取参数服务器返回的平均梯度;
步骤4、基于平均梯度,以隐私预算和需求响应能力作为训练参数,执行外层联邦学习过程,得到分布式网络管理器的最优效用;
步骤5、基于最优效用,计算更新隐私预算和需求响应能力并上传至分布式网络管理器,以获取分布式网络管理器返回的总隐私补偿成本;
步骤6、判断结果是否收敛,如果结果不收敛,则返回步骤3;如果结果收敛,则在自组织体中确定参与需求响应的最终自组织体成员,并更新参与能力标准值和隐私预算标准值,令迭代次数增加,并返回步骤2。
2.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法,其特征在于,用户端i的效用U i,t 为:
Figure 329571DEST_PATH_IMAGE001
其中,t表示迭代次数;c p(v i ,β i,t )表示用户端i的隐私成本;P DR,i,t 表示用户端i的需求响应能力;P DR,t 表示参与联邦学习过程的一组用户端
Figure 206260DEST_PATH_IMAGE002
的需求响应能力;
Figure 28723DEST_PATH_IMAGE003
表示分布式网络管理器支付给用户端的需求响应补偿成本;c DR(P DR,i,t )表示用户端i的需求响应引起的停电经济损失;R t 为第t次迭代的总隐私补偿成本;ξ 2,t 反映时间特征;β i,t 为用户端i的隐私预算;v i 表示用户端i的隐私值参数。
3.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法,其特征在于,分布式网络管理器的效用取决于两个部分:联邦学习训练模型的性能和分布式网络管理器的成本。
4.如权利要求3所述的基于嵌套联邦学习的多智能体自组织需求响应方法,其特征在于,所述分布式网络管理器的成本取决于需求响应过程中的响应成本和联邦学习过程中的总隐私补偿成本。
5.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法,其特征在于,判断结果是否收敛的方法为:如果用户端和分布式网络管理器的最大效用均唯一,则收敛。
6.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法,其特征在于,所述隐私预算与隐私预算标准值成正比。
7.基于嵌套联邦学习的多智能体自组织需求响应系统,其特征在于,包括:
初始化模块,其被配置为:初始化迭代次数、隐私预算和需求响应能力,并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值;
影响值计算模块,其被配置为:基于贡献能力标准值、参与能力标准值、主动性标准值,计算得到影响值并上传至参数服务器端,以获取是否加入自组织体的反馈和更新的主动性标准值;所述参数服务器端根据影响值判断各个用户端是否加入自组织体,用户端的影响值越高,加入自组织体的可能性越高;
内层联邦学习模块,其被配置为:在收到加入自组织体的反馈后生成训练样本,并以隐私预算和需求响应能力作为训练参数,执行内层联邦学习过程,并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力,计算用户端的最优效用并上传至参数服务器端,以获取参数服务器返回的平均梯度;
外层联邦学习模块,其被配置为:基于平均梯度,以隐私预算和需求响应能力作为训练参数,执行外层联邦学习过程,得到分布式网络管理器的最优效用;
总隐私补偿成本更新模块,其被配置为:基于最优效用,计算更新隐私预算和需求响应能力并上传至分布式网络管理器,以获取分布式网络管理器返回的总隐私补偿成本;
自组织体确定模块,其被配置为:判断结果是否收敛,如果结果不收敛,则返回内层联邦学习模块;如果结果收敛,则在自组织体中确定参与需求响应的最终自组织体成员,并更新参与能力标准值和隐私预算标准值,令迭代次数增加,并返回外层联邦学习模块。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。
CN202211388054.0A 2022-11-08 2022-11-08 基于嵌套联邦学习的多智能体自组织需求响应方法及系统 Active CN115439026B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211388054.0A CN115439026B (zh) 2022-11-08 2022-11-08 基于嵌套联邦学习的多智能体自组织需求响应方法及系统
JP2023072062A JP7382045B1 (ja) 2022-11-08 2023-04-26 ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211388054.0A CN115439026B (zh) 2022-11-08 2022-11-08 基于嵌套联邦学习的多智能体自组织需求响应方法及系统

Publications (2)

Publication Number Publication Date
CN115439026A CN115439026A (zh) 2022-12-06
CN115439026B true CN115439026B (zh) 2023-03-24

Family

ID=84252563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211388054.0A Active CN115439026B (zh) 2022-11-08 2022-11-08 基于嵌套联邦学习的多智能体自组织需求响应方法及系统

Country Status (2)

Country Link
JP (1) JP7382045B1 (zh)
CN (1) CN115439026B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575291B (zh) * 2024-01-15 2024-05-10 湖南科技大学 基于边缘参数熵的联邦学习的数据协同管理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102012249B1 (ko) * 2013-03-28 2019-08-21 한국전자통신연구원 동적 자원 할당 방법 및 장치
CN111091200B (zh) * 2019-12-20 2021-03-19 深圳前海微众银行股份有限公司 训练模型的更新方法、系统、智能设备、服务器及存储介质
CN112446040A (zh) * 2020-11-24 2021-03-05 平安科技(深圳)有限公司 基于选择性梯度更新的联邦建模方法及相关设备
US20220328189A1 (en) * 2021-04-09 2022-10-13 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for implementing advancements towards annotation efficient deep learning in computer-aided diagnosis
CN113361694B (zh) * 2021-06-30 2022-03-15 哈尔滨工业大学 一种应用差分隐私保护的分层联邦学习方法及系统
CN114462090B (zh) * 2022-02-18 2023-06-27 北京邮电大学 一种针对联邦学习中差分隐私预算计算的收紧方法
CN114841364B (zh) * 2022-04-14 2024-06-14 北京理工大学 一种满足个性化本地差分隐私需求的联邦学习方法

Also Published As

Publication number Publication date
JP7382045B1 (ja) 2023-11-16
CN115439026A (zh) 2022-12-06
JP2024068611A (ja) 2024-05-20

Similar Documents

Publication Publication Date Title
Lu et al. Optimization of lightweight task offloading strategy for mobile edge computing based on deep reinforcement learning
Zhan et al. A learning-based incentive mechanism for federated learning
Zhang et al. Security-aware virtual network embedding algorithm based on reinforcement learning
CN112367109A (zh) 空地网络中由数字孪生驱动的联邦学习的激励方法
Jain et al. A multiarmed bandit incentive mechanism for crowdsourcing demand response in smart grids
CN113992676B (zh) 端边云架构和完全信息下分层联邦学习的激励方法及系统
CN115439026B (zh) 基于嵌套联邦学习的多智能体自组织需求响应方法及系统
Li et al. Deep reinforcement learning based residential demand side management with edge computing
Németh et al. A snapshot of the frontiers of client selection in federated learning
Yang et al. A decentralized trust inference approach with intelligence to improve data collection quality for mobile crowd sensing
Tao et al. Sensing-gain constrained participant selection mechanism for mobile crowdsensing
Luan et al. Cooperative power consumption in the smart grid based on coalition formation game
CN112258210A (zh) 一种市场单侧报价下市场出清方法、装置、设备及介质
CN116628731A (zh) 一种隐私数据共享和数据交易方法
Jiang et al. Coalition formation game in the cross-silo federated learning system
Gao et al. Deep reinforcement learning based node pairing scheme in edge-chain for IoT applications
Mamounakis et al. A novel pricing scheme for virtual communities towards energy Efficiency
CN115016889A (zh) 一种用于云计算的虚拟机优化调度方法
Li et al. A cooperative analysis to incentivize communication-efficient federated learning
CN112288245A (zh) 基于价格驱动和服务驱动的光伏电力消纳方法及系统
Chakraborty et al. Coordinating distributed and flexible resources: A case-study of residential cooperatives
Tang et al. A blockchain-empowered incentive mechanism for cross-silo federated learning
CN116643808B (zh) 一种基于远期合同的边缘网络计算卸载方法
CN117175561B (zh) 一种计及dlmp的虚拟电厂调频收益分配方法及装置
Yang et al. Reinforcement Learning-Based Market Game Model Considering Virtual Power Plants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant