CN115313520A - 分布式能源系统博弈优化调度方法、系统、设备及介质 - Google Patents

分布式能源系统博弈优化调度方法、系统、设备及介质 Download PDF

Info

Publication number
CN115313520A
CN115313520A CN202211128856.8A CN202211128856A CN115313520A CN 115313520 A CN115313520 A CN 115313520A CN 202211128856 A CN202211128856 A CN 202211128856A CN 115313520 A CN115313520 A CN 115313520A
Authority
CN
China
Prior art keywords
agent
formula
load
power
game
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211128856.8A
Other languages
English (en)
Inventor
蒲天骄
张津源
李烨
王新迎
荆江平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202211128856.8A priority Critical patent/CN115313520A/zh
Publication of CN115313520A publication Critical patent/CN115313520A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/466Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/12Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
    • H02J3/14Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by switching loads on to, or off from, network, e.g. progressively balanced loading
    • H02J3/144Demand-response operation of the power transmission or distribution network
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Power Engineering (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Water Supply & Treatment (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种分布式能源系统博弈优化调度方法、系统、设备及介质,包括:获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;采用WoLF‑PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。本发明可有效提升分布式能源系统博弈优化调度问题求解精度,促进相关人工智能技术落地,推动电力优化调度决策智能化。

Description

分布式能源系统博弈优化调度方法、系统、设备及介质
技术领域
本发明属于电网调度技术领域,具体涉及一种分布式能源系统博弈优化调度方法、系统、设备及介质。
背景技术
大量接入分布式能源系统的分布式电源和储能等设备由社会资本投资建设,分布式电源运营商作为独立利益主体使各类设备以集成的形式参与到系统运行中。同时,大量需求响应用户通过负荷聚合商整合,参与到系统优化调度中,实现电力资源优化配置。在市场机制下,各主体具有各自的发用电需求,各主体存在相对独立甚至相互冲突的优化目标,因此需要在保证系统整体安全高效运行的前提下协调各主体利益。
随着电网逐步开放市场化竞争,参与分布式能源系统运行的主体日益多元。在市场机制下,各主体具有各自的发用电需求,分布式能源系统中各主体存在相对独立甚至相互冲突的优化目标,因此需要在保证系统整体安全高效运行的前提下协调各主体利益。博弈论为解决多利益主体博弈调度问题提供了解决方案,但博弈模型求解普遍采用数学推导法和启发式算法。数学推导法对初值的依赖性较强,在实际应用中可能会出现无法收敛的情形;启发式算法易陷入局部最优解。多智能体强化学习算法将强化学习方法与博弈论有机结合,一定程度上弥补了传统方法的局限性。因此现有技术存在以下问题:
(1)传统博弈优化调度求解方法对初值的依赖性较强,在实际应用中可能会出现无法收敛的情形,或者易陷入局部最优,无法保证与纳什均衡解的一致性。
(2)传统博弈优化调度方法以完全信息环境作为前提假设,不利于保护各主体策略和效益函数等隐私。
发明内容
为了解决分布式能源系统多主体利益协调问题,本发明提供了一种分布式能源系统博弈优化调度方法、系统、设备及介质,针对分布式能源系统优化调度领域,本发明可有效提升分布式能源系统博弈优化调度问题求解精度,促进相关人工智能技术落地,推动电力优化调度决策智能化。
为达到上述目的,本发明采用以下技术方案予以实现:
一种分布式能源系统博弈优化调度方法,包括:
获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
作为本发明的进一步改进,所述进行强化学习构建多主体博弈模型,包括:状态空间、动作空间的构建以及奖励函数;
t时段联合状态空间表示为:
Figure BDA0003850113600000021
式中,Pt pv,Pt load
Figure BDA0003850113600000022
分别为t时段系统内光伏发电功率,负荷功率和电储能储电量;
Figure BDA0003850113600000023
为t-1时段微燃气轮机功率;
系统运营商智能体动作空间为:
Figure BDA0003850113600000024
式中,
Figure BDA0003850113600000025
为t时段系统运营商向用户售电电价;
Figure BDA0003850113600000026
为t时段系统运营商向分布式电源运营商购电电价;
系统运营商智能体动作空间的约束条件为:
Figure BDA0003850113600000027
Figure BDA0003850113600000031
式中,
Figure BDA0003850113600000032
分别为t时段购电价格上下限;
Figure BDA0003850113600000033
分别为t时段售电价格上下限;
分布式电源运营商智能体动作空间为:
Figure BDA0003850113600000034
式中,Rt为t时段微燃气轮机爬坡功率;
Figure BDA0003850113600000035
表示微燃气轮机无功出力;
Figure BDA0003850113600000036
分别表示电储能有功、无功出力;
负荷聚合商智能体动作空间仅包含其负荷削减功率Pt il,公式为
Figure BDA0003850113600000037
系统运营商奖励函数为:
rt SO=Csell(t)-Cbuy(t)-Cgrid(t) (7)
式中,Csell(t)、Cbuy(t)、Cgrid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本;
分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,其优化目标为最大化售电收益,奖励函数为:
Figure BDA0003850113600000038
Pt d=Pt pv+Pt mt+Pt es (12)
式中,Pt pv、Pt mt、Pt es分别为光伏发电功率、微燃气轮机功率和电储能放电功率;Cmt(t)和Cb(t)分别为微燃气轮机和电储能运行成本;
负荷聚合商的效益函数为:
Figure BDA0003850113600000039
式中,
Figure BDA00038501136000000310
为用户用电效用函数,表示用户购电满意度,采用如式(14)所示二次函数模拟:
Figure BDA00038501136000000311
式中,d、e均为系数;
实际负荷需求Pt load满足:
Pt load=Pt l0-Pt il (15)
式中,Pt l0为固定负荷;Pt il为削减负荷,具有上限约束:
Figure BDA0003850113600000041
式中,
Figure BDA0003850113600000042
为最大可削减负荷。
作为本发明的进一步改进,所述Csell(t)、Cbuy(t)、Cgrid(t)的具体计算方法为:
Figure BDA0003850113600000043
式中,Pt load为t时段用户实际用电功率;
Figure BDA0003850113600000044
式中,Pt d为t时段分布式电源运营商售出功率.
Figure BDA0003850113600000045
式中,
Figure BDA0003850113600000048
Figure BDA0003850113600000047
分别为上级电网的售电电价和上网电价。
作为本发明的进一步改进,所述Q值表Q(sp,ak)为:
Figure BDA0003850113600000046
所述Q值表为由状态和动作形成的函数表,表示为:
Q(sp,ak)
其中,下标p和k分别代表智能体的状态数和动作数。
作为本发明的进一步改进,所述采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,包括:
初始化Q值表Qn(s,an);
初始化联合状态空间得到联合状态空间s0
系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间;
根据各智能体决策由各自的奖励函数得到对应的奖励,以及下一时段系统联合运行状态st+1,并更新各智能体Q值表;对动作空间进行遍历得到的最大Q值。
作为本发明的进一步改进,所述更新各智能体Q值表,采用以下方法:
Figure BDA0003850113600000051
Figure BDA0003850113600000052
式中,πn(s,an)表示智能体n策略,|An|表示智能体n的动作个数,δ表示可变学习速率,可变学习速率采用如下方法得到:
Figure BDA0003850113600000053
Figure BDA0003850113600000054
式中,δw为智能体表现较好时的学习速率,δl为智能体表现欠佳时的学习速率,且δlw
Figure BDA0003850113600000055
为智能体n平均策略,C(s)表示状态s出现的次数。
作为本发明的进一步改进,所述对动作空间进行遍历得到的最大Q值,包括:
判断当前更新步数是否达到T,如果达到T则进入进行下一步,否则返回初始化联合状态空间得到联合状态空间s0步骤;
判断当前学习轮数是否达到最大学习轮数M;如果达到M则结束训练,否则返回初始化Q值表步骤;
根据达到最大学习轮数M的动作空间和状态空间更新所得Q值表。
作为本发明的进一步改进,所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解,包括:
各智能体输出各自Nash均衡策略
Figure BDA0003850113600000061
作为本发明的进一步改进,所述状态参数包括:
分布式能源系统中的光伏、微燃气轮机、电储能的运行参数,及负荷的使用参数。
一种分布式能源系统博弈优化调度系统,包括:
获取模块,用于获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
构建模块,用于基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
更新模块,用于采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出模块,用于输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
作为本发明的进一步改进,所述构建模块中,所述进行强化学习构建多主体博弈模型,包括:状态空间、动作空间的构建以及奖励函数;
t时段联合状态空间表示为:
Figure BDA0003850113600000062
式中,Pt pv,Pt load
Figure BDA0003850113600000063
分别为t时段系统内光伏发电功率,负荷功率和电储能储电量;
Figure BDA0003850113600000064
为t-1时段微燃气轮机功率;
系统运营商智能体动作空间为:
Figure BDA0003850113600000065
式中,
Figure BDA0003850113600000066
为t时段系统运营商向用户售电电价;
Figure BDA0003850113600000067
为t时段系统运营商向分布式电源运营商购电电价;
系统运营商智能体动作空间的约束条件为:
Figure BDA0003850113600000071
Figure BDA0003850113600000072
式中,
Figure BDA0003850113600000073
分别为t时段购电价格上下限;
Figure BDA0003850113600000074
分别为t时段售电价格上下限;
分布式电源运营商智能体动作空间为:
Figure BDA0003850113600000075
式中,Rt为t时段微燃气轮机爬坡功率;
Figure BDA0003850113600000076
表示微燃气轮机无功出力;
Figure BDA0003850113600000077
分别表示电储能有功、无功出力;
负荷聚合商智能体动作空间仅包含其负荷削减功率Pt il,方法为:
Figure BDA0003850113600000078
系统运营商奖励函数为:
rt SO=Csell(t)-Cbuy(t)-Cgrid(t) (7)
式中,Csell(t)、Cbuy(t)、Cgrid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本;
分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,优化目标为最大化售电收益,奖励函数为:
Figure BDA0003850113600000079
Pt d=Pt pv+Pt mt+Pt es (12)
式中,Pt pv、Pt mt、Pt es分别为光伏发电功率、微燃气轮机功率和电储能放电功率;Cmt(t)和Cb(t)分别为微燃气轮机和电储能运行成本;
负荷聚合商的效益函数为:
Figure BDA00038501136000000710
式中,
Figure BDA00038501136000000711
为用户用电效用函数,表示用户购电满意度,采用如式(14)所示二次函数模拟:
Figure BDA0003850113600000081
式中,d、e均为系数;
实际负荷需求
Figure BDA0003850113600000082
满足:
Pt load=Pt l0-Pt il (15)
式中,Pt l0为固定负荷;Pt il为削减负荷,具有上限约束:
Figure BDA0003850113600000083
式中,
Figure BDA0003850113600000084
为最大可削减负荷。
作为本发明的进一步改进,所述更新模块中,所述采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,包括:
初始化Q值表Qn(s,an);
初始化联合状态空间得到联合状态空间s0
系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间;
根据各智能体决策由各自的奖励函数得到对应的奖励,以及下一时段系统联合运行状态st+1,并更新各智能体Q值表;对动作空间进行遍历得到的最大Q值。
作为本发明的进一步改进,所述更新模块中,所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解,包括:
各智能体输出各自Nash均衡策略
Figure BDA0003850113600000085
一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述分布式能源系统博弈优化调度方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述分布式能源系统博弈优化调度方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明基于WoLF-PHC的分布式能源系统博弈优化调度方法,解决分布式能源系统多主体利益协调问题。基于WoLF-PHC方法构建的各智能体在无需获取其他智能体策略空间和效益函数的非完全信息博弈环境下,通过各自对分布式能源系统运行状态不断地探索即可实现纳什均衡解的求解。因此该方法可有效保护各主体策略和效益函数等隐私。而且该方法在求解精度上有较高的应用价值。本发明通过将强化学习技术、博弈论引入分布式能源系统中,该优化调度方法可协调系统中各参与主体利益。
进一步,基于WoLF-PHC的多智能体训练方法使各智能体在不完全信息环境中通过反复探索与试错方式求解分布式能源系统优化调度问题。
进一步,所构建的多主体博弈模型能通过价格信号引导分布式电源出力和调整用户用能计划,有利于平抑负荷波动,促进新能源消纳。
附图说明
图1为本发明一种分布式能源系统博弈优化调度方法流程图;
图2为本发明构建的基于WoLF-PHC的博弈优化调度框架图;
图3为基于WoLF-PHC的博弈优化调度算法流程;
图4为本发明提供的一种分布式能源系统博弈优化调度系统;
图5为本发明提供的一种电子设备示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可变学习速率和策略爬山(win or learn fast–policy hill climbing,WoLF-PHC)算法中每个智能体通过更新自身Q函数,能学习并收敛到一个相对于其他智能体策略的最优策略,此策略即为纳什均衡解。该方法在实际应用中该方法取得了较好的收敛效果。
为了解决分布式能源系统多主体利益协调问题,本发明提供了基于WoLF-PHC的分布式能源系统博弈优化调度方法。该方法实现各主体在无需获取其他主体策略的非完全信息博弈环境下的博弈均衡策略求解。
如图1所示,本发明提出的一种分布式能源系统博弈优化调度方法,包括:
获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
该方法首先将各博弈参与主体建模为智能体,构建包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体的多主体博弈模型;继而,设计了基于WoLF-PHC方法的智能体训练流程;最后,各智能体可依据训练所得Q值表进行日前优化调度,即可获得纳什均衡解。
本发明的一种基于WoLF-PHC的分布式能源系统博弈优化调度方法,尤其涉及分布式能源系统优化调度领域。各利益主体在无需获取其他智能体策略空间和效益函数的非完全信息博弈环境下,通过各自对分布式电源系统运行状态不断地探索即可实现Nash均衡解的求解,并在求解精度上有较高的应用价值。
本发明通过步骤Step 0至Step 9实现技术方案的上述目的:
Step 0:获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
所述状态参数包括:分布式能源系统中的光伏、微燃气轮机、电储能的运行参数,及负荷的使用参数。
Step 1:首先进行强化学习模型的构建,主要包括状态空间、动作空间的构建以及奖励函数的设计。
1)状态空间
在基于WoLF-PHC的优化调度方法中,各智能体通过观测联合状态空间进行决策。该联合状态空间包括系统内各种设备运行状态,故t时段联合状态空间表示为:
Figure BDA0003850113600000111
式中,Pt n,pv,Pt n,load
Figure BDA0003850113600000112
分别为t时段系统内光伏发电功率,负荷功率和电储能储电量;
Figure BDA0003850113600000113
为t-1时段微燃气轮机功率。
2)动作空间
各智能体动作空间为相关决策变量。设定系统运营商智能体动作空间为:
Figure BDA0003850113600000114
式中,
Figure BDA0003850113600000115
为t时段系统运营商向用户售电电价;
Figure BDA0003850113600000116
为t时段系统运营商向分布式电源运营商购电电价。
另外,需对购、售电价设置如式(3)和(4)所示约束,以避免配网恶意降低购电价格或提升售电价格来提升自身收益。
Figure BDA0003850113600000121
Figure BDA0003850113600000122
式中,
Figure BDA0003850113600000123
分别为t时段购电价格上下限;
Figure BDA0003850113600000124
分别为t时段售电价格上下限。
分布式电源运营商智能体动作空间设定为:
Figure BDA0003850113600000125
式中,Rt为t时段微燃气轮机爬坡功率;
Figure BDA0003850113600000126
表示微燃气轮机无功出力;
Figure BDA0003850113600000127
分别表示电储能有功、无功出力。
负荷聚合商智能体动作空间仅包含其负荷削减功率Pt il
Figure BDA0003850113600000128
3)奖励函数
系统运营商奖励函数为:
rt SO=Csell(t)-Cbuy(t)-Cgrid(t) (7)
式中,Csell(t)、Cbuy(t)、Cgrid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本,具体表达如式(8)至(10)所示:
Figure BDA0003850113600000129
式中,Pt load为t时段用户实际用电功率。
Figure BDA00038501136000001210
式中,Pt d为t时段分布式电源运营商售出功率.
Figure BDA00038501136000001211
式中,
Figure BDA00038501136000001212
Figure BDA00038501136000001213
分别为上级电网的售电电价和上网电价。
分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,其优化目标为最大化售电收益,奖励函数为:
Figure BDA0003850113600000131
Figure BDA0003850113600000132
式中,Pt pv、Pt n,mt、Pt n,es分别为光伏发电功率、微燃气轮机功率和电储能放电功率;Cmt(t)和Cb(t)分别为微燃气轮机和电储能运行成本。
参与需求响应的用户通过调节可削减负荷功率来最大化消费者剩余。消费者剩余表示为用户用电效用与购电成本之差。负荷聚合商的效益函数为:
Figure BDA0003850113600000133
式中,
Figure BDA0003850113600000134
为用户用电效用函数,表示用户购电满意度,采用如式(14)所示二次函数模拟:
Figure BDA0003850113600000135
式中,d、e均为系数。
实际负荷需求Pt load满足:
Pt load=Pt l0-Pt il (15)
式中,Pt l0为固定负荷;Pt il为削减负荷,具有上限约束:
Figure BDA0003850113600000136
式中,
Figure BDA0003850113600000137
为最大可削减负荷。
Step 2:构建基于WoLF-PHC算法的博弈优化调度框架,如图1所示。将各利益主体建模为智能体,系统运营商、分布式电源运营商和负荷聚合商分别对应SO智能体、DGO智能体和LA智能体,基于步骤1对各智能体进行联合状态空间、动作空间和奖励函数的设计,借助WoLF-PHC算法更新各智能体Q值表,各利益主体基于该表获得博弈优化调度的Nash均衡解。
Q值表如下表1所示。
表1 Q值表
Figure BDA0003850113600000138
Figure BDA0003850113600000141
表中,下标p和k分别代表智能体的状态数和可选动作数。
Step 3:初始化Q值表,令各智能体Q值表中所有元素为0;初始化各智能体策略πn(s,an)和平均策略
Figure BDA0003850113600000142
Figure BDA0003850113600000143
令C(s)为0;
Step 4:初始化式(1)所示联合状态空间s0
Step 5:SO智能体、DGO智能体和LA智能体分别根据ε贪婪策略确定式(2)、(5)和(6)所示动作,即智能体以ε的概率在可选动作集合中随机选择动作,以1-ε概率选择可使Q值最大的动作。
Step 6:根据各智能体决策确定式(11)~(13)所示奖励以及下一时段系统联合运行状态st+1,并根据式(17)~(20)更新各智能体Q值表:
Figure BDA0003850113600000144
Figure BDA0003850113600000145
Figure BDA0003850113600000146
Figure BDA0003850113600000147
式中,πn(s,an)表示智能体n策略,|An|表示智能体n的动作个数,δ表示可变学习速率,δw为智能体表现较好时的学习速率,δl为智能体表现欠佳时的学习速率,且δlw
Figure BDA0003850113600000148
为智能体n平均策略,C(s)表示状态s出现的次数。
Step 7:判断更新步数是否达到T。如果达到T则进入步骤8,否则返回步骤4。
Step 8:判断是否达到最大学习轮数M。如果达到M则结束训练进入步骤9,否则返回步骤3。
Step 9:根据步骤3~8更新所得Q值表,各智能体输出各自Nash均衡策略
Figure BDA0003850113600000151
如图4所示,本发明还提供一种分布式能源系统博弈优化调度系统,包括:
获取模块,用于获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
构建模块,用于基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
更新模块,用于采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出模块,用于输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
其中,所述构建模块中,所述进行强化学习构建多主体博弈模型包括:状态空间、动作空间的构建以及奖励函数;
1)状态空间
t时段联合状态空间表示为:
Figure BDA0003850113600000152
式中,Pt n,pv,Pt n,load
Figure BDA0003850113600000153
分别为t时段系统内光伏发电功率,负荷功率和电储能储电量;
Figure BDA0003850113600000154
为t-1时段微燃气轮机功率;
2)动作空间
系统运营商智能体动作空间为:
Figure BDA0003850113600000155
式中,
Figure BDA0003850113600000156
为t时段系统运营商向用户售电电价;
Figure BDA0003850113600000157
为t时段系统运营商向分布式电源运营商购电电价;
系统运营商智能体动作空间的约束条件为:
Figure BDA0003850113600000161
Figure BDA0003850113600000162
式中,
Figure BDA0003850113600000163
分别为t时段购电价格上下限;
Figure BDA0003850113600000164
分别为t时段售电价格上下限;
分布式电源运营商智能体动作空间为:
Figure BDA0003850113600000165
式中,Rt为t时段微燃气轮机爬坡功率;
Figure BDA0003850113600000166
表示微燃气轮机无功出力;
Figure BDA0003850113600000167
分别表示电储能有功、无功出力;
负荷聚合商智能体动作空间仅包含其负荷削减功率
Figure BDA0003850113600000168
公式为
Figure BDA0003850113600000169
3)奖励函数
系统运营商奖励函数为:
rt SO=Csell(t)-Cbuy(t)-Cgrid(t) (7)
式中,Csell(t)、Cbuy(t)、Cgrid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本;
分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,其优化目标为最大化售电收益,奖励函数为:
Figure BDA00038501136000001610
Pt d=Pt pv+Pt mt+Pt es (12)
式中,Pt pv、Pt n,mt、Pt n,es分别为光伏发电功率、微燃气轮机功率和电储能放电功率;Cmt(t)和Cb(t)分别为微燃气轮机和电储能运行成本;
负荷聚合商的效益函数为:
Figure BDA00038501136000001611
式中,fu t为用户用电效用函数,表示用户购电满意度,采用如式(14)所示二次函数模拟:
Figure BDA0003850113600000171
式中,d、e均为系数;
实际负荷需求Pt load满足:
Pt load=Pt l0-Pt il (15)
式中,Pt l0为固定负荷;Pt il为削减负荷,具有上限约束:
Figure BDA0003850113600000172
式中,
Figure BDA0003850113600000173
为最大可削减负荷。
所述更新模块中,采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,包括:
初始化Q值表Qn(s,an),令各智能体Q值表中所有元素为0;初始化各智能体策略πn(s,an)和平均策略
Figure BDA0003850113600000174
Figure BDA0003850113600000175
令C(s)为0;
初始化联合状态空间得到联合状态空间s0
系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间;
根据各智能体决策由各自的奖励函数得到对应的奖励,以及下一时段系统联合运行状态st+1,并根据式更新各智能体Q值表;对动作空间进行遍历得到的最大Q值。
所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解,包括:
各智能体输出各自Nash均衡策略
Figure BDA0003850113600000176
如图5所示,本发明提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述分布式能源系统博弈优化调度方法的步骤。
所述分布式能源系统博弈优化调度方法包括以下步骤:
获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
本发明第还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述分布式能源系统博弈优化调度方法的步骤。
所述分布式能源系统博弈优化调度方法包括以下步骤:
获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (15)

1.一种分布式能源系统博弈优化调度方法,其特征在于,包括:
获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
2.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述进行强化学习构建多主体博弈模型,包括:状态空间、动作空间的构建以及奖励函数;
t时段联合状态空间表示为:
Figure FDA0003850113590000011
式中,Pt pv,Pt load
Figure FDA0003850113590000012
分别为t时段系统内光伏发电功率,负荷功率和电储能储电量;
Figure FDA0003850113590000013
为t-1时段微燃气轮机功率;
系统运营商智能体动作空间为:
Figure FDA0003850113590000014
式中,
Figure FDA0003850113590000015
为t时段系统运营商向用户售电电价;
Figure FDA0003850113590000016
为t时段系统运营商向分布式电源运营商购电电价;
系统运营商智能体动作空间的约束条件为:
Figure FDA0003850113590000017
Figure FDA0003850113590000018
式中,
Figure FDA0003850113590000019
分别为t时段购电价格上下限;
Figure FDA00038501135900000110
分别为t时段售电价格上下限;
分布式电源运营商智能体动作空间为:
Figure FDA00038501135900000111
式中,Rt为t时段微燃气轮机爬坡功率;
Figure FDA0003850113590000021
表示微燃气轮机无功出力;Pt es
Figure FDA0003850113590000022
分别表示电储能有功、无功出力;
负荷聚合商智能体动作空间仅包含其负荷削减功率Pt il,方法为:
Figure FDA0003850113590000023
系统运营商奖励函数为:
rt SO=Csell(t)-Cbuy(t)-Cgrid(t) (7)
式中,Csell(t)、Cbuy(t)、Cgrid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本;
分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,优化目标为最大化售电收益,奖励函数为:
Figure FDA0003850113590000024
Pt d=Pt pv+Pt mt+Pt es (12)
式中,Pt pv、Pt mt、Pt es分别为光伏发电功率、微燃气轮机功率和电储能放电功率;Cmt(t)和Cb(t)分别为微燃气轮机和电储能运行成本;
负荷聚合商的效益函数为:
Figure FDA0003850113590000025
式中,
Figure FDA0003850113590000026
为用户用电效用函数,表示用户购电满意度,采用如式(14)所示二次函数模拟:
Figure FDA0003850113590000027
式中,d、e均为系数;
实际负荷需求Pt load满足:
Pt load=Pt l0-Pt il (15)
式中,Pt l0为固定负荷;Pt il为削减负荷,具有上限约束:
Figure FDA0003850113590000028
式中,
Figure FDA0003850113590000029
为最大可削减负荷。
3.根据权利要求2所述的分布式能源系统博弈优化调度方法,其特征在于,所述Csell(t)、Cbuy(t)、Cgrid(t)的具体计算方法为:
Figure FDA0003850113590000031
式中,Pt load为t时段用户实际用电功率;
Figure FDA0003850113590000032
式中,Pt d为t时段分布式电源运营商售出功率.
Figure FDA0003850113590000033
式中,λt g,s和λt g,b分别为上级电网的售电电价和上网电价。
4.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述Q值表为由状态和动作形成的函数表,表示为:
Q(sp,ak)
其中,p和k分别代表智能体的状态数和动作数。
5.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,包括:
初始化Q值表Qn(s,an);
初始化联合状态空间得到联合状态空间s0
系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间;
根据各智能体决策由各自的奖励函数得到对应的奖励,以及下一时段系统联合运行状态st+1,并更新各智能体Q值表;对动作空间进行遍历得到的最大Q值。
6.根据权利要求5所述的分布式能源系统博弈优化调度方法,其特征在于,所述更新各智能体Q值表,采用以下方法:
Figure FDA0003850113590000034
Figure FDA0003850113590000041
式中,πn(s,an)表示智能体n策略,|An|表示智能体n的动作个数,δ表示可变学习速率,可变学习速率采用如下方法得到:
Figure FDA0003850113590000042
Figure FDA0003850113590000043
式中,δw为智能体表现较好时的学习速率,δl为智能体表现欠佳时的学习速率,且δlw
Figure FDA0003850113590000044
为智能体n平均策略,C(s)表示状态s出现的次数。
7.根据权利要求5所述的分布式能源系统博弈优化调度方法,其特征在于,所述对动作空间进行遍历得到的最大Q值,包括:
判断当前更新步数是否达到T,如果达到T则进入进行下一步,否则返回初始化联合状态空间得到联合状态空间s0步骤;
判断当前学习轮数是否达到最大学习轮数M;如果达到M则结束训练,否则返回初始化Q值表步骤;
根据达到最大学习轮数M的动作空间和状态空间更新所得Q值表。
8.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解,包括:
各智能体输出各自Nash均衡策略
Figure FDA0003850113590000045
9.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述状态参数包括:
分布式能源系统中的光伏、微燃气轮机、电储能的运行参数,及负荷的使用参数。
10.一种分布式能源系统博弈优化调度系统,其特征在于,包括:
获取模块,用于获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
构建模块,用于基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
更新模块,用于采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出模块,用于输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
11.根据权利要求10所述的分布式能源系统博弈优化调度系统,其特征在于,所述构建模块中,所述进行强化学习构建多主体博弈模型,包括:状态空间、动作空间的构建以及奖励函数;
t时段联合状态空间表示为:
Figure FDA0003850113590000051
式中,Pt pv,Pt load
Figure FDA0003850113590000052
分别为t时段系统内光伏发电功率,负荷功率和电储能储电量;
Figure FDA0003850113590000053
为t-1时段微燃气轮机功率;
系统运营商智能体动作空间为:
Figure FDA0003850113590000054
式中,
Figure FDA0003850113590000055
为t时段系统运营商向用户售电电价;
Figure FDA0003850113590000056
为t时段系统运营商向分布式电源运营商购电电价;
系统运营商智能体动作空间的约束条件为:
Figure FDA0003850113590000057
Figure FDA0003850113590000058
式中,
Figure FDA0003850113590000059
分别为t时段购电价格上下限;
Figure FDA00038501135900000510
分别为t时段售电价格上下限;
分布式电源运营商智能体动作空间为:
Figure FDA00038501135900000511
式中,Rt为t时段微燃气轮机爬坡功率;
Figure FDA0003850113590000061
表示微燃气轮机无功出力;Pt es
Figure FDA0003850113590000062
分别表示电储能有功、无功出力;
负荷聚合商智能体动作空间仅包含其负荷削减功率Pt il,方法为:
Figure FDA0003850113590000063
系统运营商奖励函数为:
rt SO=Csell(t)-Cbuy(t)-Cgrid(t) (7)
式中,Csell(t)、Cbuy(t)、Cgrid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本;
分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,优化目标为最大化售电收益,奖励函数为:
Figure FDA0003850113590000064
Pt d=Pt pv+Pt mt+Pt es (12)
式中,Pt pv、Pt mt、Pt es分别为光伏发电功率、微燃气轮机功率和电储能放电功率;Cmt(t)和Cb(t)分别为微燃气轮机和电储能运行成本;
负荷聚合商的效益函数为:
Figure FDA0003850113590000065
式中,
Figure FDA0003850113590000066
为用户用电效用函数,表示用户购电满意度,采用如式(14)所示二次函数模拟:
Figure FDA0003850113590000067
式中,d、e均为系数;
实际负荷需求Pt load满足:
Pt load=Pt l0-Pt il (15)
式中,Pt l0为固定负荷;Pt il为削减负荷,具有上限约束:
Figure FDA0003850113590000068
式中,
Figure FDA0003850113590000069
为最大可削减负荷。
12.根据权利要求10所述的分布式能源系统博弈优化调度系统,其特征在于,所述更新模块中,所述采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,包括:
初始化Q值表Qn(s,an);
初始化联合状态空间得到联合状态空间s0
系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间;
根据各智能体决策由各自的奖励函数得到对应的奖励,以及下一时段系统联合运行状态st+1,并更新各智能体Q值表;对动作空间进行遍历得到的最大Q值。
13.根据权利要求10所述的分布式能源系统博弈优化调度系统,其特征在于,所述更新模块中,所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解,包括:
各智能体输出各自Nash均衡策略
Figure FDA0003850113590000071
14.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-9任一项所述分布式能源系统博弈优化调度方法的步骤。
15.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一项所述分布式能源系统博弈优化调度方法的步骤。
CN202211128856.8A 2022-09-16 2022-09-16 分布式能源系统博弈优化调度方法、系统、设备及介质 Pending CN115313520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211128856.8A CN115313520A (zh) 2022-09-16 2022-09-16 分布式能源系统博弈优化调度方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211128856.8A CN115313520A (zh) 2022-09-16 2022-09-16 分布式能源系统博弈优化调度方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN115313520A true CN115313520A (zh) 2022-11-08

Family

ID=83866681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211128856.8A Pending CN115313520A (zh) 2022-09-16 2022-09-16 分布式能源系统博弈优化调度方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN115313520A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115907232A (zh) * 2023-01-05 2023-04-04 中国电力科学研究院有限公司 区域综合能源系统集群协同优化方法、系统、设备及介质
CN116934011A (zh) * 2023-07-07 2023-10-24 青岛农业大学 智能电网多供应商对多用户进行调度平衡用电的置信算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115907232A (zh) * 2023-01-05 2023-04-04 中国电力科学研究院有限公司 区域综合能源系统集群协同优化方法、系统、设备及介质
CN116934011A (zh) * 2023-07-07 2023-10-24 青岛农业大学 智能电网多供应商对多用户进行调度平衡用电的置信算法

Similar Documents

Publication Publication Date Title
Foruzan et al. Reinforcement learning approach for optimal distributed energy management in a microgrid
CN115313520A (zh) 分布式能源系统博弈优化调度方法、系统、设备及介质
CN107706921B (zh) 基于纳什博弈的微电网电压调节方法和装置
Chen et al. Research on day-ahead transactions between multi-microgrid based on cooperative game model
CN112001752A (zh) 基于有限理性的多虚拟电厂动态博弈交易行为分析方法
CN112529256A (zh) 考虑多重不确定性的分布式电源集群日前调度方法和系统
CN111192164A (zh) 考虑不确定风电的微网联合博弈优化共享及利益分配方法
Liu et al. Research on bidding strategy of thermal power companies in electricity market based on multi-agent deep deterministic policy gradient
CN116451880B (zh) 一种基于混合学习的分布式能源优化调度方法及装置
CN112186768A (zh) Mg、la和dno共同参与的交直流配电网协同调度方法与系统
Gao et al. Bounded rationality based multi-VPP trading in local energy markets: a dynamic game approach with different trading targets
CN115907232B (zh) 区域综合能源系统集群协同优化方法、系统、设备及介质
CN116012030A (zh) 一种配电网多主体调峰能量优化方法及装置
CN116432862A (zh) 一种面向可再生能源微电网的多主体博弈优化方法及装置
CN115795992A (zh) 一种基于运行态势虚拟推演的园区能源互联网在线调度方法
CN114004403A (zh) 基于Stackelberg博弈和热电混合策略的配电系统双层优化方法及系统
CN117543582A (zh) 考虑综合需求响应不确定性的配电网优化调度方法及系统
Tellidou et al. Multi-agent reinforcement learning for strategic bidding in power markets
CN115759478A (zh) 基于合作博弈的微网群优化运行方法、装置、设备及介质
CN110599032A (zh) 一种灵活电源的深度斯坦伯格自适应动态博弈方法
CN115333111A (zh) 多区域电网协同优化方法、系统、设备及可读存储介质
CN114188940A (zh) 一种考虑多主体利益的主动配电网调度方法
CN112886565B (zh) 一种考虑多方利益均衡的配电网协调运行策略制定方法
Gao et al. A Learning-Based Bidding Approach for PV-Attached BESS Power Plants
Tsaousoglou Correlated equilibrium power flow in distribution networks using graphical game theory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination