CN115313520A - 分布式能源系统博弈优化调度方法、系统、设备及介质 - Google Patents
分布式能源系统博弈优化调度方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN115313520A CN115313520A CN202211128856.8A CN202211128856A CN115313520A CN 115313520 A CN115313520 A CN 115313520A CN 202211128856 A CN202211128856 A CN 202211128856A CN 115313520 A CN115313520 A CN 115313520A
- Authority
- CN
- China
- Prior art keywords
- agent
- formula
- load
- power
- game
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000002787 reinforcement Effects 0.000 claims abstract description 17
- 230000002776 aggregation Effects 0.000 claims abstract description 16
- 238000004220 aggregation Methods 0.000 claims abstract description 16
- 230000005611 electricity Effects 0.000 claims description 62
- 230000009471 action Effects 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 49
- 238000004146 energy storage Methods 0.000 claims description 34
- 150000001875 compounds Chemical class 0.000 claims description 25
- 230000008901 benefit Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000010248 power generation Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 12
- 230000009194 climbing Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 6
- 238000012887 quadratic function Methods 0.000 claims description 6
- 208000001613 Gambling Diseases 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 206010063385 Intellectualisation Diseases 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000006872 improvement Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- AMGNHZVUZWILSB-UHFFFAOYSA-N 1,2-bis(2-chloroethylsulfanyl)ethane Chemical compound ClCCSCCSCCCl AMGNHZVUZWILSB-UHFFFAOYSA-N 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/466—Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/12—Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
- H02J3/14—Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by switching loads on to, or off from, network, e.g. progressively balanced loading
- H02J3/144—Demand-response operation of the power transmission or distribution network
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Power Engineering (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Water Supply & Treatment (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种分布式能源系统博弈优化调度方法、系统、设备及介质,包括:获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;采用WoLF‑PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。本发明可有效提升分布式能源系统博弈优化调度问题求解精度,促进相关人工智能技术落地,推动电力优化调度决策智能化。
Description
技术领域
本发明属于电网调度技术领域,具体涉及一种分布式能源系统博弈优化调度方法、系统、设备及介质。
背景技术
大量接入分布式能源系统的分布式电源和储能等设备由社会资本投资建设,分布式电源运营商作为独立利益主体使各类设备以集成的形式参与到系统运行中。同时,大量需求响应用户通过负荷聚合商整合,参与到系统优化调度中,实现电力资源优化配置。在市场机制下,各主体具有各自的发用电需求,各主体存在相对独立甚至相互冲突的优化目标,因此需要在保证系统整体安全高效运行的前提下协调各主体利益。
随着电网逐步开放市场化竞争,参与分布式能源系统运行的主体日益多元。在市场机制下,各主体具有各自的发用电需求,分布式能源系统中各主体存在相对独立甚至相互冲突的优化目标,因此需要在保证系统整体安全高效运行的前提下协调各主体利益。博弈论为解决多利益主体博弈调度问题提供了解决方案,但博弈模型求解普遍采用数学推导法和启发式算法。数学推导法对初值的依赖性较强,在实际应用中可能会出现无法收敛的情形;启发式算法易陷入局部最优解。多智能体强化学习算法将强化学习方法与博弈论有机结合,一定程度上弥补了传统方法的局限性。因此现有技术存在以下问题:
(1)传统博弈优化调度求解方法对初值的依赖性较强,在实际应用中可能会出现无法收敛的情形,或者易陷入局部最优,无法保证与纳什均衡解的一致性。
(2)传统博弈优化调度方法以完全信息环境作为前提假设,不利于保护各主体策略和效益函数等隐私。
发明内容
为了解决分布式能源系统多主体利益协调问题,本发明提供了一种分布式能源系统博弈优化调度方法、系统、设备及介质,针对分布式能源系统优化调度领域,本发明可有效提升分布式能源系统博弈优化调度问题求解精度,促进相关人工智能技术落地,推动电力优化调度决策智能化。
为达到上述目的,本发明采用以下技术方案予以实现:
一种分布式能源系统博弈优化调度方法,包括:
获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
作为本发明的进一步改进,所述进行强化学习构建多主体博弈模型,包括:状态空间、动作空间的构建以及奖励函数;
t时段联合状态空间表示为:
系统运营商智能体动作空间为:
系统运营商智能体动作空间的约束条件为:
分布式电源运营商智能体动作空间为:
负荷聚合商智能体动作空间仅包含其负荷削减功率Pt il,公式为
系统运营商奖励函数为:
rt SO=Csell(t)-Cbuy(t)-Cgrid(t) (7)
式中,Csell(t)、Cbuy(t)、Cgrid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本;
分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,其优化目标为最大化售电收益,奖励函数为:
Pt d=Pt pv+Pt mt+Pt es (12)
式中,Pt pv、Pt mt、Pt es分别为光伏发电功率、微燃气轮机功率和电储能放电功率;Cmt(t)和Cb(t)分别为微燃气轮机和电储能运行成本;
负荷聚合商的效益函数为:
式中,d、e均为系数;
实际负荷需求Pt load满足:
Pt load=Pt l0-Pt il (15)
式中,Pt l0为固定负荷;Pt il为削减负荷,具有上限约束:
作为本发明的进一步改进,所述Csell(t)、Cbuy(t)、Cgrid(t)的具体计算方法为:
式中,Pt load为t时段用户实际用电功率;
式中,Pt d为t时段分布式电源运营商售出功率.
作为本发明的进一步改进,所述Q值表Q(sp,ak)为:
所述Q值表为由状态和动作形成的函数表,表示为:
Q(sp,ak)
其中,下标p和k分别代表智能体的状态数和动作数。
作为本发明的进一步改进,所述采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,包括:
初始化Q值表Qn(s,an);
初始化联合状态空间得到联合状态空间s0;
系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间;
根据各智能体决策由各自的奖励函数得到对应的奖励,以及下一时段系统联合运行状态st+1,并更新各智能体Q值表;对动作空间进行遍历得到的最大Q值。
作为本发明的进一步改进,所述更新各智能体Q值表,采用以下方法:
式中,πn(s,an)表示智能体n策略,|An|表示智能体n的动作个数,δ表示可变学习速率,可变学习速率采用如下方法得到:
作为本发明的进一步改进,所述对动作空间进行遍历得到的最大Q值,包括:
判断当前更新步数是否达到T,如果达到T则进入进行下一步,否则返回初始化联合状态空间得到联合状态空间s0步骤;
判断当前学习轮数是否达到最大学习轮数M;如果达到M则结束训练,否则返回初始化Q值表步骤;
根据达到最大学习轮数M的动作空间和状态空间更新所得Q值表。
作为本发明的进一步改进,所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解,包括:
作为本发明的进一步改进,所述状态参数包括:
分布式能源系统中的光伏、微燃气轮机、电储能的运行参数,及负荷的使用参数。
一种分布式能源系统博弈优化调度系统,包括:
获取模块,用于获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
构建模块,用于基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
更新模块,用于采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出模块,用于输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
作为本发明的进一步改进,所述构建模块中,所述进行强化学习构建多主体博弈模型,包括:状态空间、动作空间的构建以及奖励函数;
t时段联合状态空间表示为:
系统运营商智能体动作空间为:
系统运营商智能体动作空间的约束条件为:
分布式电源运营商智能体动作空间为:
负荷聚合商智能体动作空间仅包含其负荷削减功率Pt il,方法为:
系统运营商奖励函数为:
rt SO=Csell(t)-Cbuy(t)-Cgrid(t) (7)
式中,Csell(t)、Cbuy(t)、Cgrid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本;
分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,优化目标为最大化售电收益,奖励函数为:
Pt d=Pt pv+Pt mt+Pt es (12)
式中,Pt pv、Pt mt、Pt es分别为光伏发电功率、微燃气轮机功率和电储能放电功率;Cmt(t)和Cb(t)分别为微燃气轮机和电储能运行成本;
负荷聚合商的效益函数为:
式中,d、e均为系数;
Pt load=Pt l0-Pt il (15)
式中,Pt l0为固定负荷;Pt il为削减负荷,具有上限约束:
作为本发明的进一步改进,所述更新模块中,所述采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,包括:
初始化Q值表Qn(s,an);
初始化联合状态空间得到联合状态空间s0;
系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间;
根据各智能体决策由各自的奖励函数得到对应的奖励,以及下一时段系统联合运行状态st+1,并更新各智能体Q值表;对动作空间进行遍历得到的最大Q值。
作为本发明的进一步改进,所述更新模块中,所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解,包括:
一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述分布式能源系统博弈优化调度方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述分布式能源系统博弈优化调度方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明基于WoLF-PHC的分布式能源系统博弈优化调度方法,解决分布式能源系统多主体利益协调问题。基于WoLF-PHC方法构建的各智能体在无需获取其他智能体策略空间和效益函数的非完全信息博弈环境下,通过各自对分布式能源系统运行状态不断地探索即可实现纳什均衡解的求解。因此该方法可有效保护各主体策略和效益函数等隐私。而且该方法在求解精度上有较高的应用价值。本发明通过将强化学习技术、博弈论引入分布式能源系统中,该优化调度方法可协调系统中各参与主体利益。
进一步,基于WoLF-PHC的多智能体训练方法使各智能体在不完全信息环境中通过反复探索与试错方式求解分布式能源系统优化调度问题。
进一步,所构建的多主体博弈模型能通过价格信号引导分布式电源出力和调整用户用能计划,有利于平抑负荷波动,促进新能源消纳。
附图说明
图1为本发明一种分布式能源系统博弈优化调度方法流程图;
图2为本发明构建的基于WoLF-PHC的博弈优化调度框架图;
图3为基于WoLF-PHC的博弈优化调度算法流程;
图4为本发明提供的一种分布式能源系统博弈优化调度系统;
图5为本发明提供的一种电子设备示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可变学习速率和策略爬山(win or learn fast–policy hill climbing,WoLF-PHC)算法中每个智能体通过更新自身Q函数,能学习并收敛到一个相对于其他智能体策略的最优策略,此策略即为纳什均衡解。该方法在实际应用中该方法取得了较好的收敛效果。
为了解决分布式能源系统多主体利益协调问题,本发明提供了基于WoLF-PHC的分布式能源系统博弈优化调度方法。该方法实现各主体在无需获取其他主体策略的非完全信息博弈环境下的博弈均衡策略求解。
如图1所示,本发明提出的一种分布式能源系统博弈优化调度方法,包括:
获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
该方法首先将各博弈参与主体建模为智能体,构建包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体的多主体博弈模型;继而,设计了基于WoLF-PHC方法的智能体训练流程;最后,各智能体可依据训练所得Q值表进行日前优化调度,即可获得纳什均衡解。
本发明的一种基于WoLF-PHC的分布式能源系统博弈优化调度方法,尤其涉及分布式能源系统优化调度领域。各利益主体在无需获取其他智能体策略空间和效益函数的非完全信息博弈环境下,通过各自对分布式电源系统运行状态不断地探索即可实现Nash均衡解的求解,并在求解精度上有较高的应用价值。
本发明通过步骤Step 0至Step 9实现技术方案的上述目的:
Step 0:获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
所述状态参数包括:分布式能源系统中的光伏、微燃气轮机、电储能的运行参数,及负荷的使用参数。
Step 1:首先进行强化学习模型的构建,主要包括状态空间、动作空间的构建以及奖励函数的设计。
1)状态空间
在基于WoLF-PHC的优化调度方法中,各智能体通过观测联合状态空间进行决策。该联合状态空间包括系统内各种设备运行状态,故t时段联合状态空间表示为:
2)动作空间
各智能体动作空间为相关决策变量。设定系统运营商智能体动作空间为:
另外,需对购、售电价设置如式(3)和(4)所示约束,以避免配网恶意降低购电价格或提升售电价格来提升自身收益。
分布式电源运营商智能体动作空间设定为:
负荷聚合商智能体动作空间仅包含其负荷削减功率Pt il。
3)奖励函数
系统运营商奖励函数为:
rt SO=Csell(t)-Cbuy(t)-Cgrid(t) (7)
式中,Csell(t)、Cbuy(t)、Cgrid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本,具体表达如式(8)至(10)所示:
式中,Pt load为t时段用户实际用电功率。
式中,Pt d为t时段分布式电源运营商售出功率.
分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,其优化目标为最大化售电收益,奖励函数为:
式中,Pt pv、Pt n,mt、Pt n,es分别为光伏发电功率、微燃气轮机功率和电储能放电功率;Cmt(t)和Cb(t)分别为微燃气轮机和电储能运行成本。
参与需求响应的用户通过调节可削减负荷功率来最大化消费者剩余。消费者剩余表示为用户用电效用与购电成本之差。负荷聚合商的效益函数为:
式中,d、e均为系数。
实际负荷需求Pt load满足:
Pt load=Pt l0-Pt il (15)
式中,Pt l0为固定负荷;Pt il为削减负荷,具有上限约束:
Step 2:构建基于WoLF-PHC算法的博弈优化调度框架,如图1所示。将各利益主体建模为智能体,系统运营商、分布式电源运营商和负荷聚合商分别对应SO智能体、DGO智能体和LA智能体,基于步骤1对各智能体进行联合状态空间、动作空间和奖励函数的设计,借助WoLF-PHC算法更新各智能体Q值表,各利益主体基于该表获得博弈优化调度的Nash均衡解。
Q值表如下表1所示。
表1 Q值表
表中,下标p和k分别代表智能体的状态数和可选动作数。
Step 4:初始化式(1)所示联合状态空间s0。
Step 5:SO智能体、DGO智能体和LA智能体分别根据ε贪婪策略确定式(2)、(5)和(6)所示动作,即智能体以ε的概率在可选动作集合中随机选择动作,以1-ε概率选择可使Q值最大的动作。
Step 6:根据各智能体决策确定式(11)~(13)所示奖励以及下一时段系统联合运行状态st+1,并根据式(17)~(20)更新各智能体Q值表:
式中,πn(s,an)表示智能体n策略,|An|表示智能体n的动作个数,δ表示可变学习速率,δw为智能体表现较好时的学习速率,δl为智能体表现欠佳时的学习速率,且δl>δw,为智能体n平均策略,C(s)表示状态s出现的次数。
Step 7:判断更新步数是否达到T。如果达到T则进入步骤8,否则返回步骤4。
Step 8:判断是否达到最大学习轮数M。如果达到M则结束训练进入步骤9,否则返回步骤3。
如图4所示,本发明还提供一种分布式能源系统博弈优化调度系统,包括:
获取模块,用于获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
构建模块,用于基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
更新模块,用于采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出模块,用于输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
其中,所述构建模块中,所述进行强化学习构建多主体博弈模型包括:状态空间、动作空间的构建以及奖励函数;
1)状态空间
t时段联合状态空间表示为:
2)动作空间
系统运营商智能体动作空间为:
系统运营商智能体动作空间的约束条件为:
分布式电源运营商智能体动作空间为:
3)奖励函数
系统运营商奖励函数为:
rt SO=Csell(t)-Cbuy(t)-Cgrid(t) (7)
式中,Csell(t)、Cbuy(t)、Cgrid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本;
分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,其优化目标为最大化售电收益,奖励函数为:
Pt d=Pt pv+Pt mt+Pt es (12)
式中,Pt pv、Pt n,mt、Pt n,es分别为光伏发电功率、微燃气轮机功率和电储能放电功率;Cmt(t)和Cb(t)分别为微燃气轮机和电储能运行成本;
负荷聚合商的效益函数为:
式中,fu t为用户用电效用函数,表示用户购电满意度,采用如式(14)所示二次函数模拟:
式中,d、e均为系数;
实际负荷需求Pt load满足:
Pt load=Pt l0-Pt il (15)
式中,Pt l0为固定负荷;Pt il为削减负荷,具有上限约束:
所述更新模块中,采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,包括:
初始化联合状态空间得到联合状态空间s0;
系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间;
根据各智能体决策由各自的奖励函数得到对应的奖励,以及下一时段系统联合运行状态st+1,并根据式更新各智能体Q值表;对动作空间进行遍历得到的最大Q值。
所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解,包括:
如图5所示,本发明提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述分布式能源系统博弈优化调度方法的步骤。
所述分布式能源系统博弈优化调度方法包括以下步骤:
获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
本发明第还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述分布式能源系统博弈优化调度方法的步骤。
所述分布式能源系统博弈优化调度方法包括以下步骤:
获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (15)
1.一种分布式能源系统博弈优化调度方法,其特征在于,包括:
获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
2.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述进行强化学习构建多主体博弈模型,包括:状态空间、动作空间的构建以及奖励函数;
t时段联合状态空间表示为:
系统运营商智能体动作空间为:
系统运营商智能体动作空间的约束条件为:
分布式电源运营商智能体动作空间为:
负荷聚合商智能体动作空间仅包含其负荷削减功率Pt il,方法为:
系统运营商奖励函数为:
rt SO=Csell(t)-Cbuy(t)-Cgrid(t) (7)
式中,Csell(t)、Cbuy(t)、Cgrid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本;
分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,优化目标为最大化售电收益,奖励函数为:
Pt d=Pt pv+Pt mt+Pt es (12)
式中,Pt pv、Pt mt、Pt es分别为光伏发电功率、微燃气轮机功率和电储能放电功率;Cmt(t)和Cb(t)分别为微燃气轮机和电储能运行成本;
负荷聚合商的效益函数为:
式中,d、e均为系数;
实际负荷需求Pt load满足:
Pt load=Pt l0-Pt il (15)
式中,Pt l0为固定负荷;Pt il为削减负荷,具有上限约束:
4.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述Q值表为由状态和动作形成的函数表,表示为:
Q(sp,ak)
其中,p和k分别代表智能体的状态数和动作数。
5.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,包括:
初始化Q值表Qn(s,an);
初始化联合状态空间得到联合状态空间s0;
系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间;
根据各智能体决策由各自的奖励函数得到对应的奖励,以及下一时段系统联合运行状态st+1,并更新各智能体Q值表;对动作空间进行遍历得到的最大Q值。
7.根据权利要求5所述的分布式能源系统博弈优化调度方法,其特征在于,所述对动作空间进行遍历得到的最大Q值,包括:
判断当前更新步数是否达到T,如果达到T则进入进行下一步,否则返回初始化联合状态空间得到联合状态空间s0步骤;
判断当前学习轮数是否达到最大学习轮数M;如果达到M则结束训练,否则返回初始化Q值表步骤;
根据达到最大学习轮数M的动作空间和状态空间更新所得Q值表。
9.根据权利要求1所述的分布式能源系统博弈优化调度方法,其特征在于,所述状态参数包括:
分布式能源系统中的光伏、微燃气轮机、电储能的运行参数,及负荷的使用参数。
10.一种分布式能源系统博弈优化调度系统,其特征在于,包括:
获取模块,用于获取分布式能源系统中各智能体的状态参数;各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体;
构建模块,用于基于所述状态参数,进行强化学习构建多主体博弈模型和Q值表;
更新模块,用于采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解;
输出模块,用于输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。
11.根据权利要求10所述的分布式能源系统博弈优化调度系统,其特征在于,所述构建模块中,所述进行强化学习构建多主体博弈模型,包括:状态空间、动作空间的构建以及奖励函数;
t时段联合状态空间表示为:
系统运营商智能体动作空间为:
系统运营商智能体动作空间的约束条件为:
分布式电源运营商智能体动作空间为:
负荷聚合商智能体动作空间仅包含其负荷削减功率Pt il,方法为:
系统运营商奖励函数为:
rt SO=Csell(t)-Cbuy(t)-Cgrid(t) (7)
式中,Csell(t)、Cbuy(t)、Cgrid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本;
分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力,优化目标为最大化售电收益,奖励函数为:
Pt d=Pt pv+Pt mt+Pt es (12)
式中,Pt pv、Pt mt、Pt es分别为光伏发电功率、微燃气轮机功率和电储能放电功率;Cmt(t)和Cb(t)分别为微燃气轮机和电储能运行成本;
负荷聚合商的效益函数为:
式中,d、e均为系数;
实际负荷需求Pt load满足:
Pt load=Pt l0-Pt il (15)
式中,Pt l0为固定负荷;Pt il为削减负荷,具有上限约束:
12.根据权利要求10所述的分布式能源系统博弈优化调度系统,其特征在于,所述更新模块中,所述采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表,包括:
初始化Q值表Qn(s,an);
初始化联合状态空间得到联合状态空间s0;
系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间;
根据各智能体决策由各自的奖励函数得到对应的奖励,以及下一时段系统联合运行状态st+1,并更新各智能体Q值表;对动作空间进行遍历得到的最大Q值。
14.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-9任一项所述分布式能源系统博弈优化调度方法的步骤。
15.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一项所述分布式能源系统博弈优化调度方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211128856.8A CN115313520A (zh) | 2022-09-16 | 2022-09-16 | 分布式能源系统博弈优化调度方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211128856.8A CN115313520A (zh) | 2022-09-16 | 2022-09-16 | 分布式能源系统博弈优化调度方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115313520A true CN115313520A (zh) | 2022-11-08 |
Family
ID=83866681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211128856.8A Pending CN115313520A (zh) | 2022-09-16 | 2022-09-16 | 分布式能源系统博弈优化调度方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115313520A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115907232A (zh) * | 2023-01-05 | 2023-04-04 | 中国电力科学研究院有限公司 | 区域综合能源系统集群协同优化方法、系统、设备及介质 |
CN116934011A (zh) * | 2023-07-07 | 2023-10-24 | 青岛农业大学 | 智能电网多供应商对多用户进行调度平衡用电的置信算法 |
-
2022
- 2022-09-16 CN CN202211128856.8A patent/CN115313520A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115907232A (zh) * | 2023-01-05 | 2023-04-04 | 中国电力科学研究院有限公司 | 区域综合能源系统集群协同优化方法、系统、设备及介质 |
CN116934011A (zh) * | 2023-07-07 | 2023-10-24 | 青岛农业大学 | 智能电网多供应商对多用户进行调度平衡用电的置信算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Foruzan et al. | Reinforcement learning approach for optimal distributed energy management in a microgrid | |
CN115313520A (zh) | 分布式能源系统博弈优化调度方法、系统、设备及介质 | |
CN107706921B (zh) | 基于纳什博弈的微电网电压调节方法和装置 | |
Chen et al. | Research on day-ahead transactions between multi-microgrid based on cooperative game model | |
CN112001752A (zh) | 基于有限理性的多虚拟电厂动态博弈交易行为分析方法 | |
CN112529256A (zh) | 考虑多重不确定性的分布式电源集群日前调度方法和系统 | |
CN111192164A (zh) | 考虑不确定风电的微网联合博弈优化共享及利益分配方法 | |
Liu et al. | Research on bidding strategy of thermal power companies in electricity market based on multi-agent deep deterministic policy gradient | |
CN116451880B (zh) | 一种基于混合学习的分布式能源优化调度方法及装置 | |
CN112186768A (zh) | Mg、la和dno共同参与的交直流配电网协同调度方法与系统 | |
Gao et al. | Bounded rationality based multi-VPP trading in local energy markets: a dynamic game approach with different trading targets | |
CN115907232B (zh) | 区域综合能源系统集群协同优化方法、系统、设备及介质 | |
CN116012030A (zh) | 一种配电网多主体调峰能量优化方法及装置 | |
CN116432862A (zh) | 一种面向可再生能源微电网的多主体博弈优化方法及装置 | |
CN115795992A (zh) | 一种基于运行态势虚拟推演的园区能源互联网在线调度方法 | |
CN114004403A (zh) | 基于Stackelberg博弈和热电混合策略的配电系统双层优化方法及系统 | |
CN117543582A (zh) | 考虑综合需求响应不确定性的配电网优化调度方法及系统 | |
Tellidou et al. | Multi-agent reinforcement learning for strategic bidding in power markets | |
CN115759478A (zh) | 基于合作博弈的微网群优化运行方法、装置、设备及介质 | |
CN110599032A (zh) | 一种灵活电源的深度斯坦伯格自适应动态博弈方法 | |
CN115333111A (zh) | 多区域电网协同优化方法、系统、设备及可读存储介质 | |
CN114188940A (zh) | 一种考虑多主体利益的主动配电网调度方法 | |
CN112886565B (zh) | 一种考虑多方利益均衡的配电网协调运行策略制定方法 | |
Gao et al. | A Learning-Based Bidding Approach for PV-Attached BESS Power Plants | |
Tsaousoglou | Correlated equilibrium power flow in distribution networks using graphical game theory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |