CN115313520A

CN115313520A - 分布式能源系统博弈优化调度方法、系统、设备及介质

Info

Publication number: CN115313520A
Application number: CN202211128856.8A
Authority: CN
Inventors: 蒲天骄; 张津源; 李烨; 王新迎; 荆江平
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-11-08

Abstract

本发明公开了一种分布式能源系统博弈优化调度方法、系统、设备及介质，包括：获取分布式能源系统中各智能体的状态参数；各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体；基于所述状态参数，进行强化学习构建多主体博弈模型和Q值表；采用WoLF‑PHC算法进行智能体训练并更新各智能体的Q值表，各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解；输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。本发明可有效提升分布式能源系统博弈优化调度问题求解精度，促进相关人工智能技术落地，推动电力优化调度决策智能化。

Description

分布式能源系统博弈优化调度方法、系统、设备及介质

技术领域

本发明属于电网调度技术领域，具体涉及一种分布式能源系统博弈优化调度方法、系统、设备及介质。

背景技术

大量接入分布式能源系统的分布式电源和储能等设备由社会资本投资建设，分布式电源运营商作为独立利益主体使各类设备以集成的形式参与到系统运行中。同时，大量需求响应用户通过负荷聚合商整合，参与到系统优化调度中，实现电力资源优化配置。在市场机制下，各主体具有各自的发用电需求，各主体存在相对独立甚至相互冲突的优化目标，因此需要在保证系统整体安全高效运行的前提下协调各主体利益。

随着电网逐步开放市场化竞争，参与分布式能源系统运行的主体日益多元。在市场机制下，各主体具有各自的发用电需求，分布式能源系统中各主体存在相对独立甚至相互冲突的优化目标，因此需要在保证系统整体安全高效运行的前提下协调各主体利益。博弈论为解决多利益主体博弈调度问题提供了解决方案，但博弈模型求解普遍采用数学推导法和启发式算法。数学推导法对初值的依赖性较强，在实际应用中可能会出现无法收敛的情形；启发式算法易陷入局部最优解。多智能体强化学习算法将强化学习方法与博弈论有机结合，一定程度上弥补了传统方法的局限性。因此现有技术存在以下问题：

(1)传统博弈优化调度求解方法对初值的依赖性较强，在实际应用中可能会出现无法收敛的情形，或者易陷入局部最优，无法保证与纳什均衡解的一致性。

(2)传统博弈优化调度方法以完全信息环境作为前提假设，不利于保护各主体策略和效益函数等隐私。

发明内容

为了解决分布式能源系统多主体利益协调问题，本发明提供了一种分布式能源系统博弈优化调度方法、系统、设备及介质，针对分布式能源系统优化调度领域，本发明可有效提升分布式能源系统博弈优化调度问题求解精度，促进相关人工智能技术落地，推动电力优化调度决策智能化。

为达到上述目的，本发明采用以下技术方案予以实现：

一种分布式能源系统博弈优化调度方法，包括：

获取分布式能源系统中各智能体的状态参数；各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体；

基于所述状态参数，进行强化学习构建多主体博弈模型和Q值表；

采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表，各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解；

输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。

作为本发明的进一步改进，所述进行强化学习构建多主体博弈模型，包括：状态空间、动作空间的构建以及奖励函数；

t时段联合状态空间表示为：

式中，P_t ^pv，P_t ^load和

分别为t时段系统内光伏发电功率，负荷功率和电储能储电量；

为t-1时段微燃气轮机功率；

系统运营商智能体动作空间为：

式中，

为t时段系统运营商向用户售电电价；

为t时段系统运营商向分布式电源运营商购电电价；

系统运营商智能体动作空间的约束条件为：

式中，

分别为t时段购电价格上下限；

分别为t时段售电价格上下限；

分布式电源运营商智能体动作空间为：

式中，R_t为t时段微燃气轮机爬坡功率；

表示微燃气轮机无功出力；

分别表示电储能有功、无功出力；

负荷聚合商智能体动作空间仅包含其负荷削减功率P_t ^il，公式为

系统运营商奖励函数为：

r_t ^SO＝C_sell(t)-C_buy(t)-C_grid(t) (7)

式中，C_sell(t)、C_buy(t)、C_grid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本；

分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力，其优化目标为最大化售电收益，奖励函数为：

P_t ^d＝P_t ^pv+P_t ^mt+P_t ^es (12)

式中，P_t ^pv、P_t ^mt、P_t ^es分别为光伏发电功率、微燃气轮机功率和电储能放电功率；C_mt(t)和C_b(t)分别为微燃气轮机和电储能运行成本；

负荷聚合商的效益函数为：

式中，

为用户用电效用函数，表示用户购电满意度，采用如式(14)所示二次函数模拟：

式中，d、e均为系数；

实际负荷需求P_t ^load满足：

P_t ^load＝P_t ^l0-P_t ^il (15)

式中，P_t ^l0为固定负荷；P_t ^il为削减负荷，具有上限约束：

式中，

为最大可削减负荷。

作为本发明的进一步改进，所述C_sell(t)、C_buy(t)、C_grid(t)的具体计算方法为：

式中，P_t ^load为t时段用户实际用电功率；

式中，P_t ^d为t时段分布式电源运营商售出功率.

式中，

和

分别为上级电网的售电电价和上网电价。

作为本发明的进一步改进，所述Q值表Q(s_p,a_k)为：

所述Q值表为由状态和动作形成的函数表，表示为：

Q(s_p,a_k)

其中，下标p和k分别代表智能体的状态数和动作数。

作为本发明的进一步改进，所述采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表，包括：

初始化Q值表Qⁿ(s,aⁿ)；

初始化联合状态空间得到联合状态空间s₀；

系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体分别根据ε贪婪策略确定各自的动作空间；

根据各智能体决策由各自的奖励函数得到对应的奖励，以及下一时段系统联合运行状态s_t+1，并更新各智能体Q值表；对动作空间进行遍历得到的最大Q值。

作为本发明的进一步改进，所述更新各智能体Q值表，采用以下方法：

式中，πⁿ(s,aⁿ)表示智能体n策略，|Aⁿ|表示智能体n的动作个数，δ表示可变学习速率，可变学习速率采用如下方法得到：

式中，δ_w为智能体表现较好时的学习速率，δ_l为智能体表现欠佳时的学习速率，且δ_l>δ_w；

为智能体n平均策略，C(s)表示状态s出现的次数。

作为本发明的进一步改进，所述对动作空间进行遍历得到的最大Q值，包括：

判断当前更新步数是否达到T，如果达到T则进入进行下一步，否则返回初始化联合状态空间得到联合状态空间s₀步骤；

判断当前学习轮数是否达到最大学习轮数M；如果达到M则结束训练，否则返回初始化Q值表步骤；

根据达到最大学习轮数M的动作空间和状态空间更新所得Q值表。

作为本发明的进一步改进，所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解，包括：

各智能体输出各自Nash均衡策略

作为本发明的进一步改进，所述状态参数包括：

分布式能源系统中的光伏、微燃气轮机、电储能的运行参数，及负荷的使用参数。

一种分布式能源系统博弈优化调度系统，包括：

获取模块，用于获取分布式能源系统中各智能体的状态参数；各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体；

构建模块，用于基于所述状态参数，进行强化学习构建多主体博弈模型和Q值表；

更新模块，用于采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表，各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解；

输出模块，用于输出各自博弈优化调度的Nash均衡解用于各智能体日前优化调度。

作为本发明的进一步改进，所述构建模块中，所述进行强化学习构建多主体博弈模型，包括：状态空间、动作空间的构建以及奖励函数；

t时段联合状态空间表示为：

式中，P_t ^pv，P_t ^load和

为t-1时段微燃气轮机功率；

系统运营商智能体动作空间为：

式中，

为t时段系统运营商向用户售电电价；

为t时段系统运营商向分布式电源运营商购电电价；

系统运营商智能体动作空间的约束条件为：

式中，

分别为t时段购电价格上下限；

分别为t时段售电价格上下限；

分布式电源运营商智能体动作空间为：

式中，R_t为t时段微燃气轮机爬坡功率；

表示微燃气轮机无功出力；

分别表示电储能有功、无功出力；

负荷聚合商智能体动作空间仅包含其负荷削减功率P_t ^il，方法为：

系统运营商奖励函数为：

r_t ^SO＝C_sell(t)-C_buy(t)-C_grid(t) (7)

分布式电源运营商决策变量为微燃气轮机有功、无功出力和电储能有功、无功出力，优化目标为最大化售电收益，奖励函数为：

P_t ^d＝P_t ^pv+P_t ^mt+P_t ^es (12)

负荷聚合商的效益函数为：

式中，

式中，d、e均为系数；

实际负荷需求

满足：

P_t ^load＝P_t ^l0-P_t ^il (15)

式中，

为最大可削减负荷。

作为本发明的进一步改进，所述更新模块中，所述采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表，包括：

初始化Q值表Qⁿ(s,aⁿ)；

初始化联合状态空间得到联合状态空间s₀；

作为本发明的进一步改进，所述更新模块中，所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解，包括：

各智能体输出各自Nash均衡策略

一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述分布式能源系统博弈优化调度方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述分布式能源系统博弈优化调度方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明基于WoLF-PHC的分布式能源系统博弈优化调度方法，解决分布式能源系统多主体利益协调问题。基于WoLF-PHC方法构建的各智能体在无需获取其他智能体策略空间和效益函数的非完全信息博弈环境下，通过各自对分布式能源系统运行状态不断地探索即可实现纳什均衡解的求解。因此该方法可有效保护各主体策略和效益函数等隐私。而且该方法在求解精度上有较高的应用价值。本发明通过将强化学习技术、博弈论引入分布式能源系统中，该优化调度方法可协调系统中各参与主体利益。

进一步，基于WoLF-PHC的多智能体训练方法使各智能体在不完全信息环境中通过反复探索与试错方式求解分布式能源系统优化调度问题。

进一步，所构建的多主体博弈模型能通过价格信号引导分布式电源出力和调整用户用能计划，有利于平抑负荷波动，促进新能源消纳。

附图说明

图1为本发明一种分布式能源系统博弈优化调度方法流程图；

图2为本发明构建的基于WoLF-PHC的博弈优化调度框架图；

图3为基于WoLF-PHC的博弈优化调度算法流程；

图4为本发明提供的一种分布式能源系统博弈优化调度系统；

图5为本发明提供的一种电子设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可变学习速率和策略爬山(win or learn fast–policy hill climbing，WoLF-PHC)算法中每个智能体通过更新自身Q函数，能学习并收敛到一个相对于其他智能体策略的最优策略，此策略即为纳什均衡解。该方法在实际应用中该方法取得了较好的收敛效果。

为了解决分布式能源系统多主体利益协调问题，本发明提供了基于WoLF-PHC的分布式能源系统博弈优化调度方法。该方法实现各主体在无需获取其他主体策略的非完全信息博弈环境下的博弈均衡策略求解。

如图1所示，本发明提出的一种分布式能源系统博弈优化调度方法，包括：

该方法首先将各博弈参与主体建模为智能体，构建包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体的多主体博弈模型；继而，设计了基于WoLF-PHC方法的智能体训练流程；最后，各智能体可依据训练所得Q值表进行日前优化调度，即可获得纳什均衡解。

本发明的一种基于WoLF-PHC的分布式能源系统博弈优化调度方法，尤其涉及分布式能源系统优化调度领域。各利益主体在无需获取其他智能体策略空间和效益函数的非完全信息博弈环境下，通过各自对分布式电源系统运行状态不断地探索即可实现Nash均衡解的求解，并在求解精度上有较高的应用价值。

本发明通过步骤Step 0至Step 9实现技术方案的上述目的：

Step 0：获取分布式能源系统中各智能体的状态参数；各智能体包含系统运营商智能体、分布式电源运营商智能体和负荷聚合商智能体；

所述状态参数包括：分布式能源系统中的光伏、微燃气轮机、电储能的运行参数，及负荷的使用参数。

Step 1：首先进行强化学习模型的构建，主要包括状态空间、动作空间的构建以及奖励函数的设计。

1)状态空间

在基于WoLF-PHC的优化调度方法中，各智能体通过观测联合状态空间进行决策。该联合状态空间包括系统内各种设备运行状态，故t时段联合状态空间表示为：

式中，P_t ^n,pv，P_t ^n,load和

为t-1时段微燃气轮机功率。

2)动作空间

各智能体动作空间为相关决策变量。设定系统运营商智能体动作空间为：

式中，

为t时段系统运营商向用户售电电价；

为t时段系统运营商向分布式电源运营商购电电价。

另外，需对购、售电价设置如式(3)和(4)所示约束，以避免配网恶意降低购电价格或提升售电价格来提升自身收益。

式中，

分别为t时段购电价格上下限；

分别为t时段售电价格上下限。

分布式电源运营商智能体动作空间设定为：

式中，R_t为t时段微燃气轮机爬坡功率；

表示微燃气轮机无功出力；

分别表示电储能有功、无功出力。

负荷聚合商智能体动作空间仅包含其负荷削减功率P_t ^il。

3)奖励函数

系统运营商奖励函数为：

r_t ^SO＝C_sell(t)-C_buy(t)-C_grid(t) (7)

式中，C_sell(t)、C_buy(t)、C_grid(t)分别为系统运营商向用户的售电收益、向分布式电源运营商的购电成本、与上级电网交互成本，具体表达如式(8)至(10)所示：

式中，P_t ^load为t时段用户实际用电功率。

式中，P_t ^d为t时段分布式电源运营商售出功率.

式中，

和

分别为上级电网的售电电价和上网电价。

式中，P_t ^pv、P_t ^n,mt、P_t ^n,es分别为光伏发电功率、微燃气轮机功率和电储能放电功率；C_mt(t)和C_b(t)分别为微燃气轮机和电储能运行成本。

参与需求响应的用户通过调节可削减负荷功率来最大化消费者剩余。消费者剩余表示为用户用电效用与购电成本之差。负荷聚合商的效益函数为：

式中，

式中，d、e均为系数。

实际负荷需求P_t ^load满足：

P_t ^load＝P_t ^l0-P_t ^il (15)

式中，

为最大可削减负荷。

Step 2：构建基于WoLF-PHC算法的博弈优化调度框架，如图1所示。将各利益主体建模为智能体，系统运营商、分布式电源运营商和负荷聚合商分别对应SO智能体、DGO智能体和LA智能体，基于步骤1对各智能体进行联合状态空间、动作空间和奖励函数的设计，借助WoLF-PHC算法更新各智能体Q值表，各利益主体基于该表获得博弈优化调度的Nash均衡解。

Q值表如下表1所示。

表1 Q值表

表中，下标p和k分别代表智能体的状态数和可选动作数。

Step 3：初始化Q值表，令各智能体Q值表中所有元素为0；初始化各智能体策略πⁿ(s,aⁿ)和平均策略

令

令C(s)为0；

Step 4：初始化式(1)所示联合状态空间s₀。

Step 5：SO智能体、DGO智能体和LA智能体分别根据ε贪婪策略确定式(2)、(5)和(6)所示动作，即智能体以ε的概率在可选动作集合中随机选择动作，以1-ε概率选择可使Q值最大的动作。

Step 6：根据各智能体决策确定式(11)～(13)所示奖励以及下一时段系统联合运行状态s_t+1，并根据式(17)～(20)更新各智能体Q值表：

式中，πⁿ(s,aⁿ)表示智能体n策略，|Aⁿ|表示智能体n的动作个数，δ表示可变学习速率，δ_w为智能体表现较好时的学习速率，δ_l为智能体表现欠佳时的学习速率，且δ_l>δ_w，

为智能体n平均策略，C(s)表示状态s出现的次数。

Step 7：判断更新步数是否达到T。如果达到T则进入步骤8，否则返回步骤4。

Step 8：判断是否达到最大学习轮数M。如果达到M则结束训练进入步骤9，否则返回步骤3。

Step 9：根据步骤3～8更新所得Q值表，各智能体输出各自Nash均衡策略

如图4所示，本发明还提供一种分布式能源系统博弈优化调度系统，包括：

其中，所述构建模块中，所述进行强化学习构建多主体博弈模型包括：状态空间、动作空间的构建以及奖励函数；

1)状态空间

t时段联合状态空间表示为：

式中，P_t ^n,pv，P_t ^n,load和

为t-1时段微燃气轮机功率；

2)动作空间

系统运营商智能体动作空间为：

式中，

为t时段系统运营商向用户售电电价；

为t时段系统运营商向分布式电源运营商购电电价；

系统运营商智能体动作空间的约束条件为：

式中，

分别为t时段购电价格上下限；

分别为t时段售电价格上下限；

分布式电源运营商智能体动作空间为：

式中，R_t为t时段微燃气轮机爬坡功率；

表示微燃气轮机无功出力；

分别表示电储能有功、无功出力；

负荷聚合商智能体动作空间仅包含其负荷削减功率

公式为

3)奖励函数

系统运营商奖励函数为：

r_t ^SO＝C_sell(t)-C_buy(t)-C_grid(t) (7)

P_t ^d＝P_t ^pv+P_t ^mt+P_t ^es (12)

式中，P_t ^pv、P_t ^n,mt、P_t ^n,es分别为光伏发电功率、微燃气轮机功率和电储能放电功率；C_mt(t)和C_b(t)分别为微燃气轮机和电储能运行成本；

负荷聚合商的效益函数为：

式中，f_u ^t为用户用电效用函数，表示用户购电满意度，采用如式(14)所示二次函数模拟：

式中，d、e均为系数；

实际负荷需求P_t ^load满足：

P_t ^load＝P_t ^l0-P_t ^il (15)

式中，

为最大可削减负荷。

所述更新模块中，采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表，包括：

初始化Q值表Qⁿ(s,aⁿ)，令各智能体Q值表中所有元素为0；初始化各智能体策略πⁿ(s,aⁿ)和平均策略

令

令C(s)为0；

初始化联合状态空间得到联合状态空间s₀；

根据各智能体决策由各自的奖励函数得到对应的奖励，以及下一时段系统联合运行状态s_t+1，并根据式更新各智能体Q值表；对动作空间进行遍历得到的最大Q值。

所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解，包括：

各智能体输出各自Nash均衡策略

如图5所示，本发明提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述分布式能源系统博弈优化调度方法的步骤。

所述分布式能源系统博弈优化调度方法包括以下步骤：

本发明第还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述分布式能源系统博弈优化调度方法的步骤。

所述分布式能源系统博弈优化调度方法包括以下步骤：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种分布式能源系统博弈优化调度方法，其特征在于，包括：

2.根据权利要求1所述的分布式能源系统博弈优化调度方法，其特征在于，所述进行强化学习构建多主体博弈模型，包括：状态空间、动作空间的构建以及奖励函数；

t时段联合状态空间表示为：

式中，P_t ^pv，P_t ^load和

为t-1时段微燃气轮机功率；

系统运营商智能体动作空间为：

式中，

为t时段系统运营商向用户售电电价；

为t时段系统运营商向分布式电源运营商购电电价；

系统运营商智能体动作空间的约束条件为：

式中，

分别为t时段购电价格上下限；

分别为t时段售电价格上下限；

分布式电源运营商智能体动作空间为：

式中，R_t为t时段微燃气轮机爬坡功率；

表示微燃气轮机无功出力；P_t ^es、

分别表示电储能有功、无功出力；

系统运营商奖励函数为：

r_t ^SO＝C_sell(t)-C_buy(t)-C_grid(t) (7)

P_t ^d＝P_t ^pv+P_t ^mt+P_t ^es (12)

负荷聚合商的效益函数为：

式中，

式中，d、e均为系数；

实际负荷需求P_t ^load满足：

P_t ^load＝P_t ^l0-P_t ^il (15)

式中，

为最大可削减负荷。

3.根据权利要求2所述的分布式能源系统博弈优化调度方法，其特征在于，所述C_sell(t)、C_buy(t)、C_grid(t)的具体计算方法为：

式中，P_t ^load为t时段用户实际用电功率；

式中，P_t ^d为t时段分布式电源运营商售出功率.

式中，λ_t ^g,s和λ_t ^g,b分别为上级电网的售电电价和上网电价。

4.根据权利要求1所述的分布式能源系统博弈优化调度方法，其特征在于，所述Q值表为由状态和动作形成的函数表，表示为：

Q(s_p,a_k)

其中，p和k分别代表智能体的状态数和动作数。

5.根据权利要求1所述的分布式能源系统博弈优化调度方法，其特征在于，所述采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表，包括：

初始化Q值表Qⁿ(s,aⁿ)；

初始化联合状态空间得到联合状态空间s₀；

6.根据权利要求5所述的分布式能源系统博弈优化调度方法，其特征在于，所述更新各智能体Q值表，采用以下方法：

为智能体n平均策略，C(s)表示状态s出现的次数。

7.根据权利要求5所述的分布式能源系统博弈优化调度方法，其特征在于，所述对动作空间进行遍历得到的最大Q值，包括：

8.根据权利要求1所述的分布式能源系统博弈优化调度方法，其特征在于，所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解，包括：

各智能体输出各自Nash均衡策略

9.根据权利要求1所述的分布式能源系统博弈优化调度方法，其特征在于，所述状态参数包括：

10.一种分布式能源系统博弈优化调度系统，其特征在于，包括：

11.根据权利要求10所述的分布式能源系统博弈优化调度系统，其特征在于，所述构建模块中，所述进行强化学习构建多主体博弈模型，包括：状态空间、动作空间的构建以及奖励函数；

t时段联合状态空间表示为：

式中，P_t ^pv，P_t ^load和

为t-1时段微燃气轮机功率；

系统运营商智能体动作空间为：

式中，

为t时段系统运营商向用户售电电价；

为t时段系统运营商向分布式电源运营商购电电价；

系统运营商智能体动作空间的约束条件为：

式中，

分别为t时段购电价格上下限；

分别为t时段售电价格上下限；

分布式电源运营商智能体动作空间为：

式中，R_t为t时段微燃气轮机爬坡功率；

表示微燃气轮机无功出力；P_t ^es、

分别表示电储能有功、无功出力；

系统运营商奖励函数为：

r_t ^SO＝C_sell(t)-C_buy(t)-C_grid(t) (7)

P_t ^d＝P_t ^pv+P_t ^mt+P_t ^es (12)

负荷聚合商的效益函数为：

式中，

式中，d、e均为系数；

实际负荷需求P_t ^load满足：

P_t ^load＝P_t ^l0-P_t ^il (15)

式中，

为最大可削减负荷。

12.根据权利要求10所述的分布式能源系统博弈优化调度系统，其特征在于，所述更新模块中，所述采用WoLF-PHC算法进行智能体训练并更新各智能体的Q值表，包括：

初始化Q值表Qⁿ(s,aⁿ)；

初始化联合状态空间得到联合状态空间s₀；

13.根据权利要求10所述的分布式能源系统博弈优化调度系统，其特征在于，所述更新模块中，所述各智能体基于所述Q值表获得各自博弈优化调度的Nash均衡解，包括：

各智能体输出各自Nash均衡策略

14.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-9任一项所述分布式能源系统博弈优化调度方法的步骤。

15.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一项所述分布式能源系统博弈优化调度方法的步骤。