CN112132350B - 一种实时需求响应方法和装置 - Google Patents

一种实时需求响应方法和装置 Download PDF

Info

Publication number
CN112132350B
CN112132350B CN202011036049.4A CN202011036049A CN112132350B CN 112132350 B CN112132350 B CN 112132350B CN 202011036049 A CN202011036049 A CN 202011036049A CN 112132350 B CN112132350 B CN 112132350B
Authority
CN
China
Prior art keywords
flexible load
function
real
demand response
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011036049.4A
Other languages
English (en)
Other versions
CN112132350A (zh
Inventor
周娟
赖伟坚
尹健锋
杨德玲
李敬航
张鑫
李敬光
陈威洪
林泽宏
张世斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202011036049.4A priority Critical patent/CN112132350B/zh
Publication of CN112132350A publication Critical patent/CN112132350A/zh
Application granted granted Critical
Publication of CN112132350B publication Critical patent/CN112132350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种实时需求响应方法和装置,包括基于Copula函数对柔性负荷的随机变量进行概率分布建模,得到柔性负荷模型,其中,每个柔性负荷的随机变量的数量至少为1;利用柔性负荷模型进行蒙特卡洛模拟,生成用于实施需求响应调度的柔性负荷场景;根据柔性负荷场景,利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型;利用强化学习算法建立实时需求响应模型的求解策略。本发明充分挖掘了供给侧发电机和需求侧柔性负荷的互动优化调度空间,最大化了电力系统的整体效益,有效解决了大规模波动性新能源发电接入后的实时供需平衡问题。

Description

一种实时需求响应方法和装置
技术领域
本发明实施例涉及实时需求响应策略技术领域,尤其涉及一种实时需求响应方法和装置。
背景技术
需求响应(Demand Response,DR)指的是需求侧对供给侧和市场状况所作出的反应,是电力体制改革下需求侧与供给侧之间的主要互动手段,具有削峰填谷的作用。随着智能用电的发展,在一定范围内可调节的柔性负荷越来越多,如空调、洗衣机等可转移负荷和电动汽车、储能等双向可控负荷。在可参与需求响应的用户中,居民负荷具有很大的潜力,能够通过参与需求响应有效地解决电网波动问题。
但是,仅靠供给侧的调节能力难以解决大规模波动性新能源发电接入后的实时供需平衡问题。
发明内容
本发明提供一种实时需求响应方法和装置,充分挖掘了供给侧发电机和需求侧柔性负荷的互动优化调度空间,最大化了电力系统的整体效益,有效解决了大规模波动性新能源发电接入后的实时供需平衡问题。
本发明实施例提供了一种实时需求响应方法,包括:
基于Copula函数对柔性负荷的随机变量进行概率分布建模,得到柔性负荷模型,其中,每个所述柔性负荷的随机变量的数量至少为1;
利用所述柔性负荷模型进行蒙特卡洛模拟,生成用于实施需求响应调度的柔性负荷场景;
根据所述柔性负荷场景,利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型;
利用强化学习算法建立所述实时需求响应模型的求解策略。
进一步地,所述基于Copula函数对获取到的每个柔性负荷的随机变量进行概率分布建模,得到柔性负荷模型包括:
建立每个所述柔性负荷的随机变量μ的累积分布函数:
Figure BDA0002705123040000021
其中,μ为所述柔性负荷的随机变量;
利用Gaussian Copula函数以及所述随机变量μ的所述累积分布函数建立所述柔性负荷模型:
Figure BDA0002705123040000022
其中,μd为服从[0,1]区间均匀分布的所述柔性负荷的随机变量,d为随机变量μ的个数;θ为相关系数矩阵;
Figure BDA0002705123040000023
为相关系数矩阵为θ的标准多元Gaussian分布函数;
Figure BDA0002705123040000024
为标准Gaussian分布函数的逆函数;
基于所述累积分布函数以及极大化伪对数似然函数对所述柔性负荷模型中的参数θ进行估计:
Figure BDA0002705123040000025
进一步地,所述利用所述柔性负荷模型进行蒙特卡洛模拟,生成用于实施需求响应调度的柔性负荷场景包括:
利用所述柔性负荷模型进行蒙特卡洛模拟,生成N组模拟数据;
利用逆概率分布函数将N组所述模拟数据转换为所述柔性负荷参与实时需求响应的N个所述柔性负荷场景。
进一步地,所述根据所述柔性负荷场景,利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型包括:
根据所述柔性负荷场景,建立所述实时需求响应模型:
Figure BDA0002705123040000031
其中,
Figure BDA0002705123040000032
Figure BDA0002705123040000033
Figure BDA0002705123040000034
其中,
Figure BDA0002705123040000035
为领导者的最优策略;
Figure BDA0002705123040000036
为领导者的可选策略;
Figure BDA0002705123040000037
为所有跟随者的最优策略;
Figure BDA0002705123040000038
为第i个跟随者的最优策略;Eleader为领导者的效益函数;Ei为第i个跟随者的效益函数;Ai为跟随者的可选择策略。
进一步地,所述方法还包括:
根据所述实时需求响应模型,所述电力系统的总效益E为:
Figure BDA0002705123040000039
其中,
Figure BDA00027051230400000310
Ωd为负荷的集合,Ωs为发电机的集合;
Figure BDA00027051230400000311
为用户效用函数,
Figure BDA00027051230400000312
αj、ωj为第j个柔性负荷的效用参数,PDj为第j个柔性负荷的有功需求,PDj,T0为T0时刻第j个柔性负荷的有功需求,PDj,T为T时刻第j个柔性负荷的有功需求,NS为所述柔性负荷场景的总场景数,PS为场景S的概率,且
Figure BDA00027051230400000313
TN为调度计划总时段,其中,
Figure BDA0002705123040000041
表示当前第一阶段,即调度时刻T0的用户效用函数,
Figure BDA0002705123040000042
表示未来第二阶段,即调度时刻T0+1的用户效用函数;
fi s为发电成本函数,
Figure BDA0002705123040000043
ai、bi、ci为第i台发电机的发电成本参数,PGi,T0为T0时刻第i台发电机的有功功率,PGi min、PGi max分别为第i台发电机的有功功率最小值和最大值。
进一步地,所述利用强化学习算法建立所述实时需求响应模型的求解策略包括:
利用Q学习算法对所述实时需求响应模型进行求解。
进一步地,所述利用Q学习算法对所述实时需求响应模型进行求解包括:
基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式:
Figure BDA0002705123040000044
其中,上标k和j分别为第k次迭代和第j个个体,下标i为第i个智能体,α为学习因子,γ为折扣因子,ΔQ是知识增量,R(sk,sk+1,ak)是在动作ak发生时从状态sk转换到状态sk +1的奖励函数,ai是可选动作;
基于所述知识矩阵迭代表达式更新所述知识矩阵,并在更新完所述知识矩阵之后将当前策略上传至领导者。
进一步地,在所述基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式之前,还包括:
根据ε-贪婪规则,基于当前知识矩阵选择动作ak
Figure BDA0002705123040000051
其中,ε为贪婪行为的概率,arand表示随机动作;
在得知其他跟随者当前的最优决策情况下,计算每个跟随者的目标函数Fi,其中,
Figure BDA0002705123040000052
Ei other为除去第i个跟随者的电力系统的系统效益,Fi表示第i个跟随者的目标函数;
基于蚁群算法合作机制建立奖励函数R(sk,sk+1,ak):
Figure BDA0002705123040000053
其中,pm为一个为正乘数,cf为保证所述奖励函数为正的校正系数,Fi kj为第i个智能体的第k次迭代中的所述目标函数,SAi Best表示第i个智能体的第k次迭代中最优个体的状态–动作对集合。
进一步地,在所述基于所述知识矩阵迭代表达式更新所述知识矩阵之前,还包括:
判断迭代次数k是否到达预设最大值,若达到所述预设最大值则执行基于所述知识矩阵迭代表达式更新所述知识矩阵的动作,否则,重新执行所述根据ε-贪婪规则,基于当前知识矩阵选择动作ak的步骤。
本发明实施例还提供了一种实时需求响应装置,包括:
第一建模单元,用于基于Copula函数对获取到的每个柔性负荷的随机变量进行概率分布建模,得到柔性负荷模型,其中,每个所述柔性负荷的随机变量的数量至少为1;
场景生成单元,用于利用所述柔性负荷模型进行蒙特卡洛模拟,生成用于实施需求响应调度的柔性负荷场景;
第二建模单元,用于根据所述柔性负荷场景,利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型;
求解单元,用于利用强化学习算法建立所述实时需求响应模型的求解策略。
本发明公开了一种实时需求响应方法和装置,包括基于Copula函数对柔性负荷的随机变量进行概率分布建模,得到柔性负荷模型,其中,每个柔性负荷的随机变量的数量至少为1;利用柔性负荷模型进行蒙特卡洛模拟,生成用于实施需求响应调度的柔性负荷场景;根据柔性负荷场景,利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型;利用强化学习算法建立实时需求响应模型的求解策略。本发明充分挖掘了供给侧发电机和需求侧柔性负荷的互动优化调度空间,最大化了电力系统的整体效益,有效解决了大规模波动性新能源发电接入后的实时供需平衡问题。
附图说明
图1是本发明实施例提供的一种实时需求响应方法的流程图;
图2是本发明实施例提供的一种实时需求响应方法中步骤S101的流程图;
图3是本发明实施例提供的一种实时需求响应方法中步骤S102的流程图;
图4是本发明实施例提供的电力系统基于Stackelberg博弈的实时供需互动示意图;
图5是本发明实施例提供的当前和未来两阶段的实时需求响应示意图;
图6是本发明实施例提供的知识矩阵学习过程示意图;
图7是本发明实施例提供的利用Q学习算法对实时需求响应模型进行求解的流程图;
图8是本发明实施例提供的一种实时需求响应装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
需要说明的是,本发明的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于限定特定顺序。本发明下述各个实施例可以单独执行,各个实施例之间也可以相互结合执行,本发明实施例对此不作具体限制。
图1是本发明实施例提供的一种实时需求响应方法的流程图。
如图1所示,实时需求响应方法包括如下步骤:
步骤S101,基于Copula函数对柔性负荷的随机变量进行概率分布建模,得到柔性负荷模型,其中,每个柔性负荷的随机变量的数量至少为1。
具体地,Copula函数描述的是变量间的相关性,实际上是一类将联合分布函数与它们各自的边缘分布函数连接在一起的函数,因此也有人将它称为连接函数。示例性地,对于常见柔性负荷,如居民负荷中的照明负荷和空调负荷来说,照明负荷由于用户用电行为的不确定性而具有随机性,空调负荷受外界环境温度及人体舒适度的影响而具有随机性,因此可以收集照明负荷的每日开启时间、运行时间,以及空调房间内每小时的环境温度等具有相关性的参数作为随机变量,利用Copula函数对照明负荷和空调负荷的各随机变量进行概率分布建模。
图2是本发明实施例提供的一种实时需求响应方法中步骤S101的流程图。
可选地,如图2所示,步骤S101,基于Copula函数对获取到的每个柔性负荷的随机变量进行概率分布建模,得到柔性负荷模型包括如下步骤:
步骤S1011,建立每个柔性负荷的随机变量μ的累积分布函数:
Figure BDA0002705123040000081
其中,μ为柔性负荷的随机变量。
示例性地,以照明负荷的每日开启时间、运行时间或空调负荷的环境温度等随机变量为例,首先提取各随机变量近期的历史数据,然后对每个随机变量μ进行核密度估计,得到该随机变量的累计分布函数:
Figure BDA0002705123040000082
其中,μ为柔性负荷的某个随机变量。
步骤S1012,利用Gaussian Copula函数以及随机变量μ的累积分布函数建立柔性负荷模型:
Figure BDA0002705123040000083
其中,μd为服从[0,1]区间均匀分布的柔性负荷的随机变量,d为随机变量μ的个数;θ为相关系数矩阵;
Figure BDA0002705123040000084
为相关系数矩阵为θ的标准多元Gaussian分布函数;
Figure BDA0002705123040000085
为标准Gaussian分布函数的逆函数。
具体地,在得到柔性负荷的各随机变量的累积分布函数之后,利用GaussianCopula函数以及随机变量μ的累积分布函数建立柔性负荷模型。
步骤S1013,基于累积分布函数以及极大化伪对数似然函数对柔性负荷模型中的参数θ进行估计:
Figure BDA0002705123040000086
具体地,柔性负荷模块中的参数θ为相关系数矩阵,通过累积分布函数
Figure BDA0002705123040000091
和极大化伪对数似然函数对参数θ进行估计,得到
Figure BDA0002705123040000092
步骤S102,利用柔性负荷模型进行蒙特卡洛模拟,生成用于实施需求响应调度的柔性负荷场景。
图3是本发明实施例提供的一种实时需求响应方法中步骤S102的流程图。
可选地,如图3所示,步骤S102,利用柔性负荷模型进行蒙特卡洛模拟,生成用于实施需求响应调度的柔性负荷场景包括如下步骤:
步骤S1021,利用柔性负荷模型进行蒙特卡洛模拟,生成N组模拟数据;
步骤S1022,利用逆概率分布函数将N组模拟数据转换为柔性负荷参与实时需求响应的N个柔性负荷场景。
具体地,在对柔性负荷的每个随机变量完成Copula函数建模,得到柔性负荷模型之后,利用建立的柔性负荷模型进行蒙特卡洛模拟,可以生成N组模拟数据,需要说明的是,上述N组模拟数据指的是对于每个随机变量μ均能生成N组模拟数据,进而利用逆概率分布函数将N组模拟数据转换为柔性负荷参与实时需求响应的N个柔性负荷场景。例如,对于照明负荷来说,照明的短暂开启为照明的一个柔性负荷场景,照明的长时间开启为照明的另一个柔性负荷场景。
图4是本发明实施例提供的电力系统基于Stackelberg博弈的实时供需互动示意图。
步骤S103,根据柔性负荷场景,利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型。
具体地,Stackelberg博弈,即斯塔克伯格博弈,是一个两阶段的完全信息动态博弈,博弈的时间是序贯的,主要思想为双方都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化,从而达到纳什均衡。在Stackelberg博弈模型中,先作出决策的一方被称为领导者,在领导者之后,剩余的参与者根据领导者的决策进行决策,被称为跟随者,然后领导者再根据跟随者的决策对自己的决策进行调整,如此往复,直到达到纳什均衡。
可选地,步骤S103,根据柔性负荷场景,利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型包括:
根据柔性负荷场景,建立实时需求响应模型:
Figure BDA0002705123040000101
其中,
Figure BDA0002705123040000102
Figure BDA0002705123040000103
Figure BDA0002705123040000104
其中,
Figure BDA0002705123040000105
为领导者的最优策略;
Figure BDA0002705123040000106
为领导者的可选策略;
Figure BDA0002705123040000107
为所有跟随者的最优策略;
Figure BDA0002705123040000108
为第i个跟随者的最优策略;Eleader为领导者的效益函数;Ei为第i个跟随者的效益函数;Ai为跟随者的可选择策略。
具体地,参见图4,在Stackelberg博弈中,对于电力系统来说,可以选取一台供给侧的发电机作为一个领导者,其他发电机G1,G2……和需求侧的柔性负荷N1,N2……均作为多个跟随者,图4中的实线箭头表示电流走向,虚线箭头表示信息流走向,即在领导者做出决策之后供给侧跟随者和需求侧跟随者会获取到该策略,并根据该策略做出决策,领导者也会获取到跟随者的决策,发电机会根据最终决策输出相应的电能至负荷侧,上述过程都是实时进行的。
领导者根据跟随者的决策结果进行决策,可以有效地进行集中协调;各跟随者根据上层领导者的决策结果分别进行最优决策。当跟随者观察到领导者给出最优决策时,假设博弈场上其他跟随者的功率不变,选择一个使得自身效益最高的策略,其模型可以表述为:
Figure BDA0002705123040000111
其中,Eleader为领导者的效益函数,即一台发电机的效益函数,Ei为第i个跟随者的效益函数,即第i个柔性负荷的效益函数;在实际电力系统运行过程中,希望所有发电机以及所有柔性负荷的总效益能够达到最优。
可选地,实时需求响应方法还包括如下步骤:
根据实时需求响应模型,电力系统的总效益E为:
Figure BDA0002705123040000112
其中,
Figure BDA0002705123040000113
Ωd为负荷的集合,Ωs为发电机的集合;
Figure BDA0002705123040000114
为用户效用函数,
Figure BDA0002705123040000115
αj、ωj为第j个柔性负荷的效用参数,PDj为第j个柔性负荷的有功需求,PDj,T0为T0时刻第j个柔性负荷的有功需求,PDj,T为T时刻第j个柔性负荷的有功需求,NS为柔性负荷场景的总场景数,PS为场景S的概率,且
Figure BDA0002705123040000116
TN为调度计划总时段,其中,
Figure BDA0002705123040000117
表示当前第一阶段,即调度时刻T0的用户效用函数,
Figure BDA0002705123040000118
表示未来第二阶段,即调度时刻T0+1的用户效用函数。fi s为发电成本函数,
Figure BDA0002705123040000119
ai、bi、ci为第i台发电机的发电成本参数,PGi,T0为T0时刻第i台发电机的有功功率,PGi min、PGi max分别为第i台发电机的有功功率最小值和最大值。
具体地,电力系统的总效益E:
Figure BDA0002705123040000121
即为所有发电机以及所有柔性负荷的总效益。综合考虑当前时段和未来时段的响应最优效果,在步骤S102所进行的蒙特卡洛模拟场景的基础上,考虑了未来时段负荷不确定因素,建立了两阶段的实时需求响应模型。
首先,获取发电成本函数
Figure BDA0002705123040000122
以及发电机容量约束
Figure BDA0002705123040000123
第二,建立用户效用函数。负荷聚合商能够协调某一区域的大量柔性负荷,从而参与到需求响应调度。基于微观学理论,引入效用函数来描述用户消耗一定电量所获得的满意度水平:
Figure BDA0002705123040000124
其中,aj、ωj为第j个柔性负荷的效用参数,PDj为第j个柔性负荷的有功需求。
Figure BDA0002705123040000125
为用户效用函数,表示当前第一阶段,即当前实时调度时刻T0的最优需求响应模型。参见图5,图5即为当前和未来两阶段的实时需求响应示意图。
第三,参见图5,未来第二阶段为从T0+1时刻到调度计划结束的最优需求响应模型,其蒙特卡洛所模拟出来的多个柔性负荷场景可用于该阶段的调度,上述用户效用函数
Figure BDA0002705123040000126
可进一步表述为:
Figure BDA0002705123040000127
步骤S104,利用强化学习算法建立实时需求响应模型的求解策略。
具体地,为了综合考虑用户用电的随机性以及电力系统的整体效益,利用强化学习算法对两阶段的实时需求相应模型进行求解,建立起实时需求相应的求解策略。
可选地,步骤S104,利用强化学习算法建立实时需求响应模型的求解策略包括:利用Q学习算法对实时需求响应模型进行求解。
具体地,Q学习算法是强化学习算法的一种,Q学习算法的概念为通过与环境的不断交互来学习新的知识,并将其储存在状态-动作对的知识矩阵Q(s,a)中,再利用该知识矩阵与环境进行交互,直至迭代结束。其迭代次数可以依据需要设置。
图6是本发明实施例提供的知识矩阵学习过程示意图。
传统Q学习中单个智能体只有单个个体进行学习,本申请提供的实时需求相应方法中引入包含多个合作个体的智能体来加快学习效率,其学习过程参见图4,Qi 1,Qi 2,…,Qi k表示多个合作个体,状态s和奖励R均为环境根据知识矩阵Qi所选择的动作a的反馈信息。
图7是本发明实施例提供的利用Q学习算法对实时需求响应模型进行求解的流程图。
可选地,如图7所示,利用Q学习算法对实时需求响应模型进行求解包括如下步骤:
步骤S1,基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式:
Figure BDA0002705123040000131
其中,上标k和j分别为第k次迭代和第j个个体,下标i为第i个智能体,α为学习因子,γ为折扣因子,ΔQ是知识增量,R(sk,sk+1,ak)是在动作ak发生时从状态sk转换到状态sk +1的奖励函数,ai是可选动作。
步骤S2,基于知识矩阵迭代表达式更新知识矩阵,并在更新完知识矩阵之后将当前策略上传至领导者。
示例性地,可以设置总个体个数J为30,学习因子α为0.1,折扣因子γ为0.1带入知识矩阵迭代表达式进行计算,在计算完成之后,基于知识矩阵迭代表达式更新知识矩阵,并在更新完知识矩阵之后,将当前策略上传至领导者。
可选地,如图7所示,在步骤S1,基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式之前,还包括如下步骤:
步骤S11,根据ε-贪婪规则,基于当前知识矩阵选择动作ak
Figure BDA0002705123040000141
其中,ε为贪婪行为的概率,arand表示随机动作。
具体地,为了在探索和利用直接取得平衡,引入ε-贪婪规则根据当前的知识矩阵选择动作ak,ε为利用率,代表贪婪行为的概率,示例性地,可以设置利用率ε为0.9。
步骤S12,在得知其他跟随者当前的最优决策情况下,计算每个跟随者的目标函数Fi,其中,
Figure BDA0002705123040000142
Ei other为除去第i个跟随者的电力系统的系统效益,Fi表示第i个跟随者的目标函数。
具体地,为了使系统总效益E最大化,每个跟随者的目标函数都包含了系统效益E,领导者负责控制功率平衡,不参与博弈过程,第i个跟随者的目标函数可表述为:
Figure BDA0002705123040000143
在知晓其他跟随者当前的最优决策的情况下,计算每个跟随者的目标函数Fi
步骤S13,基于蚁群算法合作机制建立奖励函数R(sk,sk+1,ak):
Figure BDA0002705123040000151
其中,pm为一个为正乘数,cf为保证奖励函数为正的校正系数,Fi kj为第i个智能体的第k次迭代中的目标函数,SAi Best表示第i个智能体的第k次迭代中最优个体的状态–动作对集合。
具体地,奖励函数是对未知环境探索的反馈,与最优知识矩阵的收敛速度相关,因此引入蚁群算法合作机制来设计奖励函数,可以有效提高收敛速度。示例性地,可以设置正乘数pm为103,校正系数cf为0。
可选地,如图7所示,在步骤S2,基于知识矩阵迭代表达式更新知识矩阵之前,还包括如下步骤:
步骤S21,判断迭代次数k是否到达预设最大值,若达到预设最大值则执行基于知识矩阵迭代表达式更新知识矩阵的动作,否则,重新执行根据ε-贪婪规则,基于当前知识矩阵选择动作ak的步骤。
示例性地,本申请中可以设置最大迭代次数K为20次,即预设最大值为20,在基于知识矩阵迭代表达式更新知识矩阵之前,还需要判断迭代次数k是否达到最大迭代次数K的值,若达到,则输出结果,并利用输出的结果更新知识矩阵,否则,给当前k值加1,即图7中所示k=k+1,并返回执行步骤S11,根据ε-贪婪规则,基于当前知识矩阵选择动作ak,直至k值达到预设最大值。
本发明所提供的实时需求响应方法具有如下的优点及效果:
(1)考虑了不同柔性负荷的用电随机性,并且综合考虑了当前时段和未来时段的响应最优效果,实现了两阶段的实时需求响应。
(2)基于Stackelberg博弈模型实现了不同利益主体的目标协调与利益博弈,即实现了供给侧与需求侧之间的目标协调与利益博弈,充分挖掘了供给侧发电机和需求侧柔性负荷之间的互动优化调度空间,最大化了电力系统的整体效益。
(3)通过Q学习算法对实时需求相应模型进行求解,求解过程中引入了含有多个个体的智能体来增加学习效率。
(4)有效解决了大规模波动性新能源发电接入后的实时供需平衡问题。
本发明实施例还提供了一种实时需求响应装置,该实时需求响应装置用于执行本发明上述实施例所提供的实时需求响应方法,以下对本发明实施例提供的实时需求响应装置做具体介绍。
图8是本发明实施例提供的一种实时需求响应装置的结构图,如图8所示,该实时需求响应装置主要包括:第一建模单元51,场景生成单元52,第二建模单元53和求解单元54,其中:
第一建模单元51,用于基于Copula函数对获取到的每个柔性负荷的随机变量进行概率分布建模,得到柔性负荷模型,其中,每个柔性负荷的随机变量的数量至少为1;
场景生成单元52,用于利用柔性负荷模型进行蒙特卡洛模拟,生成用于实施需求响应调度的柔性负荷场景;
第二建模单元53,用于根据柔性负荷场景,利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型;
求解单元54,用于利用强化学习算法建立实时需求响应模型的求解策略。
可选地,第一建模单元51包括:
第一建模子单元,用于建立每个柔性负荷的随机变量μ的累积分布函数:
Figure BDA0002705123040000171
其中,μ为柔性负荷的随机变量;
第二建模子单元,用于利用Gaussian Copula函数以及随机变量μ的累积分布函数建立柔性负荷模型:
Figure BDA0002705123040000172
其中,μd为服从[0,1]区间均匀分布的柔性负荷的随机变量,d为随机变量μ的个数;θ为相关系数矩阵;
Figure BDA0002705123040000173
为相关系数矩阵为θ的标准多元Gaussian分布函数;
Figure BDA0002705123040000174
为标准Gaussian分布函数的逆函数;
估计子单元,用于基于累积分布函数以及极大化伪对数似然函数对柔性负荷模型中的参数θ进行估计:
Figure BDA0002705123040000175
可选地,场景生成单元52包括:
生成子单元,用于利用柔性负荷模型进行蒙特卡洛模拟,生成N组模拟数据;
转换子单元,用于利用逆概率分布函数将N组模拟数据转换为柔性负荷参与实时需求响应的N个柔性负荷场景。
可选地,第二建模单元53包括:
第一建立子单元,用于根据柔性负荷场景,建立实时需求响应模型:
Figure BDA0002705123040000176
其中,
Figure BDA0002705123040000177
Figure BDA0002705123040000178
Figure BDA0002705123040000179
其中,
Figure BDA00027051230400001710
为领导者的最优策略;
Figure BDA00027051230400001711
为领导者的可选策略;
Figure BDA00027051230400001712
为所有跟随者的最优策略;
Figure BDA0002705123040000181
为第i个跟随者的最优策略;Eleader为领导者的效益函数;Ei为第i个跟随者的效益函数;Ai为跟随者的可选择策略。
可选地,实时需求响应装置还包括:
效益计算单元,用于根据实时需求响应模型计算电力系统的总效益E为:
Figure BDA0002705123040000182
其中,
Figure BDA0002705123040000183
Ωd为负荷的集合,Ωs为发电机的集合;
Figure BDA0002705123040000184
为用户效用函数,
Figure BDA0002705123040000185
αj、ωj为第j个柔性负荷的效用参数,PDj为第j个柔性负荷的有功需求,PDj,T0为T0时刻第j个柔性负荷的有功需求,PDj,T为T时刻第j个柔性负荷的有功需求,NS为柔性负荷场景的总场景数,PS为场景S的概率,且
Figure BDA0002705123040000186
TN为调度计划总时段,其中,
Figure BDA0002705123040000187
表示当前第一阶段,即调度时刻T0的用户效用函数,
Figure BDA0002705123040000188
表示未来第二阶段,即调度时刻T0+1的用户效用函数;
fi s为发电成本函数,
Figure BDA0002705123040000189
ai、bi、ci为第i台发电机的发电成本参数,PGi,T0为T0时刻第i台发电机的有功功率,PGi min、PGi max分别为第i台发电机的有功功率最小值和最大值。
可选地,求解单元54用于利用Q学习算法对实时需求响应模型进行求解。
可选地,求解单元54包括:
确定子单元,用于基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式:
Figure BDA0002705123040000191
其中,上标k和j分别为第k次迭代和第j个个体,下标i为第i个智能体,α为学习因子,γ为折扣因子,ΔQ是知识增量,R(sk,sk+1,ak)是在动作ak发生时从状态sk转换到状态sk +1的奖励函数,ai是可选动作;
更新子单元,用于基于知识矩阵迭代表达式更新知识矩阵,并在更新完知识矩阵之后将当前策略上传至领导者。
可选地,求解单元54还包括:
选择子单元,用于在确定子单元基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式之前,根据ε-贪婪规则,基于当前知识矩阵选择动作ak
Figure BDA0002705123040000192
其中,ε为贪婪行为的概率,arand表示随机动作;
计算子单元,用于在得知其他跟随者当前的最优决策情况下,计算每个跟随者的目标函数Fi,其中,
Figure BDA0002705123040000193
Ei other为除去第i个跟随者的电力系统的系统效益,Fi表示第i个跟随者的目标函数。
第二建立子单元,,用于基于蚁群算法合作机制建立奖励函数R(sk,sk+1,ak):
Figure BDA0002705123040000194
其中,pm为一个为正乘数,cf为保证奖励函数为正的校正系数,Fi kj为第i个智能体的第k次迭代中的目标函数,SAi Best表示第i个智能体的第k次迭代中最优个体的状态–动作对集合。
可选地,求解单元54还包括:
判断子单元,用于在更新子单元基于知识矩阵迭代表达式更新知识矩阵之前,判断迭代次数k是否到达预设最大值,若达到预设最大值则执行基于知识矩阵迭代表达式更新知识矩阵的动作,否则,重新执行选择子单元根据ε-贪婪规则,基于当前知识矩阵选择动作ak的步骤。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例提供的实时需求响应方法,与上述实施例提供的实时需求响应装置具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
最后应说明的是,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种实时需求响应方法,其特征在于,包括:
基于Copula函数对柔性负荷的随机变量进行概率分布建模,得到柔性负荷模型,其中,每个所述柔性负荷的随机变量的数量至少为1;
利用所述柔性负荷模型进行蒙特卡洛模拟,生成用于实施需求响应调度的柔性负荷场景;
根据所述柔性负荷场景,利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型;
利用强化学习算法建立所述实时需求响应模型的求解策略;
根据所述实时需求响应模型,所述电力系统的总效益E为:
Figure FDA0003537140660000011
其中,
Figure FDA0003537140660000012
Ωd为负荷的集合,Ωs为发电机的集合;
Figure FDA0003537140660000013
为用户效用函数,
Figure FDA0003537140660000014
表示当前第一阶段,即调度时刻T0的用户效用函数,
Figure FDA0003537140660000015
表示未来第二阶段,即调度时刻T0+1的用户效用函数,其中,αj、ωj为第j个柔性负荷的效用参数,PDj为第j个柔性负荷的有功需求,PDj,T0为T0时刻第j个柔性负荷的有功需求,PDj,T为T时刻第j个柔性负荷的有功需求,NS为所述柔性负荷场景的总场景数,PS为场景S的概率,且
Figure FDA0003537140660000016
TN为调度计划总时段;
fi s为发电成本函数,
Figure FDA0003537140660000017
ai、bi、ci为第i台发电机的发电成本参数,PGi,T0为T0时刻第i台发电机的有功功率,PGi min、PGi max分别为第i台发电机的有功功率最小值和最大值;
所述利用强化学习算法建立所述实时需求响应模型的求解策略,包括:
利用Q学习算法对所述实时需求响应模型进行求解;
在得知其他跟随者当前的最优决策情况下,计算每个跟随者的目标函数Fi,其中,
Figure FDA0003537140660000021
Ei other为除去第i个跟随者的电力系统的系统效益,Fi表示第i个跟随者的目标函数。
2.根据权利要求1所述的方法,其特征在于,所述基于Copula函数对获取到的每个柔性负荷的随机变量进行概率分布建模,得到柔性负荷模型包括:
建立每个所述柔性负荷的随机变量μ的累积分布函数:
Figure FDA0003537140660000022
其中,μ为所述柔性负荷的随机变量;
利用Gaussian Copula函数以及所述随机变量μ的所述累积分布函数建立所述柔性负荷模型:
Figure FDA0003537140660000023
其中,μd为服从[0,1]区间均匀分布的所述柔性负荷的随机变量,d为随机变量μ的个数;θ为相关系数矩阵;
Figure FDA0003537140660000024
为相关系数矩阵为θ的标准多元Gaussian分布函数;
Figure FDA0003537140660000025
为标准Gaussian分布函数的逆函数;
基于所述累积分布函数以及极大化伪对数似然函数对所述柔性负荷模型中的参数θ进行估计:
Figure FDA0003537140660000026
3.根据权利要求1所述的方法,其特征在于,所述利用所述柔性负荷模型进行蒙特卡洛模拟,生成用于实施需求响应调度的柔性负荷场景包括:
利用所述柔性负荷模型进行蒙特卡洛模拟,生成N组模拟数据;
利用逆概率分布函数将N组所述模拟数据转换为所述柔性负荷参与实时需求响应的N个所述柔性负荷场景。
4.根据权利要求1所述的方法,其特征在于,所述根据所述柔性负荷场景,利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型包括:
根据所述柔性负荷场景,建立所述实时需求响应模型:
Figure FDA0003537140660000031
其中,
Figure FDA0003537140660000032
Figure FDA0003537140660000033
Figure FDA0003537140660000034
其中,
Figure FDA0003537140660000035
为领导者的最优策略;
Figure FDA0003537140660000036
为领导者的可选策略;
Figure FDA0003537140660000037
为所有跟随者的最优策略;
Figure FDA0003537140660000038
为第i个跟随者的最优策略;Eleader为领导者的效益函数;Ei为第i个跟随者的效益函数;Ai为跟随者的可选择策略。
5.根据权利要求1所述的方法,其特征在于,所述利用Q学习算法对所述实时需求响应模型进行求解包括:
基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式:
Figure FDA0003537140660000039
其中,上标k和j分别为第k次迭代和第j个个体,下标i为第i个智能体,α为学习因子,γ为折扣因子,ΔQ是知识增量,R(sk,sk+1,ak)是在动作ak发生时从状态sk转换到状态sk+1的奖励函数,ai是可选动作;
基于所述知识矩阵迭代表达式更新所述知识矩阵,并在更新完所述知识矩阵之后将当前策略上传至领导者。
6.根据权利要求5所述的方法,其特征在于,在所述基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式之前,还包括:
根据ε-贪婪规则,基于当前知识矩阵选择动作ak
Figure FDA0003537140660000041
其中,ε为贪婪行为的概率,arand表示随机动作;
基于蚁群算法合作机制建立奖励函数R(sk,sk+1,ak):
Figure FDA0003537140660000042
其中,pm为一个为正乘数,cf为保证所述奖励函数为正的校正系数,Fi kj为第i个智能体的第k次迭代中的所述目标函数,SAi Best表示第i个智能体的第k次迭代中最优个体的状态–动作对集合。
7.根据权利要求6所述的方法,其特征在于,在所述基于所述知识矩阵迭代表达式更新所述知识矩阵之前,还包括:
判断迭代次数k是否到达预设最大值,若达到所述预设最大值则执行基于所述知识矩阵迭代表达式更新所述知识矩阵的动作,否则,重新执行所述根据ε-贪婪规则,基于当前知识矩阵选择动作ak的步骤。
8.一种实时需求响应装置,其特征在于,包括:
第一建模单元,用于基于Copula函数对获取到的每个柔性负荷的随机变量进行概率分布建模,得到柔性负荷模型,其中,每个所述柔性负荷的随机变量的数量至少为1;
场景生成单元,用于利用所述柔性负荷模型进行蒙特卡洛模拟,生成用于实施需求响应调度的柔性负荷场景;
第二建模单元,用于根据所述柔性负荷场景,利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型;
求解单元,用于利用强化学习算法建立所述实时需求响应模型的求解策略;
实时需求响应装置还包括:
效益计算单元,用于根据实时需求响应模型计算电力系统的总效益E为:
Figure FDA0003537140660000051
其中,
Figure FDA0003537140660000052
Ωd为负荷的集合,Ωs为发电机的集合;
Figure FDA0003537140660000053
为用户效用函数,
Figure FDA0003537140660000054
表示当前第一阶段,即调度时刻T0的用户效用函数,
Figure FDA0003537140660000055
表示未来第二阶段,即调度时刻T0+1的用户效用函数,其中,αj、ωj为第j个柔性负荷的效用参数,PDj为第j个柔性负荷的有功需求,PDj,T0为T0时刻第j个柔性负荷的有功需求,PDj,T为T时刻第j个柔性负荷的有功需求,NS为柔性负荷场景的总场景数,PS为场景S的概率,且
Figure FDA0003537140660000056
TN为调度计划总时段;
fi s为发电成本函数,
Figure FDA0003537140660000057
ai、bi、ci为第i台发电机的发电成本参数,PGi,T0为T0时刻第i台发电机的有功功率,PGi min、PGi max分别为第i台发电机的有功功率最小值和最大值;
求解单元还包括:
计算子单元,用于在得知其他跟随者当前的最优决策情况下,计算每个跟随者的目标函数Fi,其中,
Figure FDA0003537140660000061
Ei other为除去第i个跟随者的电力系统的系统效益,Fi表示第i个跟随者的目标函数。
CN202011036049.4A 2020-09-27 2020-09-27 一种实时需求响应方法和装置 Active CN112132350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011036049.4A CN112132350B (zh) 2020-09-27 2020-09-27 一种实时需求响应方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011036049.4A CN112132350B (zh) 2020-09-27 2020-09-27 一种实时需求响应方法和装置

Publications (2)

Publication Number Publication Date
CN112132350A CN112132350A (zh) 2020-12-25
CN112132350B true CN112132350B (zh) 2022-05-10

Family

ID=73840612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011036049.4A Active CN112132350B (zh) 2020-09-27 2020-09-27 一种实时需求响应方法和装置

Country Status (1)

Country Link
CN (1) CN112132350B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114004497A (zh) * 2021-11-01 2022-02-01 国网福建省电力有限公司厦门供电公司 基于元强化学习的大规模负荷需求响应策略、系统及设备
CN114676949A (zh) * 2021-11-18 2022-06-28 贵州万峰电力股份有限公司 一种基于强化学习算法的需求侧响应负荷分析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180083482A1 (en) * 2016-09-19 2018-03-22 Nestfield Co., Ltd. Supply-demand balancing method and system for power management in smart grid
CN110569556A (zh) * 2019-08-14 2019-12-13 上海电力大学 一种基于主从博弈的区域分布式能源网设计与优化方法
CN111047071B (zh) * 2019-10-29 2022-06-24 国网江苏省电力有限公司盐城供电分公司 基于深度迁移学习和Stackelberg博弈的电力系统实时供需互动方法
CN111401757B (zh) * 2020-03-19 2022-04-22 西安交通大学 一种计及时空相关性的多区域电力负荷时序场景建模方法

Also Published As

Publication number Publication date
CN112132350A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
Bahrami et al. Deep reinforcement learning for demand response in distribution networks
Das et al. Optimal placement of distributed energy storage systems in distribution networks using artificial bee colony algorithm
JP7261507B2 (ja) 電気ヒートポンプ-熱電併給システムを最適化する調整方法及びシステム
Cheng et al. An MILP-based model for short-term peak shaving operation of pumped-storage hydropower plants serving multiple power grids
CN110620402B (zh) 电-气混联系统分布式规划运行联合优化方法及系统
CN112132350B (zh) 一种实时需求响应方法和装置
CN109103912A (zh) 考虑电网调峰需求的工业园区主动配电系统调度优化方法
Huang et al. Validation on aggregate flexibility from residential air conditioning systems for building-to-grid integration
CN111030110B (zh) 一种考虑电转气消纳风电的电力-天然气耦合系统鲁棒协同调度方法
CN110350518B (zh) 一种用于调峰的电网储能容量需求评估方法及系统
CN108830479A (zh) 一种计及电网全成本链的主配协同规划方法
CN109861305A (zh) 一种结合模型预测控制的输配协同经济调度方法
CN112202205A (zh) 一种多能源三级自律协同控制方法及装置
CN114662751B (zh) 基于lstm的园区多能短期负荷预测及优化方法
CN113689031B (zh) 一种基于改进次梯度算法的配电网阻塞管理方法
CN110112784A (zh) 一种户用智能能源管理方法、装置、系统及控制器
CN112862282A (zh) 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法
CN108170952A (zh) 基于电力电子变压器的微电网优化配置方法及装置
CN117277346A (zh) 一种基于多智能体系统的储能调频方法、装置及设备
CN103679292A (zh) 一种智能微电网双电池电能协同优化方法
CN109345030B (zh) 多微网的综合能源系统热电能流分布式优化方法和装置
CN110991928A (zh) 一种多微能源网的综合能源系统能量管理方法及系统
Yu et al. A fuzzy Q-learning algorithm for storage optimization in islanding microgrid
CN113497444A (zh) 考虑源荷变化率差别特性的分布式风电调峰系统及方法
CN113258606A (zh) 一种基于人工智能的智能微电网能源管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant