CN115714382A - 一种基于安全强化学习的主动配电网实时调度方法及装置 - Google Patents

一种基于安全强化学习的主动配电网实时调度方法及装置 Download PDF

Info

Publication number
CN115714382A
CN115714382A CN202211470739.XA CN202211470739A CN115714382A CN 115714382 A CN115714382 A CN 115714382A CN 202211470739 A CN202211470739 A CN 202211470739A CN 115714382 A CN115714382 A CN 115714382A
Authority
CN
China
Prior art keywords
active power
distribution network
power distribution
real
time scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211470739.XA
Other languages
English (en)
Inventor
杨旭
吴文传
王彬
蔺晨晖
孙峰洲
林毅
薛静玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
State Grid Fujian Electric Power Co Ltd
Economic and Technological Research Institute of State Grid Fujian Electric Power Co Ltd
Original Assignee
Tsinghua University
State Grid Fujian Electric Power Co Ltd
Economic and Technological Research Institute of State Grid Fujian Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, State Grid Fujian Electric Power Co Ltd, Economic and Technological Research Institute of State Grid Fujian Electric Power Co Ltd filed Critical Tsinghua University
Priority to CN202211470739.XA priority Critical patent/CN115714382A/zh
Publication of CN115714382A publication Critical patent/CN115714382A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提出一种基于安全强化学习的主动配电网实时调度方法及装置,属于电力系统运行控制技术领域。其中,所述方法包括:建立含分布式发电资源的主动配电网实时调度模型;将所述实时调度模型转化为带约束的马尔科夫决策过程模型;利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练,得到所述主动配电网实时调度的策略神经网络;利用所述策略神经网络输出所述主动配电网实时调度的最优策略,以实现所述主动配电网的实时调度。本发明可以在缺少主动配电网模型的情况下最大化主动配电网运行的经济性,同时满足主动配电网的安全约束,提升主动配电网运行的安全性,有较高的应用价值。

Description

一种基于安全强化学习的主动配电网实时调度方法及装置
技术领域
本发明属于电力系统运行控制技术领域,特别涉及一种基于安全强化学习的主动配电网实时调度方法及装置。
背景技术
在我国大力发展绿色低碳经济的背景下,大规模的分布式发电资源接入到配电网中,如分布式光伏、微型燃气轮机和分布式储能等。这些分布式发电资源具有清洁环保、维护简单和方便灵活等诸多优点,提高了电力系统清洁能源的比重,也促进了配电网向主动配电网的转型。但大规模的分布式发电资源并网改变了传统配电网单向供电的特点,使得配电网的潮流分布难以控制,容易造成电压不稳定;同时,分布式新能源的出力受到天气和环境的严重影响,存在着巨大的波动性与不确定性,对配电网的控制与调度提出了新的挑战。
为了充分消纳这些分布式发电资源,并降低对电力系统的负面影响,主动配电网需要一套全新的实时调度策略。在保证系统安全运行的前提下,调度配网内部的多类发电资源,提升主动配电网运行的经济性与可靠性。
主动配电网由于规模巨大、模型维护成本高、海量设备异动频繁等原因,其精确的模型参数往往难以获得。同时,主动配电网实时调度问题是一个高维的混合整数二次规划问题。模型缺失以及该问题的复杂性严重限制了基于模型的传统方法的性能,导致实际控制过程中偏离最优运行状态。
强化学习作为机器学习的方法之一,通过智能体与环境的交互来学习策略并达成回报最大化的目标,可以很好地解决模型未知的问题。近年来随着大量算法的提出以及计算能力的增强,强化学习在电力系统多个领域得到了广泛的研究与应用。
但另一方面,安全运行对电力系统而言至关重要。传统强化学习算法的本质是对智能体动作空间进行试探,并找出能够最大化奖励的动作策略,将传统强化学习算法运用到实际电力系统中极易产生违反安全约束的情况。因此,针对主动配电网的实时调度问题,需要提出一种安全的强化学习算法,既能提高其运行经济性,又能够满足其安全约束。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于安全强化学习的主动配电网实时调度方法及装置。本发明可以在缺少主动配电网模型的情况下最大化主动配电网运行的经济性,同时满足主动配电网的安全约束,提升主动配电网运行的安全性,有较高的应用价值。
本发明第一方面实施例提出一种基于安全强化学习的主动配电网实时调度方法,包括:
建立含分布式发电资源的主动配电网实时调度模型;
将所述实时调度模型转化为带约束的马尔科夫决策过程模型;
利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练,得到所述主动配电网实时调度的策略神经网络;
利用所述策略神经网络输出所述主动配电网实时调度的最优策略,以实现所述主动配电网的实时调度。
在本发明的一个具体实施例中,所述含分布式发电资源的主动配电网实时调度模型由目标函数和约束条件构成;
所述目标函数为主动配电网调度成本最小化;
所述约束条件包括:主动配电网的潮流约束、分布式发电资源约束和电压约束。
在本发明的一个具体实施例中,所述分布式发电资源包括:微型燃气轮机、分布式光伏和分布式储能。
在本发明的一个具体实施例中,所述目标函数表达式如下:
Figure BDA0003958434510000021
其中,T为调度周期的总时段数;Ck,mt(t)为t时段第k台微型燃气轮机的运行成本,Ck,es(t)为t时段第k台分布式储能的运行成本;C0(t)为t时段主动配电网和上级电网交互的成本;Kmt为微型燃气轮机的数量,Kes为分布式储能的数量;
其中,
Ck,mt(t)=ρk,mtPt k,mt (2)
其中,Pt k,mt为t时段第k台微型燃气轮机的有功出力,
Figure BDA0003958434510000022
为t时段第k台微型燃气轮机的无功出力;ρk,mt为第k台微型燃气轮机的成本系数;
Figure BDA0003958434510000031
其中,Pt k,es为t时段第k台分布式储能的有功出力,
Figure BDA0003958434510000032
为第k台分布式储能的充电成本系数,
Figure BDA0003958434510000033
为第k台分布式储能的放电成本系数;
Figure BDA0003958434510000034
其中,Pt 0为t时段主动配电网与上级电网连接的关口节点处的有功功率,ρbuy为从上级电网购电的价格,ρsell为向上级电网售电的价格;
所述主动配电网的潮流约束为:
Figure BDA0003958434510000035
Figure BDA0003958434510000036
其中,令主动配电网为一个无向图G,该无向图中包含N个节点,每个节点分别对应主动配电网中一条母线;节点0为参考节点,即主动配电网与上级电网连接的关口节点;Pi和Qi分别为节点i的有功注入和无功注入,Vi为节点i的电压幅值;Gij为主动配电网节点导纳矩阵中第i行第j列的元素Yij的实部,Bij为主动配电网节点导纳矩阵中元素Yij的虚部;θij为节点i和节点j之间的电压相角差;
所述分布式发电资源约束,包括:微型燃气轮机约束、分布式光伏约束和分布式储能约束;其中,
微型燃气轮机约束:
Figure BDA0003958434510000037
Figure BDA0003958434510000038
Figure BDA0003958434510000039
其中,
Figure BDA00039584345100000310
为t时段第k台微型燃气轮机的无功出力;
Figure BDA00039584345100000311
Figure BDA00039584345100000312
分别为第k台微型燃气轮机的有功出力上限和下限;
Figure BDA00039584345100000313
Figure BDA00039584345100000314
分别为第k台微型燃气轮机的无功出力上限和下限;
Figure BDA0003958434510000041
Figure BDA0003958434510000042
分别为第k台微型燃气轮机最大向上爬坡功率和最大向下爬坡功率;
分布式光伏约束:
Figure BDA0003958434510000043
其中,
Figure BDA0003958434510000044
为t时段第k台分布式光伏的有功出力,
Figure BDA0003958434510000045
为t时段第k台分布式光伏的无功出力,Sk,PV为第k台光伏发电设备的装机容量,KPV为分布式光伏的数量;
分布式储能约束:
Figure BDA0003958434510000046
Figure BDA0003958434510000047
Figure BDA0003958434510000048
Figure BDA0003958434510000049
其中,
Figure BDA00039584345100000410
为t时段第k台分布式储能的无功出力,
Figure BDA00039584345100000411
Figure BDA00039584345100000412
分别为第k台分布式储能的有功出力上限和下限;
Figure BDA00039584345100000413
Figure BDA00039584345100000414
分别为第k台分布式储能设备的无功出力上限和下限;
Figure BDA00039584345100000415
为第k台分布式储能在t时段的荷电状态;
Figure BDA00039584345100000416
Figure BDA00039584345100000417
分别为第k台分布式储能的电量上限和下限;Δt为每次充电或放电持续的时间;η为充放电的效率;
所述电压约束为:
Figure BDA00039584345100000418
其中,Vmin和Vmax分别为节点电压幅值的下限和上限。
在本发明的一个具体实施例中,所述将所述实时调度模型转化为带约束的马尔科夫决策过程模型,包括:
1)构建主动配电网实时调度状态变量:
Figure BDA00039584345100000419
其中,st为t时段主动配电网实时调度的状态变量;
Figure BDA00039584345100000420
Figure BDA00039584345100000421
分别为t-1时段主动配电网内部所有节点的有功负荷和无功负荷;
Figure BDA00039584345100000422
Figure BDA00039584345100000423
分别为t-1时段主动配电网内部所有微型燃气轮机的有功出力和无功出力;
Figure BDA00039584345100000424
Figure BDA00039584345100000425
分别为t-1时段主动配电网内部所有分布式光伏的有功出力和无功出力;
Figure BDA0003958434510000051
Figure BDA0003958434510000052
分别为t-1时段主动配电网内部所有分布式储能的有功出力和无功出力;Vt-1为t-1时段主动配电网内部所有节点的电压幅值;
2)构建主动配电网实时调度动作变量:
Figure BDA0003958434510000053
其中,at为t时段主动配电网实时调度的动作变量,包括:t时段主动配电网内所有微型燃气轮机的有功出力Pt mt和无功出力
Figure BDA0003958434510000054
t时段主动配电网内所有分布式光伏的无功出力
Figure BDA0003958434510000055
t时段主动配电网内所有分布式储能的有功出力Pt es和无功出力
Figure BDA0003958434510000056
3)构建奖励函数;
其中,t时段的奖励rt表达式如下:
Figure BDA0003958434510000057
4)构建罚项函数;
其中,t时段的罚项dt表达式如下:
Figure BDA0003958434510000058
其中,[·]+为线性整流函数,即[x]+=max[x,0];
若t时段的电压约束式(15)被满足,则:
dt≤0 (20)
5)构建带约束的马尔科夫决策过程模型;
所述马尔科夫决策过程模型由(S,A,p,R,D,γ,γc)表示,式(20)为所述马尔科夫过程模型的约束;其中S为状态变量st的集合,A为动作变量at的集合,p为状态转移函数,R为奖励rt的集合,D为罚项dt的集合,γ∈[0,1]为奖励的折扣率,γc∈[0,1]为罚项的折扣率。
在本发明的一个具体实施例中,所述利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练,得到所述含分布式发电资源的主动配电网实时调度的策略神经网络,包括:
1)初始化时段t=0,确定调度周期总时段数T;
2)构建强化学习智能体的策略神经网络πθ,随机初始化πθ的参数θ;πθ的输入为状态变量,输出为动作变量的概率分布,即πθ:S×A→[0,∞),at~πθ(·|st);
3)构建强化学习智能体的奖励值函数神经网络
Figure BDA0003958434510000061
随机初始化
Figure BDA0003958434510000062
的参数
Figure BDA0003958434510000063
Figure BDA0003958434510000064
的输入为状态变量和动作变量,输出为估计的累计折扣奖励的期望;
其中,
Figure BDA0003958434510000065
表示初始状态为s、初始动作为a后智能体所获得的累计折扣奖励的期望,表达式如下:
Figure BDA0003958434510000066
其中,τ~π是智能体采取策略π后产生的轨迹,-logπθ(·|st)为策略的熵项,α为熵的权重;
4)构建强化学习智能体的罚项值函数神经网络
Figure BDA0003958434510000067
随机初始化
Figure BDA0003958434510000068
的参数φ;
Figure BDA0003958434510000069
的输入为状态变量和动作变量,输出为估计的累计折扣罚项的期望;
其中,
Figure BDA00039584345100000610
表示初始状态为s、初始动作为a后智能体所获得的累计折扣罚项的期望,表达式如下:
Figure BDA00039584345100000611
5)构建强化学习智能体的目标奖励值函数神经网络
Figure BDA00039584345100000612
和目标罚项值函数神经网络
Figure BDA00039584345100000613
Figure BDA00039584345100000614
的参数为
Figure BDA00039584345100000615
Figure BDA00039584345100000616
的参数为φ';其中,
Figure BDA00039584345100000617
的结构与
Figure BDA00039584345100000618
完全相同,并利用
Figure BDA00039584345100000619
的参数的初始值进行初始化;
Figure BDA00039584345100000620
的结构与
Figure BDA00039584345100000621
完全相同,并利用
Figure BDA00039584345100000622
的参数的初始值进行初始化;
6)构建强化学习智能体的优化问题;
该优化问题的目标函数为:
Figure BDA00039584345100000623
约束条件为:
Figure BDA00039584345100000624
其中,dmax为累计折扣罚项的上限;
7)构建强化学习智能体的拉格朗日乘子网络λ,λ的输入为状态变量,输出为该状态变量对应的拉格朗日乘子;
基于该拉格朗日乘子网络,利用拉格朗日松弛法,对约束式(24)进行松弛,将式(23)转化为:
Figure BDA0003958434510000071
8)构建强化学习智能体的经验池D,将各时段的(st,at,rt,dt,st+1)作为样本存入经验池;
9)从经验池D中随机抽取一组样本B,样本数量为|B|,计算奖励值函数神经网络
Figure BDA00039584345100000715
的损失函数:
Figure BDA0003958434510000072
其中,yt为近似
Figure BDA0003958434510000073
时的目标值,计算表达式为:
Figure BDA0003958434510000074
计算出
Figure BDA0003958434510000075
后,通过梯度下降的方式更新
Figure BDA0003958434510000076
的参数;
10)从经验池D中抽取随机一组样本B,样本数量为|B|,计算罚项值函数神经网络
Figure BDA0003958434510000077
的损失函数:
Figure BDA0003958434510000078
其中,
Figure BDA0003958434510000079
为近似
Figure BDA00039584345100000710
时的目标值,计算表达式为:
Figure BDA00039584345100000711
计算出
Figure BDA00039584345100000712
后,通过梯度下降的方式更新
Figure BDA00039584345100000713
的参数;
11)从经验池D中随机抽取一组样本B,样本数量为|B|,计算策略神经网络πθ的损失函数:
Figure BDA00039584345100000714
计算出Lπ(θ)后,通过梯度下降的方式更新πθ的网络参数;
12)从经验池D中随机抽取一组样本B,样本数量为|B|,计算拉格朗日乘子网络λ的损失函数:
Figure BDA0003958434510000081
计算出Lλ后,通过梯度下降的方式更新λ的参数;
13)利用更新后
Figure BDA0003958434510000088
Figure BDA0003958434510000082
的参数分别更新
Figure BDA0003958434510000083
Figure BDA0003958434510000084
的网络参数:
Figure BDA0003958434510000085
φ'=σφ+(1-σ)φ' (33)
其中,σ为目标神经网络的更新率;
14)训练时,按照设定的比例线性降低各神经网络的学习率直至损失函数Lπ(θ)小于设定的收敛阈值ε,训练结束,得到最终的奖励值函数神经网络
Figure BDA0003958434510000086
罚项值函数神经网络
Figure BDA0003958434510000087
拉格朗日乘子网络λ和策略神经网络πθ
在本发明的一个具体实施例中,所述利用所述策略神经网络输出所述含分布式发电资源的主动配电网实时调度的最优策略,以实现所述主动配电网的实时调度,包括:
利用实时量测信息构建t时段的状态变量st,将st输入训练完毕的策略神经网络πθ,得到所述主动配电网t时段的动作变量at,将at下发给所述主动配电网中的对应设备执行即实现所述主动配电网的实时调度。
本发明第二方面实施例提出一种基于安全强化学习的主动配电网实时调度装置,包括:
实时调度模型构建模块,用于建立含分布式发电资源的主动配电网实时调度模型;
马尔科夫决策过程模型构建模块,用于将所述实时调度模型转化为带约束的马尔科夫决策过程模型;
策略神经网络训练模块,用于利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练,得到所述主动配电网实时调度的策略神经网络;
实时调度模块,用于利用所述策略神经网络输出所述主动配电网实时调度的最优策略,以实现所述主动配电网的实时调度。
本发明第三方面实施例提出一种电子设备,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种基于安全强化学习的主动配电网实时调度方法。
本发明第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述一种基于安全强化学习的主动配电网实时调度方法。
本发明的特点及有益效果在于:
1)本发明运用了无模型的深度强化学习算法,只需要相应量测的历史数据,就可以构建马尔科夫决策过程,通过强化学习智能体自适应地进行优化。
2)本发明考虑了主动配电网中的多类分布式资源,包括微型燃气轮机、分布式光伏、分布式储能,可以实现多类资源的最优调度。同时,奖励函数中包括了发电成本、储能成本、与上级电网交互的购电成本和售电成本,可以涵盖大部分主动配电网的运行场景。
3)本发明将马尔科夫决策过程拓展至带约束的马尔科夫决策过程,对现有的强化学习算法进行改进,使得训练得到的最优策略在最小化主动配电网运行成本的同时,满足主动配电网的电压约束。保证了强化学习算法的安全性,可以更好地应用于实际调度场景中,实现更优、更安全的控制效果。
附图说明
图1为本发明实施例中一种基于安全强化学习的主动配电网实时调度方法的整体流程图。
具体实施方式
本发明实施例提出的一种基于安全强化学习的主动配电网实时调度方法及装置,下面结合附图和具体实施例进一步详细说明如下。
本发明第一方面实施例提出一种基于安全强化学习的主动配电网实时调度方法,包括:
建立含分布式发电资源的主动配电网实时调度模型;
将所述实时调度模型转化为带约束的马尔科夫决策过程模型;
利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练,得到所述主动配电网实时调度的策略神经网络;
利用所述策略神经网络输出所述主动配电网实时调度的最优策略,以实现所述主动配电网的实时调度。
在本发明的一个具体实施例中,所述分布式发电资源包括:微型燃气轮机、分布式光伏和分布式储能,其数量分别为Kmt、KPV和Kes
在本发明的一个具体实施例中,所述一种基于安全强化学习的主动配电网实时调度方法,整体流程如图1所示,包括以下步骤:
1)根据主动配电网潮流方程与分布式发电资源特性,建立含分布式发电资源的主动配电网实时调度模型;具体步骤如下:
1-1)构建主动配电网潮流方程;具体步骤如下:
1-1-1)建立主动配电网仿真模型,利用配电网调度中心的拓扑信息构建主动配电网拓扑结构:
本实施例中,令主动配电网为一个无向图G,该无向图中包含N个节点,每个节点分别对应主动配电网中一条母线,其中节点0为参考节点,即与上级电网连接的关口节点。
1-1-2)在极坐标系下构建主动配电网的潮流方程:
Figure BDA0003958434510000101
Figure BDA0003958434510000102
其中,Pi和Qi分别为无向图中节点i的有功注入和无功注入,Vi为节点i的电压幅值;Gij为主动配电网节点导纳矩阵中第i行第j列的元素Yij的实部,Bij为主动配电网节点导纳矩阵中元素Yij的虚部;θij为节点i和节点j之间的电压相角差。
1-2)构建含分布式发电资源的主动配电网实时调度模型,该模型的优化变量包括微型燃气轮机的有功出力和无功出力、分布式光伏的无功出力以及分布式储能的有功出力和无功出力;该模型由目标函数和约束条件的构成;具体步骤如下:
1-2-1)建立含分布式发电资源的主动配电网实时调度目标函数:
Figure BDA0003958434510000103
其中,T为调度周期的总时段数;Ck,mt(t)为t时段第k台微型燃气轮机的运行成本,Ck,es(t)为t时段第k台分布式储能的运行成本;C0(t)为t时段主动配电网和上级电网交互的成本。
定义t时段第k台微型燃气轮机的有功出力为Pt k,mt,t时段第k台微型燃气轮机的无功出力为
Figure BDA0003958434510000104
微型燃气轮机的运行成本与发电功率成正比,定义第k台微型燃气轮机的成本系数为ρk,mt,则Ck,mt(t)可表示为:
Ck,mt(t)=ρk,mtPt k,mt (4)
定义t时段第k台分布式储能的有功出力为Pt k,es,t时段第k台分布式储能的无功出力为
Figure BDA0003958434510000111
分布式储能考虑其度电成本,定义第k台分布式储能的充电成本系数为
Figure BDA0003958434510000112
放电成本系数为
Figure BDA0003958434510000113
则Ck,es(t)可表示为:
Figure BDA0003958434510000114
定义t时段主动配电网与上级电网连接的关口节点处的有功功率为Pt 0,从上级电网购电的价格为ρbuy,向上级电网售电的价格为ρsell,则C0(t)可表示为:
Figure BDA0003958434510000115
1-2-2)建立含分布式发电资源的主动配电网实时调度约束条件,包括:
1-2-2-1)主动配电网的潮流约束,如式(1)-(2)所示;
1-2-2-2)分布式发电资源约束,包括:微型燃气轮机约束、分布式光伏约束和分布式储能约束;
微型燃气轮机约束:
Figure BDA0003958434510000116
Figure BDA0003958434510000117
Figure BDA0003958434510000118
其中,式(7)-(8)为微型燃气轮机出力约束,式(9)为微型燃气轮机爬坡约束。
Figure BDA0003958434510000119
Figure BDA00039584345100001110
分别为第k台微型燃气轮机的有功出力上限和下限;
Figure BDA00039584345100001111
Figure BDA00039584345100001112
分别为第k台微型燃气轮机的无功出力上限和下限;
Figure BDA00039584345100001113
Figure BDA00039584345100001114
分别为第k台微型燃气轮机最大向上爬坡功率和最大向下爬坡功率。
分布式光伏约束:
Figure BDA00039584345100001115
其中,式(10)为分布式光伏的容量约束,
Figure BDA00039584345100001116
为t时段第k台分布式光伏的有功出力,
Figure BDA00039584345100001117
为t时段第k台分布式光伏的无功出力,Sk,PV为第k台光伏发电设备的装机容量。
分布式储能约束:
Figure BDA0003958434510000121
Figure BDA0003958434510000122
Figure BDA0003958434510000123
Figure BDA0003958434510000124
其中,式(11)-(12)为分布式储能出力约束,式(13)为分布式储能荷电状态约束,式(14)为描述储能充放电过程的等式约束。
Figure BDA0003958434510000125
Figure BDA0003958434510000126
分别为第k台分布式储能的有功出力上限和下限;
Figure BDA0003958434510000127
Figure BDA0003958434510000128
分别为第k台分布式储能设备的无功出力上限和下限;
Figure BDA0003958434510000129
为第k台分布式储能在t时段的荷电状态;
Figure BDA00039584345100001210
Figure BDA00039584345100001211
分别为第k台分布式储能的电量上限和下限;Δt为每次充电或放电持续的时间;η为充放电的效率。
1-2-2-3)电压约束;
为保证主动配电网的安全运行,还需要加上电压约束,即t时段任意一点的节点电压幅值都在安全范围内:
Figure BDA00039584345100001212
其中,Vmin和Vmax分别为节点电压幅值的下限和上限。
2)将含分布式发电资源的主动配电网实时调度模型转化为带约束的马尔科夫决策过程模型;具体步骤如下:
2-1)构建主动配电网实时调度状态变量:
Figure BDA00039584345100001213
其中,st为t时段主动配电网实时调度的状态变量;
Figure BDA00039584345100001214
Figure BDA00039584345100001215
分别为t-1时段主动配电网内部所有节点的有功负荷和无功负荷;
Figure BDA00039584345100001216
Figure BDA00039584345100001217
分别为t-1时段主动配电网内部所有微型燃气轮机的有功出力和无功出力;
Figure BDA00039584345100001218
Figure BDA00039584345100001219
分别为t-1时段主动配电网内部所有分布式光伏的有功出力和无功出力;
Figure BDA00039584345100001220
Figure BDA00039584345100001221
分别为t-1时段主动配电网内部所有分布式储能的有功出力和无功出力;Vt-1为t-1时段主动配电网内部所有节点的电压幅值。
2-2)构建主动配电网实时调度动作变量:
Figure BDA0003958434510000131
其中,at为t时段主动配电网实时调度的动作变量,包括:t时段主动配电网内所有微型燃气轮机的有功出力Pt mt和无功出力
Figure BDA0003958434510000132
t时段主动配电网内所有分布式光伏的无功出力
Figure BDA0003958434510000133
t时段主动配电网内所有分布式储能的有功出力Pt es和无功出力
Figure BDA0003958434510000134
2-3)构建奖励函数;
本发明一个具体实施例中,为最大化实时调度的目标函数,需要基于含分布式发电资源的主动配电网实时调度模型,构建t时段的奖励rt
Figure BDA0003958434510000135
2-4)构建罚项函数;
本发明一个具体实施例中,潮流约束由配电网实际物理模型自动满足;分布式发电资源约束通过强化学习智能体动作空间的设置满足;而为了保证主动配电网的安全运行,处理实时调度的电压约束,需要基于含分布式发电资源的主动配电网实时调度模型,构建t时段的罚项dt
Figure BDA0003958434510000136
其中,[·]+为线性整流函数,即[x]+=max[x,0]。因此,如果t时段的电压约束式(15)被满足,应有:
dt≤0 (20)
2-5)构建带约束的马尔科夫决策过程模型;
所述马尔科夫决策过程模型可通过(S,A,p,R,D,γ,γc)进行表示。其中S为状态变量st的集合,A为动作变量at的集合,p为状态转移函数,R为奖励rt的集合,D为罚项dt的集合,γ∈[0,1]为奖励的折扣率,γc∈[0,1]为罚项的折扣率。折扣率接近1表示智能体更关心长期奖励和罚项,接近0表示智能体更关心短期奖励和罚项。本实施例中,取γ=0.99,γc=0.99。同时,将式(20)构建为该马尔科夫过程模型的约束,根据所述带约束的马尔科夫决策过程模型建立强化学习环境。
3)利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练,得到训练完毕的含分布式发电资源的主动配电网实时调度的策略神经网络。具体步骤如下:
3-1)初始化时段t=0,确定调度周期总时段数T。本实施例中,主动配电网调度的时间间隔为15分钟,调度周期为1天,即T=96。
3-2)构建强化学习智能体的策略神经网络πθ,随机初始化其参数θ。该网络输入为状态变量,输出为动作变量的概率分布,即πθ:S×A→[0,∞),at~πθ(·|st),从而进行智能体动作的选择。该网络的结构包含输入层、隐藏层和输出层,输入层的神经元数目为状态变量的维数,输出层的神经元数目为动作变量的维数;本实施例中,隐藏层共2层,每层包含256个神经元。
3-3)构建强化学习智能体的奖励值函数神经网络
Figure BDA0003958434510000141
随机初始化其参数
Figure BDA0003958434510000142
该网络的输入为状态变量和动作变量,输出为估计的累计折扣奖励的期望,
Figure BDA0003958434510000143
表示初始状态为s、初始动作为a后智能体所获得的累计折扣奖励的期望,其定义如式(21)所示。该网络的结构包含输入层、隐藏层和输出层,输入层的神经元数目为状态变量和动作变量的维数之和,输出层的维数为1;本实施例中,隐藏层共2层,每层包含256个神经元。
Figure BDA0003958434510000144
式(21)中,τ~π是智能体采取策略π后产生的轨迹。值得注意的是,该式中还加入了策略的熵项-logπθ(·|st),避免策略过早收敛到局部最优解,以此来鼓励智能体对环境的探索,α为熵的权重。
3-4)构建强化学习智能体的罚项值函数神经网络
Figure BDA0003958434510000145
随机初始化其参数φ。该网络的输入为状态变量和动作变量,输出为估计的累计折扣罚项的期望,
Figure BDA0003958434510000146
表示初始状态为s、初始动作为a后智能体所获得的累计折扣罚项的期望,其定义如式(22)所示。该网络的结构包含输入层、隐藏层和输出层,输入层的神经元数目为状态变量和动作变量的维数之和,输出层的维数为1;本实施例中,隐藏层共2层,每层包含256个神经元。
Figure BDA0003958434510000147
3-5)为保证强化学习训练过程的稳定性,构建强化学习智能体的目标奖励值函数神经网络
Figure BDA0003958434510000148
(参数为
Figure BDA0003958434510000149
)和目标罚项值函数神经网络
Figure BDA00039584345100001410
(参数为φ')。其中,
Figure BDA00039584345100001411
的结构与
Figure BDA00039584345100001412
完全相同,并利用
Figure BDA0003958434510000151
的参数的初始值进行初始化;
Figure BDA0003958434510000152
的结构与
Figure BDA0003958434510000153
完全相同,并利用
Figure BDA0003958434510000154
的参数的初始值进行初始化。在训练过程中,
Figure BDA0003958434510000155
Figure BDA0003958434510000156
的参数分别根据
Figure BDA0003958434510000157
Figure BDA0003958434510000158
的参数缓慢更新。
3-6)构建强化学习智能体的优化问题,目标函数为:
Figure BDA0003958434510000159
约束条件为:
Figure BDA00039584345100001510
其中,dmax为累计折扣罚项所能接受的上限,在本实施例的主动配电网实时调度问题中设为0。
3-7)构建强化学习智能体的拉格朗日乘子网络λ,该网络的输入为状态变量,输出为该状态变量对应的拉格朗日乘子。该网络的结构包含输入层、隐藏层和输出层,输入层的神经元数目为状态变量的维数,输出层的维数为1;本实施例中,隐藏层共2层,每层包含256个神经元。结合该拉格朗日乘子网络,利用拉格朗日松弛法,对约束式(24)进行松弛,将式(23)转化为:
Figure BDA00039584345100001511
3-8)构建强化学习智能体的经验池D,该经验池用于储存智能体与环境交互的经验信息。将各时段的(st,at,rt,dt,st+1)作为样本存入经验池,神经网络更新参数时从D中随机抽取样本进行训练,本实施例中经验池D的大小为2×104
3-9)从经验池D中随机抽取一组样本B,样本数量为|B|,本实施例中|B|=256,计算奖励值函数神经网络
Figure BDA00039584345100001512
的损失函数:
Figure BDA00039584345100001513
其中,yt利用rt
Figure BDA00039584345100001514
计算得出,为近似
Figure BDA00039584345100001515
时的目标值,其计算方法为:
Figure BDA00039584345100001516
计算出
Figure BDA00039584345100001517
后,通过梯度下降的方式更新
Figure BDA00039584345100001518
的网络参数。
3-10)从经验池D中抽取随机一组样本B,样本数量为|B|,本实施例中|B|=256,计算罚项值函数神经网络
Figure BDA0003958434510000161
的损失函数:
Figure BDA0003958434510000162
其中,
Figure BDA0003958434510000163
利用dt
Figure BDA0003958434510000164
计算得出,为近似
Figure BDA0003958434510000165
时的目标值,其计算方法为:
Figure BDA0003958434510000166
计算出
Figure BDA0003958434510000167
后,通过梯度下降的方式更新
Figure BDA0003958434510000168
的网络参数。
3-11)从经验池D中随机抽取一组样本B,样本数量为|B|,本实施例中|B|=256,计算策略神经网络πθ的损失函数:
Figure BDA0003958434510000169
计算出Lπ(θ)后,通过梯度下降的方式更新πθ的网络参数。
3-12)从经验池D中随机抽取一组样本B,样本数量为|B|,本实施例中|B|=256,计算拉格朗日乘子网络λ的损失函数:
Figure BDA00039584345100001610
计算出Lλ后,通过梯度下降的方式更新λ的网络参数。
3-13)利用更新后
Figure BDA00039584345100001611
Figure BDA00039584345100001612
的网络参数分别更新
Figure BDA00039584345100001613
Figure BDA00039584345100001614
的网络参数:
Figure BDA00039584345100001615
φ'=σφ+(1-σ)φ' (33)
其中,σ为两个目标神经网络的更新率,本实施例中取0.005。
3-14)随着训练的进行,按照设定的比例线性降低各神经网络的学习率(本实施例中,πθ的学习率由2×10-4线性降低至10-6
Figure BDA00039584345100001616
Figure BDA00039584345100001617
的学习率由10-3线性降低至10-6)直至策略稳定,即损失函数Lπ(θ)小于设定的收敛阈值ε,本实施例中收敛阈值取10-3。训练结束,得到最终的奖励值函数神经网络
Figure BDA00039584345100001618
罚项值函数神经网络
Figure BDA00039584345100001619
拉格朗日乘子网络λ和策略神经网络πθ。由于运用了拉格朗日松弛法,πθ可以保证在满足约束的条件下最大化获得的奖励,实现主动配电网的实时调度。
4)利用步骤3)训练完毕的策略神经网络输出含分布式发电资源的主动配电网实时调度的最优策略,以实现主动配电网的实时调度。
本实施例中,将经过步骤3)训练完毕的πθ转移至在线使用,实时调度时,利用量测信息构建t时段的状态变量st,将st输入训练完毕的πθ,可以得到主动配电网t时段的动作变量at,而后将at下发给各可控设备,即可实现主动配电网的实时调度。
为实现上述实施例,本公开第二方面实施例提出一种基于安全强化学习的主动配电网实时调度装置,包括:
实时调度模型构建模块,用于建立含分布式发电资源的主动配电网实时调度模型;
马尔科夫决策过程模型构建模块,用于将所述实时调度模型转化为带约束的马尔科夫决策过程模型;
策略神经网络训练模块,用于利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练,得到所述主动配电网实时调度的策略神经网络;
实时调度模块,用于利用所述策略神经网络输出所述主动配电网实时调度的最优策略,以实现所述主动配电网的实时调度。
需要说明的是,前述对一种基于安全强化学习的主动配电网实时调度方法的实施例解释说明也适用于本实施例的一种基于安全强化学习的主动配电网实时调度装置,在此不再赘述。根据本公开实施例提出的一种基于安全强化学习的主动配电网实时调度装置,通过建立含分布式发电资源的主动配电网实时调度模型;将所述实时调度模型转化为带约束的马尔科夫决策过程模型;利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练,得到所述主动配电网实时调度的策略神经网络;利用所述策略神经网络输出所述主动配电网实时调度的最优策略,以实现所述主动配电网的实时调度。由此可实现在缺少主动配电网模型的情况下最大化主动配电网运行的经济性,同时满足主动配电网的安全约束,提升主动配电网运行的安全性,有较高的应用价值。
为实现上述实施例,本公开第三方面实施例提出一种电子设备,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种基于安全强化学习的主动配电网实时调度方法。
为实现上述实施例,本公开第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述一种基于安全强化学习的主动配电网实时调度方法。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例的一种基于安全强化学习的主动配电网实时调度方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于安全强化学习的主动配电网实时调度方法,其特征在于,包括:
建立含分布式发电资源的主动配电网实时调度模型;
将所述实时调度模型转化为带约束的马尔科夫决策过程模型;
利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练,得到所述主动配电网实时调度的策略神经网络;
利用所述策略神经网络输出所述主动配电网实时调度的最优策略,以实现所述主动配电网的实时调度。
2.根据权利要求1所述的方法,其特征在于,所述含分布式发电资源的主动配电网实时调度模型由目标函数和约束条件构成;
所述目标函数为主动配电网调度成本最小化;
所述约束条件包括:主动配电网的潮流约束、分布式发电资源约束和电压约束。
3.根据权利要求2所述的方法,其特征在于,所述分布式发电资源包括:微型燃气轮机、分布式光伏和分布式储能。
4.根据权利要求3所述的方法,其特征在于,所述目标函数表达式如下:
Figure FDA0003958434500000011
其中,T为调度周期的总时段数;Ck,mt(t)为t时段第k台微型燃气轮机的运行成本,Ck,es(t)为t时段第k台分布式储能的运行成本;C0(t)为t时段主动配电网和上级电网交互的成本;Kmt为微型燃气轮机的数量,Kes为分布式储能的数量;
其中,
Ck,mt(t)=ρk,mtPt k,mt (2)
其中,Pt k,mt为t时段第k台微型燃气轮机的有功出力;ρk,mt为第k台微型燃气轮机的成本系数;
Figure FDA0003958434500000012
其中,Pt k,es为t时段第k台分布式储能的有功出力,
Figure FDA0003958434500000013
为第k台分布式储能的充电成本系数,
Figure FDA0003958434500000014
为第k台分布式储能的放电成本系数;
Figure FDA0003958434500000021
其中,Pt 0为t时段主动配电网与上级电网连接的关口节点处的有功功率,ρbuy为从上级电网购电的价格,ρsell为向上级电网售电的价格;
所述主动配电网的潮流约束为:
Figure FDA0003958434500000022
Figure FDA0003958434500000023
其中,令主动配电网为一个无向图G,该无向图中包含N个节点,每个节点分别对应主动配电网中一条母线;节点0为参考节点,即主动配电网与上级电网连接的关口节点;Pi和Qi分别为节点i的有功注入和无功注入,Vi为节点i的电压幅值;Gij为主动配电网节点导纳矩阵中第i行第j列的元素Yij的实部,Bij为主动配电网节点导纳矩阵中元素Yij的虚部;θij为节点i和节点j之间的电压相角差;
所述分布式发电资源约束,包括:微型燃气轮机约束、分布式光伏约束和分布式储能约束;其中,
微型燃气轮机约束:
Figure FDA0003958434500000024
Figure FDA0003958434500000025
Figure FDA0003958434500000026
其中,
Figure FDA0003958434500000027
为t时段第k台微型燃气轮机的无功出力;
Figure FDA0003958434500000028
Figure FDA0003958434500000029
分别为第k台微型燃气轮机的有功出力上限和下限;
Figure FDA00039584345000000210
Figure FDA00039584345000000211
分别为第k台微型燃气轮机的无功出力上限和下限;
Figure FDA00039584345000000212
Figure FDA00039584345000000213
分别为第k台微型燃气轮机最大向上爬坡功率和最大向下爬坡功率;
分布式光伏约束:
Figure FDA00039584345000000214
其中,
Figure FDA00039584345000000215
为t时段第k台分布式光伏的有功出力,
Figure FDA00039584345000000216
为t时段第k台分布式光伏的无功出力,Sk,PV为第k台光伏发电设备的装机容量,KPV为分布式光伏的数量;
分布式储能约束:
Figure FDA0003958434500000031
Figure FDA0003958434500000032
Figure FDA0003958434500000033
Figure FDA0003958434500000034
其中,
Figure FDA0003958434500000035
为t时段第k台分布式储能的无功出力;
Figure FDA0003958434500000036
Figure FDA0003958434500000037
分别为第k台分布式储能的有功出力上限和下限;
Figure FDA0003958434500000038
Figure FDA0003958434500000039
分别为第k台分布式储能设备的无功出力上限和下限;
Figure FDA00039584345000000310
为第k台分布式储能在t时段的荷电状态;
Figure FDA00039584345000000311
Figure FDA00039584345000000312
分别为第k台分布式储能的电量上下限;Δt为每次充电或放电持续的时间;η为充放电的效率;
所述电压约束为:
Figure FDA00039584345000000313
其中,Vmin和Vmax分别为节点电压幅值的下限和上限。
5.根据权利要求4所述的方法,其特征在于,所述将所述实时调度模型转化为带约束的马尔科夫决策过程模型,包括:
1)构建主动配电网实时调度状态变量:
Figure FDA00039584345000000314
其中,st为t时段主动配电网实时调度的状态变量;
Figure FDA00039584345000000315
Figure FDA00039584345000000316
分别为t-1时段主动配电网内部所有节点的有功负荷和无功负荷;
Figure FDA00039584345000000317
Figure FDA00039584345000000318
分别为t-1时段主动配电网内部所有微型燃气轮机的有功出力和无功出力;
Figure FDA00039584345000000319
Figure FDA00039584345000000320
分别为t-1时段主动配电网内部所有分布式光伏的有功出力和无功出力;
Figure FDA00039584345000000321
Figure FDA00039584345000000322
分别为t-1时段主动配电网内部所有分布式储能的有功出力和无功出力;Vt-1为t-1时段主动配电网内部所有节点的电压幅值;
2)构建主动配电网实时调度动作变量:
Figure FDA00039584345000000323
其中,at为t时段主动配电网实时调度的动作变量,包括:t时段主动配电网内所有微型燃气轮机的有功出力Pt mt和无功出力
Figure FDA0003958434500000041
t时段主动配电网内所有分布式光伏的无功出力
Figure FDA0003958434500000042
t时段主动配电网内所有分布式储能的有功出力Pt es和无功出力
Figure FDA0003958434500000043
3)构建奖励函数;
其中,t时段的奖励rt表达式如下:
Figure FDA0003958434500000044
4)构建罚项函数;
其中,t时段的罚项dt表达式如下:
Figure FDA0003958434500000045
其中,[·]+为线性整流函数,即[x]+=max[x,0];
若t时段的电压约束式(15)被满足,则:
dt≤0 (20)
5)构建带约束的马尔科夫决策过程模型;
所述马尔科夫决策过程模型由(S,A,p,R,D,γ,γc)表示,式(20)为所述马尔科夫过程模型的约束;其中S为状态变量st的集合,A为动作变量at的集合,p为状态转移函数,R为奖励rt的集合,D为罚项dt的集合,γ∈[0,1]为奖励的折扣率,γc∈[0,1]为罚项的折扣率。
6.根据权利要求5所述的方法,其特征在于,所述利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练,得到所述含分布式发电资源的主动配电网实时调度的策略神经网络,包括:
1)初始化时段t=0,确定调度周期总时段数T;
2)构建强化学习智能体的策略神经网络πθ,随机初始化πθ的参数θ;πθ的输入为状态变量,输出为动作变量的概率分布,即πθ:S×A→[0,∞),at~πθ(·|st);
3)构建强化学习智能体的奖励值函数神经网络
Figure FDA0003958434500000046
随机初始化
Figure FDA0003958434500000047
的参数
Figure FDA0003958434500000048
Figure FDA0003958434500000049
的输入为状态变量和动作变量,输出为估计的累计折扣奖励的期望;
其中,
Figure FDA0003958434500000051
表示初始状态为s、初始动作为a后智能体所获得的累计折扣奖励的期望,表达式如下:
Figure FDA0003958434500000052
其中,τ~π是智能体采取策略π后产生的轨迹,-logπθ(·|st)为策略的熵项,α为熵的权重;
4)构建强化学习智能体的罚项值函数神经网络
Figure FDA0003958434500000053
随机初始化
Figure FDA0003958434500000054
的参数φ;
Figure FDA0003958434500000055
的输入为状态变量和动作变量,输出为估计的累计折扣罚项的期望;
其中,
Figure FDA0003958434500000056
表示初始状态为s、初始动作为a后智能体所获得的累计折扣罚项的期望,表达式如下:
Figure FDA0003958434500000057
5)构建强化学习智能体的目标奖励值函数神经网络
Figure FDA0003958434500000058
和目标罚项值函数神经网络
Figure FDA0003958434500000059
Figure FDA00039584345000000510
的参数为
Figure FDA00039584345000000511
Figure FDA00039584345000000512
的参数为φ';其中,
Figure FDA00039584345000000513
的结构与
Figure FDA00039584345000000514
完全相同,并利用
Figure FDA00039584345000000515
的参数的初始值进行初始化;
Figure FDA00039584345000000516
的结构与
Figure FDA00039584345000000517
完全相同,并利用
Figure FDA00039584345000000518
的参数的初始值进行初始化;
6)构建强化学习智能体的优化问题;
该优化问题的目标函数为:
Figure FDA00039584345000000519
约束条件为:
Figure FDA00039584345000000520
其中,dmax为累计折扣罚项的上限;
7)构建强化学习智能体的拉格朗日乘子网络λ,λ的输入为状态变量,输出为该状态变量对应的拉格朗日乘子;
基于该拉格朗日乘子网络,利用拉格朗日松弛法,对约束式(24)进行松弛,将式(23)转化为:
Figure FDA00039584345000000521
8)构建强化学习智能体的经验池D,将各时段的(st,at,rt,dt,st+1)作为样本存入经验池;
9)从经验池D中随机抽取一组样本B,样本数量为|B|,计算奖励值函数神经网络
Figure FDA0003958434500000061
的损失函数:
Figure FDA0003958434500000062
其中,yt为近似
Figure FDA0003958434500000063
时的目标值,计算表达式为:
Figure FDA0003958434500000064
计算出
Figure FDA0003958434500000065
后,通过梯度下降的方式更新
Figure FDA0003958434500000066
的参数;
10)从经验池D中抽取随机一组样本B,样本数量为|B|,计算罚项值函数神经网络
Figure FDA0003958434500000067
的损失函数:
Figure FDA0003958434500000068
其中,
Figure FDA0003958434500000069
为近似
Figure FDA00039584345000000610
时的目标值,计算表达式为:
Figure FDA00039584345000000611
计算出
Figure FDA00039584345000000612
后,通过梯度下降的方式更新
Figure FDA00039584345000000613
的参数;
11)从经验池D中随机抽取一组样本B,样本数量为|B|,计算策略神经网络πθ的损失函数:
Figure FDA00039584345000000614
计算出Lπ(θ)后,通过梯度下降的方式更新πθ的网络参数;
12)从经验池D中随机抽取一组样本B,样本数量为|B|,计算拉格朗日乘子网络λ的损失函数:
Figure FDA00039584345000000615
计算出Lλ后,通过梯度下降的方式更新λ的参数;
13)利用更新后
Figure FDA00039584345000000616
Figure FDA00039584345000000617
的参数分别更新
Figure FDA00039584345000000618
Figure FDA00039584345000000619
的网络参数:
Figure FDA00039584345000000620
φ'=σφ+(1-σ)φ' (33)
其中,σ为目标神经网络的更新率;
14)训练时,按照设定的比例线性降低各神经网络的学习率直至损失函数Lπ(θ)小于设定的收敛阈值ε,训练结束,得到最终的奖励值函数神经网络
Figure FDA0003958434500000071
罚项值函数神经网络
Figure FDA0003958434500000072
拉格朗日乘子网络λ和策略神经网络πθ
7.根据权利要求6所述的方法,其特征在于,所述利用所述策略神经网络输出所述含分布式发电资源的主动配电网实时调度的最优策略,以实现所述主动配电网的实时调度,包括:
利用实时量测信息构建t时段的状态变量st,将st输入训练完毕的策略神经网络πθ,得到所述主动配电网t时段的动作变量at,将at下发给所述主动配电网中的对应设备执行即实现所述主动配电网的实时调度。
8.一种基于安全强化学习的主动配电网实时调度装置,其特征在于,包括:
实时调度模型构建模块,用于建立含分布式发电资源的主动配电网实时调度模型;
马尔科夫决策过程模型构建模块,用于将所述实时调度模型转化为带约束的马尔科夫决策过程模型;
策略神经网络训练模块,用于利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练,得到所述主动配电网实时调度的策略神经网络;
实时调度模块,用于利用所述策略神经网络输出所述主动配电网实时调度的最优策略,以实现所述主动配电网的实时调度。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任一项所述的方法。
CN202211470739.XA 2022-11-23 2022-11-23 一种基于安全强化学习的主动配电网实时调度方法及装置 Pending CN115714382A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211470739.XA CN115714382A (zh) 2022-11-23 2022-11-23 一种基于安全强化学习的主动配电网实时调度方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211470739.XA CN115714382A (zh) 2022-11-23 2022-11-23 一种基于安全强化学习的主动配电网实时调度方法及装置

Publications (1)

Publication Number Publication Date
CN115714382A true CN115714382A (zh) 2023-02-24

Family

ID=85234289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211470739.XA Pending CN115714382A (zh) 2022-11-23 2022-11-23 一种基于安全强化学习的主动配电网实时调度方法及装置

Country Status (1)

Country Link
CN (1) CN115714382A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307241A (zh) * 2023-04-04 2023-06-23 暨南大学 基于带约束多智能体强化学习的分布式作业车间调度方法
CN116316755A (zh) * 2023-03-07 2023-06-23 西南交通大学 一种基于强化学习的电气化铁路储能系统能量管理方法
CN117726143A (zh) * 2024-02-07 2024-03-19 山东大学 基于深度强化学习的环境友好型微网优化调度方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116316755A (zh) * 2023-03-07 2023-06-23 西南交通大学 一种基于强化学习的电气化铁路储能系统能量管理方法
CN116316755B (zh) * 2023-03-07 2023-11-14 西南交通大学 一种基于强化学习的电气化铁路储能系统能量管理方法
CN116307241A (zh) * 2023-04-04 2023-06-23 暨南大学 基于带约束多智能体强化学习的分布式作业车间调度方法
CN116307241B (zh) * 2023-04-04 2024-01-05 暨南大学 基于带约束多智能体强化学习的分布式作业车间调度方法
CN117726143A (zh) * 2024-02-07 2024-03-19 山东大学 基于深度强化学习的环境友好型微网优化调度方法及系统
CN117726143B (zh) * 2024-02-07 2024-05-17 山东大学 基于深度强化学习的环境友好型微网优化调度方法及系统

Similar Documents

Publication Publication Date Title
Chen et al. Medium-term wind power forecasting based on multi-resolution multi-learner ensemble and adaptive model selection
CN112614009B (zh) 一种基于深度期望q-学习的电网能量管理方法及系统
Luo et al. Short‐term operational planning framework for virtual power plants with high renewable penetrations
CN115714382A (zh) 一种基于安全强化学习的主动配电网实时调度方法及装置
An et al. Short-term wind power prediction based on particle swarm optimization-extreme learning machine model combined with AdaBoost algorithm
Ghadimi et al. PSO based fuzzy stochastic long-term model for deployment of distributed energy resources in distribution systems with several objectives
CN102184453A (zh) 基于模糊神经网络和支持向量机的风电功率组合预测方法
CN111934360B (zh) 基于模型预测控制的虚拟电厂-储能系统能量协同优化调控方法
CN112217195B (zh) 一种基于gru多步预测技术的云储能充放电策略形成方法
Liu et al. Corrected multi-resolution ensemble model for wind power forecasting with real-time decomposition and Bivariate Kernel density estimation
CN109038560A (zh) 基于运行策略的配电网分布式储能经济性评价方法和系统
CN113675890A (zh) 基于td3的新能源微电网优化方法
Li et al. Short-term prediction of the power of a new wind turbine based on IAO-LSTM
CN111553750A (zh) 一种计及电价不确定性和损耗成本的储能竞价策略方法
Wang et al. Improved prediction method of PV output power based on optimised chaotic phase space reconstruction
CN113344283B (zh) 基于边缘智能的能源互联网新能源消纳能力评估方法
CN112072643A (zh) 一种基于深度确定性梯度策略的光-蓄系统在线调度方法
Dou et al. Double‐deck optimal schedule of micro‐grid based on demand‐side response
Meng et al. A new compound structure combining DAWNN with modified water cycle algorithm-based synchronous optimization for wind speed forecasting
CN117172097A (zh) 基于云边协同与多智能体深度学习的配电网调度运行方法
CN105207255B (zh) 一种适用于风电出力的电力系统调峰计算方法
CN116865270A (zh) 一种含嵌入式直流的柔性互联配电网优化调度方法及系统
Lin et al. A Novel Multi-Model Stacking Ensemble Learning Method for Metro Traction Energy Prediction
CN109615142A (zh) 一种基于小波分析的风电场风速组合预测方法
Ye et al. Multi-Scenario Stochastic Optimal Scheduling for Power Systems With Source-Load Matching Based on Pseudo-Inverse Laguerre Polynomials

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination