CN112072643A

CN112072643A - 一种基于深度确定性梯度策略的光-蓄系统在线调度方法

Info

Publication number: CN112072643A
Application number: CN202010842141.3A
Authority: CN
Inventors: 胡维昊; 杜月芳; 李坚; 李涛; 许潇; 张真源; 井实; 曹迪; 张蔓; 王浩
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-12-11

Abstract

本发明公开了一种基于深度确定性梯度策略的光‑蓄系统在线调度方法，针对光伏的间歇性以及实时电力市场的随机性性等双重不确定性，考虑并网功率波动惩罚，构建光伏‑抽蓄系统的实时收益模型，对光伏‑抽蓄系统进行优化运行来提高电网安全裕度同时实现光伏‑抽蓄系统收益最大化；由于光伏‑抽蓄系统的优化运行考虑了并网功率波动限制，使光伏平滑接入电网，因此光伏‑抽蓄系统具有较高的稳定性和经济性。

Description

一种基于深度确定性梯度策略的光-蓄系统在线调度方法

技术领域

本发明属于新能源发电技术领域，更为具体地讲，涉及一种基于深度确定性梯度策略的光-蓄系统在线调度方法。

背景技术

对光伏的开发利用是能源结构调整与转型的重大措施，且已进入产业化和规模化发展。据国家能源局统计，截至2020年3月底，国家能源局发布了我国光伏发电累计装机达到2.08亿千瓦，其中集中式光伏1.44亿千瓦，分布式光伏6435万千瓦。由于光伏的发电的实际曲线与负荷需求曲线存在着时空差异，其严重制约了光电的消纳。

随着新一轮电力市场改革的不断深化，实时市场模式的应用普及是未来电力系统发展的必然趋势，然而实时电价的动态波动给发电厂商的优化运行带了一系列挑战。

抽水蓄能电站具有发电成本低、调节能力强等优势，是实现大规模消纳光伏的重要中转枢纽。但是抽水蓄能系统的引入增加了光伏发电系统最优经济调度的难度，非凸、非线性的经济调度模型难以实时求解；面对大规模光伏电源的接入，在经济调度层面需要找到一种能够适应光伏发电特点的实时优化方法。

由于光伏的间歇特性使得含高渗透率光伏的电网运行风险高，事故备用容量大，不利于保证电网的稳定性与经济性。而现有的光伏-抽蓄系统优化调度研究中，大多数是基于日前优化来对光伏进行调度，由于光伏发电具有难以预测的波动特性，因此，该方法难以保证光伏系统的实时最优运行。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度确定性梯度策略的光-蓄系统在线调度方法，在考虑并网功率波动惩罚的同时以最大化光伏-抽蓄系统总收益为目标，并通过深度确定性梯度策略算法实现光伏-抽蓄系统的实时优化运行。

为实现上述发明目的，本发明一种基于深度确定性梯度策略的光-蓄系统在线调度方法，其特征在于，包括以下步骤：

(1)、采集光伏电站pv的历史发电数据，记为p_pv,t，其中，t表示时刻，t＝1,2,3,…；采集光-蓄系统的历史上网电价，记为λ_t；

(2)、构建抽水蓄能电站phs的出力模型；

其中，p_p,t为t时刻变速抽水泵的吸收功率，g为重力加速度，H为抽水蓄能电站水头高度，q_p,t为t时刻变速抽水泵的抽水量，η_p为变速抽水泵的效率，p_tur,t为t时刻水轮机的发电功率，η_tur为水轮机的效率，q_tur,t为t时刻水轮机发电用水量，V_t为t时刻抽水蓄能电站上游水库剩余水量，ε为上游水库水量的蒸发和泄漏系数，ψ_t为t时刻水库流入量，SoC_t为t时刻上游水库剩余水量百分比，V_phsv为上游水库最大可用容量；

(3)、构建光-蓄系统的在线调度目标函数及约束条件；

目标函数为：

其中，Δt为相邻两时刻的间隔时长，T为优化运行周期，p_phs,t为t时刻的待优化变量，当p_phs,t为负数时表示抽水蓄能电站中变速抽水泵吸收功率，即p_p,t＝|p_phs,t|；当p_phs,t为正数时表示抽水蓄能电站中水轮机发出功率，即p_tur,t＝p_phs,t；φ_t为t时刻联络线功率波动引起的经济惩罚值；

其中，φ_t满足：

其中，ρ₁、ρ₂为波动罚金系数；σ为常数；Δp_g,t为t时刻联络线功率波动量，Δp_g,t＝|p_g,t-Δp_g,t-Δt|，p_g,t为t时刻连联络线传输功率，p_g,t＝p_pv,t+p_phs,t；

约束条件为：

其中，

表示抽水蓄能的最大吸收功率，

表示水轮机的最大发电功率，SoC_min表示上游水库最小允许剩余水量百分比，SoC_max表示上游水库最大允许剩余水量百分比；

(4)、搭建并训练基于深度确定性梯度策略算法(Deep Deterministic PolicyGradient,DDPG)的光-蓄系统在线调度模型；

(4.1)、将一个运行周期内的光-蓄系统的在线调度目标函数及约束条件转化为包含状态集合S、动作集合A和奖励函数r的无约束的马尔可夫决策过程；

其中，S包含决策过程所有状态，t时刻的状态s_t＝{p_pv,t,λ_t,Δp_g,t,SoC_t}；A包含决策过程所有动作，t时刻的动作a_t＝p_phs,t；t时刻在s_t下执行a_t获得的即时回报，记为r_t(a_t|s_t)；

(4.2)、将光-蓄系统的含约束优化问题转化为无约束问题；

其中，ρ₃、ρ₄为惩罚系数；

(4.3)、构建DDPG算法所需的四个结构相同的两组神经网络；

在线构建两个动作网络，记为μ、μ'，其中参数集合分别记为

用于实现输入状态s_t到输出动作a_t；

在线构建两个评价网络，记为υ、υ'，参数集合分别记为

用于实现输入状态s_t、输出动作a_t到动作价值函数Q^π(s_t,a_t)的映射，π为映射策略；

(4.4)、设置基于深度确定性梯度策略算法的光-蓄系统在线调度模型的总迭代次数N和马尔可夫过程的迭代步数T；设置记忆库，记其容量为M，并初始化为空；初始化所有神经网络的参数集合，初始化n＝1，初始化学习率α，初始化计数器m；

(4.5)、复位光-蓄系统，令t＝1并获取当前状态s_t，然后执行一次马尔可夫过程；

(4.6)、判断t是否小于T，若t＜T，则进入步骤(4.7)，反之，则进入步骤(4.15)；

(4.7)、将s_t送输入至动作网络μ，得输出动作a_t；

(4.8)、根据输出动作a_t计算步骤(4.2)中的目标函数值r_t，同时获得a_t作用后的下一时刻状态s_t+1；

(4.9)、构建元组信息{s_t,a_t,r_t,s_t+1}，并将其存入记忆库的m％M位置处，然后赋值m＝m+1；

(4.10)、判断m是否大于M，若是，则进入步骤(4.11)；反之，则进入步骤(4.14)；

(4.11)、基于深度确定性梯度策略在线更新动作网络μ的参数集合

其中，b表示从记忆库中有放回且等概率抽样的元组信息个数，s_i,a_i表示第i个元组信息中对应的状态和动作；

表示在状态s_i和动作a_i下对动作价值函数求a_i的梯度，

表示在状态s_i下网络μ的梯度；

(4.12)、通过最小化损失函数在线更新评价网络υ的参数集合

其中，

为网络υ的损失函数；Q^π(s_i,a_i)表示在状态s_i和动作a_i下评价网络υ输出的动作价值函数值；y_i表示υ'网络的估计值；γ为折扣因子，

表示网络υ的损失函数的梯度；

(4.13)、更新动作网络μ'和评价网络υ'的参数集合；

其中，τ为更新系数；

(4.14)、更新当前状态，赋值t＝t+1且s_t＝s_t+1，然后返回至步骤(4.6)；

(4.15)、令n＝n+1，再判断n是否大于N，如果是，则进入步骤(4.16)；反之，则进入步骤(4.5)；

(4.16)、迭代停止，并输出神经网络参数集合，从而得到光-蓄系统在线调度模型；

(5)、实时采集光伏出力

和电价数据

然后确定实时的

并构建t时刻的实时状态

最后将

输入至光-蓄系统在线调度模型，得到实时输出动作

然后按照

实现光-蓄系统的在线调度。

本发明的发明目的是这样实现的：

本发明基于深度确定性梯度策略的光-蓄系统在线调度方法，针对光伏的间歇性以及实时电力市场的随机性性等双重不确定性，考虑并网功率波动惩罚，构建光伏-抽蓄系统的实时收益模型，对光伏-抽蓄系统进行优化运行来提高电网安全裕度同时实现光伏-抽蓄系统收益最大化；由于光伏-抽蓄系统的优化运行考虑了并网功率波动限制，使光伏平滑接入电网，因此光伏-抽蓄系统具有较高的稳定性和经济性。

附图说明

图1是本发明基于深度确定性梯度策略的光-蓄系统在线调度方法流程图；

图2是光-蓄系统的框图；

图3是光-蓄系统在线调度模型的训练流程图；

图4是抽蓄出力跟随实时电价的曲线图；

图5是优化前后并网功率波动对比图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

在本实施例中，如图2所示，光伏-抽蓄系统由光伏电场、抽水蓄能电站和电力市场构成；

其中，光伏电场与抽水蓄能电站分别通过变压器和交流电缆与汇流母线连接；汇流母线经架空输电线与电网连接。

下面结合图2对本发明一种基于深度确定性梯度策略的光伏-抽蓄系统实时优化方法进行详细说明。

在本实施例中，如图1所示，本发明一种基于深度确定性梯度策略的光-蓄系统在线调度方法，包括以下步骤：

S1、采集光伏电站pv的历史发电数据，记为p_pv,t，其中，t表示时刻，t＝1,2,3,…；采集光-蓄系统的历史上网电价，记为λ_t；

S2、构建抽水蓄能电站phs的出力模型；

其中，p_p,t为t时刻变速抽水泵的吸收功率，g为重力加速度，H为抽水蓄能电站水头高度，q_p,t为t时刻变速抽水泵的抽水量，η_p为变速抽水泵的效率，取值0.8，p_tur,t为t时刻水轮机的发电功率，η_tur为水轮机的效率，取值0.82，q_tur,t为t时刻水轮机发电用水量，V_t为t时刻抽水蓄能电站上游水库剩余水量，ε为上游水库水量的蒸发和泄漏系数，取值0.0005，ψ_t为t时刻水库流入量，取值0，SoC_t为t时刻上游水库剩余水量百分比，V_phsv为上游水库最大可用容量；

S3、构建光-蓄系统的在线调度目标函数及约束条件；

目标函数为：

其中，Δt为相邻两时刻的间隔时长，取值1小时，T为优化运行周期，取值24小时，p_phs,t为t时刻的待优化变量，当p_phs,t为负数时表示抽水蓄能电站中变速抽水泵吸收功率，即p_p,t＝|p_phs,t|；当p_phs,t为正数时表示抽水蓄能电站中水轮机发出功率，即p_tur,t＝p_phs,t；φ_t为t时刻联络线功率波动引起的经济惩罚值；

其中，φ_t满足：

其中，ρ₁、ρ₂为波动罚金系数，取值分别为5和1；σ为常数，取值为7；Δp_g,t为t时刻联络线功率波动量，Δp_g,t＝|p_g,t-Δp_g,t-Δt|，p_g,t为t时刻连联络线传输功率，p_g,t＝p_pv,t+p_phs,t；

约束条件为：

其中，

表示抽水蓄能的最大吸收功率，

表示水轮机的最大发电功率，SoC_min＝10％表示上游水库最小允许剩余水量百分比，SoC_max＝100％表示上游水库最大允许剩余水量百分比；

S4、如图3所示，搭建并训练基于深度确定性梯度策略算法(Deep DeterministicPolicy Gradient,DDPG)的光-蓄系统在线调度模型；

S4.1、将一个运行周期内的光-蓄系统的在线调度目标函数及约束条件转化为包含状态集合S、动作集合A和奖励函数r的无约束的马尔可夫决策过程；

S4.2、将光-蓄系统的含约束优化问题转化为无约束问题；

其中，ρ₃、ρ₄为惩罚系数，取值均为2000；

S4.3、构建DDPG算法所需的四个结构相同的两组神经网络；

用于实现输入状态s_t到输出动作a_t；

在线构建两个评价网络，记为υ、υ'，参数集合分别记为

S4.4、设置基于深度确定性梯度策略算法的光-蓄系统在线调度模型的总迭代次数N＝10000和马尔可夫过程的迭代步数T＝24；设置记忆库，记其容量为M＝48000，并初始化为空；初始化所有神经网络的参数集合，初始化n＝1，初始化学习率α＝0.0015，初始化计数器m＝1；

S4.5、复位光-蓄系统，令t＝1并获取当前状态s_t，然后执行一次马尔可夫过程；

S4.6、判断t是否小于T，若t＜T，则进入步骤S4.7，反之，则进入步骤S4.15；

S4.7、将s_t送输入至动作网络μ，得输出动作a_t；

S4.8、根据输出动作a_t计算步骤S4.2中的目标函数值r_t，同时获得a_t作用后的下一时刻状态s_t+1；

S4.9、构建元组信息{s_t,a_t,r_t,s_t+1}，并将其存入记忆库的m％M位置处，然后赋值m＝m+1；

S4.10、判断m是否大于M，若是，则进入步骤S4.11；反之，则进入步骤S4.14；

S4.11、基于深度确定性梯度策略在线更新动作网络μ的参数集合

表示在状态s_i和动作a_i下对动作价值函数求a_i的梯度，

表示在状态s_i下网络μ的梯度；

S4.12、通过最小化损失函数在线更新评价网络υ的参数集合

其中，

为网络υ的损失函数；Q^π(s_i,a_i)表示在状态s_i和动作a_i下评价网络υ输出的动作价值函数值；y_i表示υ'网络的估计值；γ为折扣因子，γ∈[0,1]，

表示网络υ的损失函数的梯度；

S4.13、更新动作网络μ'和评价网络υ'的参数集合；

其中，τ为更新系数；

S4.14、更新当前状态，赋值t＝t+1且s_t＝s_t+1，然后返回至步骤S4.6；

S4.15、令n＝n+1，再判断n是否大于N，如果是，则进入步骤S4.16；反之，则进入步骤S4.5；

S4.16、迭代停止，并输出神经网络参数集合，从而得到光-蓄系统在线调度模型；

S5、实时采集光伏出力

和电价数据

然后确定实时的

并构建t时刻的实时状态

最后将

输入至光-蓄系统在线调度模型，得到实时输出动作

然后按照

实现光-蓄系统的在线调度。

在本实施例中，选用处理器为Inter(R)Core(TM)i9-9820X CPU@3.30GHz的硬件平台上，由Python3.7与tensorflow1.8.0实现本发明所申请方法中的实施例。对成功训练后的神经网络实施连续7天实时测试，结果显示如图4为所示，在图中可以看，当电价上升时，抽蓄的出力也逐渐增大，即抽蓄发电量增大，有利于增加经济收益；当电价降低时，抽蓄会从发电模式切换到抽水模式，即降低用电成本。图5为优化前后并网功率波动对比图，可以看到，在实施了本发明所提方法后，并网功率波动得到了有效的缓解。此外，为进一步体现本发明方法的优越性，在实施例中，考虑光伏的不同预测精度并与传统的粒子群优化算法(PSO)进行对比，定量计算了不同方法对的经济收益增长率与波动率(收益增长率定义为抽蓄的收益与光-蓄的总收益之比，波动率定义为运行周期内并网点功率波动量的总和与并网点功率绝对值总和之比)。结果显示：表1是在光伏出力预测精度为100％，90％和85％的情况下，不同方法对应的收益增长率与波动率的对比结果，其中DDPG是本发明提出的方法，由于DDPG方法是针对历史的光伏出力进行了大量仿真训练，即神经网络刻画了光伏的出力概率特性，可以实现实调度，即不同的预测精度不能影响实时调度决策；而PSO方法在实现光伏-抽蓄系统的经济调度时，是根据预测的光伏出力和电价数据来进行日前的最优经济调度，日前调度严格依赖于光伏出力预测值的准确度。

表1是光伏不同预测精度下不同方法的对比结果；

表1

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于深度确定性梯度策略的光-蓄系统在线调度方法，其特征在于，包括以下步骤：

(2)、构建抽水蓄能电站phs的出力模型；

其中，p_p,t为t时刻变速抽水泵的吸收功率，g为重力力加速度，H为抽水蓄能电站水头高度，q_p,t为t时刻变速抽水泵的抽水量，η_p为变速抽水泵的效率，p_tur,t为t时刻水轮机的发电功率，η_tur为水轮机的效率，q_tur,t为t时刻水轮机发电用水量，V_t为t时刻抽水蓄能电站上游水库剩余水量，ε为上游水库水量的蒸发和泄漏系数，ψ_t为t时刻水库流入量，SoC_t为t时刻上游水库剩余水量百分比，V_phsv为上游水库最大可用容量；

(3)、构建光-蓄系统的在线调度目标函数及约束条件；

目标函数为：