CN112290536A

CN112290536A - 基于近端策略优化的电-热综合能源系统在线调度方法

Info

Publication number: CN112290536A
Application number: CN202011010326.4A
Authority: CN
Inventors: 胡维昊; 杜月芳; 李坚; 张斌; 曹迪; 黄越辉; 王晓蓉; 许潇; 邓惠文; 王浩
Original assignee: University of Electronic Science and Technology of China; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: University of Electronic Science and Technology of China; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-29
Anticipated expiration: 2040-09-23
Also published as: CN112290536B

Abstract

本发明公开了一种基于近端策略优化的电‑热综合能源系统在线调度方法，针对风能的间歇性、实时电力市场的随机性以及用户负载的不确定性，构建电‑热综合能源系统的实时运行成本模型；然后采用深度强化学习方法，将动态能量转换问题转化为离散有限马尔科夫决策过程，并采用近似策略优化算法来求解决策问题，这样系统运营商可以通过在线学习从而自适应地确定风电转化率，也解决了用户负荷需求的不确定性、实时电价的灵活性和风力发电的不确定性，实现电‑热综合能源系统收益最大化。

Description

基于近端策略优化的电-热综合能源系统在线调度方法

技术领域

本发明属于新能源发电技术领域，更为具体地讲，涉及一种基于近端策略优化的电-热综合能源系统在线经济调度方法。

背景技术

对风电的开发利用是能源结构调整与转型的重大措施，且已进入产业化和规模化发展。据国家能源局统计，截至2020年3月底，国家能源局发布了我国风力发电累计装机达到2.13亿千瓦，其中陆上风电累计装机2.06亿千瓦、海上风电累计装机614万千瓦。由于风机的发电的实际曲线与负荷需求曲线存在着时空差异，其严重制约了风电的消纳。

随着新一轮电力市场改革的不断深化，实时市场模式的应用普及是未来电力系统发展的必然趋势，然而实时电价的动态波动给发电厂商的优化运行带了一系列挑战。

综合能源系统具有可靠性能高、调节能力强等优势，是实现大规模消纳风电的重要中转枢纽。但是综合能源系统的引入增加了风力发电系统最优经济调度的难度，非凸、非线性的经济调度模型难以实时求解；面对大规模风电电源的接入，在经济调度层面需要找到一种能够适应风机发电特点的实时优化方法。

由于风电的间歇特性使得含高渗透率风电的电网运行风险高，事故备用容量大，不利于保证电网的稳定性与经济性。而现有的风电-综合能源系统优化调度研究中，大多数是基于日前优化来对风电进行调度，由于风力发电具有难以预测的波动特性，因此，该方法难以保证风电系统的实时最优运行。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于近端策略优化的风电-综合能源系统在线调度方法，在考虑风力发电的波动性，电价与用户用电量的随机性的同时以最小化风电-综合能源的运行成本为目标，并通过近端策略优化算法实现风电-综合能源系统的实时优化运行。

为实现上述发明目的，本发明一种基于近端策略优化的风电-综合能源系统在线调度方法，其特征在于，包括以下步骤：

(1)、采集风力电站wp的历史发电数据，记为p_wp,t，其中，t表示时刻，t＝1,2,3,…；采集电-热综合能源系统的历史上网电价，记为λ_t；采集电-热综合能源系统的用户的历史热负载和电负载数据，分别记为μ_t、σ_t；

(2)、构建电-热综合能源系统中各组件的出力模型；

(2.1)、构建热泵HP与热电联产装置CHP的出力模型；

其中，φ_th(t)为t时刻热泵输出的热能，P_HP(t)为t时刻热泵的输入功率，COP_ave为输入功率和输出热能之间的转换率，Q_CHP为t时刻CHP的输出热能，P_CHP(t)为t时刻CHP的输出电能，α为CHP的输出电-热比率；

(2.2)、构建分布式热力系统的出力模型；

(2.2.1)、构建分布式热力系统中的水力模型；

其中，j＝1,2,…,n，n为分布式热力系统中管道回路中的管道条数；i＝1,2,…,l，l为分布式热力系统中第l个管道回路；B_ij为与热力系统管道网络拓扑有关的矩阵，若管道中水流向为顺时针，则对应矩阵B_ij位置的元素值为1，若管道中水流向为逆时针，则矩阵B_ij位置的元素值为-1，若管道中没有水流量经过，则矩阵B_ij位置的元素值为0；

为矢量，表示管道j的质量流量；

表示求矢量

的模；R_j为管道j的阻尼系数，ρ为水的密度，f为管道的长度，D为管道的横截面直径，g为标准重力加速度，f为管道的摩擦系数；

(2.2.2)、构建分布式热力系统中的热力模型；

其中，Q_k(t)为t时刻节点k处热源供应热功率或热负荷需求热功率，κ为水的比热容，m_k(t)为t时刻节点k处流出热源或流进热负荷的质量流量，

为t时刻节点k处热水流出热源或流进热负荷的热水温度，

为t时刻节点k处热水流回热源或流出热负荷的热水温度；

分别为t时刻管道j所处的环境温度、管道首端温度与末端温度；γ_j,L_j分别为管道j的传热系数和管道长度；

分别为t时刻流入、流出节点k的热水温度；

分别为t时刻流入、流出节点k的质量流量；

(2.3)、构建电力系统的出力模型；

其中，K_i'j'为首末端节点为i',j'的支路的电纳，θ_i'(t)、θ_j'(t)分别为节点i',j'的相角，Δθ_i'j'(t)为差值，x_i'j'为首末端节点为i',j'的支路的电抗；

其中，

(3)、构建电-热综合能源系统的在线调度目标函数及约束条件；

目标函数为：

其中，C为电-热综合能源系统在整个优化运行周期内的运行成本，C_CHP(t),C_WT(t),C_grid(t)分别为t时刻的CHP的运行成本，风机的运行成本和购电成本；T为优化运行周期；a,b,c,d,e,f,g,h为常数；H_CHP(t)为t时刻CHP的热功率输出；P_up(t)为t时刻的上网电量，当P_up(t)为负数时表示电-热综合能源系统向上层电网购电，即p_p,t＝|p_phs,t|；当P_up(t)为正数时表示电-热综合能源系统向上层电网售电，即p_tur,t＝p_phs,t；λ(t)为t时刻上层电网的实时电价；α_t为t时刻风电接入电网的比例系数，P_WT(t)为t时刻风电的功率输出；

约束条件为：

其中，

表示热电联产的最大输出功率，

表示热泵的最大输入功率，V_i(t)表示为t时刻节点i的电压；

(4)、搭建并训练基于近端策略梯度算法(Proximal Policy Gradient,PPO)的电-热综合能源系统在线调度模型；

(4.1)、将一个运行周期内的电-热综合能源系统的在线调度目标函数转化为包含状态集合S、动作集合A和奖励函数r的马尔可夫决策过程；

其中，S包含决策过程所有状态，t时刻的状态s_t＝{WP(t),π(t),μ(t),σ(t)}；A包含决策过程所有动作，t时刻的动作a_t＝α_t；t时刻在s_t下执行a_t获得的即时回报，记为r_t(a_t|s_t)；

r_t(a_t|s_t)＝-(C_CHP(t)+C_WT(t)+C_grid(t))

(4.2)、构建PPO算法所需的三个结构相同的神经网络；

在线构建两个动作网络，记为μ_new、μ_old，其参数集合分别记为

用于实现输入状态s_t到输出动作a_t；

在线构建一个评价网络，记为υ，其参数集合分别记为

用于实现输入状态s的价值函数V(s)的映射，π为映射策略；

(4.3)、设置基于近端策略梯度算法的电-热综合能源系统在线调度模型的总迭代次数N和马尔可夫过程的迭代步数T；设置记忆库，记其容量为M，并初始化为空；初始化所有神经网络的参数集合，初始化n＝1，初始化学习率α，初始化计数器m和k为0；

(4.4)、复位电-热综合能源系统，令t＝1并获取当前状态s_t，然后执行一次马尔可夫过程；

(4.5)、判断t是否小于T，若t＜T，则进入步骤(4.6)，反之，则进入步骤(4.15)；

(4.6)、将s_t送输入至动作网络μ_new，输出均值μ和方差σ，得到动作的正态分布Normal1，通过正态分布Normal1采样得动作a_t；

(4.7)、根据输出动作a_t计算步骤(4.1)中的目标函数值r_t，同时获得a_t作用后的下一时刻状态s_t+1；

(4.8)、构建元组信息{s_t,a_t,r_t,s_t+1}，并将其存入记忆库的m％M位置处，然后赋值m＝m+1；

(4.9)、判断m是否大于M，若是，则进入步骤(4.10)；反之，则进入步骤(4.14)；

(4.10)、基于近端策略优化算法在线更新价值网络ν的参数集合θ^ν；

A_t＝R-V(s)

其中，R表示为累计折扣奖励，γ为折扣因子，b表示从记忆库中有放回且等概率抽样的元组信息个数，s_τ,a_τ表示第τ个元组信息中对应的状态和动作；V(s)表示为元组中所有状态的价值，A_t表示t时刻的优势函数；

表示对优势函数的平方求θ^ν的梯度；α表示为网络ν的参数学习率；

(4.11)、将存储的所有状态s组合输入到两个动作网络μ_new、μ_old，分别得到动作的正态分布Normal1和Normal2；将存储的所有动作a组合输入到动作的正态分布Normal1和Normal2，得到动作组合对应的概率prob1和prob2，再计算重要性权重ratio，ratio＝prob1/prob2；然后基于近端策略优化算法在线更新动作网络μ_new的参数集合

其中，min表示为取最小值，clip表示为将ratio范围限制在[1-ξ,1+ξ]；β_new是动作网络μ_new的学习率；

(4.12)、待步骤(4.10)-(4.11)更新结束后，将计数器k的计数值增加1，然后判断计数值是否达到阈值K，如果达到则进入步骤(4.13)，否则进入步骤(4.14)；

(4.13)、用动作网络μ_new的权重来更新另一个动作网络μ_old的权重；

(4.14)、令t＝t+1，再返回至步骤(4.5)；

(4.15)、令n＝n+1，再判断n是否大于N，如果是，则进入步骤(4.16)；反之，则进入步骤(4.4)；

(4.16)、迭代停止，并输出神经网络参数集合，从而得到电-热综合能源系统在线调度模型；

(5)、实时采集风电出力p_wp,t，电价数据λ_t，用户用电数据μ_t和用户用热数据σ_t，然后构建t时刻的实时状态s_t＝{p_wp,t,λ_t,μ_t,σ_t}，最后将s_t输入至光-蓄系统在线调度模型，得到实时输出动作a_t，然后按照a_t实现电-热综合能源系统的在线调度。

本发明的发明目的是这样实现的：

本发明基于近端策略优化的电-热综合能源系统在线调度方法，针对风能的间歇性、实时电力市场的随机性以及用户负载的不确定性，构建电-热综合能源系统的实时运行成本模型；然后采用深度强化学习方法，将动态能量转换问题转化为离散有限马尔科夫决策过程，并采用近似策略优化算法来求解决策问题，这样系统运营商可以通过在线学习从而自适应地确定风电转化率，也解决了用户负荷需求的不确定性、实时电价的灵活性和风力发电的不确定性，实现电-热综合能源系统收益最大化。

同时，本发明基于近端策略优化的电-热综合能源系统在线调度方法还具有以下有益效果：

(1)、本发明与传统的粒子群算法(PSO)进行对比分析，结果表明基于近端策略优化的电-热综合能源系统在线调度方法具有耗时短，优化结果好等优点；

(2)、本发明考虑风力发电的波动性，电价与用户用电量的随机性，以最小化风电-综合能源的运行成本为目标，实现了电-热综合能源系统收益最大化。

附图说明

图1是本发明基于近端策略优化算法的电-热综合能源系统在线调度方法流程图；

图2是电-热综合能源系统的框图；

图3是电-热综合能源系统在线调度模型的训练流程图；

图4是风电转换率跟随实时电价的曲线图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

在本实施例中，如图2所示，电-热综合能源系统由风电场、电网、热网和电力市场构成；

其中，风电场通过变压器和交流电缆与汇流母线连接；汇流母线经架空输电线与电网连接。

下面结合图2对本发明一种基于近端策略优化的电-热综合能源系统实时优化方法进行详细说明。

在本实施例中，如图1所示，本发明一种基于近端策略优化的电-热综合能源系统在线调度方法，包括以下步骤：

S1、采集风力电站wp过去一年的历史发电数据，记为p_wp,t，其中，t表示时刻，t＝1,2,3,…；采集电-热综合能源系统过去一年的历史上网电价，记为λ_t；采集电-热综合能源系统的用户过去一年的历史热负载和电负载数据，分别记为μ_t、σ_t；

S2、构建电-热综合能源系统中各组件的出力模型；

S2.1、构建热泵HP与热电联产装置CHP的出力模型；

其中，φ_th(t)为t时刻热泵输出的热能，P_HP(t)为t时刻热泵的输入功率，COP_ave为输入功率和输出热能之间的转换率，取值为0.8，Q_CHP为t时刻CHP的输出热能，P_CHP(t)为t时刻CHP的输出电能，α为CHP的输出电-热比率，取值为0.75；

S2.2、构建分布式热力系统的出力模型；

S2.2.1、构建分布式热力系统中的水力模型；

为矢量，表示管道j的质量流量；

表示求矢量

S2.2.2、构建分布式热力系统中的热力模型；

为t时刻节点k处热水流出热源或流进热负荷的热水温度，

为t时刻节点k处热水流回热源或流出热负荷的热水温度；

分别为t时刻流入、流出节点k的热水温度；

分别为t时刻流入、流出节点k的质量流量；

S2.3、构建电力系统的出力模型；

其中，

S3、构建电-热综合能源系统的在线调度目标函数及约束条件；

目标函数为：

其中，C为电-热综合能源系统在整个优化运行周期内的运行成本，C_CHP(t),C_WT(t),C_grid(t)分别为t时刻的CHP的运行成本，风机的运行成本和购电成本；T为优化运行周期；a,b,c,d,e,f,g,h为常数，取值如表1；H_CHP(t)为t时刻CHP的热功率输出；P_up(t)为t时刻的上网电量，当P_up(t)为负数时表示电-热综合能源系统向上层电网购电，即p_p,t＝|p_phs,t|；当P_up(t)为正数时表示电-热综合能源系统向上层电网售电，即p_tur,t＝p_phs,t；λ(t)为t时刻上层电网的实时电价；α_t为t时刻风电接入电网的比例系数，取值为[0,1]，P_WT(t)为t时刻风电的功率输出；

表1是成本函数中各个常数取值；

a	b	c	d	e	f	g	h
								14.618	0.292	0.000072	0.15	0.15	0.6278	50	14.5

表1

约束条件为：

其中，

表示热电联产的最大输出功率，

表示热泵的最大输入功率，V_i(t)表示为t时刻节点i的电压；

S4、搭建并训练基于近端策略梯度算法(Proximal Policy Gradient,PPO)的电-热综合能源系统在线调度模型；

S4.1、将一个运行周期内的电-热综合能源系统的在线调度目标函数转化为包含状态集合S、动作集合A和奖励函数r的马尔可夫决策过程；

其中，S包含决策过程所有状态，t时刻的状态s_t＝{WP(t),π(t),μ(t),σ(t)}；A包含决策过程所有动作，t时刻的动作a_t＝α_t，取值范围为[0,1]；t时刻在s_t下执行a_t获得的即时回报，记为r_t(a_t|s_t)；

r_t(a_t|s_t)＝-(C_CHP(t)+C_WT(t)+C_grid(t))

S4.2、构建PPO算法所需的三个结构相同的神经网络；

用于实现输入状态s_t到输出动作a_t；

在线构建一个评价网络，记为υ，其参数集合分别记为

用于实现输入状态s的价值函数V(s)的映射，π为映射策略；

S4.3、设置基于近端策略梯度算法的电-热综合能源系统在线调度模型的总迭代次数N＝10000和马尔可夫过程的迭代步数T＝24；设置记忆库，记其容量为M＝48000，并初始化为空；初始化所有神经网络的参数集合，初始化n＝1，初始化学习率α＝0.0015，初始化计数器m和k为0；

S4.4、复位电-热综合能源系统，令t＝1并获取当前状态s_t，然后执行一次马尔可夫过程；

S4.5、判断t是否小于T，若t＜T，则进入步骤S4.6，反之，则进入步骤S4.15；

S4.6、将s_t送输入至动作网络μ_new，输出均值μ和方差σ，得到动作的正态分布Normal1，通过正态分布Normal1采样得动作a_t；

S4.7、根据输出动作a_t计算步骤S4.1中的目标函数值r_t，同时获得a_t作用后的下一时刻状态s_t+1；

S4.8、构建元组信息{s_t,a_t,r_t,s_t+1}，并将其存入记忆库的m％M位置处，然后赋值m＝m+1；

S4.9、判断m是否大于M，若是，则进入步骤S4.10；反之，则进入步骤(4.14)；

S4.10、基于近端策略优化算法在线更新价值网络ν的参数集合θ^ν；

A_t＝R-V(s)

表示对优势函数的平方求θ^ν的梯度；α表示为网络ν的参数学习率，取值为0.0015；

S4.11、将存储的所有状态s组合输入到两个动作网络μ_new、μ_old，分别得到动作的正态分布Normal1和Normal2；将存储的所有动作a组合输入到动作的正态分布Normal1和Normal2，得到动作组合对应的概率prob1和prob2，再计算重要性权重ratio，ratio＝prob1/prob2；然后基于近端策略优化算法在线更新动作网络μ_new的参数集合

其中，min表示为取最小值，clip表示为将ratio范围限制在[1-ξ,1+ξ]，ξ取值为0.01；β_new是动作网络μ_new的学习率，取值为0.003；

S4.12、待步骤S4.10-S4.11更新结束后，将计数器k的计数值增加1，然后判断计数值是否达到阈值K，如果达到则进入步骤S4.13，否则进入步骤S4.14；

S4.13、用动作网络μ_new的权重来更新另一个动作网络μ_old的权重；

S4.14、令t＝t+1，再返回至步骤S4.5；

S4.15、令n＝n+1，再判断n是否大于N，如果是，则进入步骤S4.16；反之，则进入步骤S4.4；

S4.16、迭代停止，并输出神经网络参数集合，从而得到电-热综合能源系统在线调度模型；

S5、实时采集风电出力p_wp,t，电价数据λ_t，用户用电数据μ_t和用户热负荷数据σ_t，然后构建t时刻的实时状态s_t＝{p_wp,t,λ_t,μ_t,σ_t}，最后将s_t输入至电-热综合能源系统在线调度模型，得到实时输出动作a_t，即风电的实时转换比例α_t，然后按照a_t实现电-热综合能源系统的在线调度。

在本实施例中，选用处理器为Inter(R)Core(TM)i9-9820X CPU@3.30GHz的硬件平台上，由Python3.7与tensorflow1.8.0实现本发明所申请方法中的实施例。对成功训练后的神经网络实施连续3天实时测试，结果显示如图4为所示，在图中可以看，当电价降低时，所有的风电都为热泵供电，产出更多热能，即降低热电联产的运行成本，同时，由于电价较低，电网允许从外网进行购电以降低购电成本；当电价升高时，仅有少量风电为热泵供电，剩余风电直接接入电网供给电负荷，降低电网从外电网购电成本，热电联产出力减小，从而有效降低了热电联产的运行成本。结果表明，基于PPO算法的在线调度能够为电-热综合能源系统进行有效地实时调度。

结果显示：表2不同方法对应的收益增长率和耗时的对比结果，其中PPO是本发明提出的方法，由于PPO方法是基于过去一年的风电数据、用户负荷数据以及实时电价数据进行了大量仿真训练，即神经网络刻画了上述三重不确定性的概率特性，可以有效地实现实时调度；而PSO方法粒子群优化算法没有记忆功能，不能实时在线反馈，因此计算耗时长，且实时优化效果不好。

表2是不同方法的对比结果；

方法	平均成本(EUR/天)	提高率	耗时(秒)
				PPO	781.02	0	62.3
PSO	852.69	8.41％	1812

表2

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。