CN113902040A - 电-热综合能源系统协调优化方法、系统、设备及存储介质 - Google Patents

电-热综合能源系统协调优化方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113902040A
CN113902040A CN202111349881.4A CN202111349881A CN113902040A CN 113902040 A CN113902040 A CN 113902040A CN 202111349881 A CN202111349881 A CN 202111349881A CN 113902040 A CN113902040 A CN 113902040A
Authority
CN
China
Prior art keywords
power
electric
energy system
cogeneration
heat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111349881.4A
Other languages
English (en)
Other versions
CN113902040B (zh
Inventor
蒲天骄
董雷
李烨
王新迎
王继业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electric Power Research Institute Co Ltd CEPRI filed Critical China Electric Power Research Institute Co Ltd CEPRI
Priority to CN202111349881.4A priority Critical patent/CN113902040B/zh
Publication of CN113902040A publication Critical patent/CN113902040A/zh
Application granted granted Critical
Publication of CN113902040B publication Critical patent/CN113902040B/zh
Priority to PCT/CN2022/107149 priority patent/WO2023082697A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Geometry (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种电‑热综合能源系统协调优化方法、系统、设备及存储介质,方法包括:获取实时电‑热综合能源系统参数;基于所述电‑热综合能源系统参数,分别计算电‑热综合能源系统的电力系统、热力系统和耦合装置的发电功率;将所述发电功率输入预先训练的基于SAC框架优化调度模型中,输出调度动作,形成电‑热综合能源系统协调策略。可以直接通过已经训练好的策略网络给出调度动作,无需再进行传统非线性整体迭代求解,计算速度得到了显著的提升,计算效率更高。

Description

电-热综合能源系统协调优化方法、系统、设备及存储介质
技术领域
本发明涉及综合能源系统优化调度领域,特别是涉及一种电-热综合能源系统协调优化方法、系统、设备及存储介质。
背景技术
在能源互联网的背景下,为了进一步提高能源利用率,缓解能源危机,突破传统能源体系结构和行业壁垒,研究电热综合能源系统协调优化问题成为一种有效的途径。
电-热综合能源系统通过利用热力与电力的互补特性,有利于促进可再生能源的消纳,提高能源利用率。现今对电-热综合能源系统优化问题的求解,主要包括传统非线性方法求解如粒子群算法,智能算法如“Q学习”、“DQN”算法等求解思路。粒子群算法与“Q学习”算法均存在精确度不足、计算速度慢、适用范围局限等问题,“DQN”算法存在探索能力不足,易陷入局部最优解等问题。
总体来说,耦合愈加密切的综合能源系统优化调度问题存在高度的非线性特征,目前缺少一种经济、准确、可靠的求解方法。因此需要一种收敛可靠、探索最优策略能力强、满足高精度要求的智能算法。
现有技术一“粒子群优化算法”的技术方案:粒子群算法是一种进化计算机技术,该算法通过粒子的简单行为、粒子群体与环境的信息交互,从系统随机初始值开始,经过迭代寻求最优值。在IEHS优化调度模型中,首先需要建立目标函数以及约束条件,如电网、热网潮流约束、设备出力约束、安全运行约束等,然后利用粒子群算法对IEHS优化问题进行求解。
粒子群算法求解步骤为:1)设置参数:迭代次数、自变量个数、粒子最大速度、粒子群初始速度和位置。2)定义适应度函数:根据IEHS优化调度模型优化目标确定。在每次迭代过程中,粒子的最优解即为粒子的极值,全局最优解取所有粒子的最小值,与上一次全局最优比较,按照下式进行更新:
Figure 84817DEST_PATH_IMAGE001
3)停止迭代条件:达到最大迭代次数或迭代差值满足精度要求。
其缺点为:(1)粒子群算法收敛性不足,甚至会出现难以收敛的情况。并且易陷入局部最优解,无法得到电热综合能源系统经济调度的最优解,计算精度欠缺,从而失去了多能源协同优化的意义。(2)耦合愈来愈密切的电热综合能源系统呈现出高度非线性特征,粒子群算法在求解时存在计算速度显著降低,计算效率无法满足电热综合能源系统经济调度的问题。
现有技术二“Q学习”的技术方案:
Q学习算法以马尔科夫决策过程为基础,是一种与模型无关的强化学习算法。采用Q学习算法的进行电-热综合能源系统优化的一般步骤为,设计动作状态空间,对连续动作空间以及状态空间进行离散化,根据系统优化目标和运行约束建立Q学习奖惩机制,智能体通过不断试错探索,与环境进行交互并更新Q值表,最终达到自主选择最优动作的目标。
在Q值表的每次训练内,针对某时刻T,根据该时刻状态st从Q值表中选取动作at。 将该动作作用于环境得到即时奖励,并完成状态转移进入下一个状态
Figure 402666DEST_PATH_IMAGE002
。根据贝尔曼最优 准则,得到最优策略所对应的最优指标为该时刻下电-热综合能源系统智能体动作at所得 到的即时奖励为rt与后续状态转移所得到的最大Q值
Figure 636070DEST_PATH_IMAGE003
之和。因此可根据贝尔 曼最优准则进行Q值表的更新:
Figure 355764DEST_PATH_IMAGE004
经过多次训练后,智能体可根据输入的状态信息和Q值表,做出电-热综合能源系统最优控制动作。
其缺点为:
(1)电-热综合能源系统动作状态空间多为连续区间,为应用Q学习算法需要对连续空间进行离散化处理。以离散后的动作空间、状态空间为基础进行计算会导致计算准确度大幅下降;
(2)Q学习算法不适用于大规模电-热综合能源系统优化问题求解。问题规模增大导致动作空间维度以及网络复杂度增大。动作空间增大导致Q指标维度大幅度增大,提高训练难度;Q指标拟合能力差,难以对高复杂度电热综合能源系统网络进行建模。
现有技术三“DQN”的技术方案:
DQN是深度学习和具有决策能力的强化学习相结合的产物。DQN构建深度学习网络,直接从高维原始数据中学习控制策略,扩展了强化学习实用性。应用DQN进行电-热综合能源系统优化,首先应设计动作、状态空间,构建深度学习网络拟合Q值,构建经验回放单元存储历史样本。每次训练对经验回放单元进行随机采样,根据采样样本进行Q网络训练。
DQN算法首先从环境中获取观测值,智能体根据值函数神经网络得到的关于该观 测值的所有
Figure 399943DEST_PATH_IMAGE005
。然后智能体利用策略算法做出决策,得到动作,并从环境中得到反馈的 奖励值r。利用得到的奖励r去更新值函数网络的参数,从而进入下一次迭代。迭代过程将循 环进行下去,直到完成网络训练。
DQN需要定义相应的损失函数,并利用梯度下降算法来更新参数。通过不断更新神经网络权重参数,使得Q网络的输出值能够逐渐逼近最优的Q值。损失函数的定义基于残差模型,即真实值和网络输出的差的平方:
Figure 205088DEST_PATH_IMAGE006
为了减少相关性提高算法稳定性,DQN在原来的Q网络的基础之上又引入了一个target Q网络,该网络和Q网络的结构一样,初始的权重也是一样的,只是Q网络在每次迭代过程中都会更新参数,而target Q网络的参数则是每隔一段时间才会更新。
其缺点为:(1)相较于Q学习方法更适用于连续控制动作场景,但是连续动作空间探索难度更为复杂,探索难度大,DQN采用特定的策略算法难以保证对状态空间的有效探索,可能会出现局部最优解问题。
发明内容
本发明的目的在于提供一种电-热综合能源系统协调优化方法、系统、设备及存储介质,本发明的电-热综合能源系统协调优化方法可以直接通过已经训练好的策略网络给出调度动作,无需再进行传统非线性整体迭代求解,计算速度得到了显著的提升,计算效率更高。
为达到上述目的,本发明采用了以下技术方案:
一种电-热综合能源系统协调优化方法,包括以下步骤:
获取实时电-热综合能源系统参数;
基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率;
将所述发电功率输入预先训练的基于SAC框架优化调度模型中,输出调度动作,形成电-热综合能源系统协调策略。
作为本发明的进一步改进,所述预先训练的基于SAC框架优化调度模型的训练优化方法包括:
获取历史电-热综合能源系统参数;
基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率,并以电力系统、热力系统和耦合装置的发电功率为基础建立电-热综合能源系统模型;
以强化学习环境、状态、动作及奖励作为基本要素,结合电-热综合能源系统调度模型建立基于SAC框架优化调度模型;
对基于SAC框架优化调度模型进行训练,得到预先训练的基于SAC框架优化调度模型。
作为本发明的进一步改进,所述电-热综合能源系统参数包括电热综合能源系统网络参数和电热负荷出力及风电出力。
作为本发明的进一步改进,所述基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率,具体包括:
1)电力系统
以交流潮流作为电力系统的分析方法,电力系统的功率平衡方程具体为:
Figure 992916DEST_PATH_IMAGE007
式中Pi,Qi分别为节点i的注入有功、无功功率,Vi为节点i的电压幅值,Gij、Bij分别为支路ij的电导和电纳,θij为支路ij的相角差;
2)热力系统
热力系统分为水力模型和热力模型两部分:
热力系统的水力模型由流量连续性方程、回路压力方程和压头损失方程构成,具体为:
Figure 567117DEST_PATH_IMAGE008
式中,Ah为节点-支路关联矩阵,B为回路-支路关联矩阵;
Figure 782197DEST_PATH_IMAGE009
为管道质量流量速 率,
Figure 809059DEST_PATH_IMAGE010
表示节点注入流量,
Figure 649845DEST_PATH_IMAGE011
表示压头损失,K为管道的阻尼系数;
热力模型由节点功率方程、管道温度下降方程和节点介质混合方程构成,具体为:
Figure 78552DEST_PATH_IMAGE012
式中,
Figure 464534DEST_PATH_IMAGE013
为节点i的注入热功率,
Figure 244272DEST_PATH_IMAGE014
为水的比热容,
Figure 373902DEST_PATH_IMAGE015
为节点i的送 热管道水温和出口水温,
Figure 922695DEST_PATH_IMAGE016
下标ij表示以i、j为首末端节点的热网管道支路,
Figure 479578DEST_PATH_IMAGE017
为支路的i、j端温度,Te表示外界环境温度;
3) 耦合装置
耦合装置产电产热功率具体为:
Figure 481032DEST_PATH_IMAGE018
式中,
Figure 663620DEST_PATH_IMAGE019
分别为时段t,第i台抽凝机组电出力和热出力;
Figure 66920DEST_PATH_IMAGE020
Figure 60284DEST_PATH_IMAGE021
分别为电出力上下限;
Figure 549034DEST_PATH_IMAGE022
为多边形区域表示系数,在给定热电联产 装置下为常数。
作为本发明的进一步改进,所述以电力系统、热力系统和耦合装置的发电功率为基础建立电-热综合能源系统模型,具体包括:
以实现电-热综合能源系统的总运行成本最小为目标,同时为实现可在生能源的最大消纳,将可在生能源未消纳的部分作为惩罚项,建立目标函数;
建立电-热综合能源系统模型的约束条件,约束条件包括:节点功率平衡等式约束、网络安全约束、热电联产装置约束、可再生能源约束和常规机组出力约束。
作为本发明的进一步改进,所述目标函数为:
Figure 20467DEST_PATH_IMAGE023
式中,f1为常规机组运行成本,f2为热电联产装置运行成本,f3为弃风惩罚;
其中,常规机组运行成本具体为:
Figure 278273DEST_PATH_IMAGE024
式中,
Figure 442538DEST_PATH_IMAGE025
为常规机组发电功率,
Figure 153005DEST_PATH_IMAGE026
为常规机组能耗系数,
Figure 428128DEST_PATH_IMAGE027
为常 规机组的数量;T为调度周期,
Figure 55288DEST_PATH_IMAGE028
为调度时间间隔;
其中,热电联产机组运行成本具体为:
Figure 124875DEST_PATH_IMAGE029
式中,
Figure 588217DEST_PATH_IMAGE030
分别为在时段t,节点i所连热电联产装置发电功率和产热 功率;
Figure 401452DEST_PATH_IMAGE031
为热电联产装置能耗系数,
Figure 633851DEST_PATH_IMAGE032
为热电联 产的数量;
其中,弃风惩罚具体为:
Figure 874339DEST_PATH_IMAGE033
式中,
Figure 824977DEST_PATH_IMAGE034
表示在时段t,节点i所连风力发电机出力,k为弃风惩罚系数,为常数。
作为本发明的进一步改进,所述节点功率平衡等式约束条件基于网络节点有功功率平衡方程,具体为:
Figure 441904DEST_PATH_IMAGE035
式中,
Figure 778076DEST_PATH_IMAGE036
为电力系统、热力系统节点集合,T为调度时段;
Figure 455045DEST_PATH_IMAGE037
Figure 892979DEST_PATH_IMAGE038
分别为时段t,节点i的电负荷和热负荷功率;
所述网络安全约束具体为:
Figure 48017DEST_PATH_IMAGE039
式中:
Figure 989428DEST_PATH_IMAGE040
分别为节点i电压幅值的上限和下限;
Figure 837299DEST_PATH_IMAGE041
为流入热网节 点j的热水温度,
Figure 496950DEST_PATH_IMAGE042
为供水温度上、下限;
Figure 455679DEST_PATH_IMAGE043
为热水管道k的质量流量速 率,
Figure 517176DEST_PATH_IMAGE044
分别为其上、下限;
所述热电联产装置约束具体为:
Figure 785215DEST_PATH_IMAGE045
式中:
Figure 932163DEST_PATH_IMAGE046
分别为前后两个时段的热电联产发电功率,
Figure 429003DEST_PATH_IMAGE047
Figure 345006DEST_PATH_IMAGE048
分别为热电联产装置爬坡速率上下限;
所述可再生能源约束具体为:
Figure 534679DEST_PATH_IMAGE049
式中,
Figure 168923DEST_PATH_IMAGE050
表示时段t,风机i发电功率,
Figure 469454DEST_PATH_IMAGE051
为其最大出力值;
所述常规机组出力约束具体为:
Figure 239964DEST_PATH_IMAGE052
同时满足爬坡约束:
Figure 849806DEST_PATH_IMAGE053
式中:
Figure 971346DEST_PATH_IMAGE054
分别为机组出力上、下限,
Figure 75568DEST_PATH_IMAGE055
分别为 机组爬坡速率上、下限。
作为本发明的进一步改进,所述以强化学习环境、状态、动作及奖励作为基本要素,结合电-热综合能源系统调度模型建立基于SAC框架优化调度模型,具体包括:
将常规机组发电功率、热电联产发电功率以及热电联产热功率作为动作变量,具体如下:
Figure 966164DEST_PATH_IMAGE056
式中,
Figure 497639DEST_PATH_IMAGE057
分别为常规机组发电功率,热电联产发电功率,热电联产 热功率;
选取为电负荷、风力发电功率、热电联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温度作为状态空间变量,具体为:
Figure 840896DEST_PATH_IMAGE058
式中,
Figure 748809DEST_PATH_IMAGE059
分别为电负荷、风力发电功 率、热电联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温度;
搭建强化学习环境,通过策略网络得到当前动作作用于环境,得到即时奖励和下一时段的状态,并为策略评估提供奖励;
强化学习目标为实现长期奖励最大化,将优化目标的相反数设计为即时奖励,同时根据约束条件设置惩罚机制加入到即时奖励中得到最终的奖励函数,惩罚项统一表达形式为:
Figure 493911DEST_PATH_IMAGE060
式中,
Figure 196288DEST_PATH_IMAGE061
为惩罚系数,根据不同的越限惩罚设置相应的常数系数;
奖励函数包括常规机组运行成本,弃风惩罚,热电联产装置运行成本以及变量越限惩罚,具体为:
Figure 281967DEST_PATH_IMAGE062
式中
Figure 462413DEST_PATH_IMAGE063
分别为电力系统、热力系统运行成本以及弃风惩罚,
Figure 327601DEST_PATH_IMAGE064
Figure 200879DEST_PATH_IMAGE065
分别为常规机组出力越限及爬坡越限惩罚项,
Figure 518728DEST_PATH_IMAGE066
为系统节点电压越限惩罚,
Figure 502864DEST_PATH_IMAGE067
为热电联产机组出力及爬坡越限惩罚项,
Figure 222559DEST_PATH_IMAGE068
为系统节点温度越限惩 罚,
Figure 266738DEST_PATH_IMAGE069
为系统管道质量流量速率越限惩罚。
作为本发明的进一步改进,所述对基于SAC框架优化调度模型进行训练,得到预先训练的基于SAC框架优化调度模型,具体包括:
给评判器目标网络赋值,设置智能记忆库容量D;
当连续
Figure 321151DEST_PATH_IMAGE070
轮训练的奖励平均值变化幅度
Figure 374557DEST_PATH_IMAGE071
时,对于每一时段,都从行动器策 略网络中采样控制动作
Figure 948758DEST_PATH_IMAGE072
,并将所述控制动作施加在电-热综合能源系统上, 并针对风电不确定性进行采样,得到系统下一个时刻运行状态
Figure 163839DEST_PATH_IMAGE073
,再将状态转移及奖励 置入经验库D;
并更新评判器Q网络、行动器策略网络
Figure 925121DEST_PATH_IMAGE074
、温度系数、目标网络得到训练好的策略 网络,作为优化的SAC框架的优化调度模型。
作为本发明的进一步改进,更新评判器Q网络、行动器策略网络、温度系数、目标网络采用的方法为SGD算法或Adam算法。
一种电-热综合能源系统协调优化系统,包括:
第一参数获取模块,用于获取实时电-热综合能源系统参数;
功率计算模块,用于基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率;
调度输出模块,用于将所述发电功率输入预先训练的基于SAC框架优化调度模型中,输出调度动作,形成电-热综合能源系统协调策略。
作为本发明的进一步改进,所述调度输出模块中预先训练的基于SAC框架优化调度模型包括:
第二参数获取模块,用于获取历史电-热综合能源系统参数;
模型建立模块,用于基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率,并以电力系统、热力系统和耦合装置的发电功率为基础建立电-热综合能源系统模型;
模型优化模块,用于以强化学习环境、状态、动作及奖励作为基本要素,结合电-热综合能源系统调度模型建立基于SAC框架优化调度模型;
模型训练模块,用于对基于SAC框架优化调度模型进行训练,得到预先训练的基于SAC框架优化调度模型。
作为本发明的进一步改进,所述模型建立模块具体用于:
以实现电-热综合能源系统的总运行成本最小为目标,同时为实现可在生能源的最大消纳,将可在生能源未消纳的部分作为惩罚项,建立目标函数;
建立电-热综合能源系统模型的约束条件,约束条件包括:节点功率平衡等式约束、网络安全约束、热电联产装置约束、可再生能源约束和常规机组出力约束。
作为本发明的进一步改进,所述目标函数为:
Figure 516640DEST_PATH_IMAGE075
式中,f1为常规机组运行成本,f2为热电联产装置运行成本,f3为弃风惩罚;
其中,常规机组运行成本具体为:
Figure 210926DEST_PATH_IMAGE076
式中,
Figure 596908DEST_PATH_IMAGE077
为常规机组发电功率,
Figure 376645DEST_PATH_IMAGE078
为常规机组能耗系数,
Figure 755543DEST_PATH_IMAGE079
为 常规机组的数量;T为调度周期,
Figure 38757DEST_PATH_IMAGE080
为调度时间间隔;
其中,热电联产机组运行成本具体为:
Figure 861219DEST_PATH_IMAGE081
式中,
Figure 862673DEST_PATH_IMAGE082
分别为在时段t,节点i所连热电联产装置发电功率和产热 功率;
Figure 530415DEST_PATH_IMAGE083
为热电联产装置能耗系数,
Figure 933715DEST_PATH_IMAGE084
为热电联产的数 量;
其中,弃风惩罚具体为:
Figure 927078DEST_PATH_IMAGE085
式中,
Figure 150249DEST_PATH_IMAGE086
表示在时段t,节点i所连风力发电机出力,k为弃风惩罚系数,为常数。
作为本发明的进一步改进,所述节点功率平衡等式约束条件基于网络节点有功功率平衡方程,具体为:
Figure 136529DEST_PATH_IMAGE087
式中,
Figure 394335DEST_PATH_IMAGE088
为电力系统、热力系统节点集合,T为调度时段;
Figure 293021DEST_PATH_IMAGE089
Figure 269067DEST_PATH_IMAGE090
分别为时段t,节点i的电负荷和热负荷功率;
所述网络安全约束具体为:
Figure 544190DEST_PATH_IMAGE091
式中:
Figure 656503DEST_PATH_IMAGE092
分别为节点i电压幅值的上限和下限;
Figure 991669DEST_PATH_IMAGE093
为流入热网节 点j的热水温度,
Figure 455012DEST_PATH_IMAGE094
为供水温度上、下限;
Figure 533826DEST_PATH_IMAGE095
为热水管道k的质量流量速率,
Figure 749913DEST_PATH_IMAGE096
分别为其上、下限;
所述热电联产装置约束具体为:
Figure 255980DEST_PATH_IMAGE097
式中:
Figure 206619DEST_PATH_IMAGE098
分别为前后两个时段的热电联产发电功率,
Figure 823545DEST_PATH_IMAGE099
Figure 910450DEST_PATH_IMAGE100
分别为热电联产装置爬坡速率上下限;
所述可再生能源约束具体为:
Figure 321839DEST_PATH_IMAGE101
式中,
Figure 494195DEST_PATH_IMAGE102
表示时段t,风机i发电功率,
Figure 914812DEST_PATH_IMAGE103
为其最大出力值;
所述常规机组出力约束具体为:
Figure 105491DEST_PATH_IMAGE104
同时满足爬坡约束:
Figure 953361DEST_PATH_IMAGE105
式中:
Figure 613012DEST_PATH_IMAGE106
分别为机组出力上、下限,
Figure 571741DEST_PATH_IMAGE107
分为机 组爬坡速率上、下限。
作为本发明的进一步改进,所述模型优化模块具体用于:
将常规机组发电功率、热电联产发电功率以及热电联产热功率作为动作变量,具体如下:
Figure 633238DEST_PATH_IMAGE108
式中,
Figure 652010DEST_PATH_IMAGE109
分别为常规机组发电功率,热电联产发电功率,热电 联产热功率;
选取为电负荷、风力发电功率、热电联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温度作为状态空间变量,具体为:
Figure 533378DEST_PATH_IMAGE110
式中,
Figure 295798DEST_PATH_IMAGE111
分别为电负荷、风力发电功 率、热电联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温度;
搭建强化学习环境,通过策略网络得到当前动作作用于环境,得到即时奖励和下一时段的状态,并为策略评估提供奖励;
强化学习目标为实现长期奖励最大化,将优化目标的相反数设计为即时奖励,同时根据约束条件设置惩罚机制加入到即时奖励中得到最终的奖励函数,惩罚项统一表达形式为:
Figure 461069DEST_PATH_IMAGE112
式中,
Figure 650741DEST_PATH_IMAGE113
为惩罚系数,根据不同的越限惩罚设置相应的常数系数;
奖励函数包括常规机组运行成本,弃风惩罚,热电联产装置运行成本以及变量越限惩罚,具体为:
Figure 284985DEST_PATH_IMAGE114
式中
Figure 585516DEST_PATH_IMAGE115
分别为电力系统、热力系统运行成本以及弃风惩罚,
Figure 356026DEST_PATH_IMAGE116
Figure 982180DEST_PATH_IMAGE117
分别为常规机组出力越限及爬坡越限惩罚项,
Figure 572561DEST_PATH_IMAGE118
为系统节点电压越限惩罚,
Figure 676783DEST_PATH_IMAGE119
为热电联产机组出力及爬坡越限惩罚项,
Figure 816647DEST_PATH_IMAGE120
为系统节点温度越限惩 罚,
Figure 348122DEST_PATH_IMAGE121
为系统管道质量流量速率越限惩罚。
作为本发明的进一步改进,所述模型训练模块具体用于:
给评判器目标网络赋值,设置智能记忆库容量D;
当连续
Figure 691379DEST_PATH_IMAGE122
轮训练的奖励平均值变化幅度
Figure 333713DEST_PATH_IMAGE123
时,对于每一时段,都从行动器策 略网络中采样控制动作
Figure 813235DEST_PATH_IMAGE124
,并将所述控制动作施加在电-热综合能源系统 上,并针对风电不确定性进行采样,得到系统下一个时刻运行状态
Figure 515612DEST_PATH_IMAGE125
,再将状态转移及 奖励置入经验库D;
并更新评判器Q网络、行动器策略网络
Figure 346165DEST_PATH_IMAGE126
、温度系数、目标网络得到训练好的策略 网络,作为优化的SAC框架的优化调度模型。
一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述电-热综合能源系统协调优化方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述电-热综合能源系统协调优化方法的步骤。
与现有技术相比,本发明的有益效果体现在:
本发明采用基于优化的SAC框架的优化调度模型在给定负荷等系统状态时给出调度动作,进而生成策略;当系统给出确定的负荷等系统状态时,该算法可以直接通过已经训练好的策略网络给出调度动作,无需再进行传统非线性整体迭代求解,计算速度得到了显著的提升,计算效率更高。
本发明建立电-热综合能源系统模型后建立基于SAC框架的优化调度模型,SAC算法属于随机离线策略算法,其自趋优的特性对综合能源优化调度问题进行自主学习,通过和环境交互观测得到奖励值评价策略优劣,学习探索所有的最优策略途径,从而在无监督下实现调度周期内成本最优。经过学习训练之后的网络模型,解决了离散处理状态和动作所带来维数灾难的问题。并且能够可靠收敛,适用范围广,例如可以适用于考虑风电等可再生能源及负荷的出力随机性变化的场景,更加具有普适性。
附图说明
图1为本发明的电-热综合能源系统协调优化方法流程示意图;
图2为本发明的预先训练的基于SAC框架优化调度模型的训练优化方法流程示意图;
图3为本发明的电-热综合能源系统图;
图4为本发明的供热网示意图;
图5为本发明基于SAC框架的优化调度模型进行训练具体算法流程图;
图6为本发明一种电-热综合能源系统协调优化系统结构示意图;
图7为本发明预先训练的基于SAC框架优化调度模型结构示意图;
图8为本发明一种电子设备结构示意图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
缩略语和关键术语定义
IEHS Integrated electricity-heat energy system 电热综合能源系统
SAC Soft Actor-Critic 柔性行动器-评判器
DQN Deep Q Network 深度Q学习
Adam Adaptive Moment Estimation 自适应矩估计
本发明即采用SAC算法主要是解决电-热综合能源系统经济调度求解问题。提出了一种电-热综合能源系统协调优化方法,如图1所示,包括以下步骤:
获取实时电-热综合能源系统参数;
基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率;
将所述发电功率输入预先训练的基于SAC框架优化调度模型中,输出调度动作,形成电-热综合能源系统协调策略。
其中,如图2所示,所述预先训练的基于SAC框架优化调度模型的训练优化方法包括:
获取历史电-热综合能源系统参数;
基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率,并以电力系统、热力系统和耦合装置的发电功率为基础建立电-热综合能源系统模型;
以强化学习环境、状态、动作及奖励作为基本要素,结合电-热综合能源系统调度模型建立基于SAC框架优化调度模型;
对基于SAC框架优化调度模型进行训练,得到预先训练的基于SAC框架优化调度模型。
本发明基于SAC算法的电-热综合能源系统经济调度方法,采用连续控制策略,同时将最大熵添加到优化目标中,能够与电热综合能源系统交互、学习并生成最优控制策略,很好地解决了电-热综合能源系统协同优化求解过程中高维求解、收敛困难、难以精准寻优的问题。因此,本发明为综合能源系统协同优化思路提供了有力的技术支持,为综合能源调度决策人员提供决策依据,对实现系统的多能互补、可再生能源消纳、提高系统运行经济性具有重要意义。
本发明采用深度强化学习方法求解电热综合能源系统经济调度问题,主要用于解决传统方法存在以下几点技术问题:
1)深度强化学习方法利用神经网络拟合电热综合能源系统不同状态下的最优策略,网络训练完成后可实时得出调度策略,而传统的非线性传统算法需要全局寻优,深度强化学习方法提升了计算效率。
2)深度强化学习在电-热综合能源系统的优化调度问题中探索能力更强,收敛稳定性更好,相较于智能体算法粒子群算法,调度成本更低。
3)本发明提出的基于柔性行动器-评判器(Soft Actor-Critic,SAC)算法的电-热综合能源系统深度强化学习经济调度方法,采用连续控制策略,避免了基于值函数强化学习方法离散化变量带来的高维求解困难问题,同时将最大熵添加到优化目标中,探索各种最优可能性。
以下结合具体实施和附图对发明的电-热综合能源系统协调优化方法进行详细说明。
本发明的方法包括以下步骤:
步骤1 导入电-热综合能源系统参数。
如图3所示为电-热综合能源系统图,首先收集如图3所示电热综合能源系统网络参数和电热负荷出力及风电出力。采集的数据如表1所示。
表1 电-热综合能源参数表
Figure 793456DEST_PATH_IMAGE127
步骤2 建立电-热综合能源系统模型。
采用本发明将电-热综合能源系统分电力、热力系统和耦合装置这三部分进行建模。
(1)电力系统
本发明以交流潮流作为电力系统的分析方法,电力系统的功率平衡方程表示为:
Figure 658644DEST_PATH_IMAGE128
(4)
式中Pi,Qi分别为节点i的注入有功、无功功率,Vi为节点i的电压幅值,Gij、Bij分别为支路ij的电导和电纳,θij为支路ij的相角差;
(2)热力系统
区域热力系统采用集中供热方式进行供暖,如图4表示热力系统简易示意图。
热力系统在热源处产生热能,通过送水管道输送到热负荷,经热负荷降温后通过回水管道回流,形成闭合回路。热力系统分为水力模型和热力模型两部分:
1)水力模型。热力系统的水力模型表示介质流动,由流量连续性方程,回路压力方程和压头损失方程构成。
Figure 531922DEST_PATH_IMAGE129
(5)
式中,Ah为节点-支路关联矩阵,B为回路-支路关联矩阵。
Figure 584192DEST_PATH_IMAGE130
为管道质量流量速率,
Figure 833908DEST_PATH_IMAGE131
表示节点注入流量,
Figure 553602DEST_PATH_IMAGE132
表示压头损失,K为管道的阻尼系数。
2)热力模型。热力模型表示能量传输过程,由节点功率方程,管道温度下降方程和节点介质混合方程构成。
Figure 597781DEST_PATH_IMAGE133
(6)
式中,
Figure 386615DEST_PATH_IMAGE134
为节点i的注入热功率,
Figure 174442DEST_PATH_IMAGE135
为水的比热容,
Figure 748643DEST_PATH_IMAGE136
为节点i的送热管 道水温和出口水温,
Figure 698144DEST_PATH_IMAGE137
下标ij表示以i、j为首末端节点的热网管道支路,
Figure 990585DEST_PATH_IMAGE138
为 支路的i、j端温度,Te表示外界环境温度。
(3) 耦合装置
本发明热电联产机组采用抽凝式机组,运行点在多边形区域内,其产电产热功率可用式(7)表示:
Figure 316525DEST_PATH_IMAGE139
(7)
式中,
Figure 10811DEST_PATH_IMAGE140
分别为时段t,第i台抽凝机组电出力和热出力;
Figure 646061DEST_PATH_IMAGE141
Figure 160219DEST_PATH_IMAGE142
分别为电出力上下限;
Figure 555428DEST_PATH_IMAGE143
为多边形区域表示系数,在给定热电联产 装置下为常数。
步骤201 建立目标函数。本发明以实现电-热综合能源系统的总运行成本最小为目标,同时为实现可在生能源的最大消纳,将可在生能源未消纳的部分作为惩罚项:
Figure 104221DEST_PATH_IMAGE144
(8)
式中,f1为常规机组运行成本,f2为热电联产装置运行成本,f3为弃风惩罚。
1)常规机组运行成本
Figure 661104DEST_PATH_IMAGE145
(9)
式中,
Figure 662558DEST_PATH_IMAGE146
为常规机组发电功率,
Figure 595879DEST_PATH_IMAGE147
为常规机组能耗系数,
Figure 999179DEST_PATH_IMAGE148
为 常规机组的数量;T为调度周期,
Figure 726963DEST_PATH_IMAGE149
为调度时间间隔。
2)热电联产机组运行成本
Figure 464981DEST_PATH_IMAGE150
(10)
式中,
Figure 201993DEST_PATH_IMAGE151
分别为在时段
Figure 459799DEST_PATH_IMAGE153
,节点
Figure 358485DEST_PATH_IMAGE155
所连热电联产装置发电功率和产热 功率;
Figure 334531DEST_PATH_IMAGE156
为热电联产装置能耗系数,
Figure 609654DEST_PATH_IMAGE157
为热电联 产的数量。
3)弃风惩罚
Figure 721967DEST_PATH_IMAGE158
(11)
式中,
Figure 57133DEST_PATH_IMAGE159
表示在时段t,节点i所连风力发电机出力,k为弃风惩罚系数,为常数。
步骤202 建立优化模型的约束条件。
1)节点功率平衡等式约束条件,式(12)、(13)表示网络节点有功功率平衡方程。
Figure 504164DEST_PATH_IMAGE160
(12)-(13)
式中,
Figure 582978DEST_PATH_IMAGE161
为电力系统、热力系统节点集合,T为调度时段;
Figure 549797DEST_PATH_IMAGE162
Figure 55865DEST_PATH_IMAGE163
分别为时段t,节点i的电负荷和热负荷功率。
2)网络安全约束
为实现电-热综合能源系统安全可靠运行,系统应满足式(14)-式(16)的网络约束。
Figure 740924DEST_PATH_IMAGE164
(14)-(16)
式中:
Figure 357851DEST_PATH_IMAGE165
分别为节点i电压幅值的上限和下限;
Figure 444755DEST_PATH_IMAGE166
为流入热网节 点j的热水温度,
Figure 121724DEST_PATH_IMAGE167
为供水温度上、下限;
Figure 543347DEST_PATH_IMAGE168
为热水管道k的质量流量速 率,
Figure 963964DEST_PATH_IMAGE169
分别为其上、下限。
3)热电联产装置约束
热电联产机组应满足爬坡约束:
Figure 170955DEST_PATH_IMAGE170
(17)
式中:
Figure 18825DEST_PATH_IMAGE171
分别为前后两个时段的热电联产发电功率,
Figure 412897DEST_PATH_IMAGE172
Figure 371626DEST_PATH_IMAGE173
分别为热电联产装置爬坡速率上下限。
4)可再生能源约束
Figure 433123DEST_PATH_IMAGE174
(18)
式中,
Figure 186315DEST_PATH_IMAGE175
表示时段t,风机i发电功率,
Figure 582530DEST_PATH_IMAGE176
为其最大出力值。
5)常规机组出力约束
Figure 344950DEST_PATH_IMAGE177
(19)
同时满足爬坡约束:
Figure 260953DEST_PATH_IMAGE178
(20)
式中:
Figure 716205DEST_PATH_IMAGE179
分别为机组出力上、下限,
Figure 84870DEST_PATH_IMAGE180
分为机 组爬坡速率上、下限。
步骤3 建立基于SAC的电-热耦合综合能源系统优化调度模型。根据强化学习环境,状态,动作,奖励这4个基本要素,结合电-热综合能源系统调度模型建立基于SAC框架的优化调度模型。
1)动作空间。动作空间变量与所研究系统的控制变量相对应,将常规机组发电功率,热电联产发电功率以及热电联产热功率作为动作变量,如下所示。
Figure 385401DEST_PATH_IMAGE181
(21)
式中,
Figure 155911DEST_PATH_IMAGE182
分别为常规机组发电功率,热电联产发电功率,热电 联产热功率;
2)状态空间。状态空间变量与所研究系统的状态变量对应,状态空间选取为电负荷,风力发电功率,热电联产装置发电功率,常规机组出力,热负荷,热电联产装置产热功率以及环境温度:
Figure 782065DEST_PATH_IMAGE183
(22)
式中,
Figure 638025DEST_PATH_IMAGE184
分别为电负荷、风力发电 功率、热电联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温 度;
3)环境。本发明搭建强化学习环境,通过策略网络得到当前动作作用于环境,得到即时奖励和下一时段的状态,起到状态转移的作用,并为策略评估提供奖励。
4)奖励函数。强化学习目标为实现长期奖励最大化,则将优化目标的相反数设计为即时奖励,同时根据约束条件设置惩罚机制加入到即时奖励中得到最终的奖励函数。惩罚项统一表达形式为式(23)
Figure 991515DEST_PATH_IMAGE185
(23)-(24)
式中,
Figure 882111DEST_PATH_IMAGE186
为惩罚系数,根据不同的越限惩罚设置相应的常数系数。
奖励函数包括常规机组运行成本,弃风惩罚,热电联产装置运行成本以及变量越限惩罚。
Figure 413586DEST_PATH_IMAGE187
(25)
式中
Figure 756843DEST_PATH_IMAGE188
分别为电力系统、热力系统运行成本以及弃风惩罚,
Figure 399177DEST_PATH_IMAGE189
Figure 144279DEST_PATH_IMAGE190
分别为常规机组出力越限及爬坡越限惩罚项,
Figure 846655DEST_PATH_IMAGE191
为系统节点电压越限惩罚,
Figure 677208DEST_PATH_IMAGE192
为热电联产机组出力及爬坡越限惩罚项,
Figure 378360DEST_PATH_IMAGE193
为系统节点温度越限惩 罚,
Figure 977969DEST_PATH_IMAGE194
为系统管道质量流量速率越限惩罚。
步骤4 SAC训练过程。首先对优化调度智能体行动器策略网络
Figure 851247DEST_PATH_IMAGE195
和评判器Q网络; 具体流程如图5的算法流程图。
Figure 169096DEST_PATH_IMAGE196
初始化,并给评判器目标网络赋值,即
Figure 418811DEST_PATH_IMAGE197
,设置智能 记忆库D容量。当连续
Figure 872926DEST_PATH_IMAGE198
轮训练的奖励平均值变化幅度
Figure 917106DEST_PATH_IMAGE199
时,对于每一时段,都需要从 行动器策略网络中采样控制动作
Figure 722251DEST_PATH_IMAGE200
,并将动作施加在电-热综合能源系统 上,针对风电不确定性进行采样,得到系统下一个时刻运行状态
Figure 759346DEST_PATH_IMAGE201
,再将状态转移及奖 励置入经验库D,即
Figure 333547DEST_PATH_IMAGE202
;对于每一次梯度更新,采用Adam策 略更新评判器Q网络
Figure 548627DEST_PATH_IMAGE203
、行动器策略网络
Figure 841068DEST_PATH_IMAGE204
、温度系数
Figure 167007DEST_PATH_IMAGE205
、目标网络
Figure 595715DEST_PATH_IMAGE206
并且训练好的策略网络在给定负荷等系统状态时可以直接给出调度动作,生成策略。
另外,作为优选实施例,发电机以及热电联产机组成本的计算可采用线性模型替代,但会影响计算结果精度;CHP机组惩罚项可采用定电热比形式进行建模,但其控制灵活性和计算准确度不如多边形区域模型;奖惩机制中的惩罚函数可以采用阶跃函数的形式建立,但阶跃函数或噪声神经网络拟合困难,降低求解精度。训练方法可采用随机梯度下降法SGD替代Adam,但实践表明Adam算法更好。
如图6所示,本发明还提供一种电-热综合能源系统协调优化系统,包括:
第一参数获取模块,用于获取实时电-热综合能源系统参数;
功率计算模块,用于基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率;
调度输出模块,用于将所述发电功率输入预先训练的基于SAC框架优化调度模型中,输出调度动作,形成电-热综合能源系统协调策略。
其中,如图7所示,所述调度输出模块中预先训练的基于SAC框架优化调度模型包括:
第二参数获取模块,用于获取历史电-热综合能源系统参数;
模型建立模块,用于基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率,并以电力系统、热力系统和耦合装置的发电功率为基础建立电-热综合能源系统模型;
模型优化模块,用于以强化学习环境、状态、动作及奖励作为基本要素,结合电-热综合能源系统调度模型建立基于SAC框架优化调度模型;
模型训练模块,用于对基于SAC框架优化调度模型进行训练,得到预先训练的基于SAC框架优化调度模型。
优选的,所述模型建立模块具体用于:
以实现电-热综合能源系统的总运行成本最小为目标,同时为实现可在生能源的最大消纳,将可在生能源未消纳的部分作为惩罚项,建立目标函数;
建立电-热综合能源系统模型的约束条件,约束条件包括:节点功率平衡等式约束、网络安全约束、热电联产装置约束、可再生能源约束和常规机组出力约束。
优选的,所述目标函数为:
Figure 247276DEST_PATH_IMAGE207
式中,f1为常规机组运行成本,f2为热电联产装置运行成本,f3为弃风惩罚;
其中,常规机组运行成本具体为:
Figure 761434DEST_PATH_IMAGE208
式中,
Figure 140332DEST_PATH_IMAGE209
为常规机组发电功率,
Figure 689125DEST_PATH_IMAGE210
为常规机组能耗系数,
Figure 246008DEST_PATH_IMAGE211
为常规机组的数量;T为调度周期,
Figure 247462DEST_PATH_IMAGE212
为调度时间间隔;
其中,热电联产机组运行成本具体为:
Figure 180783DEST_PATH_IMAGE213
式中,
Figure 849662DEST_PATH_IMAGE214
分别为在时段t,节点i所连热电联产装置发电功率和产热 功率;
Figure 311867DEST_PATH_IMAGE215
为热电联产装置能耗系数,
Figure 800617DEST_PATH_IMAGE216
为热电联 产的数量。
其中,弃风惩罚具体为:
Figure 521317DEST_PATH_IMAGE217
式中,
Figure 44702DEST_PATH_IMAGE218
表示在时段t,节点i所连风力发电机出力,k为弃风惩罚系数,为常数。
优选的,所述节点功率平衡等式约束条件基于网络节点有功功率平衡方程,具体为:
Figure 208968DEST_PATH_IMAGE219
式中,
Figure 185014DEST_PATH_IMAGE220
为电力系统、热力系统节点集合,T为调度时段;
Figure 194558DEST_PATH_IMAGE221
Figure 572450DEST_PATH_IMAGE222
分别为时段t,节点i的电负荷和热负荷功率;
所述网络安全约束具体为:
Figure 642037DEST_PATH_IMAGE223
式中:
Figure 105379DEST_PATH_IMAGE224
分别为节点i电压幅值的上限和下限;
Figure 918615DEST_PATH_IMAGE225
为流入热网节 点j的热水温度,
Figure 400280DEST_PATH_IMAGE226
为供水温度上、下限;
Figure 906348DEST_PATH_IMAGE227
为热水管道k的质量流量速率,
Figure 591407DEST_PATH_IMAGE228
分别为其上、下限;
所述热电联产装置约束具体为:
Figure 208333DEST_PATH_IMAGE229
式中:
Figure 295238DEST_PATH_IMAGE230
分别为前后两个时段的热电联产发电功率,
Figure 972207DEST_PATH_IMAGE231
Figure 144563DEST_PATH_IMAGE232
分别为热电联产装置爬坡速率上下限;
所述可再生能源约束具体为:
Figure 299600DEST_PATH_IMAGE233
式中,
Figure 755858DEST_PATH_IMAGE234
表示时段t,风机i发电功率,
Figure 603729DEST_PATH_IMAGE235
为其最大出力值。
所述常规机组出力约束具体为:
Figure 263380DEST_PATH_IMAGE236
同时满足爬坡约束:
Figure 222109DEST_PATH_IMAGE237
式中:
Figure 18027DEST_PATH_IMAGE238
分别为机组出力上、下限,
Figure 36798DEST_PATH_IMAGE239
分为机组 爬坡速率上、下限。
优选的,所述模型优化模块具体用于:
所述模型优化模块具体用于:
将常规机组发电功率、热电联产发电功率以及热电联产热功率作为动作变量,具体如下:
Figure 183746DEST_PATH_IMAGE240
式中,
Figure 946165DEST_PATH_IMAGE241
分别为常规机组发电功率,热电联产发电功率,热电联 产热功率;
选取为电负荷、风力发电功率、热电联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温度作为状态空间变量,具体为:
Figure 111436DEST_PATH_IMAGE242
式中,
Figure 35530DEST_PATH_IMAGE243
分别为电负荷、风力发电功 率、热电联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温度;
搭建强化学习环境,通过策略网络得到当前动作作用于环境,得到即时奖励和下一时段的状态,并为策略评估提供奖励;
强化学习目标为实现长期奖励最大化,将优化目标的相反数设计为即时奖励,同时根据约束条件设置惩罚机制加入到即时奖励中得到最终的奖励函数,惩罚项统一表达形式为:
Figure 935353DEST_PATH_IMAGE244
式中,
Figure 235884DEST_PATH_IMAGE245
为惩罚系数,根据不同的越限惩罚设置相应的常数系数;
奖励函数包括常规机组运行成本,弃风惩罚,热电联产装置运行成本以及变量越限惩罚,具体为:
Figure 271973DEST_PATH_IMAGE246
式中
Figure 366968DEST_PATH_IMAGE247
分别为电力系统、热力系统运行成本以及弃风惩罚,
Figure 488508DEST_PATH_IMAGE248
Figure 592730DEST_PATH_IMAGE249
分 别为常规机组出力越限及爬坡越限惩罚项,
Figure 217747DEST_PATH_IMAGE250
为系统节点电压越限惩罚,
Figure 998490DEST_PATH_IMAGE251
为热电联产机组出力及爬坡越限惩罚项,
Figure 341746DEST_PATH_IMAGE252
为系统节点温度越限惩罚,
Figure 249660DEST_PATH_IMAGE253
为系统管道质量流量速率越限惩罚。
优选的,所述模型训练模块具体用于:
给评判器目标网络赋值,设置智能记忆库容量D;
当连续
Figure 994762DEST_PATH_IMAGE254
轮训练的奖励平均值变化幅度
Figure 697138DEST_PATH_IMAGE255
时,对于每一时段,都从行动器策 略网络中采样控制动作
Figure 527691DEST_PATH_IMAGE256
,并将所述控制动作施加在电-热综合能源系统 上,并针对风电不确定性进行采样,得到系统下一个时刻运行状态
Figure 973716DEST_PATH_IMAGE257
,再将状态转移及 奖励置入经验库D;
并更新评判器Q网络、行动器策略网络
Figure DEST_PATH_IMAGE258
、温度系数、目标网络得到训练好的策略 网络,作为优化的SAC框架的优化调度模型。
如图8所示,本发明第三个目的是提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述电-热综合能源系统协调优化方法的步骤。
所述电-热综合能源系统协调优化方法包括以下步骤:
获取电-热综合能源系统参数;
基于所述电-热综合能源系统参数,计算电-热综合能源系统的电力系统、热力系统和耦合装置,并以电力系统、热力系统和耦合装置为基础建立电-热综合能源系统模型;
以强化学习环境、状态、动作及奖励作为基本要素,结合电-热综合能源系统调度模型建立基于SAC框架的优化调度模型;
对基于SAC框架的优化调度模型进行训练,得到优化的SAC框架的优化调度模型;通过优化的SAC框架的优化调度模型在给定负荷等系统状态时给出调度动作,进而生成策略。
本发明第四个目的是提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述电-热综合能源系统协调优化方法的步骤。
所述电-热综合能源系统协调优化方法包括以下步骤:
获取电-热综合能源系统参数;
基于所述电-热综合能源系统参数,计算电-热综合能源系统的电力系统、热力系统和耦合装置,并以电力系统、热力系统和耦合装置为基础建立电-热综合能源系统模型;
以强化学习环境、状态、动作及奖励作为基本要素,结合电-热综合能源系统调度模型建立基于SAC框架的优化调度模型;
对基于SAC框架的优化调度模型进行训练,得到优化的SAC框架的优化调度模型;通过优化的SAC框架的优化调度模型在给定负荷等系统状态时给出调度动作,进而生成策略。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (19)

1.一种电-热综合能源系统协调优化方法,其特征在于,包括以下步骤:
获取实时电-热综合能源系统参数;
基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率;
将所述发电功率输入预先训练的基于SAC框架优化调度模型中,输出调度动作,形成电-热综合能源系统协调策略。
2.根据权利要求1所述的电-热综合能源系统协调优化方法,其特征在于,
所述预先训练的基于SAC框架优化调度模型的训练优化方法包括:
获取历史电-热综合能源系统参数;
基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率,并以电力系统、热力系统和耦合装置的发电功率为基础建立电-热综合能源系统模型;
以强化学习环境、状态、动作及奖励作为基本要素,结合电-热综合能源系统调度模型建立基于SAC框架优化调度模型;
对基于SAC框架优化调度模型进行训练,得到预先训练的基于SAC框架优化调度模型。
3.根据权利要求1或2所述的电-热综合能源系统协调优化方法,其特征在于,
所述电-热综合能源系统参数包括电热综合能源系统网络参数和电热负荷出力及风电出力。
4.根据权利要求1或2所述的电-热综合能源系统协调优化方法,其特征在于,
所述基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率,具体包括:
1)电力系统
以交流潮流作为电力系统的分析方法,电力系统的功率平衡方程具体为:
Figure 812158DEST_PATH_IMAGE001
式中Pi,Qi分别为节点i的注入有功、无功功率,Vi为节点i的电压幅值,Gij、Bij分别为支路ij的电导和电纳,θij为支路ij的相角差;
2)热力系统
热力系统分为水力模型和热力模型两部分:
热力系统的水力模型由流量连续性方程、回路压力方程和压头损失方程构成,具体为:
Figure 104599DEST_PATH_IMAGE002
式中,Ah为节点-支路关联矩阵,B为回路-支路关联矩阵;
Figure 430538DEST_PATH_IMAGE003
为管道质量流量速率,
Figure 124825DEST_PATH_IMAGE004
表示节点注入流量,
Figure 754215DEST_PATH_IMAGE005
表示压头损失,K为管道的阻尼系数;
热力模型由节点功率方程、管道温度下降方程和节点介质混合方程构成,具体为:
Figure 268373DEST_PATH_IMAGE006
式中,
Figure 398003DEST_PATH_IMAGE007
为节点i的注入热功率,
Figure 946796DEST_PATH_IMAGE008
为水的比热容,
Figure 503679DEST_PATH_IMAGE009
为节点i的送热管道水 温和出口水温,
Figure 505133DEST_PATH_IMAGE010
下标ij表示以i、j为首末端节点的热网管道支路,
Figure 438454DEST_PATH_IMAGE011
为 支路的i、j端温度,Te表示外界环境温度;
3) 耦合装置
耦合装置产电产热功率具体为:
Figure 841754DEST_PATH_IMAGE012
式中,
Figure 818806DEST_PATH_IMAGE013
分别为时段t,第i台抽凝机组电出力和热出力;
Figure 573135DEST_PATH_IMAGE014
Figure 310147DEST_PATH_IMAGE015
分 别为电出力上下限;
Figure 567953DEST_PATH_IMAGE016
为多边形区域表示系数,在给定热电联产装置下为 常数。
5.根据权利要求2所述的电-热综合能源系统协调优化方法,其特征在于,
所述以电力系统、热力系统和耦合装置的发电功率为基础建立电-热综合能源系统模型,具体包括:
以实现电-热综合能源系统的总运行成本最小为目标,同时为实现可在生能源的最大消纳,将可在生能源未消纳的部分作为惩罚项,建立目标函数;
建立电-热综合能源系统模型的约束条件,约束条件包括:节点功率平衡等式约束、网络安全约束、热电联产装置约束、可再生能源约束和常规机组出力约束。
6.根据权利要求5所述的电-热综合能源系统协调优化方法,其特征在于,
所述目标函数为:
Figure 201060DEST_PATH_IMAGE017
式中,f1为常规机组运行成本,f2为热电联产装置运行成本,f3为弃风惩罚;
其中,常规机组运行成本具体为:
Figure 442685DEST_PATH_IMAGE018
式中,
Figure 717809DEST_PATH_IMAGE019
为常规机组发电功率,
Figure 830121DEST_PATH_IMAGE020
为常规机组能耗系数,
Figure 165288DEST_PATH_IMAGE021
为常规机组 的数量;T为调度周期,
Figure 612318DEST_PATH_IMAGE022
为调度时间间隔;
其中,热电联产机组运行成本具体为:
Figure 691133DEST_PATH_IMAGE023
式中,
Figure 657952DEST_PATH_IMAGE024
分别为在时段t,节点i所连热电联产装置发电功率和产热功率;
Figure 164019DEST_PATH_IMAGE025
为热电联产装置能耗系数,
Figure 849079DEST_PATH_IMAGE026
为热电联产的数 量;
其中,弃风惩罚具体为:
Figure 466005DEST_PATH_IMAGE027
式中,
Figure 552910DEST_PATH_IMAGE028
表示在时段t,节点i所连风力发电机出力,k为弃风惩罚系数,为常数。
7.根据权利要求5所述的电-热综合能源系统协调优化方法,其特征在于,
所述节点功率平衡等式约束条件基于网络节点有功功率平衡方程,具体为:
Figure 229879DEST_PATH_IMAGE029
式中,
Figure 651501DEST_PATH_IMAGE030
为电力系统、热力系统节点集合,T为调度时段;
Figure 72119DEST_PATH_IMAGE031
Figure 13530DEST_PATH_IMAGE032
分别为时段t,节点i的电负荷和热负荷功率;
所述网络安全约束具体为:
Figure 861400DEST_PATH_IMAGE033
式中:
Figure 521051DEST_PATH_IMAGE034
分别为节点i电压幅值的上限和下限;
Figure 479780DEST_PATH_IMAGE035
为流入热网节点j的 热水温度,
Figure 541277DEST_PATH_IMAGE036
为供水温度上、下限;
Figure 294469DEST_PATH_IMAGE037
为热水管道k的质量流量速率,
Figure 690685DEST_PATH_IMAGE038
分别为其上、下限;
所述热电联产装置约束具体为:
Figure 453104DEST_PATH_IMAGE039
式中:
Figure 369108DEST_PATH_IMAGE040
分别为前后两个时段的热电联产发电功率,
Figure 558781DEST_PATH_IMAGE041
Figure 927445DEST_PATH_IMAGE042
分别为热电联产装置爬坡速率上下限;
所述可再生能源约束具体为:
Figure 227976DEST_PATH_IMAGE043
式中,
Figure 529645DEST_PATH_IMAGE044
表示时段t,风机i发电功率,
Figure 890219DEST_PATH_IMAGE045
为其最大出力值;
所述常规机组出力约束具体为:
Figure 746179DEST_PATH_IMAGE046
同时满足爬坡约束:
Figure 99669DEST_PATH_IMAGE047
式中:
Figure 990265DEST_PATH_IMAGE048
分别为机组出力上、下限,
Figure 521740DEST_PATH_IMAGE049
分别为机 组爬坡速率上、下限。
8.根据权利要求2所述的电-热综合能源系统协调优化方法,其特征在于,
所述以强化学习环境、状态、动作及奖励作为基本要素,结合电-热综合能源系统调度模型建立基于SAC框架优化调度模型,具体包括:
将常规机组发电功率、热电联产发电功率以及热电联产热功率作为动作变量,具体如下:
Figure 864997DEST_PATH_IMAGE050
式中,
Figure 507331DEST_PATH_IMAGE051
分别为常规机组发电功率,热电联产发电功率,热电联产热功 率;
选取为电负荷、风力发电功率、热电联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温度作为状态空间变量,具体为:
Figure 252433DEST_PATH_IMAGE052
式中,
Figure 954810DEST_PATH_IMAGE053
分别为电负荷、风力发电功率、热电 联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温度;
搭建强化学习环境,通过策略网络得到当前动作作用于环境,得到即时奖励和下一时段的状态,并为策略评估提供奖励;
强化学习目标为实现长期奖励最大化,将优化目标的相反数设计为即时奖励,同时根据约束条件设置惩罚机制加入到即时奖励中得到最终的奖励函数,惩罚项统一表达形式为:
Figure 785363DEST_PATH_IMAGE054
式中,
Figure 480655DEST_PATH_IMAGE055
为惩罚系数,根据不同的越限惩罚设置相应的常数系数;
奖励函数包括常规机组运行成本,弃风惩罚,热电联产装置运行成本以及变量越限惩罚,具体为:
Figure 80264DEST_PATH_IMAGE056
式中
Figure 953542DEST_PATH_IMAGE057
分别为电力系统、热力系统运行成本以及弃风惩罚,
Figure 271390DEST_PATH_IMAGE058
Figure 521106DEST_PATH_IMAGE059
分 别为常规机组出力越限及爬坡越限惩罚项,
Figure 975221DEST_PATH_IMAGE060
为系统节点电压越限惩罚,
Figure 19401DEST_PATH_IMAGE061
为热电联产机组出力及爬坡越限惩罚项,
Figure 824546DEST_PATH_IMAGE062
为系统节点温度越限惩 罚,
Figure 861641DEST_PATH_IMAGE063
为系统管道质量流量速率越限惩罚。
9.根据权利要求2所述的电-热综合能源系统协调优化方法,其特征在于,
所述对基于SAC框架优化调度模型进行训练,得到预先训练的基于SAC框架优化调度模型,具体包括:
给评判器目标网络赋值,设置智能记忆库容量D;
当连续
Figure 435842DEST_PATH_IMAGE064
轮训练的奖励平均值变化幅度
Figure 916501DEST_PATH_IMAGE065
时,对于每一时段,都从行动器策略 网络中采样控制动作
Figure 208942DEST_PATH_IMAGE066
,并将所述控制动作施加在电-热综合能源系统上, 并针对风电不确定性进行采样,得到系统下一个时刻运行状态
Figure 534882DEST_PATH_IMAGE067
,再将状态转移及奖励 置入经验库D;
并更新评判器Q网络、行动器策略网络
Figure 963589DEST_PATH_IMAGE068
、温度系数、目标网络得到训练好的策略网络, 作为优化的SAC框架的优化调度模型。
10.根据权利要求2所述的电-热综合能源系统协调优化方法,其特征在于,
更新评判器Q网络、行动器策略网络、温度系数、目标网络采用的方法为SGD算法或Adam算法。
11.一种电-热综合能源系统协调优化系统,其特征在于,包括:
第一参数获取模块,用于获取实时电-热综合能源系统参数;
功率计算模块,用于基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率;
调度输出模块,用于将所述发电功率输入预先训练的基于SAC框架优化调度模型中,输出调度动作,形成电-热综合能源系统协调策略。
12.根据权利要求11所述的一种电-热综合能源系统协调优化系统,其特征在于,所述调度输出模块中预先训练的基于SAC框架优化调度模型包括:
第二参数获取模块,用于获取历史电-热综合能源系统参数;
模型建立模块,用于基于所述电-热综合能源系统参数,分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率,并以电力系统、热力系统和耦合装置的发电功率为基础建立电-热综合能源系统模型;
模型优化模块,用于以强化学习环境、状态、动作及奖励作为基本要素,结合电-热综合能源系统调度模型建立基于SAC框架优化调度模型;
模型训练模块,用于对基于SAC框架优化调度模型进行训练,得到预先训练的基于SAC框架优化调度模型。
13.根据权利要求12所述的一种电-热综合能源系统协调优化系统,其特征在于,所述模型建立模块具体用于:
以实现电-热综合能源系统的总运行成本最小为目标,同时为实现可在生能源的最大消纳,将可在生能源未消纳的部分作为惩罚项,建立目标函数;
建立电-热综合能源系统模型的约束条件,约束条件包括:节点功率平衡等式约束、网络安全约束、热电联产装置约束、可再生能源约束和常规机组出力约束。
14.根据权利要求13所述的一种电-热综合能源系统协调优化系统,其特征在于,
所述目标函数为:
Figure 615150DEST_PATH_IMAGE069
式中,f1为常规机组运行成本,f2为热电联产装置运行成本,f3为弃风惩罚;
其中,常规机组运行成本具体为:
Figure 129308DEST_PATH_IMAGE070
式中,
Figure 258938DEST_PATH_IMAGE071
为常规机组发电功率,
Figure 62858DEST_PATH_IMAGE072
为常规机组能耗系数,
Figure 619741DEST_PATH_IMAGE073
为常规机 组的数量;T为调度周期,
Figure 621195DEST_PATH_IMAGE022
为调度时间间隔;
其中,热电联产机组运行成本具体为:
Figure 554516DEST_PATH_IMAGE074
式中,
Figure 957816DEST_PATH_IMAGE075
分别为在时段t,节点i所连热电联产装置发电功率和产热功率;
Figure 685600DEST_PATH_IMAGE076
为热电联产装置能耗系数,
Figure 174351DEST_PATH_IMAGE077
为热电联产的数 量;
其中,弃风惩罚具体为:
Figure 645783DEST_PATH_IMAGE078
式中,
Figure 152857DEST_PATH_IMAGE079
表示在时段t,节点i所连风力发电机出力,k为弃风惩罚系数,为常数。
15.根据权利要求13所述的一种电-热综合能源系统协调优化系统,其特征在于,所述节点功率平衡等式约束条件基于网络节点有功功率平衡方程,具体为:
Figure 317122DEST_PATH_IMAGE080
式中,
Figure 558747DEST_PATH_IMAGE081
为电力系统、热力系统节点集合,T为调度时段;
Figure 568292DEST_PATH_IMAGE082
Figure 680604DEST_PATH_IMAGE083
分别为时段t,节点i的电负荷和热负荷功率;
所述网络安全约束具体为:
Figure 750191DEST_PATH_IMAGE084
式中:
Figure 213534DEST_PATH_IMAGE085
分别为节点i电压幅值的上限和下限;
Figure 292348DEST_PATH_IMAGE086
为流入热网节点j的 热水温度,
Figure 524746DEST_PATH_IMAGE087
为供水温度上、下限;
Figure 280082DEST_PATH_IMAGE088
为热水管道k的质量流量速率,
Figure 965141DEST_PATH_IMAGE089
分别为其上、下限;
所述热电联产装置约束具体为:
Figure 582067DEST_PATH_IMAGE090
式中:
Figure 668972DEST_PATH_IMAGE091
分别为前后两个时段的热电联产发电功率,
Figure 345941DEST_PATH_IMAGE092
Figure 518296DEST_PATH_IMAGE093
分别为热电联产装置爬坡速率上下限;
所述可再生能源约束具体为:
Figure 673334DEST_PATH_IMAGE094
式中,
Figure 880324DEST_PATH_IMAGE095
表示时段t,风机i发电功率,
Figure 977462DEST_PATH_IMAGE096
为其最大出力值;
所述常规机组出力约束具体为:
Figure 637114DEST_PATH_IMAGE097
同时满足爬坡约束:
Figure 595842DEST_PATH_IMAGE098
式中:
Figure 391760DEST_PATH_IMAGE099
分别为机组出力上、下限,
Figure 410532DEST_PATH_IMAGE100
分为机组爬 坡速率上、下限。
16.根据权利要求12所述的一种电-热综合能源系统协调优化系统,其特征在于,所述模型优化模块具体用于:
将常规机组发电功率、热电联产发电功率以及热电联产热功率作为动作变量,具体如下:
Figure 823058DEST_PATH_IMAGE101
式中,
Figure 585478DEST_PATH_IMAGE102
分别为常规机组发电功率,热电联产发电功率,热电联产热 功率;
选取为电负荷、风力发电功率、热电联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温度作为状态空间变量,具体为:
Figure 501481DEST_PATH_IMAGE103
式中,
Figure 425575DEST_PATH_IMAGE104
分别为电负荷、风力发电功率、 热电联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温度;
搭建强化学习环境,通过策略网络得到当前动作作用于环境,得到即时奖励和下一时段的状态,并为策略评估提供奖励;
强化学习目标为实现长期奖励最大化,将优化目标的相反数设计为即时奖励,同时根据约束条件设置惩罚机制加入到即时奖励中得到最终的奖励函数,惩罚项统一表达形式为:
Figure 309086DEST_PATH_IMAGE105
式中,
Figure 609618DEST_PATH_IMAGE106
为惩罚系数,根据不同的越限惩罚设置相应的常数系数;
奖励函数包括常规机组运行成本,弃风惩罚,热电联产装置运行成本以及变量越限惩罚,具体为:
Figure 645707DEST_PATH_IMAGE107
式中
Figure 740702DEST_PATH_IMAGE108
分别为电力系统、热力系统运行成本以及弃风惩罚,
Figure 862242DEST_PATH_IMAGE109
Figure 966464DEST_PATH_IMAGE110
分 别为常规机组出力越限及爬坡越限惩罚项,
Figure 591480DEST_PATH_IMAGE111
为系统节点电压越限惩罚,
Figure 122956DEST_PATH_IMAGE112
为热电联产机组出力及爬坡越限惩罚项,
Figure 715480DEST_PATH_IMAGE113
为系统节点温度越限 惩罚,
Figure 888972DEST_PATH_IMAGE114
为系统管道质量流量速率越限惩罚。
17.根据权利要求12所述的一种电-热综合能源系统协调优化系统,其特征在于,所述模型训练模块具体用于:
给评判器目标网络赋值,设置智能记忆库容量D;
当连续
Figure 634074DEST_PATH_IMAGE115
轮训练的奖励平均值变化幅度
Figure 336451DEST_PATH_IMAGE116
时,对于每一时段,都从行动器策略网 络中采样控制动作
Figure 167004DEST_PATH_IMAGE117
,并将所述控制动作施加在电-热综合能源系统上, 并针对风电不确定性进行采样,得到系统下一个时刻运行状态
Figure 613029DEST_PATH_IMAGE118
,再将状态转移及奖励 置入经验库D;
并更新评判器Q网络、行动器策略网络
Figure 212637DEST_PATH_IMAGE119
、温度系数、目标网络得到训练好的策略网络, 作为优化的SAC框架的优化调度模型。
18.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-10任一项所述电-热综合能源系统协调优化方法的步骤。
19.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-10任一项所述电-热综合能源系统协调优化方法的步骤。
CN202111349881.4A 2021-11-15 2021-11-15 电-热综合能源系统协调优化方法、系统、设备及存储介质 Active CN113902040B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111349881.4A CN113902040B (zh) 2021-11-15 2021-11-15 电-热综合能源系统协调优化方法、系统、设备及存储介质
PCT/CN2022/107149 WO2023082697A1 (zh) 2021-11-15 2022-07-21 电-热综合能源系统协调优化方法、系统、设备、介质及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111349881.4A CN113902040B (zh) 2021-11-15 2021-11-15 电-热综合能源系统协调优化方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113902040A true CN113902040A (zh) 2022-01-07
CN113902040B CN113902040B (zh) 2022-03-08

Family

ID=79194394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111349881.4A Active CN113902040B (zh) 2021-11-15 2021-11-15 电-热综合能源系统协调优化方法、系统、设备及存储介质

Country Status (2)

Country Link
CN (1) CN113902040B (zh)
WO (1) WO2023082697A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372645A (zh) * 2022-03-22 2022-04-19 山东大学 基于多智能体强化学习的供能系统优化方法及系统
CN115117888A (zh) * 2022-06-28 2022-09-27 国网江苏省电力有限公司电力科学研究院 一种园区综合能源调压方法、装置、存储器及计算设备
WO2023082697A1 (zh) * 2021-11-15 2023-05-19 中国电力科学研究院有限公司 电-热综合能源系统协调优化方法、系统、设备、介质及程序
CN116307136A (zh) * 2023-02-24 2023-06-23 国网安徽省电力有限公司营销服务中心 一种基于深度强化学习的能源系统参数优化方法、系统、装置及存储介质

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706094B (zh) * 2021-07-29 2024-02-20 国电南瑞科技股份有限公司 一种基于消息总线的综合能源实时协同仿真系统及方法
CN116629029B (zh) * 2023-07-19 2023-09-29 天津大学 基于数据驱动的流程工业用户灵活性评估方法及相关设备
CN116629587A (zh) * 2023-07-24 2023-08-22 长江三峡集团实业发展(北京)有限公司 一种综合能源系统多目标扩容规划方法、装置及电子设备
CN117411036A (zh) * 2023-08-31 2024-01-16 国家电网有限公司华东分部 一种考虑综合需求响应的电转氢综合能源运行方法及装置
CN116911577B (zh) * 2023-09-13 2024-02-09 国网信息通信产业集团有限公司 综合能源调度方法、装置、电子设备和计算机可读介质
CN117371219B (zh) * 2023-10-20 2024-03-12 华北电力大学 一种应用于综合能源系统的拓展能源枢纽建模方法
CN117151701B (zh) * 2023-10-31 2024-02-09 山东欣历能源有限公司 一种热电联产的工业余热回收利用系统
CN117273810B (zh) * 2023-11-03 2024-04-05 连云港智源电力设计有限公司 一种含激励相容性质的综合能源共享调度方法及系统
CN117455183A (zh) * 2023-11-09 2024-01-26 国能江苏新能源科技开发有限公司 一种基于深度强化学习的综合能源系统优化调度方法
CN117252043B (zh) * 2023-11-17 2024-04-09 山东大学 针对区域多能互补能源系统的多目标优化调度方法及装置
CN117272842B (zh) * 2023-11-21 2024-02-27 中国电建集团西北勘测设计研究院有限公司 多工业园区综合能源系统的协同控制系统及方法
CN117291315B (zh) * 2023-11-24 2024-02-20 湖南大学 一种碳循环利用的电-气-热多能联供网络协同运行方法
CN117291445B (zh) * 2023-11-27 2024-02-13 国网安徽省电力有限公司电力科学研究院 一种综合能源系统下基于状态转移的多目标预测方法
CN117374975B (zh) * 2023-12-06 2024-02-27 国网湖北省电力有限公司电力科学研究院 一种基于近似动态规划的配电网实时协同调压方法
CN117436672B (zh) * 2023-12-20 2024-03-12 国网湖北省电力有限公司经济技术研究院 考虑等效循环寿命和温控负荷的综合能源运行方法及系统
CN117494910B (zh) * 2024-01-02 2024-03-22 国网山东省电力公司电力科学研究院 一种基于碳减排的多能源协调优化控制系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190271A (zh) * 2018-09-13 2019-01-11 东北大学 一种考虑传输损耗的电热综合能源系统经济优化调度方法
CN109241655A (zh) * 2018-09-27 2019-01-18 河海大学 一种电-热互联综合能源系统机会约束协调优化方法
CN109345045A (zh) * 2018-11-29 2019-02-15 东北大学 基于双乘子迭代算法的电热综合能源系统经济调度方法
US20200327411A1 (en) * 2019-04-14 2020-10-15 Di Shi Systems and Method on Deriving Real-time Coordinated Voltage Control Strategies Using Deep Reinforcement Learning
CN112668791A (zh) * 2020-12-30 2021-04-16 华北电力大学(保定) 热电联供系统的优化方法
CN112734591A (zh) * 2020-11-26 2021-04-30 清华大学 电热综合协调调度方法及装置、设备及介质
CN112862281A (zh) * 2021-01-26 2021-05-28 中国电力科学研究院有限公司 综合能源系统调度模型构建方法、装置、介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113902040B (zh) * 2021-11-15 2022-03-08 中国电力科学研究院有限公司 电-热综合能源系统协调优化方法、系统、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190271A (zh) * 2018-09-13 2019-01-11 东北大学 一种考虑传输损耗的电热综合能源系统经济优化调度方法
CN109241655A (zh) * 2018-09-27 2019-01-18 河海大学 一种电-热互联综合能源系统机会约束协调优化方法
CN109345045A (zh) * 2018-11-29 2019-02-15 东北大学 基于双乘子迭代算法的电热综合能源系统经济调度方法
US20200327411A1 (en) * 2019-04-14 2020-10-15 Di Shi Systems and Method on Deriving Real-time Coordinated Voltage Control Strategies Using Deep Reinforcement Learning
CN112734591A (zh) * 2020-11-26 2021-04-30 清华大学 电热综合协调调度方法及装置、设备及介质
CN112668791A (zh) * 2020-12-30 2021-04-16 华北电力大学(保定) 热电联供系统的优化方法
CN112862281A (zh) * 2021-01-26 2021-05-28 中国电力科学研究院有限公司 综合能源系统调度模型构建方法、装置、介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023082697A1 (zh) * 2021-11-15 2023-05-19 中国电力科学研究院有限公司 电-热综合能源系统协调优化方法、系统、设备、介质及程序
CN114372645A (zh) * 2022-03-22 2022-04-19 山东大学 基于多智能体强化学习的供能系统优化方法及系统
CN115117888A (zh) * 2022-06-28 2022-09-27 国网江苏省电力有限公司电力科学研究院 一种园区综合能源调压方法、装置、存储器及计算设备
CN116307136A (zh) * 2023-02-24 2023-06-23 国网安徽省电力有限公司营销服务中心 一种基于深度强化学习的能源系统参数优化方法、系统、装置及存储介质

Also Published As

Publication number Publication date
WO2023082697A1 (zh) 2023-05-19
CN113902040B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN113902040B (zh) 电-热综合能源系统协调优化方法、系统、设备及存储介质
Li et al. Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning
Zhang et al. Soft actor-critic–based multi-objective optimized energy conversion and management strategy for integrated energy systems with renewable energy
Mirinejad et al. A review of intelligent control techniques in HVAC systems
Lu et al. The PID Controller Based on the Artificial Neural Network and the Differential Evolution Algorithm.
Shakibjoo et al. Load frequency control for multi-area power systems: A new type-2 fuzzy approach based on Levenberg–Marquardt algorithm
CN113935463A (zh) 一种基于人工智能控制方法的微电网控制器
CN111917134B (zh) 一种基于数据驱动的配电网动态自主重构方法及系统
CN113780688A (zh) 一种电热联合系统的优化运行方法、系统、设备及介质
CN117039981A (zh) 一种面向含新能源的大规模电网优化调度方法、装置、存储介质
Liu et al. Digital twin-driven robotic disassembly sequence dynamic planning under uncertain missing condition
CN113346543B (zh) 一种分布式微网电压多层协同控制方法
Dounis et al. Intelligent coordinator of fuzzy controller-agents for indoor environment control in buildings using 3-D fuzzy comfort set
Costa et al. D-ADMM based distributed MPC with input-output models
Guan et al. Robust adaptive recurrent cerebellar model neural network for non-linear system based on GPSO
Wai et al. Intelligent daily load forecasting with fuzzy neural network and particle swarm optimization
Mollaiy Berneti A hybrid approach based on the combination of adaptive neuro-fuzzy inference system and imperialist competitive algorithm: oil flow rate of the wells prediction case study
Dey et al. Reinforcement Learning Building Control: An Online Approach with Guided Exploration using Surrogate Models
Guolian et al. Multiple-model predictive control based on fuzzy adaptive weights and its application to main-steam temperature in power plant
Liu et al. Model-free load frequency control based on multi-agent deep reinforcement learning
Shahriari-Kahkeshi et al. Nonlinear continuous stirred tank reactor (CSTR) identification and control using recurrent neural network trained shuffled frog leaping algorithm
Lu et al. Optimal Design of Energy Storage System Assisted AGC Frequency Regulation Based on DDPG Algorithm
Cheng et al. Reinforcement learning-based scheduling of multi-battery energy storage system
Zhao et al. Combination Optimization Method of Grid Section Based on Deep Reinforcement Learning with Accelerated Convergence Speed
Wai et al. Design of intelligent long-term load forecasting with fuzzy neural network and particle swarm optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant