CN108964042B - 基于深度q网络的区域电网运行点调度优化方法 - Google Patents

基于深度q网络的区域电网运行点调度优化方法 Download PDF

Info

Publication number
CN108964042B
CN108964042B CN201810819706.9A CN201810819706A CN108964042B CN 108964042 B CN108964042 B CN 108964042B CN 201810819706 A CN201810819706 A CN 201810819706A CN 108964042 B CN108964042 B CN 108964042B
Authority
CN
China
Prior art keywords
operating point
power grid
network
scheduling
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810819706.9A
Other languages
English (en)
Other versions
CN108964042A (zh
Inventor
唐昊
王诗平
王珂
姚建国
杨胜春
吕凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201810819706.9A priority Critical patent/CN108964042B/zh
Publication of CN108964042A publication Critical patent/CN108964042A/zh
Application granted granted Critical
Publication of CN108964042B publication Critical patent/CN108964042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • H02J3/386
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/003Load forecast, e.g. methods or systems for forecasting future load demand
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/70Wind energy
    • Y02E10/76Power conversion electric or electronic aspects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Power Engineering (AREA)
  • Public Health (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提供了一种基于深度Q网络的区域电网运行点调度优化方法,包括步骤:确定区域电网运行点调度中心的调度架构;将区域电网运行点调度动态决策过程建模为相应的马尔科夫决策过程模型,该模型包含状态、行动、代价及优化目标函数;利用深度Q网络对马尔科夫动态决策过程模型进行策略求解;区域电网运行点至少包括下一个调度时段的常规火电机组出力、风电机组出力以及柔性负荷削减量;区域电网运行点的调度至少包括依据风电、负荷功率超短期预测信息和当前时段运行点信息,动态确定下一调度时段的电网运行点。本发明可有效应对新能源出力与负荷需求的随机性,充分发挥源‑荷互动调度潜力,维持区域电网功率的动态平衡,提高电网系统运行效率。

Description

基于深度Q网络的区域电网运行点调度优化方法
技术领域
本专利涉及电网智能调度技术领域,具体涉及一种基于深度Q网络的区域电网运行点调度优化方法。
背景技术
随着大规模风电并网和柔性负荷的迅速发展,源-荷双侧不确定性对电网调度运行的影响日益严重,源-荷互动为源-网-荷互动框架体系的重要组成部分,能够促进发用电资源的合理利用,提高系统运行的安全性、经济性、清洁性等综合效益。
现有技术中,存在在日前调度计划模型中考虑可中断负荷和激励负荷的方案,体现了负荷侧资源的潜在调峰效益,如杨楠等[杨楠,王波,刘涤尘, 等.计及大规模风电和柔性负荷的电力系统供需侧联合随机调度方法[J]. 中国电机工程学报,2013,33(16):63-69.];也存在设计一种多时间尺度滚动协调的需求响应调度框架的方案,体现了负荷侧资源在不同时间尺度的调度潜力,如姚建国等[姚建国,杨胜春,王珂,等.平衡风功率波动的需求响应调度框架与策略设计[J].电力系统自动化,2014,38(9):85-92.]基于风功率波动和负荷响应的特征;还存在构建基于日前和实时调度的互动决策模型的方案,实现了间歇性能源和柔性负荷的协调优化,如Galvan等[Galvan E, Alcaraz G G,Cabrera N G.Two-phase Short-term Scheduling Approach with Intermittent Renewable EnergyResources and Demand Response[J].IEEE Latin America Transactions,2015,13(1):181-187.]。这些方案,是通过柔性负荷调度来应对发电侧资源的随机性问题,对电网运行点动态调度具有一定借鉴意义,然而传统处理不确定性电网调度问题的方法主要集中于鲁棒优化方法、不确定规划等,在解决区域电网运行点动态调度问题时,随着问题规模的增大,传统的算法会出现计算量大,“维数灾”、难以得到全局最优解等问题,其在线应用存在很大挑战。
发明内容
本发明的目的是提供一种基于深度Q网络的区域电网运行点调度优化方法,可有效应对新能源出力与负荷需求的随机性,充分发挥源-荷互动调度潜力,维持区域电网功率的动态平衡,提高电网系统的运行效率。
为了克服现有技术存在的问题,达到上述目的,本发明提供了一种基于深度Q网络的区域电网运行点调度优化方法,其包括以下步骤:
确定区域电网运行点调度中心的调度架构;
将区域电网运行点调度动态决策过程建模为相应的马尔科夫动态决策过程模型,该模型包含状态、行动、代价及优化目标函数;
利用深度Q网络对所述马尔科夫动态决策过程模型进行策略求解,获得优化策略;
其中,所述区域电网运行点至少包括下一个调度时段的常规火电机组出力、风电机组出力以及柔性负荷削减量;
所述调度架构至少包括NG个常规火电机组、NW个风电机组和NF个DLC 柔性负荷代理;
所述区域电网运行点的调度至少包括依据风电、负荷功率超短期预测信息和当前时段运行点信息,动态确定下一调度时段的电网运行点。
建立所述马尔科夫动态决策过程模型,包括以下步骤:
将一天的时间等分为K+1个调度时段,采用等周期决策,决策时刻为调度时段k的起始时刻tk,其中k∈{0,1,…K},则所述区域电网运行点调度中心在一天开始前从系统读取当天各时段风电机组j的风电出力短期预测信息为 PWjk、负荷功率短期预测信息为PLk、日前调度计划确定的火电机组启停为μik及出力为PGik、柔性负荷代理l的最大可调度容量为PDlkmax
在所述决策时刻tk,所述区域电网运行点调度中心获取紧邻两个调度时段的风电出力超短期预测数据为
Figure RE-GDA0003220101040000021
和负荷功率超短期预测数据为
Figure RE-GDA0003220101040000022
Figure RE-GDA0003220101040000023
组成系统在k时段的状态
Figure RE-GDA0003220101040000024
定义所述决策时刻tk系统的行动为调度时段k内各火电机组相对日前计划的出力调整量ΔPGik、风电机组弃风量
Figure RE-GDA00032201010400000319
以及柔性负荷削减量PDlk,将ΔPGik
Figure RE-GDA0003220101040000031
以及PDlk分别离散为一系列固定值,则ΔPGik
Figure RE-GDA0003220101040000032
和PDlk所取固定值的任一组合对应一种行动,即
Figure RE-GDA0003220101040000033
定义所述区域电网在一个决策周期产生的运行代价ck,由决策周期对应调度时段k内火电机组出力调整代价
Figure RE-GDA0003220101040000034
柔性负荷补偿代价
Figure RE-GDA0003220101040000035
弃风补偿代价
Figure RE-GDA0003220101040000036
和未满足约束条件的惩罚代价
Figure RE-GDA0003220101040000037
组成,则运行代价ck表征为:
Figure RE-GDA0003220101040000038
定义区域电网运行点调度在初始状态为s的有限时段优化性能准则函数为Vπ(s):
Figure RE-GDA0003220101040000039
其中,π为优化策略,为系统状态sk到行动ak的映射,
Figure RE-GDA00032201010400000310
E为期望;优化性能准则函数Vπ(s)即是在策略π下
Figure RE-GDA00032201010400000311
的期望;
利用深度Q网络进行策略求解以获得优化策略,包括以下步骤:
构造深度Q网络,包括当前值网络和目标值网络,初始化当前值网络权重参数θi、目标值网络权重参数
Figure RE-GDA00032201010400000320
Figure RE-GDA00032201010400000321
输入序列宽度W、经验池容量 D、批训练样本数B、学习因子α、贪心概率ε、折扣因子γ,定义任意一个样本轨道为m,样本轨道总数为M,令m=0;
令k=0,随机初始化系统状态sk
构造深度Q网络的输入序列
Figure RE-GDA00032201010400000312
由当前状态sk和记录的前W个决策时刻的状态、动作组成,当k<W时,
Figure RE-GDA00032201010400000313
当k≥W时,
Figure RE-GDA00032201010400000314
将序列
Figure RE-GDA00032201010400000315
输入到当前值网络,当前值网络的输出
Figure RE-GDA00032201010400000316
用来评估当前状态与行动对应的值函数,选取最小Q值对应的行动 agreedy,同时,随机选取有效行动arand,采用ε-贪心策略选取行动ak,若ε<rand(0,1)成立,则将agreedy赋值给ak,否则将arand赋值给ak,逐渐减小ε的取值;
所述区域电网运行点调度中心执行决策时刻tk的行动ak,并观察决策周期内产生的运行代价ck,经过一个决策周期后,观察下一决策时刻的状态sk+1并构造输入序列
Figure RE-GDA00032201010400000317
将一条学习样本
Figure RE-GDA00032201010400000318
存储到经验池,判断经验池样本数是否大于经验池容量D,若是,则移除记忆最久远的一条样本;
判断经验池内学习样本数是否大于批训练样本数B,若是,则从经验池中随机抽取B条学习样本对当前值网络进行批训练,并判断k与K的大小,即,若k<K,令k=k+1,返回至构造深度Q网络的输入序列
Figure RE-GDA0003220101040000041
的步骤;若k=K,令m=m+1;
若m<M,返回至随机初始化系统状态sk的步骤;否则结束循环,完成当前值网络的参数训练,得到最优策略
Figure RE-GDA0003220101040000042
优选的是,区域电网运行点调度中心在运行时执行所述运行点调度优化方法,包括以下步骤:
构造实际决策时刻tk下的输入序列
Figure RE-GDA0003220101040000043
至少包括实际决策时刻tk下的状态信息;
根据最优策略选取最优行动
Figure RE-GDA0003220101040000044
得到该决策周期内各火电机组出力调整量ΔPGik、风电机组弃风量
Figure RE-GDA0003220101040000045
以及柔性负荷削减量PDlk
优选的是,将行动离散为一系列固定值,包括以下步骤:
将火电机组i出力调整量ΔPGik从ΔPGik -到ΔPGik +离散化为
Figure RE-GDA0003220101040000046
共(2a+1)个固定值,其中ΔPGik -和ΔPGik +分别为根据出力上下限约束和爬坡约束确定的机组i在调度时段k的出力下调和上调容量;
将柔性负荷代理l的负荷削减量PDlk从0到PDlkmax离散化为
Figure RE-GDA0003220101040000047
共(b+1)个固定值,其中PDlkmax为柔性负荷代理l的最大可调度容量;
将风电机组弃风量
Figure RE-GDA0003220101040000048
从0到
Figure RE-GDA0003220101040000049
离散化为
Figure RE-GDA00032201010400000410
共(h+1)个固定值,其中αjk为风电机组j的最大可接受弃风率;
行动空间维度为
Figure RE-GDA00032201010400000411
优选的是,所述约束条件,至少包括功率平衡约束、火电机组爬坡和出力上下限约束以及弃风量和柔性负荷削减量上限约束,具体表征为:
Figure RE-GDA00032201010400000412
μik(PGimin-PGik)≤ΔPGik≤μik(PGimax-PGik);
ΔPGi(k-1)+(PGi(k-1)-PGik-rdi)≤ΔPGik≤ΔPGi(k-1)+(PGi(k-1)-PGik+rui);
Figure RE-GDA0003220101040000051
0≤PDlk≤PDlkmax
其中,
Figure RE-GDA0003220101040000052
PWjk分别为风电机组j在k时段的风电出力超短期和短期预测值,
Figure RE-GDA0003220101040000053
PLk分别为负荷功率的超短期和短期预测值,PGimin、PGimax、rui、rdi分别为火电机组i的出力下上限和上下爬坡速率。
优选的是,构造当前值网络和目标值网络结构一致,为H+M层深度卷积网络,前H层为卷积层,后M层为全连接层,其中最后一层的输出节点数目与动作数一致,表示每一种动作对应的Q值。
优选的是,深度Q网络的批训练,包括以下步骤:
从经验池中随机抽取B条经验,对每条经验
Figure RE-GDA0003220101040000054
Figure RE-GDA0003220101040000055
作为目标值网络的输入,观察目标值网络的输出
Figure RE-GDA0003220101040000056
计算目标Q值
Figure RE-GDA0003220101040000057
若样本轨道在第j+1决策时刻终止则yj=cj,通过最小化当前Q值和目标Q值之间的均方误差更新当前值网络的参数,误差函数为
Figure RE-GDA0003220101040000058
采用随机梯度下降法更新B次当前值网络参数,每经过C轮迭代,将当前值网络的参数复制给目标值网络。
本发明的有益效果是:
1)本发明针对区域电网运行点动态调度问题,以系统日运行代价最小为目标,通过确定区域电网运行点源-荷双侧调度架构、建立区域电网运行点调度的马尔科夫决策过程模型、采用深度Q网络进行策略求解,可有效地应对区域电网中风电出力及负荷需求存在的随机性,在所得优化策略下,根据超短期风电出力和负荷需求预测信息,选择最优行动来调整常规发电机组出力、风电机组出力以及削减柔性负荷需求,动态制定区域电网运行点计划,提高电网系统的运行效益;
2)基于深度Q网络算法的策略求解,与传统优化算法相比,有效解决了维数灾问题,将学习优化方法应用到实际的电网智能调度中,提高区域电网运行点调度效率。
附图说明
图1为本发明提供的基于深度Q网络的区域电网运行点调度优化方法的流程图。
具体实施方式
下面结合附图对本发明做进一步说明,以使本领域普通技术人员参照本说明书后能够据以实施。
如图1所示,本实施方式提供了一种基于深度Q网络的区域电网运行点调度优化方法,其包括以下步骤:
S10,确定区域电网运行点调度中心的调度架构;
S20,将区域电网运行点调度动态决策过程建模为相应的马尔科夫动态决策过程模型,该模型包含状态、行动、代价及优化目标函数;
S30,利用深度Q网络对马尔科夫动态决策过程模型进行策略求解,获得优化策略;
上述实施方式中,区域电网含大规模风电和柔性负荷,区域电网运行点至少包括下一个调度时段的常规火电机组出力、风电机组出力以及柔性负荷削减量,区域电网运行点调度中心的可调度资源至少包括常规火电机组、风电机组和柔性负荷,因此,步骤S10中,调度架构至少包括NG个常规火电机组、NW个风电机组和NF个DLC(Direct Load Control,直接负荷控制)柔性负荷代理;而区域电网运行点的调度至少包括依据风电、负荷功率超短期预测信息和当前时段运行点信息,动态确定下一调度时段的电网运行点。
上述实施方式中,一方面,针对区域电网运行点动态调度问题,通过确定区域电网运行点源-荷双侧调度架构、建立区域电网运行点调度的马尔科夫决策过程模型、采用深度Q网络进行策略求解,在所得策略下,调度中心可根据决策时刻接下来两个时段的超短期风电出力、负荷需求预测信息和当前的电网运行点信息,动态确定下一调度时段的电网运行点计划,从而有效地应对区域电网中风电出力及负荷需求存在的随机性,维持区域电网功率的动态平衡。在所得优化策略下,根据超短期风电出力和负荷需求预测信息,选择最优行动来调整常规发电机组出力、风电机组出力以及削减柔性负荷需求,动态制定区域电网运行点计划,提高电网系统的运行效益。另一方面,基于深度Q网络算法的策略求解,与传统优化算法相比,有效解决了维数灾问题,将学习优化方法应用到实际的电网智能调度中,提高区域电网运行点调度效率。
需要说明的是,系统的行动包括决策周期内各火电机组出力调整量ΔPGik、风电弃风量
Figure RE-GDA0003220101040000071
以及柔性负荷代理负荷削减量PDlk。区域电网运行点调度优先调整火电机组出力,当火电机组调整能力不足时,系统将适当选择切负荷或弃风以维持功率平衡。
作为上述实施方式的优选,步骤S20中,建立马尔科夫动态决策过程模型,包括以下步骤:
S21,将一天的时间等分为K+1个调度时段,采用等周期决策,决策时刻为调度时段k的起始时刻tk,其中k∈{0,1,…K},则区域电网运行点调度中心在一天开始前从系统读取当天各时段风电机组j的风电出力短期预测信息为PWjk、负荷功率短期预测信息为PLk、日前调度计划确定的火电机组启停为μik及出力为PGik、柔性负荷代理l的最大可调度容量为PDlkmax
S22,在决策时刻tk,区域电网运行点调度中心获取紧邻两个调度时段的风电出力超短期预测数据为
Figure RE-GDA0003220101040000072
和负荷功率超短期预测数据为
Figure RE-GDA0003220101040000073
Figure RE-GDA0003220101040000074
组成系统在k时段的状态
Figure RE-GDA0003220101040000075
S23,定义决策时刻tk系统的行动为调度时段k内各火电机组相对日前计划的出力调整量ΔPGik、风电机组弃风量
Figure RE-GDA0003220101040000076
以及柔性负荷削减量PDlk,将ΔPGik
Figure RE-GDA0003220101040000077
以及PDlk分别离散为一系列固定值,则ΔPGik
Figure RE-GDA0003220101040000078
和PDlk所取固定值的任一组合对应一种行动,即
Figure RE-GDA0003220101040000079
S24,定义区域电网在一个决策周期产生的运行代价ck,由决策周期对应调度时段k内火电机组出力调整代价
Figure RE-GDA00032201010400000710
柔性负荷补偿代价
Figure RE-GDA00032201010400000711
弃风补偿代价
Figure RE-GDA00032201010400000712
和未满足约束条件的惩罚代价
Figure RE-GDA00032201010400000713
组成,则运行代价ck表征为:
Figure RE-GDA00032201010400000714
S25,定义区域电网运行点调度在初始状态为s的有限时段优化性能准则函数为Vπ(s):
Figure RE-GDA0003220101040000081
上述实施方式中,步骤S23中,通过该离散为一系列固定值的方法,系统的行动集为D=DG×DF×DW,其中
Figure RE-GDA0003220101040000082
Figure RE-GDA0003220101040000083
系统行动向量为
Figure RE-GDA0003220101040000084
其中
Figure RE-GDA0003220101040000085
Figure RE-GDA0003220101040000086
步骤S25中,π为优化策略,为系统状态 sk到行动ak的映射,
Figure RE-GDA0003220101040000087
E为期望;优化性能准则函数Vπ(s)即是在策略π下
Figure RE-GDA0003220101040000088
的期望。区域电网运行点调度的优化目标是求得最优策略π*,则在最优策略π*下系统的平均日运行总代价最低。
该实施方式中,以系统日运行代价最小为目标,来建立区域电网运行点调度的马尔科夫决策过程模型以及采用深度Q网络(Deep Q Network,DQN) 学习进行策略求解。需要说明的是,步骤S21提及的“短期”,提供了一种短期预测的方式,具体地,短期包括日前的未来24小时或48小时的时间范围,短期预测包括对未来24小时或48小时内的风电出力或负荷需求进行预测。步骤S22提及的“超短期”,提供了一种超短期预测的方式,具体地,超短期的时间尺度短于短期预测,超短期包括日内对未来15分钟~4小时的时间范围,超短期预测包括在日内对未来15分钟~4小时的时间范围内风电出力和负荷需求进行预测。
作为上述实施方式的进一步优选,步骤S30中,利用深度Q网络进行策略求解以获得优化策略,包括以下步骤:
S31,构造深度Q网络,包括当前值网络和目标值网络,初始化当前值网络权重参数θi、目标值网络权重参数
Figure RE-GDA00032201010400000813
Figure RE-GDA00032201010400000814
输入序列宽度W、经验池容量D、批训练样本数B、学习因子α、贪心概率ε、折扣因子γ,定义任意一个样本轨道为m,样本轨道总数为M,令m=0;
S32,令k=0,随机初始化系统状态sk
S33,构造深度Q网络的输入序列
Figure RE-GDA0003220101040000089
由当前状态sk和记录的前W个决策时刻的状态、动作组成,当k<W时,
Figure RE-GDA00032201010400000810
当k≥W时,
Figure RE-GDA00032201010400000811
将序列
Figure RE-GDA00032201010400000812
输入到当前值网络,当前值网络的输出
Figure RE-GDA0003220101040000091
用来评估当前状态与行动对应的值函数,选取最小Q值对应的行动 agreedy,同时,随机选取有效行动arand,采用ε-贪心策略选取行动ak,若ε<rand(0,1)成立,则将agreedy赋值给ak,否则将arand赋值给ak,逐渐减小ε的取值;
S34,区域电网运行点调度中心执行决策时刻tk的行动ak,并观察决策周期内产生的运行代价ck,经过一个决策周期后,观察下一决策时刻的状态sk+1并构造输入序列
Figure RE-GDA0003220101040000092
将一条学习样本
Figure RE-GDA0003220101040000093
存储到经验池,判断经验池样本数是否大于经验池容量D,若是,则移除记忆最久远的一条样本;
S35,判断经验池内学习样本数是否大于批训练样本数B,若是,则从经验池中随机抽取B条学习样本对当前值网络进行批训练,并判断k与K的大小,即,若k<K,令k=k+1,返回至构造深度Q网络的输入序列
Figure RE-GDA0003220101040000094
的步骤S33;若k=K,令m=m+1;
S36,若m<M,返回至随机初始化系统状态sk的步骤;否则结束循环,完成当前值网络的参数训练,得到最优策略
Figure RE-GDA0003220101040000095
作为上述实施方式的进一步优选,区域电网运行点调度中心在运行时执行所述运行点调度优化方法,包括以下步骤:
构造实际决策时刻tk下的输入序列
Figure RE-GDA0003220101040000096
至少包括实际决策时刻tk下的状态信息;
根据最优策略选取最优行动
Figure RE-GDA0003220101040000097
得到该决策周期内各火电机组出力调整量ΔPGik、风电机组弃风量
Figure RE-GDA0003220101040000098
以及柔性负荷削减量PDlk
作为上述实施方式的进一步优选,步骤S23中,将行动离散为一系列固定值,包括以下步骤:
将火电机组i出力调整量ΔPGik从ΔPGik -到ΔPGik +离散化为
Figure RE-GDA0003220101040000099
共(2a+1)个固定值,其中ΔPGik -和ΔPGik +分别为根据出力上下限约束和爬坡约束确定的机组i在调度时段k的出力下调和上调容量;
将柔性负荷代理l的负荷削减量PDlk从0到PDlkmax离散化为
Figure RE-GDA00032201010400000910
共(b+1)个固定值,其中PDlkmax为柔性负荷代理l的最大可调度容量;
将风电机组弃风量
Figure RE-GDA0003220101040000101
从0到
Figure RE-GDA0003220101040000102
离散化为
Figure RE-GDA0003220101040000103
共(h+1)个固定值,其中αjk为风电机组j的最大可接受弃风率;
行动空间维度为
Figure RE-GDA0003220101040000104
作为上述实施方式的进一步优选,步骤S24中,约束条件,至少包括功率平衡约束、火电机组爬坡和出力上下限约束以及弃风量和柔性负荷削减量上限约束,具体表征为:
Figure RE-GDA0003220101040000105
μik(PGimin-PGik)≤ΔPGik≤μik(PGimax-PGik);
ΔPGi(k-1)+(PGi(k-1)-PGik-rdi)≤ΔPGik≤ΔPGi(k-1)+(PGi(k-1)-PGik+rui);
Figure RE-GDA0003220101040000106
0≤PDlk≤PDlkmax
其中,
Figure RE-GDA0003220101040000107
PWjk分别为风电机组j在k时段的风电出力超短期和短期预测值,
Figure RE-GDA0003220101040000108
PLk分别为负荷功率的超短期和短期预测值,PGimin、PGimax、rui、rdi分别为火电机组i的出力下上限和上下爬坡速率。
作为上述实施方式的进一步优选,步骤S31中,构造当前值网络和目标值网络结构一致,为H+M层深度卷积网络,前H层为卷积层,后M层为全连接层,其中最后一层的输出节点数目与动作数一致,表示每一种动作对应的 Q值。
作为上述实施方式的进一步优选,步骤S36中,深度Q网络的批训练,包括以下步骤:
从经验池中随机抽取B条经验,对每条经验
Figure RE-GDA0003220101040000109
Figure RE-GDA00032201010400001010
作为目标值网络的输入,观察目标值网络的输出
Figure RE-GDA00032201010400001011
计算目标Q值
Figure RE-GDA00032201010400001012
若样本轨道在第j+1决策时刻终止则yj=cj,通过最小化当前Q值和目标Q值之间的均方误差更新当前值网络的参数,误差函数为
Figure RE-GDA00032201010400001013
采用随机梯度下降法更新B次当前值网络参数,每经过C轮迭代,将当前值网络的参数复制给目标值网络。
本发明解决了区域电网运行点调度问题,将深度强化学习算法应用于电网智能调度领域,通过对运行数据进行离线学习,所得调度策略可根据不同的风电出力和负荷需求预测信息,动态确定电网最优运行点,促进了新能源的消纳,提高了电网的运行效益,有利于电力系统安全稳定地运行。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (5)

1.一种基于深度Q网络的区域电网运行点调度优化方法,其特征在于,其包括以下步骤:
确定区域电网运行点调度中心的调度架构;
将区域电网运行点调度动态决策过程建模为相应的马尔科夫动态决策过程模型,该模型包含状态、行动、代价及优化目标函数;
利用深度Q网络对所述马尔科夫动态决策过程模型进行策略求解,获得优化策略;
其中,所述区域电网运行点至少包括下一个调度时段的常规火电机组出力、风电机组出力以及柔性负荷削减量;
所述调度架构至少包括NG个常规火电机组、NW个风电机组和NF个DLC柔性负荷代理;
所述区域电网运行点的调度至少包括依据风电、负荷功率超短期预测信息和当前时段运行点信息,动态确定下一调度时段的电网运行点;
建立所述马尔科夫动态决策过程模型,包括以下步骤:
将一天的时间等分为K+1个调度时段,采用等周期决策,决策时刻为调度时段k的起始时刻tk,其中k∈{0,1,…K},则所述区域电网运行点调度中心在一天开始前从系统读取当天各时段风电机组j的风电出力短期预测信息为PWjk、负荷功率短期预测信息为PLk、日前调度计划确定的火电机组启停为μik及出力为PGik、柔性负荷代理l的最大可调度容量为PDlkmax
在所述决策时刻tk,所述区域电网运行点调度中心获取紧邻两个调度时段的风电出力超短期预测数据为
Figure FDA0003239433130000011
和负荷功率超短期预测数据为
Figure FDA0003239433130000012
Figure FDA0003239433130000013
组成系统在k时段的状态
Figure FDA0003239433130000014
定义所述决策时刻tk系统的行动为调度时段k内各火电机组相对日前计划的出力调整量ΔPGik、风电机组弃风量
Figure FDA0003239433130000015
以及柔性负荷削减量PDlk,将ΔPGik
Figure FDA0003239433130000016
以及PDlk分别离散为一系列固定值,则ΔPGik
Figure FDA0003239433130000017
和PDlk所取固定值的任一组合对应一种行动,即
Figure FDA0003239433130000018
定义所述区域电网在一个决策周期产生的运行代价ck,由决策周期对应调度时段k内火电机组出力调整代价
Figure FDA0003239433130000021
柔性负荷补偿代价
Figure FDA0003239433130000022
弃风补偿代价
Figure FDA0003239433130000023
和未满足约束条件的惩罚代价
Figure FDA0003239433130000024
组成,则运行代价ck表征为:
Figure FDA0003239433130000025
定义区域电网运行点调度在初始状态为s的有限时段优化性能准则函数为Vπ(s):
Figure FDA0003239433130000026
其中,π为优化策略,为系统状态sk到行动ak的映射,
Figure FDA0003239433130000027
E为期望;优化性能准则函数Vπ(s)即是在策略π下
Figure FDA0003239433130000028
的期望;利用深度Q网络进行策略求解以获得优化策略,包括以下步骤:
构造深度Q网络,包括当前值网络和目标值网络,初始化当前值网络权重参数θz、目标值网络权重参数
Figure FDA0003239433130000029
Figure FDA00032394331300000210
输入序列宽度W、经验池容量D、批训练样本数B、学习因子α、贪心概率ε、折扣因子γ,定义任意一个样本轨道为m,样本轨道总数为M,令m=0;
令k=0,随机初始化系统状态sk
构造深度Q网络的输入序列
Figure FDA00032394331300000211
Figure FDA00032394331300000212
由当前状态sk和记录的前W个决策时刻的状态、动作组成,当k<W时,
Figure FDA00032394331300000213
当k≥W时,
Figure FDA00032394331300000214
将序列
Figure FDA00032394331300000215
输入到当前值网络,当前值网络的输出
Figure FDA00032394331300000216
用来评估当前状态与行动对应的值函数,选取最小Q值对应的行动agreedy,同时,随机选取有效行动arand,采用ε-贪心策略选取行动ak,若ε<rand(0,1)成立,则将agreedy赋值给ak,否则将arand赋值给ak,逐渐减小ε的取值;
所述区域电网运行点调度中心执行决策时刻tk的行动ak,并观察决策周期内产生的运行代价ck,经过一个决策周期后,观察下一决策时刻的状态sk+1并构造输入序列
Figure FDA00032394331300000217
将一条学习样本
Figure FDA00032394331300000218
存储到经验池,判断经验池样本数是否大于经验池容量D,若是,则移除记忆最久远的一条样本;
判断经验池内学习样本数是否大于批训练样本数B,若是,则从经验池中随机抽取B条学习样本对当前值网络进行批训练,并判断k与K的大小,即,若k<K,令k=k+1,返回至构造深度Q网络的输入序列
Figure FDA00032394331300000219
的步骤;若k=K,令m=m+1;
若m<M,返回至随机初始化系统状态sk的步骤;否则结束循环,完成当前值网络的参数训练,得到最优策略
Figure FDA0003239433130000031
2.如权利要求1所述的基于深度Q网络的区域电网运行点调度优化方法,其特征在于,区域电网运行点调度中心在运行时执行所述运行点调度优化方法,包括以下步骤:
构造实际决策时刻tk下的输入序列
Figure FDA0003239433130000032
至少包括实际决策时刻tk下的状态信息;
根据最优策略选取最优行动
Figure FDA0003239433130000033
得到该决策周期内各火电机组出力调整量ΔPGik、风电机组弃风量
Figure FDA0003239433130000034
以及柔性负荷削减量PDlk
3.如权利要求1所述的基于深度Q网络的区域电网运行点调度优化方法,其特征在于,将行动离散为一系列固定值,包括以下步骤:
将火电机组i出力调整量ΔPGik从ΔPGik -到ΔPGik +离散化为
Figure FDA0003239433130000035
共(2n+1)个固定值,其中ΔPGik -和ΔPGik +分别为根据出力上下限约束和爬坡约束确定的机组i在调度时段k的出力下调和上调容量;
将柔性负荷代理l的负荷削减量PDlk从0到PDlkmax离散化为
Figure FDA0003239433130000036
共(b+1)个固定值,其中PDlkmax为柔性负荷代理l的最大可调度容量;
将风电机组弃风量
Figure FDA0003239433130000037
从0到
Figure FDA0003239433130000038
离散化为
Figure FDA0003239433130000039
共(h+1)个固定值,其中αjk为风电机组j的最大可接受弃风率;
行动空间维度为
Figure FDA00032394331300000310
4.如权利要求3所述的基于深度Q网络的区域电网运行点调度优化方法,其特征在于,所述约束条件,至少包括功率平衡约束、火电机组爬坡和出力上下限约束以及弃风量和柔性负荷削减量上限约束,具体表征为:
Figure FDA00032394331300000311
μik(PGimin-PGik)≤ΔPGik≤μik(PGimax-PGik);
ΔPGi(k-1)+(PGi(k-1)-PGik-rdi)≤ΔPGik≤ΔPGi(k-1)+(PGi(k-1)-PGik+rui);
Figure FDA0003239433130000041
0≤PDlk≤PDlkmax
其中,
Figure FDA0003239433130000042
PWjk分别为风电机组j在k时段的风电出力超短期和短期预测值,
Figure FDA0003239433130000043
PLk分别为负荷功率的超短期和短期预测值,PGimin、PGimax、rui、rdi分别为火电机组i的出力下上限和上下爬坡速率。
5.如权利要求1所述的基于深度Q网络的区域电网运行点调度优化方法,其特征在于,构造当前值网络和目标值网络结构一致,为H+M层深度卷积网络,前H层为卷积层,后M层为全连接层,其中最后一层的输出节点数目与动作数一致,表示每一种动作对应的Q值。
CN201810819706.9A 2018-07-24 2018-07-24 基于深度q网络的区域电网运行点调度优化方法 Active CN108964042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810819706.9A CN108964042B (zh) 2018-07-24 2018-07-24 基于深度q网络的区域电网运行点调度优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810819706.9A CN108964042B (zh) 2018-07-24 2018-07-24 基于深度q网络的区域电网运行点调度优化方法

Publications (2)

Publication Number Publication Date
CN108964042A CN108964042A (zh) 2018-12-07
CN108964042B true CN108964042B (zh) 2021-10-15

Family

ID=64463556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810819706.9A Active CN108964042B (zh) 2018-07-24 2018-07-24 基于深度q网络的区域电网运行点调度优化方法

Country Status (1)

Country Link
CN (1) CN108964042B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741091B (zh) * 2018-12-18 2022-08-12 河海大学 基于基础负荷削减策略的用户负荷分类方法
CN109754075B (zh) * 2019-01-16 2021-07-02 中南民族大学 无线传感器网络节点的调度方法、设备、存储介质及装置
CN110264750B (zh) * 2019-06-14 2020-11-13 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN110414725B (zh) * 2019-07-11 2021-02-19 山东大学 预测决策一体化的风电场储能系统调度方法及装置
CN110288275B (zh) * 2019-07-25 2023-09-12 东南大学 一种提升综合能源系统韧性的方法
CN111160755B (zh) * 2019-12-26 2023-08-18 西北工业大学 一种基于dqn的飞机大修车间实时调度方法
CN111199272B (zh) * 2019-12-30 2023-11-03 同济大学 一种面向智能车间的自适应调度方法
CN111523737B (zh) * 2020-05-29 2022-06-28 四川大学 深度q网络驱动的电力系统运行方式自动趋优调整方法
CN111884213B (zh) * 2020-07-27 2022-03-08 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN112086958B (zh) * 2020-07-29 2022-02-08 国家电网公司西南分部 一种基于多步回溯强化学习算法的输电网扩展规划方法
CN112103971B (zh) * 2020-09-01 2023-07-28 广西大学 一种电网调频型飞轮储能系统的矢量强化学习控制方法
CN112202207A (zh) * 2020-09-16 2021-01-08 南京邮电大学 基于新能源出力随机特性的电网深度调峰运行优化方法
CN112186743B (zh) * 2020-09-16 2022-03-25 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN112564118B (zh) * 2020-11-23 2022-03-18 广西大学 一种分布式可拓展量子深宽度学习的实时电压控制方法
CN112488531B (zh) * 2020-12-02 2022-09-06 广东电网有限责任公司电力调度控制中心 基于深度强化学习的异构柔性负荷实时调控方法和装置
CN112862282B (zh) * 2021-01-27 2022-12-06 合肥工业大学 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法
CN112952847B (zh) * 2021-04-06 2022-09-16 合肥工业大学 考虑用电需求弹性的多区域主动配电系统调峰优化方法
CN113312839B (zh) * 2021-05-25 2022-05-06 武汉大学 一种基于强化学习的电网紧急辅助切负荷决策方法及装置
CN113469839A (zh) * 2021-06-30 2021-10-01 国网上海市电力公司 一种基于深度强化学习的智慧园区优化策略
CN113809780B (zh) * 2021-09-23 2023-06-30 沈阳工程学院 一种基于改进q学习惩罚选择的微电网优化调度方法
CN113807029B (zh) * 2021-10-19 2022-07-29 华北电力大学(保定) 基于深度强化学习的双时间尺度新能源电网电压优化方法
CN114202070B (zh) * 2021-11-23 2024-10-15 国网北京市电力公司 电力数据处理方法、装置、非易失性存储介质及处理器
CN114156893B (zh) * 2021-12-02 2022-07-26 中国电力科学研究院有限公司 面向新能源消纳场景的电网调度方法、装置、设备及介质
CN114662798B (zh) * 2022-05-17 2022-09-06 浙江大学 一种基于电网经济运行域的调度方法及装置、电子设备
CN114971250B (zh) * 2022-05-17 2024-05-07 重庆大学 基于深度q学习的综合能源经济调度系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228314A (zh) * 2016-08-11 2016-12-14 电子科技大学 基于深度增强学习的工作流调度方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228314A (zh) * 2016-08-11 2016-12-14 电子科技大学 基于深度增强学习的工作流调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Multilevel Deep Learning Method for Big Data Analysis and Emergency Management of Power System;X.Z.Wang等;《2016 IEEE International Conference on Big Data Analysis (ICBDA)》;20160714;第1-5页 *
基于深度Q学习的强鲁棒性智能发电控制器设计;殷林飞等;《电力自动化设备》;20180531;第38卷(第5期);第12-19页 *

Also Published As

Publication number Publication date
CN108964042A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108964042B (zh) 基于深度q网络的区域电网运行点调度优化方法
CN111884213B (zh) 一种基于深度强化学习算法的配电网电压调节方法
CN110365056B (zh) 一种基于ddpg的分布式能源参与配电网调压优化方法
CN114362196B (zh) 一种多时间尺度主动配电网电压控制方法
CN109347149A (zh) 基于深度q值网络强化学习的微电网储能调度方法及装置
CN114725936A (zh) 基于多智能体深度强化学习的配电网优化方法
CN111290831B (zh) 一种云计算基于强化学习的虚拟机迁移方法
CN115085202A (zh) 电网多区域智能功率协同优化方法、装置、设备及介质
CN116345578B (zh) 基于深度确定性策略梯度的微电网运行优化调度方法
CN113780688A (zh) 一种电热联合系统的优化运行方法、系统、设备及介质
CN115940294B (zh) 多级电网实时调度策略调整方法、系统、设备及存储介质
Liu et al. Multi-agent quantum-inspired deep reinforcement learning for real-time distributed generation control of 100% renewable energy systems
CN104915788B (zh) 一种考虑多风场相关性的电力系统动态经济调度的方法
CN116468159A (zh) 一种基于双延迟深度确定性策略梯度的无功优化方法
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN117172097A (zh) 基于云边协同与多智能体深度学习的配电网调度运行方法
CN114330649A (zh) 一种基于进化学习和深度强化学习的电压调节方法及系统
CN117833316A (zh) 一种用户侧储能动态优化运行的方法
CN108108837A (zh) 一种地区新能源电源结构优化预测方法和系统
CN117856258A (zh) 基于目标值竞争的多能协同互补优化方法、设备及介质
CN117117989A (zh) 一种机组组合深度强化学习求解方法
CN115133540B (zh) 一种配电网无模型的实时电压控制方法
CN116384692A (zh) 基于数据驱动的含风能电力系统环境经济调度方法及系统
CN110705756A (zh) 一种基于输入凸神经网络的电力能耗优化控制方法
CN115860180A (zh) 基于一致性强化学习算法的电网多时间尺度经济调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant