CN108964042A - 基于深度q网络的区域电网运行点调度优化方法 - Google Patents

基于深度q网络的区域电网运行点调度优化方法 Download PDF

Info

Publication number
CN108964042A
CN108964042A CN201810819706.9A CN201810819706A CN108964042A CN 108964042 A CN108964042 A CN 108964042A CN 201810819706 A CN201810819706 A CN 201810819706A CN 108964042 A CN108964042 A CN 108964042A
Authority
CN
China
Prior art keywords
network
scheduling
operating point
power grid
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810819706.9A
Other languages
English (en)
Other versions
CN108964042B (zh
Inventor
唐昊
王诗平
王珂
姚建国
杨胜春
吕凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201810819706.9A priority Critical patent/CN108964042B/zh
Publication of CN108964042A publication Critical patent/CN108964042A/zh
Application granted granted Critical
Publication of CN108964042B publication Critical patent/CN108964042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • H02J3/386
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/003Load forecast, e.g. methods or systems for forecasting future load demand
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/70Wind energy
    • Y02E10/76Power conversion electric or electronic aspects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Power Engineering (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提供了一种基于深度Q网络的区域电网运行点调度优化方法,包括步骤:确定区域电网运行点调度中心的调度架构;将区域电网运行点调度动态决策过程建模为相应的马尔科夫决策过程模型,该模型包含状态、行动、代价及优化目标函数;利用深度Q网络对马尔科夫动态决策过程模型进行策略求解;区域电网运行点至少包括下一个调度时段的常规火电机组出力、风电机组出力以及柔性负荷削减量;区域电网运行点的调度至少包括依据风电、负荷功率超短期预测信息和当前时段运行点信息,动态确定下一调度时段的电网运行点。本发明可有效应对新能源出力与负荷需求的随机性,充分发挥源‑荷互动调度潜力,维持区域电网功率的动态平衡,提高电网系统运行效率。

Description

基于深度Q网络的区域电网运行点调度优化方法
技术领域
本专利涉及电网智能调度技术领域,具体涉及一种基于深度Q网络的区域电网运行点调度优化方法。
背景技术
随着大规模风电并网和柔性负荷的迅速发展,源-荷双侧不确定性对电网调度运行的影响日益严重,源-荷互动为源-网-荷互动框架体系的重要组成部分,能够促进发用电资源的合理利用,提高系统运行的安全性、经济性、清洁性等综合效益。
现有技术中,存在在日前调度计划模型中考虑可中断负荷和激励负荷的方案,体现了负荷侧资源的潜在调峰效益,如杨楠等[杨楠,王波,刘涤尘,等.计及大规模风电和柔性负荷的电力系统供需侧联合随机调度方法[J].中国电机工程学报,2013,33(16):63-69.];也存在设计一种多时间尺度滚动协调的需求响应调度框架的方案,体现了负荷侧资源在不同时间尺度的调度潜力,如姚建国等[姚建国,杨胜春,王珂,等.平衡风功率波动的需求响应调度框架与策略设计[J].电力系统自动化,2014,38(9):85-92.]基于风功率波动和负荷响应的特征;还存在构建基于日前和实时调度的互动决策模型的方案,实现了间歇性能源和柔性负荷的协调优化,如Galvan等[Galvan E,Alcaraz G G,Cabrera N G.Two-phase Short-term Scheduling Approach with Intermittent Renewable EnergyResources and Demand Response[J].IEEE Latin America Transactions,2015,13(1):181-187.]。这些方案,是通过柔性负荷调度来应对发电侧资源的随机性问题,对电网运行点动态调度具有一定借鉴意义,然而传统处理不确定性电网调度问题的方法主要集中于鲁棒优化方法、不确定规划等,在解决区域电网运行点动态调度问题时,随着问题规模的增大,传统的算法会出现计算量大,“维数灾”、难以得到全局最优解等问题,其在线应用存在很大挑战。
发明内容
本发明的目的是提供一种基于深度Q网络的区域电网运行点调度优化方法,可有效应对新能源出力与负荷需求的随机性,充分发挥源-荷互动调度潜力,维持区域电网功率的动态平衡,提高电网系统的运行效率。
为了克服现有技术存在的问题,达到上述目的,本发明提供了一种基于深度Q网络的区域电网运行点调度优化方法,其包括以下步骤:
确定区域电网运行点调度中心的调度架构;
将区域电网运行点调度动态决策过程建模为相应的马尔科夫决策过程模型,该模型包含状态、行动、代价及优化目标函数;
利用深度Q网络对所述马尔科夫动态决策过程模型进行策略求解,获得优化策略;
其中,所述区域电网运行点至少包括下一个调度时段的常规火电机组出力、风电机组出力以及柔性负荷削减量;
所述调度架构至少包括NG个常规火电机组、NW个风电机组和NF个DLC柔性负荷代理;
所述区域电网运行点的调度至少包括依据风电、负荷功率超短期预测信息和当前时段运行点信息,动态确定下一调度时段的电网运行点。
优选的是,建立所述马尔科夫动态决策过程模型,包括以下步骤:
将一天的时间等分为K+1个调度时段,采用等周期决策,决策时刻为调度时段k的起始时刻tk,其中k∈{0,1,…K},则所述区域电网运行点调度中心在一天开始前从系统读取当天各时段的短期风电出力预测信息为PWjk、短期负荷功率预测信息为PLk、日前调度计划确定的火电机组启停为μik及出力为PGik、柔性负荷可调度容量为PDlkmax
在所述决策时刻tk,所述区域电网运行点调度中心获取紧邻两个调度时段的风电出力超短期预测数据为和负荷功率超短期预测数据为 组成系统在k时刻的状态
定义所述决策时刻tk系统的行动为调度时段k内各火电机组相对日前计划的出力调整量ΔPGik、风电机组弃风量以及柔性负荷削减量PDlk,将ΔPGik以及PDlk分别离散为一系列固定值,则ΔPGik和PDlk所取固定值的任一组合对应一种行动,即
定义所述区域电网在一个决策周期产生的运行代价ck,由决策周期对应调度时段k内火电机组出力调整代价柔性负荷补偿代价弃风补偿代价和未满足约束条件的惩罚代价组成,则运行代价ck表征为:
定义区域电网运行点调度在初始状态为s的有限时段优化性能准则函数为Vπ(s):
其中,π为优化策略,为系统状态sk到行动ak的映射,E为期望;优化性能准则函数Vπ(s)即是在策略π下的期望。
优选的是,利用深度Q网络进行策略求解以获得优化策略,包括以下步骤:
构造深度Q网络,包括当前值网络和目标值网络,初始化当前值网络权重参数θi、目标值网络权重参数输入序列宽度W、经验池容量D、批训练样本数B、学习因子α、贪心概率ε、折扣因子γ,定义任意一个样本轨道为m,样本轨道总数为M,令m=0;
令k=0,随机初始化系统状态sk
构造深度Q网络的输入序列由当前状态sk和记录的前W个决策时刻的状态、动作组成,当k<W时,当k≥W时,将序列输入到当前值网络,当前值网络的输出用来评估当前状态行动对的值函数,选取最小Q值对应的行动agreedy,同时,随机选取有效行动arand,采用ε-贪心策略选取行动ak,若ε<rand(0,1)成立,则将agreedy赋值给ak,否则将arand赋值给ak,逐渐减小ε的取值;
所述区域电网运行点调度中心执行决策时刻tk的行动ak,并观察决策周期内产生的运行代价ck,经过一个决策周期后,观察下一决策时刻的状态sk+1并构造输入序列将一条学习样本存储到经验池,判断经验池样本数是否大于经验池容量D,若是,则移除记忆最久远的一条样本;
判断经验池内学习样本数是否大于批训练样本数B,若是,则从经验池中随机抽取B条学习样本对当前值网络进行批训练,并判断k与K的大小,即,若k<K,令k=k+1,返回至构造深度Q网络的输入序列的步骤;若k=K,令m=m+1;
若m<M,返回至随机初始化系统状态sk的步骤;否则结束循环,完成当前值网络的参数训练,得到最优策略
优选的是,区域电网调度中心在运行时执行所述运行点调度优化策略,包括以下步骤:
构造实际决策时刻tk下的输入序列至少包括实际决策时刻tk下的状态信息;
根据最优策略选取最优行动得到该决策周期内各火电机组出力调整量ΔPGik、风电机组弃风量以及柔性负荷削减量PDlk
优选的是,离散为一系列固定值,包括以下步骤:
将火电机组i出力调整量ΔPGik从ΔPGik -到ΔPGik +离散化为共(2a+1)个固定值,其中ΔPGik -和ΔPGik +分别为根据出力上下限约束和爬坡约束确定的机组i在调度时段k的出力上调和下调容量;
将柔性负荷代理l的负荷削减量PDlk从0到PDlkmax离散化为共(b+1)个固定值,其中PDlkmax为柔性负荷代理l的最大可调度容量;
将风电机组弃风量从0到离散化为共(h+1)个固定值,其中αjk为风电机组j的最大可接受弃风率;
行动空间维度为
优选的是,所述约束条件,至少包括功率平衡约束、火电机组爬坡和出力上下限约束以及弃风量和柔性负荷削减量上限约束,具体表征为:
μik(PGimin-PGik)≤ΔPGik≤μik(PGimax-PGik);
ΔPGi(k-1)+(PGi(k-1)-PGik-rdi)≤ΔPGik≤ΔPGi(k-1)+(PGi(k-1)-PGik+rui);
0≤PDlk≤PDlkmax
其中,PWjk分别为风电机组j在k时段的风电功率超短期和短期预测值,PLk分别为负荷需求的超短期和短期预测值,PGimin、PGimax、rui、rdi分别为火电机组i的出力上下限和上下爬坡速率。
优选的是,所述构造当前值网络和目标网络结构一致,为H+M层深度卷积网络,前H层为卷积层,后M层为全连接层,其中最后一层的输出节点数目与动作数一致,表示每一种动作对应的Q值。
优选的是,深度Q网络的批训练,包括以下步骤:
从经验池中随机抽取B条经验,对每条经验作为目标值网络的输入,观察目标值网络的输出计算目标Q值若样本轨道在第j+1决策时刻终止则yj=cj,通过最小化当前Q值和目标Q值之间的均方误差更新当前值网络的参数,误差函数为采用随机梯度下降法更新当前值网络参数,每经过C轮迭代,将当前值网络的参数复制给目标值网络。
本发明的有益效果是:
1)本发明针对区域电网运行点动态调度问题,以系统日运行代价最小为目标,通过确定区域电网运行点源-荷双侧调度架构、建立区域电网运行点调度的马尔科夫决策过程模型、采用深度Q网络进行策略求解,可有效地应对区域电网中风电出力及负荷需求存在的随机性,在所得优化策略下,根据超短期风电出力和负荷需求预测信息,选择最优行动来调整常规发电机组出力、风电机组出力以及削减柔性负荷需求,动态制定区域电网运行点计划,提高电网系统的运行效益;
2)基于深度Q网络算法的策略求解,与传统优化算法相比,有效解决了维数灾问题,将学习优化方法应用到实际的电网智能调度中,提高区域电网运行点调度效率。
附图说明
图1为本发明提供的基于深度Q网络的区域电网运行点调度优化方法的流程图。
具体实施方式
下面结合附图对本发明做进一步说明,以使本领域普通技术人员参照本说明书后能够据以实施。
如图1所示,本实施方式提供了一种基于深度Q网络的区域电网运行点调度优化方法,其包括以下步骤:
S10,确定区域电网运行点调度中心的调度架构;
S20,将区域电网运行点调度动态决策过程建模为相应的马尔科夫决策过程模型,该模型包含状态、行动、代价及优化目标函数;
S30,利用深度Q网络对马尔科夫动态决策过程模型进行策略求解,获得优化策略;
上述实施方式中,区域电网含大规模风电和柔性负荷,区域电网运行点至少包括下一个调度时段的常规火电机组出力、风电机组出力以及柔性负荷削减量,区域电网运行点调度中心的可调度资源至少包括常规火电机组、风电机组和柔性负荷,因此,步骤S10中,调度架构至少包括NG个常规火电机组、NW个风电机组和NF个DLC(Direct Load Control,直接负荷控制)柔性负荷代理;而区域电网运行点的调度至少包括依据风电、负荷功率超短期预测信息和当前时段运行点信息,动态确定下一调度时段的电网运行点。
上述实施方式中,一方面,针对区域电网运行点动态调度问题,通过确定区域电网运行点源-荷双侧调度架构、建立区域电网运行点调度的马尔科夫决策过程模型、采用深度Q网络进行策略求解,在所得策略下,调度中心可根据决策时刻接下来两个时段的超短期风电出力、负荷需求预测信息和当前的电网运行点信息,动态确定下一调度时段的电网运行点计划,从而有效地应对区域电网中风电出力及负荷需求存在的随机性,维持区域电网功率的动态平衡。在所得优化策略下,根据超短期风电出力和负荷需求预测信息,选择最优行动来调整常规发电机组出力、风电机组出力以及削减柔性负荷需求,动态制定区域电网运行点计划,提高电网系统的运行效益。另一方面,基于深度Q网络算法的策略求解,与传统优化算法相比,有效解决了维数灾问题,将学习优化方法应用到实际的电网智能调度中,提高区域电网运行点调度效率。
需要说明的是,系统的行动包括决策周期内各火电机组出力调整量ΔPGik、风电弃风量以及柔性负荷代理负荷削减量PDlk。区域电网运行点调度优先调整火电机组出力,当火电机组调整能力不足时,系统将适当选择切负荷或弃风以维持功率平衡。
作为上述实施方式的优选,步骤S20中,建立马尔科夫动态决策过程模型,包括以下步骤:
S21,将一天的时间等分为K+1个调度时段,采用等周期决策,决策时刻为调度时段k的起始时刻tk,其中k∈{0,1,…K},则区域电网运行点调度中心在一天开始前从系统读取当天各时段的短期风电出力预测信息为PWjk、短期负荷功率预测信息为PLk、日前调度计划确定的火电机组启停为μik及出力为PGik、柔性负荷可调度容量为PDlkmax
S22,在决策时刻tk,区域电网运行点调度中心获取紧邻两个调度时段的风电出力超短期预测数据为和负荷功率超短期预测数据为 组成系统在k时刻的状态
S23,定义决策时刻tk系统的行动为调度时段k内各火电机组相对日前计划的出力调整量ΔPGik、风电机组弃风量以及柔性负荷削减量PDlk,将ΔPGik以及PDlk分别离散为一系列固定值,则ΔPGik和PDlk所取固定值的任一组合对应一种行动,即
S24,定义区域电网在一个决策周期产生的运行代价ck,由决策周期对应调度时段k内火电机组出力调整代价柔性负荷补偿代价弃风补偿代价和未满足约束条件的惩罚代价组成,则运行代价ck表征为:
S25,定义区域电网运行点调度在初始状态为s的有限时段优化性能准则函数为Vπ(s):
上述实施方式中,步骤S23中,通过该离散为一系列固定值的方法,系统的行动集为D=DG×DF×DW,其中 系统行动向量为其中 步骤S25中,π为优化策略,为系统状态sk到行动ak的映射,E为期望;优化性能准则函数Vπ(s)即是在策略π下的期望。区域电网运行点调度的优化目标是求得最优策略π*,则在最优策略π*下系统的平均日运行总代价最低。
该实施方式中,以系统日运行代价最小为目标,来建立区域电网运行点调度的马尔科夫决策过程模型以及采用深度Q网络(Deep Q Network,DQN)学习进行策略求解。需要说明的是,步骤S21提及的“短期”,提供了一种短期预测的方式,具体地,短期包括日前的未来24小时或48小时的时间范围,短期预测包括对未来24小时或48小时内的风电出力或负荷需求进行预测。步骤S22提及的“超短期”,提供了一种超短期预测的方式,具体地,超短期的时间尺度短于短期预测,超短期包括日内对未来15分钟~4小时的时间范围,超短期预测包括在日内对未来15分钟~4小时的时间范围内风电出力和负荷需求进行预测。
作为上述实施方式的进一步优选,步骤S30中,利用深度Q网络进行策略求解以获得优化策略,包括以下步骤:
S31,构造深度Q网络,包括当前值网络和目标值网络,初始化当前值网络权重参数θi、目标值网络权重参数输入序列宽度W、经验池容量D、批训练样本数B、学习因子α、贪心概率ε、折扣因子γ,定义任意一个样本轨道为m,样本轨道总数为M,令m=0;
S32,令k=0,随机初始化系统状态sk
S33,构造深度Q网络的输入序列由当前状态sk和记录的前W个决策时刻的状态、动作组成,当k<W时,当k≥W时,将序列输入到当前值网络,当前值网络的输出用来评估当前状态行动对的值函数,选取最小Q值对应的行动agreedy,同时,随机选取有效行动arand,采用ε-贪心策略选取行动ak,若ε<rand(0,1)成立,则将agreedy赋值给ak,否则将arand赋值给ak,逐渐减小ε的取值;
S34,区域电网运行点调度中心执行决策时刻tk的行动ak,并观察决策周期内产生的运行代价ck,经过一个决策周期后,观察下一决策时刻的状态sk+1并构造输入序列将一条学习样本存储到经验池,判断经验池样本数是否大于经验池容量D,若是,则移除记忆最久远的一条样本;
S35,判断经验池内学习样本数是否大于批训练样本数B,若是,则从经验池中随机抽取B条学习样本对当前值网络进行批训练,并判断k与K的大小,即,若k<K,令k=k+1,返回至构造深度Q网络的输入序列的步骤S33;若k=K,令m=m+1;
S36,若m<M,返回至随机初始化系统状态sk的步骤;否则结束循环,完成当前值网络的参数训练,得到最优策略
作为上述实施方式的进一步优选,区域电网调度中心在运行时执行所述运行点调度优化策略,包括以下步骤:
构造实际决策时刻tk下的输入序列至少包括实际决策时刻tk下的状态信息;
根据最优策略选取最优行动得到该决策周期内各火电机组出力调整量ΔPGik、风电机组弃风量以及柔性负荷削减量PDlk
作为上述实施方式的进一步优选,步骤S23中,离散为一系列固定值,包括以下步骤:
将火电机组i出力调整量ΔPGik从ΔPGik -到ΔPGik +离散化为共(2a+1)个固定值,其中ΔPGik -和ΔPGik +分别为根据出力上下限约束和爬坡约束确定的机组i在调度时段k的出力上调和下调容量;
将柔性负荷代理l的负荷削减量PDlk从0到PDlkmax离散化为共(b+1)个固定值,其中PDlkmax为柔性负荷代理l的最大可调度容量;
将风电机组弃风量从0到离散化为共(h+1)个固定值,其中αjk为风电机组j的最大可接受弃风率;
行动空间维度为
作为上述实施方式的进一步优选,步骤S24中,约束条件,至少包括功率平衡约束、火电机组爬坡和出力上下限约束以及弃风量和柔性负荷削减量上限约束,具体表征为:
μik(PGimin-PGik)≤ΔPGik≤μik(PGimax-PGik);
ΔPGi(k-1)+(PGi(k-1)-PGik-rdi)≤ΔPGik≤ΔPGi(k-1)+(PGi(k-1)-PGik+rui);
0≤PDlk≤PDlkmax
其中,PWjk分别为风电机组j在k时段的风电功率超短期和短期预测值,PLk分别为负荷需求的超短期和短期预测值,PGimin、PGimax、rui、rdi分别为火电机组i的出力上下限和上下爬坡速率。
作为上述实施方式的进一步优选,步骤S31中,构造当前值网络和目标网络结构一致,为H+M层深度卷积网络,前H层为卷积层,后M层为全连接层,其中最后一层的输出节点数目与动作数一致,表示每一种动作对应的Q值。
作为上述实施方式的进一步优选,步骤S36中,深度Q网络的批训练,包括以下步骤:
从经验池中随机抽取B条经验,对每条经验作为目标值网络的输入,观察目标值网络的输出计算目标Q值若样本轨道在第j+1决策时刻终止则yj=cj,通过最小化当前Q值和目标Q值之间的均方误差更新当前值网络的参数,误差函数为采用随机梯度下降法更新当前值网络参数,每经过C轮迭代,将当前值网络的参数复制给目标值网络。
本发明解决了区域电网运行点调度问题,将深度强化学习算法应用于电网智能调度领域,通过对运行数据进行离线学习,所得调度策略可根据不同的风电出力和负荷需求预测信息,动态确定电网最优运行点,促进了新能源的消纳,提高了电网的运行效益,有利于电力系统安全稳定地运行。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (8)

1.一种基于深度Q网络的区域电网运行点调度优化方法,其特征在于,其包括以下步骤:
确定区域电网运行点调度中心的调度架构;
将区域电网运行点调度动态决策过程建模为相应的马尔科夫决策过程模型,该模型包含状态、行动、代价及优化目标函数;
利用深度Q网络对所述马尔科夫动态决策过程模型进行策略求解,获得优化策略;
其中,所述区域电网运行点至少包括下一个调度时段的常规火电机组出力、风电机组出力以及柔性负荷削减量;
所述调度架构至少包括NG个常规火电机组、NW个风电机组和NF个DLC柔性负荷代理;
所述区域电网运行点的调度至少包括依据风电、负荷功率超短期预测信息和当前时段运行点信息,动态确定下一调度时段的电网运行点。
2.如权利要求1所述的基于深度Q网络的区域电网运行点调度优化方法,其特征在于,建立所述马尔科夫动态决策过程模型,包括以下步骤:
将一天的时间等分为K+1个调度时段,采用等周期决策,决策时刻为调度时段k的起始时刻tk,其中k∈{0,1,…K},则所述区域电网运行点调度中心在一天开始前从系统读取当天各时段的短期风电出力预测信息为PWjk、短期负荷功率预测信息为PLk、日前调度计划确定的火电机组启停为μik及出力为PGik、柔性负荷可调度容量为PDlkmax
在所述决策时刻tk,所述区域电网运行点调度中心获取紧邻两个调度时段的风电出力超短期预测数据为和负荷功率超短期预测数据为 组成系统在k时刻的状态
定义所述决策时刻tk系统的行动为调度时段k内各火电机组相对日前计划的出力调整量ΔPGik、风电机组弃风量以及柔性负荷削减量PDlk,将ΔPGik以及PDlk分别离散为一系列固定值,则ΔPGik和PDlk所取固定值的任一组合对应一种行动,即
定义所述区域电网在一个决策周期产生的运行代价ck,由决策周期对应调度时段k内火电机组出力调整代价柔性负荷补偿代价弃风补偿代价和未满足约束条件的惩罚代价组成,则运行代价ck表征为:
定义区域电网运行点调度在初始状态为s的有限时段优化性能准则函数为Vπ(s):
其中,π为优化策略,为系统状态sk到行动ak的映射,E为期望;优化性能准则函数Vπ(s)即是在策略的期望。
3.如权利要求2所述的基于深度Q网络的区域电网运行点调度优化方法,其特征在于,利用深度Q网络进行策略求解以获得优化策略,包括以下步骤:
构造深度Q网络,包括当前值网络和目标值网络,初始化当前值网络权重参数θi、目标值网络权重参数输入序列宽度W、经验池容量D、批训练样本数B、学习因子α、贪心概率ε、折扣因子γ,定义任意一个样本轨道为m,样本轨道总数为M,令m=0;
令k=0,随机初始化系统状态sk
构造深度Q网络的输入序列 由当前状态sk和记录的前W个决策时刻的状态、动作组成,当k<W时,当k≥W时,将序列输入到当前值网络,当前值网络的输出用来评估当前状态行动对的值函数,选取最小Q值对应的行动agreedy,同时,随机选取有效行动arand,采用ε-贪心策略选取行动ak,若ε<rand(0,1)成立,则将agreedy赋值给ak,否则将arand赋值给ak,逐渐减小ε的取值;
所述区域电网运行点调度中心执行决策时刻tk的行动ak,并观察决策周期内产生的运行代价ck,经过一个决策周期后,观察下一决策时刻的状态sk+1并构造输入序列将一条学习样本存储到经验池,判断经验池样本数是否大于经验池容量D,若是,则移除记忆最久远的一条样本;
判断经验池内学习样本数是否大于批训练样本数B,若是,则从经验池中随机抽取B条学习样本对当前值网络进行批训练,并判断k与K的大小,即,若k<K,令k=k+1,返回至构造深度Q网络的输入序列的步骤;若k=K,令m=m+1;
若m<M,返回至随机初始化系统状态sk的步骤;否则结束循环,完成当前值网络的参数训练,得到最优策略
4.如权利要求3所述的基于深度Q网络的区域电网运行点调度优化方法,其特征在于,区域电网调度中心在运行时执行所述运行点调度优化策略,包括以下步骤:
构造实际决策时刻tk下的输入序列至少包括实际决策时刻tk下的状态信息;
根据最优策略选取最优行动得到该决策周期内各火电机组出力调整量ΔPGik、风电机组弃风量以及柔性负荷削减量PDlk
5.如权利要求2所述的基于深度Q网络的区域电网运行点调度优化方法,其特征在于,离散为一系列固定值,包括以下步骤:
将火电机组i出力调整量ΔPGik从ΔPGik -到ΔPGik +离散化为共(2a+1)个固定值,其中ΔPGik -和ΔPGik +分别为根据出力上下限约束和爬坡约束确定的机组i在调度时段k的出力上调和下调容量;
将柔性负荷代理l的负荷削减量PDlk从0到PDlkmax离散化为共(b+1)个固定值,其中PDlkmax为柔性负荷代理l的最大可调度容量;
将风电机组弃风量从0到离散化为共(h+1)个固定值,其中αjk为风电机组j的最大可接受弃风率;
行动空间维度为
6.如权利要求2所述的基于深度Q网络的区域电网运行点调度优化方法,其特征在于,所述约束条件,至少包括功率平衡约束、火电机组爬坡和出力上下限约束以及弃风量和柔性负荷削减量上限约束,具体表征为:
μik(PGimin-PGik)≤ΔPGik≤μik(PGimax-PGik);
ΔPGi(k-1)+(PGi(k-1)-PGik-rdi)≤ΔPGik≤ΔPGi(k-1)+(PGi(k-1)-PGik+rui);
0≤PDlk≤PDlkmax
其中,PWjk分别为风电机组j在k时段的风电功率超短期和短期预测值,PLk分别为负荷需求的超短期和短期预测值,PGimin、PGimax、rui、rdi分别为火电机组i的出力上下限和上下爬坡速率。
7.如权利要求2所述的基于深度Q网络的区域电网运行点调度优化方法,其特征在于,所述构造当前值网络和目标网络结构一致,为H+M层深度卷积网络,前H层为卷积层,后M层为全连接层,其中最后一层的输出节点数目与动作数一致,表示每一种动作对应的Q值。
8.如权利要求2所述的基于深度Q网络的区域电网运行点调度优化方法,其特征在于,深度Q网络的批训练,包括以下步骤:
从经验池中随机抽取B条经验,对每条经验作为目标值网络的输入,观察目标值网络的输出计算目标Q值若样本轨道在第j+1决策时刻终止则yj=cj,通过最小化当前Q值和目标Q值之间的均方误差更新当前值网络的参数,误差函数为采用随机梯度下降法更新当前值网络参数,每经过C轮迭代,将当前值网络的参数复制给目标值网络。
CN201810819706.9A 2018-07-24 2018-07-24 基于深度q网络的区域电网运行点调度优化方法 Active CN108964042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810819706.9A CN108964042B (zh) 2018-07-24 2018-07-24 基于深度q网络的区域电网运行点调度优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810819706.9A CN108964042B (zh) 2018-07-24 2018-07-24 基于深度q网络的区域电网运行点调度优化方法

Publications (2)

Publication Number Publication Date
CN108964042A true CN108964042A (zh) 2018-12-07
CN108964042B CN108964042B (zh) 2021-10-15

Family

ID=64463556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810819706.9A Active CN108964042B (zh) 2018-07-24 2018-07-24 基于深度q网络的区域电网运行点调度优化方法

Country Status (1)

Country Link
CN (1) CN108964042B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741091A (zh) * 2018-12-18 2019-05-10 河海大学 基于基础负荷消减策略的用户负荷分类方法
CN109754075A (zh) * 2019-01-16 2019-05-14 中南民族大学 无线传感器网络节点的调度方法、设备、存储介质及装置
CN110264750A (zh) * 2019-06-14 2019-09-20 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN110288275A (zh) * 2019-07-25 2019-09-27 东南大学 一种提升综合能源系统韧性的方法
CN110414725A (zh) * 2019-07-11 2019-11-05 山东大学 预测决策一体化的风电场储能系统调度方法及装置
CN111160755A (zh) * 2019-12-26 2020-05-15 西北工业大学 一种基于dqn的飞机大修车间实时调度方法
CN111199272A (zh) * 2019-12-30 2020-05-26 同济大学 一种面向智能车间的自适应调度方法
CN111523737A (zh) * 2020-05-29 2020-08-11 四川大学 深度q网络驱动的电力系统运行方式自动趋优调整方法
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN112086958A (zh) * 2020-07-29 2020-12-15 国家电网公司西南分部 一种基于多步回溯强化学习算法的输电网扩展规划方法
CN112103971A (zh) * 2020-09-01 2020-12-18 广西大学 一种电网调频型飞轮储能系统的矢量强化学习控制方法
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN112202207A (zh) * 2020-09-16 2021-01-08 南京邮电大学 基于新能源出力随机特性的电网深度调峰运行优化方法
CN112488531A (zh) * 2020-12-02 2021-03-12 广东电网有限责任公司电力调度控制中心 基于深度强化学习的异构柔性负荷实时调控方法和装置
CN112564118A (zh) * 2020-11-23 2021-03-26 广西大学 一种分布式可拓展量子深宽度学习的实时电压控制方法
CN112862282A (zh) * 2021-01-27 2021-05-28 合肥工业大学 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法
CN112952847A (zh) * 2021-04-06 2021-06-11 合肥工业大学 考虑用电需求弹性的多区域主动配电系统调峰优化方法
CN113312839A (zh) * 2021-05-25 2021-08-27 武汉大学 一种基于强化学习的电网紧急辅助切负荷决策方法及装置
CN113469839A (zh) * 2021-06-30 2021-10-01 国网上海市电力公司 一种基于深度强化学习的智慧园区优化策略
CN113807029A (zh) * 2021-10-19 2021-12-17 华北电力大学(保定) 一种基于深度强化学习的双时间尺度电网电压优化方法
CN113809780A (zh) * 2021-09-23 2021-12-17 沈阳工程学院 一种基于改进q学习惩罚选择的微电网优化调度方法
CN114156893A (zh) * 2021-12-02 2022-03-08 中国电力科学研究院有限公司 面向新能源消纳场景的电网调度方法、装置、设备及介质
CN114662798A (zh) * 2022-05-17 2022-06-24 浙江大学 一种基于电网经济运行域的调度方法及装置、电子设备
CN114971250A (zh) * 2022-05-17 2022-08-30 重庆大学 基于深度q学习的综合能源经济调度系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228314A (zh) * 2016-08-11 2016-12-14 电子科技大学 基于深度增强学习的工作流调度方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228314A (zh) * 2016-08-11 2016-12-14 电子科技大学 基于深度增强学习的工作流调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
X.Z.WANG等: "A Multilevel Deep Learning Method for Big Data Analysis and Emergency Management of Power System", 《2016 IEEE INTERNATIONAL CONFERENCE ON BIG DATA ANALYSIS (ICBDA)》 *
殷林飞等: "基于深度Q学习的强鲁棒性智能发电控制器设计", 《电力自动化设备》 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741091A (zh) * 2018-12-18 2019-05-10 河海大学 基于基础负荷消减策略的用户负荷分类方法
CN109741091B (zh) * 2018-12-18 2022-08-12 河海大学 基于基础负荷削减策略的用户负荷分类方法
CN109754075A (zh) * 2019-01-16 2019-05-14 中南民族大学 无线传感器网络节点的调度方法、设备、存储介质及装置
CN110264750A (zh) * 2019-06-14 2019-09-20 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN110264750B (zh) * 2019-06-14 2020-11-13 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN110414725A (zh) * 2019-07-11 2019-11-05 山东大学 预测决策一体化的风电场储能系统调度方法及装置
CN110288275A (zh) * 2019-07-25 2019-09-27 东南大学 一种提升综合能源系统韧性的方法
CN110288275B (zh) * 2019-07-25 2023-09-12 东南大学 一种提升综合能源系统韧性的方法
CN111160755A (zh) * 2019-12-26 2020-05-15 西北工业大学 一种基于dqn的飞机大修车间实时调度方法
CN111160755B (zh) * 2019-12-26 2023-08-18 西北工业大学 一种基于dqn的飞机大修车间实时调度方法
CN111199272A (zh) * 2019-12-30 2020-05-26 同济大学 一种面向智能车间的自适应调度方法
CN111199272B (zh) * 2019-12-30 2023-11-03 同济大学 一种面向智能车间的自适应调度方法
CN111523737B (zh) * 2020-05-29 2022-06-28 四川大学 深度q网络驱动的电力系统运行方式自动趋优调整方法
CN111523737A (zh) * 2020-05-29 2020-08-11 四川大学 深度q网络驱动的电力系统运行方式自动趋优调整方法
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN112086958B (zh) * 2020-07-29 2022-02-08 国家电网公司西南分部 一种基于多步回溯强化学习算法的输电网扩展规划方法
CN112086958A (zh) * 2020-07-29 2020-12-15 国家电网公司西南分部 一种基于多步回溯强化学习算法的输电网扩展规划方法
CN112103971A (zh) * 2020-09-01 2020-12-18 广西大学 一种电网调频型飞轮储能系统的矢量强化学习控制方法
CN112103971B (zh) * 2020-09-01 2023-07-28 广西大学 一种电网调频型飞轮储能系统的矢量强化学习控制方法
CN112202207A (zh) * 2020-09-16 2021-01-08 南京邮电大学 基于新能源出力随机特性的电网深度调峰运行优化方法
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN112564118A (zh) * 2020-11-23 2021-03-26 广西大学 一种分布式可拓展量子深宽度学习的实时电压控制方法
CN112564118B (zh) * 2020-11-23 2022-03-18 广西大学 一种分布式可拓展量子深宽度学习的实时电压控制方法
CN112488531B (zh) * 2020-12-02 2022-09-06 广东电网有限责任公司电力调度控制中心 基于深度强化学习的异构柔性负荷实时调控方法和装置
CN112488531A (zh) * 2020-12-02 2021-03-12 广东电网有限责任公司电力调度控制中心 基于深度强化学习的异构柔性负荷实时调控方法和装置
CN112862282A (zh) * 2021-01-27 2021-05-28 合肥工业大学 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法
CN112862282B (zh) * 2021-01-27 2022-12-06 合肥工业大学 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法
CN112952847A (zh) * 2021-04-06 2021-06-11 合肥工业大学 考虑用电需求弹性的多区域主动配电系统调峰优化方法
CN112952847B (zh) * 2021-04-06 2022-09-16 合肥工业大学 考虑用电需求弹性的多区域主动配电系统调峰优化方法
CN113312839B (zh) * 2021-05-25 2022-05-06 武汉大学 一种基于强化学习的电网紧急辅助切负荷决策方法及装置
CN113312839A (zh) * 2021-05-25 2021-08-27 武汉大学 一种基于强化学习的电网紧急辅助切负荷决策方法及装置
CN113469839A (zh) * 2021-06-30 2021-10-01 国网上海市电力公司 一种基于深度强化学习的智慧园区优化策略
CN113809780B (zh) * 2021-09-23 2023-06-30 沈阳工程学院 一种基于改进q学习惩罚选择的微电网优化调度方法
CN113809780A (zh) * 2021-09-23 2021-12-17 沈阳工程学院 一种基于改进q学习惩罚选择的微电网优化调度方法
CN113807029A (zh) * 2021-10-19 2021-12-17 华北电力大学(保定) 一种基于深度强化学习的双时间尺度电网电压优化方法
CN114156893A (zh) * 2021-12-02 2022-03-08 中国电力科学研究院有限公司 面向新能源消纳场景的电网调度方法、装置、设备及介质
CN114971250A (zh) * 2022-05-17 2022-08-30 重庆大学 基于深度q学习的综合能源经济调度系统
CN114662798A (zh) * 2022-05-17 2022-06-24 浙江大学 一种基于电网经济运行域的调度方法及装置、电子设备
CN114971250B (zh) * 2022-05-17 2024-05-07 重庆大学 基于深度q学习的综合能源经济调度系统

Also Published As

Publication number Publication date
CN108964042B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN108964042A (zh) 基于深度q网络的区域电网运行点调度优化方法
Chung et al. Distributed deep reinforcement learning for intelligent load scheduling in residential smart grids
Bahrami et al. Deep reinforcement learning for demand response in distribution networks
Liu et al. A reinforcement learning-based resource allocation scheme for cloud robotics
JP2013529879A (ja) 発電機の運転をスケジューリングするための方法
Levent et al. Energy management for microgrids: A reinforcement learning approach
CN106849097A (zh) 一种主动配电网潮流计算方法
CN103310279B (zh) 基于混合蚁群算法的多目标优化产品配置方法
CN101944157B (zh) 一种应用于仿真网格系统的生物智能调度方法
Abras et al. Advantages of MAS for the resolution of a power management problem in smart homes
CN110086855A (zh) 基于蚁群算法的Spark任务智能感知调度方法
CN109886446A (zh) 基于改进混沌粒子群算法的电力系统动态经济调度方法
CN116345578B (zh) 基于深度确定性策略梯度的微电网运行优化调度方法
Zhang et al. Deep reinforcement learning based cooperative partial task offloading and resource allocation for IIoT applications
CN111555368B (zh) 一种综合能源系统的深度生成式对抗网络调度与控制方法
CN110400056A (zh) 基于风光时空特性的梯级水电日前优化调度方法及装置
Sarkar et al. Concurrent Carbon Footprint Reduction (C2FR) Reinforcement Learning Approach for Sustainable Data Center Digital Twin
CN116995276B (zh) 燃料电池发电系统冷却方法及系统
Menon et al. A distributed learning algorithm with bit-valued communications for multi-agent welfare optimization
JP6607264B2 (ja) x管理システムのための最適スケジューリングおよびリアルタイム制御の方法
CN108321801A (zh) 一种能源基地系统日前发电计划制定方法和系统
Shresthamali et al. Power management of wireless sensor nodes with coordinated distributed reinforcement learning
Constantinou et al. An iot data system for solar self-consumption
Navarro-Caceres et al. An Evaluation of a Metaheuristic Artificial Immune System for Household Energy Optimization
CN109950933A (zh) 一种基于改进粒子群算法的风光储联合调峰优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant