CN115313403A - 一种基于深度强化学习算法的实时电压调控方法 - Google Patents

一种基于深度强化学习算法的实时电压调控方法 Download PDF

Info

Publication number
CN115313403A
CN115313403A CN202210871781.6A CN202210871781A CN115313403A CN 115313403 A CN115313403 A CN 115313403A CN 202210871781 A CN202210871781 A CN 202210871781A CN 115313403 A CN115313403 A CN 115313403A
Authority
CN
China
Prior art keywords
node
network
agent
sop
voltage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210871781.6A
Other languages
English (en)
Inventor
张有兵
熊美淞
费琦
杨晓东
王国烽
翁国庆
王立成
戚军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210871781.6A priority Critical patent/CN115313403A/zh
Publication of CN115313403A publication Critical patent/CN115313403A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/12Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
    • H02J3/16Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by adjustment of reactive power
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/04Power grid distribution networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/50Photovoltaic [PV] energy
    • Y02E10/56Power conversion systems, e.g. maximum power point trackers

Abstract

一种基于深度强化学习算法的实时电压调控方法,包括:S1:在日前阶段,建立集中优化模型,求解确定有载调压变压器和离散投切电容器组的控制策略;S2:在日中阶段,基于多智能体深度强化学习框架建立多智能体的实时优化深度神经网络,进行离线学习优化,最终获得SOP实时调控策略。本发明在第一阶段,将优化问题表述为一个混合整数二阶锥规划,获得有载分接开关和可投切电容器组的每小时调度策略;在第二阶段,将配电网划分为多个子网络,继而通过良好的控制策略和子网的局部测量信息,实时调节柔性软开关,完成电压的实时调控。本发明面向高渗透率光伏接入的配电网,有效缓解负荷波动带来的电压违规、网损增加等问题。

Description

一种基于深度强化学习算法的实时电压调控方法
技术领域
本发明提出了一种配电网的实时电压调控方法。
背景技术
随着以新能源为主体的新型电力系统构建,截至2021年,我国光伏累计装机达3.06亿千瓦,其中2021年新增分布式光伏2928万千瓦,增势迅猛。随着配电网接入分布式光伏显著增加,光能具有的强烈的随机性、间歇性和不可控性等特点会引发配电网运行电压波动大、易电压越限、网损增加等问题,这些光伏能源如何经济安全消纳成为严峻的挑战。
为解决上述问题,已有方法通常基于预测信息、在网络潮流约束下建立时序优化模型来实现降低系统损耗、减小电压偏移量等目的。但由于最优潮流(optimal powerflow,OPF)问题是一个非凸优化问题,其计算负担大且难以求解;且由于光伏预测的不确定性受地形、气候、时间等影响,难以准确量化光伏预测的随机性。
为缓解光伏的随机性影响,在电力系统中应用数据驱动的方式被广泛研究,例如:基于深度Q网络(deep q network,DQN)设计了一种无模型的实时电压调控方法,基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法实现的主动配电网优化运行方式等。此类方法在历史数据中学习控制策略,不依赖预测数据。但前者存在学习过程和优化策略离散的问题,与主动配电网的连续运行过程不符。后者在调控电压时需要获取全局信息,对通信能力要求较高。
考虑到通信能力的限制,集中学习、分散执行的方案能够在集中式的学习过程中获得良好的控制策略,而在实际电压调控过程中所需通信成本极低。与此同时,软开关(soft open point,SOP)能够通过实时优化系统潮流分布来进一步降低系统功率损耗、提升系统电压性能。因此,在实时电压调控框架中引入SOP、利用其连续精确的系统潮流调整优势,应对高比例光伏接入后的电压越限风险是有必要的。
综合以上因素,针对光伏随机性问题,需要制定一种新的实时电压调控方法。
发明内容
为解决配电系统中光伏能源的随机性问题,实现配电网的实时电压调控和在线无功优化,同时降低通信成本,本发明提供一种基于深度强化学习算法的实时电压调控方法。
为实现上述目的,本发明的技术方案为:
一种基于深度强化学习算法的实时电压调控方法,缓解光伏能源随机性问题、电压波动问题及降低网损,基于多智能体深度确定性策略梯度(multi-agent deepdeterministic policy gradient,MADDPG)算法引入一种致力于实时调节SOP以调控分布式电压的控制策略,所述方法包括以下步骤:
S1:在日前阶段,建立集中优化模型,求解确定有载调压变压器(on-load tapchangers,OLTC)和离散投切电容器组(capacitor banks,CBs)的控制策略;
S2:在日中阶段,基于多智能体深度强化学习(multi agent deep reinforcementlearning,MA-DRL)框架建立多智能体的实时优化深度神经网络(deep neural network,DNN),进行离线学习优化,最终获得SOP实时调控策略。
进一步,所述步骤S1中,日前集中优化模型建立和求解过程为:
min f=WL(floss+fswitch)+WVfV (1)
Figure BDA0003761180410000021
Figure BDA0003761180410000031
Figure BDA0003761180410000032
式(1)中各项的权重系数WL和WV可以通过使用层次分析处理来确定。系统总运行成本包括两部分,即电力损耗成本floss和开关调控成本fswitch。有功功率损耗的总成本涉及网络损耗和SOP输电造成的功率损耗,其中Closs、Ctap、Ccap分别是相关有功功率损耗、OLTC和CBs的成本系数。Ωb和ΩO分别是不含OLTC的支路合集和包含OLTC的支路合集。NT是时间段合集,NN是系统所有节点的合集。Δt是每个时段的持续时间,rij是支路ij上的电阻值,It,ij是t时期支路ij上通过的电流。开关运行的总成本由OLTC的调整成本和CBs的切换成本组成。Kt,ij是t时期支路ij上的OLTC档位;
Figure BDA0003761180410000033
是t时期在i节点上的档位数。Xt,i是引入的辅助变量,用以表示电压的偏移程度,其具有以下相关约束:
Figure BDA0003761180410000034
Figure BDA0003761180410000035
Xt,i≥0 (7)
Ut,i是t时期节点i的电压幅值;UEmax和UEmin分别是节点电压安全运行范围的上限和下限。
另外,需要满足SOP运行约束如下:
Figure BDA0003761180410000036
Figure BDA0003761180410000037
Figure BDA0003761180410000038
式(8)-(10)是SOP的有功功率约束,
Figure BDA0003761180410000041
Figure BDA0003761180410000042
分别是t时段节点i和节点j的变流器输出的有功功率;
Figure BDA0003761180410000043
Figure BDA0003761180410000044
分别是t时段SOP在节点i和节点j的变流器的有功损耗;
Figure BDA0003761180410000045
Figure BDA0003761180410000046
分别是SOP在节点i和节点j的变流器的损耗系数。
Figure BDA0003761180410000047
Figure BDA0003761180410000048
式(11)-(12)是SOP的无功功率约束,
Figure BDA0003761180410000049
Figure BDA00037611804100000410
分别是t时段节点i和节点j的变流器输出的无功功率;
Figure BDA00037611804100000411
Figure BDA00037611804100000412
分别是节点i的变流器所能输出的最大无功功率和最小无功功率;
Figure BDA00037611804100000413
Figure BDA00037611804100000414
分别是节点j的变流器所能输出的最大无功功率和最小无功功率。
需要满足OLTC和CBs约束如下:
Ut,i=kt,ijUt,j (13)
kt,ij=kij,0+Kt,ijΔkij (14)
Figure BDA00037611804100000415
Figure BDA00037611804100000416
式(13)-(16)表示OLTC调节电压与档位的关系和运行约束,Ut,i是t时期节点i上的电压,kt,ij和Kt,ij是t时期内OLTC的可调比和档位,kij,0和Δkij分别是OLTC的初始可调比和档位增量。NT是周期之和,NOLTC是一天内投切次数上限,
Figure BDA00037611804100000417
是档位变化的最大值。
Figure BDA00037611804100000418
Figure BDA00037611804100000419
Figure BDA00037611804100000420
式(17)-(19)表示CBs注入无功功率与档位的关系和运行约束,
Figure BDA00037611804100000421
表示节点i处CBs的单位无功功率容量,
Figure BDA00037611804100000422
是t时期内节点i上CBs的注入无功功率,
Figure BDA0003761180410000051
是t时期内节点i上CBs的投切数量,
Figure BDA0003761180410000052
是投切数量的最大值。
除了需要满足SOP、OLTC、CBs相关运行约束外,还需要满足以下约束条件:
Figure BDA0003761180410000053
Figure BDA0003761180410000054
Figure BDA0003761180410000055
Figure BDA0003761180410000056
Figure BDA0003761180410000057
Figure BDA0003761180410000058
Figure BDA0003761180410000059
Figure BDA00037611804100000510
rij和xij分别是支路ij的电阻和电抗,It,ij是该支路上的电流,Pt,ij和Qt,ij是t时段内该支路上的有功功率和无功功率。
Figure BDA00037611804100000511
是t时段i节点上接入光伏的有功功率;
Figure BDA00037611804100000512
Figure BDA00037611804100000513
是t时段i节点上SOP发出的有功功率和无功功率;
Figure BDA00037611804100000514
Figure BDA00037611804100000515
是t时段i节点上的有功功率损耗和无功功率损耗。
Figure BDA00037611804100000516
是t时段i节点上接入的CBs注入的无功功率。Sij是支路ij的容量。式(27)是节点电压约束,Umax和Umin分别是节点电压安全运行范围的上限和下限。
通过线性化和锥松弛,将式(1)的大规模混合整数非线性规划(mixed integernonlinear programming,MINLP)模型转换为混合整数二阶锥规划(mixed-integersecond-order cone programming,MISOCP)模型,应用商用求解器进行高效求解。根据二阶凸松弛技术的基本原理,将(8)-(10)式松弛后等价变形成下列形式:
Figure BDA0003761180410000061
由约束条件(25)松弛后等价变形成:
Figure BDA0003761180410000062
通过求解时序优化模型(1)得到OLTC、CBs和SOP的每小时调度策略,其中OLTC和CBs的调度策略将作为第二阶段中控制器的输入,SOP的控制策略则会在第二阶段进一步调整。
在所述步骤S2中,日内MA-DRL模型建立和优化包括以下内容:
S2-1:MA-DRL模型建立与优化
获取配电网中节点负荷、光伏、CBs数据信息,以上述数据信息作为智能体决策状态,基于MA-DRL框架建立多智能体的实时优化深度神经网络(deep neural network,DNN),决策动作是区域内SOP端口的有功功率传输量和无功功率补偿量。
DDPG算法中包含四个网络,分别是主动作网络、主评价网络、目标动作网络、目标评价网络。对于每个智能体,其主网络和对应目标网络的结构一致。
对于智能体主动作网络,其状态函数可表示为
Figure BDA0003761180410000063
控制动作定义为智能体包含的SOP端口的有功功率传输量和无功功率补偿量,SOP的决策动作由相应的智能体产生,可以表示如下:
Figure BDA0003761180410000064
其中
Figure BDA0003761180410000065
是智能体i的深度神经网络中的权值和偏差,Γ()是一个添加随机量的过程,通过将一个噪声样本和网络输出值相加完成动作取值的探索。噪声服从正态分布,均值为零,标准差为σi,t,参数σi,t的大小代表探索的程度,并在训练过程中随着衰减率而减小。
对于主评价网络,其状态函数应包含主动作网络的状态函数和决策动作,优化目标则为损失函数最小。智能体i的损失函数为:
Li=Ε(yi,t-Qi,t)2 (31)
其中Qi,t是t时段主评价网络的输出值,yi,t是t时段待优化的样本计算得到的评价网络输出值。
yi,t=ri,t+γQ′i,t+1 (32)
由于实时电压控制的目的是在减轻快速电压违规的同时最小化功率损失,因此奖励函数被定义如下:
Figure BDA0003761180410000071
其中
Figure BDA0003761180410000072
表示t时段整个电网系统所有线路的功率损失;
Figure BDA0003761180410000073
表示t时段该智能体所表示的网络内SOP的损耗成本;
Figure BDA0003761180410000074
表示t时段该智能体所表示网络内的电压违规情况。λ1代表了电压违规的惩罚因子,然后将其存储在经验池中。
MA-DRL算法实现如下:
1)各智能体对其主动作网络和主评价网络的
Figure BDA0003761180410000075
Figure BDA0003761180410000076
进行初始化操作,即初始化相关权重系数和偏差系数
2)初始化经验池和设置标准差σi,t
3)把
Figure BDA0003761180410000077
Figure BDA0003761180410000078
赋值给对应的目标动作网络和目标评价网络:
Figure BDA0003761180410000079
Figure BDA00037611804100000710
4)在主动作网络中,智能体根据观测到的状态信息st=[st,1...st,n],通过式(30)计算得到对应动作at=[at,1...at,n]
5)将得到的at与环境进行交互,通过式(33)计算得到奖励函数rt=[rt,1...rt,n]以及下一时刻的状态st+1=[st+1,1...st+1,n],并组成记忆样本存入经验回放池当中
6)在离线学习过程中,以N为取样数量对经验池进行小批量取样操作,计算目标函数yi,j,(i,j)表示智能体i抽取的第j个样本:
Figure BDA0003761180410000081
7)通过最小化损失函数更新n个主评价网络的权值和偏差,i表示第i个智能体:
Figure BDA0003761180410000082
8)根据以下公式,更新n个主目标网络的权值和偏差,i表示第i个智能体:
Figure BDA0003761180410000083
9)更新多智能体目标网络参数:
Figure BDA0003761180410000084
Figure BDA0003761180410000085
MA-DRL模型进行离线学习,在每次迭代中,每个智能体都根据自己的DNN执行操作,并与环境进行交互。根据操作进行潮流计算,并将更新后的状态信息返回给每个智能体。考虑电压和SOP有功、无功功率约束,制定了一个旨在最小化功率损失的奖励函数。根据奖励值计算损失函数评估返回的状态信息,基于牛顿拉普逊法优化DNN参数。多次迭代最终获得SOP实时调控策略。
本发明基于数据驱动进行两阶段分布式电压调控,在第一阶段,将优化问题表述为一个混合整数二阶锥规划,获得有载分接开关和可投切电容器组的每小时调度策略;在第二阶段,将配电网划分为多个子网络,继而通过良好的控制策略和子网的局部测量信息,实时调节柔性软开关(SOP),完成电压的实时调控。本发明面向高渗透率光伏接入的配电网,通过配电网局部信息获得控制设备调控策略,完成电压实施调控,不需额外通信成本,且不依赖预测信息,有效缓解负荷波动带来的电压违规、网损增加等问题,解决了光伏能源随机性问题。
本发明的有益效果是:
1、极大程度上避免了由于预测误差所带来的控制不准确,仿真结果表明优化后的配电系统具有更高的安全性和经济效益。
2、仅在离线训练过程需要获取系统全局信息,分布式协同控制过程中仅依靠本地信息做出决策,降低了对通信能力的要求,减少了通信成本。
3、作为一种多时间尺度的电压控制框架,可以实现传统离散设备和新型连续设备的协同配合,降低配电网调控成本。
附图说明
图1是本发明的改进的IEEE33节点系统拓扑图。
图2是本发明的两阶段分布式电压调控框架。
图3是本发明的MA_DRL离线学习过程。
图4是本发明的一日内IEEE33节点系统有功功率损耗。
图5是本发明的IEEE33节点系统测试集上电压分布。
图6是本发明的改进的IEEE123节点系统拓扑图。
图7是本发明的一日内IEEE33节点系统有功功率损耗。
图8是本发明的IEEE33节点系统测试集上电压分布。
图9是本发明的流程图。
具体实施方法
下面结合附图对本专利做进一步说明。
参照图1~图9,一种基于深度强化学习算法的实时电压调控方法,建立了一种致力于实时调节SOP以调控分布式电压的控制策略,所述方法包括以下步骤:
S1:在日前阶段,建立集中优化模型,求解确定有载调压变压器(on-load tapchangers,OLTC)和离散投切电容器组(capacitor banks,CBs)的控制策略;
S2:在日中阶段,基于多智能体深度强化学习(multi agent deep reinforcementlearning,MA-DRL)框架建立多智能体的实时优化深度神经网络(deep neural network,DNN),进行离线学习优化,最终获得SOP实时调控策略。
所述步骤S1中,日前集中优化模型建立和求解过程为:
minf=WL(floss+fswitch)+WVfV (1)
Figure BDA0003761180410000101
Figure BDA0003761180410000102
Figure BDA0003761180410000103
式(1)中各项的权重系数WL和WV可以通过使用层次分析处理来确定。系统总运行成本包括两部分,即电力损耗成本floss和开关调控成本fswitch。有功功率损耗的总成本涉及网络损耗和SOP输电造成的功率损耗,其中Closs、Ctap、Ccap分别是相关有功功率损耗、OLTC和CBs的成本系数。Ωb和ΩO分别是不含OLTC的支路合集和包含OLTC的支路合集。NT是时间段合集,NN是系统所有节点的合集。Δt是每个时段的持续时间,rij是支路ij上的电阻值,It,ij是t时期支路ij上通过的电流。开关运行的总成本由OLTC的调整成本和CBs的切换成本组成。Kt,ij是t时期支路ij上的OLTC档位;
Figure BDA0003761180410000104
是t时期在i节点上的档位数。Xt,i是引入的辅助变量,用以表示电压的偏移程度,其具有以下相关约束:
Figure BDA0003761180410000105
Figure BDA0003761180410000106
Xt,i≥0 (7)
Ut,i是t时期节点i的电压幅值;UEmax和UEmin分别是节点电压安全运行范围的上限和下限。
另外,需要满足SOP、OLTC和CBs运行约束及以下约束条件:
Figure BDA0003761180410000111
Figure BDA0003761180410000112
Figure BDA0003761180410000113
Figure BDA0003761180410000114
Figure BDA0003761180410000115
Figure BDA0003761180410000116
Figure BDA0003761180410000117
Figure BDA0003761180410000118
rij和xij分别是支路ij的电阻和电抗,It,ij是该支路上的电流,Pt,ij和Qt,ij是t时段内该支路上的有功功率和无功功率。
Figure BDA0003761180410000119
是t时段i节点上接入光伏的有功功率;
Figure BDA00037611804100001110
Figure BDA00037611804100001111
是t时段i节点上SOP发出的有功功率和无功功率;
Figure BDA00037611804100001112
Figure BDA00037611804100001113
是t时段i节点上的有功功率损耗和无功功率损耗。
Figure BDA00037611804100001114
是t时段i节点上接入的CBs注入的无功功率。Sij是支路ij的容量。式(27)是节点电压约束,Umax和Umin分别是节点电压安全运行范围的上限和下限。
通过线性化和锥松弛,将式(1)的大规模混合整数非线性规划(mixed integernonlinear programming,MINLP)模型转换为混合整数二阶锥规划(mixed-integersecond-order cone programming,MISOCP)模型,应用商用求解器进行高效求解,从而得到OLTC、CBs和SOP的每小时调度策略,其中OLTC和CBs的调度策略将作为第二阶段中控制器的输入,SOP的控制策略则会在第二阶段进一步调整。
在所述步骤S2中,日内MA-DRL模型建立和优化包括以下内容:
S2-1:MA-DRL模型建立与优化
获取配电网中节点负荷、光伏、CBs数据信息,以上述数据信息作为智能体决策状态,基于MA-DRL框架建立多智能体的实时优化深度神经网络(deep neural network,DNN),决策动作是区域内SOP端口的有功功率传输量和无功功率补偿量。
对于智能体主动作网络,其状态函数可表示为
Figure BDA0003761180410000121
控制动作定义为智能体包含的SOP端口的有功功率传输量和无功功率补偿量,SOP的决策动作由相应的智能体产生,可以表示如下:
Figure BDA0003761180410000122
其中
Figure BDA0003761180410000123
是智能体i的深度神经网络中的权值和偏差,Γ()是一个添加随机量的过程,通过将一个噪声样本和网络输出值相加完成动作取值的探索。噪声服从正态分布,均值为零,标准差为σi,t,参数σi,t的大小代表探索的程度,并在训练过程中随着衰减率而减小。
对于主评价网络,其状态函数应包含主动作网络的状态函数和决策动作,优化目标则为损失函数最小。
由于实时电压控制的目的是在减轻快速电压违规的同时最小化功率损失,因此奖励函数被定义如下:
Figure BDA0003761180410000124
其中
Figure BDA0003761180410000125
表示t时段整个电网系统所有线路的功率损失;
Figure BDA0003761180410000126
表示t时段该智能体所表示的网络内SOP的损耗成本;
Figure BDA0003761180410000127
表示t时段该智能体所表示网络内的电压违规情况。λ1代表了电压违规的惩罚因子,然后将其存储在经验池中。
MA-DRL算法实现如下:
1)各智能体对其主动作网络和主评价网络的
Figure BDA0003761180410000128
Figure BDA0003761180410000129
进行初始化操作,即初始化相关权重系数和偏差系数
2)初始化经验池和设置标准差σi,t
3)把
Figure BDA0003761180410000131
Figure BDA0003761180410000132
赋值给对应的目标动作网络和目标评价网络:
Figure BDA0003761180410000133
Figure BDA0003761180410000134
4)在主动作网络中,智能体根据观测到的状态信息st=[st,1...st,n],通过式(30)计算得到对应动作at=[at,1...at,n]
5)将得到的at与环境进行交互,通过式(33)计算得到奖励函数rt=[rt,1...rt,n]以及下一时刻的状态st+1=[st+1,1...st+1,n],并组成记忆样本存入经验回放池当中
6)在离线学习过程中,以N为取样数量对经验池进行小批量取样操作,计算目标函数yi,j,(i,j)表示智能体i抽取的第j个样本:
Figure BDA0003761180410000135
7)通过最小化损失函数更新n个主评价网络的权值和偏差,i表示第i个智能体:
Figure BDA0003761180410000136
8)根据以下公式,更新n个主目标网络的权值和偏差,i表示第i个智能体:
Figure BDA0003761180410000137
9)更新多智能体目标网络参数:
Figure BDA0003761180410000138
Figure BDA0003761180410000139
MA-DRL模型进行离线学习,在每次迭代中,每个智能体都根据自己的DNN执行操作,并与环境进行交互。根据操作进行潮流计算,并将更新后的状态信息返回给每个智能体。考虑电压和SOP有功、无功功率约束,制定了一个旨在最小化功率损失的奖励函数。根据奖励值计算损失函数评估返回的状态信息,基于牛顿拉普逊法优化DNN参数。多次迭代最终获得SOP实时调控策略。
为使本领域技术人员更好地理解本发明,算例分析包括以下构成:
一、算例描述及仿真结果分析
本发明算例在Python3.7环境中编写优化程序,并用到Pypower5.1.4、Tensorflow1.15求解模型,所采用的计算机CPU为Intel酷睿i5处理器(1.6GHz,RAM8GB)。
本节算例在改进IEEE33节点系统(图1)上进行。电压调控设备的容量、运行参数、放置位置如表1所示。SOP中各逆变器的损耗系数为0.02,通过层次分析法确定权重系数WL和WV分别为0.833和0.167,从上层电网购电成本Closs为0.48元/kWh,OLTC动作成本系数Ctap为8.4元/次,CBs动作成本系数Ccap为1.44元/次,期望电压上、下限分别为1.03p.u和0.97p.u,安全电压上、下限分别为1.05p.u和0.95p.u。在离线训练过程中,所使用的光伏和负载数据均采用真实的历史数据(2021.3.2-2021.7.31),光伏输出来自昆士兰州Gatton的光伏系统,负荷数据来自澳大利亚能源市场运营商(AEMO),采样时间间隔每5分钟一次。每小时真实数据的平均值视为日前优化的光伏和负荷预测。
Figure BDA0003761180410000141
表1
对于每个多智能体,它们的神经网络层数是相同的,包含一层输入层,两层隐藏层和一层输出层,输入数和输出数对应各个智能体的状态和动作的维数。隐藏层采用的是全连接形式,神经元个数分别为490和160个,激活函数分别是Relu和tanh激活函数。经验池最大容量为10000组,小批量取样的样本数量为32组,学习率为1e-3,衰减因子γ为0.9,惩罚因子λ1为10。
为验证所提方法的有效性,在改进的IEEE33节点系统上对现有的多种方法进行了比较测试,预测值设为具有最高不超过30%的随机性,通过电压安全和网络损耗两个方面对以下案例进行对比分析:
案例1:未施加任何调控,为基础参考对比案例。
案例2:随机规划(SP)方法,其中所有的子网络都分别进行了优化,每个子网络的目标是基于局部信息来最小化电压偏差,随机生成20个场景来表示不确定性。
案例3:模型预测控制(MPC)方法,通过日内滚动优化对日前预测信息减小与实际值差值,实时进行电压调控,减小电压偏差。
案例4:基于模型的集中控制方法,这里假设负荷需求和光伏发电已知,即预测值与实际值一致,使用求解器Gurobi基于全局信息来解决确定性情况,以完美模型的结果作为基准。
案例5:本文所提方案。
案例6:集中式DDPG方案。
各个时段的网络有功功率损失情况和整个训练集合的电压分布见图6所示。所有方案的最大电压偏差、平均电压偏差、总违规时间、平均网络损耗见表2,其中最大电压偏差包含最大上升和最大下降电压偏差。
可以看出,当不施加无功功率补偿时,电压将超过安全运行范围且存在较大的电压违规情况。SP和MPC的方法可以减少大部分电压违规情况,但仍然存在少量电压违规。理想中的集中优化、本文所提方案和集中式DDPG方案都可以应对所有电压违规情况,但在网络有功功率损耗方面存在一定性能差异,结果表现为理想中的集中式优化功率损耗最低,本文所提方案和传统DDPG方案在平均功率损失上比理想中的集中式优化方案约多0.005kWh。由于本文所提方案在实际电压控制过程中减少了不必要的通信成本和减轻了计算负担,因此在大规模分布式光伏接入配电网的场景中具有显著优势。
Figure BDA0003761180410000161
表2
为验证所提方法的可扩展性,在IEEE 123节点系统上进行比较测试。经过对50000组样本数据进行离线训练后,对以下三种情况进行比对:
案例1:未施加任何调控,为基础参考对比案例。
案例2:基于模型的集中控制方法,这里假设负荷需求和光伏发电已知,即预测值与实际值一致,使用商用求解器Gurobi基于全局信息来解决确定性情况,以完美模型的结果作为基准。
案例3:本文所提方案。
各时段的网络有功功率损失和测试集上的电压分布如图7所示。可以看出案例2和案例3在保证电压安全稳定的情况下能有效减小网络损耗,明显优异于案例1。其中案例2的电压分布在1.02~0.96之间,案例3的电压分布在1.04~0.95之间,都处于期望范围之内。在功率损失方面,案例2一天内总功率损失约为25700KW,案例3一天内总功率损失约为29000KW,都远低于案例1中未施加任何控制的情况。
结果表明,所提方法在IEEE123节电系统中仍然具有适用性,避免了快速电压违规情况,同时增加了经济效益,证明了所提方法的可扩展性。
综上可知,本发明以缓解光伏能源接入配电网导致的不稳定性为目标,考虑SOP的连续响应能力,提出了一种致力于实时调节SOP以调控分布式电压的控制策略。该方法能在保证配电网电压分布稳定的前提下,减小网络损耗,促进高渗透率光伏能源的安全消纳。
在本说明书的描述中,对本发明的示意性表述不必须针对的是相同的实施例或示例,本领域的技术人员可以将本说明书中描述的不同实施或示例进行结合和组合。此外,本说明书实施所述的额内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施案例所陈述的具体形式,本发明的保护范围也包括本领域技术人员根据发明构思所能想到的等同技术手段。

Claims (3)

1.一种基于深度强化学习算法的实时电压调控方法,其特征在于,包括以下步骤:
S1:在日前阶段,建立集中优化模型,求解确定有载调压变压器(on-load tapchangers,OLTC)和离散投切电容器组(capacitor banks,CBs)的控制策略;
S2:在日中阶段,基于多智能体深度强化学习(multi agent deep reinforcementlearning,MA-DRL)框架建立多智能体的实时优化深度神经网络(deep neural network,DNN),进行离线学习优化,最终获得SOP实时调控策略。
2.如权利要求1所述的基于深度强化学习算法的实时电压调控方法,其特征在于,所述步骤S1中,日前集中优化模型建立和求解过程为:
min f=WL(floss+fswitch)+WVfV (1)
Figure FDA0003761180400000011
Figure FDA0003761180400000012
Figure FDA0003761180400000013
式(1)中各项的权重系数WL和WV可以通过使用层次分析处理来确定;系统总运行成本包括两部分,即电力损耗成本floss和开关调控成本fswitch;有功功率损耗的总成本涉及网络损耗和SOP输电造成的功率损耗,其中Closs、Ctap、Ccap分别是相关有功功率损耗、OLTC和CBs的成本系数;Ωb和ΩO分别是不含OLTC的支路合集和包含OLTC的支路合集;NT是时间段合集,NN是系统所有节点的合集;Δt是每个时段的持续时间,rij是支路ij上的电阻值,It,ij是t时期支路ij上通过的电流;开关运行的总成本由OLTC的调整成本和CBs的切换成本组成;Kt,ij是t时期支路ij上的OLTC档位;
Figure FDA0003761180400000021
是t时期在i节点上的档位数;Xt,i是引入的辅助变量,用以表示电压的偏移程度,其具有以下相关约束:
Figure FDA0003761180400000022
Figure FDA0003761180400000023
Xt,i≥0 (7)
Ut,i是t时期节点i的电压幅值;UEmax和UEmin分别是节点电压安全运行范围的上限和下限;
另外,需要满足SOP运行约束如下:
Figure FDA0003761180400000024
Figure FDA0003761180400000025
Figure FDA0003761180400000026
式(8)-(10)是SOP的有功功率约束,
Figure FDA0003761180400000027
Figure FDA0003761180400000028
分别是t时段节点i和节点j的变流器输出的有功功率;
Figure FDA0003761180400000029
Figure FDA00037611804000000210
分别是t时段SOP在节点i和节点j的变流器的有功损耗;
Figure FDA00037611804000000211
Figure FDA00037611804000000212
分别是SOP在节点i和节点j的变流器的损耗系数;
Figure FDA00037611804000000213
Figure FDA00037611804000000214
式(11)-(12)是SOP的无功功率约束,
Figure FDA00037611804000000215
Figure FDA00037611804000000216
分别是t时段节点i和节点j的变流器输出的无功功率;
Figure FDA00037611804000000217
Figure FDA00037611804000000218
分别是节点i的变流器所能输出的最大无功功率和最小无功功率;
Figure FDA00037611804000000219
Figure FDA00037611804000000220
分别是节点j的变流器所能输出的最大无功功率和最小无功功率;
需要满足OLTC和CBs约束如下:
Ut,i=kt,ijUt,j (13)
kt,ij=kij,0+Kt,ijΔkij (14)
Figure FDA0003761180400000031
Figure FDA0003761180400000032
式(13)-(16)表示OLTC调节电压与档位的关系和运行约束,Ut,i是t时期节点i上的电压,kt,ij和Kt,ij是t时期内OLTC的可调比和档位,kij,0和Δkij分别是OLTC的初始可调比和档位增量;NT是周期之和,NOLTC是一天内投切次数上限,
Figure FDA0003761180400000033
是档位变化的最大值;
Figure FDA0003761180400000034
Figure FDA0003761180400000035
Figure FDA0003761180400000036
式(17)-(19)表示CBs注入无功功率与档位的关系和运行约束,
Figure FDA0003761180400000037
表示节点i处CBs的单位无功功率容量,
Figure FDA0003761180400000038
是t时期内节点i上CBs的注入无功功率,
Figure FDA0003761180400000039
是t时期内节点i上CBs的投切数量,
Figure FDA00037611804000000310
是投切数量的最大值;
除了需要满足SOP、OLTC、CBs相关运行约束外,还需要满足以下约束条件:
Figure FDA00037611804000000311
Figure FDA00037611804000000312
Figure FDA00037611804000000313
Figure FDA00037611804000000314
Figure FDA00037611804000000315
Figure FDA00037611804000000316
Figure FDA00037611804000000317
Figure FDA0003761180400000041
rij和xij分别是支路ij的电阻和电抗,It,ij是该支路上的电流,Pt,ij和Qt,ij是t时段内该支路上的有功功率和无功功率;
Figure FDA0003761180400000042
是t时段i节点上接入光伏的有功功率;
Figure FDA0003761180400000043
Figure FDA0003761180400000044
是t时段i节点上SOP发出的有功功率和无功功率;
Figure FDA0003761180400000045
Figure FDA0003761180400000046
是t时段i节点上的有功功率损耗和无功功率损耗;
Figure FDA0003761180400000047
是t时段i节点上接入的CBs注入的无功功率;Sij是支路ij的容量;式(27)是节点电压约束,Umax和Umin分别是节点电压安全运行范围的上限和下限;
通过线性化和锥松弛,将式(1)的大规模混合整数非线性规划(mixed integernonlinear programming,MINLP)模型转换为混合整数二阶锥规划(mixed-integersecond-order cone programming,MISOCP)模型,应用商用求解器进行高效求解;根据二阶凸松弛技术的基本原理,将(8)-(10)式松弛后等价变形成下列形式:
Figure FDA0003761180400000048
由约束条件(25)松弛后等价变形成:
Figure FDA0003761180400000049
通过求解时序优化模型(1)得到OLTC、CBs和SOP的每小时调度策略,其中OLTC和CBs的调度策略将作为第二阶段中控制器的输入,SOP的控制策略则会在第二阶段进一步调整。
3.如权利要求1或2所述的一种基于深度强化学习算法的实时电压调控方法,其特征在于,在所述步骤S2中,日内MA-DRL模型建立和优化包括以下内容:
S2-1:MA-DRL模型建立与优化
获取配电网中节点负荷、光伏、CBs数据信息,以上述数据信息作为智能体决策状态,基于MA-DRL框架建立多智能体的实时优化深度神经网络(deep neural network,DNN),决策动作是区域内SOP端口的有功功率传输量和无功功率补偿量;
DDPG算法中包含四个网络,分别是主动作网络、主评价网络、目标动作网络、目标评价网络;对于每个智能体,其主网络和对应目标网络的结构一致;
对于智能体主动作网络,其状态函数可表示为
Figure FDA0003761180400000051
控制动作定义为智能体包含的SOP端口的有功功率传输量和无功功率补偿量,SOP的决策动作由相应的智能体产生,可以表示如下:
Figure FDA0003761180400000052
其中
Figure FDA0003761180400000053
是智能体i的深度神经网络中的权值和偏差,Γ()是一个添加随机量的过程,通过将一个噪声样本和网络输出值相加完成动作取值的探索;噪声服从正态分布,均值为零,标准差为σi,t,参数σi,t的大小代表探索的程度,并在训练过程中随着衰减率而减小;
对于主评价网络,其状态函数应包含主动作网络的状态函数和决策动作,优化目标则为损失函数最小;智能体i的损失函数为:
Li=Ε(yi,t-Qi,t)2 (31)
其中Qi,t是t时段主评价网络的输出值,yi,t是t时段待优化的样本计算得到的评价网络输出值;
yi,t=ri,t+γQ′i,t+1 (32)
由于实时电压控制的目的是在减轻快速电压违规的同时最小化功率损失,因此奖励函数被定义如下:
Figure FDA0003761180400000054
其中
Figure FDA0003761180400000061
表示t时段整个电网系统所有线路的功率损失;
Figure FDA0003761180400000062
表示t时段该智能体所表示的网络内SOP的损耗成本;
Figure FDA0003761180400000063
表示t时段该智能体所表示网络内的电压违规情况;λ1代表了电压违规的惩罚因子,然后将其存储在经验池中;
MA-DRL算法实现如下:
1)各智能体对其主动作网络和主评价网络的
Figure FDA0003761180400000064
Figure FDA0003761180400000065
进行初始化操作,即初始化相关权重系数和偏差系数
2)初始化经验池和设置标准差σi,t
3)把
Figure FDA0003761180400000066
Figure FDA0003761180400000067
赋值给对应的目标动作网络和目标评价网络:
Figure FDA0003761180400000068
Figure FDA0003761180400000069
4)在主动作网络中,智能体根据观测到的状态信息st=[st,1...st,n],通过式(30)计算得到对应动作at=[at,1...at,n]
5)将得到的at与环境进行交互,通过式(33)计算得到奖励函数rt=[rt,1...rt,n]以及下一时刻的状态st+1=[st+1,1...st+1,n],并组成记忆样本存入经验回放池当中
6)在离线学习过程中,以N为取样数量对经验池进行小批量取样操作,计算目标函数yi,j,(i,j)表示智能体i抽取的第j个样本:
Figure FDA00037611804000000610
7)通过最小化损失函数更新n个主评价网络的权值和偏差,i表示第i个智能体:
Figure FDA00037611804000000611
8)根据以下公式,更新n个主目标网络的权值和偏差,i表示第i个智能体:
Figure FDA00037611804000000612
9)更新多智能体目标网络参数:
Figure FDA00037611804000000613
Figure FDA0003761180400000071
MA-DRL模型进行离线学习,在每次迭代中,每个智能体都根据自己的DNN执行操作,并与环境进行交互;根据操作进行潮流计算,并将更新后的状态信息返回给每个智能体;考虑电压和SOP有功、无功功率约束,制定了一个旨在最小化功率损失的奖励函数;
根据奖励值计算损失函数评估返回的状态信息,基于牛顿拉普逊法优化DNN参数;多次迭代最终获得SOP实时调控策略。
CN202210871781.6A 2022-07-22 2022-07-22 一种基于深度强化学习算法的实时电压调控方法 Pending CN115313403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210871781.6A CN115313403A (zh) 2022-07-22 2022-07-22 一种基于深度强化学习算法的实时电压调控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210871781.6A CN115313403A (zh) 2022-07-22 2022-07-22 一种基于深度强化学习算法的实时电压调控方法

Publications (1)

Publication Number Publication Date
CN115313403A true CN115313403A (zh) 2022-11-08

Family

ID=83858744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210871781.6A Pending CN115313403A (zh) 2022-07-22 2022-07-22 一种基于深度强化学习算法的实时电压调控方法

Country Status (1)

Country Link
CN (1) CN115313403A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116388280A (zh) * 2023-06-02 2023-07-04 电力规划总院有限公司 基于深度强化学习算法的综合能源系统电压控制方法及系统
CN116826762A (zh) * 2023-08-29 2023-09-29 天津大学 智能配电网电压安全控制方法、装置、设备及其介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116388280A (zh) * 2023-06-02 2023-07-04 电力规划总院有限公司 基于深度强化学习算法的综合能源系统电压控制方法及系统
CN116826762A (zh) * 2023-08-29 2023-09-29 天津大学 智能配电网电压安全控制方法、装置、设备及其介质
CN116826762B (zh) * 2023-08-29 2023-12-19 天津大学 智能配电网电压安全控制方法、装置、设备及其介质

Similar Documents

Publication Publication Date Title
CN107437813B (zh) 基于布谷鸟-粒子群的配电网无功功率优化方法
Erlich et al. Optimal dispatch of reactive sources in wind farms
CN115313403A (zh) 一种基于深度强化学习算法的实时电压调控方法
CN113363998B (zh) 一种基于多智能体深度强化学习的配电网电压控制方法
CN104037776B (zh) 随机惯性因子粒子群优化算法的电网无功容量配置方法
CN114362196B (zh) 一种多时间尺度主动配电网电压控制方法
CN103280821A (zh) 智能配电系统多时段动态无功优化方法
Zou Design of reactive power optimization control for electromechanical system based on fuzzy particle swarm optimization algorithm
CN105098788A (zh) 一种时序递进的无功电压优化调度控制方法
CN113300380A (zh) 一种基于负荷曲线分段的配电网无功优化补偿方法
CN109390953A (zh) 含分布式电源和电动汽车的低压配电网无功电压协调控制方法和系统
CN114597969B (zh) 计及智能软开关和虚拟电厂技术的配电网双层优化方法
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN115481856A (zh) 考虑综合需求响应的综合能源系统多尺度调度方法及系统
Hu et al. Deep reinforcement learning based coordinated voltage control in smart distribution network
CN110957731A (zh) 基于模型预测控制的分布式电源就地集群电压控制方法
CN111193295A (zh) 一种考虑动态重构的配网灵活性提升鲁棒优化调度方法
CN105207220B (zh) 一种基于渐进学习的分级电压调控方法
CN112787331B (zh) 基于深度强化学习的潮流收敛自动调整方法及系统
CN115912367A (zh) 一种基于深度强化学习的电力系统运行方式智能生成方法
CN113517723A (zh) 一种含小型水电站的配电网系统的无功电压优化方法
CN113629715A (zh) 一种计及可输电能力的upfc多目标优化配置方法
Zhang et al. Two-timescale coordinated voltage regulation for high renewable-penetrated active distribution networks considering hybrid devices
Liu et al. Deep-Q-network-based intelligent reschedule for power system operational planning
Kang et al. Power flow coordination optimization control method for power system with DG based on DRL

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination