CN113937829B - 一种基于d3qn的主动配电网多目标无功控制方法 - Google Patents

一种基于d3qn的主动配电网多目标无功控制方法 Download PDF

Info

Publication number
CN113937829B
CN113937829B CN202111355263.0A CN202111355263A CN113937829B CN 113937829 B CN113937829 B CN 113937829B CN 202111355263 A CN202111355263 A CN 202111355263A CN 113937829 B CN113937829 B CN 113937829B
Authority
CN
China
Prior art keywords
power
reactive
action
function
distribution network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111355263.0A
Other languages
English (en)
Other versions
CN113937829A (zh
Inventor
张旭
刘伯文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN202111355263.0A priority Critical patent/CN113937829B/zh
Publication of CN113937829A publication Critical patent/CN113937829A/zh
Application granted granted Critical
Publication of CN113937829B publication Critical patent/CN113937829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/50Controlling the sharing of the out-of-phase component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/18Arrangements for adjusting, eliminating or compensating reactive power in networks
    • H02J3/1821Arrangements for adjusting, eliminating or compensating reactive power in networks using shunt compensators
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/381Dispersed generators
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/28The renewable source being wind energy
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/50Photovoltaic [PV] energy
    • Y02E10/56Power conversion systems, e.g. maximum power point trackers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/30Reactive power compensation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Power Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于D3QN的主动配电网多目标无功控制方法,包括:以综合了主动配电网模型的电压偏差、网络损耗、无功补偿器动作成本和弃风弃光功率成本四部分的目标函数最小为优化控制目标;以配电网潮流约束、节点电压安全约束、支路电流安全约束为约束条件建立无功优化控制模型。然后设计了强化学习的状态空间、动作集合和奖励函数,构建了多目标无功控制的马尔科夫过程。最后基于D3QN深度强化学习网架迭代训练,得到经D3QN学习优化后的状态空间,寻找出主动配电网的最优调度状态。本发明的无功控制方法有效提升了电能质量,同时考虑了控制过程中的动作成本与新能源大规模接入配电网带来的弃风弃光功率成本,取得了很好的优化效果。

Description

一种基于D3QN的主动配电网多目标无功控制方法
技术领域
本发明涉及人工智能中的深度强化学习领域与电力系统调度控制中的无功控制领域,更具体地,涉及一种基于D3QN的主动配电网多目标无功控制方法。
背景技术
分布式发电(Distributed Generation,DG)的具体实现形式有风力发电和光伏发电,具有节能、环保的特点,且对于高峰期的电力负荷比集中供电更经济有效。DG大规模接入配电网可以提高清洁能源的比重,是实现“碳达峰、碳中和”的双碳目标,解决因煤炭价格上涨到之后的供电紧缺问题的重点所在。
为适应高渗透率、大规模DG的接入,国内外学者正积极开展智能电网背景下的具有一定调节能力的ADN技术研究。无功控制技术是AND运行的核心技术之一。具体的无功控制策略包括DG出力调度、电容器组无功补偿、有载调压变压器(on-load tap changer,OLTC)分接头调整、网络重构等。传统的无功控制目标为控制系统电压与网损,但随着高比例清洁能源的接入与配电网拓扑结构的日益复杂,传统的无功控制目标已经无法满足主动配电网发展的需要。
DG的强波动性会带来电压反复波动,可能导致无功补偿设备频繁地调节来控制电压偏差、优化网损。所以,在DG大规模接入配电网的大背景下,研究一种多目标的无功控制模型具有重要意义。
发明内容
为解决上述问题,本发明在主动配电网中的背景下提出了一种基于D3QN深度强化学习算法的多目标无功控制模型,控制的目标是使综合了电压偏差、有功功率损耗和无功补偿设备动作次数的目标函数达到最优值。
深度强化学习D3QN是一种新型深度强化学习算法,结合了Double DQN和DuelingDQN的优点,在传统DQN算法中做了改进。本发明设计的基于DQ3N算法的无功优化控制模型可以在大规模DG接入的背景下对多目标的主动配电网模型做综合优化。
具体地,本发明提出一种基于D3QN的主动配电网多目标无功控制方法,所述方法包括以下步骤:
S1:构建多目标无功控制模型的目标函数;
S2:构建上述目标函数的约束条件集合;
S3:设计强化学习中的马尔科夫决策过程;
S4:基于D3QN深度强化学习算法,完成所述无功控制模型的优化求解。
优选地,所述步骤S1所述的目标函数是包括主动配电网电压偏差、网络损耗、无功补偿设备动作成本和弃风弃光功率成本的多目标无功控制模型的目标函数,所述目标函数如下:
式中,λ1为电压偏差权重系数;△Ui为节点i的电压偏差,单位为kV;N为配电网节点总数;λ2为网络损耗权重系数;Ploss为配电网该断面下的总网络损耗,单位为MVA;λ3为无功补偿设备动作成本权重系数;cj为无功补偿设备j的单次动作成本,单位为元;Dj为无功步长设备j调节到优化挡位的动作次数;M为配电网中无功补偿设备的个数;λ4为弃风弃功率权重系数;△Pk为DG的弃风弃光功率,单位为MVA;G为配电网中分布式发电DG的个数。
优选地,所述步骤S2中约束条件包括:潮流功率平衡约束、节点电压安全约束、支路电流安全约束、有载调压变压器分接头装备约束、无功补偿设备装备约束和DG出力约束的约束条件集合。
优选地,所述步骤S3包括:
结合S1和S2中模型的目标函数与约束条件,构建强化学习的状态空间、动作空间与奖励函数。
优选地,所述步骤S4包括:
引入衰减因子γ,用回报Ft评价当前循环对未来预计的衰减奖励值的累加和:
Ft=Rt+γRt+12Rt+2+...+γnRt+n
回报Ft的数学期望是状态空间St和动作At的函数,用动作价值函数Qπ(S,A)表示,动作价值函数Qπ(S,A)也被称为Q值,其中π为选择动作时的策略:
Qπ(S,A)=Eπ[Ft|St=S,At=A]
最优的动作价值函数Q*(S,A)是所有策略下的动作价值函数的最大值,此时的策略也被称为最优策略:
Q*(S,A)=maxQπ(St,A)
优选地,所述D3QN深度神经网络包括输入层、3个卷积层、神经网络全连接层、value和advantage隐藏层和输出层7层;所述输入层为马尔科夫决策过程中的状态空间St,卷积层和全连接层为Q函数的逼近器,所述隐藏层将Q值拆分为value函数V(St)和优势函数a(At),最后在输出层得到Q的估计值。
优选地,所述步骤S4包括:
S401:根据设定的状态空间、动作集合、奖励函数,构建D3QN的马尔科夫决策过程学习环境;
S401:初始化目标网络和估值Q网络,为D3QN网络参数赋值;
S402:初始化经验回放池和状态S1,令初始阶段t=1;
S403:使用ω-greedy算法选择动作At
S404:执行动作At,获得奖励函数Rt和状态St+1,将(St,At,Rt,St+1)存入经验回放池中;
S405:判断是否达到结束状态:
如果是则结束流程,
如果否则在经验回放池中随机抽取样本数据(Si,Ai,Ri,Si+1),计算损失函数;
判断阶段t是否为nc(c为常数,n=1,2,...),
如果是,使用梯度下降算法更新损失函数权重ω,再令t=t+1,
如果否则直接t=t+1;再返回S404进行迭代循环。
本发明还提出一种终端,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行本发明所述方法的步骤。
本发明还提出计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明所述方法的步骤。
本发明的技术方案具有以下有益效果:
本发明的目标函数在考虑了传统的网损与电压偏差的同时也考虑了无功补偿器动作成本与弃风弃光功率成本两个重要因素,顺应配电网拓扑结构日益复杂与DG大规模接入配电网的时代发展需要;另外,本发明基于搜索效率更高的新型深度强化学习算法D3QN,相较DQN等智能算法与传统经验的调度方法更具有灵活性,以及自学习能力,经D3QN无功优化后,配电网电压偏差、网络损耗与弃风弃光功率明显降低,本发明的无功控制方法有效提升了电能质量,同时考虑了控制过程中的动作成本与新能源大规模接入配电网带来的弃风弃光功率成本,取得了很好的优化效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明提出的基于D3QN的主动配电网多目标无功控制模型的总体框架图;
图2为主动配电网的无功控制马尔科夫决策过程示意图;
图3为本发明D3QN算法的网络结构图;
图4为本发明D3QN求解主动配电网无功控制的方法流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于D3QN的主动配电网多目标无功控制模型总体框架图与马尔可夫决策过程示意图如图1-2所示,本发明所述的多目标无功控制方法主要包括如下步骤:
S1:提出包括主动配电网电压偏差、网络损耗、无功补偿设备动作成本和弃风弃光功率成本的多目标无功控制模型的目标函数。
由于电压偏差、网络损耗、无功补偿设备动作成本和弃风弃光功率的量纲不同,在模型的目标函数中需要引入权重系数平衡目标函数各部分的量纲并考虑各部分的重要程度。所以,本发明提出了如式(1)所示的目标函数:
式中,λ1为电压偏差权重系数;△Ui为节点i的电压偏差,单位为kV;N为配电网节点总数;λ2为网络损耗权重系数;Ploss为配电网该断面下的总网络损耗,单位为MVA;λ3为无功补偿设备动作成本权重系数;cj为无功补偿设备j的单次动作成本,单位为元;Dj为无功步长设备j调节到优化挡位的动作次数;M为配电网中无功补偿设备的个数;λ4为弃风弃功率权重系数;△Pk为DG的弃风弃光功率,单位为MVA;G为配电网中分布式电源DG的个数。
S2:设计包括潮流功率平衡约束、节点电压安全约束、支路电流安全约束、有载调压变压器(分接头装备约束、无功补偿设备装备约束和DG出力约束的约束条件集合。
S201:模型考虑配电网潮流约束。仿真模型的输入数据应满足电网的潮流收敛条件。
本发明仅考虑辐射型配电网,对任意节点j,潮流方程的Distflow形式为:
式中,集合u(j)表示电网中以j为末端节点的支路的首端节点集合;集合v(j)表示以j为首端节点的支路的末端节点集合;k为集合v(j)中的某一节点;Pij和Qij表示支路ij首端流经的有功功率和无功功率;Pjk和Qjk表示支路jk首端流经的有功功率和无功功率;Ui表示节点i的电压幅值;Pj和Qj表示节点j的有功功率和无功功率净注入;rij和xij表示支路ij的等值电阻和等值电抗。
其中,关于式(2)中的Pj和Qj,有:
式中,Pj,DG和Qj,DG分别表示节点j挂接DG的有功和无功功率;Pj,L和Qj,L分别表示节点j挂接负荷的有功和无功功率;Qj.com表示节点j上挂接无功补偿设备的有功和无功功率。
另外,对于任意支路ij,满足潮流电压方程:
式中,Uj表示节点的电压幅值。S202:模型考虑节点电压安全约束。每次潮流计算时,配电网各节点电压不能超过电压上下限范围。
约束表达式如式(5)所示:
Ui,min≤Ui≤Ui,max (5)
式中,Ui,min和Ui,max分别表示节点i的电压幅值上下限。
S203:模型考虑支路电流安全约束。每次潮流计算时,配电网各支路电流不能超过允许的电流上限。
约束表达式如式(6)所示:
Iij≤Iij,max (6)
式中,Iij表示支路ij的电流值,Iij,max表示支路ij的电流上限。
S204:模型考虑OLTC分接头装备约束。OLTC分接头的动作范围限制在动作区间内。
约束表达式如式(7)所示:
式中,nT表示OLTC分接头挡位;nT,min和nT,max分别表示OLTC分接头挡位的上下限;t%表示分接头的调整步长;T表示目前的分接头投入位置;Z表示正整数集合。
S205:模型考虑无功补偿设备装备约束。本发明考虑的固定电容器的动作范围在其动作区间内。
约束表达式如式(8)所示:
式中,nC,j表示无功补偿设备j的投入挡位;nC,j,min和nC,j,max表示无功补偿设备j投入挡位的上下限;QC,j,step表示无功补偿设备j每一挡位的无功功率调整步长;QC,j表示无功补偿设备j目前的投入无功功率净值;Z表示正整数集合。
S206:模型考虑DG的出力约束。动配电网的DG有功和无功的调整出力应在可调范围内。约束表达式如式(9)所示:
式中,PDG.k和QDG,k分别表示DGk经无功控制后的有功和无功出力;为DGk的有功出力预测值;为DGk的功率因数角。
S3:设计强化学习中的马尔科夫决策过程。
将实际主动配电网作为环境Environment,将电力系统调度中心作为智能体Agent。在决策阶段t下,环境将本阶段下的状态空间St传递给智能体,智能体做出当前阶段下的决策动作At,动作后环境发生变化,环境再将下一阶段状态St+1传递给智能体。本发明设计的无功控制马尔科夫链决策过程如图1所示。
据此,再结合S1和S2中模型的目标函数与约束条件,本发明构建了强化学习的状态空间、动作空间与奖励函数。具体构建方式如下所示:
S301:构建状态空间St。状态空间即可观测变量空间。主动配电网模型中所有需要考虑的环境变量都是状态空间中的元素。无功控制模型需要考虑到的环境变量有:节点i的有功功率和无功功率的净注入节点i的电压幅值OLTC的挡位无功补偿设备j的挡位分布式电源k的有功出力和无功出力
本发明构建了t阶段下的状态空间为:
式中,I表示配电网中的节点个数;H表示配电网中OLTC的数量;J表示配电网中并联补偿器的数量;K表示配电网中DG的数量。
S302:构建动作集合A。动作集合A包含无功优化控制模型中的优化决策变量所有可能的动作方式。每次调度中心做出的动作At均在式(11)中的集合A的元素中选择。动作集元素有:OLTC分接头挡位调节;无功补偿器挡位调节;DG功率调节。因为DQ3N要求强化学习的动作方式必须是离散的,所以连续变量DG功率也按照离散的方式调节。
本发明构建的动作集合为:
A=[a1,a2,...,ag,...aG] (11)
式中,G表示动作集元素的个数,且有G=2(H+J+2K);a1至aG分别表示编号为1至G的决策变量动作元素。在式(11)中有:
式(12)-(15)中,a1至a2H为OLTC分接头挡位调节的动作集合,集合内的动作为该OLTC分接头增加/减少一个挡位;a2H+1至a2(H+J)为无功补偿器挡位调节的动作集合,集合内动作为该无功补偿器挡位增加/减少一挡;a2(H+J)+1至a2(H+J+K)为DG有功功率调节的动作集合,集合内动作为该DG有功功率加/减0.01MW;a2(H+J+K)+1至a2(H+J+2K)为DG无功功率调节的动作集合,集合内动作为该DG无功功率加/减0.01Mvar。
S303:设计奖励函数Rt。本发明的奖励分为2类:第1类是目标函数奖励;第2类是约束条件奖励。
1)目标函数奖励
无功优化控制的目的是使式(1)目标函数的值最小。所以本发明设计t阶段下的目标函数奖励函数为:
式中,C为式(1)中模型的目标函数;K1和K2为灵敏度系数,用于防止奖励函数数值变化过大导致最优动作价值函数不易收敛。
2)约束条件奖励
强化学习计算过程中应满足S2中的约束条件。包括以下3点:
配电网潮流约束:若不满足式(2)-(4)所示的潮流约束条件,会得到一定的负奖励。
节点电压安全约束:若任意节点电压不满足式(5)所示的安全约束,会得到一定的负奖励。
支路电流安全约束:若任意支路电流不满足式(6)所示的安全约束,会得到一定的负奖励。
本发明设计t阶段下的约束条件奖励函数为:
潮流不收敛时 (17)
综上所述,最终的奖励函数Rt为:
式中,为目标函数奖励函数;为潮流约束奖励函数;为节点电压安全约束奖励函数;为支路电流安全约束奖励函数。
S4:基于D3QN深度强化学习算法,完成无功控制模型的优化求解。
首先引入衰减因子γ,用阶段t下的回报Ft评价从阶段τ开始到阶段T结束时衰减奖励函数的累加和:
可以认为把回报Ft的数学期望是状态空间St和动作At的函数,用动作价值函数Qπ(S,A)表示,动作价值函数Qπ(S,A)也被称为Q值,其中π为选择动作时的策略:
Qπ(S,A)=Eπ[Ft|St=S,At=A] (22)
式中,Eπ为策略π下回报Ft的长期回报期望。
根据式(21),动作价值函数Qπ(S,A)还可以表示为:
Qπ(S,A)=Eπ[Ft+1+γQπ(St+1,At+1)|St,At] (23)
最优的动作价值函数Q*(S,A)是所有策略下的动作价值函数Q值的最大值,此时的策略也被称为最优策略:
Q*(S,A)=maxQπ(St,A) (24)
D3QN有两个神经网络,一个是目标网络(Target Network),其参数相对固定,用于获取Q的目标值;另一个是估值网络(Evaluation Network),用于获取Q的估计值。在训练神经网络参数时用到的损失函数为目标网络Q值与估值网络Q值之差。
图3为D3QN的深度神经网络结构图。包括输入层、3个卷积层、神经网络全连接层、value和advantage隐藏层和输出层7层。在D3QN结构中,深度学习模型主要用于对数据前期处理。图3深度神经网络的输入层为马尔科夫决策过程中的状态空间St。卷积层和全连接层为Q函数的逼近器。最后在输出层得到Q的估计值。与DQN算法不同的是,D3QN加入了一层隐藏层,将Q值拆分为value函数V(St)和优势函数a(At),经拆分后的神经网络可以更加准确地估算Q值,选择合适的动作。
D3QN使用ε-greedy策略选择动作At。对于长度为G的动作集合,ε-greedy策略以ε/G+1-ε的概率抽取Q值最大的动作,以ε/G的概率随机抽取一个其他动作。
D3QN使用经验回放机制,将当前网络与目标Q网络分开。在每个阶段t,将智能体与环境交互得到的样本数据(St,At,Rt,St+1)存储到经验回放池中。每次迭代时,在经验回放池中随机抽取固定数量的样本数据,使用随机梯度下降算法更新目标Q值的神经网络权重。
图4为D3QN求解主动配电网无功控制的算法流程图。
首先根据设定的状态空间、动作集合、奖励函数,构建D3QN的马尔科夫决策过程学习环境;
初始化目标网络和估值Q网络,为D3QN网络参数赋值;
初始化经验回放池和状态S1,令初始阶段t=1;使用ω-greedy算法选择动作At;执行动作At,获得奖励函数Rt和状态St+1,将(St,At,Rt,St+1)存入经验回放池中;
此时判断是否达到结束状态,如果是则结束流程,如果否则在经验回放池中随机抽取样本数据(Si,Ai,Ri,Si+1),计算损失函数;
此时判断阶段t是否为nc(c为常数,n=1,2,...),如果是使用梯度下降算法更新损失函数权重ω,再令t=t+1,如果否则直接t=t+1;
再回到执行动作At,获得奖励Rt和状态St+1,将(St,At,Rt,St+1)存入经验回放池中这一步骤进行迭代循环。
本发明以改进的IEEE33节点模型为无功优化控制的主动配电网模型,为以海南省海口市某地区的10kV配电网SCADA数据为实验数据,本发明通过强化学习过程中目标函数奖励函数的反馈过程实现目标函数值最小的优化目标,以约束条件奖励函数的反馈实现约束条件对模型的限制范围。模型重点考虑电压偏差与网络损耗,同时侧重考虑无功补偿设备动作成本与弃风弃光功率。所以模型设置电压偏差权重系数λ1取0.1,网络损耗权重系数λ2取0.6,无功补偿设备动作成本权重系数λ3取0.01,弃风弃功率权重系数λ4取3.0,无功补偿设备单次动作成本cj取1万元/次。
以某断面的SCADA数据作为模型的仿真环境,未经调度优化的初始改进IEEE33节点主动配电网模型经D3QN深度强化学习优化求解得到优化后的主动配电网模型,优化前后的系统电压偏差、网络损耗、无功补偿设备动作成本、弃风弃光功率如下表1所示。
表1
从以上实施例中可以看出,经D3QN无功优化后,仿真系统的电压偏差、网络损耗与弃风弃光功率明显降低,同时兼顾了无功补偿设备动作成本。实施例说明,本发明的无功控制方法有效提升了电能质量,同时考虑了控制过程中的动作成本与新能源大规模接入配电网带来的弃风弃光功率成本,取得了很好的优化效果。
以上实施例基于电力系统仿真软件DIgSILENT实现主动配电网模型的建立,并在模型中进行设备动作并潮流计算。本发明使用DIgSILENT的python接口实现主动配电网模型的参数调用,本数据接口框架由python+pandas+numpy+powerfactory组成,其中,pandas用于数据处理;numpy用于科学计算;powerfactory模块用于控制DIgSILENT仿真平台动作操作与数据交互,使用python语言来实现。本数据接口框架用于提取主动配电网环境状态,实现DIgSILENT与python软件间的数据交互。D3QN算法的python实现基于tensorflow模块。实验平台为安装了NVIDIA GeForce RTX 2080Ti GPU的计算机工作站。使用PowerFactory2021SP2仿真软件搭建改进的IEEE33节点模型。相关模型在Python3.6环境下完成编程计算。pandas模块的版本为0.25.3;numpy模块的版本为1.19.3;tensorflow模块的版本为1.6.0。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种基于D3QN的主动配电网多目标无功控制方法,其特征在于,所述方法包括以下步骤:
S1:构建多目标无功控制模型的目标函数;所述的目标函数是包括主动配电网电压偏差、网络损耗、无功补偿设备动作成本和弃风弃光功率成本的多目标无功控制模型的目标函数,所述目标函数如下:
式中,λ1为电压偏差权重系数;ΔUi为节点i的电压偏差,单位为kV;N为配电网节点总数;λ2为网络损耗权重系数;Ploss为配电网断面下的总网络损耗,单位为MVA;λ3为无功补偿设备动作成本权重系数;cj为无功补偿设备j的单次动作成本,单位为元;Dj为无功步长设备j调节到优化挡位的动作次数;M为配电网中无功补偿设备的个数;λ4为弃风弃功率权重系数;ΔPk为DG的弃风弃光功率,单位为MVA;G为配电网中分布式发电DG的个数;
S2:构建上述目标函数的约束条件集合;
S3:设计强化学习中的马尔科夫决策过程;包括:
结合S1和S2中模型的目标函数与约束条件,构建强化学习的状态空间、动作空间与奖励函数;包括:
S301:构建t阶段下的状态空间为:
Pi t为节点i的有功功率和无功功率的净注入Pi t 为节点i的电压幅值 为OLTC的挡位 为无功补偿设备j的挡位 为分布式电源k的有功出力和无功出力;I表示配电网中的节点个数;H表示配电网中OLTC的数量;J表示配电网中并联补偿器的数量;K表示配电网中DG的数量;
S302:构建动作集合为:
A=[a1,a2,...,ag,…aG]
式中,G表示动作集元素的个数,且有G=2(H+J+2K);a1至aG分别表示编号为1至G的决策变量动作元素,且在上式中有:
a1至a2H为OLTC分接头挡位调节的动作集合,集合内的动作为该OLTC分接头增加/减少一个挡位;a2H+1至a2(H+J)为无功补偿器挡位调节的动作集合,集合内动作为该无功补偿器挡位增加/减少一挡;a2(H+J)+1至a2(H+J+K)为DG有功功率调节的动作集合,集合内动作为该DG有功功率加/减0.01MW;a2(H+J+K)+1至a2(H+J+2K)为DG无功功率调节的动作集合,集合内动作为该DG无功功率加/减0.01Mvar;
S303:设计奖励函数Rt,表示为:
式中,为目标函数奖励函数;为潮流约束奖励函数;为节点电压安全约束奖励函数;为支路电流安全约束奖励函数;
其中表示为:
式中,C为所述多目标无功控制模型的目标函数;K1和K2为灵敏度系数;
t阶段下的约束条件奖励函数为:
潮流不收敛时
S4:基于D3QN深度强化学习算法,完成所述无功控制模型的优化求解。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2中约束条件包括:潮流功率平衡约束、节点电压安全约束、支路电流安全约束、有载调压变压器分接头装备约束、无功补偿设备装备约束和DG出力约束的约束条件集合。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2中,
所述配电网潮流约束包括:
对任意节点j,潮流方程的形式为:
式中,集合u(j)表示电网中以j为末端节点的支路的首端节点集合;集合v(j)表示以j为首端节点的支路的末端节点集合;k为集合v(j)中的某一节点;Pij和Qij表示支路ij首端流经的有功功率和无功功率;Pjk和Qjk表示支路jk首端流经的有功功率和无功功率;Ui表示节点i的电压幅值;Pj和Qj表示节点j的有功功率和无功功率净注入;rij和xij表示支路ij的等值电阻和等值电抗;
对于任意支路ij,满足潮流电压方程:
所述节点电压安全约束表示为:
Ui,min≤Ui≤Ui,max
式中,Ui,min和Ui,max分别表示节点i的电压幅值上下限;
所述支路电流安全约束表示为:
Iij≤Iij,max
式中,Iij表示支路ij的电流值,Iij,max表示支路ij的电流上限。
4.根据权利要求3所述的方法,其特征在于,所述步骤S2中,
所述有载调压变压器分接头装备约束表示为:
式中,nT表示OLTC分接头挡位;nT,min和nT,max分别表示OLTC分接头挡位的上下限;t%表示分接头的调整步长;T表示目前的分接头投入位置;Z表示正整数集合;
所述无功补偿设备装备约束表示为:
式中,nC,j表示无功补偿设备j的投入挡位;nC,j,min和nC,j,max表示无功补偿设备j投入挡位的上下限;QC,j,step表示无功补偿设备j每一挡位的无功功率调整步长;QC,j表示无功补偿设备j目前的投入无功功率净值;
所述分布式发电DG的出力约束表示为:
式中,PDG.k和QDG,k分别表示DGk经无功控制后的有功和无功出力;为DGk的有功出力预测值;为DGk的功率因数角;其中DGk为第k个分布式电源。
5.根据权利要求4所述的方法,其特征在于,所述步骤S4包括:
引入衰减因子γ,用回报Ft评价当前循环对未来预计的衰减奖励值的累加和:
Ft=Rt+γRt+12Rt+2+...+γnRt+n
回报Ft的数学期望是状态空间St和动作At的函数,用动作价值函数Qπ(S,A)表示,动作价值函数Qπ(S,A)也被称为Q值,其中π为选择动作时的策略:
Qπ(S,A)=Eπ[Ft|St=S,At=A]
最优的动作价值函数Q*(S,A)是所有策略下的动作价值函数的最大值,此时的策略为最优策略:
Q*(S,A)=maxQπ(St,A)。
6.根据权利要求5所述的方法,其特征在于,所述步骤S4包括:
设计D3QN深度神经网络,所述D3QN深度神经网络包括输入层、3个卷积层、神经网络全连接层、value和advantage隐藏层和输出层7层;所述输入层为马尔科夫决策过程中的状态空间St,卷积层和全连接层为Q函数的逼近器,所述隐藏层将Q值拆分为value函数V(St)和优势函数a(At),最后在输出层得到Q的估计值。
7.根据权利要求6所述的方法,其特征在于,所述步骤S4具体包括:
S401:根据设定的状态空间、动作集合、奖励函数,构建D3QN的马尔科夫决策过程学习环境;
S401:初始化目标网络和估值Q网络,为D3QN网络参数赋值;
S402:初始化经验回放池和状态S1,令初始阶段t=1;
S403:使用ω-greedy算法选择动作At
S404:执行动作At,获得奖励函数Rt和状态St+1,将(St,At,Rt,St+1)存入经验回放池中;
S405:判断是否达到结束状态:
如果是则结束流程,
如果否则在经验回放池中随机抽取样本数据(Si,Ai,Ri,Si+1),计算损失函数;
判断阶段t是否为nc(c为常数,n=1,2,...),
如果是,使用梯度下降算法更新损失函数权重ω,再令t=t+1,
如果否则直接t=t+1;再返回S404进行迭代循环。
8.一种终端,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-7任一项所述方法的步骤。
CN202111355263.0A 2021-11-16 2021-11-16 一种基于d3qn的主动配电网多目标无功控制方法 Active CN113937829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111355263.0A CN113937829B (zh) 2021-11-16 2021-11-16 一种基于d3qn的主动配电网多目标无功控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111355263.0A CN113937829B (zh) 2021-11-16 2021-11-16 一种基于d3qn的主动配电网多目标无功控制方法

Publications (2)

Publication Number Publication Date
CN113937829A CN113937829A (zh) 2022-01-14
CN113937829B true CN113937829B (zh) 2024-07-12

Family

ID=79286770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111355263.0A Active CN113937829B (zh) 2021-11-16 2021-11-16 一种基于d3qn的主动配电网多目标无功控制方法

Country Status (1)

Country Link
CN (1) CN113937829B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114447942B (zh) * 2022-02-08 2024-06-11 东南大学 一种主动配电网负荷侧多元调压方法、设备及存储介质
CN114362196B (zh) * 2022-03-21 2022-06-17 南京邮电大学 一种多时间尺度主动配电网电压控制方法
CN115334165B (zh) * 2022-07-11 2023-10-17 西安交通大学 一种基于深度强化学习的水下多无人平台调度方法及系统
CN115118532B (zh) * 2022-08-31 2022-11-25 中国人民解放军战略支援部队航天工程大学 基于改进d3qn算法的sdn下自适应威胁缓解方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111585288A (zh) * 2020-06-10 2020-08-25 湘潭大学 一种基于层次分析法的配电网多目标动态无功优化方法
CN113363997A (zh) * 2021-05-28 2021-09-07 浙江大学 基于多时间尺度多智能体深度强化学习无功电压控制方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100555792C (zh) * 2008-01-30 2009-10-28 湖南大学 基于多智能体的配电网节能降耗综合管理系统及其管理方法
US9507367B2 (en) * 2012-04-09 2016-11-29 Clemson University Method and system for dynamic stochastic optimal electric power flow control
CN104037793B (zh) * 2014-07-07 2016-01-20 北京交通大学 一种应用于主动配电网的储能单元容量配置方法
CN105207233B (zh) * 2015-10-29 2017-07-04 山东大学 基于Metropolis‑Hastings与PSO相结合的无功优化方法
CN106329546B (zh) * 2016-09-12 2019-03-19 东南大学 一种基于等网损微增率的主动配电网分布式无功优化方法
CN106451473B (zh) * 2016-11-03 2019-08-20 成都信息工程大学 基于模糊多智能体的配电网多目标电压控制方法
CN107069823B (zh) * 2017-05-22 2020-02-21 国网浙江省电力公司宁波供电公司 一种分布式光伏配电网电压的控制方法及装置
CN108711868A (zh) * 2018-05-30 2018-10-26 西安理工大学 一种计及孤岛运行电压安全的配电网无功优化规划方法
CN110021966A (zh) * 2019-03-07 2019-07-16 华中科技大学 一种考虑动态网络重构的主动配电网优化调度方法
CN110729740B (zh) * 2019-07-03 2022-03-11 清华大学 配电网无功优化方法、装置、计算机设备及可读存储介质
KR102287233B1 (ko) * 2019-11-21 2021-08-11 한국에너지기술연구원 다기능 에너지 저장 시스템 및 그 운영 방법
CN113270867B (zh) * 2021-03-31 2023-08-18 中国电力科学研究院有限公司 一种薄弱电网潮流无解自动调整方法
CN113516278B (zh) * 2021-04-26 2023-08-22 山东大学 有源配电网多时间尺度有功无功协调优化调度方法及系统
CN113078641B (zh) * 2021-04-29 2023-02-28 国网山东省电力公司经济技术研究院 一种基于评估器和强化学习的配电网无功优化方法及装置
CN113258587A (zh) * 2021-06-24 2021-08-13 广西电网有限责任公司贵港供电局 一种配电网经济性的无功优化方法及其装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111585288A (zh) * 2020-06-10 2020-08-25 湘潭大学 一种基于层次分析法的配电网多目标动态无功优化方法
CN113363997A (zh) * 2021-05-28 2021-09-07 浙江大学 基于多时间尺度多智能体深度强化学习无功电压控制方法

Also Published As

Publication number Publication date
CN113937829A (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
CN113937829B (zh) 一种基于d3qn的主动配电网多目标无功控制方法
CN110365056B (zh) 一种基于ddpg的分布式能源参与配电网调压优化方法
CN105846461B (zh) 一种大规模储能电站自适应动态规划的控制方法和系统
Li et al. Many-objective distribution network reconfiguration via deep reinforcement learning assisted optimization algorithm
CN109687510B (zh) 一种计及不确定性的配电网多时间尺度优化运行方法
CN114362196B (zh) 一种多时间尺度主动配电网电压控制方法
Khan et al. Adopting Scenario-Based approach to solve optimal reactive power Dispatch problem with integration of wind and solar energy using improved Marine predator algorithm
CN114725936A (zh) 基于多智能体深度强化学习的配电网优化方法
CN107565576B (zh) 一种多主动管理手段相协调的主动配电网无功电压优化方法
CN114362267B (zh) 考虑多目标优化的交直流混合配电网分散式协调优化方法
CN116454926A (zh) 一种面向配网三相不平衡治理的多类型资源协同调控方法
CN112561273B (zh) 一种基于改进pso的主动配电网可再生dg规划方法
Li et al. Day-ahead optimal dispatch strategy for active distribution network based on improved deep reinforcement learning
CN103904664B (zh) 一种基于有效静态安全域的agc机组实时调度方法
CN103618315B (zh) 一种基于bart算法和超吸收壁的电网电压无功优化方法
CN115313403A (zh) 一种基于深度强化学习算法的实时电压调控方法
CN116760047A (zh) 基于安全强化学习算法的配电网电压无功控制方法及系统
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
Ali et al. Reactive power optimization using feed forward neural deep reinforcement learning method:(deep reinforcement learning dqn algorithm)
Lu et al. Adaptive constrained population extremal optimisation‐based robust proportional‐integral‐derivation frequency control method for an islanded microgrid
CN111478344B (zh) 一种能源微网负荷频率控制方法、系统及相关产品
Liu et al. Data-driven robust voltage/var control using PV inverters in active distribution networks
CN116599031A (zh) 基于凸包不确定集合的柔性配电网鲁棒优化调度方法
Zhang et al. Two-timescale coordinated voltage regulation for high renewable-penetrated active distribution networks considering hybrid devices
Selvarasu et al. Multi-type flexible AC transmission system device placement for voltage constrained loss minimisation using self-adaptive firefly algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant