CN117878959A - 配电网无功优化方法、设备、装置及计算机可读存储介质 - Google Patents
配电网无功优化方法、设备、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117878959A CN117878959A CN202410068258.9A CN202410068258A CN117878959A CN 117878959 A CN117878959 A CN 117878959A CN 202410068258 A CN202410068258 A CN 202410068258A CN 117878959 A CN117878959 A CN 117878959A
- Authority
- CN
- China
- Prior art keywords
- action
- network
- power distribution
- distribution network
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000009471 action Effects 0.000 claims abstract description 130
- 230000000875 corresponding effect Effects 0.000 claims abstract description 46
- 230000003993 interaction Effects 0.000 claims abstract description 20
- 230000001105 regulatory effect Effects 0.000 claims abstract description 20
- 238000011156 evaluation Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 239000003990 capacitor Substances 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 10
- 238000012549 training Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/18—Arrangements for adjusting, eliminating or compensating reactive power in networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/12—Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
- H02J3/16—Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by adjustment of reactive power
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/30—Reactive power compensation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Power Engineering (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开一种配电网无功优化方法、设备、装置及计算机可读存储介质,所述方法包括根据配电网的调节设备确定对应的动作集合以及状态集合;根据所述调节设备的动作集合以及状态集合确定对应的奖励函数;基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互,根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合;根据所述动作策略对所述配电网进行无功优化;能够自适应地做出决策动态调整配电网的节点电压,从而减少电网损耗,在实现实时决策的同时保证更好的无功优化效果。
Description
技术领域
本发明涉及配电网无功优化领域,尤其涉及一种配电网无功优化方法、设备、装置及计算机可读存储介质。
背景技术
随着大规模风力、光伏等分布式电源大量引入配电网,其出力不确定的电源在系统中的占比逐步提高,配电网在分布式电源消纳、灵活性资源调控等方面面临挑战。由于风力和光伏随天气变化波动明显,其出力具有随机性,此外还有负荷的随机波动,这些给配电网带来电能质量降低、网损提高等问题,系统安全性难以保证。因此,需要优化配电网的无功,在保障电网稳定、可靠运行的条件下,减少电网网损。
目前主流的配电网无功优化方法,如遗传算法、模拟退火算法、粒子群算法等,寻优迭代时间长,导致求解优化目标函数时间长,无法满足实时调度、调节的需求,此外还存在陷入局部最优的问题。
发明内容
本发明所要解决的技术问题是:提供一种配电网无功优化方法、设备、装置及计算机可读存储介质,能够实现实时地对配电网进行无功优化。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种配电网无功优化方法,包括步骤:
根据配电网的调节设备确定对应的动作集合以及状态集合;
根据所述调节设备的动作集合以及状态集合确定对应的奖励函数;
基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互,根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合;
根据所述动作策略对所述配电网进行无功优化。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种配电网无功优化设备,包括:
集合确定模块,用于根据配电网的调节设备确定对应的动作集合以及状态集合;
函数确定模块,用于根据所述调节设备的动作集合以及状态集合确定对应的奖励函数;
交互模块,用于基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互,根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合;
优化模块,用于根据所述动作策略对所述配电网进行无功优化。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种配电网无功优化装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种配电网无功优化方法的步骤。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述一种配电网无功优化方法的步骤。
本发明的有益效果在于:先根据配电网的调节设备确定对应的动作集合、状态集合以及奖励函数;接着基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互,根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合;最后根据所述动作策略对所述配电网进行无功优化;能够自适应地做出决策动态调整配电网的节点电压,从而减少电网损耗,在实现实时决策的同时保证更好的无功优化效果。
附图说明
图1为本发明实施例的一种配电网无功优化方法的步骤流程图;
图2为本发明实施例的Actor-Critic网络的结构示意图;
图3为本发明实施例的算法优化流程图;
图4为本发明实施例的一种配电网无功优化设备的结构示意图;
图5为本发明实施例的一种配电网无功优化装置的结构示意图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
本申请上述配电网无功优化方法、设备、装置及计算机可读存储介质能够适用于分布式光伏、风机等电源出力变化下实时优化调度配电网的资源,以优化配电网无功的应用场景,以下通过具体实施方式进行说明:
在一个可选的实施方式中,如图1所示,配电网无功优化方法,包括步骤:
S1、根据配电网的调节设备确定对应的动作集合以及状态集合;
其中,所述调节设备包括电容器SC、变压器OLTC以及逆变器DG;
离散投切电容器(Switching Capacitor,SC)和有载调压变压器(On-Line TapChanger,OLTC)属于离散调节设备。它们调节无功功率的方式是在预定的档位或步进上进行,通过开关或变压器的操作,使系统吸收或释放特定的无功功率。这些调节设备只能在预先设定的离散级别上进行调节。分布式电源(Distributed Generation,DG)的无功功率是连续调节的。在本实施方式中,DG逆变器运行在母线上,其视在功率容量为SDG。DG逆变器可以在一定范围内连续地提供或吸收无功功率,而不是像离散调节设备那样只能在特定档位上进行调节。这种连续调节使得DG系统能够更灵活地响应电力系统的变化需求,如实时调整无功功率来稳定电压等,可表示为:
-QDG,MAX≤QDG≤QDG,MAX
式中,QDG,MAX为最大无功功率,无功功率PDG为有功功率,αDG∈[-1,1],QDG=αDGQDG,MAX,αDG为控制变量。
在配电网无功优化中,目标是通过调整无功功率的分配,确保电压能够稳定在正常范围内,并同时最小化配电网的有功网损,目标函数可表示为:
式中,N为日内周期的数量;Ploss,i为有功网损,i表示第i个周期。
在进行配电网无功优化时,节点电压Ud、无功功率Qd和动作量变化SGd必须满足一系列约束条件,以确保优化结果的可行性和可靠性,如下所示:
上述式子中,两边的值分别为节点电压Ud、无功功率Qd和动作量变化SGd的最小值和最大值。
SC、OLTC、DG的动作集合[a1,a2,…,aN]T定义了动作的搜索空间,即需要在这些动作中选择最优的组合来达到优化目标。
本实施方式引入三个重要的变量和矩阵来描述配电网无功优化的决策过程。其中,Ui矩阵表示第i个决策阶段的配电网节点电压状况,其维度为n×m,n为可量测的节点个数,m为动作周期的测量次数。SGi矩阵则记录了第i个动作周期内各个调节设备的投切档位情况,而Ei矩阵表示第i个动作周期内各个调节设备已经完成的动作。通过这些变量,能够全面地描述配电网在不同决策阶段内的状态和调节设备的运行情况。配电网系统中所有母线上的电压作为状态空间,可以表示为:
si={Ui,SGi,Ei}
本实施方式设定每隔15分钟,对配电网进行一次动作决策,调整各个无功设备的运行状态,以优化电力系统的无功功率分配。这样的设置允许及时对电网进行调整,以应对电力系统动态变化,保持电网的稳定性和性能。通过此设计,能够在较短的时间内实现优化策略的实施,提高配电网的响应速度,以及保证无功设备调节的准确性和高效性。
S2、根据所述调节设备的动作集合以及状态集合确定对应的奖励函数;
优化算法将在每个决策阶段内尝试寻找最优的投切策略,以实现SC电压约束条件的满足,并同时降低网损和动作成本,从而达到更好的配电网无功优化效果;
其中,所述电容器SC执行第i次动作后的奖励函数为:
式中,Ploss,i为执行第i个动作后的有功网损,λSC为SC的动作调节系数,GSC,j表示第j次决策时SC的操作状态;
所述变压器OLTC执行第i次动作后的奖励函数为:
式中,λO为OLTC的动作调节系数,GOLTC,j为第j次决策时OLTC的操作状态;
所述逆变器DG执行第i次动作后的奖励函数为:
式中,λD为DG的档位调节系数,Uk,baseline为电压基准值,Uk,j为DG所连母线的电压,Umax和Umin分别为电压上、下限,ND为节点总数,k为节点标号;
S3、基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互,根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合;
S4、根据所述动作策略对所述配电网进行无功优化。
其中,步骤S3包括:
设置动作网络和评价网络;
根据当前的动作策略和所述调节设备对应的当前状态,通过所述动作网络从所述调节设备对应的动作集合中选择动作与所述配电网的环境进行交互,根据对应的奖励函数得到所述交互对应的奖励,并转移到所述调节设备的下一个状态,返回执行根据当前的动作策略和所述调节设备对应的当前状态步骤直至达到预设交互次数;
根据上述交互过程中确定的动作、状态以及奖励形成所述调节设备对应的轨迹序列;
通过所述评价网络对所述轨迹序列进行评估,根据评估结果更新所述动作网络和评价网络的参数;
返回执行根据当前的动作策略和所述调节设备对应的当前状态步骤直至达到预设迭代次数。
其中,所述通过所述评价网络对所述轨迹序列进行评估,根据评估结果更新所述动作网络和评价网络的参数包括:
通过所述评价网络使用所述轨迹序列计算TD误差,所述TD误差通过比较当前的值函数估计和目标值函数之间的差异得到;
最小化所述TD误差以更新所述评价网络;
通过更新后的所述评价网络估计每个状态在所述轨迹序列中的累计回报,得到每个状态在当前动作策略下的预期回报,根据所述预期回报使用策略梯度方法更新所述动作网络和评价网络的参数以最大化所述预期回报。
具体地,所述TD误差Rt为:
Rt=(Vπ(st+1)+rt-Vπ(st)|at)
式中,Vπ(st+1)为策略为π的评价网络在状态为st+1时的期望奖励值,rt为在第t步时采取动作at后所得奖励值,Vπ(st)|at为策略为π的评价网络在状态为st时采取动作at后的期望奖励值,其中,V为整个周期的期望奖励值,即t从1取到T和加起来,rt为t那一步的单个的奖励值;
最小化所述TD误差为:
式中,Sold和S分别为更新前、后的状态,θold和θ分别为更新前后的所述动作网络的参数;
所述预期回报为:
式中,T表示决策周期,st表示t时刻下环境的状态,at表示t时刻下选择的动作,R(·)表示奖励;
所述根据所述预期回报使用策略梯度方法更新所述动作网络和评价网络的参数包括:
式中,表示t时刻的预期回报,/>表示/>的梯度,/>和/>分别表示更新前后的所述评价网络的参数,η1和η2分别表示动作网络和评价网络的更新步长,KL[πold|πθ]表示KL散度,πold和πθ分别表示更新前后的策略,β表示惩罚项系数;
其中,本实施方式用KL散度(Kullback-Leibler divergence)来控制动作策略的更新幅度。KL散度是一个概率分布与另一个概率分布有何不同的度量。在贝叶斯理论中,存在真实的分布πold,用近似分布πθ来估计。KL散度衡量的是动作空间S上近似分布πθ与真实分布πold之间的距离,即KL[πold|πθ],可用下式表示:
如果更新幅度过大,则给予较大惩罚项βKL[πold|πθ],即增大β的值;如果更新幅度过小,则给予较小惩罚项βKL[πold|πθ],即减小β的值,具体调整如下所示:
式中,βhighKLtarget表示KL散度的控制上限,βlowKLtarget表示KL散度的控制下限,如果KL散度大于控制上限值βhighKLtarget,即表示更新速度过快;反之,则表示更新速度过慢,为大于1的常数。
本实施方式中,在每一个状态下选择动作是基于概率分布的,并且动作的概率分布会随着学习过程不断调整,以使获得的累计奖励期望值最大,根据交互结果动态调整动作策略就是通过判断不同动作概率下做出的动作对应得到的奖励值,不断学习、调整该动作的概率,即如果该动作对应得到的奖励值大,便提高该动作的概率;反之,则减小该动作的概率;
如图2所示,首先,动作网络Actor与环境进行交互,Actor根据当前的策略与环境进行互动,从当前状态选择动作并与环境进行交互,得到奖励并转移到下一个状态,这个过程会生成一条轨迹序列,包含了智能体在环境中的行为和与环境的交互结果。然后,使用轨迹序列中的状态、动作和奖励信息,计算TD误差,基于TD误差,更新评价网络Critic网络,它是值函数的近似器,通过最小化TD误差来提高值函数估计的准确性。再使用更新后的Critic网络对轨迹序列进行评价。通过使用Critic网络估计每个状态的累积回报,对轨迹序列进行评估,并得到每个状态在当前策略下的预期回报。最后,使用策略梯度方法来更新Actor网络的参数。策略梯度方法是一种梯度上升法,通过使用Critic网络的评估结果来计算梯度,指示在不同状态下选择动作的概率应该如何调整,以便最大化预期回报,然后,使用这个梯度来更新Actor网络的参数,以改进策略。整个训练过程是一个迭代的过程,重复执行这些步骤多次,直到Actor和Critic网络能够很好地拟合环境,策略达到令人满意的水平。在每次迭代中,Actor不断改进策略,而Critic则逐渐提高值函数的估计准确性。这样,通过不断地与环境交互和更新网络参数,使得整个系统在强化学习任务中逐渐拟合并优化,以实现更好的性能。
优化模型流程图如图3所示,每一次迭代包含动作选择和执行、奖励值获取和网络训练三个阶段。在动作网络输出动作后,动作选择和执行阶段结束,进入奖励值获取阶段。环境根据输出的动作给出奖励值,进入网络训练阶段。在网络训练阶段,更新行动网络与价值网络的网络权重,即网络参数。
在另一个可选的实施方式中,在用策略梯度方法更新所述动作网络和评价网络的参数时,通过多个线程(即worker)同步计算多个梯度,判断所述多个梯度中是否至少有预设个梯度是可用的,若是,则根据所述预设个梯度取平均,根据梯度平均值更新所述动作网络和评价网络的参数。
本实施方式中,通过多线程在线训练能够达到更好的优化效果,在实现实时决策的同时保证更好地优化效果,对提高配电网的安全可靠、实时性和高效运行效果显著。
Actor网络负责根据当前环境状态给出动作,而Critic网络负责评估动作。然后,Actor网络根据Critic网络的评估来选择动作。通过使用自适应Kullback-Leibler(KL散度)和多个worker,可以有效地训练Actor网络和Critic网络。
上述算法对应的伪代码如下:
W是worker的数量,D是可以为worker提供梯度更新的参数的阈值,N是总episode,T是每个worker在计算参数更新之前收集的数据点,K是计算K步后反向传播的时间步数。
将上述算法应用于基于IEEE 123节点的配电网系统中,在该实施方式中,配电网系统包含了3个容量为750kW的DG设备,每个DG设备采用下垂控制策略用于电压调节。
选择夏季日和冬季日的典型时刻12:00进行仿真,通过对比平均网损和电压偏差,评估不同算法在配电网无功功率优化上的性能。实验结果如表1所示。
表1不同方法的电压偏差和平均网损
通过对表1的数据进行分析,可以得到:在典型日下,本申请采用的模型算法在降低网损方面表现最优。与传统的遗传算法GA、基于值的深度Q网络DQN以及基于策略的深度确定性策略梯度方法DDPG相比,本申请所提模型在夏季日的平均网损分别降低了13.59%、8.94%、3.08%,在冬季日的平均网损分别降低了16.72%、6.58%、3.07%。无论是夏季日还是冬季日,本申请所提模型都能以更高效的方式减小系统的网损。此外,通过本申请所提模型优化后,电压偏差最小化,确保了电压运行的稳定性,并将电压波动降至最低。因此,实验可以证明本申请所提模型算法的有效性和优越性。
为了验证所提出的本申请所提模型的可扩展性和适用性,对IEEE 123节点仿真系统进行了仿真,器件的详细参数如表2所示。
表2调压设备参数
设备 | 参数 | 节点位置 |
OLTC | ±10×0.01 | 1 |
SC1~SC4 | 5×100kVar | 16,4658,106 |
DG1~DG6 | 750kW | 28,48,67,89,93,113 |
对IEEE 123节点仿真系统两个典型日的网络损耗结果进行对比分析,如表3所示。从表3中可以看出,本申请所提模型在典型夏季的网络损耗最低。与GA、DQN、DDPG相比,夏季平均网损分别降低了13.47%、10.17%和5.07%,冬季平均网损分别下降17.79%、7.85%和4.02%,此外,本申请所提模型还进行了优化,最大限度地减少了电压偏差,确保了电压运行的稳定性,并最大限度地减少了电压波动。在夏季,本申请所提模型的电压偏差分别比GA、DQN、DDPG低55.60%、44.80%、11.57%。而在冬季,本申请所提模型的电压偏差分别比GA、DQN和DDPG低55.55%、46.10%、14.89%。因此,证明了本申请所提模型的有效性、优越性和适用性。
表3IEEE 123节点模拟系统中典型日平均网损和电压偏差对比
在另一个可选的实施方式中,如图4所示,一种配电网无功优化设备,该设备与上述的一种配电网无功优化方法一一对应,包括:
集合确定模块,用于根据配电网的调节设备确定对应的动作集合以及状态集合;
函数确定模块,用于根据所述调节设备的动作集合以及状态集合确定对应的奖励函数;
交互模块,用于基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互,根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合;
优化模块,用于根据所述动作策略对所述配电网进行无功优化。
在另一个可选的实施方式中,如图5所示,一种配电网无功优化装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一个实施方式所述的一种配电网无功优化方法的步骤。
在另一个可选的实施方式中,一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述任一个实施方式所述的一种配电网无功优化方法的步骤。
综上所述,本发明提供的一种配电网无功优化方法、设备、装置及计算机可读存储介质,构建以最小化配电网无功为目标函数的优化模型,并考虑运行约束条件,训练有素的智能体可以实时调度优化配电网的资源,先根据配电网的调节设备确定对应的动作集合、状态集合以及奖励函数;接着基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互,根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合;最后根据所述动作策略对所述配电网进行无功优化;能够自适应地做出决策来调整节点电压并减少电网损耗,通过设计多线程在线训练达到了更好的优化效果,在实现实时决策的同时保证更好的优化效果,对提高配电网的安全可靠、实时性和高效运行效果显著。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种配电网无功优化方法,其特征在于,包括步骤:
根据配电网的调节设备确定对应的动作集合以及状态集合;
根据所述调节设备的动作集合以及状态集合确定对应的奖励函数;
基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互,根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合;
根据所述动作策略对所述配电网进行无功优化。
2.根据权利要求1所述的一种配电网无功优化方法,其特征在于,所述基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互,根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合包括:
设置动作网络和评价网络;
根据当前的动作策略和所述调节设备对应的当前状态,通过所述动作网络从所述调节设备对应的动作集合中选择动作与所述配电网的环境进行交互,根据对应的奖励函数得到所述交互对应的奖励,并转移到所述调节设备的下一个状态,返回执行根据当前的动作策略和所述调节设备对应的当前状态步骤直至达到预设交互次数;
根据上述交互过程中确定的动作、状态以及奖励形成所述调节设备对应的轨迹序列;
通过所述评价网络对所述轨迹序列进行评估,根据评估结果更新所述动作网络和评价网络的参数;
返回执行根据当前的动作策略和所述调节设备对应的当前状态步骤直至达到预设迭代次数。
3.根据权利要求2所述的一种配电网无功优化方法,其特征在于,所述通过所述评价网络对所述轨迹序列进行评估,根据评估结果更新所述动作网络和评价网络的参数包括:
通过所述评价网络使用所述轨迹序列计算TD误差,所述TD误差通过比较当前的值函数估计和目标值函数之间的差异得到;
最小化所述TD误差以更新所述评价网络;
通过更新后的所述评价网络估计每个状态在所述轨迹序列中的累计回报,得到每个状态在当前动作策略下的预期回报,根据所述预期回报使用策略梯度方法更新所述动作网络和评价网络的参数以最大化所述预期回报。
4.根据权利要求3所述的一种配电网无功优化方法,其特征在于,所述TD误差Rt为:
Rt=(Vπ(st+1)+rt-Vπ(st)|at)
式中,Vπ(st+1)为策略为π的评价网络在状态为st+1时的期望奖励值,rt为在第t步时采取动作at后所得奖励值,Vπ(st)|at为策略为π的评价网络在状态为st时采取动作at后的期望奖励值;
最小化所述TD误差为:
式中,Sold和S分别为更新前、后的状态,θold和θ分别为更新前后的所述动作网络的参数;
所述预期回报为:
式中,T表示决策周期,st表示t时刻下环境的状态,at表示t时刻下选择的动作,R(·)表示奖励;
所述根据所述预期回报使用策略梯度方法更新所述动作网络和评价网络的参数包括:
φ=φold+η2▽φLSEL
式中,表示t时刻的预期回报,▽φLSEL表示/>的梯度,/>和/>分别表示更新前后的所述评价网络的参数,η1和η2分别表示动作网络和评价网络的更新步长,KL[πold|πθ]表示KL散度,πold和πθ分别表示更新前后的策略,表示惩罚项系数。
5.根据权利要求4所述的一种配电网无功优化方法,其特征在于,所述根据所述预期回报使用策略梯度方法更新所述动作网络和评价网络的参数之后还包括:
式中,βhighKLtarget表示KL散度的控制上限,βlowKLtarget表示KL散度的控制下限,为大于1的常数。
6.根据权利要求3或4所述的一种配电网无功优化方法,其特征在于,在用策略梯度方法更新所述动作网络和评价网络的参数时,通过多个线程同步计算多个梯度,判断所述多个梯度中是否至少有预设个梯度是可用的,若是,则根据所述预设个梯度取平均,根据梯度平均值更新所述动作网络和评价网络的参数。
7.根据权利要求1至4中任一项所述的一种配电网无功优化方法,其特征在于,所述调节设备包括电容器SC、变压器OLTC以及逆变器DG;
所述电容器SC执行第i次动作后的奖励函数为:
式中,Ploss,i为执行第i个动作后的有功网损,λSC为SC的动作调节系数,GSC,j表示第j次决策时SC的操作状态;
所述变压器OLTC执行第i次动作后的奖励函数为:
式中,λO为OLTC的动作调节系数,GOLTC,j为第j次决策时OLTC的操作状态;
所述逆变器DG执行第i次动作后的奖励函数为:
式中,λD为DG的档位调节系数,Uk,baseline为电压基准值,Uk,j为DG所连母线的电压,Umax和Umin分别为电压上、下限,ND为节点总数,k为节点标号。
8.一种配电网无功优化设备,其特征在于,包括:
集合确定模块,用于根据配电网的调节设备确定对应的动作集合以及状态集合;
函数确定模块,用于根据所述调节设备的动作集合以及状态集合确定对应的奖励函数;
交互模块,用于基于所述调节设备对应的动作集合、状态集合以及奖励函数与所述配电网的环境进行交互,根据交互结果动态调整动作策略直至所述动作策略与所述配电网的环境拟合;
优化模块,用于根据所述动作策略对所述配电网进行无功优化。
9.一种配电网无功优化装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的一种配电网无功优化方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任一项所述的一种配电网无功优化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410068258.9A CN117878959A (zh) | 2024-01-17 | 2024-01-17 | 配电网无功优化方法、设备、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410068258.9A CN117878959A (zh) | 2024-01-17 | 2024-01-17 | 配电网无功优化方法、设备、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117878959A true CN117878959A (zh) | 2024-04-12 |
Family
ID=90596608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410068258.9A Pending CN117878959A (zh) | 2024-01-17 | 2024-01-17 | 配电网无功优化方法、设备、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117878959A (zh) |
-
2024
- 2024-01-17 CN CN202410068258.9A patent/CN117878959A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112615379B (zh) | 基于分布式多智能体强化学习的电网多断面功率控制方法 | |
Kou et al. | Stochastic predictive control of battery energy storage for wind farm dispatching: Using probabilistic wind power forecasts | |
CN105846461B (zh) | 一种大规模储能电站自适应动态规划的控制方法和系统 | |
CN113363997A (zh) | 基于多时间尺度多智能体深度强化学习无功电压控制方法 | |
CN113363998B (zh) | 一种基于多智能体深度强化学习的配电网电压控制方法 | |
CN108365608B (zh) | 一种区域能源互联网不确定优化调度方法及系统 | |
CN113872213B (zh) | 一种配电网电压自主优化控制方法及装置 | |
CN113471982B (zh) | 云边协同与电网隐私保护的分布式电源就地电压控制方法 | |
CN104037761B (zh) | 一种agc功率多目标随机优化分配方法 | |
CN114039366B (zh) | 一种基于孔雀优化算法的电网二次调频控制方法及装置 | |
CN117578466B (zh) | 一种基于优势函数分解的电力系统暂态稳定预防控制方法 | |
CN116722561B (zh) | 一种无功功率补偿系统 | |
CN115313403A (zh) | 一种基于深度强化学习算法的实时电压调控方法 | |
CN107871157B (zh) | 基于bp和pso的数据预测方法、系统及相关装置 | |
CN113629736B (zh) | 一种基于配电网氢储能系统日内滚动优化方法 | |
CN113422371B (zh) | 一种基于图卷积神经网络的分布式电源就地电压控制方法 | |
Navidi et al. | Predicting solutions to the optimal power flow problem | |
CN117878959A (zh) | 配电网无功优化方法、设备、装置及计算机可读存储介质 | |
CN114400675B (zh) | 基于权重均值深度双q网络的主动配电网电压控制方法 | |
CN116054179A (zh) | 一种基于事件触发的电力系统无功趋优控制系统及方法 | |
CN110289643B (zh) | 一种拒识深度微分动态规划实时发电调度与控制算法 | |
Tang et al. | Voltage Control Strategy of Distribution Networks with Distributed Photovoltaic Based on Multi-agent Deep Reinforcement Learning | |
CN110518644B (zh) | 风电场的无功优化方法、装置及风电场 | |
CN117856264B (zh) | 一种电网线路损耗优化方法、设备及介质 | |
CN114048968B (zh) | 一种电网关键断面实时阻塞调整方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |