CN117200213A - 基于自组织映射神经网络深度强化学习的配电系统电压控制方法 - Google Patents
基于自组织映射神经网络深度强化学习的配电系统电压控制方法 Download PDFInfo
- Publication number
- CN117200213A CN117200213A CN202311181860.5A CN202311181860A CN117200213A CN 117200213 A CN117200213 A CN 117200213A CN 202311181860 A CN202311181860 A CN 202311181860A CN 117200213 A CN117200213 A CN 117200213A
- Authority
- CN
- China
- Prior art keywords
- network
- algorithm
- neural network
- self
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 94
- 230000002787 reinforcement Effects 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 93
- 238000005457 optimization Methods 0.000 claims abstract description 50
- 230000008569 process Effects 0.000 claims abstract description 38
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 210000002569 neuron Anatomy 0.000 claims description 60
- 239000003795 chemical substances by application Substances 0.000 claims description 57
- 230000009471 action Effects 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 10
- 230000033228 biological regulation Effects 0.000 claims description 8
- 230000007423 decrease Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000007726 management method Methods 0.000 claims description 5
- 238000011217 control strategy Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000004445 quantitative analysis Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000001105 regulatory effect Effects 0.000 description 7
- 230000009467 reduction Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000035699 permeability Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000013486 operation strategy Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/30—Reactive power compensation
Landscapes
- Supply And Distribution Of Alternating Current (AREA)
Abstract
基于自组织映射神经网络深度强化学习的配电系统电压控制方法,包括:S1:构建配电网实时电压控制模型框架;S2:对电压控制问题进行数学建模,明确优化模型中的变量在深度强化学习算法中所对应的变量,将数学优化模型转化为马尔科夫决策过程;S3:考虑深度强化学习算法的维数诅咒,采用自组织神经网络映射算法对强化学习算法进行优化;S4:明确深度强化学习网络的训练方法,以及与自组织神经网络映射算法的结合应用;S5:以一天24小时为周期,在IEEE 33配电网母线基准系统上进行数值测试;构建基于IEEE 33配电系统网络用于电压控制测试,在装有MADDPG测试环境下的PyCharm软件上调用搭建好的优化模型进行求解。本发明提升了配电网的训练学习效率,优化了运行效率。
Description
技术领域
本发明涉及一种配电系统电压控制优化方法。
背景技术
随着分布式可再生能源(DER,如光伏发电以及风力发电等)在分布式系统中的渗透率不断提高,可再生能源输出功率的波动性和不确定性对配电系统运营商(DSO)将电压维持在规定范围内提出了更大的挑战,这导致迫切需要研究更为先进的电压/无功控制(VVC)算法。
传统上,局部自动控制模型仅在使用局部电压测量方法来减轻电压偏差的情况中被广泛应用。这些模型中最成熟的是下垂控制,它可以根据IEEE 1547-2018标准进行实现。然而,下垂控制可能导致不可行的电压分布和无功资源的利用不足,特别是当电压或无功限制放宽时。此外,配电网中接入的可控装置越来越稀疏,使得局部电压调节方法更难以达到全局电压偏差最小化的目标。因此,有必要提出基于最优潮流(OPF)模型的全局优化模型。根据优化时间尺度的不同,基于最优潮流的电压/无功控制(VVC)算法可分为单时间尺度控制和多时间尺度控制两大类。单时间尺度模型主要关注具有短时间尺度响应特性的电力电子调压设备的协调,如光伏逆变器和静态无功补偿器(SVC)。为了进一步实现在线或实时控制策略,有研究者采用梯度映射法、双上升法和广义快速双上升法设计基于局部测量信息的电压控制算法。
然而,局部逆变器的无功控制可能会增加有载调压变压器(OLTC)触发分接变换的次数,甚至对其他电压调节装置产生不利影响。传统的控制装置通常寿命有限,响应速度慢,按小时控制。因此,它们不能有效地处理由于分布式可再生能源(DER)功率的快速变化引起的快速电压波动。而具有快速性和灵活性的光伏逆变器是理想的电压调节装置,可用于以分钟为单位参与实时优化。
在此背景下,迫切需要一种合理的电压管理方法,有效地协调机械和电力电子设备不同响应速度和特性的调压装置,从而挖掘多个设备在多个时间尺度上共同控制电压的潜力。为了有效协调配电系统中具有不同时标响应特性的调压设备,提出了一种多时标电压模型。有文献提出,两级电压控制模型没有改变单时间尺度调节的本质。在此基础上,有文献提出分别在长时间尺度和短时间尺度上求解有载调压变压器(OLTC)和逆变器连续无功补偿等离散变量。
上述基于最优潮流(OPF)的电压/无功控制(VVC)算法中固有的两个缺点是:(1)潮流约束的非凸性。常用二阶锥松弛法、半正定松弛法、忽略功率损耗的线性化潮流模型、利用敏感因子矩阵对作用点处的潮流方程进行线性化等方法来表征潮流约束,但这些方法不可避免地会带来计算误差甚至是不可行的解。(2)不确定性变量建模。通过分别使用区间数或采样场景对不确定性进行建模,可以将电压/无功控制(VVC)模型转化为鲁棒优化模型或随机规划模型,这将带来计算误差或显著增加计算量的问题。
为了解决上述限制,最近的研究将深度强化学习(DRL)应用于电压控制,并且DRL已经成为上述基于模型方法的有效替代方案。深度强化学习的应用大致可以分为三类:应用于离散动作空间的算法、应用于连续动作空间的算法和应用于真实环境中多元智能体的算法。例如,应用深度Q网络(deep Q network,DQN)和dueling-DQN算法求解离散动作空间中的OLTC和CBs策略。对于连续动作空间中的问题,有文献采用深度确定性策略梯度(deepdeterministic policy gradient,DDPG)算法来解决连续值动作问题,有效避免了离散化带来的误差。此外,为了处理实际应用中的多智能体合作,可以采用多智能体深度确定性策略梯度(MADDPG)算法,并通过多智能体软演员评论家(MASAC)算法制定和求解多个子网络中的光伏逆变器调度情况。
发明内容
为了克服现有技术在深度强化学习(DRL)算法在维数诅咒方面的问题,本发明针对配电网电压控制,提出了一种结合自组织映射神经网络的MADDPG算法。
本发明采用自组织映射神经网络(SOM)来表示状态空间,保留输入数据的拓扑结构,通过自组织映射神经网络降低输入空间的维数,逼近逐渐变化的空间,结合MADDPG算法使智能体能够高效地学习最优策略,同时还可以减轻维数诅咒的影响。通过自组织映射神经网络的降维处理大大提升了MADDPG算法的训练学习效率,并对配电网中的调压设备的运行策略进行了优化,在保证配电网电压控制算法效果的同时,对现有的深度强化学习算法进行了优化提升。
为了实现上述目的,本发明的技术方案为:
一种基于模型辅助的深度强化学习算法的分布式电网电压控制方法,包括以下步骤:
S1:构建配电网实时电压控制模型框架;
S2:对电压控制问题进行数学建模,明确优化模型中的变量在深度强化学习算法中所对应的变量,将数学优化模型转化为马尔科夫决策过程。
S3:考虑深度强化学习算法的维数诅咒,采用自组织神经网络映射算法对强化学习算法进行优化。
S4:明确深度强化学习网络的训练方法,以及与自组织神经网络映射算法的结合应用。
S5:以一天24小时为周期,在IEEE 33配电网母线基准系统上进行数值测试。构建基于IEEE 33配电系统网络用于电压控制测试,在装有MADDPG测试环境下的PyCharm软件上调用搭建好的优化模型进行求解。
进一步,在所述步骤S1中,构建实时电压控制模型框架的具体过程包括:
S1-1:采用MADDPG算法作为实时电压控制模型的主要框架,以最优的OLTC和CBs的档位配置为基础,明确一个运行日内每个小时的档位情况,并作为算法框架中状态输入的一部分。
S1-2:在运行日每个小时内将时间段划分为n个时间间隔。在当前时间间隔内,结合状态空间中OLTC和CBs的最优档位状态信息,对光伏逆变器进行无功调节。从而控制电压的快速波动,实现有效的电压调节。
进一步,在所述步骤S2中,电压控制数学优化模型与深度强化学习算法中马尔科夫三元组的具体定义如下:
配电网潮流模型是算法环境的一个重要组成部分,配电系统的运行状态可以通过潮流计算获得,通过求解潮流模型可产生大量系统数据以供训练,该模型可以表示为:
Pi=PRES,i-PL,i (2)
Qi=QRES,i+QCBs,i-QL,i (3)
式中,Ω表示配电网中所有分支机构的集合;i和j分别为支路ij的输入节点和输出节点;Pij、Qij表示支路ij的有功功率和无功功率;Pi和Qi分别为节点i注入的有功功率和无功功率;Zij和Bij分别为支路ij的电阻和电抗;δij为节点i与j之间的相角差;PRES,i为节点i处可再生能源发电机组注入的有功功率;QRES,i和QCBs,i分别为节点i处可再生能源发电机组和CB注入的无功功率;PL,i和QL,i分别为节点i处负荷的有功功率和无功功率;vi是节点i的电压幅值。
电压控制模型基于已知的OLTC和CBs在t时段的状态,求解光伏逆变器在每个时间间隔内的最优输出策略;为便于描述,在后续建模过程中将省去下标t;这样,当前时刻的电压控制模型可以描述为:
subjectto.(1)-(3)
qg(i,τ)=QPV,i,τ (5)
式中,M为配电系统的母线节点个数;v0为标准电压;为安装在母线i上的光伏逆变器产生的无功功率上限;QPV,i,τ是安装在母线i上的光伏逆变器在时间τ时产生的无功功率;
将多个光伏逆变器的调度问题描述为马尔可夫决策过程;在马尔可夫决策过程中(MDP),将每个逆变器建模为一个智能体,通过多个智能体的协作实现电压控制;马尔科夫决策过程(MDP)是一个五元组<S,a,P,R,γ>,其主要组成成分包括状态空间、动作空间、奖励函数;
S2-2:状态空间:包括学习环境中所有光伏智能体的观测状态;因此,时间τ时的状态oτ可以用式(7)来描述:
oτ={ot,1,oτ,2,…,oτ,K} (7)
oτ,k={Pτ,k,SOLTC,SCBs,PL} (8)
式中Pτ,k为第K个光伏智能体在τ时刻的输出;SOLTC表示当前时间段下OLTC的档位状态;SCBs表示当前时间段下CBs的档位状态;PL为负载的有功功率;
S2-3:动作空间:马尔科夫过程中的动作为光伏逆变器的无功功率,该无功功率是一个连续变量,第K个光伏智能体在时刻τ的作用表示为aτ,k=Qτ,k;
S2-4:奖励函数:以第K个光伏智能体为例;第K个光伏智能体在时刻τ的奖励Rτ,K包含对电压偏差违规的惩罚rτ(即优化模型的目标函数)和系统运行约束Γτ,可表示为:
Rτ=rτ+Γτ (9)
电压偏差损失rτ表示全局电压偏差,由式(10)得到:
式中,ζ0为电压偏离标准电压的惩罚系数;
电压管理模型的违规处罚分为逆变器无功补偿违规处罚Γ1和电压违规处罚Γ2;当时,Γ1是一个绝对值很大的负数;电压违规处罚Γ2表示为式(11):
式中|*|+表示正函数;ζ1为母线电压超过给定上下限且满足|ζ1|>>|ζ0|的惩罚系数。
进一步,在所述步骤S3中,深度强化学习在维数诅咒方面的改进措施,具体包括:
S3-1:自组织映射神经网络;
自组织映射神经网络可以将高维或连续输入的数据映射到一维或二维空间中,在其拓扑结构中,一个节点就是一个簇;自组织映射神经网络通过使神经元的权重越来越接近输入向量来执行无监督训练;首先,初始化神经网络中神经元的权值;然后从数据集中随机采样作为网络的输入向量;该网络计算每个神经元和输入向量之间的欧氏距离,距离计算公式如下:
式中:n为网络神经元数量;神经网络中距离最小的神经元称为最优匹配神经元(BMUs),可以用神经网络节点来表征输入向量;自组织映射神经网络不仅需要计算距离,还需要使神经元尽可能靠近输入向量;也就是说,神经元的权重不断更新,使距离变小;同时,BMU附近的神经元也被修改,使它们更接近输入向量,这样节点就不断地“拉动”神经网络;
S3-2:自组织映射神经网络的训练与更新;
为了达到使自组织神经网络能够更好地拟合输入向量的目的,需要了解相邻神经元的半径,即神经元的更新模式;自组织映射神经网络中神经元的半径在训练开始时较大,随着训练时间的增加而逐渐减小,半径的计算公式如下:
λ=k/σ0 (14)
式中:t为当前时间,σ0为网络的初始半径,k为迭代次数;该公式采用指数衰减法,使半径随着训练的增加而减小,从而达到目标;半径确定后,对范围内的所有神经元进行权值更新;神经元离BMU越近,更新幅度越大,更新公式为:
w(t+1)=w(t)=Θ(t)L(t)(i(t)-w(t)) (15)
式中:L(t)为学习率,类似于半径计算公式采用指数递减,随着训练迭代逐渐减小;距离BMU越近,distBMU越小,该值越接近1,说明神经元的权值更新变化越大;经过多次训练迭代,自组织映射神经网络上的神经元可以表示输入向量的拓扑结构。
进一步,在所述步骤S4中,结合自组织映射神经网络的深度强化学习算法训练过程具体包括:
S4-1:SOM-MADDPG的结合使用;
将MADDPG算法与自组织映射神经网络相结合,将已有的状态空间数据输入到自组织映射神经网络中进行离线训练;从而确定自组织映射神经网络中每个神经元的权值向量,然后将神经元权值作为新的状态输入数据,用于后续的MADDPG训练;无论输入参数的数量是多少,智能体都能学习到与自组织映射神经网络网络中神经元数量相同的状态;因此,在高维状态定义中能显著降低状态复杂性;
S4-2:SOM-MADDPG的训练过程;
在SOM-MADDPG训练模型中,Reply Buffer遍历环境中所有可能的状态,并将这些数据作为自组织映射神经网络离线训练的样本;自组织映射神经网络训练并找到与样本数据欧几里德距离最小的神经元作为最佳匹配单元(BMU);每个BMU都可以代表一类数据,因此可以将BMU的权值向量作为MADDPG训练的输入状态,大大减小了状态大小;
并且MADDPG算法的神经网络训练过程与DDPG算法相同;每个智能体由演员家网络、评论家网络、目标演员家网络和目标评论家网络四个神经网络组成,分别用θμ、θQ、θμ′和θQ′表示;每个智能体使用DDPG算法来学习最佳策略;
S4-3:SOM-MADDPG算法的更新方法;
评论家网络参数的更新方法具体如下:
演员家网络的参数需要借助由演员家网络和探测噪声得到的控制策略的梯度不断更新;
at,τ,k=μ(wt,τ,k|θμ)+Θt (18)
μ(wt,τ,k|θμ)=arg maxμJπ(μ|wt,τ,k,θμ) (19)
其中wt,τ,k为新的当前状态,Θt为探测噪声;进入当前状态,光伏智能体根据演员家网络和探索噪声选择动作;光伏智能体神经网络在训练过程中需要其他智能体的动作信息作为辅助,从而实现多个智能体之间的交互与协作;因此,光伏智能体评论家网络的输入动作为光伏智能体动作与其他智能体动作的集合;
式中,N为样本量;
MADDPG算法采用软更新的方法;它赋予目标网络和原始网络相同的权值,并在每一步更新目标演员家网络和目标评论家网络的参数;更新方法如下:
其中α是更新因子;
以配电网模型作为算法的环境进行仿真,将OLTC和CBs的最优档位策略作为算法状态空间的一部分进行输入,并结合自组织映射神经网络进行学习优化,是本算法的整体工作流程。
进一步,在所述步骤S5中,在IEEE 33母线基准系统上进行数值计算,通过Python进行优化求解,并分析所提方法的有效性与可靠性:
S5-1:构建求解工具;
使用Anaconda3对算法环境进行配置,配置的虚拟环境中需要装有tensorflow、pytorch以及MADDPG环境包等,在配置好虚拟环境的PyCharm软件平台中编程,优化计算是在装有Intel(R)Core(TM)i5-7200U CPU@2.50GHz处理器和8GB RAM的PC上执行的,软件环境为Windows10操作系统;
S5-2:设置优化方案与指标;
为清楚对比文中所搭建算法模型对配电网电压波动所起到的效用,设置两种方案进行对比观察:(1)不加任何优化的MADDPG算法(2)结合SOM的分布式MADDPG算法。
根据所考虑的量化分析指标,对两种方案下算法的奖励收敛情况、配电网整体的电压波动进行分析:(1)深度强化学习算法的奖励收敛情况;(2)配电网中各节点的电压波动情况。
本发明的工作原理是:
1.综合考虑配电网设备情况,建立配电网电压控制模型框架。
2.建立配电系统电压控制数学优化模型,将该优化模型转化为马尔科夫决策过程的三元组,明确深度强化学习中的状态、动作与奖励的定义。
3.分析现有深度强化学习算法的缺陷,通过自组织映射神经网络的方法对现有深度强化学习算法进行优化提升。
4.将自组织映射神经网络模型与深度强化学习算法进行结合应用,构建优化提升后的算法训练模型。
5.所提深度强化学习算法可以结合OLTC、CBs的档位设定,对光伏逆变器的无功出力进行有效调节,达到缓解配电系统电压波动和电压越限等问题的目的,并通过自组织映射神经网络对深度强化学习算法的训练效率进行提升优化。
本发明的优点是:
1.能够有效减轻新能源渗透率较高的配电系统中频繁出现的电压越限和电压波动等问题。
2.将光伏逆变器优化化为马尔可夫博弈过程,采用MADDPG算法求解,充分考虑智能逆变器在快时间尺度下的协同控制行为。并根据数据驱动代理模型计算出的奖励信号,指引深度强化学习的训练方向,有效调节光伏逆变器的无功输出,实现在线电压管理。
3.使用自组织映射神经网络来表示状态空间,保留了输入数据的拓扑结构。同时,通过自组织映射神经网络降低输入空间的维数,逼近逐渐变化的空间,利用MADDPG算法使智能体能够高效地学习最优策略,还可以减轻维数爆炸问题的影响。
4.通过将自组织映射神经网络与深度强化学习算法结合到一起,提升了算法的训练效率,同时也保证了算法的有效性,能够有效的缓解电压越限等问题。
附图说明
图1是本发明的自组织映射神经网络结构示意图。
图2是本发明的自组织映射神经网络训练过程示意图。
图3是本发明的SOM-MADDPG训练模型结构示意图。
图4是配电网电压控制优化模型的整体工作流程示意图。
图5是本发明的配电系统结构示意图。
图6是配电网的负荷需求与光伏出力示意图。
图7是IEEE 33配电网各节点电压情况。
图8是仅采用MADDPG算法的优化模型奖励收敛示意图。
图9是采用SOM-MADDPG算法的优化模型奖励收敛示意图。
图10(a)和图10(b)是优化前与采用本发明算法优化后的各节点电压分布示意图,其中图10(a)是7:00时各节点电压幅值,图10(b)是20:00时各节点电压幅值。
具体实施方法
下面结合附图对本发明做进一步说明。
参照图1~图9,一种基于自组织映射神经网络深度强化学习的配电系统电压控制方法,包括以下步骤:
S1:构建配电网实时电压控制模型框架;
S2:对电压控制问题进行数学建模,明确优化模型中的变量在深度强化学习算法中所对应的变量,将数学优化模型转化为马尔科夫决策过程。
S3:考虑深度强化学习算法的维数诅咒,采用自组织神经网络映射算法对强化学习算法进行优化。
S4:明确深度强化学习网络的训练方法,以及与自组织神经网络映射算法的结合应用。
S5:以一天24小时为周期,在IEEE 33配电网母线基准系统上进行数值测试。构建基于IEEE 33配电系统网络用于电压控制测试,在装有MADDPG测试环境下的PyCharm软件上调用搭建好的优化模型进行求解。
进一步,在所述步骤S1中,构建实时电压控制模型框架的具体过程包括:
S1-1:采用MADDPG算法作为实时电压控制模型的主要框架,以最优的OLTC和CBs的档位配置为基础,明确一个运行日内每个小时的档位情况,并作为算法框架中状态输入的一部分。
S1-2:在运行日每个小时内将时间段划分为n个时间间隔。在当前时间间隔内,结合状态空间中OLTC和CBs的最优档位状态信息,对光伏逆变器进行无功调节。从而控制电压的快速波动,实现有效的电压调节。
进一步,在所述步骤S2中,电压控制数学优化模型与深度强化学习算法中马尔科夫三元组的具体定义如下:
S2-1:电压控制优化模型
配电网潮流模型是算法环境的一个重要组成部分,配电系统的运行状态可以通过潮流计算获得,通过求解潮流模型可产生大量系统数据以供训练,该模型可以表示为:
Pi=PRES,i-PL,i (2)
Qi=QRES,i+QCBs,i-QL,i (3)
式中,Ω表示配电网中所有分支机构的集合;i和j分别为支路ij的输入节点和输出节点;Pij、Qij表示支路ij的有功功率和无功功率;Pi和Qi分别为节点i注入的有功功率和无功功率;Zij和Bij分别为支路ij的电阻和电抗;δij为节点i与j之间的相角差;PRES,i为节点i处可再生能源发电机组注入的有功功率;QRES,i和QCBs,i分别为节点i处可再生能源发电机组和CB注入的无功功率;PL,i和QL,i分别为节点i处负荷的有功功率和无功功率;vi是节点i的电压幅值。
电压控制模型基于已知的OLTC和CBs在t时段的状态,求解光伏逆变器在每个时间间隔内的最优输出策略;为便于描述,在后续建模过程中将省去下标t;这样,当前时刻的电压控制模型可以描述为:
subjectto.(1)-(3)
qg(i,τ)=QPV,i,τ (5)
式中,M为配电系统的母线节点个数;v0为标准电压;为安装在母线i上的光伏逆变器产生的无功功率上限;QPV,i,τ是安装在母线i上的光伏逆变器在时间τ时产生的无功功率;
将多个光伏逆变器的调度问题描述为马尔可夫决策过程;在马尔可夫决策过程中(MDP),将每个逆变器建模为一个智能体,通过多个智能体的协作实现电压控制;马尔科夫决策过程(MDP)是一个五元组<S,a,P,R,γ>,其主要组成成分包括状态空间、动作空间、奖励函数;
S2-2:状态空间:包括学习环境中所有光伏智能体的观测状态;因此,时间τ时的状态oτ可以用式(7)来描述:
oτ={oτ,1,oτ,2,…,oτ,K} (7)
oτ,k={Pτ,k,SOLTC,SCBs,PL} (8)
式中Pτ,k为第K个光伏智能体在τ时刻的输出;SOLTC表示当前时间段下OLTC的档位状态;SCBs表示当前时间段下CBs的档位状态;PL为负载的有功功率;
S2-3:动作空间:马尔科夫过程中的动作为光伏逆变器的无功功率,该无功功率是一个连续变量,第K个光伏智能体在时刻τ的作用表示为aτ,k=Qτ,k;
S2-4:奖励函数:以第K个光伏智能体为例;第K个光伏智能体在时刻τ的奖励Rτ,K包含对电压偏差违规的惩罚rτ(即优化模型的目标函数)和系统运行约束Γτ,可表示为:
Rτ=rτ+Γτ (9)
电压偏差损失rτ表示全局电压偏差,由式(10)得到:
式中,ζ0为电压偏离标准电压的惩罚系数;
电压管理模型的违规处罚分为逆变器无功补偿违规处罚Γ1和电压违规处罚Γ2;当时,Γ1是一个绝对值很大的负数;电压违规处罚Γ2表示为式(11):
式中|*|+表示正函数;ζ1为母线电压超过给定上下限且满足|ζ1|>>|ζ0|的惩罚系数。
进一步,在所述步骤S3中,深度强化学习在维数诅咒方面的改进措施,具体包括:
S3-1:自组织映射神经网络;
自组织映射神经网络可以将高维或连续输入的数据映射到一维或二维空间中,在其拓扑结构中,一个节点就是一个簇;自组织映射神经网络通过使神经元的权重越来越接近输入向量来执行无监督训练;首先,初始化神经网络中神经元的权值;然后从数据集中随机采样作为网络的输入向量;该网络计算每个神经元和输入向量之间的欧氏距离,距离计算公式如下:
式中:n为网络神经元数量;神经网络中距离最小的神经元称为最优匹配神经元(BMUs),可以用神经网络节点来表征输入向量;自组织映射神经网络不仅需要计算距离,还需要使神经元尽可能靠近输入向量;也就是说,神经元的权重不断更新,使距离变小;同时,BMU附近的神经元也被修改,使它们更接近输入向量,这样节点就不断地“拉动”神经网络;
S3-2:自组织映射神经网络的训练与更新;
为了达到使自组织神经网络能够更好地拟合输入向量的目的,需要了解相邻神经元的半径,即神经元的更新模式;自组织映射神经网络中神经元的半径在训练开始时较大,随着训练时间的增加而逐渐减小,半径的计算公式如下:
λ=k/σ0 (14)
式中:t为当前时间,σ0为网络的初始半径,k为迭代次数;该公式采用指数衰减法,使半径随着训练的增加而减小,从而达到目标;半径确定后,对范围内的所有神经元进行权值更新;神经元离BMU越近,更新幅度越大,更新公式为:
w(t+1)=w(t)=Θ(t)L(t)(i(t)-w(t)) (15)
式中:L(t)为学习率,类似于半径计算公式采用指数递减,随着训练迭代逐渐减小;距离BMU越近,distBMU越小,该值越接近1,说明神经元的权值更新变化越大;经过多次训练迭代,自组织映射神经网络上的神经元可以表示输入向量的拓扑结构。
进一步,在所述步骤S4中,结合自组织映射神经网络的深度强化学习算法训练过程具体包括:
S4-1:SOM-MADDPG的结合使用;
将MADDPG算法与自组织映射神经网络相结合,将已有的状态空间数据输入到自组织映射神经网络中进行离线训练;从而确定自组织映射神经网络中每个神经元的权值向量,然后将神经元权值作为新的状态输入数据,用于后续的MADDPG训练;无论输入参数的数量是多少,智能体都能学习到与自组织映射神经网络网络中神经元数量相同的状态;因此,在高维状态定义中能显著降低状态复杂性。SOM-MADDPG训练模型如图3所示。
S4-2:SOM-MADDPG的训练过程;
在SOM-MADDPG训练模型中,Reply Buffer遍历环境中所有可能的状态,并将这些数据作为自组织映射神经网络离线训练的样本;自组织映射神经网络训练并找到与样本数据欧几里德距离最小的神经元作为最佳匹配单元(BMU);每个BMU都可以代表一类数据,因此可以将BMU的权值向量作为MADDPG训练的输入状态,大大减小了状态大小;
并且MADDPG算法的神经网络训练过程与DDPG算法相同;每个智能体由演员家网络、评论家网络、目标演员家网络和目标评论家网络四个神经网络组成,分别用θμ、θQ、θμ′和θQ′表示;每个智能体使用DDPG算法来学习最佳策略;
S4-3:SOM-MADDPG算法的更新方法;
评论家网络参数的更新方法具体如下:
演员家网络的参数需要借助由演员家网络和探测噪声得到的控制策略的梯度不断更新;
at,τ,k=μ(wt,τ,k|θμ)+Θt (18)
μ(wt,τ,k|θμ)=arg maxμJπ(μ|wt,τ,k,θμ) (19)
其中wt,τ,k为新的当前状态,Θt为探测噪声;进入当前状态,光伏智能体根据演员家网络和探索噪声选择动作;光伏智能体神经网络在训练过程中需要其他智能体的动作信息作为辅助,从而实现多个智能体之间的交互与协作;因此,光伏智能体评论家网络的输入动作为光伏智能体动作与其他智能体动作的集合;
式中,N为样本量;
MADDPG算法采用软更新的方法;它赋予目标网络和原始网络相同的权值,并在每一步更新目标演员家网络和目标评论家网络的参数;更新方法如下:
其中α是更新因子;
以配电网模型作为算法的环境进行仿真,将OLTC和CBs的最优档位策略作为算法状态空间的一部分进行输入,并结合自组织映射神经网络进行学习优化,本算法的整体工作流程具体如图4所示。
进一步,在所述步骤S5中,在IEEE 33母线基准系统上进行数值计算,通过Python进行优化求解,并分析所提方法的有效性与可靠性:
进一步,在所述步骤S5中,具体案例如下:
(1)参数设置:光伏组件安装在IEEE 33-母线的7、13、24、27母线上,25母线上安装5组电容器,OLTC安装在1、2母线之间,如图5所示。4台光伏机组的容量以及负荷情况如图6所示。每个CBs每日动作次数上限是5次,具有5个档位,每档为0.06MVar,总容量为0.3MVar。OLTC的可调节比例为0.95p.u.-1.05p.u.,分接头共有11个调节挡位,设OLTC每天动作次数上限为4次。在我们的测试中,为了匹配真实数据的可用性,每个时段t为一小时,每个间隔τ被设置为1分钟。其中,配电网环境中的功率潮流计算使用Pypower进行,并使用Python在PyCharm中构建所提算法模型的框架并进行训练。
(2)由于智能体的增加,环境信息和状态输入数据的维数也大幅增加,导致MADDPG算法的训练速度降低,训练难度增大。当没有自组织映射神经网络训练时,MADDPG需要遍历每一个可能的场景。所有可能的场景包括在T个时间段内光伏逆变器在每个时间间隔内的输出,可能的场景很多,而在每种可能的情况下,智能体奖励的收敛速度会较慢。由于训练时需要考虑全局信息,信息量较大,导致MADDPG算法的训练速度会变慢,甚至难以完成训练。因此,我们将MADDPG算法与自组织映射神经网络网络相结合,显著减少状态空间的数量,从而缓解维度诅咒,提高训练效率。
为使本领域技术人员更好地理解本发明,本文设置了两个案例进行对比分析:
案例1:在配电网环境中仅采用MADDPG算法进行电压控制优化调度;
案例2:采用SOM-MADDPG算法对光伏逆变器进行优化调度;
为使本领域技术人员更好地理解本发明,对于两种案例的设置情况进行如下说明:
考虑仅采用MADDPG算法进行完整的训练所耗时间较长,案例中以9:00-10:00的训练情况为例进行对比分析,两种案例均在配电网环境(配电网中的负荷需求与光伏出力情况如图6所示)、时间、OLTC和CBs配置相同的情况下进行训练。根据优化前配电网越限情况可以发现,越限情况主要集中在5:00-8:00以及18:00-23:00之间,其中以7:00和20:00的越限情况最为严重,故选取7:00和20:00两个时刻观察本发明所提算法优化效果,通过与优化前各节点的电压情况进行对比,验证本发明所提算法的有效性。
对比不同案例下强化学习算法训练过程中奖励的收敛情况。结果表明:1)在仅采用MADDPG算法的案例中,由于没有采用任何提升方法,每一回合的训练都长达3个小时左右,所以完整地遍历所有可能得场景耗时较长,且考虑算法训练过程中内存的累加,如若计算设备内存不够,极有可能出现训练中断、训练不完的情况;2)在采用SOM+MADDPG算法的案例中,由于SOM的降维作用,改进算法的训练速度相较于案例1较快,且达到收敛的速度也更快;3)采用本发明算法进行优化后,IEEE 33配电系统中各节点的电压都得到了有效的降低,使各节点的电压都维持在0.95p.u.-1.05p.u.的有效电压范围内。
根据两种不同的案例分别进行案例分析(案例1见图8,案例2见图9、图10(a)和图10(b))。
对比两种算法的收敛效果可以发现,在配电系统结构、时间、OLTC和CBs配置等条件均相同的情况下,案例一中MADDPG算法奖励的波动情况较为严重,且当训练步数达到4000次以上才达到收敛,而案例二中SOM+MADDPG算法奖励的波动情况较弱,且当训练步数达到3500次左右即达到收敛状态,表明现SOM+MADDPG算法的收敛速度较快。且对比两种案例中奖励最终收敛的情况可以发现,案例一中算法奖励最终稳定在-1.05左右,而案例二中算法奖励最终稳定在-0.75左右,表明SOM+MADDPG算法的收敛效果也更好。
对比优化前和采用本发明算法优化后各节点的电压情况可以发现,在优化前IEEE33配电系统中有近一半以上的节点出现了电压越限的问题(如图7所示),整体电压波动范围在0.85-1.00p.u.之间,越下限的情况较为严重。在采用本发明算法后,配电系统整体电压均处在0.95-1.05p.u.的标准范围内(如图10(a)和图10(b)所示),且随着训练的进行,各节点电压向1.0p.u.的标准电压靠近。对比7:00和20:00的电压情况可以发现,20:00的电压越限情况更为严重,且经过2000次的训练虽然有所改进,但仍较为接近0.95p.u.的下限值,随着训练的进行,电压逐渐趋向于1.0p.u.的标准电压。表明本发明所提算法能够较好地缓解配电网中易出现的电压越限问题,使配电系统在新能源渗透率不断提升的情况下仍能保持较好的稳定性。
由此可得,以多智能体深度确定性策略梯度(MADDPG)算法为基础,结合自组织映射神经网络(SOM)算法,对配电系统电压控制模型进行优化求解,在现有OLTC和CBs最优配置的情况下,对配电系统中的光伏逆变器的无功出力进行优化调节,可以有效地缓解配电系统中电压越限的情况,提高配电系统的稳定性。
综上所述,本文结合了自组织映射神经网络与深度强化学习算法对配电网中的电压控制优化调度进行研究。利用自组织映射神经网络将深度强化学习算法中的状态空间进行降维处理,得到降维后的状态空间;最后提出了基于自组织映射神经网络深度强化学习的配电网电压优化模型。所提模型同时考虑了深度强化学习的维数诅咒以及训练效率较低的问题。通过案例演示与参数设置分析验证了所提模型的有效性。
在本说明书中,对本发明的示意性表述不是必须针对的是相同的实施例或示例,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行结合和组合。此外,本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施案例所陈述的具体形式,本发明的保护范围也包括本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (6)
1.基于自组织映射神经网络深度强化学习的配电系统电压控制方法,包括以下步骤:
S1:构建配电网实时电压控制模型框架;
S2:对电压控制问题进行数学建模,明确优化模型中的变量在深度强化学习算法中所对应的变量,将数学优化模型转化为马尔科夫决策过程;
S3:考虑深度强化学习算法的维数诅咒,采用自组织神经网络映射算法对强化学习算法进行优化;
S4:明确深度强化学习网络的训练方法,以及与自组织神经网络映射算法的结合应用;
S5:以一天24小时为周期,在IEEE 33配电网母线基准系统上进行数值测试;构建基于IEEE 33配电系统网络用于电压控制测试,在装有MADDPG测试环境下的PyCharm软件上调用搭建好的优化模型进行求解。
2.如权利要求1所述的基于自组织映射神经网络深度强化学习的配电系统电压控制方法,在所述步骤S1中,构建实时电压控制模型框架的具体过程包括:
S1-1:采用MADDPG算法作为实时电压控制模型的主要框架,以最优的OLTC和CBs的档位配置为基础,明确一个运行日内每个小时的档位情况,并作为算法框架中状态输入的一部分;
S1-2:在运行日每个小时内将时间段划分为n个时间间隔;在当前时间间隔内,结合状态空间中OLTC和CBs的最优档位状态信息,对光伏逆变器进行无功调节;从而控制电压的快速波动,实现有效的电压调节。
3.如权利要求2所述的基于自组织映射神经网络深度强化学习的配电系统电压控制方法,在所述步骤S2中,电压控制数学优化模型与深度强化学习算法中马尔科夫三元组的具体定义如下:
S2-1:电压控制优化模型
配电网潮流模型是算法环境的一个重要组成部分,配电系统的运行状态可以通过潮流计算获得,通过求解潮流模型可产生大量系统数据以供训练,该模型可以表示为:
Pi=PRES,i-PL,i (2)
Qi=QRES,i+QCBs,i-QL,i (3)
式中,Ω表示配电网中所有分支机构的集合;i和j分别为支路ij的输入节点和输出节点;Pij、Qij表示支路ij的有功功率和无功功率;Pi和Qi分别为节点i注入的有功功率和无功功率;Zij和Bij分别为支路ij的电阻和电抗;δij为节点i与j之间的相角差;PRES,i为节点i处可再生能源发电机组注入的有功功率;QRES,i和QCBs,i分别为节点i处可再生能源发电机组和CB注入的无功功率;PL,i和QL,i分别为节点i处负荷的有功功率和无功功率;vi是节点i的电压幅值。
电压控制模型基于已知的OLTC和CBs在t时段的状态,求解光伏逆变器在每个时间间隔内的最优输出策略;为便于描述,在后续建模过程中将省去下标t;这样,当前时刻的电压控制模型可以描述为:
subject to.(1)-(3)
qg(i,τ)=QPV,i,τ (5)
式中,M为配电系统的母线节点个数;v0为标准电压;为安装在母线i上的光伏逆变器产生的无功功率上限;QPV,i,τ是安装在母线i上的光伏逆变器在时间τ时产生的无功功率;
将多个光伏逆变器的调度问题描述为马尔可夫决策过程;在马尔可夫决策过程中(MDP),将每个逆变器建模为一个智能体,通过多个智能体的协作实现电压控制;马尔科夫决策过程(MDP)是一个五元组<S,a,P,R,γ>,其主要组成成分包括状态空间、动作空间、奖励函数;
S2-2:状态空间:包括学习环境中所有光伏智能体的观测状态;因此,时间τ时的状态oτ可以用式(7)来描述:
oτ={oτ,1,oτ,2,…,oτ,K} (7)
oτ,k={Pτ,k,SOLTC,SCBs,PL} (8)
式中Pτ,k为第K个光伏智能体在τ时刻的输出;SOLTC表示当前时间段下OLTC的档位状态;SCBs表示当前时间段下CBs的档位状态;PL为负载的有功功率;
S2-3:动作空间:马尔科夫过程中的动作为光伏逆变器的无功功率,该无功功率是一个连续变量,第K个光伏智能体在时刻τ的作用表示为aτ,k=Qτ,k;
S2-4:奖励函数:以第K个光伏智能体为例;第K个光伏智能体在时刻τ的奖励Rτ,K包含对电压偏差违规的惩罚rτ(即优化模型的目标函数)和系统运行约束Γτ,可表示为:
Rτ=rτ+Γτ (9)
电压偏差损失rτ表示全局电压偏差,由式(10)得到:
式中,ζ0为电压偏离标准电压的惩罚系数;
电压管理模型的违规处罚分为逆变器无功补偿违规处罚Γ1和电压违规处罚Γ2;当时,Γ1是一个绝对值很大的负数;电压违规处罚Γ2表示为式(11):
式中|*|+表示正函数;ζ1为母线电压超过给定上下限且满足|ζ1|>>|ζ0|的惩罚系数。
4.如权利要求3所述的基于自组织映射神经网络深度强化学习的配电系统电压控制方法,在所述步骤S3中,深度强化学习在维数诅咒方面的改进措施,具体包括:
S3-1:自组织映射神经网络;
自组织映射神经网络可以将高维或连续输入的数据映射到一维或二维空间中,在其拓扑结构中,一个节点就是一个簇;自组织映射神经网络通过使神经元的权重越来越接近输入向量来执行无监督训练;首先,初始化神经网络中神经元的权值;然后从数据集中随机采样作为网络的输入向量;该网络计算每个神经元和输入向量之间的欧氏距离,距离计算公式如下:
式中:n为网络神经元数量;神经网络中距离最小的神经元称为最优匹配神经元(BMUs),可以用神经网络节点来表征输入向量;自组织映射神经网络不仅需要计算距离,还需要使神经元尽可能靠近输入向量;也就是说,神经元的权重不断更新,使距离变小;同时,BMU附近的神经元也被修改,使它们更接近输入向量,这样节点就不断地“拉动”神经网络;
S3-2:自组织映射神经网络的训练与更新;
为了达到使自组织神经网络能够更好地拟合输入向量的目的,需要了解相邻神经元的半径,即神经元的更新模式;自组织映射神经网络中神经元的半径在训练开始时较大,随着训练时间的增加而逐渐减小,半径的计算公式如下:
λ=k/σ0 (14)式中:t为当前时间,σ0为网络的初始半径,k为迭代次数;该公式采用指数衰减法,使半径随着训练的增加而减小,从而达到目标;半径确定后,对范围内的所有神经元进行权值更新;神经元离BMU越近,更新幅度越大,更新公式为:
w(t+1)=w(t)=Θ(t)L(t)(i(t)-w(t)) (15)
式中:L(t)为学习率,类似于半径计算公式采用指数递减,随着训练迭代逐渐减小;距离BMU越近,distBMU越小,该值越接近1,说明神经元的权值更新变化越大;经过多次训练迭代,自组织映射神经网络上的神经元可以表示输入向量的拓扑结构。
5.如权利要求4所述的基于自组织映射神经网络深度强化学习的配电系统电压控制方法,在所述步骤S4中,结合自组织映射神经网络的深度强化学习算法训练过程具体包括:
S4-1:SOM-MADDPG的结合使用;
将MADDPG算法与自组织映射神经网络相结合,将已有的状态空间数据输入到自组织映射神经网络中进行离线训练;从而确定自组织映射神经网络中每个神经元的权值向量,然后将神经元权值作为新的状态输入数据,用于后续的MADDPG训练;无论输入参数的数量是多少,智能体都能学习到与自组织映射神经网络网络中神经元数量相同的状态;因此,在高维状态定义中能显著降低状态复杂性;
S4-2:SOM-MADDPG的训练过程;
在SOM-MADDPG训练模型中,Reply Buffer遍历环境中所有可能的状态,并将这些数据作为自组织映射神经网络离线训练的样本;自组织映射神经网络训练并找到与样本数据欧几里德距离最小的神经元作为最佳匹配单元(BMU);每个BMU都可以代表一类数据,因此可以将BMU的权值向量作为MADDPG训练的输入状态,大大减小了状态大小;
并且MADDPG算法的神经网络训练过程与DDPG算法相同;每个智能体由演员家网络、评论家网络、目标演员家网络和目标评论家网络四个神经网络组成,分别用θμ、θQ、θμ′和θQ′表示;每个智能体使用DDPG算法来学习最佳策略;
S4-3:SOM-MADDPG算法的更新方法;
评论家网络参数的更新方法具体如下:
演员家网络的参数需要借助由演员家网络和探测噪声得到的控制策略的梯度不断更新;
at,τ,k=μ(wt,τ,k|θμ)+Θt (18)
μ(wt,τ,k|θμ)=arg maxμJπ(μ|wt,τ,k,θμ) (19)
其中wt,τ,k为新的当前状态,Θt为探测噪声;进入当前状态,光伏智能体根据演员家网络和探索噪声选择动作;光伏智能体神经网络在训练过程中需要其他智能体的动作信息作为辅助,从而实现多个智能体之间的交互与协作;因此,光伏智能体评论家网络的输入动作为光伏智能体动作与其他智能体动作的集合;
式中,N为样本量;
MADDPG算法采用软更新的方法;它赋予目标网络和原始网络相同的权值,并在每一步更新目标演员家网络和目标评论家网络的参数;更新方法如下:
其中α是更新因子;
以配电网模型作为算法的环境进行仿真,将OLTC和CBs的最优档位策略作为算法状态空间的一部分进行输入,并结合自组织映射神经网络进行学习优化,是本算法的整体工作流程。
6.如权利要求5所述的基于自组织映射神经网络深度强化学习的配电系统电压控制方法,在所述步骤S5中,在IEEE 33母线基准系统上进行数值计算,通过Python进行优化求解,并分析所提方法的有效性与可靠性:
S5-1:构建求解工具;
使用Anaconda3对算法环境进行配置,配置的虚拟环境中需要装有tensorflow、pytorch以及MADDPG环境包等,在配置好虚拟环境的PyCharm软件平台中编程,优化计算是在装有Intel(R)Core(TM)i5-7200U CPU@2.50GHz处理器和8GB RAM的PC上执行的,软件环境为Windows10操作系统;
S5-2:设置优化方案与指标;
为清楚对比文中所搭建算法模型对配电网电压波动所起到的效用,设置两种方案进行对比观察:(1)不加任何优化的MADDPG算法(2)结合SOM的分布式MADDPG算法;
根据所考虑的量化分析指标,对两种方案下算法的奖励收敛情况、配电网整体的电压波动以及网络损耗进行分析:(1)深度强化学习算法的奖励收敛效果;(2)配电网中各节点的电压波动情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311181860.5A CN117200213A (zh) | 2023-09-13 | 2023-09-13 | 基于自组织映射神经网络深度强化学习的配电系统电压控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311181860.5A CN117200213A (zh) | 2023-09-13 | 2023-09-13 | 基于自组织映射神经网络深度强化学习的配电系统电压控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117200213A true CN117200213A (zh) | 2023-12-08 |
Family
ID=88988372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311181860.5A Pending CN117200213A (zh) | 2023-09-13 | 2023-09-13 | 基于自组织映射神经网络深度强化学习的配电系统电压控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117200213A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118017523A (zh) * | 2024-04-09 | 2024-05-10 | 杭州鸿晟电力设计咨询有限公司 | 一种电力系统的电压控制方法、装置、设备及介质 |
CN118377232A (zh) * | 2024-06-26 | 2024-07-23 | 南京理工大学 | 一种欺骗攻击下的分布式系统安全控制方法及系统 |
-
2023
- 2023-09-13 CN CN202311181860.5A patent/CN117200213A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118017523A (zh) * | 2024-04-09 | 2024-05-10 | 杭州鸿晟电力设计咨询有限公司 | 一种电力系统的电压控制方法、装置、设备及介质 |
CN118377232A (zh) * | 2024-06-26 | 2024-07-23 | 南京理工大学 | 一种欺骗攻击下的分布式系统安全控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cao et al. | Attention enabled multi-agent DRL for decentralized volt-VAR control of active distribution system using PV inverters and SVCs | |
CN113363998B (zh) | 一种基于多智能体深度强化学习的配电网电压控制方法 | |
Wang et al. | Adaptive dynamic programming: An introduction | |
CN117200213A (zh) | 基于自组织映射神经网络深度强化学习的配电系统电压控制方法 | |
CN113872213B (zh) | 一种配电网电压自主优化控制方法及装置 | |
El Helou et al. | Fully decentralized reinforcement learning-based control of photovoltaics in distribution grids for joint provision of real and reactive power | |
CN104037776A (zh) | 随机惯性因子粒子群优化算法的电网无功容量配置方法 | |
CN113141012B (zh) | 电网潮流调控决策推理方法 | |
Zhang et al. | Deep reinforcement learning for load shedding against short-term voltage instability in large power systems | |
CN115313403A (zh) | 一种基于深度强化学习算法的实时电压调控方法 | |
CN103618315B (zh) | 一种基于bart算法和超吸收壁的电网电压无功优化方法 | |
CN114784823A (zh) | 基于深度确定性策略梯度的微电网频率控制方法及系统 | |
Li et al. | Learning the optimal strategy of power system operation with varying renewable generations | |
CN116169698A (zh) | 一种新能源平稳消纳的分布式储能优化配置方法及系统 | |
Zeng et al. | Distributed deep reinforcement learning-based approach for fast preventive control considering transient stability constraints | |
Zhang et al. | Application and progress of artificial intelligence technology in the field of distribution network voltage Control: A review | |
Yin et al. | Expandable deep width learning for voltage control of three-state energy model based smart grids containing flexible energy sources | |
Li et al. | Multiagent deep meta reinforcement learning for sea computing-based energy management of interconnected grids considering renewable energy sources in sustainable cities | |
Chen et al. | A Novel Approach Based on Modified and Hybrid Flower Pollination Algorithm to Solve Multi-objective Optimal Power Flow. | |
Ma et al. | A Reinforcement learning based coordinated but differentiated load frequency control method with heterogeneous frequency regulation resources | |
CN111950811A (zh) | 基于双层人工神经网络的区域光伏功率预测方法及系统 | |
CN116049156A (zh) | 一种基于大数据技术的电量数据采集优化方法及系统 | |
Etehad et al. | Multi-objective optimization of reactive power dispatch in power systems via SPMGSO algorithm | |
CN115051360A (zh) | 集成式知识迁移的电力系统运行风险在线计算方法与装置 | |
Casagrande et al. | Learning-based MPC using differentiable optimisation layers for microgrid energy management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |