CN113032934A - 基于me-td3算法的风电场动态参数智能校核方法 - Google Patents

基于me-td3算法的风电场动态参数智能校核方法 Download PDF

Info

Publication number
CN113032934A
CN113032934A CN202110265065.9A CN202110265065A CN113032934A CN 113032934 A CN113032934 A CN 113032934A CN 202110265065 A CN202110265065 A CN 202110265065A CN 113032934 A CN113032934 A CN 113032934A
Authority
CN
China
Prior art keywords
network
value
algorithm
evaluation
experience
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110265065.9A
Other languages
English (en)
Other versions
CN113032934B (zh
Inventor
安军
周庆锋
刘征帆
金宏
蒋振国
季轶
王玉鹏
杨宇童
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Power Supply Co Of State Grid Jilinsheng Electric Power Supply Co
Northeast Electric Power University
Original Assignee
Northeast Dianli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Dianli University filed Critical Northeast Dianli University
Priority to CN202110265065.9A priority Critical patent/CN113032934B/zh
Publication of CN113032934A publication Critical patent/CN113032934A/zh
Application granted granted Critical
Publication of CN113032934B publication Critical patent/CN113032934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/18Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/02CAD in a network environment, e.g. collaborative CAD or distributed simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/06Wind turbines or wind farms

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明是一种基于ME‑TD3算法的风电场动态参数智能校核方法,其特点是,在双馈风电场等值模型的基础上,对深度强化学习的新进展深度确定性策略梯度算法进行改进,提出了多经验池概率回放的双延迟深度确定性策略梯度算法。针对深度确定性策略梯度算法存在的高维度状态动作空间收敛速度较慢和网络高方差、过拟合的问题,该算法采取双经验池的方法提高了抽样时有效经验被选取的概率,提高了网络训练的效率,同时采取多种技巧来提高ME‑TD3算法中评价网络估值的准确度,从而提高了风电场动态参数校核的准确性,具有科学合理、适用性强、效果佳的优点。

Description

基于ME-TD3算法的风电场动态参数智能校核方法
技术领域
本发明属于电力系统仿真验证的应用领域,是一种基于ME-TD3算法的风电场动态参数智能校核方法。
背景技术
电力系统动态仿真是电力系统稳定分析与控制的主要工具,也是电网调度部门指导电力系统运行的主要依据,仿真结果是涉及到电力系统规划、运行、控制设计等诸多方面的决策依据。如果它不能准确描述电力系统的动态行为,电力系统稳定运行将失去保证。因此,电力系统仿真的可信度直接影响到电网的安全运行。在实际系统中,已多次出现动态仿真无法反映系统实际行为的问题,仿真的有效性问题受到越来越多的关注。大量实验表明,引起实测数据与仿真数据差异性的主要原因是电力系统的模型参数不准确。目前,电力系统模型一般采用的都是出厂的简化参数,未考虑到实际运行中的各种情况,例如老化、磨损等。这就导致模型参数与实际参数出现偏差,偏差大时能够使电力系统的安全运行产生蝴蝶效应,致使系统出现大范围停电。此时需要对仿真所用的动态参数进行校核,以重建仿真的准确性。现有技术对仿真所用的动态参数进行校核采用的是启发式算法,启发式算法的缺陷在于:在解决高维度的参数校核问题时易陷入局部最优,且不具有记忆性,每次都需要重新搜索。由此可见,丞需一种准确有效智能的方法来对风电场的动态参数进行校核。
发明内容
本发明所要解决的技术问题是,克服现有技术的不足,利用广域量测系统实测扰动数据,通过深度强化学习的方法对风电场动态参数进行校核,进而提供一种科学合理,适用性强,效果佳且能够提高动态安全分析数值仿真精度的基于ME-TD3算法的风电场动态参数智能校核方法。
解决其技术问题采用的方案是:一种基于ME-TD3算法的风电场动态参数智能校核方法,其特征是,它包括以下内容:
1)裁剪双Q学习:在对裁剪双Q学习的基础上,对裁剪双Q学习进行改进,设置两套评价网络来估算Q值,并取相对较小的Q值作为两个网络更新的目标,目标值计算见式(1),损失函数见式(2),网络的初始参数不同决定两个网络的Q值会出现差异,通过选择小的Q值进行估计,
Figure BDA0002968644090000021
Figure BDA0002968644090000022
式中,y为目标值函数,r为即刻回报值,γ为折扣率,
Figure BDA0002968644090000027
为状态s'和动作
Figure BDA0002968644090000023
下的目标价值函数,θ为评价网络的权重参数,φ为动作网络的权重参数,d为动作停止标志位,
Figure BDA0002968644090000024
表示存放经验的经验池;
2)延迟策略更新:当动作网络保持不变时,是否更新目标网络都不会影响价值函数的正确收敛;但当动作和评价网同步更新时,不采用目标网络就能够使得训练不稳定或发散,因此,为减小动作网络更新所导致的目标变化所带来的波动性,评价网络的更新频率要高于动作网络的更新频率,评价网更新k次后动作网更新1次来解决策略和值函数的耦合问题;
3)目标策略平滑:ME-TD3算法在构建价值函数的更新目标过程中,在原有动作的基础上针对每一维度都施加一个服从正态分布的扰动值,并将施加扰动后的动作值限定在规定范围之内,见式(3),
Figure BDA0002968644090000025
式中,a'(s')为状态s'下的动作值,
Figure BDA0002968644090000026
为动作网络输出值,ε为正态分布扰动值,σ为正态分布方差,-c和c分别为正态分布扰动值的上、下限,aLow和aHigh分别为动作值上、下限;
4)多经验池概率回放:ME-TD3算法根据样本对网络训练的影响程度对其进行分类,将经验池一分为二,经验池1存放优质样本,经验池2存放一般样本,优质样本取到的概率高,一般样本取到的概率低,具体步骤为:
①首先初始化PSAT仿真环境和ME-TD3算法中的动作网络、评价网络1以及评价网络2的权重参数θμ、θμ′
Figure BDA0002968644090000031
以及探索方差σ,对于每个回合,都给出一组符合校核参数范围要求的参数初值s;
②将参数初值s输入到ME-TD3算法中的动作网络中,通过施加探索方差σ得到参数的一组校核策略a,通过校核策略求出调整后的参数s′,将调整后的参数s′与仿真环境PSAT进行交互,求出有功功率、机端电压的仿真轨迹与实测轨迹的偏差值,即回报函数值r,以及仿真轨迹是否发散的标志位done,将调整前后的参数s和s′,以及校核策略a、回报函数值r、仿真轨迹是否发散的标志位done作为一条经验根据回报函数来决定这条经验存入经验池1,还是经验池2中,当经验池1容量不足一半时,回报函数值r大于-1的经验存入经验池1中,其他经验存入经验池2中;当经验池1容量大于等于一半时,若回报函数值r大于经验池1中所存经验回报函数r的平均值,则本条经验存入经验池1中,否则存入经验池2中;
③当经验池1的经验达到最大容量时,开始进行网络的学习过程,首先按照采样概率ξ和1-ξ分别从经验池1、经验池2中采样,并将所采集的样本顺序打乱以便网络学习,采样数量为Batch_size,对于ME-TD3算法的评价网络,将样本的调整后参数s′输入到动作网络中得到下一步的调整策略a′,将下一步的调整策略a′加入服从正态分布的噪声后与调整后参数s′一同输入到ME-TD3算法的评价网络1和2中,将两个网络输出的评价值取最小值后由公式5得到目标网络的评价值targetQ,将调整前参数s和校核策略a一同分别输入到ME-TD3算法的评价网络1和2中得到主网络的评价值currentQ1和currentQ2,评价网络的损失值即为目标网络评价值与主网络评价值的均方误差,计算出评价网络的损失值后,采用Adam优化器分别对ME-TD3算法的评价网络1和2进行参数的反向传递更新,优化网络权重参数,对于ME-TD3算法的动作网络,将调整前的参数s和校核策略a一同输入到ME-TD3算法的评价网络1中,取输出值的负平均值作为ME-TD3算法动作网的损失值,ME-TD3算法的动作网络和评价网络均采用软更新的方式对网络参数进行更新,且更新频率为ME-TD3算法的评价网络更新k次,ME-TD3算法的动作网络更新1次;
④对于每个回合,若到某一步仿真轨迹是否发散的标志位done为1,则跳出该回合并进入下一回合,并重置参数初值s;若仿真轨迹是否发散的标志位done一直为0,则保持马尔可夫过程一直到最大步数为止,然后进入下一回合并重置参数初值s,学习过程期间,每进行一步都需对探索方差按照方差下降率进行计算,以保证随着学习过程的进行,探索方差逐渐减小至0,
targetQ=r+(1-done)·γ·Qmin (5)
Figure BDA0002968644090000041
ME-TD3算法的动作网络的应用过程如图4所示,具体步骤为:首先,初始化网络参数并将训练网络时保存的收敛后的知识,即网络权重参数加载进来,然后,将待校核的参数输入到ME-TD3算法的动作网络中,动作根据保存下来的知识给出一个能使ME-TD3算法的评价网络评价最高的参数校核策略,使有功功率、极端电压的仿真轨迹与实测数据轨迹参数最接近。
本发明的一种基于ME-TD3算法的风电场动态参数智能校核方法,是在双馈风电场等值模型的基础上,对深度强化学习的新进展深度确定性策略梯度算法进行改进,提出了多经验池概率回放的双延迟深度确定性策略梯度算法。针对深度确定性策略梯度算法存在的高维度状态动作空间收敛速度较慢和网络高方差、过拟合的问题,该算法采取双经验池的方法提高了抽样时有效经验被选取的概率,提高了网络训练的效率,同时采取多种技巧来提高ME-TD3算法中评价网络估值的准确度,从而提高了风电场动态参数校核的准确性,具有科学合理、适用性强、效果佳等优点。
附图说明
图1为一种基于ME-TD3算法的风电场动态参数智能校核方法的动作网络结构图;
图2为一种基于ME-TD3算法的风电场动态参数智能校核方法的评价网络结构图;
图3为一种基于ME-TD3算法的风电场动态参数智能校核方法的网络训练流程图;
图4为一种基于ME-TD3算法的风电场动态参数智能校核方法的网络应用流程图;
图5为校核前后有功功率对比图;
图6为校核前后电压幅值对比图。
具体实施方式
本发明的一种基于ME-TD3算法的风电场动态参数智能校核方法,其中ME-TD3是Multiple experience pool experience replay Twin Delayed Deep DeterministicPolicy Gradient的英文缩写,中文名称为:多经验池概率回放的双延迟深度确定性策略梯度。ME-TD3算法是在深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的基础上做出了相应的改进,使得参数校核所用的时间更短,精度更高。
本发明的一种基于ME-TD3算法的风电场动态参数智能校核方法,它包括以下内容:
1)裁剪双Q学习:双Q起源于深度Q网络(Deep Q-Network,DQN),用于解决Q值被过高估计的问题,在对裁剪双Q学习的基础上,对裁剪双Q学习进行改进,设置两套评价网络来估算Q值,并取相对较小的Q值作为两个网络更新的目标,目标值计算见式(1),损失函数见式(2),网络的初始参数不同决定两个网络的Q值会出现差异,通过选择小的Q值进行估计,
Figure BDA0002968644090000051
Figure BDA0002968644090000052
式中,y为目标值函数,r为即刻回报值,γ为折扣率,
Figure BDA0002968644090000057
为状态s'和动作
Figure BDA0002968644090000053
下的目标价值函数,θ为评价网络的权重参数,φ为动作网络的权重参数,d为动作停止标志位,
Figure BDA0002968644090000054
表示存放经验的经验池;
2)延迟策略更新:当动作网络保持不变时,是否更新目标网络都不会影响价值函数的正确收敛;但当动作和评价网同步更新时,不采用目标网络就能够使得训练不稳定或发散,因此,为减小动作网络更新所导致的目标变化所带来的波动性,评价网络的更新频率要高于动作网络的更新频率,评价网更新k次后动作网更新1次来解决策略和值函数的耦合问题;
3)目标策略平滑:ME-TD3算法在构建价值函数的更新目标过程中,在原有动作的基础上针对每一维度都施加一个服从正态分布的扰动值,并将施加扰动后的动作值限定在规定范围之内,见式(3),
Figure BDA0002968644090000055
式中,a'(s')为状态s'下的动作值,
Figure BDA0002968644090000056
为动作网络输出值,ε为正态分布扰动值,σ为正态分布方差,-c和c分别为正态分布扰动值的上、下限,aLow和aHigh分别为动作值上、下限;
4)多经验池概率回放:ME-TD3算法根据样本对网络训练的影响程度对其进行分类,将经验池一分为二,经验池1存放优质样本,经验池2存放一般样本,优质样本取到的概率高,一般样本取到的概率低。
下面利用附图和实施例,对本发明的一种基于ME-TD3算法的风电场动态参数智能校核方法作进一步说明。
1.状态、动作空间和回报函数的设定
本发明采用的风电场等值模型一共有18个参数,其中包含无物理意义的定、转子电阻及电抗、激磁电抗等10个参数;也含有风叶长度、个数等具有实际意义的8个参数。本发明选择对10个无物理意义的参数进行校核。10个参数分别为:定、转子电阻及电抗Rs、Rr、Xs、Xr,激磁电抗Xm,惯性时间常数Hm,桨距角控制时间常数及增益Tp、Kp,电压控制增益Kv,功率控制时间常数Tε。采用上述无物理意义参数作为状态量、参数的变化量作为动作量进行计算,其形式如下所示:
状态量:[Rs,Xs,Rr,Xr,Xm,Hm,Kp,Tp,Kv,Tε]
动作量:[ΔRs,ΔXs,ΔRr,ΔXr,ΔXm,ΔHm,ΔKp,ΔTp,ΔKv,ΔTε]
为保证网络收敛,需对状态量与动作量进行归一化处理。
强化学习能够收敛的关键,就在于如何设计短期回报函数,对于本问题,认为仿真轨迹越和实测轨迹接近越理想,所以采用式(4)方式来构建回报函数:
Figure BDA0002968644090000061
其中i代表第i个状态,j代表第j个时间点。u′ij代表第j个时间点实际电压的标么值,uij代表第j个时间点仿真电压的标么值,p′ij代表第j个时间点有功功率的标么值,pij代表第j个时间点仿真有功功率的标么值。对于该问题的时间长度,本发明选取5.03s,且每0.01s进行一次计算,因此n取503。由于DDPG算法求得的是回报函数的最大值,因此回报函数取负值进行求解。
2.网络结构和探索规则的设定
网络结构由动作网络和评价网络组成,分别如图1、2所示。动作网共有3个隐层,隐层所包含神经元数分别为64、32、16,每层所采用的激活函数均为relu,输出层采用的激活函数为tanh;评价的两个网均含有3个隐层,隐层所包含神经元数分别为64、32、16,隐层以及输出层所采用的激活函数均为tanh;动作和两个评价网络均采用自适应矩估计(Adaptive moment estimation,Adam)优化器对网络进行优化;最大回合数为500,每个回合的步数为200。网络参数设定如表1所示。
表1 ME-TD3网络参数表
Figure BDA0002968644090000071
3.ME-TD3网络的训练及应用
ME-TD3网络的训练过程如图3所示,其详细过程如下:
①首先初始化PSAT仿真环境和ME-TD3算法中的动作网络、评价网络1以及评价网络2的权重参数θμ、θμ′
Figure BDA0002968644090000072
以及探索方差σ,对于每个回合,都给出一组符合校核参数范围要求的参数初值s;
②将参数初值s输入到ME-TD3算法中的动作网络中,通过施加探索方差σ得到参数的一组校核策略a,通过校核策略求出调整后的参数s′,将调整后的参数s′与仿真环境PSAT进行交互,求出有功功率、机端电压的仿真轨迹与实测轨迹的偏差值,即回报函数值r,以及仿真轨迹是否发散的标志位done,将调整前后的参数s和s′,以及校核策略a、回报函数值r、仿真轨迹是否发散的标志位done作为一条经验根据回报函数来决定这条经验存入经验池1,还是经验池2中,当经验池1容量不足一半时,回报函数值r大于-1的经验存入经验池1中,其他经验存入经验池2中;当经验池1容量大于等于一半时,若回报函数值r大于经验池1中所存经验回报函数r的平均值,则本条经验存入经验池1中,否则存入经验池2中;
③当经验池1的经验达到最大容量时,开始进行网络的学习过程,首先按照采样概率ξ和1-ξ分别从经验池1、经验池2中采样,并将所采集的样本顺序打乱以便网络学习,采样数量为Batch_size,对于ME-TD3算法的评价网络,将样本的调整后参数s′输入到动作网络中得到下一步的调整策略a′,将下一步的调整策略a′加入服从正态分布的噪声后与调整后参数s′一同输入到ME-TD3算法的评价网络1和2中,将两个网络输出的评价值取最小值后由公式5得到目标网络的评价值targetQ,将调整前参数s和校核策略a一同分别输入到ME-TD3算法的评价网络1和2中得到主网络的评价值currentQ1和currentQ2,评价网络的损失值即为目标网络评价值与主网络评价值的均方误差,计算出评价网络的损失值后,采用Adam优化器分别对ME-TD3算法的评价网络1和2进行参数的反向传递更新,优化网络权重参数,对于ME-TD3算法的动作网络,将调整前的参数s和校核策略a一同输入到ME-TD3算法的评价网络1中,取输出值的负平均值作为ME-TD3算法动作网的损失值,ME-TD3算法的动作网络和评价网络均采用软更新的方式对网络参数进行更新,且更新频率为ME-TD3算法的评价网络更新k次,ME-TD3算法的动作网络更新1次;
④对于每个回合,若到某一步仿真轨迹是否发散的标志位done为1,则跳出该回合并进入下一回合,并重置参数初值s;若仿真轨迹是否发散的标志位done一直为0,则保持马尔可夫过程一直到最大步数为止,然后进入下一回合并重置参数初值s,学习过程期间,每进行一步都需对探索方差按照方差下降率进行计算,以保证随着学习过程的进行,探索方差逐渐减小至0,
targetQ=r+(1-done)·γ·Qmin (5)
Figure BDA0002968644090000081
式中,done为仿真轨迹是否发散的标志位,r为即刻回报值,γ为折扣系数,Qmin为目标价值函数最小值,targetQ为ME-TD3算法评价网络中目标网络的评价值,currentQ1和currentQ2分别为ME-TD3算法评价网络1和2中主网络的评价值,loss1和loss2分别为ME-TD3算法评价网络1和2的网络损耗值;
ME-TD3算法的动作网络的应用过程如图4所示,具体步骤为:首先,初始化网络参数并将训练网络时保存的收敛后的知识,即网络权重参数加载进来,然后,将待校核的参数输入到ME-TD3算法的动作网络中,动作根据保存下来的知识给出一个能使ME-TD3算法的评价网络评价最高的参数校核策略,即能使有功功率、极端电压的仿真轨迹与实测数据轨迹最接近的参数校核策略。
为了更明确地说明本发明的实施方案,以某省网实际系统为例,在PSAT平台上进行混合动态仿真。将1号风机从系统中解耦,并把WAMS实测数据注入仿真软件PSAT的边界节点,对其进行参数校核。仿真时间为5s,仿真步长与实测数据保持一致,故选择0.01s。设定故障发生在0.5s,并在0.6s切除故障。
采用ME-TD3算法进行10参数校核,校核结果见表2,校核前后结果分别如图5、6所示。电压、有功功率比较结果分别如表3、表4所示。DDPG算法训练时间约为5h,ME-TD3算法效率大幅提高,仅约为1h。
表2 ME-TD3校核结果表
Figure BDA0002968644090000091
Figure BDA0002968644090000092
表3电压结果比较
Figure BDA0002968644090000093
表4有功功率结果比较
Figure BDA0002968644090000094
通过以上分析可知,本发明的一种基于多经验池概率回放的双延迟深度确定性策略梯度算法的风电场动态参数智能校核的新方法,通过大量的仿真探索并逐步习得风电场动态参数智能校正知识,实现了基于“知识”的风电场动态参数校核。相比于采用DDPG算法的校核结果,ME-TD3算法的网络训练时间更短,给出的参数校核策略更优。经校核后的参数准确性、仿真有效性均显著提高,验证了所提方法的有效性。
本发明的实施例并非穷举,本领域技术人员不经过创造性劳动的简单复制和改进,仍属于本发明权利保护的范围。

Claims (1)

1.一种基于ME-TD3算法的风电场动态参数智能校核方法,其特征是,它包括以下内容:
1)裁剪双Q学习:在对裁剪双Q学习的基础上,对裁剪双Q学习进行改进,设置两套评价网络来估算Q值,并取相对较小的Q值作为两个网络更新的目标,目标值计算见式(1),损失函数见式(2),网络的初始参数不同决定两个网络的Q值会出现差异,通过选择小的Q值进行估计,
Figure FDA0002968644080000011
Figure FDA0002968644080000012
式中,y为目标值函数,r为即刻回报值,γ为折扣率,
Figure FDA0002968644080000013
为状态s'和动作
Figure FDA0002968644080000014
下的目标价值函数,θ为评价网络的权重参数,φ为动作网络的权重参数,d为动作停止标志位,
Figure FDA0002968644080000015
表示存放经验的经验池;
2)延迟策略更新:当动作网络保持不变时,是否更新目标网络都不会影响价值函数的正确收敛;但当动作和评价网同步更新时,不采用目标网络就能够使得训练不稳定或发散,因此,为减小动作网络更新所导致的目标变化所带来的波动性,评价网络的更新频率要高于动作网络的更新频率,评价网更新k次后动作网更新1次来解决策略和值函数的耦合问题;
3)目标策略平滑:ME-TD3算法在构建价值函数的更新目标过程中,在原有动作的基础上针对每一维度都施加一个服从正态分布的扰动值,并将施加扰动后的动作值限定在规定范围之内,见式(3),
Figure FDA0002968644080000016
式中,a'(s')为状态s'下的动作值,
Figure FDA0002968644080000017
为动作网络输出值,ε为正态分布扰动值,σ为正态分布方差,-c和c分别为正态分布扰动值的上、下限,aLow和aHigh分别为动作值上、下限;
4)多经验池概率回放:ME-TD3算法根据样本对网络训练的影响程度对其进行分类,将经验池一分为二,经验池1存放优质样本,经验池2存放一般样本,优质样本取到的概率高,一般样本取到的概率低,具体步骤为:
①首先初始化PSAT仿真环境和ME-TD3算法中的动作网络、评价网络1以及评价网络2的权重参数θμ、θμ′、
Figure FDA0002968644080000021
以及探索方差σ,对于每个回合,都给出一组符合校核参数范围要求的参数初值s;
②将参数初值s输入到ME-TD3算法中的动作网络中,通过施加探索方差σ得到参数的一组校核策略a,通过校核策略求出调整后的参数s′,将调整后的参数s′与仿真环境PSAT进行交互,求出有功功率、机端电压的仿真轨迹与实测轨迹的偏差值,即回报函数值r,以及仿真轨迹是否发散的标志位done,将调整前后的参数s和s′,以及校核策略a、回报函数值r、仿真轨迹是否发散的标志位done作为一条经验根据回报函数来决定这条经验存入经验池1,还是经验池2中,当经验池1容量不足一半时,回报函数值r大于-1的经验存入经验池1中,其他经验存入经验池2中;当经验池1容量大于等于一半时,若回报函数值r大于经验池1中所存经验回报函数r的平均值,则本条经验存入经验池1中,否则存入经验池2中;
③当经验池1的经验达到最大容量时,开始进行网络的学习过程,首先按照采样概率ξ和1-ξ分别从经验池1、经验池2中采样,并将所采集的样本顺序打乱以便网络学习,采样数量为Batch_size,对于ME-TD3算法的评价网络,将样本的调整后参数s′输入到动作网络中得到下一步的调整策略a′,将下一步的调整策略a′加入服从正态分布的噪声后与调整后参数s′一同输入到ME-TD3算法的评价网络1和2中,将两个网络输出的评价值取最小值后由公式5得到目标网络的评价值targetQ,将调整前参数s和校核策略a一同分别输入到ME-TD3算法的评价网络1和2中得到主网络的评价值currentQ1和currentQ2,评价网络的损失值即为目标网络评价值与主网络评价值的均方误差,计算出评价网络的损失值后,采用Adam优化器分别对ME-TD3算法的评价网络1和2进行参数的反向传递更新,优化网络权重参数,对于ME-TD3算法的动作网络,将调整前的参数s和校核策略a一同输入到ME-TD3算法的评价网络1中,取输出值的负平均值作为ME-TD3算法动作网的损失值,ME-TD3算法的动作网络和评价网络均采用软更新的方式对网络参数进行更新,且更新频率为ME-TD3算法的评价网络更新k次,ME-TD3算法的动作网络更新1次;
④对于每个回合,若到某一步仿真轨迹是否发散的标志位done为1,则跳出该回合并进入下一回合,并重置参数初值s;若仿真轨迹是否发散的标志位done一直为0,则保持马尔可夫过程一直到最大步数为止,然后进入下一回合并重置参数初值s,学习过程期间,每进行一步都需对探索方差按照方差下降率进行计算,以保证随着学习过程的进行,探索方差逐渐减小至0,
targetQ=r+(1-done)·γ·Qmin (5)
Figure FDA0002968644080000031
ME-TD3算法的动作网络的应用过程为:首先,初始化网络参数并将训练网络时保存的收敛后的知识,即网络权重参数加载进来,然后,将待校核的参数输入到ME-TD3算法的动作网络中,动作根据保存下来的知识给出一个能使ME-TD3算法的评价网络评价最高的参数校核策略,使有功功率、极端电压的仿真轨迹与实测数据轨迹参数最接近。
CN202110265065.9A 2021-03-10 2021-03-10 基于me-td3算法的风电场动态参数智能校核方法 Active CN113032934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110265065.9A CN113032934B (zh) 2021-03-10 2021-03-10 基于me-td3算法的风电场动态参数智能校核方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110265065.9A CN113032934B (zh) 2021-03-10 2021-03-10 基于me-td3算法的风电场动态参数智能校核方法

Publications (2)

Publication Number Publication Date
CN113032934A true CN113032934A (zh) 2021-06-25
CN113032934B CN113032934B (zh) 2022-09-20

Family

ID=76469815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110265065.9A Active CN113032934B (zh) 2021-03-10 2021-03-10 基于me-td3算法的风电场动态参数智能校核方法

Country Status (1)

Country Link
CN (1) CN113032934B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113433953A (zh) * 2021-08-25 2021-09-24 北京航空航天大学 多机器人协同避障方法、装置和智能机器人

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN110210113A (zh) * 2019-05-29 2019-09-06 东北电力大学 基于确定性策略梯度的风电场动态等值参数智能校核方法
CN110341690A (zh) * 2019-07-22 2019-10-18 北京理工大学 一种基于确定性策略梯度学习的phev能量管理方法
CN110919659A (zh) * 2019-12-24 2020-03-27 哈尔滨工程大学 一种基于ddgpes的机器人控制方法
CN111062632A (zh) * 2019-12-24 2020-04-24 国网黑龙江省电力有限公司 一种基于边缘智能的5g能源互联网虚拟电厂经济调度方法
KR20200126822A (ko) * 2019-04-30 2020-11-09 중앙대학교 산학협력단 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법 및 그의 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
KR20200126822A (ko) * 2019-04-30 2020-11-09 중앙대학교 산학협력단 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법 및 그의 시스템
CN110210113A (zh) * 2019-05-29 2019-09-06 东北电力大学 基于确定性策略梯度的风电场动态等值参数智能校核方法
CN110341690A (zh) * 2019-07-22 2019-10-18 北京理工大学 一种基于确定性策略梯度学习的phev能量管理方法
CN110919659A (zh) * 2019-12-24 2020-03-27 哈尔滨工程大学 一种基于ddgpes的机器人控制方法
CN111062632A (zh) * 2019-12-24 2020-04-24 国网黑龙江省电力有限公司 一种基于边缘智能的5g能源互联网虚拟电厂经济调度方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
JIAWEN LI: "Efficient experience replay based deep deterministic policy gradient for", 《APPLIED ENERGY》 *
QIJIE ZOU: "An end-to-end learning of driving strategies based on DDPG and imitation learning", 《2020 CHINESE CONTROL AND DECISION CONFERENCE (CCDC)》 *
安军: "大规模电力系统潮流计算收敛性诊断与调整方法", 《分析与研究》 *
康朝海等: "基于动态延迟策略更新的TD3算法", 《吉林大学学报(信息科学版)》 *
时圣苗: "面向深度强化学习的经验回放方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
王?儒等: "采用双经验回放池的噪声流双延迟深度确定性策略梯度算法", 《武汉科技大学学报》 *
范龙: "基于多智能体模型的电力系统信息集成应用研究", 《中国新通信》 *
陈松: "基于经验重放的深度强化学习算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113433953A (zh) * 2021-08-25 2021-09-24 北京航空航天大学 多机器人协同避障方法、装置和智能机器人

Also Published As

Publication number Publication date
CN113032934B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN109117951B (zh) 基于bp神经网络的概率潮流在线计算方法
CN110110419B (zh) 一种基于多目标学习的tbm掘进参数预测方法
CN107944648B (zh) 一种大型船舶航速油耗率预测方法
CN110910004A (zh) 一种多重不确定性的水库调度规则提取方法及系统
CN110555548B (zh) 基于数据挖掘原始误差校正的ics-elm超短期风电功率预测方法
CN110222883A (zh) 基于风驱动优化bp神经网络的电力系统负荷预测方法
CN111222286A (zh) 一种基于输电线路状态估计的参数优化方法
CN113722980A (zh) 海洋浪高预测方法、系统、计算机设备、存储介质、终端
CN113032934B (zh) 基于me-td3算法的风电场动态参数智能校核方法
CN112149883A (zh) 基于fwa-bp神经网络的光伏功率预测方法
CN108594793A (zh) 一种改进的rbf飞控系统故障诊断网络训练方法
CN113459867A (zh) 基于自适应深度置信网络的电动汽车充电过程故障预警方法
CN116468159A (zh) 一种基于双延迟深度确定性策略梯度的无功优化方法
CN111667189A (zh) 一种基于一维卷积神经网络的建筑工程项目风险预测方法
CN113177675A (zh) 一种基于天牛群算法优化神经网络的空调冷负荷预测方法
CN110929835B (zh) 一种新型碳化硅基航空功率变换器故障诊断方法及系统
CN114282320B (zh) 一种利用贝叶斯优化算法优化工程参数的方法
CN114036506A (zh) 一种基于lm-bp神经网络的检测和防御虚假数据注入攻击的方法
CN113408796A (zh) 多任务深度强化学习的深空探测器软着陆路径规划方法
CN117421969A (zh) 一种基于bssa算法优化lssvm模型的风速预测方法
CN115100233B (zh) 基于生成对抗网络重采样粒子滤波的雷达目标跟踪方法
CN114897245B (zh) 一种基于长短期记忆神经网络的规模风电超短期功率预测误差修正方法
CN115455821A (zh) 一种改进型pso-ga算法的离心泵透平性能预测方法
CN116090608A (zh) 一种基于动态加权组合的短期风电功率预测方法及系统
CN115859599A (zh) 基于改进麻雀算法的电力系统稳定器参数优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220804

Address after: 132012, Changchun Road, Jilin, Jilin, 169

Applicant after: NORTHEAST DIANLI University

Applicant after: JILIN POWER SUPPLY COMPANY OF STATE GRID JILINSHENG ELECTRIC POWER SUPPLY Co.

Address before: 132012, Changchun Road, Jilin, Jilin, 169

Applicant before: NORTHEAST DIANLI University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant