CN110374804A - 一种基于深度确定性策略梯度补偿的变桨距控制方法 - Google Patents

一种基于深度确定性策略梯度补偿的变桨距控制方法 Download PDF

Info

Publication number
CN110374804A
CN110374804A CN201910592714.9A CN201910592714A CN110374804A CN 110374804 A CN110374804 A CN 110374804A CN 201910592714 A CN201910592714 A CN 201910592714A CN 110374804 A CN110374804 A CN 110374804A
Authority
CN
China
Prior art keywords
network
neural network
layer
critic
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910592714.9A
Other languages
English (en)
Other versions
CN110374804B (zh
Inventor
郭尧
刘增
刘进军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910592714.9A priority Critical patent/CN110374804B/zh
Publication of CN110374804A publication Critical patent/CN110374804A/zh
Application granted granted Critical
Publication of CN110374804B publication Critical patent/CN110374804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F03MACHINES OR ENGINES FOR LIQUIDS; WIND, SPRING, OR WEIGHT MOTORS; PRODUCING MECHANICAL POWER OR A REACTIVE PROPULSIVE THRUST, NOT OTHERWISE PROVIDED FOR
    • F03DWIND MOTORS
    • F03D17/00Monitoring or testing of wind motors, e.g. diagnostics
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F03MACHINES OR ENGINES FOR LIQUIDS; WIND, SPRING, OR WEIGHT MOTORS; PRODUCING MECHANICAL POWER OR A REACTIVE PROPULSIVE THRUST, NOT OTHERWISE PROVIDED FOR
    • F03DWIND MOTORS
    • F03D7/00Controlling wind motors 
    • F03D7/02Controlling wind motors  the wind motors having rotation axis substantially parallel to the air flow entering the rotor
    • F03D7/022Adjusting aerodynamic properties of the blades
    • F03D7/0236Adjusting aerodynamic properties of the blades by changing the active surface of the wind engaging parts, e.g. reefing or furling
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F03MACHINES OR ENGINES FOR LIQUIDS; WIND, SPRING, OR WEIGHT MOTORS; PRODUCING MECHANICAL POWER OR A REACTIVE PROPULSIVE THRUST, NOT OTHERWISE PROVIDED FOR
    • F03DWIND MOTORS
    • F03D7/00Controlling wind motors 
    • F03D7/02Controlling wind motors  the wind motors having rotation axis substantially parallel to the air flow entering the rotor
    • F03D7/04Automatic control; Regulation
    • F03D7/042Automatic control; Regulation by means of an electrical or electronic controller
    • F03D7/043Automatic control; Regulation by means of an electrical or electronic controller characterised by the type of control logic
    • F03D7/044Automatic control; Regulation by means of an electrical or electronic controller characterised by the type of control logic with PID control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/70Wind energy
    • Y02E10/72Wind turbines with rotation axis in wind direction

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Combustion & Propulsion (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Sustainable Energy (AREA)
  • Sustainable Development (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Fluid Mechanics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度确定性策略梯度补偿的变桨距控制方法,本发明在利用PI调节器作为主要控制的基础上,增加了基于深度确定性策略策略梯度DDPG的补偿器并设置补偿器的奖励函数,系统通过实时在线学习寻找最优策略,在该最优策略控制下,系统将在长期内获得尽可能大的奖励,从而达到最优化输出功率的目的。本发明通过将功率参考值表达式应用于PI调节器中,并通过仿真模型持续调试,能够使最大功率跟踪阶段与恒功率控制阶段的变桨距控制统一起来,使得当风速在额定风速上下波动时,输出功率变化更加平滑。

Description

一种基于深度确定性策略梯度补偿的变桨距控制方法
技术领域
本发明属于风力发电控制领域,具体涉及一种基于深度确定性策略梯度补偿的变桨距控制方法。
背景技术
风电经过近十年的发展,风电已经成为继火电、水电之后的第三大能源。在风力发电过程中,为了保证大中型风力发电机组在不同的风速区间内达到相应的输出需求,通常采用变桨距控制方式,即通过控制风轮桨叶桨距角而改变风力机的风能利用系数,使得风轮捕获到的风能得到控制,最终使风力机组输出功率满足需求。
通过桨距角控制器完成叶片节距角的控制,在风速逐渐进入切入风速时,桨距角减小,风轮叶片产生一定力矩使风轮叶片开始旋转;在风速大于切入风速而小于额定风速时,保持风力机桨距角不变,通过使风力机运行在最佳转矩来实现最大风能跟踪控制;在风速大于额定风速而小于切出风速时,使转矩维持在额定转矩附近,通过调节桨距角使发电机输出保持功率恒定;当风速大于切出风速时,进行停机保护。
通常风速在额定风速上下波动时,桨距角控制反复切换,控制系统无法及时在很功率阶段跟踪功率参考曲线而使得发电机输出功率波动较大,增加了变桨距机构的疲劳性,缩短了其使用寿命。
由于风速的间歇性、随机性和风电机组参数的时变性、偏航回转等机械机构引起的扰动、风切变和塔影效应、变桨距机构往复动作、大质量机构有惯性环节等特点,使得变桨距控制系统具有参数非线性、参数时变性、滞后性等特点,造成风电机组在运行时承受较大的不平衡载荷,影响输出功率的稳定性和机械机构、风电机组的使用寿命。
风力发电系统所处的环境是多变且难以预测的,将对风力发电系统产生难以预测的影响;风力发电系统具有时变非线形等特点,其运行过程中具有一定惯性,且机组内部参数摄动和外部随机扰动使得桨距角难以达到精确控制,难以保证整体机组安全稳定的运行。
发明内容
本发明的目的在于克服上述不足,提供一种基于深度确定性策略梯度补偿的变桨距控制方法,能够当风速在额定风速上下波动时,使输出功率变化平滑。
为了达到上述目的,本发明包括以下步骤:
步骤一,给定设计指标确定功率参考值的表达式;
步骤二,将功率参考值应用于PI调节器,并通过仿真模型调试比例增益k和积分增益k
步骤三,根据设计指标设定DDPG补偿器的参数,并构建奖励函数r(t),设置奖励为同步发电机输出功率跟踪参考值的误差和误差变化率的函数;
步骤四,将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型,即可实现发电机稳定地输出功率。
步骤一中,根据空气密度ρ、切入风速Vwin、额定风速Vwrate和切出风速Vwout以及风轮半径R,确定功率随风速变化的曲线;
根据功率随风速变化的曲线,结合实际情况确定功率参考值开始平滑过渡时对应的风速偏移量ΔVsmooth,并利用函数拟合额定风速附近的功率曲线并替换,其中,a>0表示为增函数,a<0表示为减函数,|a|越大则函数爬升或下降越快,b表示在横轴上离0的偏移量,c表示在纵轴上离0的偏移量,c和d共同确定了函数的值域[c,d];再将功率参考表达式计算的值通过滑动窗口为T的滑动平均函数得到功率参考值
设置DDPG补偿器的探索空间大小var、探索安全系数k和补偿器进入稳态时的搜索阈值εv,当探索空间大小大于搜索阈值εv,最终的功率参考值乘以1-k,0<k<1;若探索空间大小小于或等于搜索阈值εv,则功率参考值
步骤二中,PI调节器形式如下:
其中,βPI是PI调节器的输出信号,k是比例增益,k是积分增益,是功率参考值,Ps是功率测量值,t是时间。
步骤三中,DDPG补偿器的参数包括状态观测量s(t)、补偿信号的增益ab、神经网络参数软替换系数τ、探索空间递减系数qv、补偿器记忆空间大小MN、抽取学习样本数量ML以及actor评估神经网络、actor目标神经网络、critic评估神经网络、critic目标神经网络和一个记忆库,actor目标神经网络和critic目标神经网络只进行复制更新;
actor评估神经网络的层数为La和critic评估神经网络中状态网络层数为critic评估神经网络中动作网络的层数为critic评估神经网络中状态网络层数和动作网络合并后的网络层数为Lc
actor评估神经网络每层神经元的个数为Nai,i=1,…,La,critic评估神经网络每层神经元的个数为critic评估神经网络中动作网络每层神经元的个数为critic评估神经网络中状态网络层数和动作网络合并后的每层神经元的个数为Nci,i=1,…,Lc
actor评估神经网络的每层神经网络的激活函数为fai,i=1,…,La,critic评估神经网络中状态网络的每层神经网络的激活函数为critic评估神经网络中动作网络的每层神经网络的激活函数为critic评估神经网络中状态网络层数和动作网络合并后的网络的每层神经网络的激活函数为fci,i=1,…,Lc
actor评估神经网络的每层神经网络的权值矩阵为Wai,i=1,..,La,critic评估神经网络中状态网络的每层神经网络的权值矩阵为critic评估神经网络中动作网络的每层神经网络的权值矩阵为critic评估神经网络中状态网络层数和动作网络合并后的网络每层神经网络的权值矩阵为Wci,i=1,..,Lc
actor评估神经网络的计算过程如下:
其中,s是系统的状态观测向量,是Na1×1的输入层向量,是Na2×1的隐藏层向量,是Na3×1的输出层向量;是Na2×Na1的隐藏层权值矩阵,是Na3×Na2权值矩阵;激活函数ReLU(x)=max(0,x),tanh(x)是双曲正切三角函数;ab是输出放大倍数;是actor评估神经网络的输出信号。
critic评估神经网络的计算过程如下:
其中,s是系统的状态观测向量,a表示actor评估或目标神经网络对于输入状态为s的计算结果,的状态输入层向量,的动作输入层向量,的状态隐含层向量,的动作隐含层向量,是Nc1×1的合并层向量,是Nc2×1的输出层向量,表示最后的输出值;的状态隐含层权值矩阵,的动作隐含层权值矩阵;是Nc2×Nc2的输出层权值矩阵;激活函数ReLU(x)=max(0,x)。
步骤四中,将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型的具体方法如下:
将该时刻的功率参考值与发电机输出功率作差并将结果通过PI调节器后获得桨距角的基础值βpi;提取DDPG补偿器的参数中的状态观测量s(t),将状态观测量s(t)输入至DDPG补偿器的actor评估神经网络输后获得补偿角度ao(t),添加探索噪声获得最终的补偿角度βc
将桨距角的基础值βpi和补偿角度βc相加得到桨距角βo,再依次通过速率限制器和幅值限制器得到最终的角度;
经过电气系统至下一时刻,再次获得系统的状态观测量s(t+1)和经由步骤三中DDPG补偿器的参数中的奖励函数r(t)定义的奖励值,将(s(t),βo,r(t),s(t+1))作为一条记录存储在DDPG补偿器的记忆空间中;
当记忆空间中存储的记录足够多时,DDPG补偿器每输出一次控制信号将进行一次学习。经过一段时间后,发电机的输出功率将不断得到优化。
与现有技术相比,本发明在利用PI调节器作为主要控制的基础上,增加了基于深度确定性策略策略梯度DDPG的补偿器并设置补偿器的奖励函数,系统通过实时在线学习寻找最优策略,在该最优策略控制下,系统将在长期内获得尽可能大的奖励,从而达到最优化输出功率的目的。本发明通过将功率参考值表达式应用于PI调节器中,并通过仿真模型持续调试,能够使最大功率跟踪阶段与恒功率控制阶段的变桨距控制统一起来,使得当风速在额定风速上下波动时,输出功率变化更加平滑。
附图说明
图1为风力发电变桨距控制图;
图2为风力发电变桨距控制相关主电路模型框图;
图3为本发明功率参考曲线示意图;
图4为本发明功率参考曲线算法框图;
图5为单个神经元示意图;
图6为本发明补偿器中actor目标神经网络和actor评估神经网络的结构图,也是Actor Eval模块和Actor Target模块的内部实现;
图7为本发明补偿器中critic目标神经网络和critic评估神经网络的结构图,也是Critic Eval模块和Critic Target模块的内部实现;
图8为本发明补偿器中记忆空间示意图;
图9为本发明补偿器给补偿角度添加探索噪声的算法框图,也是Exploration模块的内部算法实现;
图10为本发明控制系统结构框;
图11为风速大于额定风速时的风速曲线图;
图12为风速大于额定风速时的输出功率曲线图;其中包含了补偿器学习过程;
图13为风速大于额定风速时的桨距角曲线图;
图14为风速在额定风速上下波动时的风速曲线图;
图15为风速在额定风速上下波动时的输出功率曲线图;
图16为风速在额定风速上下波动时的桨距角曲线图;
图17为风速小于额定风速时的风速曲线图;
图18为风速小于额定风速时的输出功率曲线图;
图19为风速小于额定风速时的桨距角曲线图。
具体实施方式
下面结合附图对本发明做进一步说明。
本发明是在全风速工作范围内,使用比例P积分I调节器作为主要输出的桨距角,使用基于深度强化学习中的深度确定性策略梯度(DDPG,Deep Deterministic PolicyGradient)补偿算法作为辅助输出的变桨距控制器。具体方法如下:
步骤一,给定设计指标确定功率参考值的表达式;
步骤二,将功率参考值应用于PI调节器,并通过仿真模型调试比例增益k和积分增益k
步骤三,根据设计指标设定DDPG补偿器的参数,并构建奖励函数r(t),设置奖励为同步发电机输出功率跟踪参考值的误差和误差变化率的函数;
步骤四,将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型,即可实现发电机稳定地输出功率。
实施例:
如图1和图2所示本发明所研究风电系统的主电路与相应模型框图,用于阐述本发明实施过程中的一些信号来源,其中,Vw表示风速,Tw表示风轮侧转矩,Te表示发电机侧电磁转矩,ωwt表示风轮侧角速度,ωr表示发电机侧角速度,β表示桨距角,isd,isq和usd,usq表示dq坐标系下发电机定子电流与电压,表示d轴定子电流参考值,Ps表示发电机输出功率测量值。本发明为变桨距控制系统,下面结合附图阐述具体实施方式。
步骤1)、已知空气密度ρ、切入风速Vwin、额定风速Vwrate和切出风速Vwout以及风轮半径R,在额定风速某一范围拟合功率参考值曲线,参见图3,根据实际情况确定功率参考值开始平滑过渡对应的风速偏移量ΔVsmooth,利用函数的变体拟合额定风速附近的功率曲线。计算公式如下:
其中,ci,i=1,2,…,7是拟合系数。
通过令功率系数Cp(β,λ)关于叶尖速度比λ的偏导数为0,得到功率系数取极大值时对应的叶尖速度比,它是关于桨距角的函数。最终可以近似的求出功率系数的最大值,计算表达式如下
解得
通过数学分析可知,当β确定时,可以找到对应的λ使得Cp最大,即可确定此时的功率参考值。最终有,Cp(β,λ)=Cp(β)。
使用滑动平均值来减小风速波动的影响
其中,设置时间间隔T。
对于带有DDPG补偿器的PI调节器,由于在系统开始运行阶段,补偿器需要寻找最优策略,以至于在此过程中系统的功率输出波动相对较大,随着补偿器逐渐寻找到最优策略,系统才逐渐进入稳态阶段。因此,在恒功率阶段,以补偿器搜索空间大小来限制功率参考曲线,即
其中,是最终的功率参考值,var是DDPG补偿器搜索空间大小,εv是进入稳态时的搜索阈值,k表示探索安全系数,0<k<1。
计算功率参考值的整个算法流程如图4所示,该算法是如图10控制系统框图中的Pref模块内部实现。
步骤2)、通过仿真不带有DDPG补偿器的系统确定比例积分调节器的控制参数k,k。PI调节器形式如下:
其中,βPI是PI调节器的输出信号,k是比例器的系数,k是积分器的系数,是功率参考值,Ps是功率测量值。过小的k,k无法实现发电器输出功率跟踪参考曲线;过大的k在风速变化较大时波动较大;过大的k使得完全跟踪功率参考曲线需要较长的时间,通过反复仿真与调节参数,可以选择适合的k和k
步骤3)、DDPG补偿算法及参数确定。
DDPG算法主要由包含actor评估神经网络、actor目标神经网络、critic评估神经网络和critic目标神经网络在内的4个神经网络和1个记忆库构成。其中actor目标神经网络和critic目标神经网络不涉及神经网络权值参数的学习,只进行复制更新。
一个神经网络一般由神经元层数、每层神经元个数、激活函数、损失函数等参数或结构组成,单个神经元如图5所示,其中,输入向量x=[x0x1x2]T,权值矩阵W=[w0w1w2],符号Σ表示求和,符号f表示激活函数,输出向量为y,数字1表示该神经元是该层的第1个神经元。单个神经元的计算过程为
y=f(w0x0+w1x1+w2x2)
y=f(∑Wx)
为使示意图清晰,图6和图7中采用了与图5相同的神经元结构,但忽略了神经网络各个神经元之间连线上的权值。
补偿算法步骤如下:
1、选择系统的状态观测量组成输入向量,如图10所示State Observer模块,该模块测量数据并计算输入向量
s(t)=[ep(t),∫ep(t),eref(t)]T
其状态数量sdim=3,其中为t时刻PI调节器跟踪误差,为功率参考曲线输出的功率参考值,Ps(t)为发电机功率测量值;是PI调节器对误差的积分输出;为功率曲线参考值变化量。
2、选择补偿角度作为补偿器的输出,即输出信号ao(t)是一个标量,adim=1。补偿角度最大值确定了输出信号的增益ab。考虑到补偿器在控制过程中起补偿作用,补偿信号相对PI调节器输出信号不能过大,因此ab=20。
3、构造奖励函数r(t),如图10所示的Reward模块。奖励函数的设置将影响PI调节器的长期表现。直接设置奖励为同步发电机输出功率跟踪参考值的误差和误差变化率的函数。Reward模块的输入为t和t+1时刻的功率跟踪误差ep,输出为
r(t)=k1×r1(t)+k2×r2(t)
其中
r1表示误差达到要求即奖励,r2表示连续跟踪过程中误差持续减小即奖励;k1,k2分别为误差变化与误差变化率信号的强化系数,ε表示跟踪误差。设置参数k1=0.5,k2=0.5,ε=10-6
4、初始化补偿器actor评估神经网络参数。actor评估神经网络μ(s|θμ)的层数La(La≥2)、每层神经元个数Nai,i=1,…,La、每层网络的激活函数fai,i=1,…,La、每层网络的权值矩阵Wai,i=1,..,La、输出探索空间大小var、探索空间递减系数qv;记actor评估神经网络所有权值参数为θμ,表示actor的控制策略;神经网络参数软替换系数τ。一般包含输入层和输出层在内的3层神经网络可以拟合任意非线性映射关系,所以设置actor评估神经网络包含输入层与输出层在内的层数La=3,每层神经元个数Na1=sdim=3,Na2=50,Na3=adim=1,每层网络的激活函数fa1(x)=x,fa2(x)=ReLU(x),fa3(x)=tanh(x);由均值为1、方差为0的标准正态分布随机生成权值矩阵;输出探索空间大小var=10,若系统采样率fs=104Hz,设置补偿器探索时长为30秒,即探索步数n=30fs=3×105,进入稳态时的搜索阈值εv=0.1,则由通过可求得探索空间递减系数qv=0.9999846495505327。actor评估神经网络μ(s|θμ)内部结构示意图如图6所示,其构成了如图10所示的Actor Eval模块,其输入输出计算过程(决策控制过程)如下
其中,s是系统的状态观测向量,是Na1×1的输入层向量,是Na2×1的隐藏层向量,是Na3×1的输出层向量;是Na2×Na1的隐藏层权值矩阵,是Na3×Na2权值矩阵;激活函数ReLU(x)=max(0,x),tanh(x)是双曲正切三角函数;ab是输出放大倍数;是actor评估神经网络的输出信号。记actor评估神经网络的计算过程为ao=μ(s|θμ)。
5、初始化补偿器critic评估神经网络参数。critic评估神经网络Q(s,a|θQ)是由状态神经网络和动作神经网络构成的,如图7所示。状态神经网络的层数每层神经元个数每层网络的激活函数每层网络的权值矩阵动作神经网络的层数每层神经元个数每层网络的激活函数每层网络的权值矩阵状态神经网络和动作神经网络合并后的层数Lc(Lc≥1),每层神经元个数Nci,i=1,…,Lc,每个神经元的偏置项bcij,i=1,…,Lc,j=1,…,Nci,每层网络的权值矩阵Wci,i=1,..,Lc,每层网络的激活函数fci,i=1,…,Lc;记critic评估神经网络所有权值参数为θQ,表示critic的策略。设置状态神经网络的层数每层神经元个数每层网络的激活函数动作神经网络的层数每层神经元个数每层网络的激活函数每层网络的权值矩阵状态神经网络和动作神经网络合并后的层数Lc=2、每层神经元个数Nc1=50,Nc2=1、每层网络的激活函数fc1(x)=ReLU(x),fc2(x)=x;由均值为1、方差为0的标准正态分布随机生成所有的权值矩阵和偏置项。critic评估神经网络Q(s,a|θQ)的内部结构示意图如图7所示,其构成了图10中的Critic Eval模块,其输入输出计算过程如下
其中,s是系统的状态观测向量,a=μ(s|θμ),表示actor评估或目标神经网络对于输入状态为s的计算结果,的状态输入层向量,的动作输入层向量,的状态隐含层向量,的动作隐含层向量,是Nc1×1的合并层向量,是Nc2×1的输出层向量,表示最后的输出值;的状态隐含层权值矩阵,的动作隐含层权值矩阵;是Nc2×Nc2的输出层权值矩阵;激活函数ReLU(x)=max(0,x);记critic评估神经网络计算过程为qsa=Q(s,a|θQ),表示critic目标神经网络对于输入状态为s和控制信号为a的累积评价。
6、初始化critic目标神经网络Q′和actor目标神经网络μ′,使得critic目标神经网络权值参数θQ′=θQ,actor目标神经网络权值参数θμ′=θμ。critic目标神经网络Q′构成如图10所示Critic Target模块,其输入输出关系与critic目标神经网络Q类似,输入为s和a,输出记为q′sa=Q′(s,a|θQ′);actor目标神经网络μ′构成如图10所示Actor Target模块,其输入输出关系与critic目标神经网络μ类似,输入为s,输出记为a′=μ′(s|θμ′)。
7、初始化补偿器记忆空间大小MN,当前记忆指针索引PM=0,抽取学习样本数量ML,记忆空间的大小和抽取学习样本的数量应该考虑系统的采样率,如果采样率很大,会产生非常多的数据。已知系统采样率fs=104Hz,设置补偿器记忆空间大小MN=2×105,即存储20秒内的系统状态变化,每次学习样本数量ML=1000。补偿器记忆空间构成了如图8所示的Memory模块。
8、系统开始运行(t>0)时,获取初始化状态观测值s(t)。
9、通过actor评估神经网络所确定的当前策略θμ做出决策ao=μ(s|θμ)|s=s(t)。将ao和探索误差var输入至图10中的Exploration模块,此模块的功能是以平均值为ao、方差为var的高斯分布输出带有探索噪声的信号a,即需要补偿的桨距角βc,其计算方法采用Box-Muller算法,算法框图如图9所示。
10、计算补偿后的桨距角βo=βPIc,并通过速率限制器和幅度限制器最后得到补偿的角度β=AmplitudeLimiter(RateLimiter(βo))。速率限制器和幅度限制器如图10中Rate Limiter模块和Amplitude Limiter模块,其计算表达式如下
其中,控制系统采样时间间隔Ts=10-4表示时刻n的输入与时刻n-1的输入的变化率,FallingRate<0是下降速率;RaisingRate>0是上升速率。
考虑到实际工程中桨距角的变化速率为每秒2°~5°,因此FallingRate=-5,RaisingRate=5;考虑到实际工程中桨距角在0°~90°进行变化,因此LowerBound=0,UpperBound=90。
11、风电控制系统接收到桨距角β,主电路运行,并根据奖励函数计算奖励r(t)和新的状态观测值S(t+1)。
12、如果记忆空间M未满,即PM≤MN,则直接在记忆空间索引为PM处存储t时刻状态转移(s(t),a(t),r(t),s(t+1)),然后PM←PM+1,补偿器不进行学习,回到第9步;如果记忆空间Memory模块已满,即PM>MN,则在记忆空间索引为mod(PM,MN)处存储t时刻状态转移(s(t),a(t),r(t),s(t+1)),然后PM←PM+1,补偿器需要进行学习。当记忆空间M存储满后,即PM>MN,从记忆空间M中随机抽取数量为ML的状态转移样本(s,a,r,s′),第i个状态转移样本表示为(si,ai,ri,si′),i=1,…,ML
13、利用抽取的ML个样本通过actor目标神经网络、critic目标和评估神经网络与qLoss模块计算损失,如图10所示,其计算表达式
yi=ri+γq′sa,i
其中,a′i表示输入为s′i时actor目标神经网络的输出;q′sa,i表示输入为s′i和a′i时critic目标神经网络的输出;qsa,i表示输入为si和ai时critic评估神经网络的输出;yi表示期望累积回报;lossq表示critic评估神经网络的输出与期望值的损失;γ表示未来回报相对于当前回报的重要程度。如果γ=0,表示只重视当前立即回报;γ=1表示将未来回报视为与当前回报同等重要。设置参数γ=0.9。
得到损失后,使用Adam优化器更新critic评估神经网络参数θQ,此过程构成表示为图10中qLoss模块指向的Optimizer模块,因为此模块的目的是更新参数,所以该模块输出指向并穿过Critic Eval模块。算法具体如下
13.1、计算时刻t时的梯度
13.2、计算梯度动量mt=β1mt-1+(1-β1)gt,β1为指数衰减率,控制权重分配,取值0.9。
13.3、计算梯度平方的指数移动平均数,β2为指数衰减率,控制梯度平方项,取值0.999,初始化v0=0;表示哈达马乘积,即对应元素相乘。
13.4、由于m0初始化为0,会导致mt偏向于0,尤其在训练初期阶段。所以,此处需要对梯度均值mt进行偏差纠正,降低偏差对训练初期的影响:
13.5、与m0类似,因为v0初始化为0导致训练初始阶段vt偏向0,对其进行纠正:
13.6、更新神经网络参数α为学习速率,取值0.02,ε为1e-8,避免除数为0。
14、利用critic目标神经网络的输出q′sa,i计算策略梯度,如图10所示aLoss模块,其计算表达式为
使用Adam优化器更新actor评估神经网络参数θμ,如图10所示aLoss模块指向的Optimizer模块,因为此模块的目的是更新参数,所以该模块输出指向并穿过Actor Eval模块。在Optimizer模块中,可令输入gt=lossa,学习速率取值0.01,其余与更新critic评估神经网络参数的Optimizer类似,不再赘述。
15、更新critic和actor的目标神经网络参数,如图10所示ActorEval模块虚线指向ActorTarget模块和CriticEval模块虚线指向CriticTarget模块,具体表示为
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
16、更新actor评估神经网络的探索空间,var←var·qv,返回第9步。
17、结束。
步骤4)、将步骤3)中设定的DDPG补偿器应用于步骤2)中的系统模型,即可实现发电机稳定地输出功率。
参见图11至图19,可以看出,在风速高于额定风速、额定风速上下、低于额定风速时,如图11、14、17中,只有PI调节器的变桨距控制方法输出功率随着风速的随机波动而波动,波动范围比较大;使用PI调节器和DDPG补偿的变桨距控制方法的输出功率经过开始阶段的波动学习后,逐步进入稳态,稳态时的输出功率明显更加平稳,纹波也较小,如图12、15、18所示。为了减弱风速随机波动所带来的影响,经过DDPG补偿的控制方法使变桨距机构更快速地变化,如图13、16、19所示。
PI调节器根据不同的外界环境,通过不断的探索与决策调整当前的策略,使得补偿器长期获得的奖励值最大,即实现系统的最优化。强化学习在线学习的性质使得PI调节器无需通过仿真确定actor和critic的神经网络参数,在实际工程中可以在系统运行中直接通过采集的数据进行学习,记忆空间的存在使得补偿器能够应对一段时间内的未知不可测扰动,做出合理的决策控制,提高了系统的鲁棒性和PI调节器的适应能力,在环境情况发生变化时,PI调节器控制策略能相应发生变化。

Claims (7)

1.一种基于深度确定性策略梯度补偿的变桨距控制方法,其特征在于,包括以下步骤:
步骤一,给定设计指标确定功率参考值的表达式;
步骤二,将功率参考值应用于PI调节器,并通过仿真模型调试比例增益k和积分增益k
步骤三,根据设计指标设定DDPG补偿器的参数,并构建奖励函数r(t),设置奖励为同步发电机输出功率跟踪参考值的误差和误差变化率的函数;
步骤四,将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型,即实现发电机稳定地输出功率。
2.跟权利要求1所述的一种基于深度确定性策略梯度补偿的变桨距控制方法,其特征在于,步骤一中,根据空气密度ρ、切入风速Vwin、额定风速Vwrate和切出风速Vwout以及风轮半径R,确定功率随风速变化的曲线;
根据功率随风速变化的曲线,结合实际情况确定功率参考值开始平滑过渡时对应的风速偏移量ΔVsmooth,并利用函数拟合额定风速附近的功率曲线并替换,其中,a>0表示为增函数,a<0表示为减函数,|a|越大则函数爬升或下降越快,b表示在横轴上离0的偏移量,c表示在纵轴上离0的偏移量,c和d共同确定了函数的值域[c,d];再将功率参考表达式计算的值通过滑动窗口为T的滑动平均函数得到功率参考值
设置DDPG补偿器的探索空间大小var、探索安全系数k和补偿器进入稳态时的搜索阈值εv,当探索空间大小大于搜索阈值εv,最终的功率参考值乘以1-k,0<k<1;若探索空间大小小于或等于搜索阈值εv,则功率参考值
3.跟权利要求1所述的一种基于深度确定性策略梯度补偿的变桨距控制方法,其特征在于,步骤二中,PI调节器形式如下:
其中,βPI是PI调节器的输出信号,k是比例增益,k是积分增益,是功率参考值,Ps是功率测量值,t是时间。
4.跟权利要求1所述的一种基于深度确定性策略梯度补偿的变桨距控制方法,其特征在于,步骤三中,DDPG补偿器的参数包括状态观测量s(t)、补偿信号的增益ab、神经网络参数软替换系数τ、探索空间递减系数qv、补偿器记忆空间大小MN、抽取学习样本数量ML以及actor评估神经网络、actor目标神经网络、critic评估神经网络、critic目标神经网络和一个记忆库,actor目标神经网络和critic目标神经网络只进行复制更新;
actor评估神经网络的层数为La和critic评估神经网络中状态网络层数为critic评估神经网络中动作网络的层数为critic评估神经网络中状态网络层数和动作网络合并后的网络层数为Lc
actor评估神经网络每层神经元的个数为Nai,i=1,...,La,critic评估神经网络每层神经元的个数为critic评估神经网络中动作网络每层神经元的个数为critic评估神经网络中状态网络层数和动作网络合并后的每层神经元的个数为Nci,i=1,...,Lc
actor评估神经网络的每层神经网络的激活函数为fai,i=1,…,La,critic评估神经网络中状态网络的每层神经网络的激活函数为critic评估神经网络中动作网络的每层神经网络的激活函数为critic评估神经网络中状态网络层数和动作网络合并后的网络的每层神经网络的激活函数为fci,i=1,...,Lc
actor评估神经网络的每层神经网络的权值矩阵为Wai,i=1,..,La,critic评估神经网络中状态网络的每层神经网络的权值矩阵为critic评估神经网络中动作网络的每层神经网络的权值矩阵为critic评估神经网络中状态网络和动作网络合并后的网络每层神经网络的权值矩阵为Wci,i=1,..,Lc
5.跟权利要求4所述的一种基于深度确定性策略梯度补偿的变桨距控制方法,其特征在于,actor评估神经网络的计算过程如下:
其中,s是系统的状态观测向量,是Na1×1的输入层向量,是Na2×1的隐藏层向量,是Na3×1的输出层向量;是Na2×Na1的隐藏层权值矩阵,是Na3×Na2权值矩阵;激活函数ReLU(x)=max(0,x),tanh(x)是双曲正切三角函数;ab是输出放大倍数;是actor评估神经网络的输出信号。
6.跟权利要求4所述的一种基于深度确定性策略梯度补偿的变桨距控制方法,其特征在于,critic评估神经网络的计算过程如下:
其中,s是系统的状态观测向量,a表示actor评估或目标神经网络对于输入状态为s的计算结果,的状态输入层向量,的动作输入层向量,的状态隐含层向量,的动作隐含层向量,是Nc1×1的合并层向量,是Nc2×1的输出层向量,表示最后的输出值;的状态隐含层权值矩阵,的动作隐含层权值矩阵;是Nc2×Nc2的输出层权值矩阵;激活函数ReLU(x)=max(0,x)。
7.跟权利要求1所述的一种基于深度确定性策略梯度补偿的变桨距控制方法,其特征在于,步骤四中,将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型的具体方法如下:
将该时刻的功率参考值与发电机输出功率作差并将结果通过PI调节器后获得桨距角的基础值βpi;提取DDPG补偿器的参数中的状态观测量s(t),将状态观测量s(t)输入至DDPG补偿器的actor评估神经网络输后获得补偿角度ao(t),添加探索噪声获得最终的补偿角度βc
将桨距角的基础值βpi和补偿角度βc相加得到桨距角βo,再依次通过速率限制器和幅值限制器得到最终的角度;
经过电气系统至下一时刻,再次获得系统的状态观测量s(t+1)和经由步骤三中DDPG补偿器的参数中的奖励函数r(t)定义的奖励值,将(s(t),βo,r(t),s(t+1))作为一条记录存储在DDPG补偿器的记忆空间中;
当记忆空间中存储的记录足够多时,DDPG补偿器每输出一次控制信号将进行一次学习。
CN201910592714.9A 2019-07-03 2019-07-03 一种基于深度确定性策略梯度补偿的变桨距控制方法 Active CN110374804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910592714.9A CN110374804B (zh) 2019-07-03 2019-07-03 一种基于深度确定性策略梯度补偿的变桨距控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910592714.9A CN110374804B (zh) 2019-07-03 2019-07-03 一种基于深度确定性策略梯度补偿的变桨距控制方法

Publications (2)

Publication Number Publication Date
CN110374804A true CN110374804A (zh) 2019-10-25
CN110374804B CN110374804B (zh) 2020-06-19

Family

ID=68251693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910592714.9A Active CN110374804B (zh) 2019-07-03 2019-07-03 一种基于深度确定性策略梯度补偿的变桨距控制方法

Country Status (1)

Country Link
CN (1) CN110374804B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909859A (zh) * 2019-11-29 2020-03-24 中国科学院自动化研究所 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN111188732A (zh) * 2020-01-17 2020-05-22 湖南工业大学 一种风力发电变桨鲁棒容错控制方法
CN113464378A (zh) * 2021-07-13 2021-10-01 南京理工大学 一种基于深度强化学习的提升风能捕获的转速跟踪目标优化方法
CN114444291A (zh) * 2022-01-20 2022-05-06 中节能风力发电股份有限公司 一种风机发电量损失精细化测算方法、系统、设备和介质
CN114619907A (zh) * 2020-12-14 2022-06-14 中国科学技术大学 基于分布式深度强化学习的协调充电方法及协调充电系统
WO2022146058A1 (en) * 2020-12-30 2022-07-07 Chung Inwoo Kalman filter and deep reinforcement learning based wind turbine yaw misalignment control method
CN114779199A (zh) * 2022-04-24 2022-07-22 中国人民解放军空军预警学院 端射阵机载雷达自适应互耦补偿与杂波抑制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009068379A (ja) * 2007-09-11 2009-04-02 Mitsubishi Heavy Ind Ltd 風力発電システム、及びその制御方法
CN103016266A (zh) * 2013-01-11 2013-04-03 华北电力大学 模糊前馈与线性自抗扰结合的风电机组变桨距控制方法
US20130085621A1 (en) * 2011-10-04 2013-04-04 Institute Of Nuclear Energy Research Atomic Energy Council Executive Yuan Hybrid intelligent control method and system for power generating apparatuses
CN104595106A (zh) * 2014-05-19 2015-05-06 湖南工业大学 基于强化学习补偿的风力发电变桨距控制方法
CN106870281A (zh) * 2017-04-06 2017-06-20 哈尔滨理工大学 一种基于模糊前馈和模糊‑pi的变桨距控制方法
CN109104734A (zh) * 2018-07-19 2018-12-28 浙江工业大学 一种基于深度确定性策略梯度的集能型无线中继网络吞吐量最大化方法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009068379A (ja) * 2007-09-11 2009-04-02 Mitsubishi Heavy Ind Ltd 風力発電システム、及びその制御方法
US20130085621A1 (en) * 2011-10-04 2013-04-04 Institute Of Nuclear Energy Research Atomic Energy Council Executive Yuan Hybrid intelligent control method and system for power generating apparatuses
CN103016266A (zh) * 2013-01-11 2013-04-03 华北电力大学 模糊前馈与线性自抗扰结合的风电机组变桨距控制方法
CN104595106A (zh) * 2014-05-19 2015-05-06 湖南工业大学 基于强化学习补偿的风力发电变桨距控制方法
CN106870281A (zh) * 2017-04-06 2017-06-20 哈尔滨理工大学 一种基于模糊前馈和模糊‑pi的变桨距控制方法
CN109104734A (zh) * 2018-07-19 2018-12-28 浙江工业大学 一种基于深度确定性策略梯度的集能型无线中继网络吞吐量最大化方法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909859A (zh) * 2019-11-29 2020-03-24 中国科学院自动化研究所 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN110909859B (zh) * 2019-11-29 2023-03-24 中国科学院自动化研究所 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN111188732A (zh) * 2020-01-17 2020-05-22 湖南工业大学 一种风力发电变桨鲁棒容错控制方法
CN111188732B (zh) * 2020-01-17 2022-05-13 湖南工业大学 一种风力发电变桨鲁棒容错控制方法
CN114619907A (zh) * 2020-12-14 2022-06-14 中国科学技术大学 基于分布式深度强化学习的协调充电方法及协调充电系统
CN114619907B (zh) * 2020-12-14 2023-10-20 中国科学技术大学 基于分布式深度强化学习的协调充电方法及协调充电系统
WO2022146058A1 (en) * 2020-12-30 2022-07-07 Chung Inwoo Kalman filter and deep reinforcement learning based wind turbine yaw misalignment control method
CN113464378A (zh) * 2021-07-13 2021-10-01 南京理工大学 一种基于深度强化学习的提升风能捕获的转速跟踪目标优化方法
CN114444291A (zh) * 2022-01-20 2022-05-06 中节能风力发电股份有限公司 一种风机发电量损失精细化测算方法、系统、设备和介质
CN114779199A (zh) * 2022-04-24 2022-07-22 中国人民解放军空军预警学院 端射阵机载雷达自适应互耦补偿与杂波抑制方法

Also Published As

Publication number Publication date
CN110374804B (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN110374804A (zh) 一种基于深度确定性策略梯度补偿的变桨距控制方法
CN108334672B (zh) 基于有效风速估计的变速风力发电机组最大风能捕获方法
Flores et al. Application of a control algorithm for wind speed prediction and active power generation
CN104632521B (zh) 一种基于偏航校正的风电功率优化系统及其方法
CN103410660B (zh) 基于支持向量机的风力发电变桨距自学习控制方法
CN110566406B (zh) 基于强化学习的风电机组实时变桨距鲁棒控制系统及方法
CN110345006A (zh) 一种风力发电机组低风速区最大功率跟踪优化控制方法
CN109737008A (zh) 风电机组智能变桨控制系统及方法、风电机组
Chen et al. Effective wind speed estimation study of the wind turbine based on deep learning
CN111608868A (zh) 风力发电系统最大功率跟踪自适应鲁棒控制系统及方法
CN114784823A (zh) 基于深度确定性策略梯度的微电网频率控制方法及系统
CN103758697A (zh) 一种基于风机有效跟踪区间的改进最大功率跟踪控制方法
CN108223274B (zh) 基于优化rbf神经网络的大型风力机变桨距系统辨识方法
CN115986845A (zh) 一种基于深度强化学习的配电网双层优化调度方法
CN111997833B (zh) 基于激光测风前馈的风电机组复合智能变桨控制方法
CN116865343B (zh) 分布式光伏配电网的无模型自适应控制方法、装置及介质
CN117251995A (zh) 基于可变遗忘因子最小二乘法的双馈风机惯量评估方法
CN115977874B (zh) 基于激光测风雷达的风电机组偏航自适应校准方法及系统
Yang et al. Fuzzy PID control of induction generators
An et al. Combined grey model based on entropy weight method for long-term load forecasting
CN112270081B (zh) 一种基于并行Elman-NN的风力发电机故障检测方法
Biegel Distributed control of wind farm
CN110210113B (zh) 基于确定性策略梯度的风电场动态等值参数智能校核方法
CN104850914B (zh) 一种基于特征建模的新能源发电量预测方法
CN110985287B (zh) 一种基于宽度学习的间接转速控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant