CN110374804B - 一种基于深度确定性策略梯度补偿的变桨距控制方法 - Google Patents
一种基于深度确定性策略梯度补偿的变桨距控制方法 Download PDFInfo
- Publication number
- CN110374804B CN110374804B CN201910592714.9A CN201910592714A CN110374804B CN 110374804 B CN110374804 B CN 110374804B CN 201910592714 A CN201910592714 A CN 201910592714A CN 110374804 B CN110374804 B CN 110374804B
- Authority
- CN
- China
- Prior art keywords
- neural network
- layer
- network
- compensator
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000006870 function Effects 0.000 claims abstract description 56
- 230000008859 change Effects 0.000 claims abstract description 16
- 238000004088 simulation Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims description 126
- 239000013598 vector Substances 0.000 claims description 37
- 238000011156 evaluation Methods 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000009471 action Effects 0.000 claims description 28
- 210000002569 neuron Anatomy 0.000 claims description 25
- 230000004913 activation Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 230000007774 longterm Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 7
- 238000010248 power generation Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F03—MACHINES OR ENGINES FOR LIQUIDS; WIND, SPRING, OR WEIGHT MOTORS; PRODUCING MECHANICAL POWER OR A REACTIVE PROPULSIVE THRUST, NOT OTHERWISE PROVIDED FOR
- F03D—WIND MOTORS
- F03D17/00—Monitoring or testing of wind motors, e.g. diagnostics
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F03—MACHINES OR ENGINES FOR LIQUIDS; WIND, SPRING, OR WEIGHT MOTORS; PRODUCING MECHANICAL POWER OR A REACTIVE PROPULSIVE THRUST, NOT OTHERWISE PROVIDED FOR
- F03D—WIND MOTORS
- F03D7/00—Controlling wind motors
- F03D7/02—Controlling wind motors the wind motors having rotation axis substantially parallel to the air flow entering the rotor
- F03D7/022—Adjusting aerodynamic properties of the blades
- F03D7/0236—Adjusting aerodynamic properties of the blades by changing the active surface of the wind engaging parts, e.g. reefing or furling
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F03—MACHINES OR ENGINES FOR LIQUIDS; WIND, SPRING, OR WEIGHT MOTORS; PRODUCING MECHANICAL POWER OR A REACTIVE PROPULSIVE THRUST, NOT OTHERWISE PROVIDED FOR
- F03D—WIND MOTORS
- F03D7/00—Controlling wind motors
- F03D7/02—Controlling wind motors the wind motors having rotation axis substantially parallel to the air flow entering the rotor
- F03D7/04—Automatic control; Regulation
- F03D7/042—Automatic control; Regulation by means of an electrical or electronic controller
- F03D7/043—Automatic control; Regulation by means of an electrical or electronic controller characterised by the type of control logic
- F03D7/044—Automatic control; Regulation by means of an electrical or electronic controller characterised by the type of control logic with PID control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/70—Wind energy
- Y02E10/72—Wind turbines with rotation axis in wind direction
Abstract
本发明公开了一种基于深度确定性策略梯度补偿的变桨距控制方法,本发明在利用PI调节器作为主要控制的基础上,增加了基于深度确定性策略策略梯度DDPG的补偿器并设置补偿器的奖励函数,系统通过实时在线学习寻找最优策略,在该最优策略控制下,系统将在长期内获得尽可能大的奖励,从而达到最优化输出功率的目的。本发明通过将功率参考值表达式应用于PI调节器中,并通过仿真模型持续调试,能够使最大功率跟踪阶段与恒功率控制阶段的变桨距控制统一起来,使得当风速在额定风速上下波动时,输出功率变化更加平滑。
Description
技术领域
本发明属于风力发电控制领域,具体涉及一种基于深度确定性策略梯度补偿的变桨距控制方法。
背景技术
风电经过近十年的发展,风电已经成为继火电、水电之后的第三大能源。在风力发电过程中,为了保证大中型风力发电机组在不同的风速区间内达到相应的输出需求,通常采用变桨距控制方式,即通过控制风轮桨叶桨距角而改变风力机的风能利用系数,使得风轮捕获到的风能得到控制,最终使风力机组输出功率满足需求。
通过桨距角控制器完成叶片节距角的控制,在风速逐渐进入切入风速时,桨距角减小,风轮叶片产生一定力矩使风轮叶片开始旋转;在风速大于切入风速而小于额定风速时,保持风力机桨距角不变,通过使风力机运行在最佳转矩来实现最大风能跟踪控制;在风速大于额定风速而小于切出风速时,使转矩维持在额定转矩附近,通过调节桨距角使发电机输出保持功率恒定;当风速大于切出风速时,进行停机保护。
通常风速在额定风速上下波动时,桨距角控制反复切换,控制系统无法及时在很功率阶段跟踪功率参考曲线而使得发电机输出功率波动较大,增加了变桨距机构的疲劳性,缩短了其使用寿命。
由于风速的间歇性、随机性和风电机组参数的时变性、偏航回转等机械机构引起的扰动、风切变和塔影效应、变桨距机构往复动作、大质量机构有惯性环节等特点,使得变桨距控制系统具有参数非线性、参数时变性、滞后性等特点,造成风电机组在运行时承受较大的不平衡载荷,影响输出功率的稳定性和机械机构、风电机组的使用寿命。
风力发电系统所处的环境是多变且难以预测的,将对风力发电系统产生难以预测的影响;风力发电系统具有时变非线形等特点,其运行过程中具有一定惯性,且机组内部参数摄动和外部随机扰动使得桨距角难以达到精确控制,难以保证整体机组安全稳定的运行。
发明内容
本发明的目的在于克服上述不足,提供一种基于深度确定性策略梯度补偿的变桨距控制方法,能够当风速在额定风速上下波动时,使输出功率变化平滑。
为了达到上述目的,本发明包括以下步骤:
步骤三,根据设计指标设定DDPG补偿器的参数,并构建奖励函数r(t),设置奖励为同步发电机输出功率跟踪参考值的误差和误差变化率的函数;
步骤四,将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型,即可实现发电机稳定地输出功率。
步骤一中,根据空气密度ρ、切入风速Vwin、额定风速Vwrate和切出风速Vwout以及风轮半径R,确定功率随风速变化的曲线;
根据功率随风速变化的曲线,结合实际情况确定功率参考值开始平滑过渡时对应的风速偏移量ΔVsmooth,并利用函数拟合额定风速附近的功率曲线并替换,其中,a>0表示为增函数,a<0表示为减函数,|a|越大则函数爬升或下降越快,b表示在横轴上离0的偏移量,c表示在纵轴上离0的偏移量,c和d共同确定了函数的值域[c,d];再将功率参考表达式计算的值通过滑动窗口为T的滑动平均函数得到功率参考值
设置DDPG补偿器的探索空间大小var、探索安全系数k和补偿器进入稳态时的搜索阈值εv,当探索空间大小大于搜索阈值εv,最终的功率参考值为乘以1-k,0<k<1;若探索空间大小小于或等于搜索阈值εv,则功率参考值为
步骤二中,PI调节器形式如下:
步骤三中,DDPG补偿器的参数包括状态观测量s(t)、补偿信号的增益ab、神经网络参数软替换系数τ、探索空间递减系数qv、补偿器记忆空间大小MN、抽取学习样本数量ML以及actor评估神经网络、actor目标神经网络、critic评估神经网络、critic目标神经网络和一个记忆库,actor目标神经网络和critic目标神经网络只进行复制更新;
actor评估神经网络每层神经元的个数为Nai,i=1,…,La,critic评估神经网络每层神经元的个数为critic评估神经网络中动作网络每层神经元的个数为critic评估神经网络中状态网络层数和动作网络合并后的每层神经元的个数为Nci,i=1,…,Lc;
actor评估神经网络的每层神经网络的激活函数为fai,i=1,…,La,critic评估神经网络中状态网络的每层神经网络的激活函数为critic评估神经网络中动作网络的每层神经网络的激活函数为critic评估神经网络中状态网络层数和动作网络合并后的网络的每层神经网络的激活函数为fci,i=1,…,Lc;
actor评估神经网络的每层神经网络的权值矩阵为Wai,i=1,..,La,critic评估神经网络中状态网络的每层神经网络的权值矩阵为critic评估神经网络中动作网络的每层神经网络的权值矩阵为critic评估神经网络中状态网络层数和动作网络合并后的网络每层神经网络的权值矩阵为Wci,i=1,..,Lc。
actor评估神经网络的计算过程如下:
其中,s是系统的状态观测向量,是Na1×1的输入层向量,是Na2×1的隐藏层向量,是Na3×1的输出层向量;是Na2×Na1的隐藏层权值矩阵,是Na3×Na2权值矩阵;激活函数ReLU(x)=max(0,x),tanh(x)是双曲正切三角函数;ab是输出放大倍数;是actor评估神经网络的输出信号。
critic评估神经网络的计算过程如下:
其中,s是系统的状态观测向量,a表示actor评估或目标神经网络对于输入状态为s的计算结果,是的状态输入层向量,是的动作输入层向量,是的状态隐含层向量,是的动作隐含层向量,是Nc1×1的合并层向量,是Nc2×1的输出层向量,表示最后的输出值;是的状态隐含层权值矩阵,是的动作隐含层权值矩阵;是Nc2×Nc2的输出层权值矩阵;激活函数ReLU(x)=max(0,x)。
步骤四中,将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型的具体方法如下:
将该时刻的功率参考值与发电机输出功率作差并将结果通过PI调节器后获得桨距角的基础值βpi;提取DDPG补偿器的参数中的状态观测量s(t),将状态观测量s(t)输入至DDPG补偿器的actor评估神经网络输后获得补偿角度ao(t),添加探索噪声获得最终的补偿角度βc;
将桨距角的基础值βpi和补偿角度βc相加得到桨距角βo,再依次通过速率限制器和幅值限制器得到最终的角度;
经过电气系统至下一时刻,再次获得系统的状态观测量s(t+1)和经由步骤三中DDPG补偿器的参数中的奖励函数r(t)定义的奖励值,将(s(t),βo,r(t),s(t+1))作为一条记录存储在DDPG补偿器的记忆空间中;
当记忆空间中存储的记录足够多时,DDPG补偿器每输出一次控制信号将进行一次学习。经过一段时间后,发电机的输出功率将不断得到优化。
与现有技术相比,本发明在利用PI调节器作为主要控制的基础上,增加了基于深度确定性策略策略梯度DDPG的补偿器并设置补偿器的奖励函数,系统通过实时在线学习寻找最优策略,在该最优策略控制下,系统将在长期内获得尽可能大的奖励,从而达到最优化输出功率的目的。本发明通过将功率参考值表达式应用于PI调节器中,并通过仿真模型持续调试,能够使最大功率跟踪阶段与恒功率控制阶段的变桨距控制统一起来,使得当风速在额定风速上下波动时,输出功率变化更加平滑。
附图说明
图1为风力发电变桨距控制图;
图2为风力发电变桨距控制相关主电路模型框图;
图3为本发明功率参考曲线示意图;
图4为本发明功率参考曲线算法框图;
图5为单个神经元示意图;
图6为本发明补偿器中actor目标神经网络和actor评估神经网络的结构图,也是Actor Eval模块和Actor Target模块的内部实现;
图7为本发明补偿器中critic目标神经网络和critic评估神经网络的结构图,也是Critic Eval模块和Critic Target模块的内部实现;
图8为本发明补偿器中记忆空间示意图;
图9为本发明补偿器给补偿角度添加探索噪声的算法框图,也是Exploration模块的内部算法实现;
图10为本发明控制系统结构框;
图11为风速大于额定风速时的风速曲线图;
图12为风速大于额定风速时的输出功率曲线图;其中包含了补偿器学习过程;
图13为风速大于额定风速时的桨距角曲线图;
图14为风速在额定风速上下波动时的风速曲线图;
图15为风速在额定风速上下波动时的输出功率曲线图;
图16为风速在额定风速上下波动时的桨距角曲线图;
图17为风速小于额定风速时的风速曲线图;
图18为风速小于额定风速时的输出功率曲线图;
图19为风速小于额定风速时的桨距角曲线图。
具体实施方式
下面结合附图对本发明做进一步说明。
本发明是在全风速工作范围内,使用比例P积分I调节器作为主要输出的桨距角,使用基于深度强化学习中的深度确定性策略梯度(DDPG,Deep Deterministic PolicyGradient)补偿算法作为辅助输出的变桨距控制器。具体方法如下:
步骤三,根据设计指标设定DDPG补偿器的参数,并构建奖励函数r(t),设置奖励为同步发电机输出功率跟踪参考值的误差和误差变化率的函数;
步骤四,将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型,即可实现发电机稳定地输出功率。
实施例:
如图1和图2所示本发明所研究风电系统的主电路与相应模型框图,用于阐述本发明实施过程中的一些信号来源,其中,Vw表示风速,Tw表示风轮侧转矩,Te表示发电机侧电磁转矩,ωwt表示风轮侧角速度,ωr表示发电机侧角速度,β表示桨距角,isd,isq和usd,usq表示dq坐标系下发电机定子电流与电压,表示d轴定子电流参考值,Ps表示发电机输出功率测量值。本发明为变桨距控制系统,下面结合附图阐述具体实施方式。
步骤1)、已知空气密度ρ、切入风速Vwin、额定风速Vwrate和切出风速Vwout以及风轮半径R,在额定风速某一范围拟合功率参考值曲线,参见图3,根据实际情况确定功率参考值开始平滑过渡对应的风速偏移量ΔVsmooth,利用函数的变体拟合额定风速附近的功率曲线。计算公式如下:
其中,ci,i=1,2,…,7是拟合系数。
通过令功率系数Cp(β,λ)关于叶尖速度比λ的偏导数为0,得到功率系数取极大值时对应的叶尖速度比,它是关于桨距角的函数。最终可以近似的求出功率系数的最大值,计算表达式如下
令
解得
通过数学分析可知,当β确定时,可以找到对应的λ使得Cp最大,即可确定此时的功率参考值。最终有,Cp(β,λ)=Cp(β)。
使用滑动平均值来减小风速波动的影响
其中,设置时间间隔T。
对于带有DDPG补偿器的PI调节器,由于在系统开始运行阶段,补偿器需要寻找最优策略,以至于在此过程中系统的功率输出波动相对较大,随着补偿器逐渐寻找到最优策略,系统才逐渐进入稳态阶段。因此,在恒功率阶段,以补偿器搜索空间大小来限制功率参考曲线,即
计算功率参考值的整个算法流程如图4所示,该算法是如图10控制系统框图中的Pref模块内部实现。
步骤2)、通过仿真不带有DDPG补偿器的系统确定比例积分调节器的控制参数kpβ,kiβ。PI调节器形式如下:
其中,βPI是PI调节器的输出信号,kpβ是比例器的系数,kiβ是积分器的系数,是功率参考值,Ps是功率测量值。过小的kpβ,kiβ无法实现发电器输出功率跟踪参考曲线;过大的kpβ在风速变化较大时波动较大;过大的kiβ使得完全跟踪功率参考曲线需要较长的时间,通过反复仿真与调节参数,可以选择适合的kpβ和kiβ。
步骤3)、DDPG补偿算法及参数确定。
DDPG算法主要由包含actor评估神经网络、actor目标神经网络、critic评估神经网络和critic目标神经网络在内的4个神经网络和1个记忆库构成。其中actor目标神经网络和critic目标神经网络不涉及神经网络权值参数的学习,只进行复制更新。
一个神经网络一般由神经元层数、每层神经元个数、激活函数、损失函数等参数或结构组成,单个神经元如图5所示,其中,输入向量x=[x0x1x2]T,权值矩阵W=[w0w1w2],符号Σ表示求和,符号f表示激活函数,输出向量为y,数字1表示该神经元是该层的第1个神经元。单个神经元的计算过程为
y=f(w0x0+w1x1+w2x2)
即
y=f(∑Wx)
为使示意图清晰,图6和图7中采用了与图5相同的神经元结构,但忽略了神经网络各个神经元之间连线上的权值。
补偿算法步骤如下:
1、选择系统的状态观测量组成输入向量,如图10所示State Observer模块,该模块测量数据并计算输入向量
s(t)=[ep(t),∫ep(t),eref(t)]T
2、选择补偿角度作为补偿器的输出,即输出信号ao(t)是一个标量,adim=1。补偿角度最大值确定了输出信号的增益ab。考虑到补偿器在控制过程中起补偿作用,补偿信号相对PI调节器输出信号不能过大,因此ab=20。
3、构造奖励函数r(t),如图10所示的Reward模块。奖励函数的设置将影响PI调节器的长期表现。直接设置奖励为同步发电机输出功率跟踪参考值的误差和误差变化率的函数。Reward模块的输入为t和t+1时刻的功率跟踪误差ep,输出为
r(t)=k1×r1(t)+k2×r2(t)
其中
r1表示误差达到要求即奖励,r2表示连续跟踪过程中误差持续减小即奖励;k1,k2分别为误差变化与误差变化率信号的强化系数,ε表示跟踪误差。设置参数k1=0.5,k2=0.5,ε=10-6。
4、初始化补偿器actor评估神经网络参数。actor评估神经网络μ(s|θμ)的层数La(La≥2)、每层神经元个数Nai,i=1,…,La、每层网络的激活函数fai,i=1,…,La、每层网络的权值矩阵Wai,i=1,..,La、输出探索空间大小var、探索空间递减系数qv;记actor评估神经网络所有权值参数为θμ,表示actor的控制策略;神经网络参数软替换系数τ。一般包含输入层和输出层在内的3层神经网络可以拟合任意非线性映射关系,所以设置actor评估神经网络包含输入层与输出层在内的层数La=3,每层神经元个数Na1=sdim=3,Na2=50,Na3=adim=1,每层网络的激活函数fa1(x)=x,fa2(x)=ReLU(x),fa3(x)=tanh(x);由均值为1、方差为0的标准正态分布随机生成权值矩阵;输出探索空间大小var=10,若系统采样率fs=104Hz,设置补偿器探索时长为30秒,即探索步数n=30fs=3×105,进入稳态时的搜索阈值εv=0.1,则由通过可求得探索空间递减系数qv=0.9999846495505327。actor评估神经网络μ(s|θμ)内部结构示意图如图6所示,其构成了如图10所示的Actor Eval模块,其输入输出计算过程(决策控制过程)如下
其中,s是系统的状态观测向量,是Na1×1的输入层向量,是Na2×1的隐藏层向量,是Na3×1的输出层向量;是Na2×Na1的隐藏层权值矩阵,是Na3×Na2权值矩阵;激活函数ReLU(x)=max(0,x),tanh(x)是双曲正切三角函数;ab是输出放大倍数;是actor评估神经网络的输出信号。记actor评估神经网络的计算过程为ao=μ(s|θμ)。
5、初始化补偿器critic评估神经网络参数。critic评估神经网络Q(s,a|θQ)是由状态神经网络和动作神经网络构成的,如图7所示。状态神经网络的层数每层神经元个数每层网络的激活函数每层网络的权值矩阵动作神经网络的层数每层神经元个数每层网络的激活函数每层网络的权值矩阵状态神经网络和动作神经网络合并后的层数Lc(Lc≥1),每层神经元个数Nci,i=1,…,Lc,每个神经元的偏置项bcij,i=1,…,Lc,j=1,…,Nci,每层网络的权值矩阵Wci,i=1,..,Lc,每层网络的激活函数fci,i=1,…,Lc;记critic评估神经网络所有权值参数为θQ,表示critic的策略。设置状态神经网络的层数每层神经元个数每层网络的激活函数动作神经网络的层数每层神经元个数每层网络的激活函数每层网络的权值矩阵状态神经网络和动作神经网络合并后的层数Lc=2、每层神经元个数Nc1=50,Nc2=1、每层网络的激活函数fc1(x)=ReLU(x),fc2(x)=x;由均值为1、方差为0的标准正态分布随机生成所有的权值矩阵和偏置项。critic评估神经网络Q(s,a|θQ)的内部结构示意图如图7所示,其构成了图10中的Critic Eval模块,其输入输出计算过程如下
其中,s是系统的状态观测向量,a=μ(s|θμ),表示actor评估或目标神经网络对于输入状态为s的计算结果,是的状态输入层向量,是的动作输入层向量,是的状态隐含层向量,是的动作隐含层向量,是Nc1×1的合并层向量,是Nc2×1的输出层向量,表示最后的输出值;是的状态隐含层权值矩阵,是的动作隐含层权值矩阵;是Nc2×Nc2的输出层权值矩阵;激活函数ReLU(x)=max(0,x);记critic评估神经网络计算过程为qsa=Q(s,a|θQ),表示critic目标神经网络对于输入状态为s和控制信号为a的累积评价。
6、初始化critic目标神经网络Q′和actor目标神经网络μ′,使得critic目标神经网络权值参数θQ′=θQ,actor目标神经网络权值参数θμ′=θμ。critic目标神经网络Q′构成如图10所示Critic Target模块,其输入输出关系与critic目标神经网络Q类似,输入为s和a,输出记为q′sa=Q′(s,a|θQ′);actor目标神经网络μ′构成如图10所示Actor Target模块,其输入输出关系与critic目标神经网络μ类似,输入为s,输出记为a′=μ′(s|θμ′)。
7、初始化补偿器记忆空间大小MN,当前记忆指针索引PM=0,抽取学习样本数量ML,记忆空间的大小和抽取学习样本的数量应该考虑系统的采样率,如果采样率很大,会产生非常多的数据。已知系统采样率fs=104Hz,设置补偿器记忆空间大小MN=2×105,即存储20秒内的系统状态变化,每次学习样本数量ML=1000。补偿器记忆空间构成了如图8所示的Memory模块。
8、系统开始运行(t>0)时,获取初始化状态观测值s(t)。
9、通过actor评估神经网络所确定的当前策略θμ做出决策ao=μ(s|θμ)|s=s(t)。将ao和探索误差var输入至图10中的Exploration模块,此模块的功能是以平均值为ao、方差为var的高斯分布输出带有探索噪声的信号a,即需要补偿的桨距角βc,其计算方法采用Box-Muller算法,算法框图如图9所示。
10、计算补偿后的桨距角βo=βPI+βc,并通过速率限制器和幅度限制器最后得到补偿的角度β=AmplitudeLimiter(RateLimiter(βo))。速率限制器和幅度限制器如图10中Rate Limiter模块和Amplitude Limiter模块,其计算表达式如下
考虑到实际工程中桨距角的变化速率为每秒2°~5°,因此FallingRate=-5,RaisingRate=5;考虑到实际工程中桨距角在0°~90°进行变化,因此LowerBound=0,UpperBound=90。
11、风电控制系统接收到桨距角β,主电路运行,并根据奖励函数计算奖励r(t)和新的状态观测值S(t+1)。
12、如果记忆空间M未满,即PM≤MN,则直接在记忆空间索引为PM处存储t时刻状态转移(s(t),a(t),r(t),s(t+1)),然后PM←PM+1,补偿器不进行学习,回到第9步;如果记忆空间Memory模块已满,即PM>MN,则在记忆空间索引为mod(PM,MN)处存储t时刻状态转移(s(t),a(t),r(t),s(t+1)),然后PM←PM+1,补偿器需要进行学习。当记忆空间M存储满后,即PM>MN,从记忆空间M中随机抽取数量为ML的状态转移样本(s,a,r,s′),第i个状态转移样本表示为(si,ai,ri,si′),i=1,…,ML。
13、利用抽取的ML个样本通过actor目标神经网络、critic目标和评估神经网络与qLoss模块计算损失,如图10所示,其计算表达式
yi=ri+γq′sa,i
其中,a′i表示输入为s′i时actor目标神经网络的输出;q′sa,i表示输入为s′i和a′i时critic目标神经网络的输出;qsa,i表示输入为si和ai时critic评估神经网络的输出;yi表示期望累积回报;lossq表示critic评估神经网络的输出与期望值的损失;γ表示未来回报相对于当前回报的重要程度。如果γ=0,表示只重视当前立即回报;γ=1表示将未来回报视为与当前回报同等重要。设置参数γ=0.9。
得到损失后,使用Adam优化器更新critic评估神经网络参数θQ,此过程构成表示为图10中qLoss模块指向的Optimizer模块,因为此模块的目的是更新参数,所以该模块输出指向并穿过Critic Eval模块。算法具体如下
13.2、计算梯度动量mt=β1mt-1+(1-β1)gt,β1为指数衰减率,控制权重分配,取值0.9。
14、利用critic目标神经网络的输出q′sa,i计算策略梯度,如图10所示aLoss模块,其计算表达式为
使用Adam优化器更新actor评估神经网络参数θμ,如图10所示aLoss模块指向的Optimizer模块,因为此模块的目的是更新参数,所以该模块输出指向并穿过Actor Eval模块。在Optimizer模块中,可令输入gt=lossa,学习速率取值0.01,其余与更新critic评估神经网络参数的Optimizer类似,不再赘述。
15、更新critic和actor的目标神经网络参数,如图10所示ActorEval模块虚线指向ActorTarget模块和CriticEval模块虚线指向CriticTarget模块,具体表示为
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
16、更新actor评估神经网络的探索空间,var←var·qv,返回第9步。
17、结束。
步骤4)、将步骤3)中设定的DDPG补偿器应用于步骤2)中的系统模型,即可实现发电机稳定地输出功率。
参见图11至图19,可以看出,在风速高于额定风速、额定风速上下、低于额定风速时,如图11、14、17中,只有PI调节器的变桨距控制方法输出功率随着风速的随机波动而波动,波动范围比较大;使用PI调节器和DDPG补偿的变桨距控制方法的输出功率经过开始阶段的波动学习后,逐步进入稳态,稳态时的输出功率明显更加平稳,纹波也较小,如图12、15、18所示。为了减弱风速随机波动所带来的影响,经过DDPG补偿的控制方法使变桨距机构更快速地变化,如图13、16、19所示。
PI调节器根据不同的外界环境,通过不断的探索与决策调整当前的策略,使得补偿器长期获得的奖励值最大,即实现系统的最优化。强化学习在线学习的性质使得PI调节器无需通过仿真确定actor和critic的神经网络参数,在实际工程中可以在系统运行中直接通过采集的数据进行学习,记忆空间的存在使得补偿器能够应对一段时间内的未知不可测扰动,做出合理的决策控制,提高了系统的鲁棒性和PI调节器的适应能力,在环境情况发生变化时,PI调节器控制策略能相应发生变化。
Claims (6)
1.一种基于深度确定性策略梯度补偿的变桨距控制方法,其特征在于,包括以下步骤:
步骤三,根据设计指标设定DDPG补偿器的参数,并构建奖励函数r(t),设置奖励为同步发电机输出功率跟踪参考值的误差和误差变化率的函数,t为时间;
步骤四,将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型,即实现发电机稳定地输出功率,具体方法如下:
将本时刻的功率参考值与发电机输出功率作差并将结果通过PI调节器后获得桨距角的基础值βpi;提取DDPG补偿器的参数中的状态观测量s(t),将状态观测量s(t)输入至DDPG补偿器的actor评估神经网络输后获得补偿角度ao(t),添加探索噪声获得最终的补偿角度βc;
将桨距角的基础值βpi和补偿角度βc相加得到桨距角βo,再依次通过速率限制器和幅值限制器得到最终的角度;
经过电气系统至下一时刻,再次获得系统的状态观测量s(t+1)和经由步骤三中DDPG补偿器的参数中的奖励函数r(t)定义的奖励值,将(s(t),βo,r(t),s(t+1))作为一条记录存储在DDPG补偿器的记忆空间中;
当记忆空间中存储的记录足够多时,DDPG补偿器每输出一次控制信号将进行一次学习。
2.根据权利要求1所述的一种基于深度确定性策略梯度补偿的变桨距控制方法,其特征在于,步骤一中,根据空气密度ρ、切入风速Vwin、额定风速Vwrate和切出风速Vwout以及风轮半径R,确定功率随风速变化的曲线;
根据功率随风速变化的曲线,结合实际情况确定功率参考值开始平滑过渡时对应的风速偏移量ΔVsmooth,并利用函数拟合额定风速附近的功率曲线并替换,其中,a>0表示为增函数,a<0表示为减函数,|a|越大则函数爬升或下降越快,b表示在横轴上离0的偏移量,c表示在纵轴上离0的偏移量,c和d共同确定了函数的值域[c,d];再将功率参考表达式计算的值通过滑动窗口为T的滑动平均函数得到功率参考值
4.根据权利要求1所述的一种基于深度确定性策略梯度补偿的变桨距控制方法,其特征在于,步骤三中,DDPG补偿器的参数包括状态观测量s(t)、补偿信号的增益ab、神经网络参数软替换系数τ、探索空间递减系数qv、补偿器记忆空间大小MN、抽取学习样本数量ML以及actor评估神经网络、actor目标神经网络、critic评估神经网络、critic目标神经网络和一个记忆库,actor目标神经网络和critic目标神经网络只进行复制更新;
actor评估神经网络每层神经元的个数为Nai,i=1,…,La,critic评估神经网络每层神经元的个数为critic评估神经网络中动作网络每层神经元的个数为 critic评估神经网络中状态网络层数和动作网络合并后的每层神经元的个数为Nci,i=1,…,Lc;
actor评估神经网络的每层神经网络的激活函数为fai,i=1,…,La,critic评估神经网络中状态网络的每层神经网络的激活函数为critic评估神经网络中动作网络的每层神经网络的激活函数为critic评估神经网络中状态网络层数和动作网络合并后的网络的每层神经网络的激活函数为fci,i=1,…,Lc;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910592714.9A CN110374804B (zh) | 2019-07-03 | 2019-07-03 | 一种基于深度确定性策略梯度补偿的变桨距控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910592714.9A CN110374804B (zh) | 2019-07-03 | 2019-07-03 | 一种基于深度确定性策略梯度补偿的变桨距控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110374804A CN110374804A (zh) | 2019-10-25 |
CN110374804B true CN110374804B (zh) | 2020-06-19 |
Family
ID=68251693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910592714.9A Active CN110374804B (zh) | 2019-07-03 | 2019-07-03 | 一种基于深度确定性策略梯度补偿的变桨距控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110374804B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909859B (zh) * | 2019-11-29 | 2023-03-24 | 中国科学院自动化研究所 | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 |
CN111188732B (zh) * | 2020-01-17 | 2022-05-13 | 湖南工业大学 | 一种风力发电变桨鲁棒容错控制方法 |
CN114619907B (zh) * | 2020-12-14 | 2023-10-20 | 中国科学技术大学 | 基于分布式深度强化学习的协调充电方法及协调充电系统 |
KR20210006874A (ko) * | 2020-12-30 | 2021-01-19 | 정인우 | 칼만필터 및 심층강화학습 기반의 풍력발전기 요 오정렬 제어 방법 |
CN113464378A (zh) * | 2021-07-13 | 2021-10-01 | 南京理工大学 | 一种基于深度强化学习的提升风能捕获的转速跟踪目标优化方法 |
CN114444291B (zh) * | 2022-01-20 | 2023-02-10 | 中节能风力发电股份有限公司 | 一种风机发电量损失精细化测算方法、系统、设备和介质 |
CN114779199A (zh) * | 2022-04-24 | 2022-07-22 | 中国人民解放军空军预警学院 | 端射阵机载雷达自适应互耦补偿与杂波抑制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009068379A (ja) * | 2007-09-11 | 2009-04-02 | Mitsubishi Heavy Ind Ltd | 風力発電システム、及びその制御方法 |
CN103016266A (zh) * | 2013-01-11 | 2013-04-03 | 华北电力大学 | 模糊前馈与线性自抗扰结合的风电机组变桨距控制方法 |
CN104595106A (zh) * | 2014-05-19 | 2015-05-06 | 湖南工业大学 | 基于强化学习补偿的风力发电变桨距控制方法 |
CN106870281A (zh) * | 2017-04-06 | 2017-06-20 | 哈尔滨理工大学 | 一种基于模糊前馈和模糊‑pi的变桨距控制方法 |
CN109104734A (zh) * | 2018-07-19 | 2018-12-28 | 浙江工业大学 | 一种基于深度确定性策略梯度的集能型无线中继网络吞吐量最大化方法 |
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI445276B (zh) * | 2011-10-04 | 2014-07-11 | Iner Aec Executive Yuan | 一種整合自動電壓調整器之控制系統和方法 |
-
2019
- 2019-07-03 CN CN201910592714.9A patent/CN110374804B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009068379A (ja) * | 2007-09-11 | 2009-04-02 | Mitsubishi Heavy Ind Ltd | 風力発電システム、及びその制御方法 |
CN103016266A (zh) * | 2013-01-11 | 2013-04-03 | 华北电力大学 | 模糊前馈与线性自抗扰结合的风电机组变桨距控制方法 |
CN104595106A (zh) * | 2014-05-19 | 2015-05-06 | 湖南工业大学 | 基于强化学习补偿的风力发电变桨距控制方法 |
CN106870281A (zh) * | 2017-04-06 | 2017-06-20 | 哈尔滨理工大学 | 一种基于模糊前馈和模糊‑pi的变桨距控制方法 |
CN109104734A (zh) * | 2018-07-19 | 2018-12-28 | 浙江工业大学 | 一种基于深度确定性策略梯度的集能型无线中继网络吞吐量最大化方法 |
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
Also Published As
Publication number | Publication date |
---|---|
CN110374804A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110374804B (zh) | 一种基于深度确定性策略梯度补偿的变桨距控制方法 | |
Gauterin et al. | Effective wind speed estimation: Comparison between Kalman Filter and Takagi–Sugeno observer techniques | |
CN104595106B (zh) | 基于强化学习补偿的风力发电变桨距控制方法 | |
CN110566406B (zh) | 基于强化学习的风电机组实时变桨距鲁棒控制系统及方法 | |
Li et al. | Neuroadaptive variable speed control of wind turbine with wind speed estimation | |
US11629694B2 (en) | Wind turbine model based control and estimation with accurate online models | |
CN109737008A (zh) | 风电机组智能变桨控制系统及方法、风电机组 | |
CN114784823A (zh) | 基于深度确定性策略梯度的微电网频率控制方法及系统 | |
Chen et al. | Effective wind speed estimation study of the wind turbine based on deep learning | |
CN108717266B (zh) | 风场风机功率基于扰动观测器的神经自适应跟踪控制方法 | |
WO2018115423A1 (en) | Fatigue load minimization in an operation of a wind farm | |
Zhang et al. | Neural network-based fuzzy vibration controller for offshore platform with random time delay | |
CN116306306A (zh) | 一种基于非洲秃鹫算法的微网惯性常数估计方法 | |
Zhou et al. | An improved cerebellar model articulation controller based on the compound algorithms of credit assignment and optimized smoothness for a three-axis inertially stabilized platform | |
CN114036506A (zh) | 一种基于lm-bp神经网络的检测和防御虚假数据注入攻击的方法 | |
Chi et al. | Comparison of two multi-step ahead forecasting mechanisms for wind speed based on machine learning models | |
CN108223274A (zh) | 基于优化rbf神经网络的大型风力机变桨距系统辨识方法 | |
CN116181573A (zh) | 一种风电机组激光雷达的控制方法、装置及介质 | |
CN111749847B (zh) | 一种风力发电机桨距在线控制方法、系统和设备 | |
CN115167140A (zh) | 风力发电机组多目标随机模型预测控制策略方法及系统 | |
CN113494416A (zh) | 一种基于lstm的变桨距控制方法设计 | |
Gebraad et al. | LPV subspace identification of the edgewise vibrational dynamics of a wind turbine rotor | |
He et al. | Big data stream learning based on hybridized Kalman filter and backpropagation through time method | |
Chen et al. | Control Parameter Identification for DFIG based on RFE-BiLSTM | |
CN108536016B (zh) | 一种基于模糊逆模型的网络化控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |