CN110374804A

CN110374804A - 一种基于深度确定性策略梯度补偿的变桨距控制方法

Info

Publication number: CN110374804A
Application number: CN201910592714.9A
Authority: CN
Inventors: 郭尧; 刘增; 刘进军
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-10-25
Anticipated expiration: 2039-07-03
Also published as: CN110374804B

Abstract

本发明公开了一种基于深度确定性策略梯度补偿的变桨距控制方法，本发明在利用PI调节器作为主要控制的基础上，增加了基于深度确定性策略策略梯度DDPG的补偿器并设置补偿器的奖励函数，系统通过实时在线学习寻找最优策略，在该最优策略控制下，系统将在长期内获得尽可能大的奖励，从而达到最优化输出功率的目的。本发明通过将功率参考值表达式应用于PI调节器中，并通过仿真模型持续调试，能够使最大功率跟踪阶段与恒功率控制阶段的变桨距控制统一起来，使得当风速在额定风速上下波动时，输出功率变化更加平滑。

Description

一种基于深度确定性策略梯度补偿的变桨距控制方法

技术领域

本发明属于风力发电控制领域，具体涉及一种基于深度确定性策略梯度补偿的变桨距控制方法。

背景技术

风电经过近十年的发展，风电已经成为继火电、水电之后的第三大能源。在风力发电过程中，为了保证大中型风力发电机组在不同的风速区间内达到相应的输出需求，通常采用变桨距控制方式，即通过控制风轮桨叶桨距角而改变风力机的风能利用系数，使得风轮捕获到的风能得到控制，最终使风力机组输出功率满足需求。

通过桨距角控制器完成叶片节距角的控制，在风速逐渐进入切入风速时，桨距角减小，风轮叶片产生一定力矩使风轮叶片开始旋转；在风速大于切入风速而小于额定风速时，保持风力机桨距角不变，通过使风力机运行在最佳转矩来实现最大风能跟踪控制；在风速大于额定风速而小于切出风速时，使转矩维持在额定转矩附近，通过调节桨距角使发电机输出保持功率恒定；当风速大于切出风速时，进行停机保护。

通常风速在额定风速上下波动时，桨距角控制反复切换，控制系统无法及时在很功率阶段跟踪功率参考曲线而使得发电机输出功率波动较大，增加了变桨距机构的疲劳性，缩短了其使用寿命。

由于风速的间歇性、随机性和风电机组参数的时变性、偏航回转等机械机构引起的扰动、风切变和塔影效应、变桨距机构往复动作、大质量机构有惯性环节等特点，使得变桨距控制系统具有参数非线性、参数时变性、滞后性等特点，造成风电机组在运行时承受较大的不平衡载荷，影响输出功率的稳定性和机械机构、风电机组的使用寿命。

风力发电系统所处的环境是多变且难以预测的，将对风力发电系统产生难以预测的影响；风力发电系统具有时变非线形等特点，其运行过程中具有一定惯性，且机组内部参数摄动和外部随机扰动使得桨距角难以达到精确控制，难以保证整体机组安全稳定的运行。

发明内容

本发明的目的在于克服上述不足，提供一种基于深度确定性策略梯度补偿的变桨距控制方法，能够当风速在额定风速上下波动时，使输出功率变化平滑。

为了达到上述目的，本发明包括以下步骤：

步骤一，给定设计指标确定功率参考值的表达式；

步骤二，将功率参考值应用于PI调节器，并通过仿真模型调试比例增益k_pβ和积分增益k_iβ；

步骤三，根据设计指标设定DDPG补偿器的参数，并构建奖励函数r(t)，设置奖励为同步发电机输出功率跟踪参考值的误差和误差变化率的函数；

步骤四，将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型，即可实现发电机稳定地输出功率。

步骤一中，根据空气密度ρ、切入风速V_win、额定风速V_wrate和切出风速V_wout以及风轮半径R，确定功率随风速变化的曲线；

根据功率随风速变化的曲线，结合实际情况确定功率参考值开始平滑过渡时对应的风速偏移量ΔV_smooth，并利用函数拟合额定风速附近的功率曲线并替换，其中，a＞0表示为增函数，a＜0表示为减函数，|a|越大则函数爬升或下降越快，b表示在横轴上离0的偏移量，c表示在纵轴上离0的偏移量，c和d共同确定了函数的值域[c,d]；再将功率参考表达式计算的值通过滑动窗口为T的滑动平均函数得到功率参考值

设置DDPG补偿器的探索空间大小var、探索安全系数k和补偿器进入稳态时的搜索阈值ε_v，当探索空间大小大于搜索阈值ε_v，最终的功率参考值为乘以1-k，0＜k＜1；若探索空间大小小于或等于搜索阈值ε_v，则功率参考值为

步骤二中，PI调节器形式如下：

其中，β_PI是PI调节器的输出信号，k_pβ是比例增益，k_iβ是积分增益，是功率参考值，P_s是功率测量值，t是时间。

步骤三中，DDPG补偿器的参数包括状态观测量s(t)、补偿信号的增益a_b、神经网络参数软替换系数τ、探索空间递减系数q_v、补偿器记忆空间大小M_N、抽取学习样本数量M_L以及actor评估神经网络、actor目标神经网络、critic评估神经网络、critic目标神经网络和一个记忆库，actor目标神经网络和critic目标神经网络只进行复制更新；

actor评估神经网络的层数为L_a和critic评估神经网络中状态网络层数为critic评估神经网络中动作网络的层数为critic评估神经网络中状态网络层数和动作网络合并后的网络层数为L_c；

actor评估神经网络每层神经元的个数为N_ai,i＝1,…,L_a，critic评估神经网络每层神经元的个数为critic评估神经网络中动作网络每层神经元的个数为critic评估神经网络中状态网络层数和动作网络合并后的每层神经元的个数为N_ci,i＝1,…,L_c；

actor评估神经网络的每层神经网络的激活函数为f_ai,i＝1,…,L_a，critic评估神经网络中状态网络的每层神经网络的激活函数为critic评估神经网络中动作网络的每层神经网络的激活函数为critic评估神经网络中状态网络层数和动作网络合并后的网络的每层神经网络的激活函数为f_ci,i＝1,…,L_c；

actor评估神经网络的每层神经网络的权值矩阵为W_ai,i＝1,..,L_a，critic评估神经网络中状态网络的每层神经网络的权值矩阵为critic评估神经网络中动作网络的每层神经网络的权值矩阵为critic评估神经网络中状态网络层数和动作网络合并后的网络每层神经网络的权值矩阵为W_ci,i＝1,..,L_c。

actor评估神经网络的计算过程如下：

其中，s是系统的状态观测向量，是N_a1×1的输入层向量，是N_a2×1的隐藏层向量，是N_a3×1的输出层向量；是N_a2×N_a1的隐藏层权值矩阵，是N_a3×N_a2权值矩阵；激活函数ReLU(x)＝max(0,x),tanh(x)是双曲正切三角函数；a_b是输出放大倍数；是actor评估神经网络的输出信号。

critic评估神经网络的计算过程如下：

其中，s是系统的状态观测向量，a表示actor评估或目标神经网络对于输入状态为s的计算结果，是的状态输入层向量，是的动作输入层向量，是的状态隐含层向量，是的动作隐含层向量，是N_c1×1的合并层向量，是N_c2×1的输出层向量，表示最后的输出值；是的状态隐含层权值矩阵，是的动作隐含层权值矩阵；是N_c2×N_c2的输出层权值矩阵；激活函数ReLU(x)＝max(0,x)。

步骤四中，将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型的具体方法如下：

将该时刻的功率参考值与发电机输出功率作差并将结果通过PI调节器后获得桨距角的基础值β_pi；提取DDPG补偿器的参数中的状态观测量s(t)，将状态观测量s(t)输入至DDPG补偿器的actor评估神经网络输后获得补偿角度a_o(t)，添加探索噪声获得最终的补偿角度β_c；

将桨距角的基础值β_pi和补偿角度β_c相加得到桨距角β_o，再依次通过速率限制器和幅值限制器得到最终的角度；

经过电气系统至下一时刻，再次获得系统的状态观测量s(t+1)和经由步骤三中DDPG补偿器的参数中的奖励函数r(t)定义的奖励值，将(s(t),β_o,r(t),s(t+1))作为一条记录存储在DDPG补偿器的记忆空间中；

当记忆空间中存储的记录足够多时，DDPG补偿器每输出一次控制信号将进行一次学习。经过一段时间后，发电机的输出功率将不断得到优化。

与现有技术相比，本发明在利用PI调节器作为主要控制的基础上，增加了基于深度确定性策略策略梯度DDPG的补偿器并设置补偿器的奖励函数，系统通过实时在线学习寻找最优策略，在该最优策略控制下，系统将在长期内获得尽可能大的奖励，从而达到最优化输出功率的目的。本发明通过将功率参考值表达式应用于PI调节器中，并通过仿真模型持续调试，能够使最大功率跟踪阶段与恒功率控制阶段的变桨距控制统一起来，使得当风速在额定风速上下波动时，输出功率变化更加平滑。

附图说明

图1为风力发电变桨距控制图；

图2为风力发电变桨距控制相关主电路模型框图；

图3为本发明功率参考曲线示意图；

图4为本发明功率参考曲线算法框图；

图5为单个神经元示意图；

图6为本发明补偿器中actor目标神经网络和actor评估神经网络的结构图，也是Actor Eval模块和Actor Target模块的内部实现；

图7为本发明补偿器中critic目标神经网络和critic评估神经网络的结构图，也是Critic Eval模块和Critic Target模块的内部实现；

图8为本发明补偿器中记忆空间示意图；

图9为本发明补偿器给补偿角度添加探索噪声的算法框图，也是Exploration模块的内部算法实现；

图10为本发明控制系统结构框；

图11为风速大于额定风速时的风速曲线图；

图12为风速大于额定风速时的输出功率曲线图；其中包含了补偿器学习过程；

图13为风速大于额定风速时的桨距角曲线图；

图14为风速在额定风速上下波动时的风速曲线图；

图15为风速在额定风速上下波动时的输出功率曲线图；

图16为风速在额定风速上下波动时的桨距角曲线图；

图17为风速小于额定风速时的风速曲线图；

图18为风速小于额定风速时的输出功率曲线图；

图19为风速小于额定风速时的桨距角曲线图。

具体实施方式

下面结合附图对本发明做进一步说明。

本发明是在全风速工作范围内，使用比例P积分I调节器作为主要输出的桨距角，使用基于深度强化学习中的深度确定性策略梯度(DDPG，Deep Deterministic PolicyGradient)补偿算法作为辅助输出的变桨距控制器。具体方法如下：

步骤一，给定设计指标确定功率参考值的表达式；

实施例：

如图1和图2所示本发明所研究风电系统的主电路与相应模型框图，用于阐述本发明实施过程中的一些信号来源，其中，V_w表示风速，T_w表示风轮侧转矩，T_e表示发电机侧电磁转矩，ω_wt表示风轮侧角速度，ω_r表示发电机侧角速度，β表示桨距角，i_sd,i_sq和u_sd,u_sq表示dq坐标系下发电机定子电流与电压，表示d轴定子电流参考值，P_s表示发电机输出功率测量值。本发明为变桨距控制系统，下面结合附图阐述具体实施方式。

步骤1)、已知空气密度ρ、切入风速V_win、额定风速V_wrate和切出风速V_wout以及风轮半径R，在额定风速某一范围拟合功率参考值曲线，参见图3，根据实际情况确定功率参考值开始平滑过渡对应的风速偏移量ΔV_smooth，利用函数的变体拟合额定风速附近的功率曲线。计算公式如下：

其中，c_i,i＝1,2,…,7是拟合系数。

通过令功率系数C_p(β,λ)关于叶尖速度比λ的偏导数为0，得到功率系数取极大值时对应的叶尖速度比，它是关于桨距角的函数。最终可以近似的求出功率系数的最大值，计算表达式如下

令

解得

通过数学分析可知，当β确定时，可以找到对应的λ使得C_p最大，即可确定此时的功率参考值。最终有，C_p(β,λ)＝C_p(β)。

使用滑动平均值来减小风速波动的影响

其中，设置时间间隔T。

对于带有DDPG补偿器的PI调节器，由于在系统开始运行阶段，补偿器需要寻找最优策略，以至于在此过程中系统的功率输出波动相对较大，随着补偿器逐渐寻找到最优策略，系统才逐渐进入稳态阶段。因此，在恒功率阶段，以补偿器搜索空间大小来限制功率参考曲线，即

其中，是最终的功率参考值，var是DDPG补偿器搜索空间大小，ε_v是进入稳态时的搜索阈值，k表示探索安全系数，0＜k＜1。

计算功率参考值的整个算法流程如图4所示，该算法是如图10控制系统框图中的Pref模块内部实现。

步骤2)、通过仿真不带有DDPG补偿器的系统确定比例积分调节器的控制参数k_pβ,k_iβ。PI调节器形式如下：

其中，β_PI是PI调节器的输出信号，k_pβ是比例器的系数，k_iβ是积分器的系数，是功率参考值，P_s是功率测量值。过小的k_pβ,k_iβ无法实现发电器输出功率跟踪参考曲线；过大的k_pβ在风速变化较大时波动较大；过大的k_iβ使得完全跟踪功率参考曲线需要较长的时间，通过反复仿真与调节参数，可以选择适合的k_pβ和k_iβ。

步骤3)、DDPG补偿算法及参数确定。

DDPG算法主要由包含actor评估神经网络、actor目标神经网络、critic评估神经网络和critic目标神经网络在内的4个神经网络和1个记忆库构成。其中actor目标神经网络和critic目标神经网络不涉及神经网络权值参数的学习，只进行复制更新。

一个神经网络一般由神经元层数、每层神经元个数、激活函数、损失函数等参数或结构组成，单个神经元如图5所示，其中，输入向量x＝[x₀x₁x₂]^T，权值矩阵W＝[w₀w₁w₂]，符号Σ表示求和，符号f表示激活函数,输出向量为y，数字1表示该神经元是该层的第1个神经元。单个神经元的计算过程为

y＝f(w₀x₀+w₁x₁+w₂x₂)

即

y＝f(∑Wx)

为使示意图清晰，图6和图7中采用了与图5相同的神经元结构，但忽略了神经网络各个神经元之间连线上的权值。

补偿算法步骤如下：

1、选择系统的状态观测量组成输入向量，如图10所示State Observer模块，该模块测量数据并计算输入向量

s(t)＝[e_p(t),∫e_p(t),e_ref(t)]^T

其状态数量s_dim＝3，其中为t时刻PI调节器跟踪误差，为功率参考曲线输出的功率参考值，P_s(t)为发电机功率测量值；是PI调节器对误差的积分输出；为功率曲线参考值变化量。

2、选择补偿角度作为补偿器的输出，即输出信号a_o(t)是一个标量，a_dim＝1。补偿角度最大值确定了输出信号的增益a_b。考虑到补偿器在控制过程中起补偿作用，补偿信号相对PI调节器输出信号不能过大，因此a_b＝20。

3、构造奖励函数r(t)，如图10所示的Reward模块。奖励函数的设置将影响PI调节器的长期表现。直接设置奖励为同步发电机输出功率跟踪参考值的误差和误差变化率的函数。Reward模块的输入为t和t+1时刻的功率跟踪误差e_p，输出为

r(t)＝k₁×r₁(t)+k₂×r₂(t)

其中

r₁表示误差达到要求即奖励，r₂表示连续跟踪过程中误差持续减小即奖励；k₁,k₂分别为误差变化与误差变化率信号的强化系数，ε表示跟踪误差。设置参数k₁＝0.5,k₂＝0.5,ε＝10^-6。

4、初始化补偿器actor评估神经网络参数。actor评估神经网络μ(s|θ^μ)的层数L_a(L_a≥2)、每层神经元个数N_ai,i＝1,…,L_a、每层网络的激活函数f_ai,i＝1,…,L_a、每层网络的权值矩阵W_ai,i＝1,..,L_a、输出探索空间大小var、探索空间递减系数q_v；记actor评估神经网络所有权值参数为θ^μ，表示actor的控制策略；神经网络参数软替换系数τ。一般包含输入层和输出层在内的3层神经网络可以拟合任意非线性映射关系，所以设置actor评估神经网络包含输入层与输出层在内的层数L_a＝3，每层神经元个数N_a1＝s_dim＝3,N_a2＝50,N_a3＝a_dim＝1，每层网络的激活函数f_a1(x)＝x,f_a2(x)＝ReLU(x),f_a3(x)＝tanh(x)；由均值为1、方差为0的标准正态分布随机生成权值矩阵；输出探索空间大小var＝10，若系统采样率f_s＝10⁴Hz，设置补偿器探索时长为30秒，即探索步数n＝30f_s＝3×10⁵，进入稳态时的搜索阈值ε_v＝0.1，则由通过可求得探索空间递减系数q_v＝0.9999846495505327。actor评估神经网络μ(s|θ^μ)内部结构示意图如图6所示，其构成了如图10所示的Actor Eval模块，其输入输出计算过程(决策控制过程)如下

其中，s是系统的状态观测向量，是N_a1×1的输入层向量，是N_a2×1的隐藏层向量，是N_a3×1的输出层向量；是N_a2×N_a1的隐藏层权值矩阵，是N_a3×N_a2权值矩阵；激活函数ReLU(x)＝max(0,x),tanh(x)是双曲正切三角函数；a_b是输出放大倍数；是actor评估神经网络的输出信号。记actor评估神经网络的计算过程为a_o＝μ(s|θ^μ)。

5、初始化补偿器critic评估神经网络参数。critic评估神经网络Q(s,a|θ^Q)是由状态神经网络和动作神经网络构成的，如图7所示。状态神经网络的层数每层神经元个数每层网络的激活函数每层网络的权值矩阵动作神经网络的层数每层神经元个数每层网络的激活函数每层网络的权值矩阵状态神经网络和动作神经网络合并后的层数L_c(L_c≥1)，每层神经元个数N_ci,i＝1,…,L_c，每个神经元的偏置项b_cij,i＝1,…,L_c,j＝1,…,N_ci,每层网络的权值矩阵W_ci,i＝1,..,L_c，每层网络的激活函数f_ci,i＝1,…,L_c；记critic评估神经网络所有权值参数为θ^Q，表示critic的策略。设置状态神经网络的层数每层神经元个数每层网络的激活函数动作神经网络的层数每层神经元个数每层网络的激活函数每层网络的权值矩阵状态神经网络和动作神经网络合并后的层数L_c＝2、每层神经元个数N_c1＝50,N_c2＝1、每层网络的激活函数f_c1(x)＝ReLU(x),f_c2(x)＝x；由均值为1、方差为0的标准正态分布随机生成所有的权值矩阵和偏置项。critic评估神经网络Q(s,a|θ^Q)的内部结构示意图如图7所示，其构成了图10中的Critic Eval模块，其输入输出计算过程如下

其中，s是系统的状态观测向量，a＝μ(s|θ^μ)，表示actor评估或目标神经网络对于输入状态为s的计算结果，是的状态输入层向量，是的动作输入层向量，是的状态隐含层向量，是的动作隐含层向量，是N_c1×1的合并层向量，是N_c2×1的输出层向量，表示最后的输出值；是的状态隐含层权值矩阵，是的动作隐含层权值矩阵；是N_c2×N_c2的输出层权值矩阵；激活函数ReLU(x)＝max(0,x)；记critic评估神经网络计算过程为q_sa＝Q(s,a|θ^Q)，表示critic目标神经网络对于输入状态为s和控制信号为a的累积评价。

6、初始化critic目标神经网络Q′和actor目标神经网络μ′，使得critic目标神经网络权值参数θ^Q′＝θ^Q，actor目标神经网络权值参数θ^μ′＝θ^μ。critic目标神经网络Q′构成如图10所示Critic Target模块,其输入输出关系与critic目标神经网络Q类似，输入为s和a，输出记为q′_sa＝Q′(s,a|θ^Q′)；actor目标神经网络μ′构成如图10所示Actor Target模块，其输入输出关系与critic目标神经网络μ类似，输入为s，输出记为a′＝μ′(s|θ^μ′)。

7、初始化补偿器记忆空间大小M_N，当前记忆指针索引P_M＝0，抽取学习样本数量M_L，记忆空间的大小和抽取学习样本的数量应该考虑系统的采样率，如果采样率很大，会产生非常多的数据。已知系统采样率f_s＝10⁴Hz，设置补偿器记忆空间大小M_N＝2×10⁵，即存储20秒内的系统状态变化，每次学习样本数量M_L＝1000。补偿器记忆空间构成了如图8所示的Memory模块。

8、系统开始运行(t＞0)时，获取初始化状态观测值s(t)。

9、通过actor评估神经网络所确定的当前策略θ^μ做出决策a_o＝μ(s|θ^μ)|_s＝s(t)。将a_o和探索误差var输入至图10中的Exploration模块，此模块的功能是以平均值为a_o、方差为var的高斯分布输出带有探索噪声的信号a，即需要补偿的桨距角β_c，其计算方法采用Box-Muller算法，算法框图如图9所示。

10、计算补偿后的桨距角β_o＝β_PI+β_c，并通过速率限制器和幅度限制器最后得到补偿的角度β＝AmplitudeLimiter(RateLimiter(β_o))。速率限制器和幅度限制器如图10中Rate Limiter模块和Amplitude Limiter模块，其计算表达式如下

其中，控制系统采样时间间隔T_s＝10^-4，表示时刻n的输入与时刻n-1的输入的变化率，FallingRate＜0是下降速率；RaisingRate＞0是上升速率。

考虑到实际工程中桨距角的变化速率为每秒2°～5°，因此FallingRate＝-5,RaisingRate＝5；考虑到实际工程中桨距角在0°～90°进行变化，因此LowerBound＝0,UpperBound＝90。

11、风电控制系统接收到桨距角β，主电路运行，并根据奖励函数计算奖励r(t)和新的状态观测值S(t+1)。

12、如果记忆空间M未满，即P_M≤M_N，则直接在记忆空间索引为P_M处存储t时刻状态转移(s(t),a(t),r(t),s(t+1))，然后P_M←P_M+1，补偿器不进行学习，回到第9步；如果记忆空间Memory模块已满，即P_M＞M_N，则在记忆空间索引为mod(P_M,M_N)处存储t时刻状态转移(s(t),a(t),r(t),s(t+1))，然后P_M←P_M+1，补偿器需要进行学习。当记忆空间M存储满后，即P_M＞M_N，从记忆空间M中随机抽取数量为M_L的状态转移样本(s,a,r,s′)，第i个状态转移样本表示为(s_i,a_i,r_i,s_i′),i＝1,…,M_L。

13、利用抽取的M_L个样本通过actor目标神经网络、critic目标和评估神经网络与qLoss模块计算损失，如图10所示，其计算表达式

y_i＝r_i+γq′_sa,i

其中，a′_i表示输入为s′_i时actor目标神经网络的输出；q′_sa,i表示输入为s′_i和a′_i时critic目标神经网络的输出；q_sa,i表示输入为s_i和a_i时critic评估神经网络的输出；y_i表示期望累积回报；loss_q表示critic评估神经网络的输出与期望值的损失；γ表示未来回报相对于当前回报的重要程度。如果γ＝0，表示只重视当前立即回报；γ＝1表示将未来回报视为与当前回报同等重要。设置参数γ＝0.9。

得到损失后，使用Adam优化器更新critic评估神经网络参数θ^Q，此过程构成表示为图10中qLoss模块指向的Optimizer模块，因为此模块的目的是更新参数，所以该模块输出指向并穿过Critic Eval模块。算法具体如下

13.1、计算时刻t时的梯度

13.2、计算梯度动量m_t＝β₁m_t-1+(1-β₁)g_t，β₁为指数衰减率，控制权重分配，取值0.9。

13.3、计算梯度平方的指数移动平均数，β₂为指数衰减率，控制梯度平方项，取值0.999,初始化v₀＝0；表示哈达马乘积，即对应元素相乘。

13.4、由于m₀初始化为0，会导致m_t偏向于0，尤其在训练初期阶段。所以，此处需要对梯度均值m_t进行偏差纠正，降低偏差对训练初期的影响：

13.5、与m₀类似，因为v₀初始化为0导致训练初始阶段v_t偏向0，对其进行纠正：

13.6、更新神经网络参数α为学习速率，取值0.02，ε为1e-8，避免除数为0。

14、利用critic目标神经网络的输出q′_sa,i计算策略梯度，如图10所示aLoss模块，其计算表达式为

使用Adam优化器更新actor评估神经网络参数θ^μ，如图10所示aLoss模块指向的Optimizer模块，因为此模块的目的是更新参数，所以该模块输出指向并穿过Actor Eval模块。在Optimizer模块中，可令输入g_t＝loss_a，学习速率取值0.01，其余与更新critic评估神经网络参数的Optimizer类似，不再赘述。

15、更新critic和actor的目标神经网络参数，如图10所示ActorEval模块虚线指向ActorTarget模块和CriticEval模块虚线指向CriticTarget模块，具体表示为

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

16、更新actor评估神经网络的探索空间，var←var·q_v，返回第9步。

17、结束。

步骤4)、将步骤3)中设定的DDPG补偿器应用于步骤2)中的系统模型，即可实现发电机稳定地输出功率。

参见图11至图19，可以看出，在风速高于额定风速、额定风速上下、低于额定风速时，如图11、14、17中，只有PI调节器的变桨距控制方法输出功率随着风速的随机波动而波动，波动范围比较大；使用PI调节器和DDPG补偿的变桨距控制方法的输出功率经过开始阶段的波动学习后，逐步进入稳态，稳态时的输出功率明显更加平稳，纹波也较小，如图12、15、18所示。为了减弱风速随机波动所带来的影响，经过DDPG补偿的控制方法使变桨距机构更快速地变化，如图13、16、19所示。

PI调节器根据不同的外界环境，通过不断的探索与决策调整当前的策略，使得补偿器长期获得的奖励值最大，即实现系统的最优化。强化学习在线学习的性质使得PI调节器无需通过仿真确定actor和critic的神经网络参数，在实际工程中可以在系统运行中直接通过采集的数据进行学习，记忆空间的存在使得补偿器能够应对一段时间内的未知不可测扰动，做出合理的决策控制，提高了系统的鲁棒性和PI调节器的适应能力，在环境情况发生变化时，PI调节器控制策略能相应发生变化。

Claims

1.一种基于深度确定性策略梯度补偿的变桨距控制方法，其特征在于，包括以下步骤：

步骤一，给定设计指标确定功率参考值的表达式；

步骤四，将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型，即实现发电机稳定地输出功率。

2.跟权利要求1所述的一种基于深度确定性策略梯度补偿的变桨距控制方法，其特征在于，步骤一中，根据空气密度ρ、切入风速V_win、额定风速V_wrate和切出风速V_wout以及风轮半径R，确定功率随风速变化的曲线；

根据功率随风速变化的曲线，结合实际情况确定功率参考值开始平滑过渡时对应的风速偏移量ΔV_smooth，并利用函数拟合额定风速附近的功率曲线并替换，其中，a＞0表示为增函数，a＜0表示为减函数，|a|越大则函数爬升或下降越快，b表示在横轴上离0的偏移量，c表示在纵轴上离0的偏移量，c和d共同确定了函数的值域[c，d]；再将功率参考表达式计算的值通过滑动窗口为T的滑动平均函数得到功率参考值

3.跟权利要求1所述的一种基于深度确定性策略梯度补偿的变桨距控制方法，其特征在于，步骤二中，PI调节器形式如下：

4.跟权利要求1所述的一种基于深度确定性策略梯度补偿的变桨距控制方法，其特征在于，步骤三中，DDPG补偿器的参数包括状态观测量s(t)、补偿信号的增益a_b、神经网络参数软替换系数τ、探索空间递减系数q_v、补偿器记忆空间大小M_N、抽取学习样本数量M_L以及actor评估神经网络、actor目标神经网络、critic评估神经网络、critic目标神经网络和一个记忆库，actor目标神经网络和critic目标神经网络只进行复制更新；

actor评估神经网络每层神经元的个数为N_ai，i＝1，...，L_a，critic评估神经网络每层神经元的个数为critic评估神经网络中动作网络每层神经元的个数为critic评估神经网络中状态网络层数和动作网络合并后的每层神经元的个数为N_ci，i＝1，...，L_c；

actor评估神经网络的每层神经网络的激活函数为f_ai，i＝1，…，L_a，critic评估神经网络中状态网络的每层神经网络的激活函数为critic评估神经网络中动作网络的每层神经网络的激活函数为critic评估神经网络中状态网络层数和动作网络合并后的网络的每层神经网络的激活函数为f_ci，i＝1，...，L_c；

actor评估神经网络的每层神经网络的权值矩阵为W_ai，i＝1，..，L_a，critic评估神经网络中状态网络的每层神经网络的权值矩阵为critic评估神经网络中动作网络的每层神经网络的权值矩阵为critic评估神经网络中状态网络和动作网络合并后的网络每层神经网络的权值矩阵为W_ci，i＝1，..，L_c。

5.跟权利要求4所述的一种基于深度确定性策略梯度补偿的变桨距控制方法，其特征在于，actor评估神经网络的计算过程如下：

其中，s是系统的状态观测向量，是N_a1×1的输入层向量，是N_a2×1的隐藏层向量，是N_a3×1的输出层向量；是N_a2×N_a1的隐藏层权值矩阵，是N_a3×N_a2权值矩阵；激活函数ReLU(x)＝max(0，x)，tanh(x)是双曲正切三角函数；a_b是输出放大倍数；是actor评估神经网络的输出信号。

6.跟权利要求4所述的一种基于深度确定性策略梯度补偿的变桨距控制方法，其特征在于，critic评估神经网络的计算过程如下：

其中，s是系统的状态观测向量，a表示actor评估或目标神经网络对于输入状态为s的计算结果，是的状态输入层向量，是的动作输入层向量，是的状态隐含层向量，是的动作隐含层向量，是N_c1×1的合并层向量，是N_c2×1的输出层向量，表示最后的输出值；是的状态隐含层权值矩阵，是的动作隐含层权值矩阵；是N_c2×N_c2的输出层权值矩阵；激活函数ReLU(x)＝max(0，x)。

7.跟权利要求1所述的一种基于深度确定性策略梯度补偿的变桨距控制方法，其特征在于，步骤四中，将步骤三中的DDPG补偿器的参数应用于步骤二的仿真模型的具体方法如下：

经过电气系统至下一时刻，再次获得系统的状态观测量s(t+1)和经由步骤三中DDPG补偿器的参数中的奖励函数r(t)定义的奖励值，将(s(t)，β_o，r(t)，s(t+1))作为一条记录存储在DDPG补偿器的记忆空间中；

当记忆空间中存储的记录足够多时，DDPG补偿器每输出一次控制信号将进行一次学习。