CN115903457B

CN115903457B - 一种基于深度强化学习的低风速永磁同步风力发电机控制方法

Info

Publication number: CN115903457B
Application number: CN202211367284.9A
Authority: CN
Inventors: 邱雅兰; 蔡彬; 杜昱成; 孙宗耀; 褚晓广
Original assignee: Qufu Normal University
Current assignee: Qufu Normal University
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-09-08
Anticipated expiration: 2042-11-02
Also published as: CN115903457A

Abstract

本发明一种基于深度强化学习的低风速永磁同步风力发电机控制方法，属风电领域。采用深度强化学习TD3算法，设计转速跟踪控制器：根据低风速永磁同步风力发电机的环境状态构建基于TD3算法的智能体，设计奖励函数，对智能体进行训练，将训练好的智能体模型移植入机侧变流器的主控芯片，建立基于主控芯片的实际转速跟踪控制系统，实现转速跟踪控制；采用零d轴电流控制和电流前馈解耦控制策略，设计电流跟踪控制器，实现电流跟踪控制。本发明在风电机组受到外界未知干扰、自身结构参数不确定的情况下，转速跟踪过程更稳定，动态响应速度快、超调量小、定子电流谐波率低，有效降低系统功耗，确保低风速永磁同步风力发电机有效控制和高效运行。

Description

一种基于深度强化学习的低风速永磁同步风力发电机控制方法

技术领域

本发明涉及一种控制方法，尤其是一种基于深度强化学习的低风速永磁同步风力发电机控制方法，属于风电技术领域。

背景技术

低风速风电是未来风电重点发展领域之一。永磁直驱风电机组通常采用背靠背结构的变流器，它包括机侧变流器和网侧变流器，其中机侧变流器一般采用电压源变流器VSC。目前，对于永磁同步风力发电机的控制通常采用传统的PI控制方案。这种控制方案简单易行，但控制器参数不易调节，影响风电机组实际复杂工况下的稳定控制，尤其在低风速风电场，湍流强、风向多变、风速波动大，时常造成风电机组外界干扰的不确定性；而且，风电机组的长期运行也会导致电机自身参数发生变化，这些都给低风速永磁直驱风电机组的控制提出了巨大挑战。另一方面，针对低风速永磁直驱风电机组，由于是低风速发电，必然要求整个风电机组的自身损耗低，但降低风力发电机及其变流器的损耗也是难题之一。此外，永磁同步风力发电机定子侧dq轴分量相互耦合，在采用电流解耦方式解决dq轴的耦合问题时又不可避免的存在解耦误差。因此，实现低风速永磁直驱风电机组的稳定控制，有效减小发电机定子侧电流谐波，降低风力发电机及其机侧变流器的自身损耗，提高低风速风电机组的发电效率成为亟待解决的问题。

近年来，深度学习基于对数据的表征学习能力已经得到广泛的研究和应用。强化学习基于对未知环境一边探索一边建立环境模型的方法，在与环境信息交互的过程中，利用较少的信息即可通过试错法根据奖励学习到最优策略，也已得到广泛关注。而深度强化学习控制算法，有效结合了深度学习的感知能力和强化学习的决策能力，可以根据输入的信息进行控制，是一种更接近人类思维方式的人工智能控制方法。其中，基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,以下简称TD3)算法的一种深度强化学习方法对于连续动作空间的处理具有显著优势。这种不依赖于数学模型的深度强化学习控制算法尤其适用于存在未知时变干扰(如风速和风向存在波动性、不确定性)、长期运行后自身结构参数发生改变，并且具有非线性、强耦合特性的低风速永磁直驱风电机组。但目前深度强化学习控制在低风速永磁直驱风电机组方面的应用研究甚少。

发明内容

本发明的主要目的在于：针对上述现有技术存在的不足，本发明提供一种基于深度强化学习TD3算法的低风速永磁同步风力发电机控制方法，通过采用深度强化学习TD3算法，在低风速永磁直驱风电机组受到外界未知时变干扰、自身结构参数不确定以及dq轴解耦控制不精确的情况下，降低定子侧电流谐波含量，抑制电磁转矩脉动，减小发电机及其机侧变流器自身的功率损耗，从而确保实现低风速永磁同步风力发电机的有效控制和高效运行。

为了达到以上目的，本发明所述低风速永磁直驱风电机组，包括：永磁同步风力发电机、机侧变流器、直流环节、网侧变流器等。

所述机侧变流器一端与所述永磁同步风力发电机的定子相连，另一端与所述直流环节相连；所述直流环节的另一端与所述网侧变流器相连；所述网侧变流器通过工频变压器与交流电网相连。

本发明一种基于深度强化学习的低风速永磁同步风力发电机控制方法，包括以下步骤：

步骤1，采用深度强化学习TD3算法，设计所述机侧变流器的外环转速跟踪控制器，具体过程是：

11)根据所述低风速永磁同步风力发电机的环境状态构建基于TD3算法的智能体：

所述环境状态包括所述永磁同步风力发电机的转速n(t)、所述转速的偏差e(t)及其积分∫e(t)dt，其中，e(t)＝n_r(t)-n(t)，n_r(t)为所述永磁同步风力发电机的转速参考值；将所述环境状态记为s_t，则有s_t＝[n(t)e(t)∫e(t)dt]。

所述智能体包括Actor深度神经网络结构和Critic深度神经网络结构，含有共计6个神经网络，具体为：

所述Actor深度神经网络结构由策略网络Actor网络及其目标网络Actor_Target网络组成。

所述Actor网络的输入是环境状态s_t，对所述Actor网络的输出添加探索噪声ε后得到动作a_t(s_t|θ^a)，其中，θ^a为所述Actor网络的权值参数，探索噪声ε服从正态分布；

所述Actor_Target网络的输入是下一时刻的环境状态s_t+1，对所述Actor_Target网络的输出添加策略噪声ε’得到下一时刻的动作估计值a_t+1(s_t+1|θ^a’)，其中，θ^a’为所述Actor_Target网络的权值参数，策略噪声ε’服从正态分布；

设置所述探索噪声的方差衰减率η_e和策略噪声的方差衰减率η_p，以获得更加平滑、准确的动作输出；

所述Critic深度神经网络结构由两套用于价值函数估算的评价网络，即Critic1网络及其目标网络Critic1_Target网络和Critic2网络及其目标网络Critic2_Target网络组成。

所述Critic1网络和所述Critic2网络根据当前所述Actor网络的输入s_t和网络的输出动作a_t(s_t|θ^a)，分别输出价值函数和/>其中/>和/>分别为所述Critic1网络和Critic2网络的权值参数；所述Critic1_Target网络和所述Critic2_Target网络根据所述Actor_Target网络的输入s_t+1和网络的输出动作估计值a_t+1(s_t+1|θ^a’)，分别输出目标价值函数/>和/>其中/>和/>分别为所述Critic1_Target网络和所述Critic2_Target网络的权值参数。

12)设计奖励函数：

所述奖励函数包括：转速偏差奖励函数和转速奖励函数，具体为：

A1.转速偏差奖励函数r₁(t)设计为：

A2.转速奖励函数r₂(t)设计为：

式中，n_N为所述永磁同步风力发电机的额定转速。

A3.根据步骤A1设计的转速偏差奖励函数r₁(t)与步骤A2设计的转速奖励函数r₂(t)，构造奖励函数R_t为：

R_t＝10(|e(t)＜0.1r/min|)-1(e(t)≥0.1r/min)-100(n(t)＜0||n(t)＞1.5n_N) (3)

13)采用深度强化学习TD3算法对所述智能体进行训练：

B1.创建所述智能体与环境信息交互的接口，并设置所述智能体训练的相关参数，包括：

初始化所述Actor网络、所述Critic1网络和所述Critic2网络的权值参数θ^a、并将其分别复制给其对应的目标网络Actor_Target、Critic1_Target和Critic2_Target网络的权值参数，即：θ^a’←θ^a、/>

设置所述Actor网络的学习率α、所述Critic网络的学习率β；

设置深度强化学习的折扣因子γ；

设置训练的最大回合数M及每个训练回合中的最大步数N；

设置并初始化经验记忆库。

B2.在一个训练回合的每一步训练开始之前，从所述经验记忆库中随机批量选取m个经验数据组组成训练集，所述经验数据组的大小为2的整数次幂。

B3.所述智能体根据各经验数据组的当前环境状态s_tj，计算当前奖励函数值R_tj，输出并执行相关动作a_tj(s_tj|θ^a)；每一步动作执行后，得到下一环境状态s_tj+1，并将环境状态s_tj、动作a_tj(s_tj|θ^a)、奖励函数值R_tj、下一环境状态s_tj+1作为一个经验数据组存储至所述经验记忆库中，其中j＝1,2,3,…,m。

B4.更新所述智能体中深度神经网络的权值参数：所述Actor网络、Critic1和Critic2网络均采用小批量梯度下降法以神经网络反向传播方法，并基于深度强化学习TD3算法特有的延迟更新方式更新其网络权值参数θ^a、和/>对应的目标网络Actor_Target网络、Critic1_Target和Critic2_Target网络均采用软更新方式更新其网络权值参数θ^a’、和/>

B5.在每个训练回合中，当所述永磁同步风力发电机转速n(t)<0或n(t)>2n_N，则结束该训练回合，然后计算最后k个训练回合的平均奖励函数值R_E，进入步骤B6；否则判断该训练回合的步数是否达到最大步数N，如果未达到，则返回步骤B2进行下一步训练；如果达到，则结束该回合的训练，然后计算最后连续k个训练回合的平均奖励函数值R_E，进入步骤B6。

B6.如果R_E满足R_E≥10N-D，则保存此时的智能体模型，并结束整个训练过程，其中D为训练过程中设置的裕量；否则，判断是否达到最大训练回合数M，如果达到，则结束整个训练过程，如未达到，返回步骤B2进入下一训练回合继续训练。

B7.将所述智能体输出的动作a_t(s_t|θ^a)进行量化操作，即：将a_t(s_t|θ^a)与量化因子σ相乘，得到所述外环转速跟踪控制器的输出为σ·a_t(s_t|θ^a)。

14)将训练好的所述智能体模型移植入所述机侧变流器的主控芯片，建立基于所述机侧变流器的主控芯片的实际转速跟踪控制系统，实现转速跟踪控制。

步骤2，采用零d轴电流控制策略和电流前馈解耦控制策略，设计所述机侧变流器的内环电流跟踪控制器，实现所述低风速永磁同步风力发电机电流跟踪控制，具体过程为：

21)将步骤1得到的所述外环转速跟踪控制器输出σ·a_t(s_t|θ^a)作为所述永磁同步风力发电机的定子电流q轴分量i_q的参考值i_q ^*，将之与其实际值i_q作差输入第一PI控制器，所述第一PI控制器的输出与q轴前馈解耦补偿项-R_si_q-ωL_di_d+ωψ_f相加，得到所述永磁同步风力发电机的定子电压的q轴分量u_q的参考值u_q ^*；其中，R_s为所述永磁同步风力发电机的定子电阻，ω为所述永磁同步风力发电机的转子旋转角速度，ω＝2πn(t)，L_d是定子电感的d轴分量，ψ_f为所述永磁同步风力发电机的转子永磁体磁链；

22)令所述永磁同步风力发电机的定子电流的d轴分量i_d的参考值i_d ^*＝0，并将之与其实际值i_d作差输入第二PI控制器，所述第二PI控制器与d轴前馈解耦补偿项-R_si_d+ωL_qi_q相加，得到所述永磁同步风力发电机的定子电压的d轴分量u_d的参考值u_d ^*；其中，L_q是定子电感的q轴分量；

步骤3，将步骤2得到的所述永磁同步风力发电机的定子电压参考值u_d ^*、u_q ^*经dq/αβ坐标变换得到u_α ^*、u_β ^*；然后，将u_α ^*和u_β ^*经SVPWM模块调制后产生驱动信号，驱动所述机侧变流器的功率开关管，控制所述永磁同步风力发电机工作。

与现有技术相比，本发明的有益效果是：

1、本发明采用不依赖于数学模型的深度强化学习控制算法，能有效应对风速风向波动性以及风电机组自身结构参数变化及不确定对机组控制的影响，可大大提高风力发电机的转速跟踪控制的动态响应速度，减小转速超调，实现低风速永磁同步风力发电机的快速稳定控制；

2、可有效降低发电机定子侧电流谐波畸变率，抑制电磁转矩脉动，大幅减少风力发电机及其机侧变流器本身的功率损耗。

附图说明

图1为本发明永磁直驱风电机组拓扑结构示意图。

图2为深度强化学习控制原理示意图。

图3为深度强化学习TD3控制策略中智能体的训练过程示意图。

图4为基于深度强化学习TD3算法的永磁同步风力发电机控制训练流程图。

图5为本发明采用基于深度强化学习TD3算法的永磁同步风力发电机控制结构框图。

图6为采用传统的基于PI控制策略的永磁同步风力发电机控制结构框图。

图7为本发明与传统的基于PI控制策略下的转速对比仿真曲线图。

图8为本发明与传统的基于PI控制策略下的定子侧交流电流谐波对比图。

图9为本发明与传统的基于PI控制策略下的电磁转矩对比仿真曲线图。

图10为本发明永磁同步风力发电机输出功率曲线图。

图11为当本发明与传统的基于PI控制策略下的永磁同步风力发电机输出功率相同时，机侧变流器直流侧功率对比仿真曲线图。

其中，1-永磁同步风力发电机，2-机侧变流器，3-直流环节；4-网侧变流器；5-智能体；6-编码器；7-基于深度强化学习TD3的外环转速跟踪控制器；8-内环电流跟踪控制器；9-第一PI控制器；10-第二PI控制器；11-传统的基于PI控制策略的外环转速跟踪控制器。

具体实施方式

下面结合附图，对本发明作进一步详细说明。

如图1所示，本发明低风速永磁直驱风电机组包括永磁同步风力发电机1、机侧变流器2、直流环节3、网侧变流器4，机侧变流器2的一端与永磁同步风力发电机1的定子相连，另一端与直流环节3相连；直流环节3的另一端与网侧变流器4相连；网侧变流器4通过工频变压器与交流电网相连。

步骤1，如图5所示，采用深度强化学习TD3算法，设计机侧变流器2的外环转速跟踪控制器7。具体过程是：

将能够反映低风速永磁同步风力发电机1的变量信息的部分定义为环境；将能够执行动作并控制永磁同步风力发电机1运行的部分定义为智能体5。图2所示为深度强化学习原理示意图，其主要过程是：智能体5根据环境状态s_t、奖励函数R_t输出动作a_t，动作a_t再作用于环境，从而实现环境最优，进而有效控制永磁同步风力发电机1的运行。

11)根据低风速永磁同步风力发电机的环境状态构建基于TD3算法的智能体5：

环境状态包括永磁同步风力发电机1的转速n(t)、转速偏差e(t)及其积分ve(t)dt，其中，e(t)＝n_r(t)-n(t)，n_r(t)为永磁同步风力发电机1的转速参考值，根据电网调度指令或永磁同步风力发电机1的功率-转速特性曲线获得；将环境状态记为s_t，则有s_t＝[n(t),e(t),∫e(t)dt]，其中，n(t)由编码器测算得到。

如图3所示，智能体5包括Actor深度神经网络结构和Critic深度神经网络结构，含有共计6个神经网络，具体为：

Actor深度神经网络结构由两个神经网络，即策略网络Actor网络及其目标网络Actor_Target网络组成。

Actor网络的输入是环境状态s_t，为了探索到更多状态，对Actor网络的输出添加探索噪声ε得到动作a_t(s_t|θ^a)，其中θ^a为Actor网络的权值参数，探索噪声ε服从正态分布。

Actor_Target网络的输入是下一时刻的环境状态s_t+1，为使目标价值函数估计值更准确、鲁棒更强，对Actor_Target网络的输出添加策略噪声ε’得到下一时刻的动作估计值a_t+1(s_t+1|θ^a’),从而在一定概率控制下以动作a_t(s_t|θ^a)附近小范围内的动作来估算目标价值函数值，其中，θ^a’为Actor_Target网络的权值参数，策略噪声ε’服从正态分布。

设置探索噪声的方差衰减率η_e和策略噪声的方差衰减率η_p分别为1×10^-4和2×10^-4，以获得更加平滑、准确的动作输出。

Critic深度神经网络结构由两套用于价值函数估算的评价网络，共4个神经网络，即Critic1网络及其目标网络Critic1_Target网络和Critic2网络及其目标网络Critic2_Target网络组成。

Critic1网络和Critic2网络根据当前Actor网络的输入s_t和网络的输出动作a_t(s(t)|θ^a)，分别输出价值函数和/>其中/>和/>分别为Critic1网络和Critic2网络的权值参数；Critic1_Target网络和Critic2_Target网络根据Actor_Target网络的输入s_t+1和网络的输出a_t+1(s_t+1|θ^a’)，分别输出目标价值函数/>和/>其中/>和/>分别为Critic1_Target网络和Critic2_Target网络的权值参数。

12)设计奖励函数：

奖励函数包括：转速偏差奖励函数和转速奖励函数，具体为：

A1.转速偏差奖励函数r₁(t)设计为：

转速偏差奖励函数是永磁同步风力发电机1转速跟踪控制中达到目标参考转速n_r(t)的引导者。式(1)表明：当永磁同步风力发电机1的转速跟踪控制误差e(t)的绝对值小于0.1r/min时，给予+10的奖励；反之，当跟踪误差e(t)的绝对值大于等于0.1r/min时，给予-1的奖励(惩罚)。

A2.转速奖励函数r₂(t)设计为：

式中，n_N为永磁同步风力发电机1的额定转速。

转速奖励函数辅助智能体5做出正确决策。式(2)表明：当永磁同步风力发电机1的转速n(t)在正常转速工作范围内，即当转速n(t)介于0r/min～1.5n_N之间时，不给予奖励也不给予惩罚；反之，当转速n(t)超出正常转速工作范围，即当永磁同步发电机1出现反转或其转速超出1.5n_N时给予-100的奖励(惩罚)。

A3.根据步骤A1设计的转速偏差奖励函数r₁(t)与步骤A2设计的转速奖励函数r₂(t)，构造奖励函数为：

13)如图3和图4所示，采用深度强化学习TD3算法对智能体5进行训练：

B1.创建智能体5与环境信息交互的接口，并设置智能体5训练的相关参数，包括：

初始化如图3中所示Actor网络、Critic1网络和Critic2网络的权值参数θ^a、并将其分别复制给其对应的目标网络Actor_Target、Critic1_Target和Critic2_Target网络的权值参数，即：θ^a’←θ^a、/>

设置Actor网络的学习率α、Critic网络的学习率β；

为了减弱未来时刻奖励函数值对智能体5当前t时刻动作选择的累积影响，设置深度强化学习的折扣因子γ为0.9995；

设置训练的最大回合数M及每个训练回合中的最大步数N，即设置训练回合Episode个数的最大值为M，设置每个训练回合Episode的最大训练步数为N；

设置经验记忆库的大小为B，并随机初始化其中的经验数据组。

B2.在一个训练回合的每一步训练开始之前，从经验记忆库中随机批量选取m个经验数据组组成训练集，经验数据组的大小选为C。

B3.智能体5根据各经验数据组的当前环境状态s_tj，计算当前奖励函数值R_tj，输出并执行相关动作a_tj(s_tj|θ^a)；每一步动作执行后，得到下一环境状态s_tj+1，并将环境状态s_tj、动作a_tj(s_tj|θ^a)、奖励函数值R_tj、下一环境状态s_tj+1作为一个经验数据组存储至经验记忆库中，以更新经验数据组，不断积累经验；其中j＝1,2,3,…,m。

B4.更新智能体5中深度神经网络的权值参数：Actor网络、Critic1和Critic2网络均采用小批量梯度下降法以神经网络反向传播方法，并基于深度强化学习TD3算法特有的延迟更新方式更新网络权值θ^a、和/>延迟更新体现为Critic网络的权值/>和/>每更新两次，Actor网络的权值θ^a更新一次，有利于稳定目标价值函数值，减少错误更新。因此，对应的神经网络权值的更新律可表示为：

式中，J(θ^a)是由价值函数和/>构造的损失函数；/>和分别为用于Critic1和Critic2网络更新的均方差损失函数；表示期望目标价值函数，其中γ为折扣因子。

为了保证训练过程的稳定性，对应的目标网络Actor_Target网络、Critic1_Target和Critic2_Target网络均采用软更新方式以低于Actor网络、Critic1和Critic2的网络权值θ^a、和/>更新的频率更新网络权值θ^a’、/>和/>如每更新10次Actor网络、Critic1和Critic2网络，更新1次目标网络权值参数，目标网络权值的更新律可表示为：

式中，τ为Actor_Target网络、Critic1_Target网络和Critic2_Target网络参数的更新因子。

B5.在每个训练回合中，当永磁同步风力发电机1的转速n(t)＜0或n(t)>2n_N，则结束该训练回合(因为这种情况不符合永磁同步风力发电机1的实际工况)，并计算最后连续k个训练回合的平均奖励函数值R_E，即：

然后进入步骤B6；否则，判断该训练回合的步数是否达到最大步数N，如果未达到，则返回步骤B2进行下一步训练；如果达到，则结束该回合的训练，并按式(6)计算最后连续k个训练回合的平均奖励函数值R_E，进入步骤B6。

B6.如果R_E满足R_E≥10N-D，则保存此时的智能体模型，并结束整个训练过程，其中D为训练过程中设置的裕量；否则，判断是否达到最大训练回合数M，如果达到，则结束整个训练过程；如未达到，返回步骤B2进入下一训练回合继续训练。

B7.将智能体5输出的动作a_t(s_t|θ^a)进行量化操作，即：将a_t(s_t|θ^a)与量化因子σ相乘，得到外环转速跟踪控制器7的输出为σ·a_t(s_t|θ^a)。

14)将训练好的智能体模型移植入机侧变流器2的主控芯片，建立基于机侧变流器2的主控芯片的实际转速跟踪控制系统，实现永磁同步风力发电机1的转速跟踪控制。

步骤2，如图5所示，采用零d轴电流控制策略和电流前馈解耦控制策略，设计机侧变流器2的内环电流跟踪控制器8，实现所述低风速永磁同步风力发电机电流跟踪控制，具体过程为：

21)将步骤1得到的外环转速跟踪控制器7的输出σ·a_t(s_t|θ^a)作为永磁同步风力发电机1的定子电流q轴分量i_q的参考值i_q ^*，将之与其实际值i_q作差输入第一PI控制器9，第一PI控制器9的输出与q轴前馈解耦补偿项-R_si_q-ωL_di_d+ωψ_f相加，得到永磁同步风力发电机1的定子电压的q轴分量u_q的参考值u_q ^*；其中，R_s为永磁同步风力发电机1的定子电阻；ω为永磁同步风力发电机1的转子旋转角速度，ω＝2πn(t)，n(t)＝ω/(2π)＝ω_e/(2πp_n)＝(2πp_n)^-1·(dθ/dt)，p_n为永磁同步风力发电机1的极对数，ω_e为永磁同步风力发电机1的转子电角速度，θ为永磁同步风力发电机1的转子电角度，由编码器6测得；L_d是定子电感的d轴分量；ψ_f为永磁同步风力发电机1的转子永磁体磁链；

22)令永磁同步风力发电机1的定子电流的d轴分量i_d的参考值i_d ^*＝0，并将之与其实际值i_d作差输入第二PI控制器10，第二PI控制器10与d轴前馈解耦补偿项-R_si_d+ωL_qi_q相加，得到永磁同步风力发电机1的定子电压的d轴分量u_d的参考值u_d ^*；其中，L_q是定子电感的q轴分量；

步骤21)、22)中的前馈解耦补偿项的获取过程如下：

建立永磁同步风力发电机1的电压方程：

式中，R_s为永磁同步风力发电机1的定子电阻；u_d、u_q分别为永磁同步风力发电机1的定子电压的d轴和q轴分量；i_d、i_q分别为永磁同步风力发电机1的定子电流d轴和q轴分量；ψ_f为永磁同步风力发电机1的转子永磁体磁链，L_d、L_q是定子电感的d轴和q轴分量；ω为永磁同步风力发电机1的转子旋转角速度，ω＝2πn(t)。

由式(7)可知，永磁同步风力发电机1的定子电流dq轴分量i_d、i_q相互耦合，具有非线性、强耦合特性。因此，为了消除与转速有关的耦合电势ωL_qi_q和ωL_di_d对控制效果的影响，采用电流前馈解耦方式对i_d、i_q进行解耦控制，结合式(7)，可得永磁同步风力发电机1的dq轴电流的控制律分别为：

式中，u_d ^*、u_q ^*分别为u_d、u_q的参考值；k_pd、k_id分别为第二PI控制器10的比例、积分参数，k_pq、k_iq分别为第一PI控制器9的比例、积分参数；i_d、i_q由测得的永磁同步风力发电机1的定子电流i_a、i_b、i_c经abc/dq坐标变换得到。

步骤3，将步骤2得到的永磁同步风力发电机1的定子电压参考值u_d ^*、u_q ^*经dq/αβ坐标变换得到u_α ^*、u_β ^*；然后，将u_α ^*和u_β ^*经SVPWM模块调制后产生驱动信号，驱动机侧变流器2的功率开关管，控制永磁同步风力发电机1工作。

下面用一个优选实施例对本发明做进一步说明。

为了验证本发明基于深度强化学习TD3控制策略的有效性，对永磁同步风力发电机1及其机侧变流器2采用本发明基于深度强化学习TD3的控制策略进行仿真实验，并与传统的基于PI控制策略的仿真实验结果进行对比分析。

如图6所示，传统的基于PI控制的永磁同步风力发电机的控制策略主要思路是：首先，将永磁同步风力发电机1的参考转速n_r与其实际转速n之差送入基于PI控制的外环转速跟踪控制器11，并将控制器11的输出作为内环q轴电流跟踪控制的电流参考值i_q ^*。然后，将此i_q ^*与其实际值i_q作差后送入第一PI控制器9，控制器9的输出即为u_q ^*；与此同时，将d轴电流参考值i_d ^*＝0与其实际值作差后送入第二PI控制器10，控制器10的输出即为u_d ^*。最后，将u_d ^*、u_q ^*经dq/αβ坐标变换得到u_α ^*、u_β ^*，u_α ^*、u_β ^*经SVPWM模块调制后产生驱动信号，驱动机侧变流器2的功率开关管，从而控制永磁同步风力发电机1工作。

具体仿真参数如表1、表2、表3所示。

表1风力机相关参数

参数	数值
		额定功率P_N	1kW
额定风速v_N	10m/s
		启动风速v₀	2.5m/s
风轮半径R	2m
		空气密度ρ	1.225kg/m³
桨距角	0°

表2永磁同步风力发电机相关参数

参数	数值
		额定功率P_N	1kW
额定转速n_N	150r/min
		极对数p_n	20
定子侧d轴电感L_d	9mH
		定子侧q轴电感L_q	9mH
永磁体磁链幅值\|ψ_f\|	0.7Wb
		直流侧电压U_dc	650V
定子侧额定磁链幅值\|ψ_ref\|	0.7Wb

表3 TD3训练的相关参数

参数	数值
		Actor网络的学习率α	1×10^-3
Critic网络的学习率β	1×e^-4
		折扣因子γ	0.9995
训练的最大回合数M	500
		每个训练回合中的最大步数N	2000
经验记忆库的大小B	2×10⁶
		经验数据组的大小C	2⁹＝512
训练过程中设置的裕量D	600
		用于计算R_E的训练回合数k	10
更新因子τ	0.005
		量化因子σ	15

设置仿真时间为1s，初始风速为8m/s，0.5s时风速上升为额定风速10m/s。

如图7所示，图7a、图7b分别为本发明基于深度强化学习TD3控制和传统基于PI控制时的永磁同步风力发电机1的转速跟踪变化情况。由图7可知，采用传统PI控制方法时，在系统启动和风速变化阶段，转速存在较大的超调，而采用本发明基于深度强化学习TD3控制时，转速具有更快的动态响应，并且能够在短时间内达到稳定状态。

如图8所示，图8a、图8b分别为本发明基于深度强化学习TD3控制和传统基于PI控制时的永磁同步风力发电机1的定子侧交流电流谐波畸变率情况。由图8可知，本发明基于深度强化学习TD3控制的结果相比于传统基于PI控制的结果，能够将风力发电机定子侧交流电流谐波畸变率由2.74％降低到0.6％。

如图9所示，图9a、图9b分别为本发明基于深度强化学习TD3控制和传统基于PI控制时的永磁同步风力发电机1的电磁转矩变化情况。由图9可知，当采用传统基于PI控制方法，系统达到稳定时，电磁转矩波动约为1.8N·m，而采用本发明基于深度强化学习TD3控制时，电磁转矩波动在1N·m左右，电磁转矩脉动至少减小了0.8N·m。

图10为永磁同步风力发电机1的输出功率变化情况，由图10可知，当风速达到额定风速10m/s时，风力发电机1的输出功率达到1080W。

图11a、图11b分别为本发明基于深度强化学习TD3控制和传统基于PI控制时的机侧变流器2的直流侧功率变化情况。由图11可知，采用传统基于PI控制时，机侧变流器2的直流侧输出功率为708W，采用本发明深度强化学习TD3控制时，机侧变流器2的直流侧输出功率为975W。由此可见，本发明采用基于深度强化学习TD3控制方法可以降低机侧变流器2的功率损耗，能够将机侧变流器2的效率提升24.7％。

总之，本发明基于深度强化学习TD3控制的永磁同步风力发电机转速跟踪过程更加稳定，动态响应速度快，超调量小；而且能够抑制风力发电机的定子电流谐波畸变，减小电磁转矩的脉动，有效降低风力发电机及其机侧变流器本身的功率损耗。

Claims

1.一种基于深度强化学习的低风速永磁同步风力发电机控制方法，所述永磁同步风力发电机的定子与机侧变流器相连；其特征在于，采用如下步骤：

所述环境状态包括所述永磁同步风力发电机的转速n(t)、所述转速的偏差e(t)及其积分∫e(t)dt，其中，e(t)＝n_r(t)-n(t)，n_r(t)为所述永磁同步风力发电机的转速参考值；将所述环境状态记为s_t，则有s_t＝[n(t)e(t) ∫e(t)dt]；

所述Actor深度神经网络结构由策略网络Actor网络及其目标网络Actor_Target网络组成；

设置所述探索噪声ε的方差衰减率η_e和所述策略噪声ε’的方差衰减率η_p，以获得更加平滑、准确的动作输出；

所述Critic深度神经网络结构由两套用于价值函数估算的评价网络组成，即Critic1网络及其目标网络Critic1_Target网络和Critic2网络及其目标网络Critic2_Target网络；

所述Critic1网络和所述Critic2网络根据当前所述Actor网络的输入s_t和动作a_t(s_t|θ^a)，分别输出价值函数和/>其中/>和/>分别为所述Critic1网络和Critic2网络的权值参数；所述Critic1_Target网络和所述Critic2_Target网络根据所述Actor_Target网络的输入s_t+1和所述动作估计值a_t+1(s_t+1|θ^a’)，分别输出目标价值函数和/>其中，/>和/>分别为所述Critic1_Target网络和所述Critic2_Target网络的权值参数；

12)设计奖励函数：

A1.转速偏差奖励函数r₁(t)设计为：

A2.转速奖励函数r₂(t)设计为：

式中，n_N为所述永磁同步风力发电机的额定转速；

R_t＝10(|e(t)＜0.1r/min|)-1(e(t)≥0.1r/min)-100(n(t)＜0||n(t)＞1.5n_N) (3)

13)采用深度强化学习TD3算法对所述智能体进行训练：

设置所述Actor网络的学习率α、所述Critic网络的学习率β；

设置深度强化学习的折扣因子γ；

设置训练的最大回合数M及每个训练回合中的最大步数N；

设置并初始化经验记忆库；

B2.在一个训练回合的每一步训练开始之前，从所述经验记忆库中随机批量选取m个经验数据组组成训练集，所述经验数据组的大小为2的整数次幂；

B3.所述智能体根据各经验数据组的当前环境状态s_tj，计算当前奖励函数值R_tj，输出并执行相关动作a_tj(s_tj|θ^a)；每一步动作执行后，得到下一环境状态s_tj+1，并将环境状态s_tj、动作a_tj(s_tj|θ^a)、奖励函数值R_tj、下一环境状态s_tj+1作为一个经验数据组存储至所述经验记忆库中，其中j＝1,2,3,…,m；

B4.更新所述智能体中深度神经网络的权值参数：所述Actor网络、Critic1和Critic2网络均采用小批量梯度下降法以神经网络反向传播方法，并基于深度强化学习TD3算法特有的延迟更新方式更新其网络权值参数θ^a、和/>对应的目标网络Actor_Target网络、Critic1_Target和Critic2_Target网络均采用软更新方式更新其网络权值参数θ^a’、/>和

B5.在每个训练回合中，当所述永磁同步风力发电机转速小于0或大于2n_N，则结束该训练回合，然后计算最后k个训练回合的平均奖励函数值R_E，进入步骤B6；否则判断该训练回合的步数是否达到最大步数N，如果未达到，则返回步骤B2进行下一步训练；如果达到，则结束该回合的训练，然后计算最后连续k个训练回合的平均奖励函数值R_E，进入步骤B6；

B6.如果R_E满足R_E≥10N-D，其中D为训练过程中设置的裕量，则保存此时的智能体模型，并结束整个训练过程；否则，判断是否达到最大训练回合数M，如果达到，则结束整个训练过程，如未达到，则返回步骤B2进入下一训练回合继续训练；

B7.将所述智能体输出的动作a_t(s_t|θ^a)进行量化操作，即：将a_t(s_t|θ^a)与量化因子σ相乘，得到所述外环转速跟踪控制器的输出为σ·a_t(s_t|θ^a)；

14)将训练好的所述智能体模型移植入所述机侧变流器的主控芯片，建立基于所述机侧变流器的主控芯片的实际转速跟踪控制系统，实现转速跟踪控制；

步骤2，采用零d轴电流控制策略和电流前馈解耦控制策略，设计所述机侧变流器的内环电流跟踪控制器，实现所述永磁同步风力发电机电流跟踪控制，具体过程为：