CN115903457B - 一种基于深度强化学习的低风速永磁同步风力发电机控制方法 - Google Patents

一种基于深度强化学习的低风速永磁同步风力发电机控制方法 Download PDF

Info

Publication number
CN115903457B
CN115903457B CN202211367284.9A CN202211367284A CN115903457B CN 115903457 B CN115903457 B CN 115903457B CN 202211367284 A CN202211367284 A CN 202211367284A CN 115903457 B CN115903457 B CN 115903457B
Authority
CN
China
Prior art keywords
network
permanent magnet
magnet synchronous
training
actor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211367284.9A
Other languages
English (en)
Other versions
CN115903457A (zh
Inventor
邱雅兰
蔡彬
杜昱成
孙宗耀
褚晓广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qufu Normal University
Original Assignee
Qufu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qufu Normal University filed Critical Qufu Normal University
Priority to CN202211367284.9A priority Critical patent/CN115903457B/zh
Publication of CN115903457A publication Critical patent/CN115903457A/zh
Application granted granted Critical
Publication of CN115903457B publication Critical patent/CN115903457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/70Wind energy
    • Y02E10/72Wind turbines with rotation axis in wind direction

Landscapes

  • Control Of Eletrric Generators (AREA)

Abstract

本发明一种基于深度强化学习的低风速永磁同步风力发电机控制方法,属风电领域。采用深度强化学习TD3算法,设计转速跟踪控制器:根据低风速永磁同步风力发电机的环境状态构建基于TD3算法的智能体,设计奖励函数,对智能体进行训练,将训练好的智能体模型移植入机侧变流器的主控芯片,建立基于主控芯片的实际转速跟踪控制系统,实现转速跟踪控制;采用零d轴电流控制和电流前馈解耦控制策略,设计电流跟踪控制器,实现电流跟踪控制。本发明在风电机组受到外界未知干扰、自身结构参数不确定的情况下,转速跟踪过程更稳定,动态响应速度快、超调量小、定子电流谐波率低,有效降低系统功耗,确保低风速永磁同步风力发电机有效控制和高效运行。

Description

一种基于深度强化学习的低风速永磁同步风力发电机控制 方法
技术领域
本发明涉及一种控制方法,尤其是一种基于深度强化学习的低风速永磁同步风力发电机控制方法,属于风电技术领域。
背景技术
低风速风电是未来风电重点发展领域之一。永磁直驱风电机组通常采用背靠背结构的变流器,它包括机侧变流器和网侧变流器,其中机侧变流器一般采用电压源变流器VSC。目前,对于永磁同步风力发电机的控制通常采用传统的PI控制方案。这种控制方案简单易行,但控制器参数不易调节,影响风电机组实际复杂工况下的稳定控制,尤其在低风速风电场,湍流强、风向多变、风速波动大,时常造成风电机组外界干扰的不确定性;而且,风电机组的长期运行也会导致电机自身参数发生变化,这些都给低风速永磁直驱风电机组的控制提出了巨大挑战。另一方面,针对低风速永磁直驱风电机组,由于是低风速发电,必然要求整个风电机组的自身损耗低,但降低风力发电机及其变流器的损耗也是难题之一。此外,永磁同步风力发电机定子侧dq轴分量相互耦合,在采用电流解耦方式解决dq轴的耦合问题时又不可避免的存在解耦误差。因此,实现低风速永磁直驱风电机组的稳定控制,有效减小发电机定子侧电流谐波,降低风力发电机及其机侧变流器的自身损耗,提高低风速风电机组的发电效率成为亟待解决的问题。
近年来,深度学习基于对数据的表征学习能力已经得到广泛的研究和应用。强化学习基于对未知环境一边探索一边建立环境模型的方法,在与环境信息交互的过程中,利用较少的信息即可通过试错法根据奖励学习到最优策略,也已得到广泛关注。而深度强化学习控制算法,有效结合了深度学习的感知能力和强化学习的决策能力,可以根据输入的信息进行控制,是一种更接近人类思维方式的人工智能控制方法。其中,基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,以下简称TD3)算法的一种深度强化学习方法对于连续动作空间的处理具有显著优势。这种不依赖于数学模型的深度强化学习控制算法尤其适用于存在未知时变干扰(如风速和风向存在波动性、不确定性)、长期运行后自身结构参数发生改变,并且具有非线性、强耦合特性的低风速永磁直驱风电机组。但目前深度强化学习控制在低风速永磁直驱风电机组方面的应用研究甚少。
发明内容
本发明的主要目的在于:针对上述现有技术存在的不足,本发明提供一种基于深度强化学习TD3算法的低风速永磁同步风力发电机控制方法,通过采用深度强化学习TD3算法,在低风速永磁直驱风电机组受到外界未知时变干扰、自身结构参数不确定以及dq轴解耦控制不精确的情况下,降低定子侧电流谐波含量,抑制电磁转矩脉动,减小发电机及其机侧变流器自身的功率损耗,从而确保实现低风速永磁同步风力发电机的有效控制和高效运行。
为了达到以上目的,本发明所述低风速永磁直驱风电机组,包括:永磁同步风力发电机、机侧变流器、直流环节、网侧变流器等。
所述机侧变流器一端与所述永磁同步风力发电机的定子相连,另一端与所述直流环节相连;所述直流环节的另一端与所述网侧变流器相连;所述网侧变流器通过工频变压器与交流电网相连。
本发明一种基于深度强化学习的低风速永磁同步风力发电机控制方法,包括以下步骤:
步骤1,采用深度强化学习TD3算法,设计所述机侧变流器的外环转速跟踪控制器,具体过程是:
11)根据所述低风速永磁同步风力发电机的环境状态构建基于TD3算法的智能体:
所述环境状态包括所述永磁同步风力发电机的转速n(t)、所述转速的偏差e(t)及其积分∫e(t)dt,其中,e(t)=nr(t)-n(t),nr(t)为所述永磁同步风力发电机的转速参考值;将所述环境状态记为st,则有st=[n(t)e(t)∫e(t)dt]。
所述智能体包括Actor深度神经网络结构和Critic深度神经网络结构,含有共计6个神经网络,具体为:
所述Actor深度神经网络结构由策略网络Actor网络及其目标网络Actor_Target网络组成。
所述Actor网络的输入是环境状态st,对所述Actor网络的输出添加探索噪声ε后得到动作at(sta),其中,θa为所述Actor网络的权值参数,探索噪声ε服从正态分布;
所述Actor_Target网络的输入是下一时刻的环境状态st+1,对所述Actor_Target网络的输出添加策略噪声ε’得到下一时刻的动作估计值at+1(st+1a’),其中,θa’为所述Actor_Target网络的权值参数,策略噪声ε’服从正态分布;
设置所述探索噪声的方差衰减率ηe和策略噪声的方差衰减率ηp,以获得更加平滑、准确的动作输出;
所述Critic深度神经网络结构由两套用于价值函数估算的评价网络,即Critic1网络及其目标网络Critic1_Target网络和Critic2网络及其目标网络Critic2_Target网络组成。
所述Critic1网络和所述Critic2网络根据当前所述Actor网络的输入st和网络的输出动作at(sta),分别输出价值函数和/>其中/>和/>分别为所述Critic1网络和Critic2网络的权值参数;所述Critic1_Target网络和所述Critic2_Target网络根据所述Actor_Target网络的输入st+1和网络的输出动作估计值at+1(st+1a’),分别输出目标价值函数/>和/>其中/>和/>分别为所述Critic1_Target网络和所述Critic2_Target网络的权值参数。
12)设计奖励函数:
所述奖励函数包括:转速偏差奖励函数和转速奖励函数,具体为:
A1.转速偏差奖励函数r1(t)设计为:
A2.转速奖励函数r2(t)设计为:
式中,nN为所述永磁同步风力发电机的额定转速。
A3.根据步骤A1设计的转速偏差奖励函数r1(t)与步骤A2设计的转速奖励函数r2(t),构造奖励函数Rt为:
Rt=10(|e(t)<0.1r/min|)-1(e(t)≥0.1r/min)-100(n(t)<0||n(t)>1.5nN) (3)
13)采用深度强化学习TD3算法对所述智能体进行训练:
B1.创建所述智能体与环境信息交互的接口,并设置所述智能体训练的相关参数,包括:
初始化所述Actor网络、所述Critic1网络和所述Critic2网络的权值参数θa并将其分别复制给其对应的目标网络Actor_Target、Critic1_Target和Critic2_Target网络的权值参数,即:θa’←θa、/>
设置所述Actor网络的学习率α、所述Critic网络的学习率β;
设置深度强化学习的折扣因子γ;
设置训练的最大回合数M及每个训练回合中的最大步数N;
设置并初始化经验记忆库。
B2.在一个训练回合的每一步训练开始之前,从所述经验记忆库中随机批量选取m个经验数据组组成训练集,所述经验数据组的大小为2的整数次幂。
B3.所述智能体根据各经验数据组的当前环境状态stj,计算当前奖励函数值Rtj,输出并执行相关动作atj(stja);每一步动作执行后,得到下一环境状态stj+1,并将环境状态stj、动作atj(stja)、奖励函数值Rtj、下一环境状态stj+1作为一个经验数据组存储至所述经验记忆库中,其中j=1,2,3,…,m。
B4.更新所述智能体中深度神经网络的权值参数:所述Actor网络、Critic1和Critic2网络均采用小批量梯度下降法以神经网络反向传播方法,并基于深度强化学习TD3算法特有的延迟更新方式更新其网络权值参数θa和/>对应的目标网络Actor_Target网络、Critic1_Target和Critic2_Target网络均采用软更新方式更新其网络权值参数θa’和/>
B5.在每个训练回合中,当所述永磁同步风力发电机转速n(t)<0或n(t)>2nN,则结束该训练回合,然后计算最后k个训练回合的平均奖励函数值RE,进入步骤B6;否则判断该训练回合的步数是否达到最大步数N,如果未达到,则返回步骤B2进行下一步训练;如果达到,则结束该回合的训练,然后计算最后连续k个训练回合的平均奖励函数值RE,进入步骤B6。
B6.如果RE满足RE≥10N-D,则保存此时的智能体模型,并结束整个训练过程,其中D为训练过程中设置的裕量;否则,判断是否达到最大训练回合数M,如果达到,则结束整个训练过程,如未达到,返回步骤B2进入下一训练回合继续训练。
B7.将所述智能体输出的动作at(sta)进行量化操作,即:将at(sta)与量化因子σ相乘,得到所述外环转速跟踪控制器的输出为σ·at(sta)。
14)将训练好的所述智能体模型移植入所述机侧变流器的主控芯片,建立基于所述机侧变流器的主控芯片的实际转速跟踪控制系统,实现转速跟踪控制。
步骤2,采用零d轴电流控制策略和电流前馈解耦控制策略,设计所述机侧变流器的内环电流跟踪控制器,实现所述低风速永磁同步风力发电机电流跟踪控制,具体过程为:
21)将步骤1得到的所述外环转速跟踪控制器输出σ·at(sta)作为所述永磁同步风力发电机的定子电流q轴分量iq的参考值iq *,将之与其实际值iq作差输入第一PI控制器,所述第一PI控制器的输出与q轴前馈解耦补偿项-Rsiq-ωLdid+ωψf相加,得到所述永磁同步风力发电机的定子电压的q轴分量uq的参考值uq *;其中,Rs为所述永磁同步风力发电机的定子电阻,ω为所述永磁同步风力发电机的转子旋转角速度,ω=2πn(t),Ld是定子电感的d轴分量,ψf为所述永磁同步风力发电机的转子永磁体磁链;
22)令所述永磁同步风力发电机的定子电流的d轴分量id的参考值id *=0,并将之与其实际值id作差输入第二PI控制器,所述第二PI控制器与d轴前馈解耦补偿项-Rsid+ωLqiq相加,得到所述永磁同步风力发电机的定子电压的d轴分量ud的参考值ud *;其中,Lq是定子电感的q轴分量;
步骤3,将步骤2得到的所述永磁同步风力发电机的定子电压参考值ud *、uq *经dq/αβ坐标变换得到uα *、uβ *;然后,将uα *和uβ *经SVPWM模块调制后产生驱动信号,驱动所述机侧变流器的功率开关管,控制所述永磁同步风力发电机工作。
与现有技术相比,本发明的有益效果是:
1、本发明采用不依赖于数学模型的深度强化学习控制算法,能有效应对风速风向波动性以及风电机组自身结构参数变化及不确定对机组控制的影响,可大大提高风力发电机的转速跟踪控制的动态响应速度,减小转速超调,实现低风速永磁同步风力发电机的快速稳定控制;
2、可有效降低发电机定子侧电流谐波畸变率,抑制电磁转矩脉动,大幅减少风力发电机及其机侧变流器本身的功率损耗。
附图说明
图1为本发明永磁直驱风电机组拓扑结构示意图。
图2为深度强化学习控制原理示意图。
图3为深度强化学习TD3控制策略中智能体的训练过程示意图。
图4为基于深度强化学习TD3算法的永磁同步风力发电机控制训练流程图。
图5为本发明采用基于深度强化学习TD3算法的永磁同步风力发电机控制结构框图。
图6为采用传统的基于PI控制策略的永磁同步风力发电机控制结构框图。
图7为本发明与传统的基于PI控制策略下的转速对比仿真曲线图。
图8为本发明与传统的基于PI控制策略下的定子侧交流电流谐波对比图。
图9为本发明与传统的基于PI控制策略下的电磁转矩对比仿真曲线图。
图10为本发明永磁同步风力发电机输出功率曲线图。
图11为当本发明与传统的基于PI控制策略下的永磁同步风力发电机输出功率相同时,机侧变流器直流侧功率对比仿真曲线图。
其中,1-永磁同步风力发电机,2-机侧变流器,3-直流环节;4-网侧变流器;5-智能体;6-编码器;7-基于深度强化学习TD3的外环转速跟踪控制器;8-内环电流跟踪控制器;9-第一PI控制器;10-第二PI控制器;11-传统的基于PI控制策略的外环转速跟踪控制器。
具体实施方式
下面结合附图,对本发明作进一步详细说明。
如图1所示,本发明低风速永磁直驱风电机组包括永磁同步风力发电机1、机侧变流器2、直流环节3、网侧变流器4,机侧变流器2的一端与永磁同步风力发电机1的定子相连,另一端与直流环节3相连;直流环节3的另一端与网侧变流器4相连;网侧变流器4通过工频变压器与交流电网相连。
本发明一种基于深度强化学习的低风速永磁同步风力发电机控制方法,包括以下步骤:
步骤1,如图5所示,采用深度强化学习TD3算法,设计机侧变流器2的外环转速跟踪控制器7。具体过程是:
将能够反映低风速永磁同步风力发电机1的变量信息的部分定义为环境;将能够执行动作并控制永磁同步风力发电机1运行的部分定义为智能体5。图2所示为深度强化学习原理示意图,其主要过程是:智能体5根据环境状态st、奖励函数Rt输出动作at,动作at再作用于环境,从而实现环境最优,进而有效控制永磁同步风力发电机1的运行。
11)根据低风速永磁同步风力发电机的环境状态构建基于TD3算法的智能体5:
环境状态包括永磁同步风力发电机1的转速n(t)、转速偏差e(t)及其积分ve(t)dt,其中,e(t)=nr(t)-n(t),nr(t)为永磁同步风力发电机1的转速参考值,根据电网调度指令或永磁同步风力发电机1的功率-转速特性曲线获得;将环境状态记为st,则有st=[n(t),e(t),∫e(t)dt],其中,n(t)由编码器测算得到。
如图3所示,智能体5包括Actor深度神经网络结构和Critic深度神经网络结构,含有共计6个神经网络,具体为:
Actor深度神经网络结构由两个神经网络,即策略网络Actor网络及其目标网络Actor_Target网络组成。
Actor网络的输入是环境状态st,为了探索到更多状态,对Actor网络的输出添加探索噪声ε得到动作at(sta),其中θa为Actor网络的权值参数,探索噪声ε服从正态分布。
Actor_Target网络的输入是下一时刻的环境状态st+1,为使目标价值函数估计值更准确、鲁棒更强,对Actor_Target网络的输出添加策略噪声ε’得到下一时刻的动作估计值at+1(st+1a’),从而在一定概率控制下以动作at(sta)附近小范围内的动作来估算目标价值函数值,其中,θa’为Actor_Target网络的权值参数,策略噪声ε’服从正态分布。
设置探索噪声的方差衰减率ηe和策略噪声的方差衰减率ηp分别为1×10-4和2×10-4,以获得更加平滑、准确的动作输出。
Critic深度神经网络结构由两套用于价值函数估算的评价网络,共4个神经网络,即Critic1网络及其目标网络Critic1_Target网络和Critic2网络及其目标网络Critic2_Target网络组成。
Critic1网络和Critic2网络根据当前Actor网络的输入st和网络的输出动作at(s(t)|θa),分别输出价值函数和/>其中/>和/>分别为Critic1网络和Critic2网络的权值参数;Critic1_Target网络和Critic2_Target网络根据Actor_Target网络的输入st+1和网络的输出at+1(st+1a’),分别输出目标价值函数/>和/>其中/>和/>分别为Critic1_Target网络和Critic2_Target网络的权值参数。
12)设计奖励函数:
奖励函数包括:转速偏差奖励函数和转速奖励函数,具体为:
A1.转速偏差奖励函数r1(t)设计为:
转速偏差奖励函数是永磁同步风力发电机1转速跟踪控制中达到目标参考转速nr(t)的引导者。式(1)表明:当永磁同步风力发电机1的转速跟踪控制误差e(t)的绝对值小于0.1r/min时,给予+10的奖励;反之,当跟踪误差e(t)的绝对值大于等于0.1r/min时,给予-1的奖励(惩罚)。
A2.转速奖励函数r2(t)设计为:
式中,nN为永磁同步风力发电机1的额定转速。
转速奖励函数辅助智能体5做出正确决策。式(2)表明:当永磁同步风力发电机1的转速n(t)在正常转速工作范围内,即当转速n(t)介于0r/min~1.5nN之间时,不给予奖励也不给予惩罚;反之,当转速n(t)超出正常转速工作范围,即当永磁同步发电机1出现反转或其转速超出1.5nN时给予-100的奖励(惩罚)。
A3.根据步骤A1设计的转速偏差奖励函数r1(t)与步骤A2设计的转速奖励函数r2(t),构造奖励函数为:
13)如图3和图4所示,采用深度强化学习TD3算法对智能体5进行训练:
B1.创建智能体5与环境信息交互的接口,并设置智能体5训练的相关参数,包括:
初始化如图3中所示Actor网络、Critic1网络和Critic2网络的权值参数θa并将其分别复制给其对应的目标网络Actor_Target、Critic1_Target和Critic2_Target网络的权值参数,即:θa’←θa、/>
设置Actor网络的学习率α、Critic网络的学习率β;
为了减弱未来时刻奖励函数值对智能体5当前t时刻动作选择的累积影响,设置深度强化学习的折扣因子γ为0.9995;
设置训练的最大回合数M及每个训练回合中的最大步数N,即设置训练回合Episode个数的最大值为M,设置每个训练回合Episode的最大训练步数为N;
设置经验记忆库的大小为B,并随机初始化其中的经验数据组。
B2.在一个训练回合的每一步训练开始之前,从经验记忆库中随机批量选取m个经验数据组组成训练集,经验数据组的大小选为C。
B3.智能体5根据各经验数据组的当前环境状态stj,计算当前奖励函数值Rtj,输出并执行相关动作atj(stja);每一步动作执行后,得到下一环境状态stj+1,并将环境状态stj、动作atj(stja)、奖励函数值Rtj、下一环境状态stj+1作为一个经验数据组存储至经验记忆库中,以更新经验数据组,不断积累经验;其中j=1,2,3,…,m。
B4.更新智能体5中深度神经网络的权值参数:Actor网络、Critic1和Critic2网络均采用小批量梯度下降法以神经网络反向传播方法,并基于深度强化学习TD3算法特有的延迟更新方式更新网络权值θa和/>延迟更新体现为Critic网络的权值/>和/>每更新两次,Actor网络的权值θa更新一次,有利于稳定目标价值函数值,减少错误更新。因此,对应的神经网络权值的更新律可表示为:
式中,J(θa)是由价值函数和/>构造的损失函数;/>分别为用于Critic1和Critic2网络更新的均方差损失函数; 表示期望目标价值函数,其中γ为折扣因子。
为了保证训练过程的稳定性,对应的目标网络Actor_Target网络、Critic1_Target和Critic2_Target网络均采用软更新方式以低于Actor网络、Critic1和Critic2的网络权值θa和/>更新的频率更新网络权值θa’、/>和/>如每更新10次Actor网络、Critic1和Critic2网络,更新1次目标网络权值参数,目标网络权值的更新律可表示为:
式中,τ为Actor_Target网络、Critic1_Target网络和Critic2_Target网络参数的更新因子。
B5.在每个训练回合中,当永磁同步风力发电机1的转速n(t)<0或n(t)>2nN,则结束该训练回合(因为这种情况不符合永磁同步风力发电机1的实际工况),并计算最后连续k个训练回合的平均奖励函数值RE,即:
然后进入步骤B6;否则,判断该训练回合的步数是否达到最大步数N,如果未达到,则返回步骤B2进行下一步训练;如果达到,则结束该回合的训练,并按式(6)计算最后连续k个训练回合的平均奖励函数值RE,进入步骤B6。
B6.如果RE满足RE≥10N-D,则保存此时的智能体模型,并结束整个训练过程,其中D为训练过程中设置的裕量;否则,判断是否达到最大训练回合数M,如果达到,则结束整个训练过程;如未达到,返回步骤B2进入下一训练回合继续训练。
B7.将智能体5输出的动作at(sta)进行量化操作,即:将at(sta)与量化因子σ相乘,得到外环转速跟踪控制器7的输出为σ·at(sta)。
14)将训练好的智能体模型移植入机侧变流器2的主控芯片,建立基于机侧变流器2的主控芯片的实际转速跟踪控制系统,实现永磁同步风力发电机1的转速跟踪控制。
步骤2,如图5所示,采用零d轴电流控制策略和电流前馈解耦控制策略,设计机侧变流器2的内环电流跟踪控制器8,实现所述低风速永磁同步风力发电机电流跟踪控制,具体过程为:
21)将步骤1得到的外环转速跟踪控制器7的输出σ·at(sta)作为永磁同步风力发电机1的定子电流q轴分量iq的参考值iq *,将之与其实际值iq作差输入第一PI控制器9,第一PI控制器9的输出与q轴前馈解耦补偿项-Rsiq-ωLdid+ωψf相加,得到永磁同步风力发电机1的定子电压的q轴分量uq的参考值uq *;其中,Rs为永磁同步风力发电机1的定子电阻;ω为永磁同步风力发电机1的转子旋转角速度,ω=2πn(t),n(t)=ω/(2π)=ωe/(2πpn)=(2πpn)-1·(dθ/dt),pn为永磁同步风力发电机1的极对数,ωe为永磁同步风力发电机1的转子电角速度,θ为永磁同步风力发电机1的转子电角度,由编码器6测得;Ld是定子电感的d轴分量;ψf为永磁同步风力发电机1的转子永磁体磁链;
22)令永磁同步风力发电机1的定子电流的d轴分量id的参考值id *=0,并将之与其实际值id作差输入第二PI控制器10,第二PI控制器10与d轴前馈解耦补偿项-Rsid+ωLqiq相加,得到永磁同步风力发电机1的定子电压的d轴分量ud的参考值ud *;其中,Lq是定子电感的q轴分量;
步骤21)、22)中的前馈解耦补偿项的获取过程如下:
建立永磁同步风力发电机1的电压方程:
式中,Rs为永磁同步风力发电机1的定子电阻;ud、uq分别为永磁同步风力发电机1的定子电压的d轴和q轴分量;id、iq分别为永磁同步风力发电机1的定子电流d轴和q轴分量;ψf为永磁同步风力发电机1的转子永磁体磁链,Ld、Lq是定子电感的d轴和q轴分量;ω为永磁同步风力发电机1的转子旋转角速度,ω=2πn(t)。
由式(7)可知,永磁同步风力发电机1的定子电流dq轴分量id、iq相互耦合,具有非线性、强耦合特性。因此,为了消除与转速有关的耦合电势ωLqiq和ωLdid对控制效果的影响,采用电流前馈解耦方式对id、iq进行解耦控制,结合式(7),可得永磁同步风力发电机1的dq轴电流的控制律分别为:
式中,ud *、uq *分别为ud、uq的参考值;kpd、kid分别为第二PI控制器10的比例、积分参数,kpq、kiq分别为第一PI控制器9的比例、积分参数;id、iq由测得的永磁同步风力发电机1的定子电流ia、ib、ic经abc/dq坐标变换得到。
步骤3,将步骤2得到的永磁同步风力发电机1的定子电压参考值ud *、uq *经dq/αβ坐标变换得到uα *、uβ *;然后,将uα *和uβ *经SVPWM模块调制后产生驱动信号,驱动机侧变流器2的功率开关管,控制永磁同步风力发电机1工作。
下面用一个优选实施例对本发明做进一步说明。
为了验证本发明基于深度强化学习TD3控制策略的有效性,对永磁同步风力发电机1及其机侧变流器2采用本发明基于深度强化学习TD3的控制策略进行仿真实验,并与传统的基于PI控制策略的仿真实验结果进行对比分析。
如图6所示,传统的基于PI控制的永磁同步风力发电机的控制策略主要思路是:首先,将永磁同步风力发电机1的参考转速nr与其实际转速n之差送入基于PI控制的外环转速跟踪控制器11,并将控制器11的输出作为内环q轴电流跟踪控制的电流参考值iq *。然后,将此iq *与其实际值iq作差后送入第一PI控制器9,控制器9的输出即为uq *;与此同时,将d轴电流参考值id *=0与其实际值作差后送入第二PI控制器10,控制器10的输出即为ud *。最后,将ud *、uq *经dq/αβ坐标变换得到uα *、uβ *,uα *、uβ *经SVPWM模块调制后产生驱动信号,驱动机侧变流器2的功率开关管,从而控制永磁同步风力发电机1工作。
具体仿真参数如表1、表2、表3所示。
表1风力机相关参数
参数 数值
额定功率PN 1kW
额定风速vN 10m/s
启动风速v0 2.5m/s
风轮半径R 2m
空气密度ρ 1.225kg/m3
桨距角
表2永磁同步风力发电机相关参数
参数 数值
额定功率PN 1kW
额定转速nN 150r/min
极对数pn 20
定子侧d轴电感Ld 9mH
定子侧q轴电感Lq 9mH
永磁体磁链幅值|ψf| 0.7Wb
直流侧电压Udc 650V
定子侧额定磁链幅值|ψref| 0.7Wb
表3 TD3训练的相关参数
参数 数值
Actor网络的学习率α 1×10-3
Critic网络的学习率β 1×e-4
折扣因子γ 0.9995
训练的最大回合数M 500
每个训练回合中的最大步数N 2000
经验记忆库的大小B 2×106
经验数据组的大小C 29=512
训练过程中设置的裕量D 600
用于计算RE的训练回合数k 10
更新因子τ 0.005
量化因子σ 15
设置仿真时间为1s,初始风速为8m/s,0.5s时风速上升为额定风速10m/s。
如图7所示,图7a、图7b分别为本发明基于深度强化学习TD3控制和传统基于PI控制时的永磁同步风力发电机1的转速跟踪变化情况。由图7可知,采用传统PI控制方法时,在系统启动和风速变化阶段,转速存在较大的超调,而采用本发明基于深度强化学习TD3控制时,转速具有更快的动态响应,并且能够在短时间内达到稳定状态。
如图8所示,图8a、图8b分别为本发明基于深度强化学习TD3控制和传统基于PI控制时的永磁同步风力发电机1的定子侧交流电流谐波畸变率情况。由图8可知,本发明基于深度强化学习TD3控制的结果相比于传统基于PI控制的结果,能够将风力发电机定子侧交流电流谐波畸变率由2.74%降低到0.6%。
如图9所示,图9a、图9b分别为本发明基于深度强化学习TD3控制和传统基于PI控制时的永磁同步风力发电机1的电磁转矩变化情况。由图9可知,当采用传统基于PI控制方法,系统达到稳定时,电磁转矩波动约为1.8N·m,而采用本发明基于深度强化学习TD3控制时,电磁转矩波动在1N·m左右,电磁转矩脉动至少减小了0.8N·m。
图10为永磁同步风力发电机1的输出功率变化情况,由图10可知,当风速达到额定风速10m/s时,风力发电机1的输出功率达到1080W。
图11a、图11b分别为本发明基于深度强化学习TD3控制和传统基于PI控制时的机侧变流器2的直流侧功率变化情况。由图11可知,采用传统基于PI控制时,机侧变流器2的直流侧输出功率为708W,采用本发明深度强化学习TD3控制时,机侧变流器2的直流侧输出功率为975W。由此可见,本发明采用基于深度强化学习TD3控制方法可以降低机侧变流器2的功率损耗,能够将机侧变流器2的效率提升24.7%。
总之,本发明基于深度强化学习TD3控制的永磁同步风力发电机转速跟踪过程更加稳定,动态响应速度快,超调量小;而且能够抑制风力发电机的定子电流谐波畸变,减小电磁转矩的脉动,有效降低风力发电机及其机侧变流器本身的功率损耗。

Claims (1)

1.一种基于深度强化学习的低风速永磁同步风力发电机控制方法,所述永磁同步风力发电机的定子与机侧变流器相连;其特征在于,采用如下步骤:
步骤1,采用深度强化学习TD3算法,设计所述机侧变流器的外环转速跟踪控制器,具体过程是:
11)根据所述低风速永磁同步风力发电机的环境状态构建基于TD3算法的智能体:
所述环境状态包括所述永磁同步风力发电机的转速n(t)、所述转速的偏差e(t)及其积分∫e(t)dt,其中,e(t)=nr(t)-n(t),nr(t)为所述永磁同步风力发电机的转速参考值;将所述环境状态记为st,则有st=[n(t)e(t) ∫e(t)dt];
所述智能体包括Actor深度神经网络结构和Critic深度神经网络结构,含有共计6个神经网络,具体为:
所述Actor深度神经网络结构由策略网络Actor网络及其目标网络Actor_Target网络组成;
所述Actor网络的输入是环境状态st,对所述Actor网络的输出添加探索噪声ε后得到动作at(sta),其中,θa为所述Actor网络的权值参数,探索噪声ε服从正态分布;
所述Actor_Target网络的输入是下一时刻的环境状态st+1,对所述Actor_Target网络的输出添加策略噪声ε’得到下一时刻的动作估计值at+1(st+1a’),其中,θa’为所述Actor_Target网络的权值参数,策略噪声ε’服从正态分布;
设置所述探索噪声ε的方差衰减率ηe和所述策略噪声ε’的方差衰减率ηp,以获得更加平滑、准确的动作输出;
所述Critic深度神经网络结构由两套用于价值函数估算的评价网络组成,即Critic1网络及其目标网络Critic1_Target网络和Critic2网络及其目标网络Critic2_Target网络;
所述Critic1网络和所述Critic2网络根据当前所述Actor网络的输入st和动作at(sta),分别输出价值函数和/>其中/>和/>分别为所述Critic1网络和Critic2网络的权值参数;所述Critic1_Target网络和所述Critic2_Target网络根据所述Actor_Target网络的输入st+1和所述动作估计值at+1(st+1a’),分别输出目标价值函数和/>其中,/>和/>分别为所述Critic1_Target网络和所述Critic2_Target网络的权值参数;
12)设计奖励函数:
所述奖励函数包括:转速偏差奖励函数和转速奖励函数,具体为:
A1.转速偏差奖励函数r1(t)设计为:
A2.转速奖励函数r2(t)设计为:
式中,nN为所述永磁同步风力发电机的额定转速;
A3.根据步骤A1设计的转速偏差奖励函数r1(t)与步骤A2设计的转速奖励函数r2(t),构造奖励函数Rt为:
Rt=10(|e(t)<0.1r/min|)-1(e(t)≥0.1r/min)-100(n(t)<0||n(t)>1.5nN) (3)
13)采用深度强化学习TD3算法对所述智能体进行训练:
B1.创建所述智能体与环境信息交互的接口,并设置所述智能体训练的相关参数,包括:
初始化所述Actor网络、所述Critic1网络和所述Critic2网络的权值参数θa并将其分别复制给其对应的目标网络Actor_Target、Critic1_Target和Critic2_Target网络的权值参数,即:θa’←θa、/>
设置所述Actor网络的学习率α、所述Critic网络的学习率β;
设置深度强化学习的折扣因子γ;
设置训练的最大回合数M及每个训练回合中的最大步数N;
设置并初始化经验记忆库;
B2.在一个训练回合的每一步训练开始之前,从所述经验记忆库中随机批量选取m个经验数据组组成训练集,所述经验数据组的大小为2的整数次幂;
B3.所述智能体根据各经验数据组的当前环境状态stj,计算当前奖励函数值Rtj,输出并执行相关动作atj(stja);每一步动作执行后,得到下一环境状态stj+1,并将环境状态stj、动作atj(stja)、奖励函数值Rtj、下一环境状态stj+1作为一个经验数据组存储至所述经验记忆库中,其中j=1,2,3,…,m;
B4.更新所述智能体中深度神经网络的权值参数:所述Actor网络、Critic1和Critic2网络均采用小批量梯度下降法以神经网络反向传播方法,并基于深度强化学习TD3算法特有的延迟更新方式更新其网络权值参数θa和/>对应的目标网络Actor_Target网络、Critic1_Target和Critic2_Target网络均采用软更新方式更新其网络权值参数θa’、/>
B5.在每个训练回合中,当所述永磁同步风力发电机转速小于0或大于2nN,则结束该训练回合,然后计算最后k个训练回合的平均奖励函数值RE,进入步骤B6;否则判断该训练回合的步数是否达到最大步数N,如果未达到,则返回步骤B2进行下一步训练;如果达到,则结束该回合的训练,然后计算最后连续k个训练回合的平均奖励函数值RE,进入步骤B6;
B6.如果RE满足RE≥10N-D,其中D为训练过程中设置的裕量,则保存此时的智能体模型,并结束整个训练过程;否则,判断是否达到最大训练回合数M,如果达到,则结束整个训练过程,如未达到,则返回步骤B2进入下一训练回合继续训练;
B7.将所述智能体输出的动作at(sta)进行量化操作,即:将at(sta)与量化因子σ相乘,得到所述外环转速跟踪控制器的输出为σ·at(sta);
14)将训练好的所述智能体模型移植入所述机侧变流器的主控芯片,建立基于所述机侧变流器的主控芯片的实际转速跟踪控制系统,实现转速跟踪控制;
步骤2,采用零d轴电流控制策略和电流前馈解耦控制策略,设计所述机侧变流器的内环电流跟踪控制器,实现所述永磁同步风力发电机电流跟踪控制,具体过程为:
21)将步骤1得到的所述外环转速跟踪控制器输出σ·at(sta)作为所述永磁同步风力发电机的定子电流q轴分量iq的参考值iq *,将之与其实际值iq作差输入第一PI控制器,所述第一PI控制器的输出与q轴前馈解耦补偿项-Rsiq-ωLdid+ωψf相加,得到所述永磁同步风力发电机的定子电压的q轴分量uq的参考值uq *;其中,Rs为所述永磁同步风力发电机的定子电阻,ω为所述永磁同步风力发电机的转子旋转角速度,ω=2πn(t),Ld是定子电感的d轴分量,ψf为所述永磁同步风力发电机的转子永磁体磁链;
22)令所述永磁同步风力发电机的定子电流的d轴分量id的参考值id *=0,并将之与其实际值id作差输入第二PI控制器,所述第二PI控制器与d轴前馈解耦补偿项-Rsid+ωLqiq相加,得到所述永磁同步风力发电机的定子电压的d轴分量ud的参考值ud *;其中,Lq是定子电感的q轴分量;
步骤3,将步骤2得到的所述永磁同步风力发电机的定子电压参考值ud *、uq *经dq/αβ坐标变换得到uα *、uβ *;然后,将uα *和uβ *经SVPWM模块调制后产生驱动信号,驱动所述机侧变流器的功率开关管,控制所述永磁同步风力发电机工作。
CN202211367284.9A 2022-11-02 2022-11-02 一种基于深度强化学习的低风速永磁同步风力发电机控制方法 Active CN115903457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211367284.9A CN115903457B (zh) 2022-11-02 2022-11-02 一种基于深度强化学习的低风速永磁同步风力发电机控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211367284.9A CN115903457B (zh) 2022-11-02 2022-11-02 一种基于深度强化学习的低风速永磁同步风力发电机控制方法

Publications (2)

Publication Number Publication Date
CN115903457A CN115903457A (zh) 2023-04-04
CN115903457B true CN115903457B (zh) 2023-09-08

Family

ID=86471774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211367284.9A Active CN115903457B (zh) 2022-11-02 2022-11-02 一种基于深度强化学习的低风速永磁同步风力发电机控制方法

Country Status (1)

Country Link
CN (1) CN115903457B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117318553B (zh) * 2023-09-29 2024-03-26 曲阜师范大学 基于td3和维也纳整流器的低风速永磁直驱风电机组控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048903A (zh) * 2021-11-11 2022-02-15 天津大学 一种基于深度强化学习的电网安全运行策略智能优化方法
WO2022052406A1 (zh) * 2020-09-08 2022-03-17 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
WO2022088798A1 (zh) * 2020-10-29 2022-05-05 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN114725936A (zh) * 2022-04-21 2022-07-08 电子科技大学 基于多智能体深度强化学习的配电网优化方法
CN114784823A (zh) * 2022-04-15 2022-07-22 华中科技大学 基于深度确定性策略梯度的微电网频率控制方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022052406A1 (zh) * 2020-09-08 2022-03-17 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
WO2022088798A1 (zh) * 2020-10-29 2022-05-05 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN114048903A (zh) * 2021-11-11 2022-02-15 天津大学 一种基于深度强化学习的电网安全运行策略智能优化方法
CN114784823A (zh) * 2022-04-15 2022-07-22 华中科技大学 基于深度确定性策略梯度的微电网频率控制方法及系统
CN114725936A (zh) * 2022-04-21 2022-07-08 电子科技大学 基于多智能体深度强化学习的配电网优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于改进深度确定性梯度算法的 AGC 发电功率指令分配方法》;李嘉文 等;《中国电机工程学报》;第41卷(第21期);第1-15页 *

Also Published As

Publication number Publication date
CN115903457A (zh) 2023-04-04

Similar Documents

Publication Publication Date Title
CN105179164B (zh) 基于t-s模糊模型的风能转换系统滑模控制方法及装置
CN112187074B (zh) 一种基于深度强化学习的逆变器控制器
WO2024021206A1 (zh) 一种基于构网型变流器的储能系统控制方法、系统、存储介质及设备
Lin et al. Fuzzy neural network output maximization control for sensorless wind energy conversion system
Sami et al. Sensorless fractional order composite sliding mode control design for wind generation system
CN110880774B (zh) 一种自适应调整逆变器控制器
CN110112971B (zh) 一种基于有限时间动态面的异步电动机位置跟踪控制方法
CN115903457B (zh) 一种基于深度强化学习的低风速永磁同步风力发电机控制方法
Lin et al. Hybrid control of a wind induction generator based on Grey–Elman neural network
WO2018145498A1 (zh) 基于强化学习算法的双馈感应风力发电机自校正控制方法
CN112448399B (zh) 基于模拟电感的双馈风电场次同步振荡的抑制方法
CN109599889B (zh) 基于模糊自抗扰的不平衡电压下的穿越控制方法、系统
Chatri et al. Integral-type terminal sliding mode control approach for wind energy conversion system with uncertainties
CN110572097A (zh) 基于模糊pid控制的同步发电机励磁系统和调压方法
CN113469332A (zh) 基于模糊神经的虚拟同步发电机惯量阻尼自适应控制方法
CN117318553B (zh) 基于td3和维也纳整流器的低风速永磁直驱风电机组控制方法
Chatri et al. Improved high-order integral fast terminal sliding mode-based disturbance-observer for the tracking problem of PMSG in WECS
Mansouri et al. Genetic algorithm optimized robust nonlinear observer for a wind turbine system based on permanent magnet synchronous generator
CN113691176B (zh) 一种基于神经网络直接转矩控制的永磁直驱风电机组控制方法
CN104234934B (zh) 一种风力发电机转速控制方法
CN117060484A (zh) 一种基于风储联合调频系统的改进自适应控制方法
Elshafei et al. Adaptive fuzzy regulation of the DC-bus capacitor voltage in a wind energy conversion system (WECS)
Ouyang et al. Simulation and study of maximum power point tracking for rim-driven tidal current energy power generation systems
CN115133549A (zh) 基于深度强化学习的风电机组电网惯量支撑方法
CN112989507A (zh) 一种水轮机调速器参数优化方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant