CN106877766A - 基于强化学习算法的双馈感应风力发电机自校正控制方法 - Google Patents

基于强化学习算法的双馈感应风力发电机自校正控制方法 Download PDF

Info

Publication number
CN106877766A
CN106877766A CN201710073833.4A CN201710073833A CN106877766A CN 106877766 A CN106877766 A CN 106877766A CN 201710073833 A CN201710073833 A CN 201710073833A CN 106877766 A CN106877766 A CN 106877766A
Authority
CN
China
Prior art keywords
controller
value
action
stator
rotor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710073833.4A
Other languages
English (en)
Inventor
余涛
程乐峰
李靖
王克英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710073833.4A priority Critical patent/CN106877766A/zh
Publication of CN106877766A publication Critical patent/CN106877766A/zh
Priority to PCT/CN2017/110899 priority patent/WO2018145498A1/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P21/00Arrangements or methods for the control of electric machines by vector control, e.g. by control of field orientation
    • H02P21/14Estimation or adaptation of machine parameters, e.g. flux, current or voltage

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Control Of Eletrric Generators (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了基于强化学习算法的双馈感应风力发电机自校正控制方法;该方法在基于PI控制的矢量控制系统中的PI控制器上增加RL控制器,动态校正PI控制器的输出,RL控制器包括RL‐P控制器和RL‐Q控制器,RL‐P控制器和RL‐Q控制器分别对有功和无功功率控制信号校正。该方法引入Q学习算法作为强化学习核心算法,强化学习控制算法对被控对象的数学模型和运行状态不敏感,其学习能力对参数变化或外部干扰具有较强的自适应性和鲁棒性,可快速自动地在线优化PI控制器的输出;本发明具有良好的动态性能,显著增强了控制系统的鲁棒性和适应性。

Description

基于强化学习算法的双馈感应风力发电机自校正控制方法
技术领域
本发明涉及一种双馈感应风力发电机自校正控制,特别是涉及一种基于强化学习(Reinforcement Learning,RL)算法的双馈感应风力发电机自校正控制方法。
背景技术
变速恒频双馈发电是目前风力发电普遍采用的一种发电方式,其发电机采用双馈感应电机(double-fed induction generator,DFIG)。当机组工作在额定风速以下时,通过调节发电机转子转速,保持最佳叶尖速比,实现对风能的最大捕获。其控制系统常采用基于定子磁场定向的矢量控制,实现发电机有功、无功功率的解耦控制。
由于风能具有强烈的随机性、时变性,且系统含有未建模或无法准确建模的动态部分,使双馈发电系统成为一个多变量、非线性、强耦合系统,因此仅采用传统矢量控制难以满足控制系统对高适应性和高鲁棒性的要求。目前有采用各种不同的控制方案,但控制效果都不是非常理想,如采用神经网络控制方案,该控制方案改善了控制性能,但稳态误差较大。而采用模糊滑模控制策略,将模糊控制和滑模控制相结合,虽取得了良好的控制效果,但实现较复杂。
发明内容
本发明目的在于克服现有技术的问题,提供一种能够快速自动地优化风机控制系统的输出,不仅实现了对风能的最大追踪,而且具有良好的动态性能,显著增强了控制系统的鲁棒性和适应性的基于强化学习算法的双馈感应风力发电机自校正控制方法。
本发明目的通过如下技术方案实现:
基于强化学习算法的双馈感应风力发电机自校正控制方法:在基于PI控制的矢量控制系统中的PI控制器上增加RL控制器,动态校正PI控制器的输出,RL控制器包括RL-P控制器和RL-Q控制器,RL-P控制器和RL-Q控制器分别对有功和无功功率控制信号校正;该自校正控制方法包括如下步骤:
S1:RL-P控制器和RL-Q控制器分别采样有功功率误差值ΔP和无功功率误差值ΔQ;RL-P控制器和RL-Q控制器分别判断功率误差值ΔP和ΔQ所属区间sk
S2:对于所识别的区间sk,RL-P控制器或RL-Q控制器根据该sk所对应的动作概率分布用随机函数输出动作αk,得RL-P控制器或RL-Q控制器输出的校正信号;动作α相应的被选择的概率的集合构成概率分布,每个区间s有其对应的概率分布Ps(a);
对于RL-P控制器,动作值αk与PI控制器的输出信号用加法器相加得到定子q轴电流的给定值iqs *,即有功功率的控制信号;
对于RL-Q控制器,动作值αk与PI控制器的输出信号用加法器相加得到定子d轴电流的给定值ids *,即无功功率的控制信号;
S3:RL-P控制器和RL-Q控制器分别采样有功功率误差值ΔP和无功功率误差值ΔQ并判断其所属区间sk+1
S4:RL控制器由奖励函数获得立即奖励值rk;奖励函数设计为:
式中值是动作集A的指针,即第k次动作值α在动作集A中的序号,μ1和μ2为平衡前后各平方项的权重值,其数值均为通过大量仿真实验调试所得;
S5:基于Q值迭代公式更新Q矩阵;Q函数为一种期望折扣奖励值,Q学习的目的是估计最优控制策略的Q值,设Qk为最优值函数Q*的第k次迭代值,Q值迭代公式设计为:
式中α、γ为折扣因子,其数值均为通过大量仿真实验调试所得;
S6:根据动作选择策略更新公式更新动作概率分布;利用一种追踪算法设计动作选择策略,策略基于概率分布,初始化时,赋予各状态下每个可行动作相等的被选概率,随着迭代的进行,概率随Q值表格的变化而变化;RL控制器找出状态sk下具有最高Q值的动作ag,ag称为贪婪动作;动作概率分布的迭代公式为:
分别为第k次迭代时sk状态和非sk状态下选择动作a的概率;β为动作搜索速度,其数值通过大量仿真实验调试所得;
S7:令k=k+1,并返回步骤S2;根据动作概率分布选择并输出动作αk+1,被选择的动作与PI控制器的输出信号相叠加产生相应的定子电流给定值信号,即功率控制信号,并按顺序依次执行接下来的步骤不断循环,在经过多次的迭代后,每个状态s存在Qs k以概率1收敛于Qs *,即获得一个以Qs *表示的最优控制策略以及该最优控制策略所对应的贪婪动作ag,至此完成自校正过程,此时每个状态s下RL控制器输出值ag与PI控制器的输出信号叠加即可自动优化PI控制器的控制性能,使功率误差值误差值小。
本发明提出一种自校正控制架构,即基于PI控制的矢量控制系统中的PI控制器上附加一个RL控制器,来动态校正PI控制器的输出,其中RL-P和RL-Q控制器分别对有功和无功功率控制信号校正。
相对于现有技术,本发明具有如下优点:
1)本发明提出一种基于强化学习算法的双馈感应风力发电机自校正控制方法,该方法引入强化学习控制算法,对被控对象的数学模型和运行状态不敏感,其自学习能力对参数变化或外部干扰具有较强的自适应性和鲁棒性。该方法通过Matlab/Simulink仿真平台进行仿真,仿真结果表明该自校正控制器能够快速自动地优化风机控制系统的输出,不仅实现了对风能的最大追踪,而且具有良好的动态性能,显著增强了控制系统的鲁棒性和适应性。
2)本发明控制策略无需改变原PI控制器的结构和参数,只需增加一个自校正模块,工程实现十分简便。同时,由于RL控制器的控制信号为离散动作值,易导致超调,后续研究中可考虑结合模糊控制对输入输出信号模糊化。
附图说明
图1为本发明强化学习系统原理图;
图2为本发明双馈风力发电系统自校正控制框图;
图3为基于强化学习算法的双馈感应风力发电机自校正学习流程图;
图4为实施例中无功功率调节的无功功率响应曲线;
图5为实施例中无功功率调节的RL-Q控制器控制信号;
图6为实施例中无功功率调节的有功功率曲线;
图7为实施例中有功功率调节的有功功率响应曲线;
图8为实施例中有功功率调节的RL-P控制器控制信号;
图9为实施例中有功功率调节的无功功率曲线;
图10为实施例中扰动分析过程参数变化时的有功功率曲线;
图11为实施例中扰动分析过程参数变化时的无功功率曲线;
图12为实施例中扰动分析过程参数变化时的RL-P控制器控制信号;
图13为实施例中扰动分析过程参数变化时的RL-Q控制器控制信号。
具体实施方式
为更好地理解本发明,下面结合附图和实施例对本发明作进一步的说明,但本发明的实施方式不限如此。
针对双馈感应风力发电系统结构复杂,受参数变化和外部干扰较显著,具有非线性、时变、强耦合的特点,若仅采用传统矢量控制则难以满足控制系统对高适应性和高鲁棒性的要求。
本发明在传统矢量控制的基础上,提出一种基于强化学习(RL)算法的双馈感应风力发电机自校正控制方法,该方法引入Q学习算法,并作为强化学习核心算法,可快速自动地在线优化PI控制器的输出,在引入强化学习自校正控制后,保持了原系统最大风能捕获的能力,同时改善了其动态性能,增强了鲁棒性和自适应性。
第一,双馈感应风力发电系统在定子磁链定向下的基于PI控制的矢量控制系统设计。
当定子取发电机惯例,转子取电动机惯例时,三相对称系统中具有均匀气隙的双馈感应发电机在两相同步旋转dq坐标系下的数学模型为:
定子电压方程
转子电压方程
定子磁链方程
转子磁链方程
电磁转矩方程
定子功率输出方程
公式(1)~(6)中:下标d和q分别表示d轴和q轴分量;下标s和r分别表示定子和转子分量;U、i、ψ、Te、P、Q分别表示电压、电流、磁链、电磁转矩、有功和无功功率;R、L分别表示电阻和电感;ω1为同步转速;ωs为转差电角速度,ωs=ω1r=sω1;ωr为发电机转子电角速度,s为转差率;np为极对数;p为微分算子。
采用定子磁链定向矢量控制,将定子磁链矢量定向于d轴上,有ψds=ψs,ψqs=0。稳态运行时,定子磁链保持恒定,忽略定子绕组电阻压降,则Uds=0,Uqs=ω1ψs=Us,Us为定子电压矢量幅值。
由式(6)得
在该式中各变量含义如下:P:有功功率;Q:无功功率;Uqs:定子电压矢量的q轴分量;Iqs:定子电流矢量的q轴分量;Us:定子电压矢量幅值;ids:定子电流的d轴分量。从式公式(7)可得定子电流控制功率的传递函数。
由公式(3)得:
在该公式中,各变量含义如下:idr:转子电流的d轴分量;iqr:转子电流的q轴分量;Ls:定子电感;Lm:定子与转子间的互感;ids:定子电流的d轴分量;iqs:定子电流的q轴分量;ψs:定子磁链矢量幅值;
由公式(4)得
在该公式中,各变量含义如下,ψdr:转子磁链矢量的d轴分量;ψqr:转子磁链矢量的q轴分量;ψs:定子磁链矢量幅值;Lm:定子与转子间的互感;Ls:定子电感;Lr:转子电感;idr:转子电流的d轴分量;iqr:转子电流的q轴分量;
再由公式(2)得
在该公式中,各变量含义如下,udr:转子电压的d轴分量;uqr:转子电压的q轴分量;idr:转子电流的d轴分量;iqr:转子电流的q轴分量;ψs:定子磁链矢量幅值;Rr:转子电阻;p:微分算子;ωs:转差电角速度。从公式(8)(9)(10)可得到由转子电压控制定子电流的传递函数。
根据上述公式(7)~(10)可设计出双馈感应风力发电系统在定子磁链定向下的基于PI控制的矢量控制系统。本发明自校正控制方法即在上述所设计系统中的PI控制器的基础上附加一个RL控制器,用两控制器的输出信号的叠加值作为功率的控制信号。
第二,基于强化学习的自校正控制器设计。
强化学习(简称为RL)算法是系统从环境状态到动作映射的学习,是一种试探评价的学习过程。可用附图1来描述。Agent根据学习算法选择一个动作作用于环境(即系统),引起环境状态s的变化,环境再反馈一个立即强化信号(奖或罚)给Agent,Agent根据强化信号及环境的新状态s′再选择下一个动作。RL的学习原则是:若Agent的某个决策行为(动作)使强化信号得到改善,就使以后产生这个决策行为的趋势加强。近年来,RL理论在电力系统中诸于调度、无功优化和电力市场等领域的应用研究成果显著。
如图1所示,图1为强化学习系统原理图。根据图1,Q学习算法是一种从长期的观点通过试错与环境交互来改进控制策略的强化学习算法,其显著特点之一是对象模型的无关性。
Q学习的目的是去估计最优控制策略的Q值。设Qk表示最优值函数Q*的第k次迭代值,Q值按迭代公式(11)更新:
动作选择策略是Q学习控制算法的关键。定义Agent在状态s下选择具有最高Q值的动作称为贪婪策略p*,其动作称为贪婪动作。
若Agent每次迭代都选取Q值最高的动作,会导致收敛于局部最优,因为总是执行相同的动作链而未搜索其他动作。为避免这种情况,本发明利用一种追踪算法来设计动作选择策略。该算法基于概率分布,初始化时,赋予各状态下每个可行动作相等的被选概率,随着迭代的进行,概率随Q值表格的变化而变化,更新公式如下:
式中:分别为第k次迭代时sk状态和非sk状态下选择动作a的概率;ag为贪婪动作;β为动作搜索速度。由式(13)可看出,具有较高Q值的动作被选择的概率较大,对应环境某一具体的状态,贪婪动作的被选概率随着该状态的复现而不断变大,在经过足够多数的迭代后,Qk将会以概率1收敛于Q*,也即获得一个以Q*表示的最优控制策略。
基于此,自校正控制器的结构设计描述如下。以固定增益的PI控制器构建的现有双馈感应风机控制系统,当系统工况改变时,控制性能会下降。本发明提出一种自校正控制架构,如图2所示为双馈风力发电系统自校正控制框图。在原PI控制器的基础上附加一个RL控制器,来动态校正PI控制器的输出,RL控制器包括RL-P控制器和RL-Q控制器,其中RL-P控制器和RL-Q控制器分别对有功和无功功率控制信号校正。RL-P控制器的输入值为有功功率误差值ΔP,通过Q学习算法所得动作概率分布选择并输出动作αk,该动作αk与PI控制器的输出信号用加法器相加得到定子q轴电流的给定值iqs *,即有功功率的控制信号;RL-Q控制器的输入值为无功功率误差值ΔQ,通过Q学习算法所得动作概率分布选择并输出动作αk,该动作αk与PI控制器的输出信号用加法器相加得到定子d轴电流的给定值ids *,即无功功率的控制信号。RL控制器在运行过程一直处于在线学习状态,被控量一旦偏离控制目标(比如参数变化或外部扰动所致),便自动调整控制策略,从而增加原控制系统的自适应和自学习能力。
自校正控制器的核心控制算法流程如附图3所示,其描述如下:
S1:RL-P控制器和RL-Q控制器分别采样有功功率误差值ΔP和无功功率误差值ΔQ。RL-P控制器和RL-Q控制器分别判断功率误差值ΔP和ΔQ所属区间sk,功率误差值划分为(-∞,-0.1)、[-0.1,-0.06)、[-0.06,-0.03)、[-0.03,-0.02)、[-0.02,-0.005)、[-0.005,0.005]、(0.005,0.02]、(0.02,0.03]、(0.03,0.06]、(0.06,0.1]、(0.1,+∞)11个不同区间s,构成状态集合S;
S2:对于所识别的区间sk,RL-P控制器或RL-Q控制器根据该sk所对应的动作概率分布用随机函数输出动作αk,得RL-P控制器或RL-Q控制器输出的校正信号;动作αk在每个s下总共有11种选择,构成动作空间A,11种选择分别是[0.06,0.04,0.03,0.02,0.01,0,-0.01,-0.02,-0.03,-0.04,-0.06],在同一个区间s下每个动作α有相应的被选择的概率,11个动作α相应的被选择的概率的集合构成了所述的概率分布Ps(a),每个区间s有其对应的概率分布Ps(a);对于RL-P控制器,动作值αk与PI控制器的输出信号用加法器相加得到定子q轴电流的给定值iqs *,即有功功率的控制信号;对于RL-Q控制器,动作值αk与PI控制器的输出信号用加法器相加得到定子d轴电流的给定值ids *,即无功功率的控制信号。
S3:RL-P控制器和RL-Q控制器分别采样有功功率误差值ΔP和无功功率误差值ΔQ并判断其所属区间sk+1
S4:RL控制器由奖励函数获得立即奖励值rk;奖励函数设计为:式中值是动作集A的指针,即第k次动作值α在动作集A中的序号,μ1和μ2为平衡前后各平方项的权重值,其数值均为通过大量仿真实验调试所得;奖励函数取负值能使控制目标功率误差值尽可能小;
S5:基于Q值迭代公式更新Q矩阵;Q函数为一种期望折扣奖励值,Q学习的目的是估计最优控制策略的Q值,设Qk为最优值函数Q*的第k次迭代值,Q值迭代公式设计为:
式中α、γ为折扣因子,其数值均为通过大量仿真实验调试所得。步骤S4中功率误差值越小,rk值越大,Qk+1(sk,ak)值越大;
S6:根据动作选择策略更新公式更新动作概率分布;若智能体Agent每次迭代都选取Q值最高的动作,会导致收敛于局部最优,因此总是执行相同的动作链而未搜索其他动作,为避免这种情况的发生,本发明利用一种追踪算法设计动作选择策略,策略基于概率分布,初始化时,赋予各状态下每个可行动作相等的被选概率,随着迭代的进行,概率随Q值表格的变化而变化;RL控制器找出状态sk下具有最高Q值的动作ag,ag称为贪婪动作;动作概率分布的迭代公式为:
分别为第k次迭代时sk状态和非sk状态下选择动作a的概率;β为动作搜索速度,其数值通过大量仿真实验调试所得。
由功率分布迭代公式可知,具有较高Q值的动作即能使功率误差值较小的动作被选择的概率较大,对应环境某一具体的状态s,贪婪动作的被选概率随着该状态的复现而不断变大并趋近于1;
S7:令k=k+1,并返回步骤S2;根据动作概率分布选择并输出动作αk+1,被选择的动作与PI控制器的输出信号相叠加产生相应的定子电流给定值信号,即功率控制信号。并按顺序依次执行接下来的步骤不断循环。在经过足够多数的迭代后,每个状态s存在Qs k以概率1收敛于Qs *,也即获得一个以Qs *表示的最优控制策略以及该最优控制策略所对应的贪婪动作ag,至此完成自校正过程,此时每个状态s下RL控制器输出值ag与PI控制器的输出信号叠加即可自动优化PI控制器的控制性能,使功率误差值误差值尽可能小。
在迭代前需对Q矩阵以及概率分布进行初始化。Q矩阵每个元素的初值为0,即令令各状态下每个可行动作相等的被选概率,即令
根据前面的描述,本发明提供了一种基于强化学习算法的双馈感应风力发电机自校正控制方法,该方法在引入强化学习自校正控制后,无需改变原PI控制器的结构和参数,工程实现十分简便,保持了原系统最大风能捕获的能力,同时改善了其动态性能,增强了鲁棒性和自适应性。
实施例
针对双馈感应风力发电机,验证本发明所设计的控制器的正确性和有效性。
双馈感应风力发电机选择如下参数进行仿真验证:双馈风力发电机额定功率为P=9MW(=6*1.5MW),Rs=0.007pu,Rr=0.005pu,Ls=3.071pu,Lr=3.056pu,Lm=2.9pu,np=3,这些参数可以代入到上面的公式(1)~(10)中进行计算双馈风力发电机相应的参数。两PI控制器的参数为:比例增益:Kp=6.9;积分增益:Ki=408,RL-P控制器的参数为:权重值μ1=0.001,折扣因子α=0.6,γ=0.001,动作搜索速度β=0.9;RL-Q控制器的参数为:权重值μ2=0.001,折扣因子α=0.6,γ=0.001,动作搜索速度β=0.9。
(1)无功功率调节
应用本发明提供的算法来控制双馈风力发电机的无功功率调节过程,该调节过程中,无功功率初始给定为0.9Mvar,1s时降为0var,2s后再次上升0.9Mvar,3s时仿真结束。仿真期间,保持风速为10m/s不变,无功功率调节过程中无功功率响应曲线由图4给出,该图中,基于强化学习算法的自校正控制动态性能优于传统矢量控制。图5为强化学习控制器基于无功功率偏差输出的校正控制信号,图6为无功功率调节过程中有功功率曲线图,从图6可看出,在无功功率调节过程中,有功功率始终保持不变,很好地实现了解耦。
(2)有功功率调节
应用本发明提供的算法来控制双馈风力发电机的有功功率调节过程,该调节过程中,风速初始给定为10m/s,2s时上升为11m/s,30s时仿真结束。仿真期间,设定无功功率为0var不变,有功功率调节过程系统响应仿真结果如下图所示。图7给出了有功功率调节过程中的有功功率响应曲线,从该图可看出基于强化学习算法的自校正控制和传统矢量控制有功功率响应曲线基本重合,这是因为基于最大风能捕获原理,当风速突变时,有功功率参考值不突变而是按照最佳功率曲线变化,功率偏差始终很小,未达到强化学习设定最小动作值的状态,故强化学习控制器输出控制信号为0,从而两条曲线重合。图8为有功功率调节过程中的RL-P控制器控制信号,而图9为有功功率调节过程中的无功功率曲线,从图9可看出,在有功功率调节过程中,无功功率不受影响,实现了解耦。
(3)扰动分析
应用本发明提供的算法对双馈风力发电机控制过程中的扰动进行分析,为考察系统对电机参数变化的鲁棒性,假设风速为10m/s不变,在t=2s时b增大一倍。图10、图11、图12和图13分别给出了参数变化后参数变化时动态响应图,相同条件下传统矢量控制与基于强化学习算法的自校正控制的动态响应下的有功功率曲线、无功功率曲线、RL-P控制器控制信号和RL-Q控制器控制信号。由图12和图13可看出,当参数变化导致有功和无功功率与参考值出现偏差后,强化学习控制器根据偏差值立即输出校正控制信号,来补偿参数变化的影响。由图10和图11可看出,采用自校正控制,超调较小,改善了动态品质,提高了控制性能。
本发明提供一种基于强化学习算法的双馈感应风力发电机自校正控制方法,算法控制对象为双馈风力发电系统,该系统具有多变量、非线性、受参数变化和外部干扰显著的特点。利用强化学习算法具有的在线自学习能力和模型无关性特点,本发明设计了风机自校正控制器,可有效提高其控制系统的鲁棒性和自适应性。此外,该控制策略无需改变原PI控制器的结构和参数,只需增加一个自校正模块,工程实现十分简便。同时,由于RL控制器的控制信号为离散动作值,易导致超调,后续研究中可考虑结合模糊控制对输入输出信号模糊化。
本发明提供了一种基于强化学习算法的双馈感应风力发电机自校正控制方法,该方法引入Q学习算法作为强化学习核心算法,强化学习控制算法对被控对象的数学模型和运行状态不敏感,其学习能力对参数变化或外部干扰具有较强的自适应性和鲁棒性,可快速自动地在线优化PI控制器的输出,基于MATLAB/Simulink环境,在风速低于额定风速时对系统进行仿真,结果表明该方法在进入强化学习自校正控制后,能够快速自动地优化风机控制系统的输出,不仅实现了对风能的最大追踪,而且具有良好的动态性能,显著增强了控制系统的鲁棒性和适应性。
以上所述实施例仅表达了本发明的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (5)

1.基于强化学习算法的双馈感应风力发电机自校正控制方法,其特征在于,在基于PI控制的矢量控制系统中的PI控制器上增加RL控制器,动态校正PI控制器的输出,RL控制器包括RL-P控制器和RL-Q控制器,RL-P控制器和RL-Q控制器分别对有功和无功功率控制信号校正;该自校正控制方法包括如下步骤:
S1:RL-P控制器和RL-Q控制器分别采样有功功率误差值ΔP和无功功率误差值ΔQ;RL-P控制器和RL-Q控制器分别判断功率误差值ΔP和ΔQ所属区间sk
S2:对于所识别的区间sk,RL-P控制器或RL-Q控制器根据该sk所对应的动作概率分布用随机函数输出动作αk,得RL-P控制器或RL-Q控制器输出的校正信号;对于动作α相应的被选择的概率的集合构成概率分布,每个区间s有其对应的概率分布Ps(a);
对于RL-P控制器,动作值αk与PI控制器的输出信号用加法器相加得到定子q轴电流的给定值iqs *,即有功功率的控制信号;
对于RL-Q控制器,动作值αk与PI控制器的输出信号用加法器相加得到定子d轴电流的给定值ids *,即无功功率的控制信号;
S3:RL-P控制器和RL-Q控制器分别采样有功功率误差值ΔP和无功功率误差值ΔQ并判断其所属区间sk+1
S4:RL控制器由奖励函数获得立即奖励值rk;奖励函数设计为:
式中值是动作集A的指针,该指针为第k次动作值α在动作集A中的序号,μ1和μ2为平衡前后各平方项的权重值,其数值均为通过大量仿真实验调试所得;
S5:基于Q值迭代公式更新Q矩阵;Q函数为一种期望折扣奖励值,Q学习的目的是估计最优控制策略的Q值,设Qk为最优值函数Q*的第k次迭代值,Q值迭代公式设计为:
Q k + 1 ( s k , a k ) = Q k ( s k , a k ) + α [ r k + γ max a ′ ∈ A Q k ( s k + 1 , a ′ ) - Q k ( s k , a k ) ]
式中α、γ为折扣因子,其数值均为通过大量仿真实验调试所得;
S6:根据动作选择策略更新公式更新动作概率分布;利用一种追踪算法设计动作选择策略,策略基于概率分布,初始化时,赋予各状态下每个可行动作相等的被选概率,随着迭代的进行,概率随Q值表格的变化而变化;RL控制器找出状态sk下具有最高Q值的动作ag,ag称为贪婪动作;动作概率分布的迭代公式为:
P s k k + 1 ( a g ) = P s k k ( a g ) + β ( 1 - P s k k ( a g ) ) P s k k + 1 ( a ) = P s k k ( a ) ( 1 - β ) ∀ a ∈ A , a ≠ a g P s k ~ k + 1 ( a ) = P s k ~ k ( a ) ∀ a ∈ A , ∀ s k ~ ∈ S , s k ~ ≠ s k
分别为第k次迭代时sk状态和非sk状态下选择动作a的概率;β为动作搜索速度,其数值通过大量仿真实验调试所得;
S7:令k=k+1,并返回步骤S2;根据动作概率分布选择并输出动作αk+1,被选择的动作与PI控制器的输出信号相叠加产生相应的定子电流给定值信号,即功率控制信号,并按顺序依次执行接下来的步骤不断循环,在经过多次的迭代后,每个状态s存在Qs k以概率1收敛于Qs *,即获得一个以Qs *表示的最优控制策略以及该最优控制策略所对应的贪婪动作ag,至此完成自校正过程,此时每个状态s下RL控制器输出值ag与PI控制器的输出信号叠加,即可自动优化PI控制器的控制性能,使功率误差值小。
2.根据权利要求1所述的基于强化学习算法的双馈感应风力发电机自校正控制方法,其特征在于,所述功率误差值ΔP和ΔQ所属区间sk根据功率误差值划分为(-∞,-0.1)、[-0.1,-0.06)、[-0.06,-0.03)、[-0.03,-0.02)、[-0.02,-0.005)、[-0.005,0.005]、(0.005,0.02]、(0.02,0.03]、(0.03,0.06]、(0.06,0.1]、(0.1,+∞)11个不同区间,构成状态集合S。
3.根据权利要求2所述的基于强化学习算法的双馈感应风力发电机自校正控制方法,其特征在于,动作αk在每个区间s下总共有11种选择,构成动作空间A,11种选择是[0.06,0.04,0.03,0.02,0.01,0,-0.01,-0.02,-0.03,-0.04,-0.06],在同一个区间s下每个动作α有相应的被选择的概率。
4.根据权利要求1所述的基于强化学习算法的双馈感应风力发电机自校正控制方法,其特征在于,在迭代前需对Q矩阵以及概率分布进行初始化;Q矩阵每个元素的初值为0,即令Q0(s,a)=0,令各状态下每个可行动作相等的被选概率,即令
5.根据权利要求1所述的基于强化学习算法的双馈感应风力发电机自校正控制方法,其特征在于,所述基于PI控制的矢量控制系统根据如下公式(7)~(10)设计:
P = 3 2 U q s i q s = 3 2 U s i q s Q = 3 2 U q s i d s = 3 2 U s i d s - - - ( 7 )
其中,P:有功功率;Q:无功功率;Uqs:定子电压矢量的q轴分量;Iqs:定子电流矢量的q轴分量;Us:定子电压矢量幅值;ids:定子电流的d轴分量;
i d r = L s L m i d s + ψ s L m i q r = L s L m i q s - - - ( 8 )
其中,idr:转子电流的d轴分量;iqr:转子电流的q轴分量;Ls:定子电感;Lm:定子与转子间的互感;ids:定子电流的d轴分量;iqs:定子电流的q轴分量;ψs:定子磁链矢量幅值;
ψ d r = L m L s ψ s + L r ( 1 - L m 2 L s L r ) = aψ s + bi d r ψ q r = L r ( 1 - L m 2 L s L r ) i q r = bi q r - - - ( 1 )
其中,各变量含义如下,ψdr:转子磁链矢量的d轴分量;ψqr:转子磁链矢量的q轴分量;ψs:定子磁链矢量幅值;Lm:定子与转子间的互感;Ls:定子电感;Lr:转子电感;idr:转子电流的d轴分量;iqr:转子电流的q轴分量;
u d r = ( R r + b p ) i d r - bω s i q r u q r = ( R r + b p ) i q r + aω s ψ s + bω s i d r - - - ( 2 )
在该公式中,各变量含义如下,udr:转子电压的d轴分量;uqr:转子电压的q轴分量;idr:转子电流的d轴分量;iqr:转子电流的q轴分量;ψs:定子磁链矢量幅值;Rr:转子电阻;p:微分算子;ωs:转差电角速度;从公式(8)(9)(10)可得到由转子电压控制定子电流的传递函数。
CN201710073833.4A 2017-02-10 2017-02-10 基于强化学习算法的双馈感应风力发电机自校正控制方法 Pending CN106877766A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710073833.4A CN106877766A (zh) 2017-02-10 2017-02-10 基于强化学习算法的双馈感应风力发电机自校正控制方法
PCT/CN2017/110899 WO2018145498A1 (zh) 2017-02-10 2017-11-14 基于强化学习算法的双馈感应风力发电机自校正控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710073833.4A CN106877766A (zh) 2017-02-10 2017-02-10 基于强化学习算法的双馈感应风力发电机自校正控制方法

Publications (1)

Publication Number Publication Date
CN106877766A true CN106877766A (zh) 2017-06-20

Family

ID=59167407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710073833.4A Pending CN106877766A (zh) 2017-02-10 2017-02-10 基于强化学习算法的双馈感应风力发电机自校正控制方法

Country Status (2)

Country Link
CN (1) CN106877766A (zh)
WO (1) WO2018145498A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018145498A1 (zh) * 2017-02-10 2018-08-16 华南理工大学 基于强化学习算法的双馈感应风力发电机自校正控制方法
CN108429475A (zh) * 2018-02-11 2018-08-21 东南大学 一种用于波浪发电系统的并网逆变器控制方法
CN110244077A (zh) * 2019-06-04 2019-09-17 哈尔滨工程大学 一种热式风速传感器恒功率调节与精度补偿方法
CN114002957A (zh) * 2021-11-02 2022-02-01 广东技术师范大学 一种基于深度强化学习的智能控制方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109714786B (zh) * 2019-03-06 2021-07-16 重庆邮电大学 基于Q-learning的毫微微小区功率控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249596A1 (en) * 2001-11-12 2004-12-09 International Rectifier Corporation Start-up method and system for permanent magnet synchronous motor drive
CN102611380A (zh) * 2012-03-09 2012-07-25 哈尔滨工业大学 一种双馈电机参数在线辨识方法
CN103746628A (zh) * 2013-12-31 2014-04-23 华北电力大学(保定) 一种双馈感应风力发电机转子侧换流器的控制方法
CN103904641A (zh) * 2014-03-14 2014-07-02 华南理工大学 基于相关均衡强化学习的孤岛微电网智能发电控制方法
CN104967376A (zh) * 2015-07-07 2015-10-07 河南师范大学 双馈风力发电机转子磁链无差拍故障运行方法
CN104993759A (zh) * 2015-07-07 2015-10-21 河南师范大学 双馈风力发电机快速弱磁控制方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008064472A1 (en) * 2006-11-28 2008-06-05 The Royal Institution For The Advancement Of Learning/Mcgill University Method and system for controlling a doubly-fed induction machine
CN104506106B (zh) * 2014-12-30 2017-07-28 徐州中矿大传动与自动化有限公司 一种双馈电机励磁控制及零速启动方法
CN105897102B (zh) * 2016-03-18 2018-05-29 国家电网公司 精确计算电网故障期间双馈式发电机定子磁链的方法
CN106877766A (zh) * 2017-02-10 2017-06-20 华南理工大学 基于强化学习算法的双馈感应风力发电机自校正控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249596A1 (en) * 2001-11-12 2004-12-09 International Rectifier Corporation Start-up method and system for permanent magnet synchronous motor drive
CN102611380A (zh) * 2012-03-09 2012-07-25 哈尔滨工业大学 一种双馈电机参数在线辨识方法
CN103746628A (zh) * 2013-12-31 2014-04-23 华北电力大学(保定) 一种双馈感应风力发电机转子侧换流器的控制方法
CN103904641A (zh) * 2014-03-14 2014-07-02 华南理工大学 基于相关均衡强化学习的孤岛微电网智能发电控制方法
CN104967376A (zh) * 2015-07-07 2015-10-07 河南师范大学 双馈风力发电机转子磁链无差拍故障运行方法
CN104993759A (zh) * 2015-07-07 2015-10-21 河南师范大学 双馈风力发电机快速弱磁控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李靖等: "《基于强化学习算法的双馈感应风力发电机自校正控制》", 《微特电机》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018145498A1 (zh) * 2017-02-10 2018-08-16 华南理工大学 基于强化学习算法的双馈感应风力发电机自校正控制方法
CN108429475A (zh) * 2018-02-11 2018-08-21 东南大学 一种用于波浪发电系统的并网逆变器控制方法
CN108429475B (zh) * 2018-02-11 2020-02-18 东南大学 一种用于波浪发电系统的并网逆变器控制方法
CN110244077A (zh) * 2019-06-04 2019-09-17 哈尔滨工程大学 一种热式风速传感器恒功率调节与精度补偿方法
CN114002957A (zh) * 2021-11-02 2022-02-01 广东技术师范大学 一种基于深度强化学习的智能控制方法及系统
CN114002957B (zh) * 2021-11-02 2023-11-03 广东技术师范大学 一种基于深度强化学习的智能控制方法及系统

Also Published As

Publication number Publication date
WO2018145498A1 (zh) 2018-08-16

Similar Documents

Publication Publication Date Title
CN106877766A (zh) 基于强化学习算法的双馈感应风力发电机自校正控制方法
CN102588211B (zh) 一种风力发电机组全工况模型预测控制方法及系统
CN108649847A (zh) 基于频率法和模糊控制的电机pi控制器参数整定方法
Sami et al. Sensorless fractional order composite sliding mode control design for wind generation system
CN106788028B (zh) 无轴承永磁同步电机强化学习控制器及其构造方法
CN108459506B (zh) 一种风机虚拟惯量控制器的参数整定方法
Chetouani et al. Self-adapting PI controller for grid-connected DFIG wind turbines based on recurrent neural network optimization control under unbalanced grid faults
CN102611380B (zh) 一种双馈电机参数在线辨识方法
CN105649877A (zh) 一种大型风电机组的蚁群pid独立变桨控制方法
CN112523944B (zh) 一种风力发电机变桨系统自适应动态面控制方法
CN109599889B (zh) 基于模糊自抗扰的不平衡电压下的穿越控制方法、系统
Ni et al. Multi-machine power system control based on dual heuristic dynamic programming
CN110336505A (zh) 基于状态约束的异步电动机命令滤波模糊控制方法
CN107947228A (zh) 基于Markov理论的含风电电力系统随机稳定性分析方法
CN110968958B (zh) 一种基于单机等值与选择模态分析的风电场等值建模方法
CN110138293A (zh) 一种基于双馈风电系统的bp神经网络优化混沌控制方法
CN110212574B (zh) 考虑虚拟惯量的风电控制参数协调设置方法
Poureh et al. Robust control design for an industrial wind turbine with HIL simulations
CN117318553B (zh) 基于td3和维也纳整流器的低风速永磁直驱风电机组控制方法
CN109755968A (zh) 一种双馈风电机组的神经网络保性能虚拟同步控制方法
Xie et al. Optimal speed–torque control of asynchronous motor for electric cars in the field-weakening region based on voltage vector optimization
CN104234934B (zh) 一种风力发电机转速控制方法
CN115903457B (zh) 一种基于深度强化学习的低风速永磁同步风力发电机控制方法
CN116306372A (zh) 一种基于ddpg算法的电-气区域综合能源系统安全校正控制方法
CN110210113B (zh) 基于确定性策略梯度的风电场动态等值参数智能校核方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170620

RJ01 Rejection of invention patent application after publication