CN114815626B

CN114815626B - 一种舵鳍系统的预测自抗扰减摇控制方法

Info

Publication number: CN114815626B
Application number: CN202210621013.5A
Authority: CN
Inventors: 孙明晓; 张文玉; 栾添添; 袁晓亮; 李小岗; 付强; 谭政纲; 甄立强
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-10-28
Anticipated expiration: 2042-06-02
Also published as: CN114815626A

Abstract

本发明公开一种舵鳍系统的预测自抗扰减摇控制方法，旨在解决舵鳍系统存在不确定扰动、状态耦合和输出延迟问题。分析船舶所受外力情况，建立三自由度船舶状态空间方程。针对不可观测状态，采用总扰动的思想解耦模型，分别设计纵摇自抗扰控制器和横艏摇预测观测器。横艏摇预测观测器在传统自抗扰的基础上尽可能多的保留原有的系统模型特性，只把状态耦合项、模型未知项、外部扰动等价为总扰动，单独考虑延迟问题。再利用强化学习不断地将系统的测量状态与模型的预测信息进行比较，并实时地修改预测模型和控制器参数，保证预测输出的准确度。最后利用二次规划求解舵角鳍角控制律。所述方法跟踪精度高，超调量小，减摇效果好。

Description

一种舵鳍系统的预测自抗扰减摇控制方法

技术领域

本发明属于船舶减摇领域，具体涉及一种舵鳍系统的预测自抗扰减摇控制方法。

背景技术

由于测量噪声、外部干扰和复杂动力学过程的存在，船舶系统的输出不能被及时地观测并补偿，会影响船舶的运行状态。为了解决模型不确定性和时变扰动等控制难题，自抗扰控制引起了人们的广泛关注，在很多方面已经取得了成功应用，但传统自抗扰控制器忽略了模型原有的特性，不能很好的体现被控对象的特点，因此针对舵鳍系统，尝试在保留大部分模型特性的基础上进行控制器设计，将观测延迟、状态耦合脱离总扰动来单独考虑。

自抗扰对延迟处理的方法大致分为三类，第一类方法是近似延迟：论文《双入双出延迟系统模型辅助自抗扰控制研究》提出了忽略时延或一阶Pade法对时延环节进行传递函数逼近，采用泰勒展开式来近似延迟项，该方法提高了输入时滞多变量过程的鲁棒性，但控制器带宽和观测器带宽仍然相当有限，导致暂态和扰动抑制响应缓慢；第二类是输出预测：论文《On comparison of modified ADRCs for nonlinear uncertain systems withtime delay》对输入和输出信号进行预测，通过使用预测方法来获得无延迟的输出反馈，但是预测需要基于精确的模型，一旦模型失配获得的预测值会与实际值之间存在一定偏差，影响控制效果。最后是模型辨识：论文《多变量逆解耦自抗扰控制及其在精馏塔过程中的应用》研究了模型辨识的方法，通过阶跃信号作用系统，检测输出信号得到延迟时间，但应用受到大部分高阶系统的限制，只适合对一二阶系统能够完成辨识。综上所述，研究一种既能检测系统延迟又能补偿系统不确定性的预测控制方法尤为重要。

论文《舵鳍联合自抗扰主从控制策略设计》提供的方法有以下问题：

(1)设计的舵鳍自抗扰控制器，完全将模型间的耦合、非线性、延迟等价为扰动，忽略了横艏摇与纵摇之间的状态耦合；

(2)未考虑船舶航向时由于外部复杂扰动造成输出测量存在延迟的问题。

专利CN 06842916 B《一种三维位置伺服系统的预测自抗扰控制方法》存在以下问题：未考虑预测模型发生变化时，控制器参数不在适应系统，不能保证预测的准确度。

发明内容

为解决常规舵鳍系统存在不确定扰动、状态耦合和输出延迟的问题，本发明提出了一种舵鳍系统的预测自抗扰减摇控制方法，所述方法允许在线和连续地执行控制、优化和模型校正，只需进行最少的操作，可用于解决工业过程中的测量延迟、模型不确定问题，操作简单、实用性强。

为实现上述目的，本发明采用以下技术方案：

一种舵鳍系统的预测自抗扰减摇控制方法，具体包括舵鳍三自由度状态空间模型建立及解耦、纵摇自抗扰控制器搭建、横艏摇预测观测器搭建、强化学习修正模型和控制器参数和舵角鳍角控制律分配。首先分析船舶所受外力情况，建立三自由度船舶状态空间方程。针对系统存在不可观测状态，采用总扰动的思想将纵摇和横艏摇进行模型解耦，分别设计纵摇自抗扰控制器和横艏摇预测观测器。纵摇自抗扰控制器(ADRC)包括TD、ESO和NESLF三部分，可实现对期望输出的快速跟踪。横艏摇预测观测器在传统自抗扰的基础上尽可能多的保留原有的系统模型特性，只把状态耦合项、模型未知项、外部扰动等价为总扰动，对系统输出进行预测。再利用强化学习不断地将系统的测量状态与模型的预测信息进行比较，并实时地修改预测模型参数，保证预测输出的准确度，并将预测输出替代实际输出，解决系统输出延迟的问题。最后利用二次规划求解舵角鳍角控制律。具体包括以下步骤：

S1、舵鳍三自由度状态空间模型建立

S1.1、水动力分析与建模

S1.2、舵鳍力分析与建模

S1.3、风流浪力分析与建模

S1.4、模型解耦

充分利用上述已知的模型信息，并考虑航行时系统模型失配问题，将模型不确定性等问题视为系统输入端的时变扰动f_d(k)。定义k时刻的输入u(k)＝[α δ]，α和δ分别为舵角、鳍角；状态

y,v,φ,p,

r分别是纵摇角、纵摇角速度、横摇角及角速度、艏摇角及角速度；输出

构建的舵鳍三自由度状态空间模型如下：

式中，τ是延迟时间，M,A,B,C分别是状态导数矩阵、状态矩阵、输入矩阵和输出矩阵。

由能观判据可知矩阵A不满秩，系统部分状态可观测，不能完全设计全维观测器。对于不可观测状态(纵摇角)的处理是采用自抗扰的思想分离模型。将系统状态解耦成两个子系统，分别设计控制器。纵摇系统采用标准的自抗扰设计流程，对于纵摇角及角速度以外的变量都等价为扰动，横艏摇系统在传统自抗扰的基础上尽可能多的保留已知的系统模型信息，基于精确化的模型设计控制器，只把状态耦合项、模型未知项、外部扰动等价为总扰动，单独考虑输出延迟的问题。

解耦后的纵摇系统扰动模型如下：

式中，u₁是由舵角和鳍角组成的纵摇控制律，b是常数。f₁是由模型内部耦合项组成，包括艏摇角、横摇角及角速度等对纵摇的干扰。L_r,N_f,β分别为舵产生的升力、鳍产生的阻力和鳍的初始倾斜角，sin()是正弦函数。m,x_G为船的质量和船舶重心坐标，u,d₁为横荡速度和内部未知扰动。

Y_ur,Y_|u|v,Y_φuu,

为水动力各变量系数。

横艏摇系统输出延迟模型如下：

式中，p代表横艏摇系统变量，x_p(k),u_p(k),y_p(k)为k时刻横艏摇系统状态、输入和输出，x_p(k-τ)为k-τ时刻的状态。f₂(k)是纵摇角和角速度对横摇和艏摇状态的干扰。M_p,A_p,B_p,C_p是横艏摇系统系数矩阵。

S2、纵摇自抗扰控制器搭建

针对纵摇系统(2)设计的纵摇自抗扰控制器(ADRC)包括TD、ESO和NLSEF三个环节，通过合理的调节参数，可以实现对纵摇角的快速跟踪，对扰动的鲁棒性较强。

S2.1、纵摇状态和扰动观测

对纵摇设计如下ESO对总扰动和状态进行观测：

式中，ε₁是观测误差，z为误差增益。

为纵摇角观测值、纵摇角速度观测值和纵摇扰动观测值。β₀₁,β₀₂,β₀₃为观测器参数。fal()是非线性函数，a₁,a₂,a₃,ξ₁为常值。

S2.2、非线性反馈控制律设计

接收TD和ESO的期望输出和观测信息，设计的包含总扰动和期望输出误差的非线性反馈控制律如下：

式中，y_ref,v_ref为TD环节输出的纵摇角期望值和纵摇角速度期望值，e₁,e₂分别为纵摇角期望误差和纵摇角速度期望误差，μ₁,μ₂为误差比例因子，a′₁,a′₂,ξ′₁,ξ′₂为常值。

S3、横艏摇预测控制器搭建

船舶航行时由于风流浪的干扰，船的横艏摇运动状态观测存在一定的延迟，为解决这一问题，标准的史密斯预测原理是将预测输出反馈给控制器及时补偿状态，但随着模型参数的变化无法实时保证预测的准确度。因此设计了一种改进的强化学习预测观测器(DDPG-PO)，强化学习不断地将过程的测量状态与模型的预测信息进行比较，并实时地修改预测模型参数和控制器参数，保证预测输出的准确度，并将预测输出替代实际输出，解决系统输出延迟的问题。

S3.1、横艏摇输出和扰动预测

针对横艏摇模型设计如下预测观测器：

式中，

为横艏摇状态预估值，

为横艏摇扰动预估值，

为横艏摇输出预估值。A_e,B_e,C_e,B_d为系统参数矩阵，a₃,ξ₃为待调参数。L_e＝[l₁ l₂ l₃ l₄]^T为反馈增益矩阵，l₁,l₂,l₃,l₄是反馈增益，通过引入ω₀观测器带宽来进行参数整定，即：

|λI-(A_e-L_eC_e)|＝(λ+ω₀)⁴ (7)

式中，λ为根，I为单位矩阵。

S3.2、复合控制律设计

横艏摇控制律可设计为总扰动和传统控制律的组合，即：

式中，r(k)为横艏摇状态的期望值，K＝[k1 k2 k3 k4]^T为控制器增益矩阵，同样可以通过引入ω_c控制器带宽来整定。

|λI-(A_e-B_eK)|＝λ(λ+ω_c)³ (9)

S4、强化学习修正模型和控制器参数

τ,ω₀,ω_c,z,a₃,ξ₃等参数会影响预测的准确度，因此为了减小系统状态预测的误差，强化学习的目的是通过学习一种调节策略μ，求出每个动作的概率，实时调整模型和控制器参数，以最大化总奖励。

式中，γ^k为折扣回报率，r_k为k时刻的奖励函数，θ(k)是动作集合，θ_max,θ_min分别为动作约束上下限。

S4.1、建立横艏摇系统的Actor-Critic网络

首先定义状态空间

状态向量

其次建立Actor网络：a_k＝μ(s_k|θ^μ)，θ^μ为网络参数，状态向量s_k为网络输入，a_k为网络输出动作。再建立Critic网络：Q(s_k,a_k|θ^Q)，Q代表Critic网络，θ^Q为网络参数，状态向量s_k和动作a_k为网络输入。所述Actor和Critic网络均为双层结构，包括目标网络和在线网络，内部关系如图2。

S4.2、设计所需奖励函数

奖励函数由预测状态和实际状态的误差e_i(k)组成(i代表状态个数)，当误差e_i(k)小于允许值∈时，给一个正奖励值w₁；反之，则给一个负奖励值w₂，表达式如下：

S4.3、根据Actor-Critic网络和奖励函数构建DDPG算法。流程如下：

步骤1、初始化Actor-Critic在线网络Q(s,a|θ^Q)和μ(s|θ^μ)；

步骤2、初始化Actor-Critic目标网络Q(s,a|θ^Q′)和μ(s|θ^μ′)，其中参数θ^Q′＝θ^Q，

θ^μ′＝θ^μ；

步骤3、初始化经验池R_e；

步骤4、接收初始的状态s_k进入循环；

步骤5、actor在线网络根据状态s_k并选择动作a_k＝μ(s_k|θ^μ)+N_k，N_k是随机过程；

步骤6、横艏摇子系统执行动作a_k并给出奖励r_k，actor继续获得新的状态s_k+1；

步骤7、将样本信息(s_k,a_k,r_k,s_k+1)存储在经验池R_e中；

步骤8、从R_e中随机选取小批量的样本信息(s_i,a_i,r_i,s_i+1)进行训练；

步骤9、设置y_i＝r_i+γⁱQ′(s_i+1,μ′_i+1(s_i+1|θ^μ′)|θ^Q′)，计算最小化损失函数

更新critic在线网络参数θ^Q；

步骤10、更新actor在线网络使用确定梯度策略

步骤11、设置步长为h，更新目标网络；

步骤12、返回步骤4继续循环训练。

S5、舵角和鳍角控制律分配

在上面已经单独给出了控制律u₁和u_p(k)的单独设计方法，均由舵角和鳍角组成的，关系如下：

式中，B_u是系数矩阵。

舵鳍联合系统是一个2输入3输出的欠驱动系统，操控2个变量达到3个状态的最优是相互矛盾的，因此将控制律求解转化成二次规划问题，设计一个最优目标函数，在约束条件下求解出最优舵角鳍角控制律。

式中，

φ_ref为横摇角和艏摇角的期望值，K_Y,

K_φ分别是纵摇角、横摇角和艏摇角的权重因子，调节权重因子的大小来应对多种海况的输出跟踪。y_min,y_max为纵摇角限制，u_1min,u_1max为纵摇输入约束，x_p(k)_min,x_p(k)_max为横艏摇状态约束，u_p(k)_min,u_p(k)_max为横艏摇输入约束。

最终舵角和鳍角控制律为：

本发明具有如下有益效果：

(1)针对系统存在不可观测状态，采用总扰动的思想将纵摇和横艏摇进行状态解耦，分别设计纵摇自抗扰控制器和横艏摇预测观测器，简化了控制器设计流程，操作简单，实用性强；

(2)将预测输出替代实际输出，解决舵鳍系统输出延迟的问题，利用强化学习实时地修改预测模型参数，保证了预测输出的准确度；

(3)跟踪精度高，超调量小，减摇效果好。在四级风流浪扰动下，纵摇角全局跟踪精度达到了94％，艏摇角平均超调量在2％以内，横摇角的波动在±2deg之间。六级风流浪扰动下，纵摇角全局跟踪精度达到了95.5％，艏摇角平均超调量小于5％，横摇角的波动在±2deg之间。

附图说明

图1为算法流程图；

图2为控制系统结构框图；

图3为DDPG训练关系图；

图4为四级风流浪扰动下纵摇自抗扰控制器仿真结果图；

图5为四级风流浪扰动下横艏摇预测观测器仿真结果图；

图6为六级风流浪扰动下纵摇自抗扰控制器仿真结果图；

图7为六级风流浪扰动下横艏摇预测观测器仿真结果图。

具体实施方式

一种舵鳍系统的预测自抗扰减摇控制方法，具体包括以下步骤：

S1、舵鳍三自由度状态空间模型建立

船舶在海上航行时难以避免的遭到风流浪的影响，产生剧烈的摇晃，其中纵摇、横摇和艏摇运动对船的威胁最大。因此建立反应船舶真实运动状态的模型是解决控制问题的关键，在尽量简化模型并保留模型特性的基础上设计控制器。首先定义介绍船舶非线性运动模型如下：

式中，u,v,p,r分别是横荡速度、纵摇角速度、艏摇角速度和横摇角速度，m,I_x,I_z,x_G,z_G船舶已知模型参数。Y_hyd,Y_wind,Y_f,Y_r分别代表水动力、风流浪力、鳍力和舵力在横荡方向的分量，同理，K_hyd,K_wind,K_f,K_r和N_hyd,N_wind,N_f,N_r分别是艏摇和横摇方向的力分量。

S1.1、水动力分析与建模

水动力的非线性项和耦合项对数学建模具有复杂的影响，在此仅仅考虑一阶导数项、一次项和常数项，并对非线性项进行原点泰勒展开。处理后的水动力组成如下：

式中，φ为横摇角。

Y_|u|v,Y_ur,Y_φuu为水动力横荡方向各变量系数，通过水池试验计算获得。同理，

K_|u|v,K_p,K_|u|p,K_ur,K_φuu为水动力艏摇方向各变量系数，

N_|u|v,N_p,N_|u|p,N_|u|r,N_φu|u|为水动力横摇方向各变量系数。ρ为流体密度，g为重力加速度，

为舰船排水量，Y_din,K_din,N_din是模型内部扰动。GMt为船的横稳心高。

S1.2、舵鳍力分析与建模

船舶减摇主要的控制力是由舵和鳍产生的。当船舶以一定航速前进时，洋流与翼面之间存在一定夹角，则会产生水动力升力和阻力。通过操作舵鳍保持合适的摆动频率和角度可以产生稳定的升力。单个鳍产生的控制分力为：

式中，α为鳍角，β是鳍的初始倾斜角，N_f是阻力，R_f和FCG分别是鳍中心到重心的水平距离和纵向距离。

舵产生的控制分力可以表示为：

式中，δ为舵角，L_r是升力，R_r,LCG是舵中心到重心的水平距离和纵向距离。

S1.3、风流浪力分析与建模

风流浪对船舶的影响是不可忽视的，其产生的本质上属于随机过程，目前最受欢迎的方法是采用规则波叠加的方式建立海浪模型，但其建模过程复杂且参数繁多。因此综合考虑操作简单和调整方便等因素，采用频率和波峰相相差不大的白噪声加二阶滤波的形式产生风流浪扰动。

S1.4、模型解耦

充分利用上述已知的模型信息，并考虑航行时系统模型失配问题，将模型不确定性等问题视为系统输入端的时变扰动f_d(k)。定义k时刻的输入u(k)＝[αδ]，状态

y,

分别是纵摇角和艏摇角，输出

构建的舵鳍三自由度状态空间模型如下：

由能观判据可知矩阵A不满秩，系统部分状态可观测，不能完全设计全维观测器。对于不可观测状态(纵摇角)的处理是采用自抗扰的思想分离模型。将系统状态解耦成两个子系统，分别设计控制器。纵摇系统采用标准的自抗扰设计流程，对于纵摇角及角速度以外的变量都等价为扰动，而横艏摇系统在传统自抗扰的基础上尽可能多的保留已知的系统模型信息，基于精确化的模型设计控制器，只把状态耦合项、模型未知项、外部扰动等价为总扰动，单独考虑输出延迟的问题。

解耦后的纵摇系统扰动模型如下：

式中，纵摇系统的输出为纵摇角y和纵摇角速度v，输入U₁是由舵角和鳍角组成的控制律，f₁是由模型内部耦合项组成，包括艏摇角、横摇角及角速度等对纵摇的干扰。sin()是正弦函数，d₁为内部未知扰动。

横艏摇系统输出延迟模型如下：

式中，p代表横艏摇系统变量，x₁(k),u₁(k),y₁(k)解耦后的横艏摇系统状态、输入和输出，U₂,U₃是舵角鳍角组成的控制律。f₂(k)是纵摇角和角速度对横摇和艏摇状态的干扰。M_p,A_p,B_p,C_p是横艏摇系统系数矩阵。具体如下：

S2、纵摇自抗扰控制器搭建

针对系统(7)设计的纵摇自抗扰控制器(ADRC)包括TD、ESO和NLSEF三个环节，通过合理的调节参数，可以实现对纵摇角的快速跟踪，对扰动的鲁棒性较强。

TD的功能类似于比例积分器，目的是为纵摇角和纵摇角速度安排理想的过渡过程，保证在小超调的基础上实现期望输出指令的快速跟踪，采用韩京清研究员提出的最速下降函数来实现。

S2.1、纵摇状态和扰动观测

同时，对纵摇设计如下ESO对总扰动和状态进行观测：

式中，ε₁是观测误差，z为误差增益。

为纵摇角观测值、纵摇角速度观测值和纵摇扰动观测值。β₀₁,β₀₂,β₀₃为观测器参数。a₁,a₂,a₃,ξ₁为常值，fal()是非线性函数。

式中，sign为符号函数。

S2.2、非线性反馈控制律设计

式中，y_ref,v_ref为TD环节输出的纵摇角期望值和纵摇角速度期望值，e₁,e₂分别为纵摇角期望误差和纵摇角速度期望误差，μ₁,μ₂为误差比例因子，a₁′,a₂′,ξ₁′,ξ₂′为常值。

S3、横艏摇预测控制器搭建

船舶航行时由于风流浪的干扰，船的横艏摇运动状态观测存在一定的延迟，为解决这一问题，标准的史密斯预测原理是将预测输出反馈给控制器及时补偿状态，但随着模型参数的变化无法实时保证预测的准确度。因此设计了一种改进的强化学习预测观测器(DDPG-PO)，强化学习可不断地将过程的测量状态与模型的预测信息进行比较，并实时地修改预测模型参数和控制器参数，保证预测输出的准确度，并将预测输出替代实际输出，解决系统输出延迟的问题。

S3.1、横艏摇状态和扰动预测

针对横艏摇模型设计如下预测观测器：

式中，

为横艏摇状态预估值，

为横艏摇扰动预估值，

为横艏摇输出预估值。A_e,B_e,C_e,B_d为系统参数矩阵，a₃,ξ₃为待调参数。L_e＝[l₁ l₂ l₃ l₄]^T为反馈增益矩阵，l₁,l₂,l₃,l₄是反馈增益，通过引入观测器带宽ω₀来进行参数整定，即：

|λI-(A_e-L_eC_e)|＝(λ+ω₀)⁴ (13)

式中，λ为根，I为单位矩阵。

S3.2、复合控制律设计

横艏摇控制律可设计为总扰动和传统控制律的组合，即：

式中，r(k)为横艏摇状态的期望值，K＝[k1 k2 k3 k4]^T为控制器增益矩阵，同样可以通过引入ω_c控制器带宽来整定，即：

|λI-(A_e-B_eK)|＝λ(λ+ω_c)³ (15)

S4、强化学习修正模型和控制器参数

遗传算法、蚁群算法、粒子群算法等智能算法也常常被用来在线调整参数，但迭代计算会耗费大量时间和资源，也不能完成实时的调整。而强化学习的优点是离线训练和连续控制，将离线训练好的网络可以直接应用在被控系统中，船舶控制器设计也被要求实时性。

S4.1、建立横艏摇系统的Actor-Critic价值网络

首先定义状态空间

状态向量

S4.2、设计所需奖励函数

奖励函数由预测状态和实际状态的误差e_i(k)组成(i代表状态个数)，当误差e_i(k)小于允许值κ时，给一个正奖励值w₁；反之，则给一个负奖励值w₂，表达式如下：

步骤1、初始化Actor-Critic在线网络Q(s,a|θ^Q)和μ(s|θ^μ)；

θ^μ′＝θ^μ；

步骤3、初始化经验池R_e；

步骤4、接收初始的状态s_k进入循环；

步骤7、将样本信息(s_k,a_k,r_k,s_k+1)存储在经验池R_e中；

更新critic在线网络参数θ^Q；

步骤10、更新actor在线网络使用确定梯度策略

步骤11、设置步长为h，更新目标网络；

步骤12、返回步骤4继续循环训练。

S5、舵角和鳍角控制律分配

式中，B_u是系数矩阵。

舵鳍联合系统是一个2输入3输出的欠驱动系统，操控2个变量达到3个状态的最优是相互矛盾的，因此将控制律求解转化成二次规划问题，设计一个最优目标函数J，在约束条件下求解出最优舵角和鳍角控制律。

式中，

φ_ref为横摇角和艏摇角的期望值，K_Y,

最终舵角和鳍角控制律为：

下面给出本发明所述的控制方法离线仿真验证。

实验一：在四级风流浪扰动下，船舶航行2s时设置期望纵摇角、艏摇角和艏摇角，并在50s时调整新的期望角度，对比常规设计方法验证系统的抗扰性能和跟踪性能。从图4中可以看出设计的ADRC比常规ADRC更好的跟踪设定期望，两条曲线基本一致，从局部放大图中可知平均跟踪误差小于5％，经计算全局跟踪精度达到了94％。图5结果显示，DDPG-PO比常规PO略微慢一点达到期望艏摇角，但是达到期望值后更为稳定，超调量更小，局部放大图中可得平均超调量在2％以内。在50s调整航向后，由局部放大图可知，DDPG-PO的艏摇角波动在±0.1deg左右，抗扰性能更强。这是由于DDPG对于新的输出，重新调整了控制参数，使系统适应了外部扰动，而常规PO的参数不在适应新的扰动，导致输出波动增加。同时，DDPG-PO控制下横摇角的波动在±2deg之间，是常规PO的一半。

实验二：修改外部环境为六级风流浪扰动，其余试验条件不变。由图6可知，ADRC仍能跟踪期望值，平均跟踪误差小于2.2％，全局跟踪精度达到了95.5％，而常规ADRC在扰动下具有较大的跟踪误差。由图7局部放大图可知，在前50s内两种方法的艏摇角减摇效果相差不大，但在50s后改变航向，DDPG-PO的减摇效果更优越，平均超调量小于5％，而常规PO达到了10％。从横摇角的波动来看，DDPG-PO稳定在±2deg之间，是常规PO的三分之一。综上所述，设计的纵摇自抗扰控制器和横艏摇预测观测器比传统控制器取得了更优越的性能。

Claims

1.一种舵鳍系统的预测自抗扰减摇控制方法，其特征在于，包括以下步骤：S1、舵鳍三自由度状态空间模型建立

S1.1、水动力分析与建模

S1.2、舵鳍力分析与建模

S1.3、风流浪力分析与建模

S1.4、模型解耦

定义系统输入端的时变扰动f_d(k)，k时刻的输入u(k)＝[α δ]，α和δ分别为舵角、鳍角；状态

分别是纵摇角、纵摇角速度、横摇角及角速度、艏摇角及角速度；输出

构建的舵鳍三自由度状态空间模型如下：

式中，τ是延迟时间，M,A,B,C分别是状态导数矩阵、状态矩阵、输入矩阵和输出矩阵；

由能观判据可知矩阵A不满秩，将系统状态解耦成两个子系统，分别设计控制器；

解耦后的纵摇系统扰动模型如下：

式中，u₁是由舵角和鳍角组成的纵摇控制律，b是常数，f₁是由模型内部耦合项组成，包括艏摇角、横摇角及角速度对纵摇的干扰，L_r,N_f,β分别为舵产生的升力、鳍产生的阻力和鳍的初始倾斜角，sin()是正弦函数，m,x_G为船的质量和船舶重心坐标，u,d₁为纵荡速度和内部未知扰动，

为水动力各变量系数；

横艏摇系统输出延迟模型如下：

式中，p代表横艏摇系统变量，x_p(k),u_p(k),y_p(k)为k时刻横艏摇系统状态、输入和输出，x_p(k-τ)为k-τ时刻的状态，f₂(k)是纵摇角和角速度对横摇和艏摇状态的干扰，M_p,A_p,B_p,C_p是横艏摇系统系数矩阵；

S2、纵摇自抗扰控制器搭建

针对纵摇系统(2)设计的纵摇自抗扰控制器ADRC包括TD、ESO和NLSEF环节；

S2.1、纵摇状态和扰动观测

对纵摇设计如下ESO对总扰动和状态进行观测：

式中，ε₁是观测误差，z为误差增益，

为纵摇角观测值、纵摇角速度观测值和纵摇扰动观测值，β₀₁,β₀₂,β₀₃为观测器参数，fal()是非线性函数，a₁,a₂,a₃,ξ₁为常值；

S2.2、非线性反馈控制律设计

式中，y_ref,v_ref为TD环节输出的纵摇角期望值和纵摇角速度期望值，e₁,e₂分别为纵摇角期望误差和纵摇角速度期望误差，μ₁,μ₂为误差比例因子，a′₁,a′₂,ξ′₁，ξ′₂为常值；

S3、横艏摇预测控制器搭建

设计了一种改进的强化学习预测观测器DDPG-PO；

S3.1、横艏摇状态和扰动预测

针对横艏摇模型设计如下预测观测器：

式中，

为横艏摇状态预估值，

为横艏摇扰动预估值，

为横艏摇输出预估值，A_e,B_e,C_e,B_d为系统参数矩阵，a₃,ξ₃为待调参数，L_e＝[l₁ l₂ l₃ l₄]^T为反馈增益矩阵，l₁,l₂,l₃,l₄是反馈增益，通过引入观测器带宽ω₀来进行参数整定，即：

|λI-(A_e-L_eC_e)|＝(λ+ω₀)⁴ (7)

式中，λ为根，I为单位矩阵；

S3.2、复合控制律设计

横艏摇控制律可设计为总扰动和传统控制律的组合，即：

式中，r(k)为横艏摇状态的期望值，K＝[k₁ k₂ k₃ k₄]^T为控制器增益矩阵，k₁,k₂,k₃,k₄是控制增益，同样可以通过引入ω_c控制器带宽来整定；

|λI-(A_e-B_eK)|＝λ(λ+ω_c)³ (9)

S4、强化学习修正模型和控制器参数

通过学习一种调节策略μ，求出每个动作的概率，实时调整模型和控制器参数，以最大化总奖励；

式中，γ^k为折扣回报率，r_k为k时刻的奖励函数，θ(k)是动作集合，θ_max,θ_min分别为动作约束上下限；

S4.1、建立横艏摇系统的Actor-Critic网络

首先定义状态空间

状态向量

s_k∈S，其次建立Actor网络：a_k＝μ(s_k|θ^μ)，θ^μ为网络参数，状态向量s_k为网络输入，a_k为网络输出动作，再建立Critic网络：Q(s_k,a_k|θ^Q)，Q代表Critic网络，θ^Q为网络参数，状态向量s_k和动作a_k为网络输入，所述Actor和Critic网络均为双层结构，包括目标网络和在线网络；

S4.2、设计所需奖励函数

奖励函数由预测状态和实际状态的误差e_i(k)组成，其中i代表状态个数，当误差e_i(k)小于允许值κ时，给一个正奖励值w₁；反之，则给一个负奖励值w₂，表达式如下：

S4.3、根据Actor-Critic网络和奖励函数构建DDPG算法

S5、舵角和鳍角控制律分配

舵鳍联合系统是一个2输入3输出的欠驱动系统，将控制律求解转化成二次规划问题，设计一个最优目标函数J，在约束条件下求解出最优舵角鳍角控制律：

式中，

为横摇角和艏摇角的期望值，

分别是纵摇角、横摇角和艏摇角的权重因子，调节权重因子的大小来应对多种海况的输出跟踪，y_min,y_max为纵摇角限制，u_1min,u_1max为纵摇输入约束，x_p(k)_min,x_p(k)_max为横艏摇状态约束，u_p(k)_min,u_p(k)_max为横艏摇输入约束；

最终舵角和鳍角控制律为：

式中，B_u为系数矩阵。