CN113311705B

CN113311705B - 针对机器鱼的高阶迭代自学习控制方法、装置及存储介质

Info

Publication number: CN113311705B
Application number: CN202110545908.0A
Authority: CN
Inventors: 韦蕴珊; 陈颖宇; 万凯; 许清媛; 赵志甲
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2022-03-25
Anticipated expiration: 2041-05-19
Also published as: CN113311705A; US11360441B1

Abstract

本发明涉及人工智能技术领域，公开了针对机器鱼的高阶迭代自学习控制方法、装置及存储介质；该控制方法通过对控制增益集合中的控制增益元素进行择优迭代计算，得到目标控制增益；并根据所述目标控制增益、第一控制输入推力和第一跟踪误差进行高阶迭代计算得到目标控制输入推力，再根据所述目标控制输入推力控制机器鱼进行摆动，以获得期望速度。本发明实现了机器鱼在整个操作空间内游速的完全跟踪和快速收敛。

Description

针对机器鱼的高阶迭代自学习控制方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及针对机器鱼的高阶迭代自学习控制方法、装置及存储介质。

背景技术

目前，自主式水下机器人在海洋探测、科学研究和商业任务中应用广泛。在各种水下机器人中，鱼形机器人(即机器鱼)以其高效率、高机动性、低噪声等优点最具应用潜力。尽管在鱼类游泳的推进机制、执行器和机械结构方面已取得了一些成果，但这些成果还不足以开发出一种能够像真鱼那样在非结构化环境中自由游泳的自主机器鱼。其中一个主要的挑战在于机器鱼运动控制的难度。

以往对机器鱼运动控制的研究主要集中在两个方面：1)在机器鱼中产生类鱼的游动步态；2)驱动机器鱼实现期望的运动。前者探索机器鱼驱动部件的协调运动，后者则侧重于控制机器鱼全身的运动。从控制论的角度来看，游泳步态生成的方法可以分为基于运动学的方法和基于仿生的方法。基于运动学的方法旨在通过旋转关节连接的离散机械多连杆模仿鱼的身体运动，而仿生方法采用中心模式发生器将鱼的波动身体运动转化为机器鱼关节运动。虽然游动步态生成方法可以用来生成机器鱼的类鱼游动，但是这些方法都是开环的，不能帮助机器鱼实现所期望的运动。

为了控制机器鱼实现期望的运动，学者们提出了PID控制、模糊逻辑控制、滑模控制等方法，但这些传统控制方法有两个缺点：1)需要知道系统精确的数学模型；2)只能在时域内实现渐近误差收敛；3)跟踪误差收敛速度慢。在实践中，许多应用可能需要机器鱼沿着预先指定的速度轨迹游动并重复执行任务。例如，在两个码头之间利用机器鱼进行往复运输，并且要求机器鱼以预定的速度轨迹游动；机器鱼与水下支柱的交会对接，机器鱼必须以给定的速度轨迹运动；利用机器鱼进行管道清洗或管道泄漏检测；这些系统都可以用具有重复运动性质的动态系统来代表。

发明内容

本发明提供一种针对机器鱼的高阶迭代自学习控制方法、装置及存储介质，实现了机器鱼在整个操作区间内游速的完全跟踪和快速收敛。

本发明一实施例提供一种针对机器鱼的高阶迭代自学习控制方法，包括：

构建第一控制增益集合，所述第一控制增益集合包括N个控制增益元素，每个所述控制增益元素包括M个控制增益以及每个控制增益元素各自对应的一个元素适应度；M和N均为正整数；

对所述第一控制增益集合中的控制增益元素进行择优迭代得到目标控制增益集合，并将所述目标控制增益集合中适应度最高的控制增益元素中的M个控制增益作为目标控制增益进行输出；

根据所述目标控制增益、第一控制输入推力和第一跟踪误差进行高阶迭代计算得到目标控制输入推力，并根据所述目标控制输入推力控制机器鱼进行摆动，以获得期望速度；所述第一控制输入推力的初始值为预设值，所述第一跟踪误差根据摆动速度和期望速度计算得到。

进一步的，每个所述控制增益元素各自对应的一个适应度是根据所述控制增益和所述第一跟踪误差计算而获得，具体为：

获取待计算的控制增益元素；

根据所述待计算的控制增益元素中M个控制增益和第一跟踪误差计算得到第二控制输入推力；

根据所述第二控制输入推力控制所述机器鱼进行摆动，以获得摆动速度，根据所述摆动速度和期望速度的差值得到第二跟踪误差的绝对值之和；

根据预设的第一阈值和所述第二跟踪误差的绝对值之和的差值得到所述待计算的控制增益元素的适应度。

进一步的，对所述第一控制增益集合中的控制增益元素进行择优迭代得到目标控制增益集合，具体包括：

对所述第一控制增益集合进行扩充：依次对所述第一控制增益集合中的控制增益元素进行判断，选择出满足第一预设条件的控制增益元素，并对所述满足预设条件的控制增益元素进行交叉算子和变异算子计算，获得用于扩充所述第一控制增益集合的多个新的控制增益元素，并将所述多个新的控制增益元素添加到所述第一控制增益集合；

对所述第一控制增益集合进行择优保留：根据第二预设条件对扩充后的第一控制增益集合中的所有控制增益元素进行择优保留，得到优化后的第一控制增益集合，直到迭代次数满足预设第二阈值，将所述第一控制增益集合作为目标控制增益集合进行输出。

进一步的，根据第二预设条件对扩充后的第一控制增益集合中的所有控制增益元素进行择优保留，得到优化后的第一控制增益集合，具体为：

根据轮盘赌策略和精英保留策略对所述扩充后的第一控制增益集合中的控制增益元素进行选择，得到优化后的第一控制增益集合。

进一步的，根据所述目标控制增益、第一控制输入推力和第一跟踪误差进行高阶迭代计算得到目标控制输入推力，具体为：

根据所述目标控制增益、所述第一控制输入推力和所述第一跟踪误差，迭代计算目标控制输入推力，每次迭代计算均根据当前的目标控制输入推力控制所述机器鱼进行摆动，继而获得目标跟踪误差，并根据当前的目标跟踪误差和目标控制输入推力更新所述第一控制输入推力和所述第一跟踪误差，直到所述目标跟踪误差满足预设的指标条件时，输出当前的目标控制输入推力。

进一步的，根据所述目标控制输入推力控制机器鱼进行摆动，以获得期望速度，具体为根据目标控制输入推力序列控制机器鱼进行摆动，以获得期望速度序列，继而实现期望运动轨迹。

本发明另一实施例提供了机器鱼的高阶迭代自学习控制装置，包括：控制增益初始化模块、目标控制增益计算模块和目标控制输入推力计算模块；

其中，所述控制增益初始化模块用于构建第一控制增益集合，所述第一控制增益集合包括N个控制增益元素，每个所述控制增益元素包括M个控制增益以及每个控制增益元素各自对应的一个元素适应度；M和N均为正整数；

所述目标控制增益计算模块用于对所述第一控制增益集合中的控制增益元素进行择优迭代得到目标控制增益集合，并将所述目标控制增益集合中适应度最高的控制增益元素中的M个控制增益作为目标控制增益进行输出；

所述目标控制输入推力计算模块用于根据所述目标控制增益、第一控制输入推力和第一跟踪误差进行高阶迭代计算得到目标控制输入推力，并根据所述目标控制输入推力控制机器鱼进行摆动，以获得期望速度；所述第一控制输入推力的初始值为预设值，所述第一跟踪误差根据摆动速度和期望速度计算得到。

进一步的，所述控制增益初始化模块中，每个所述控制增益元素各自对应的一个适应度是根据所述控制增益和所述第一跟踪误差计算而获得，具体为：

获取待计算的控制增益元素；

进一步的，在目标控制增益计算模块，对所述第一控制增益集合中的控制增益元素进行择优迭代得到目标控制增益集合，具体包括：

对所述第一控制增益集合进行扩充：依次对所述第一控制增益集合中的控制增益元素进行判断，选择出满足第一预设条件的控制增益元素，并对所述满足预设条件的控制增益元素进行交叉算子和变异算子计算，获得用于扩充所述第一控制增益集合的多个新的控制增益元素，并将所述新的控制增益元素添加到所述第一控制增益集合；

本发明另一实施例提供了一种可读存储介质，所述可读存储介质包括存储的计算机程序，所述计算机程序执行时，控制所述可读存储介质所在的设备执行本发明任意一项方法项实施例所述的针对机器鱼的高阶迭代自学习控制方法。

本发明的实施例，具有如下有益效果：

本发明提供了一种针对机器鱼的高阶迭代自学习控制方法、装置及存储介质，该控制方法通过构建第一控制增益集合，并对第一控制增益集合中的控制增益进行择优迭代，不断地优化第一控制增益集合中的控制增益，并根据适应度的高低挑选出目标控制增益，并根据所述目标控制增益和跟踪误差进行高阶迭代不断地优化机器鱼的控制输入推力，最终得到目标控制输入推力，机器鱼根据目标控制输入推力进行摆动，获得期望游速，继而实现期望的运动轨迹；本技术方案的关键在于机器鱼根据所述目标控制增益和跟踪误差对控制输入推力的高阶迭代计算实现了控制机器鱼在整个操作空间内游速的完全跟踪和快速收敛。

附图说明

图1是本发明一实施例提供的机器鱼的控制方法的流程示意图；

图2是本发明一实施例提供的机器鱼的控制装置的结构示意图；

图3是本发明一实施例提供的机器鱼的系统输出轨迹图；

图4是本发明一实施例提供的绝对误差之和在不同迭代次数时的收敛曲线；

图5是本发明一实施例提供的误差的平方和在不同迭代次数时的收敛曲线；

图6是本发明一实施例提供的最大绝对误差在不同迭代次数时的收敛曲线；

图7是本发明一实施例提供的计算机器鱼的最优控制增益流程示意图；

图8是本发明一实施例提供的计算机器鱼的目标控制输入推力序列流程示意图；

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一实施例提供的一种针对机器鱼的高阶迭代自学习控制方法，包括：

步骤S101:构建第一控制增益集合，所述第一控制增益集合包括N个控制增益元素，每个所述控制增益元素包括M个控制增益以及每个控制增益元素各自对应的一个元素适应度；M和N均为正整数。

步骤S102:对所述第一控制增益集合中的控制增益元素进行择优迭代得到目标控制增益集合，并将所述目标控制增益集合中适应度最高的控制增益元素中的M个控制增益作为目标控制增益进行输出。

步骤S103:根据所述目标控制增益、第一控制输入推力和第一跟踪误差进行高阶迭代计算得到目标控制输入推力，并根据所述目标控制输入推力控制机器鱼进行摆动，以获得期望速度；所述第一控制输入推力的初始值为预设值，所述第一跟踪误差根据摆动速度和期望速度计算得到。

在一个优选的实施例中：

步骤S101：构建第一控制增益集合，所述第一控制增益集合包括N个控制增益元素，每个所述控制增益元素包括M个控制增益以及每个控制增益元素各自对应的一个元素适应度；M和N均为正整数；

每个所述控制增益元素各自对应的一个适应度是根据所述控制增益和所述第一跟踪误差序列计算而获得，具体为：

获取待计算的控制增益元素；

根据所述待计算的控制增益元素中M个控制增益和第一跟踪误差序列计算得到第二控制输入推力序列；

根据所述第二控制输入推力序列控制所述机器鱼进行摆动，以获得摆动速度序列，根据所述摆动速度序列和期望速度序列的差值得到第二跟踪误差序列的绝对值之和；

根据预设的第一阈值和所述第二跟踪误差序列的绝对值之和的差值得到所述待计算的控制增益元素的适应度。

步骤S102:对所述第一控制增益集合进行扩充：依次对所述第一控制增益集合中的控制增益元素进行判断，选择出满足第一预设条件的控制增益元素，并对所述满足预设条件的控制增益元素进行交叉算子和变异算子计算，获得用于扩充所述第一控制增益集合的多个新的控制增益元素，并将所述多个新的控制增益元素添加到所述第一控制增益集合；

对所述第一控制增益集合进行择优保留：根据轮盘赌策略和精英保留策略对所述扩充后的第一控制增益集合中的控制增益元素进行选择，得到优化后的第一控制增益集合，直到对第一控制增益集合的迭代次数满足预设第二阈值，将所述第一控制增益集合作为目标控制增益集合进行输出；

再选择所述目标控制增益集合中适应度最高的控制增益元素中的M个控制增益作为目标控制增益进行输出。

步骤S103:根据所述目标控制增益、所述第一控制输入推力序列和所述第一跟踪误差序列，迭代计算目标控制输入推力序列，每次迭代计算均根据当前的目标控制输入推力序列控制所述机器鱼进行摆动，继而获得目标跟踪误差序列，并根据当前的目标跟踪误差序列和目标控制输入推力序列更新所述第一控制输入推力序列和所述第一跟踪误差序列，直到所述目标跟踪误差序列满足预设的指标条件时，输出当前的目标控制输入推力序列，并根据所述目标控制输入推力序列控制机器鱼进行摆动，以获得期望速度序列，并实现控制机器鱼按照期望运动轨迹游动。

更为详细的例子如下：

步骤A:构建双连杆机器鱼的动态数学模型和高阶迭代控制律；

步骤A1:构建双连杆机器鱼运动时的动态数学模型为：

其中j∈{0,1,2,…}表示迭代次数，t∈[0,T]表示时间，

为双连杆机器鱼的质量，τ＝165.7056kg/m为水阻力系数，V_j(t)为双连杆机器鱼在第j次迭代t时刻的摆动速度，F_j(t)表示在第j次迭代t时刻由尾部运动产生的向前推力(即控制输入推力)。令采样间隔T_s＝0.1，对双连杆机器鱼的摆动速度V_j(t)进行采样得到摆动速度的采样序列V_j(i·T_s)，i＝{0,1,…,M}，

同样的，对控制输入推力F_j(t)进行采样得到控制输入推力的抽样序列F_j(i·T_s)。所述双连杆机器鱼运动时的动态数学模型构建了双连杆机器鱼的摆动速度V_j(t)和输入控制推力F_j(t)之间的计算关系。

在对输入控制推力F_j(t)进行初始化时，将所述输入控制推力F_j(t)的初始值作为模型

的入参，并计算得到双连杆机器鱼的摆动速度序列。

令摆动速度序列V_j(i·T_s)为系统状态x_j(i)，控制输入推力序列F_j(i·T_s)为系统的控制输入u_j(i)，利用导数的定义有：

于是可以将(1)式离散化为以下离散动态系统：

其中

又令(2)式中包含系统状态的非线性部分

容易得到如下离散非线性动态系统的一般形式：

其中

C＝1，j∈{0,1,2,…}表示迭代次数，i＝{0,1,…,M}

表示离散时间点数，x_j(i)∈R，u_j(i)∈R和y_j(i)∈R分别表示系统状态、控制输入和系统输出。B∈R和C∈R分别为系统的输入系数和输出系数，f(·)∈R为系统的状态函数。对于i∈{0,1,…,M}，y_d(i)＝Cx_d(i)表示期望输出，其中x_d(i)为相应的期望状态。e_j(i)＝y_d(i)-y_j(i)表示第j次迭代时双连杆机器鱼的跟踪误差序列。

步骤A2:构建双连杆机器鱼的高阶迭代控制律并确定控制增益的取值范围；

根据离散非线性动态系统(3)，提出以下高阶迭代学习控制方法：

其中N≥1为高阶迭代学习控制律(7)的阶数，对于v＝1,2,…,N，W_v∈R和L_v∈R(|L_v|≤s_L)为控制增益。

针对离散非线性动态系统(3)，预设下列条件：

条件1：对于所有的迭代j，针对离散非线性动态系统(3)的初始状态满足下式：

x_j(0)＝x_d(0) (4)

条件2：针对离散非线性动态系统(3)的非线性函数f(·)满足全局Lipschitz条件，即对于

其中l_z＞0为Lipschitz常数。

条件3：CB≠0。

条件4：存在唯一的控制输入u_d(i)使得期望输出轨迹y_d(i)是可达的。

条件1-4同时成立时，应用高阶迭代学习控制律(7)控制双连杆机器鱼的摆动速度，要想使双连杆机器鱼的跟踪误差

则机器鱼的控制增益W_v和L_v(|L_v|≤s_L)需满足下列条件(即确定控制增益的取值范围)：

步骤B:计算双连杆机器鱼的目标控制增益；

步骤B1:确定控制增益元素的编码策略(编码策略将实际问题表示为一组编码，使计算机能够识别并进行相应的计算)；

在高阶迭代学习控制律(7)中要优化的控制增益是W_v和L_v(v＝1,2,…,N)，因此采用实数编码来表示控制增益。由于收敛条件(8)成立，容易得到

因此，采用变量向量λ∈R^1×(2N-1)作为控制增益元素，所述控制增益元素编码策略则表示为

λ＝[W₁ W₂ … W_N-1 L₁ L₂ … L_N] (11)

步骤B2:初始化控制增益集合以及计算控制增益元素的适应度；

根据步骤A2中确定的控制增益的取值范围，初始化控制增益集合中的全部控制增益元素P个，P＝100；所述控制增益元素中的控制增益均满足(8)-(10)式；

在控制增益集合中控制增益元素λ_h∈R^1×(2N-1)表示为

其对应的初始化向量为

另一方面，对于变量λ_h，设Y_h(i,λ_h)为系统在第i个时间点对应第h个控制增益元素的输出。为了评价控制增益元素的适应性，建立控制增益元素h的适应度函数fit_h(λ_h)∈R如下

fit_h(λ_h)＝M_a-E_h(λ_h) (13)

其中M_a是一个足够大的常数，E_h(λ_h)为第二跟踪误差的绝对值之和，即

根据适应度函数(13)和初始变量

得到控制增益元素h的初始适应度值

得到控制增益集合的初始适应值fitⁱⁿⁱ∈R^P如下

进一步构造控制增益集合popⁱⁿⁱ∈R^P×2N为

popⁱⁿⁱ＝[λⁱⁿⁱ fitⁱⁿⁱ] (16)

其中，控制增益元素的初始变量为

(17)式中的第β行第α列表示控制增益元素β(1≤β≤P)的第α(1≤α≤2N-1)个控制增益。(16)式的最后一列是与控制增益元素对应的适应度值。

步骤B2的一种实施方式为：当高阶迭代学习控制律(7)的阶数为2时，则有4个控制增益需要优化，即W₁,W₂,L₁,L₂；同时，根据收敛条件(8)，可得W₂＝1-W₁，因此实际需要优化的控制增益为W₁,L₁,L₂；

根据收敛条件(8)-(10)，确定W₁,L₁,L₂的范围分别是[0.7,0.8]，[0.4,0.5]和[0.4,0.5]，并在该范围内对W₁,L₁,L₂进行初始化；确定控制增集合中的控制增益元素为100个，使用启发式的方法随机选择位于区间[0.7,0.8]，[0.4,0.5]和[0.4,0.5]中的随机数分别作为每个控制增益元素的W₁,L₁,L₂，具体为，

第一个控制增益的取值范围：W1min＝0.7；W1max＝0.8；

第二个控制增益的取值范围：L1min＝0.4；L1max＝0.5；

第三个控制增益的取值范围：L2min＝0.4；L2max＝0.5；

生成第一个控制增益的随机数：iniW1＝W1min+(W1max-W1min)*rand(P,1)；

生成第二个控制增益的随机数：iniL1＝L1min+(L1max-L1min)*rand(P,1)；

生成第三个控制增益的随机数iniL2＝L2min+(L2max-L2min)*rand(P,1)；

根据控制增益的初始值和(13)式，计算所述控制增益元素对应的适应度初始值：inifit＝fitness(iniW1,iniL1,iniL2)；构成控制增益元素，前三列为控制增益，最后一列为适应度值：inipop＝[iniW1，iniL1，iniL2，inifit]；

该针对控制增益集合初始化的方法有助于计算目标控制增益过程的快速收敛。

步骤B3:对初始化后的控制增益集合进行扩充；

步骤B3中的一种扩充方案为：控制增益元素是否需要交叉取决于交叉概率0＜p_c＜1。对于控制增益元素h′，h′＝1,3,5,…,P-1，生成一个介于0和1之间的随机数r_h′。判断r_h′＞p_c，则进行交叉操作。否则，不进行交叉操作。由于采用实数编码，因此选择算术交叉算子进行计算。假设控制增益集合中需要进行交叉的控制增益元素h′和h′+1的变量向量分别表示为par_λ_h′和par_λ_h′+1。交叉后，它们产生两个新的控制增益元素，变量向量分别表示为chi_λ_h′和chi_λ_h′+1，所述chi_λ_h′和chi_λ_h′+1的计算方法为：

其中h′＝1,3,5,…,P-1，η_h′∈(0,1)为par_λ_h′和par_λ_h′+1的交叉权重。

步骤B3的一种实施方式为：

对第1,3,5,…,P-1个控制增益元素进行判断，当满足交叉条件时，应用(18)式对该控制增益元素par1与下一个控制增益元素par2进行交叉操作，生成对应的两个新的控制增益元素chi1和chi2，计算过程如下：

步骤B3中的扩充方案还可以是：根据变异概率0＜p_m＜1来决定某个控制增益元素是否需要变异。对于控制增益元素h，随机产生一个介于0和1之间的数r_h。若r_h＞p_m，则进行变异操作。否则，不进行变异操作。设需要变异的控制增益元素h的变量向量为par_λ_h，变异后产生新的控制增益元素的变量向量为chi_λ_h，所述chi_λ_h的计算方法为：

chi_λ_h＝par_λ_h+m_h,h＝1,2,…,P, (19)

其中m_h∈R^1×(2N-1)是控制增益元素h的变异权重。

将新的控制增益元素添加到控制增益集合，得到扩充后的新的控制增益集合。

步骤B3的另一种实施方式为：

对控制增益集合中的每个控制增益元素进行判断，当满足变异条件时，应用(19)式对该控制增益元素进行变异操作，生成一个新的控制增益元素，计算过程如下：

步骤B4:对扩充后的控制增益集合中的控制增益元素进行择优保留，淘汰掉适应度较差的控制增益元素，得到优化后的控制增益集合；

采用轮盘赌和精英保留相结合的选择策略将扩充后的控制增益集合中的控制增益元素选入新的控制增益集合，所述新的控制增益集合用于下一次迭代。所述轮盘赌策略使得适应度较大的控制增益元素能够以较高的概率选入新的控制增益集合，但其中一个缺点是可能会淘汰在较老的控制增益元素中的最好控制增益元素。因此结合使用精英保留策略，确保前几次迭代中最优秀的控制增益元素得以保留。基于这两种选择策略，可以有效减少计算目标控制增益时的迭代次数。

作为本实施例中的另一种方案，步骤B4可置于步骤B2和B3之间。

步骤B5:结束迭代计算，输出目标控制增益；

预设计算目标控制增益迭代次数为100，当迭代次数大于100时结束迭代，当迭代次数小于100时继续迭代执行B3、B4。最后，由上述迭代计算过程产生目标控制增益元素，所述目标控制增益元素的目标控制增益

和

为机器鱼的最优控制增益。根据收敛条件(8)，最后一个控制增益可由式

导出。

本实施例通过步骤B2-B5创造性改进了控制增益的计算方法，并通过所述最优控制增益控制双连杆机器鱼实现摆动速度序列快速收敛至期望速度序列；通过步骤B2-B5得到目标控制增益的关键在于：

1)、构建控制增益集合，通过将一个控制增益元素中的一组控制增益代入高阶迭代学习控制律(7)式得到双连杆机器鱼控制输入推力序列，再将控制输入推力序列代入(3)式，得到所述双连杆机器鱼的摆动速度序列，并根据摆动速度序列和期望速度序列的差值计算跟踪误差序列，继而根据所述跟踪误差序列得到所述一组控制增益的适应度，并通过该适应度来判断所述一组控制增益的对双连杆机器鱼的摆动速度的收敛效果，适应度越高，表明该适应度对应的一组控制增益的收敛效果越好。

2)、通过步骤B3的扩充方案得到新的控制增益元素，其中部分新的控制增益元素相较于原来的控制增益元素具有更高的适应度，因此本实施例通过步骤B3得到了更优的控制增益元素。并通过步骤B4对扩充后的控制增益集合进行择优保留，不仅可以选择出新的控制增益元素中较优的部分，还可以选择出原来的控制增益元素中较优的部分。再通过多次迭代，进行多次扩充和优化，最终得到目标控制增益。

步骤C:将所述目标控制增益、第一控制输入推力序列和第一跟踪误差序列输入所述高阶迭代学习控制律(7)式得到目标控制输入推力序列，将所述目标控制输入推力序列输入所述离散非线性动态系统(3)式得到机器鱼的摆动速度序列，根据所述机器鱼的摆动速度序列和期望速度序列的差值得到目标跟踪误差序列；

根据所述目标跟踪误差序列计算跟踪误差指标，当所述跟踪误差指标小于预设范围时，停止迭代，此时，所述机器鱼的摆动速度序列即为期望速度序列，本实施例实现控制机器鱼按照期望轨迹运动。

本实施例的效果检测过程如下：

针对双连杆机器鱼系统(1)，采用阶数N＝2的迭代学习控制律(7)，通过演化计算对(7)式中的控制增益W₁，L₁和L₂进行优化，根据收敛条件(8)，最后一个控制增益可由W₂＝1-W₁得到。假设交叉概率p_c＝0.7，变异概率p_m＝0.3。

系统的期望输出轨迹为

y_d(i)＝0.016[1+sin(2πi/M-π/2)],i∈{0,1,…,M+1} (20)

其中M＝99。为了评价跟踪效果，分别采用以下三个跟踪误差指标：

1)绝对误差之和SE_k

2)误差的平方和TE_k

3)最大绝对误差ME_k

运行演化计算10次得到的目标控制增益如表1所示。将演化计算得到的目标控制增益的平均值W₁＝0.755，W₂＝0.245，L₁＝0.4582和L₂＝0.446应用到本实施例的高阶迭代学习控制律(7)中，当j＝15，j＝22和j＝39时，双连杆机器鱼的输出轨迹如图3所示。为了与传统的高阶迭代学习控制方法比较，也对传统的2阶迭代学习控制方法进行了仿真实验，其控制增益为W₁＝0.7，W₂＝0.3，L₁＝0.3和L₂＝0.2。图4-6比较了两种控制方法对应的绝对误差之和SE_k、误差的平方和TE_k以及最大绝对误差ME_k。

表1：运行演化计算10次得到的目标控制增益

如图3所示，本实施例能够在整个操作区间内，控制机器鱼实现摆动速度的完全跟踪。如图4-6所示，本实施例所提出的针对机器鱼的高阶迭代自学习控制方法，比具有相同阶数的传统高阶迭代学习控制方法的收敛速度更快。

本实施例利用高阶迭代学习控制来解决仿生机器鱼的精确速度跟踪问题，这对于运动控制和运动规划都是必不可少的。作为一种智能控制方法，本实施例通过模拟人类的“学习”过程，根据前次迭代的跟踪信息，利用递归技术不断修正控制输入信号，逐渐减小系统跟踪误差，实现固定区间上轨迹的完全跟踪，特别适用于在相同运行区间上进行重复跟踪运动的动态系统。本实施例的最大的优势在于不依赖于系统精确的数学模型，这使得其能够应用于具有强耦合性、强非线性和不确定性的动态系统。因此，与前述传统控制方法相比，本实施例具有以下两个优势：1)不需要知道系统精确的数学模型；2)能够实现在整个操作区间内的完全跟踪。

在当前的迭代学习控制方法中，一阶迭代学习控制由于形式简单得到了广泛应用，如针对离散系统的P型迭代学习控制和针对连续系统的D型迭代学习控制。然而，这些一阶迭代学习控制方法只利用上一次迭代的跟踪信息来更新当前迭代的控制输入，而忽略了上一次迭代的跟踪信息。为了获得更快的收敛速度，学者们提出了高阶迭代学习控制算法，利用历史多次迭代的跟踪信息产生当前迭代的控制输入信号。值得注意的是，由于利用了历史多次迭代的跟踪信息，具有适当控制增益的高阶迭代学习控制算法的跟踪性能要优于一阶迭代学习控制。因此，如何选择最优控制增益是高阶迭代学习控制设计中的一个重要问题。

本实施例针对机器鱼的速度跟踪问题，采用演化算法自适应地选择高阶迭代学习控制方法中的最优控制增益。本实施例根据高阶迭代学习控制方法的特点，设计了演化算法的编码策略、种群初始化和适应度函数，减少了演化算法的迭代次数。然后将所设计的演化算法应用到高阶迭代学习控制中，优化控制增益。与传统的高阶迭代学习控制方法相比，本实施例提出的基于演化算法的高阶迭代学习控制方法提高了跟踪误差收敛速度，实现了机器鱼在整个操作区间内速度的完全跟踪。并且，由于迭代学习控制律的设计不需要知道系统精确的数学模型，本实施例所提出的方法不仅适用于前述的机器鱼模型，还适用于其他具有重复运动的动态系统。

在另一个优选的实施例中：

如图8所示，根据演化算法，经过如图8所示的步骤得到最优控制增益(即目标控制增益)；

如图7所示，再根据所述最优控制增益经过如图7所示的步骤使得所述机器鱼的实际速度序列收敛至期望速度序列，并输出最后一次的控制输入推力序列即为目标控制输入推力序列，以实现控制机器鱼按照期望运动轨迹进行游动。

在上述发明实施例的基础上，本发明对应提供了装置项实施例，如图2所示；

本发明另一实施例提供了一种针对机器鱼的高阶迭代自学习控制装置，包括：控制增益初始化模块、目标控制增益计算模块和目标控制输入推力计算模块；

获取待计算的控制增益元素；

需要说明的是，本发明上述装置项实施例，是与本发明方法项实施例相对应的，其能够实现本发明任意一项发明项实施例所述的针对机器鱼的高阶迭代自学习控制方法。

在上述发明项实施例的基础上，本发明对应提供了可读存储介质项实施例；

本发明另一实施例提供了一种可读存储介质，所述可读存储介质包括存储的计算机程序，所述计算机程序执行时，控制所述可读存储介质所在的设备执行如本发明任意一项方法项实施例所述的针对机器鱼的高阶迭代自学习控制方法。

示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质(即上述可读存储介质)中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

Claims

1.针对机器鱼的高阶迭代自学习控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的针对机器鱼的高阶迭代自学习控制方法，其特征在于，每个所述控制增益元素各自对应的一个适应度是根据所述控制增益和所述第一跟踪误差计算而获得，具体为：

获取待计算的控制增益元素；

3.根据权利要求2所述的针对机器鱼的高阶迭代自学习控制方法，其特征在于，对所述第一控制增益集合中的控制增益元素进行择优迭代得到目标控制增益集合，具体包括：

4.根据权利要求3所述的针对机器鱼的高阶迭代自学习控制方法，其特征在于，根据第二预设条件对扩充后的第一控制增益集合中的所有控制增益元素进行择优保留，得到优化后的第一控制增益集合，具体为：

5.根据权利要求4所述的针对机器鱼的高阶迭代自学习控制方法，其特征在于，根据所述目标控制增益、第一控制输入推力和第一跟踪误差进行高阶迭代计算得到目标控制输入推力，具体为：

6.根据权利要求1至5任一项所述的针对机器鱼的高阶迭代自学习控制方法，其特征在于，根据所述目标控制输入推力控制机器鱼进行摆动，以获得期望速度，具体为根据目标控制输入推力序列控制机器鱼进行摆动，以获得期望速度序列，继而实现期望运动轨迹。

7.一种针对机器鱼的高阶迭代自学习控制装置，其特征在于，包括：控制增益初始化模块、目标控制增益计算模块和目标控制输入推力计算模块；

8.根据权利要求7所述的针对机器鱼的高阶迭代自学习控制装置，其特征在于，所述控制增益初始化模块中，每个所述控制增益元素各自对应的一个适应度是根据所述控制增益和所述第一跟踪误差计算而获得，具体为：

获取待计算的控制增益元素；

9.根据权利要求7或8所述的针对机器鱼的高阶迭代自学习控制装置，其特征在于，在目标控制增益计算模块，对所述第一控制增益集合中的控制增益元素进行择优迭代得到目标控制增益集合，具体包括：

10.一种可读存储介质，其特征在于，所述可读存储介质包括存储的计算机程序，所述计算机程序执行时，控制所述可读存储介质所在的设备执行如权利要求1至6中任意一项所述的针对机器鱼的高阶迭代自学习控制方法。