CN117519207A

CN117519207A - 一种基于增量支配mpc的高速高精轨迹跟踪控制方法和系统

Info

Publication number: CN117519207A
Application number: CN202311678565.0A
Authority: CN
Inventors: 叶伯生; 罗智辉; 邵柏岩; 姚家骥; 金雄程; 汪胜利; 李晓昆; 李思澳
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-02-06

Abstract

本发明公开了一种基于增量支配MPC的高速高精轨迹跟踪控制方法和系统，其中方法包括：在增量MPC控制器的基础上，通过二进制编码定量定义相邻控制增量之间的支配关系，构建支配关系向量DRV，使待求解的控制增量受限以降低在线求解自由度。然后，利用状态量的平均误差和平均求解时间构建损失函数，并基于BiEO算法对支配关系向量中的受限部分进行优化，进而得到支配关系矩阵DRM。最后，利用支配关系矩阵重构MPC的目标函数与约束条件，建立增量支配MPC控制器，可实现高速高精的轨迹跟踪效果。本发明可有效解决传统MPC难以满足高采样率快速系统的实时控制问题，在不影响控制平稳性的基础上，对控制精度有一定的提升，实时性明显，可实现高速高精跟踪控制。

Description

一种基于增量支配MPC的高速高精轨迹跟踪控制方法和系统

技术领域

本发明属于AGV轨迹跟踪控制领域，更具体地，涉及一种基于增量支配MPC的高速高精轨迹跟踪控制方法和系统。

背景技术

自动驾驶及移动物流车(AGV)因其独特优势倍受学术界关注。其中的关键技术包括感知、决策和控制三部分，轨迹跟踪是控制的核心目的，是保障行驶过程准确、稳定和安全的前提，具有重要研究价值。在跟踪控制中常用PID、滑模控制、自适应鲁棒控制和迭代学习等方法。上述方法均是预先设定系统控制率，而MPC采用在线求解控制量的方式，在处理轨迹跟踪等多约束最优控制问题上具有显著优势，因而在无人驾驶领域被广泛应用。

然而MPC在线求解控制量，难以满足高采样率快速系统的实时性要求。针对MPC实时性的改进方法主要分三类：1)显式化，利用参数化编程方法预先求解MPC的离线解并储存于系统，以便使用时查找并计算最优控制量。但该方法依赖具体模型，且控制系统参数随控制域指数增长，不仅对控制器的储存能力提出挑战，而且在求解初期搜索对应储存空间也需消耗大量时间，不适用于快速系统。2)改进求解算法，设计速度更快的算法代替原本的二次规划。此类方法需设计复杂算法，并常以降低跟踪精度为代价。3)输入参数化，禁止控制量在每个采样步长中自由变化而按预定义的规则变化。相较前两类方法，该方法不依赖于具体模型，有更强的普适性和鲁棒性。

总而言之，为满足高采样率快速系统的实时性要求，需要保证轨迹跟踪精度的平稳性以及控制方法有一定的可实施性，但现有的MPC控制方法在高采样率快速系统下不能同时保证控制方法难易程度、轨迹跟踪精度和控制实时性，存在轨迹跟踪实时性较差问题。

发明内容

针对现有技术中存在的以上缺陷或改进需求，本发明提出了一种基于增量支配MPC高速高精轨迹跟踪控制方法和系统，由此解决现有的MPC控制方法在高采样率快速系统下不能同时保证控制方法难易程度、轨迹跟踪精度和控制实时性，存在轨迹跟踪实时性较差问题。

为实现上述目的，按照本发明的第一方面，提供了一种基于增量支配MPC的高速高精轨迹跟踪控制方法，包括：

将控制时域N_c内的N_c个控制增量中距离当前时刻较近的m个控制增量设定为不受上一时刻控制增量支配且对应的支配参数均为1，距离当前时刻较远的w个控制增量设定为受上一时刻控制增量支配且对应的支配参数均为0，其余n个控制增量是否受上一时刻控制增量支配通过寻优算法确定；再将各支配参数顺序排列，构成支配关系向量DRV；

构建一个N_c阶全零矩阵，将前m行上的对角线元素赋值为1；随后的n行，若DRV中第i个元素为0，则置第i行中，第i-1行为1的同列元素为1，否则置第i行中，第i-1行为1的下一列元素为1，其中i＝m+1、m+2、…、m+n；记录第m+n行为1的元素所在的列数，置其余w行该列的后一列均为1，得到支配关系矩阵DRM；

利用所述支配关系矩阵DRM对控制增量进行变换，重构增量MPC控制器的目标函数与约束条件，形成增量支配MPC控制器，以实现高速高精轨迹跟踪控制。

进一步地，所述利用所述支配关系矩阵DRM对控制增量进行变换，包括：将所述支配关系矩阵DRM与控制增量的乘积作为新的控制增量。

进一步地，采用BiEO算法对所述其余n个控制增量对应的支配参数进行寻优，具体为：

对预设数量的n维向量个体进行初始化搜索种群操作；

构建以所有采样点的状态分量的平均误差和在线求解平均时长作为综合评价指标的损失函数，在BiEO算法迭代过程中以最小化损失函数为目标；

将每次优化迭代中四个迄今为止最好的个体加上四个个体的算术平均值作为平衡候选解集，每次迭代过程中以等概率从所述平衡候选解集中选取一个个体作为BiEO算法最终收敛到平衡状态时的候选解。

进一步地，所述对预设数量的n维向量个体进行初始化搜索种群操作，包括：

以就近圆整运算方法处理随机产生的[0 1]之间变量，并将其作为初始化种群的向量组成，具体初始化方式如下：

Ω_j ^initial＝round(rand_j)，j＝1,2,…D

式中，Ω_j ^initial为初始化的第j个个体，维数为n；rand_j为所有元素均在[0 1]之间的n维随机向量；round为就近圆整运算；D为种群中的个体总数。

进一步地，影响BiEO算法性能的指数项包括：

式中，为Hadamard积；a₁和a₂分别为调节全局和局部搜索能力的系数；r和λ均为n维随机向量；时间t随迭代次数的增加而逐步衰减，Iter和MaxIter为当前迭代次数和最大迭代次数。

进一步地，影响BiEO算法性能的质量生成项包括：

式中，r₁和r₂为[0,1]中的均匀随机数；ones为n维全1向量；Ω为当前解；Ω_eq为本次迭代在平衡候选解集中选取的候选解；G为质量生成速率；G₀为初始值；GCP是生成速率控制参数，决定生成项参与更新过程的概率；GP为生成概率，决定有多少个体使用生成项来进行更新。

进一步地，所述BiEO算法的更新规则包括：

式中，为t时刻第j个个体的第k个维度，s₁、s₂、ω₁和ω₂为[0,1]之间的均匀随机数，V为控制容积，在更新过程中依次计算得到变化量ΔΩ、概率P和更新量/>完成个体每个维度的更新。

按照本发明的第二方面，提供了一种基于增量支配MPC的高速高精轨迹跟踪控制系统，包括：

支配关系向量DRV构建模块，用于将控制时域N_c内的N_c个控制增量中距离当前时刻较近的m个控制增量设定为不受上一时刻控制增量支配且对应的支配参数均为1，距离当前时刻较远的w个控制增量设定为受上一时刻控制增量支配且对应的支配参数均为0，其余n个控制增量是否受上一时刻控制增量支配通过寻优算法确定；再将各支配参数顺序排列，构成支配关系向量DRV；

支配关系矩阵DRM构建模块，用于构建一个N_c阶全零矩阵，将前m行上的对角线元素赋值为1；随后的n行，若DRV中第i个元素为0，则置第i行中，第i-1行为1的同列元素为1，否则置第i行中，第i-1行为1的下一列元素为1，其中i＝m+1、m+2、…、m+n；记录第m+n行为1的元素所在的列数，置其余w行该列的后一列均为1，得到支配关系矩阵DRM；

增量支配MPC控制器构建模块，用于利用所述支配关系矩阵DRM对控制增量进行变换，重构增量MPC控制器的目标函数与约束条件，形成增量支配MPC控制器，以实现高速高精轨迹跟踪控制。

按照本发明的第三方面，提供了一种电子设备，包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述方法的步骤。

按照本发明的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。

与现有技术相比，本发明的优点在于：

(1)本发明针对传统MPC无法满足高采样率快速系统的实时控制问题，提出增量支配MPC。通过定义前后控制增量之间的支配关系，构建支配关系矩阵，并利用该矩阵使待求解的控制增量受限，降低在线求解的自由度，提高MPC的实时性。

(2)为使增量支配MPC在线求解的过程中专注于当前控制增量，实现高速高精控制，本发明利用状态量平均误差和求解平均时间构造损失函数，并基于BiEO算法对支配关系矩阵中的受限部分进行二进制优化，得到有利于实时性和控制精度的支配关系矩阵。

(3)增量支配MPC在不影响控制平稳性的基础上，对控制精度有小幅度的提升，可实现高速高精跟踪控制。

附图说明

图1是本发明实施例提供的一种基于增量支配MPC的高速高精轨迹跟踪控制方法的流程图；

图2为本发明实施例提供的AGV运动学模型图；

图3为本发明实施例提供的DRM矩阵生成算法流程图；

图4(a)至图4(d)分别为本发明实施例提供的n取25、30、40、50时对应的BiEO算法迭代曲线图；

图5为本发明实施例提供的增量支配MPC与传统MPC控制实时性对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，针对目前控制算法难以满足高采样率快速系统的实时性要求，本发明提供了一种基于增量支配MPC的高速高精轨迹跟踪控制方法，包括：

建立自动驾驶及移动物流车(AGV)运动学模型并设计增量MPC控制器，对控制域内的控制增量类型进行三分类，并定义二进制控制增量支配关系参数σ表示各控制增量的支配关系。基于二进制平衡优化算法BiEO对参数σ的取值进行寻优，确定各控制增量之间的支配关系参数σ_i，将各控制增量的支配关系参数顺序排列，构成支配关系向量DRV。设计一种矩阵生成算法，对支配关系向量DRV进行处理生成对应阶支配关系矩阵DRM，并根据DRM对控制增量ΔU进行变换，得到支配控制增量ΔU^*，重构增量MPC的目标函数与约束条件，形成增量支配MPC控制器，可实现高速高精的轨迹跟踪效果。

以下实施例以仿真测试平台实验对比为例，对本发明的技术方案做进一步的解释说明。

实施例1

为保证作业过程平稳与安全，AGV一般设定较低的速度，此时可以忽略轮胎侧滑对轨迹跟踪控制的影响，可选用二自由度AGV运动学模型进行控制器设计，如图2所示。

在中低速工况下后轴横向速度近似为零，以后轴中心点为参考轨迹点，由物理方程与几何约束可得运动学模型为：

式中，x与y分别是参考点的横纵坐标，为横摆角，前后车轮的轴距l取2.6m，v与δ分别为后轮速度与前轮转角。

对于二自由度AGV模型，系统控制量u＝[v,δ]^T，状态量故状态变量数N_x＝3，控制变量数N_u＝2。在t时刻，将运动学模型表达式写成状态方程形式：

对于给定的期望轨迹X_r，同理可得：

式中，u_r＝[v_r,δ_r]^T。将期望轨迹方程在期望点处泰勒展开，忽略高阶项实现方程线性化：

令系统状态变量误差输入误差/>u_r取[10,0]^T，将上述两轨迹方程相减可得：

采用前向欧拉将所得方程离散化得k时刻状态空间方程：

式中η(k)为输出， T为采样周期。

k时刻的系统输入为k-1时刻的输入加k时刻的输入增量，故控制增量定义复合状态变量/>将k时刻状态空间方程转化为：

式中，

对于预测时域为N_p，控制时域为N_c(N_c≤N_p)的控制系统，由MPC的原理可知，k时刻存在预测输出方程：

Γ(k)＝Ψ(k)ξ(k)+Θ(k)ΔU(k)

式中，ξ(k)为k时刻系统的初始状态，为预测时域内的输出矩阵，/>为系统的输入矩阵，为状态量的系数矩阵。

为输入的系数矩阵。为避免二次规划过程中无法求得最优解，引入松弛因子ε及权重系数ρ，建立带有软约束的损失函数：

式中，Q与R为输入输出的权重矩阵，可依据实际需要设定；η_ref为期望轨迹状态量。由于AGV在行驶过程中的平稳性要求以及执行机构的约束，需要对系统的控制量及其增量同时进行约束：

由输入增量的定义可知：

并写成矩阵的形式：

简写为：

式中，为N_c维全1列向量；/>为Kronecker积；L(1)为非零元均为1的下三角矩阵；U₀(k)为k-1时刻输入量构成的向量。

由此，可以将二次规划写成标准形式：

J＝[ΔU(k)^T,ε]^TH_k[ΔU(k)^T,ε]+G_k[ΔU(k)^T,ε]

s.t.ΔU_min≤ΔU_k≤ΔU_max

U_min≤L(I_2×2)ΔU_k+U_k≤U_max

式中：

H_k＝diag(Θ(k)^TQΘ(k)+R,ρ)

G_k＝[2(Ψ(k)ξ(k))^TQΘ(k),0]

在上述增量MPC控制器的基础上，本发明对控制时域内的控制增量类型进行三分类，并定义控制增量支配关系参数σ表示各控制增量的支配关系。基于二进制平衡优化算法BiEO对参数σ的取值进行寻优，确定各控制增量之间的支配关系参数σ_i，将各控制增量的支配关系参数顺序排列，构成支配关系向量DRV。设计一种矩阵生成算法，对支配关系向量DRV进行处理生成对应阶支配关系矩阵DRM，并根据DRM对控制增量ΔU进行变换，得到支配控制增量ΔU^*，重构增量MPC的目标函数与约束条件，形成增量支配MPC控制器。具体地：

S1，将控制时域N_c内的N_c个控制增量中距离当前时刻较近的m个控制增量设定为不受上一时刻控制增量支配且对应的支配参数均为1，距离当前时刻较远的w个控制增量设定为受上一时刻控制增量支配且对应的支配参数均为0，其余n个控制增量是否受上一时刻控制增量支配通过寻优算法确定；再将各支配参数顺序排列，构成支配关系向量DRV。

在一个可选的实施例中，可以先定义支配关系参数σ：

将控制时域N_c内的N_c个控制增量分为m个可自由变化的控制增量，w个完全受控的控制增量，其余n个为支配关系待优化的受限控制增量，表示为：

N_c＝m+n+w

定义控制增量支配关系参数σ为：

接着，将控制时域N_c中距离当前时刻较近的m个控制增量均设定为精确求解的不存在支配关系的自由变量，即σ₁＝σ₂＝…＝σ_m＝1，设定距离当前时刻较远的w个控制增量为完全受控的存在支配关系的受控变量，即σ_m+n+1＝σ_m+n+2＝…＝σ_m+n+w＝0，对中间的n个支配关系待优化的受限变量采用BiEO算法进行寻优并赋值。将各控制增量的支配关系参数顺序排列，构成支配关系向量

进一步地，采用BiEO算法对所述其余n个控制增量对应的支配参数进行寻优，具体为：参数σ为0-1变量，故n个σ的组合优化问题可视为“背包问题”，采用二进制平衡优化算法BiEO对参数σ的取值进行寻优。

(1)初始化种群：

Ω_j ^initial＝round(rand_j)，j＝1,2,…D

(2)定义损失函数：

在寻优过程中，定义损失函数引导个体更新，以所有采样点的三个状态分量的平均误差和在线求解平均时长构建综合评价指标：

式中，X(t)为采样点的状态量，X_r(t)为采样点的期望状态量，A为状态量包含的分量总数，time为每次的采样时间，MEAN为平均值函数，可对所有变量值求和并取平均。

在迭代过程中，以最小化损失函数为目标。

(3)构建优化平衡池：

BiEO算法收敛到平衡状态，候选的平衡状态来自每次优化迭代中四个迄今为止最好的个体加上四个个体的圆整平均值。每次迭代过程中以等概率从这五个个体中选取一个个体作为候选解，以该五个个体构成的向量作为平衡池：

Ω_eq,pool＝[Ω_eq(1),Ω_eq(2),Ω_eq(3),Ω_eq(4),Ω_eq(ave)]

Ω_eq(ave)＝round(Ω_eq(1)+…+Ω_eq(4))

平衡池机制可以保障个体的高质量更新，又可以避免个体陷入局部最优解，增强全局搜索能力。

(4)确定指数项：

式中，为Hadamard积；a₁和a₂分别为调节全局和局部搜索能力的系数，取a₁＝2，a₂＝1；r和λ均为n维随机向量；时间t随迭代次数的增加而逐步衰减，Iter和MaxIter为当前迭代次数和最大迭代次数。确定指数项，能够使其可以随迭代周期自适应调节全局和局部搜索能力。

(5)确定质量生成项：

式中，r₁和r₂为[0,1]中的均匀随机数；ones为n维全1向量；Ω为当前解；Ω_eq为本次迭代在平衡池中选取的候选解；G为质量生成速率；G₀为初始值；GCP是生成速率控制参数，决定生成项参与更新过程的概率；GP为生成概率，决定有多少个体使用生成项来进行更新，取GP＝0.5。确定质量生成项，可以防止算法在寻优过程中在某个维度上陷入局部最小值。

(6)制定更新规则：

经过上述步骤后，BiEO算法采用下式进行个体更新：

式中，为t时刻第j个个体的第k个维度，s₁、s₂、ω₁和ω₂为[0,1]之间的均匀随机数，V为控制容积。在更新过程中依次计算得到变化量ΔΩ、概率P和更新量/>完成个体每个维度的更新。如此迭代，直至找到使损失函数值最低的一个个体，将该个体所表示的n维向量赋值给DRV受限变量处，进而完成DRM的构建。

S2，构建一个N_c阶全零矩阵，将前m行上的对角线元素赋值为1；随后的n行，若DRV中第i个元素为0，则置第i行中，第i-1行为1的同列元素为1，否则置第i行中，第i-1行为1的下一列元素为1，其中i＝m+1、m+2、…、m+n；记录第m+n行为1的元素所在的列数，置其余w行该列的后一列均为1，得到支配关系矩阵DRM。

示例性的，若m＝3、n＝3、w＝2，且DRV＝[1,1,1,0,1,0,0,0]，则首先构建一个八阶全零矩阵，并将前3行的对角线元素赋值为1。对于第4行，由于DRV中第4个元素为0，故置第4行中，第3行为1的同列(即第3列)元素为1。对于第5行，由于DRV中第5个元素为1，故置第5行中，第4行为1的下一列(即第4列)元素为1。对于第6行，由于DRV中第6个元素为0，故置第6行中，第5行为1的同列(即第4列)元素为1。对于第7行和第8行，由于第6行为1的元素在第4列，故置第7行和第8行中第5列均为1。得到的支配关系矩阵DRM可以表示为：

S3，利用所述支配关系矩阵DRM对控制增量进行变换，重构增量MPC控制器的目标函数与约束条件，形成增量支配MPC控制器，以实现高速高精轨迹跟踪控制。

示例性的，利用上述支配关系矩阵DRM对控制增量进行变换

经DRV变换后待求解的控制增量数量从8个简化为5个，可大幅降低计算复杂度，提升控制器的实时性。

通过支配关系矩阵DRM重构增量MPC的目标函数与约束条件，形成增量支配MPC控制器。改进后的二次规划标准形式为：

J＝[DRM×ΔU(k)^T,ε]^TH_k[DRM×ΔU(k)^T,ε]+G_k[DRM×ΔU(k)^T,ε]

s.t.ΔU_min≤DRM×ΔU_k≤ΔU_max

U_min≤DRM×L(I_2×2)×ΔU_k+U_k≤U_max

利用MATLAB2021b进行仿真实验，搭载仿真环境的处理器为Intel(R)Core(TM)i5-12490F，3.00GHz，内存为32GB，共进行两组实验，将本发明设计的增量支配MPC控制器与传统MPC控制器在实时性、控制精度和平稳性等方面进行对比。

在实验过程中，相关参数的设定见表1，实验期望轨迹设定为：

式中，x_r、y_r和分别为期望纵向位置、横向位置和横摆角，d_m1＝d_m2＝25,d_n1＝d_n2＝3.6，γ₁＝0.096×(x_r-60)-1.2，γ₂＝0.096×(x_r-120)-1.2。

控制器中其他参数的取值如表1所示。

表1参数取值及含义

轨迹跟踪是典型的高采样率系统，分别设定控制域为40、50、60和70，每组预测域比控制域多20，进行四组实验，每组实验设定自由控制量个数m和完全受控控制量个数w，如表2所示。将每组实验设定好的参数输入BiEO算法中，以所有采样点的状态量平均误差和在线求解平均时长作为损失函数对剩余的n个受限控制量的支配关系参数σ的取值进行组合优化，得到优化后的DRV，再通过图3流程获得最终的DRM。

表2相关参数设定及迭代结果

四组实验均设定BiEO算法的个体数为20，迭代周期为100，优化曲线如图4(a)至图4(d)，损失函数值见表1。经BiEO算法迭代后，可以得到优化后的DRV。其中，受限控制量中不受支配的控制量见表3。

表3受限控制量优化结果

利用优化后的DRV构建DRM并代入新构建的目标函数与约束条件中建立增量支配MPC。分别利用增量支配MPC与传统MPC对期望轨迹在不同控制域下进行轨迹跟踪，计算求解控制量所需的平均时间，计算结果如图5。

以实时性提升最大的控制域取值50为例，对传统MPC和增量支配MPC的控制精度进行对比。分别利用两种控制器对期望轨迹进行轨迹跟踪，分别计算平均纵向误差、平均横向误差、平均横摆角误差、前轮转角方差和后轮速度方差，计算结果见表4。

表4精度和平稳性实验结果

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本发明中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本发明所示的这些实施例，而是要符合与本发明所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于增量支配MPC的高速高精轨迹跟踪控制方法，其特征在于，包括：

2.如权利要求1所述的一种基于增量支配MPC的高速高精轨迹跟踪控制方法，其特征在于，所述利用所述支配关系矩阵DRM对控制增量进行变换，包括：将所述支配关系矩阵DRM与控制增量的乘积作为新的控制增量。

3.如权利要求1或2所述的一种基于增量支配MPC的高速高精轨迹跟踪控制方法，其特征在于，采用BiEO算法对所述其余n个控制增量对应的支配参数进行寻优，具体为：

对预设数量的n维向量个体进行初始化搜索种群操作；

4.如权利要求3所述的一种基于增量支配MPC的高速高精轨迹跟踪控制方法，其特征在于，所述对预设数量的n维向量个体进行初始化搜索种群操作，包括：

Ω_j ^initial＝round(rand_j)，j＝1,2,…D

5.如权利要求4所述的一种基于增量支配MPC的高速高精轨迹跟踪控制方法，其特征在于，影响BiEO算法性能的指数项包括：

6.如权利要求5所述的一种基于增量支配MPC的高速高精轨迹跟踪控制方法，其特征在于，影响BiEO算法性能的质量生成项包括：

7.如权利要求6所述的一种基于增量支配MPC的高速高精轨迹跟踪控制方法，其特征在于，所述BiEO算法的更新规则包括：

8.一种基于增量支配MPC的高速高精轨迹跟踪控制系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。