CN113805587B

CN113805587B - 多无人车分布式编队控制方法、装置和设备

Info

Publication number: CN113805587B
Application number: CN202111090082.XA
Authority: CN
Inventors: 张兴龙; 徐昕; 谢海斌; 方强
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2023-08-15
Anticipated expiration: 2041-09-17
Also published as: CN113805587A

Abstract

本申请涉及一种多无人车分布式编队控制方法、装置、计算机设备和存储介质。方法包括：针对运动学模型非线性、非凸约束、离散时间相互耦合的子系统组成的多无人车系统，在预测时域内以最小化全局性能指标函数为优化目标，以预测时域内的控制序列为待求解的变量，构建无人车的分布式模型预测控制最优化模型，通过分布式求解的方式求解上述模型预测控制问题，包括针对每个本地无人车构建一个本地控制策略逼近网络和一个本地值函数网络分别用于学习近似最优的控制策略和学习近似最优的性能指标函数，用于评价本地策略的好坏，得到预测时域内的控制策略后，由控制策略生成当前时刻的控制量作为无人车当前的控制量。

Description

多无人车分布式编队控制方法、装置和设备

技术领域

本申请涉及无人车控制领域，特别是涉及一种多无人车分布式编队控制方法、装置、计算机设备和存储介质。

背景技术

随着无人车技术的发展，无人车在服务和工业等领域有了越来越多的应用。多无人车的协同作业，例如编队运输等具有重要的应用前景。多无人车编队控制除了编队要求外，还应满足避障约束条件。目前一种可行的方法是利用分布式模型预测控制方法解决上述约束受限的分布式优化问题，但基于数值优化的计算方式还面临在线计算量大，很难实现高频率实时部署，以及无法大规模扩展的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够实现快速优化部署的多无人车分布式编队控制方法、装置、计算机设备和存储介质。

一种多无人车分布式编队控制方法，所述方法包括：

获取M个无人车组成的多无人车编队的队形信息，根据所述队形信息得到多无人车编队中每个无人车的编队误差信息；

获取无人车控制的状态避障约束信息，根据所述约束信息得到势场函数，根据本地无人车和邻居无人车的编队误差信息、本地无人车的控制量以及所述势场函数构建预测控制性能指标函数，根据所述本地性能指标函数构建全局性能指标函数；

在预测时域内以最小化所述全局性能指标函数为优化目标，以预测时域内的控制序列为待求解的变量，构建无人车的分布式模型预测控制最优化模型；其中，在每个预测时域[k，k+N-1]内，把所述模型预测控制最优化模型分解成N个子优化模型，每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解；

对于每个本地无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络；所述本地值函数网络包括值函数权值矩阵；

对于每个本地无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络；所述本地控制策略逼近网络包括控制策略权值矩阵；

对于每个本地无人车i＝1，…，M，在每个预测时刻τ∈[k，k+N-1]，根据所述本地值函数网络的值和预设的值函数的期望值，得到第一逼近误差，通过最小化所述第一逼近误差对应的逼近目标，得到所述本地值函数权值矩阵的值函数权值更新律；其中，在预测时域[k，k+N-1]的任意预测时刻τ，所述值函数的期望值中包括τ+L_τ+1时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值；

对于每个本地无人车i＝1，…，M，在每个预测时刻τ∈[k，k+N-1]，根据本地控制策略逼近网络的值和预设的控制量的期望值，得到第二逼近误差，通过最小化所述第二逼近误差的欧几里得范数，得到所述控制策略权值矩阵的控制策略权值更新律；其中，在预测时域[k，k+N-1]的任意预测时刻τ，所述控制量的期望值中包括τ+1时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值；

对于每个本地无人车i＝1，…，M，在多无人车编队控制的任意k时刻，根据k+N-1预测时刻的所述值函数权值更新律和所述控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及所述本地控制策略逼近网络得到无人车在任意k时刻的控制量。

在其中一个实施例中，还包括：获取M个无人车组成的多无人车编队的队形信息，根据所述队形信息得到多无人车编队中第i个无人车的本地编队误差信息为：

其中，a_ij表示第i个和第j个无人车的连接状态，a_ij＝1表示第i个无人车能够接收到第j个无人车的状态信息，g_i是连接增益，当g_i＝1时表示第i个无人车能够接收到预设的领导车的状态信号，Δh_ji和Δh_ri是矫正量，由具体的编队队形决定，矩阵T_i为：

q_i表示第i个无人车的状态，其运动学演化模型为：

其中，(x_i，y_i)为第i个无人车在笛卡尔坐标系下的位置坐标，θ_i和υ_i为车辆的横摆角和线速度，w_i和a_i为线加速度和横摆角，也是无人车的控制量；

根据所述本地编队误差信息和所述无人车运动学模型信息得到所述多无人车编队的本地无人车耦合模型为：

其中代表所有邻居无人车的集合，/>是第i个无人车的状态和控制变量，k是离散时间指针，/>和/>是状态和控制映射函数，/>

在其中一个实施例中，还包括：获取无人车控制的状态避障约束信息，根据所述约束信息得到势场函数所述势场函数是一个关于变量/>的连续函数，其中，/>为本地无人车的约束集合；当/>时所述的值趋近于0，当z_i趋近于/>的边界时其值逐渐趋近于无穷；

根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建预测控制性能指标函数为：

其中，为代价函数，为终端代价函数，P_i＝Q_i，e＝(e₁，…，e_M)，/>是与第i个无人车相邻的邻居无人车的本地编队误差组成的向量，μ＞0是可调参数；

根据所述本地性能指标函数，构建所有无人车的全局性能指标函数为：

在其中一个实施例中，还包括：在预测时域内以最小化所述全局性能指标函数为优化目标，以预测时域内的控制序列为待求解的变量，构建无人车的分布式模型预测控制最优化模型为：

min J(e(k))

u₁(k)，…，u_M(k)

在每个预测时域[k，k+N-1]内，把所述本地无人车的模型预测控制最优化模型分解成N个子优化模型进行求解；对于每个本地无人车i，在任意τ∈[k，k+N-1]构建模型预测控制最优化子模型为：

u_i(τ)

其中，

在其中一个实施例中，还包括：对于每个无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络为：

其中，和/>是值函数权值矩阵，/>是基函数向量。

在其中一个实施例中，还包括：对于每个无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络为：

其中是控制策略权值矩阵，/>是基函数向量。

在其中一个实施例中，还包括：在每个预测时刻τ∈[k，k+N-1]，定义值函数的期望值为：

根据所述本地值函数网络的值和所述值函数的期望值，得到第一逼近误差，通过最小化所述第一逼近误差对应的逼近目标δ_c，i(τ)＝q_c，1∈_c，i(τ)²+q_c，2∈_c，i(k+N)²，得到所述本地值函数权值矩阵的值函数权值更新律为：

其中，γ_c，i是更新律。

在其中一个实施例中，还包括：在每个预测时刻τ∈[k，k+N-1]，定义控制量的期望值为：

根据本地控制策略逼近网络的值和所述控制量的期望值，得到第二逼近误差通过最小化所述第二逼近误差的欧几里得范数δ_a，i(τ)＝||∈_a，i(τ)||²，得到所述控制策略权值矩阵的控制策略权值更新律为：

其中，γ_a，i是更新律。

一种多无人车分布式编队控制装置，所述装置包括：

本地无人车耦合模型构建模块，用于获取M个无人车组成的多无人车编队的队形信息，根据所述队形信息得到多无人车编队中每个无人车的编队误差信息；

预测控制性能指标函数构建模块，用于获取无人车控制的状态避障约束信息，根据所述约束信息得到势场函数，根据本地无人车和邻居无人车的编队误差信息、本地无人车的控制量以及所述势场函数构建预测控制性能指标函数，根据所述本地性能指标函数构建全局性能指标函数；

模型预测控制最优化模型构建模块，用于在预测时域内以最小化所述全局性能指标函数为优化目标，以预测时域内的控制序列为待求解的变量，构建无人车的分布式模型预测控制最优化模型；其中，在每个预测时域[k，k+N-1]内，把所述模型预测控制最优化模型分解成N个子优化模型，每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解；

本地值函数网络构建模块，用于对于每个本地无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络；所述本地值函数网络包括值函数权值矩阵；

本地控制策略逼近网络构建模块，用于对于每个本地无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络；所述本地控制策略逼近网络包括控制策略权值矩阵；

值函数权值更新律确定模块，用于对于每个本地无人车i＝1，…，M，在每个预测时刻τ∈[k，k+N-1]，根据所述本地值函数网络的值和预设的值函数的期望值，得到第一逼近误差，通过最小化所述第一逼近误差对应的逼近目标，得到所述本地值函数权值矩阵的值函数权值更新律；在预测时域[k，k+N-1]的任意预测时刻τ，所述值函数的期望值中包括τ+L_τ+1时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值；

控制策略权值更新律确定模块，用于对于每个本地无人车i＝1，…，M，在每个预测时刻τ∈[k，k+N-1]，根据本地控制策略逼近网络的值和预设的控制量的期望值，得到第二逼近误差，通过最小化所述第二逼近误差的欧几里得范数，得到所述控制策略权值矩阵的控制策略权值更新律；在预测时域[k，k+N-1]的任意预测时刻τ，所述控制量的期望值中包括τ+1时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值；

控制模块，用于对于每个本地无人车i＝1，…，M，在多无人车编队控制的任意k时刻，根据k+N-1预测时刻的所述值函数权值更新律和所述控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及所述本地控制策略逼近网络得到无人车在任意k时刻的控制量。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述多无人车分布式编队控制方法、装置、计算机设备和存储介质，通过根据多无人车编队的队形信息构建本地无人车耦合模型，在预测时域内以最小化全局性能指标函数为优化目标，以预测时域内的控制序列为待求解的变量，构建无人车的分布式模型预测控制最优化模型，其中，在每个预测时域[k，k+N-1]内，把模型预测控制最优化模型分解成N个子优化模型，每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解；定义一种分布式策略优化求解器用于通过分布式求解的方式求解上述模型预测控制问题，包括针对每个本地无人车构建一个本地控制策略逼近网络和一个本地值函数网络分别用于学习近似最优的控制策略和学习近似最优的性能指标函数，用于评价本地策略的好坏，得到预测时域内的控制策略后，由控制策略生成当前时刻的控制量作为无人车当前的控制量。本发明针对运动学模型非线性、非凸约束、离散时间相互耦合的子系统组成的多无人车系统，提出一种基于势场函数、安全相关的强学习方法，通过分布式求解的方式对多无人车编队的控制问题进行求解。

附图说明

图1为一个实施例中多无人车分布式编队控制方法的流程示意图；

图2为一个实施例中多无人车分布式编队控制装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种多无人车分布式编队控制方法，包括以下步骤：

步骤102，获取M个无人车组成的多无人车编队的队形信息，根据队形信息得到多无人车编队中每个无人车的编队误差信息。

步骤104，获取无人车控制的状态避障约束信息，根据约束信息得到势场函数，根据本地无人车和邻居无人车的编队误差信息、本地无人车的控制量以及势场函数构建预测控制性能指标函数，根据本地性能指标函数构建全局性能指标函数。

步骤106，在预测时域内以最小化全局性能指标函数为优化目标，以预测时域内的控制序列为待求解的变量，构建无人车的分布式模型预测控制最优化模型。

其中，在每个预测时域[k，k+N-1]内，把模型预测控制最优化模型分解成N个子优化模型，每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解。也就是在任意预测时刻τ∈[k，k+N-1]，并行求解M个本地子问题，构成一个子优化模型，在预测时域[k，k+N-1]内，共求解N个子优化模型。

步骤108，对于每个本地无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地值函数网络。

本地值函数网络包括值函数权值矩阵。

步骤110，对于每个本地无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地控制策略逼近网络。

本地控制策略逼近网络包括控制策略权值矩阵。

步骤112，对于每个本地无人车i＝1，…，M，在每个预测时刻τ∈[k，k+N-1]，根据本地值函数网络的值和预设的值函数的期望值，得到第一逼近误差，通过最小化第一逼近误差对应的逼近目标，得到本地值函数权值矩阵的值函数权值更新律。

其中，在预测时域[k，k+N-1]的任意预测时刻τ，值函数的期望值中包括τ+L_τ+1时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值。

步骤114，对于每个本地无人车i＝1，…，M，在每个预测时刻τ∈[k，k+N-1]，根据本地控制策略逼近网络的值和预设的控制量的期望值，得到第二逼近误差，通过最小化第二逼近误差的欧几里得范数，得到控制策略权值矩阵的控制策略权值更新律。

其中，在预测时域[k，k+N-1]的任意预测时刻τ，控制量的期望值中包括τ+1时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值。

步骤116，对于每个本地无人车i＝1，…，M，在多无人车编队控制的任意k时刻，根据k+N-1预测时刻的值函数权值更新律和控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及本地控制策略逼近网络得到无人车在任意k时刻的控制量。

上述多无人车分布式编队控制方法中，通过根据多无人车编队的队形信息构建本地无人车耦合模型，在预测时域内以最小化全局性能指标函数为优化目标，以预测时域内的控制序列为待求解的变量，构建无人车的分布式模型预测控制最优化模型，其中，在每个预测时域[k，k+N-1]内，把模型预测控制最优化模型分解成N个子优化模型，每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解；定义一种分布式策略优化求解器用于通过分布式求解的方式求解上述模型预测控制问题，包括针对每个本地无人车构建一个本地控制策略逼近网络和一个本地值函数网络分别用于学习近似最优的控制策略和学习近似最优的性能指标函数，用于评价本地策略的好坏，得到预测时域内的控制策略后，由控制策略生成当前时刻的控制量作为无人车当前的控制量。本发明针对运动学模型非线性、非凸约束、离散时间相互耦合的子系统组成的多无人车系统，提出一种基于势场函数、安全相关的强学习方法，通过分布式求解的方式对多无人车编队的控制问题进行求解。

在下一个预测时域，重复分布式求解模型预测控制最优化模型。

在其中一个实施例中，还包括：获取M个无人车组成的多无人车编队的队形信息，根据队形信息得到多无人车编队中第i个无人车的本地编队误差信息为：

q_i表示第i个无人车的状态，其运动学演化模型为：

其中，(x_i，y_i)为第i个无人车在笛卡尔坐标系下的位置坐标，θ_i和υ_i为车辆的横摆角和线速度，w_i和a_i为线加速度和横摆角也是无人车的控制量；

根据本地编队误差信息和无人车运动学模型信息得到多无人车编队的本地无人车耦合模型为：

在其中一个实施例中，还包括：获取无人车控制的状态避障约束信息，根据约束信息得到势场函数势场函数是一个关于变量/>的连续函数，其中，为本地无人车的约束集合；当/>时/>的值趋近于0，当z_i趋近于/>的边界时其值逐渐趋近于无穷；

根据本地性能指标函数，构建所有无人车的全局性能指标函数为：

在其中一个实施例中，还包括：在预测时域内以最小化全局性能指标函数为优化目标，以预测时域内的控制序列为待求解的变量，构建无人车的分布式模型预测控制最优化模型为：

min J(e(k))

u₁(k)，…，u_M(k)

在每个预测时域[k，k+N-1]内，把模型预测控制最优化模型分解成N个子优化模型，每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解对于本地无人车i，在任意τ∈[k，k+N-1]构建模型预测控制最优化子模型为：

u_i(τ)

其中，

在其中一个实施例中，还包括：对于每个无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地值函数网络为：

其中，和/>是值函数权值矩阵，/>是基函数向量。

在其中一个实施例中，还包括：对于每个无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地控制策略逼近网络为：

其中是控制策略权值矩阵，/>是基函数向量。

根据本地值函数网络的值和值函数的期望值，得到第一逼近误差，通过最小化第一逼近误差对应的逼近目标δ_c，i(τ)＝q_c，1∈_c，i(τ)²+q_c，2∈_c，i(k+N)²，得到本地值函数权值矩阵的值函数权值更新律为：

其中，γ_c，i是更新律。

根据本地控制策略逼近网络的值和控制量的期望值，得到第二逼近误差通过最小化第二逼近误差的欧几里得范数δ_a，i(τ)＝||∈_a，i(τ)||²，得到控制策略权值矩阵的控制策略权值更新律为：

其中，γ_a，i是更新律。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种多无人车分布式编队控制装置，包括：本地无人车耦合模型构建模块202、预测控制性能指标函数构建模块204、模型预测控制最优化模型构建模块206、本地值函数网络构建模块208、本地控制策略逼近网络构建模块210、值函数权值更新律确定模块212、控制策略权值更新律确定模块214和控制模块216，其中：

本地无人车耦合模型构建模块202，用于获取M个无人车组成的多无人车编队的队形信息，根据队形信息得到多无人车编队中每个无人车的编队误差信息；

预测控制性能指标函数构建模块204，用于获取无人车控制的状态避障约束信息，根据约束信息得到势场函数，根据本地无人车和邻居无人车的编队误差信息、本地无人车的控制量以及势场函数构建预测控制性能指标函数，根据本地性能指标函数构建全局性能指标函数；

模型预测控制最优化模型构建模块206，用于在预测时域内以最小化全局性能指标函数为优化目标，以预测时域内的控制序列为待求解的变量，构建无人车的分布式模型预测控制最优化模型；其中，在每个预测时域[k，k+N-1]内，把模型预测控制最优化模型分解成N个子优化模型，每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解；

本地值函数网络构建模块208，用于对于每个本地无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地值函数网络；本地值函数网络包括值函数权值矩阵；

本地控制策略逼近网络构建模块210，用于对于每个本地无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地控制策略逼近网络；本地控制策略逼近网络包括控制策略权值矩阵；

值函数权值更新律确定模块212，用于对于每个本地无人车i＝1，…，M，在每个预测时刻τ∈[k，k+N-1]，根据本地值函数网络的值和预设的值函数的期望值，得到第一逼近误差，通过最小化第一逼近误差对应的逼近目标，得到本地值函数权值矩阵的值函数权值更新律；在预测时域[k，k+N-1]的任意预测时刻τ，值函数的期望值中包括τ+L_τ+1时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值；

控制策略权值更新律确定模块214，用于对于每个本地无人车i＝1，…，M，在每个预测时刻τ∈[k，k+N-1]，根据本地控制策略逼近网络的值和预设的控制量的期望值，得到第二逼近误差，通过最小化第二逼近误差的欧几里得范数，得到控制策略权值矩阵的控制策略权值更新律；在预测时域[k，k+N-1]的任意预测时刻τ，控制量的期望值中包括τ+1时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值；

控制模块216，用于对于每个本地无人车i＝1，…，M，在多无人车编队控制的任意k时刻，根据k+N-1预测时刻的值函数权值更新律和控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及本地控制策略逼近网络得到无人车在任意k时刻的控制量。

本地无人车耦合模型构建模块202还用于获取M个无人车组成的多无人车编队的队形信息，根据队形信息得到多无人车编队中第i个无人车的本地编队误差信息为：

q_i表示第i个无人车的状态，其运动学演化模型为：

/>

预测控制性能指标函数构建模块204还用于获取无人车控制的状态避障约束信息，根据约束信息得到势场函数势场函数是一个关于变量/>的连续函数，其中，/>为本地无人车的约束集合；当时/>的值趋近于0，当z_i趋近于/>的边界时其值逐渐趋近于无穷；

模型预测控制最优化模型构建模块206还用于在预测时域内以最小化全局性能指标函数为优化目标，以预测时域内的控制序列为待求解的变量，构建无人车的分布式模型预测控制最优化模型为：

min J(e(k))

u₁(k)，…，u_M(k)

在每个预测时域[k，k+N-1]内，把本地无人车的模型预测控制最优化模型分解成N个子优化模型进行求解；对于每个本地无人车i，在任意τ∈[k，k+N-1]构建模型预测控制最优化子模型为：

u_i(τ)

其中，

本地值函数网络构建模块208还用于对于每个无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地值函数网络为：

其中，和/>是值函数权值矩阵，/>是基函数向量。

本地控制策略逼近网络构建模块210还用于对于每个无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地控制策略逼近网络为：

其中是控制策略权值矩阵，/>是基函数向量。

值函数权值更新律确定模块212还用于在每个预测时刻τ∈[k，k+N-1]，定义值函数的期望值为：

其中，γ_c，i是更新律。

控制策略权值更新律确定模块214还用于在每个预测时刻τ∈[k，k+N-1]，定义控制量的期望值为：

/>

其中，γ_a，i是更新律。

关于多无人车分布式编队控制装置的具体限定可以参见上文中对于多无人车分布式编队控制方法的限定，在此不再赘述。上述多无人车分布式编队控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多无人车分布式编队控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多无人车分布式编队控制方法，其特征在于，所述方法包括：

获取无人车控制的状态避障约束信息，根据所述约束信息得到势场函数，根据本地无人车和邻居无人车的所述编队误差信息、本地无人车的控制量以及所述势场函数构建预测控制性能指标函数，根据所述预测控制性能指标函数构建全局性能指标函数；

对于每个本地无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络；所述本地值函数网络包括本地值函数权值矩阵；

对于每个本地无人车i＝1，…，M，在每个预测时刻根据所述本地值函数网络的值和预设的值函数的期望值，得到第一逼近误差，通过最小化所述第一逼近误差对应的逼近目标，得到所述本地值函数权值矩阵的值函数权值更新律；其中，所述值函数的期望值中包括/>时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值；

对于每个本地无人车i＝1，…，M，在每个预测时刻根据本地控制策略逼近网络的值和预设的控制量的期望值，得到第二逼近误差，通过最小化所述第二逼近误差的欧几里得范数，得到所述控制策略权值矩阵的控制策略权值更新律；其中，所述控制量的期望值中包括/>时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值；

对于每个本地无人车i＝1，…，M，在无人车编队控制的任意k时刻，根据预测时刻的所述值函数权值更新律和所述控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及所述本地控制策略逼近网络得到本地无人车在任意k时刻的控制量。

2.根据权利要求1所述的方法，其特征在于，获取M个无人车组成的多无人车编队的队形信息，根据所述队形信息构建所述多无人车编队中每个无人车的编队误差信息，包括：

获取有M个无人车组成的多无人车编队的队形信息，根据所述队形信息得到多无人车编队中第i个无人车的本地编队误差信息为：

其中，a_ij表示第i个和第j个无人车的连接状态，a_ij＝1表示第j个无人车能够接收到第j个无人车的状态信息，g_i是连接增益，当g_i＝1时表示第i个无人车能够接收到预设的领导车的状态信号，Δh_ji和Δh_ri是矫正量，由具体的编队队形决定，矩阵T_i为：

q_i表示第i个无人车的状态，其运动学演化模型为：

其中，(x_i，y_i)为第i个无人车在笛卡尔坐标系下的位置坐标，θ_i和v_i为车辆的横摆角和线速度，w_i和a_i为线加速度和横摆角。

3.根据权利要求2所述的方法，其特征在于，获取无人车控制的状态避障约束信息，根据所述约束信息得到势场函数，根据本地无人车和邻居无人车的所述编队误差信息、本地无人车的控制量以及所述势场函数构建预测控制性能指标函数，根据所述预测控制性能指标函数构建全局性能指标函数，包括：

获取无人车控制的状态避障约束信息，根据所述约束信息得到势场函数所述势场函数是一个关于变量/>的连续函数，其中，/>为本地无人车的约束集合；当/>时所述/>的值趋近于0，当z_i趋近于/>的边界时其值逐渐趋近于无穷；

对于每个无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建预测控制性能指标函数为：

其中，为代价函数，为终端代价函数，P_i＝Q_i，e＝(e₁，…，e_M),是与第i个无人车相邻的邻居无人车的本地编队误差组成的向量，μ＞0是可调参数；

根据所述预测控制性能指标函数，构建所有无人车的全局性能指标函数为：

4.根据权利要求3所述的方法，其特征在于，在预测时域内以最小化所述全局性能指标函数为优化目标，以预测时域内的控制序列为待求解的变量，构建无人车的分布式模型预测控制最优化模型；其中，在每个预测时域[k，k+N-1]内，把所述模型预测控制最优化模型分解成N个子优化模型，每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解，包括：

在预测时域内以最小化所述全局性能指标函数为优化目标，以预测时域内的控制序列为待求解的变量，构建无人车的分布式模型预测控制最优化模型为：

min J(e(k))

u₁(k)，…，u_M(k)

其中u_i(k)＝u_i(k)，…，u_i(k+N-1)为预测时域内的控制序列；

在每个预测时域[k，k+N-1]内，把所述本地无人车的模型预测控制最优化模型分解成N个子优化模型进行求解；对于每个本地无人车i＝1，…，M，在任意构建模型预测控制最优化子模型为：

其中，

5.根据权利要求4所述的方法，其特征在于，对于每个无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络；所述本地值函数网络包括值函数权值矩阵，包括：

对于每个无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络为：

其中，和/>是值函数权值矩阵，/>是基函数向量。

6.根据权利要求5所述的方法，其特征在于，对于每个无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络；所述本地控制策略逼近网络包括控制策略权值矩阵，包括：

对于每个无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络为：

其中是控制策略权值矩阵，/>是基函数向量。

7.根据权利要求6所述的方法，其特征在于，对于每个无人车i＝1，…，M，在每个预测时刻根据所述本地值函数网络的值和预设的值函数的期望值，得到第一逼近误差，通过最小化所述第一逼近误差对应的逼近目标，得到所述本地值函数权值矩阵的值函数权值更新律，包括：

对于每个无人车i＝1，…，M，在每个预测时刻定义值函数的期望值为：

其中，γ_c，i是更新律。

8.根据权利要求7所述的方法，其特征在于，对于每个无人车i＝1，…，M，在每个预测时刻根据本地控制策略逼近网络的值和预设的控制量的期望值，得到第二逼近误差，通过最小化所述第二逼近误差的欧几里得范数，得到所述控制策略权值矩阵的控制策略权值更新律，包括：

对于每个无人车i＝1，…，M，在每个预测时刻定义控制量的期望值为：

根据本地控制策略逼近网络的值和所述控制量的期望值，得到第二逼近误差通过最小化所述第二逼近误差的欧几里得范数/>得到所述控制策略权值矩阵的控制策略权值更新律为：

其中，γ_a，i是更新律。

9.一种多无人车分布式编队控制装置，其特征在于，所述装置包括：

预测控制性能指标函数构建模块，用于获取无人车控制的状态避障约束信息，根据所述约束信息得到势场函数，根据本地无人车和邻居无人车的编队误差信息、本地无人车的控制量以及所述势场函数构建预测控制性能指标函数，根据所述预测控制性能指标函数构建全局性能指标函数；

本地值函数网络构建模块，用于对于每个本地无人车i＝1，…，M，根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络；所述本地值函数网络包括本地值函数权值矩阵；

值函数权值更新律确定模块，用于对于每个本地无人车i＝1，…，M，在每个预测时刻根据所述本地值函数网络的值和预设的值函数的期望值，得到第一逼近误差，通过最小化所述第一逼近误差对应的逼近目标，得到所述本地值函数权值矩阵的值函数权值更新律；在预测时域[k，k+N-1]的任意预测时刻/>所述值函数的期望值中包括时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值；

控制策略权值更新律确定模块，用于对于每个本地无人车i＝1，…，M，在每个预测时刻根据本地控制策略逼近网络的值和预设的控制量的期望值，得到第二逼近误差，通过最小化所述第二逼近误差的欧几里得范数，得到所述控制策略权值矩阵的控制策略权值更新律；在预测时域[k，k+N-1]的任意预测时刻/>所述控制量的期望值中包括时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。