CN115933748A

CN115933748A - 一种基于动态博弈的人-无人机群安全交互运动规划方法

Info

Publication number: CN115933748A
Application number: CN202211742094.0A
Authority: CN
Inventors: 秦家虎; 李曼; 马麒超; 刘轻尘; 张聪
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-04-07

Abstract

本发明公开了一种基于动态博弈的人‑无人机群安全交互运动规划方法，用于实现无人机群以期望编队跟踪人类给定轨迹，并在人类指令不安全时自主避障，该人‑无人机群安全交互运动规划方法，包括：步骤A：创建无人机集群模型；步骤B：设定期望的编队队形、安全集以及无人机间的通信关系；步骤C：设计跟随无人机的最优响应策略，即Nash均衡策略；步骤D：设计领导无人机的安全控制策略；步骤E：设计领导无人机的编队跟踪控制策略；步骤F：用步骤C、D、E所确定的控制器实现人‑无人机群安全交互运动规划。本发明以充分发挥无人机群在交互过程中的自主性，使其能够主动发现并采取措施弥补人类命令的不足，实现人机互补、安全交互。

Description

一种基于动态博弈的人-无人机群安全交互运动规划方法

技术领域

本发明涉及一种运动规划方法，具体涉及一种基于动态博弈的人-无人机群安全交互运动规划方法，属于人-集群交互运动规划方法应用技术领域。

背景技术

尽管通常希望无人机集群能够自主完成期望的任务，但由于无人机在感知和决策方面具有天然弱势，不可避免地需要无人机集群与人类操作者在同一操作空间内共同完成任务。在这种情况下，期望无人机集群能够执行人类操作者的命令，以帮助人类操作者完成复杂任务；然而，由于人类可能存在疏忽、出现视野有限或某些紧急情况，使得人类操作者的命令并不总是安全。此时，希望无人机集群能够识别出人类命令的不安全性，并暂时违反人类命令以确保安全性。

控制障碍函数(Control Barrier Function,CBF)被广泛用来解决机器人系统中的避障问题。大多数已有工作运用CBF构造一个二次规划(Quadratic Programming,QP)问题，通过在每个离散时刻求解一个有约束的优化问题来规划安全路径；然而，所得优化问题可能在系统轨迹太靠近安全集边界时无解，从而导致避障失败。为解决这一问题，一些工作在优化目标中考虑未来时刻可能的收益/成本，并在最优控制框架下引入CBF研究避障问题。其中，大多数工作在优化目标中引入与CBF有关的项，这使得优化目标变的不光滑，加剧了安全控制策略的求解困难。尽管有一些工作运用学习的方法能够近似估计出相应的安全控制策略，如何保证在线学习过程中的安全性仍是值得探讨的关键问题。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提供了一种基于动态博弈的人-无人机群安全交互运动规划方法，以期能缓解现有技术在离散时刻重新规划路径可能在系统轨迹太靠近安全集边界时失效的问题，从而能充分发挥无人机群在交互过程中的自主性，使其能够主动发现并采取措施弥补人类命令的不足，以实现人机互补、安全交互。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于动态博弈的人-无人机群安全交互运动规划方法的特点在于，是按如下步骤进行：

步骤A：创建无人机集群模型；

步骤A.1：创建无人机动力学模型；

令无人机集群是由N+1个无人机组成的系统，且每个无人机在空间中的位置、速度、加速度均满足二阶动力学方程；利用式(1)构建t时刻的第i个无人机动力学模型：

式(1)中，x_i(t)表示由第i个无人机t时刻的位置和速度所组成的增广状态，

表示x_i(t)的一阶导数，

为偏移动力学矩阵，0₃为三维零矩阵，I₃为三维单位阵，

为输入矩阵，u_i(t)为第i个无人机在t时刻的加速度；i＝0,1,…,N；

步骤A.2：构建无人机群的分层结构；

令无人机集群中的第0个无人机为领导者，并与操作者直接交互；其余第1,…,第N个无人机均为跟随者，并根据观察到的领导者行为自主采取响应；所述领导者无人机和跟随者无人机之间为分层关系，其中，领导者处于上层，跟随者处于下层；

步骤B：设定期望的编队队形、安全集以及无人机间的通信关系；

步骤B.1：设定期望的编队队形；

用第k个跟随者无人机相对于领导者无人机状态的偏移量p_k表示第k个跟随者无人机期望的编队队形；k＝1,…,N；

步骤B.2：利用动捕设备识别运动空间内的行人或动态障碍物的位置，以设定安全集；

基于动捕设备所获得的行人位置，设定二次形式的安全集C＝{x_i(t),i＝0,1,…,N|h(x_i(t))>0}，其中，h(x_i(t))表示碰撞函数，且

表示由t时刻的行人位置s_h(t)通过补0得到的增广向量，r_h为安全半径；

步骤B.3：设定无人机间的通信关系；

将每个无人机视作一个节点，从而通过一个包含节点、边、边的权重的有向图G≡(V,ε,E)建模无人机之间的通信关系，其中，V＝{0,1,…,N}为有限的非空节点集，

为边集，(i,j)为从节点i到节点j的边，E＝[e_i,j]为描述边权重的(N+1)×(N+1)维邻接矩阵；其中，e_i,j表示从节点j到节点i的边(j,i)的权重；

步骤C：设计跟随无人机在目标函数下的最优响应策略，即Nash均衡策略；

步骤C.1：根据邻居无人机状态和期望的编队队形，利用式(2)设计第k个跟随者无人机在t时刻的局部一致误差δ_k(t)：

式(2)中，

表示t时刻的第k个跟随者无人机的新状态，且

x_k(t)表示由第k个跟随者无人机的位置和速度所组成的t时刻的增广状态，

表示t时刻的第j个无人机的新状态，且

x_j(t)表示由第j个无人机的位置和速度所组成的t时刻的增广状态，p_j表示第j个无人机的偏移量，当j＝0时，令p₀表示6×1维的零向量；N_k表示第k个跟随者无人机的邻居节点的集合，且N_k＝{j∈V:(j,k)∈ε}；(j,k)为从节点j到节点k的边；

步骤C.2：利用式(3)设计第k个跟随者无人机的目标函数V_k(δ_k(t))，从而使得第k个跟随者无人机在目标函数V_k(δ_k(t))下形成博弈；

式(3)中，Q_k∈R^6×6和L_k∈R^3×3均为第k个跟随者无人机目标函数中两个正定的参数矩阵，R^6×6为6×6维实空间，R^3×3为3×3维实空间，δ_k(τ)表示k个跟随无人机在τ时刻的局部一致误差，u_k(τ)表示第k个跟随者无人机在τ时刻的加速度，

表示u_k(τ)的转置，

表示δ_k(τ)的转置；

步骤C.3：根据最优控制理论和动态规划原理，推导出第k个跟随无人机的Nash均衡策略所满足的非线性偏微分方程，如式(4)所示；

式(4)中，δ_k(t)^T表示δ_k(t)的转置，

表示第k个跟随者无人机在t时刻的Nash均衡策略，且

B^T表示B的转置，

表示L_k的逆，

表示第k个跟随者无人机在t时刻的最优值函数，且

inf表示求极小值算子，

表示最优值函数

相对于δ_k(t)的梯度，

表示

的转置，d_k表示第k个跟随者无人机的入度，且

步骤C.4：利用式(5)估计第k个跟随者无人机在t时刻的Nash均衡策略：

式(5)中，P_k∈R^6×6为第k个跟随者无人机的正定矩阵，且满足

步骤D：基于安全集C，利用式(6)设计领导无人机在t时刻的安全控制策略

式(6)中，c_b表示正常数，Y(x_i(t)为控制障碍函数，并由式(7)得到，

表示函数Y(x_i(t)对x_i(t)的梯度；

式(7)中，h(0)表示碰撞函数h(x_i(t))在x_i(t)恒等于0时的取值，且

步骤E：设计领导者无人机的编队跟踪控制策略；

步骤E.1：根据所有无人机状态演化动力学给出一个增广系统状态；

根据领导者无人机的跟踪误差和跟随者无人机的局部一致误差，定义t时刻的全局误差增广向量δ(t)＝[δ₀(t)δ₁(t)…δ_N(t)]^T，其中，

表示领导者无人机在t时刻的跟踪误差，

表示领导者无人机在t时刻的新状态，x_c(t)表示人类操作者在t时刻给出的期望参考轨迹；

步骤E.2：在跟随者无人机均采取Nash均衡策略的条件下，利用式(8)设计领导者无人机的目标函数V(δ(t))，使得领导者无人机在所述目标函数V(δ(t))下形成Stackelberg博弈；

式(8)中，Q∈R^{6(N+1)×6(N+1)}和L∈R^3×3表示领导者无人机目标函数中两个正定的参数矩阵，R^{6(N+1)×6(N+1)}表示6(N+1)×6(N+1)维实空间，u_0,f(τ)表示领导者无人机在τ时刻的编队跟踪控制策略，δ(τ)表示τ时刻的全局误差增广向量，δ(τ)^T表示δ(τ)的转置；

步骤E.3：根据最优控制理论和动态规划原理，推导领导者无人机在目标函数V(δ(t))下的Stackelberg均衡策略所满足的非线性偏微分方程，如式(9)所示：

式(9)中，

表示领导者无人机在τ时刻的最优编队跟踪控制策略，且

V^*(δ(t))表示领导者无人机在t时刻的最优值函数，且

表示最优值函数V^*(δ(t))相对于δ(t)的梯度，

表示增广输入矩阵，且

e_N,0表示边(0,N)的权重，L^-1表示矩阵L的逆；

步骤E.4：构建由多项式神经网络组成的评价器网络和执行器网络，从而利用式(10)和式(11)分别估计领导者无人机最优值函数V^*(δ(t))以及Stackelberg均衡策略

式(10)和式(11)中，W₁(t)∈R^H为评价器网络在t时刻的权重向量，W₂(t)∈R^H为执行器网络在t时刻的权重向量，φ(δ(t))∈R^H为多项式基函数，H表示网络中隐含层的数量；

利用式(12)和式(13)分别计算评价器网络在t时刻的权重向量W₁(t)的更新率

以及执行器网络在t时刻的权重向量W₂(t)的更新率

式(12)和式(13)中，α₁>0和α₂>0为两个学习率参数，F₁>0为常参数矩阵，F₂>0为常参数，Δφ(t)表示t时刻的多项式基函数与t-T时刻的多项式基函数之差，且Δφ(t)＝φ(δ(t))-φ(δ(t-T))，Δφ(t)^T表示Δφ(t)的转置，

表示多项式基函数φ(δ(t))相对于δ(t)的梯度；

步骤F：对领导者无人机施加控制策略

并对每个跟随者无人机施加控制策略

从而实现人-无人机群安全交互运动规划。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述人-无人机群安全交互运动规划方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述人-无人机群安全交互运动规划方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、本发明考虑无人机的个体无穷时间区间最优性和个体间交互，运用动态规划和最优控制技术将人-无人机群安全交互问题建模为Stackelberg-Nash博弈问题，克服了现有技术因只考虑离散时刻目标而导致避障失败的缺陷。

2、本发明将用于实现编队跟踪的学习过程与安全性问题解耦，分别设计了基于控制障碍函数的安全控制策略和基于学习的编队跟踪控制策略，既保证最优路径的存在性又保证实现集群任务时不违反安全约束。

3、本发明所设计的安全控制策略具有出色的可扩展性，可与其他标称控制器结合实现不同的任务。

附图说明

图1是本发明基于动态博弈的人-无人机群安全交互运动规划方法的流程示意图；

图2是本发明无人机集群、人类操作者、障碍物位置间的信息传递关系图；

图3是本发明实验结果图。

具体实施方式

本实施例中，一种基于动态博弈的人-无人机群安全交互运动规划方法，考虑了个体无穷时间区间最优性和个体间交互，克服了现有技术因只考虑离散时刻目标而导致避障失败的缺陷，而且将用于实现编队跟踪的学习过程与安全性问题解耦，分别设计了基于控制障碍函数的安全控制策略和基于学习的编队跟踪控制策略，保证了学习过程不违反安全约束。此外，所设计的安全控制策略具有出色的可扩展性，可与其他标称控制器结合实现不同的任务。具体的说，该人-无人机群安全交互运动规划方法，用于实现无人机群以期望编队跟踪人类给定轨迹，并在人类指令不安全时自主避障。如图1所示，具体包括：

步骤A：创建无人机集群模型；

步骤A.1：创建无人机动力学模型；

令无人机集群是由N+1个无人机组成的系统，且第i个无人机在空间中的位置、速度、加速度均满足二阶动力学方程：

其中，s_i(t)表示第i个无人机t时刻的空间位置，v_i(t)表示第i个无人机t时刻的角速度，a_i(t)表示第i个无人机t时刻的加速度，

和

分别表示s_i(t)和v_i(t)的一阶导数，i＝0,1,…N；用x_i(t)＝[x_i(t)^Tv_i(t)^T]^T表示第i个无人机t时刻的位置和速度所组成的增广状态，基于此利用式(1)构建t时刻的第i个无人机动力学模型：

式(1)中，

表示x_i(t)的一阶导数，

为偏移动力学矩阵，0₃为三维零矩阵，I₃为三维单位阵，

为输入矩阵，u_i(t)为第i个无人机在t时刻的加速度，且u_i(t)＝a_i(t)；i＝0,1,…,N；

步骤A.2：构建无人机群的分层结构；

令无人机集群中的第0个无人机为领导者，并与操作者直接交互；其余第1,…,第N个无人机均为跟随者，并根据观察到的领导者行为自主采取响应；领导者无人机和跟随者无人机间为分层关系，其中，领导者处于上层，跟随者处于下层。领导者负责带领无人机群以期望的编队跟踪人类给定的轨迹，同时保证所有无人机均位于安全区域内；跟随者无人机均为理性个体，总是对当前的领导者无人机行为采取最优响应；

步骤B.1：设定期望的编队队形；

步骤B.3：设定无人机间的通信关系；

为边集，(i,j)为从节点i到节点j的边，E＝[e_i,j]为描述边权重的(N+1)×(N+1)维邻接矩阵；其中，e_i,j表示从节点j到节点i的边(j,i)的权重；如果存在从节点j到节点i的有向边，那么e_i,j>0；否则e_i,j＝0；实验中设置的无人机间的有向图如图2所示；

步骤C.1：根据邻居无人机状态和期望的编队队形，将关于偏移量p_k的编队问题转换为一致控制问题，为此，利用式(2)设计第k个跟随者无人机在t时刻的局部一致误差δ_k(t)：

式(2)中，

表示t时刻的第k个跟随者无人机的新状态，且

表示t时刻的第j个无人机的新状态，且

x_j(t)表示由第j个无人机的位置和速度所组成的t时刻的增广状态，p_j表示第j个无人机的偏移量，当j＝0时，令p₀表示6×1维的零向量；N_k表示第k个跟随者无人机的邻居节点的集合，且N_k＝{j∈V:(j,k)∈ε}；(j,k)为从节点j到节点k的边；由式(2)可以看出，δ_k(t)刻画了第k个无人机的t时刻的新状态

与其邻居无人机的新状态

在边权e_k,j下的加权和；

表示u_k(τ)的转置，

表示δ_k(τ)的转置。

注意到，目标函数V_k(δ_k(t))是一个无穷时间积分函数，这意味着在设计跟随者无人机控制策略时不仅考虑了当前时刻t的目标，还考虑了未来时刻的目标，有助于提前规划安全路径，解决了只考虑离散时刻目标导致的优化问题无解，即安全路径不存在，的难题。

尽管在目标函数V_k(δ_k(t))中，V_k(δ_k(t))仅与δ_k(t)显式相关，但由于δ_k(t)的演化受第k个跟随者无人机的策略u_k(t)及其邻居无人机策略u_j(t),j∈N_k的影响，使得V_k(δ_k(t))也隐式地受u_k(t)及u_j(t),j∈N_k的影响。因此，跟随者无人机在目标函数V_k(δ_k(t))下形成博弈，最优响应策略即为Nash均衡策略。

式(4)中，δ_k(t)^T表示δ_k(t)的转置，

表示第k个跟随者无人机在t时刻的Nash均衡策略，且

B^T表示B的转置，

表示L_k的逆，

表示第k个跟随者无人机在t时刻的最优值函数，且

inf表示求极小值算子，

表示最优值函数

相对于δ_k(t)的梯度，

表示

的转置，d_k表示第k个跟随者无人机的入度，且

步骤C.4：基于机器人间的通信弱耦合假设，用

近似表示最优值函数，其中，P_k为正定矩阵，且满足

利用式(5)估计第k个跟随者无人机在t时刻的Nash均衡策略：

表示函数Y(x_i(t)对x_i(t)的梯度；

c_b的取值至关重要，当c_b值较小时，无人机在靠近障碍物时的避开速度小，可能导致避障失败；而当c_b取值较大时，无人机在靠近障碍物时的避开速度大，可能导致无人机集群前程避障后难以快速响应人类指令。

步骤E：设计领导者无人机的编队跟踪控制策略；

表示领导者无人机在t时刻的跟踪误差，

表示领导者无人机在t时刻的新状态，x_c(t)表示人类操作者给出的期望参考轨迹；

步骤E.2：在跟随者无人机均采取Nash均衡策略的条件下，利用式(8)设计领导者无人机的目标函数V(δ(t))，使得领导者无人机在目标函数V(δ(t))下形成Stackelberg博弈；

注意到，该全局误差增广向量δ(t)的演化受所有跟随者无人机控制策略的影响。考虑到所有跟随者无人机均为理性个体，即跟随者无人机总是对当前的领导者无人机的行为采取最优响应，在下述分析中，跟随者无人机均采取其Nash均衡策略

根据Stackelberg均衡策略的定义可知，优化领导者无人机的目标函数V(δ(t))所得领导者无人机控制策略为Stackelberg均衡策略。

式(9)中，

表示领导者无人机在τ时刻的最优编队跟踪控制策略，且

V^*(δ(t))表示领导者无人机在t时刻的最优值函数，且

表示最优值函数V^*(δ(t))相对于δ的梯度，

表示增广输入矩阵，且

e_N,0表示边(0,N)的权重，L^-1表示矩阵L的逆；

V^*(δt))≈W₁t)^Tφ(δ(t)) (10)

式(10)和式(11)中，W₁(t)∈R^H为评价器网络在t时刻的权重向量，W₁t)^T表示W₁(t)的转置；W₂(t)∈R^H为执行器网络在t时刻的权重向量，φ(δ(t))∈R^H为多项式基函数，H表示网络中隐含层的数量；在实验中可设置由δ(t)中每个分量的二次型和交叉项组成的多项式基函数φ(δ(t))。

将式(10)和式(11)中估计的领导者无人机最优值函数V^*(δ(t))以及Stackelberg均衡策略

代入式(9)得到的非线性偏微分方程，产生估计余差E(t)，且

运用梯度下降法最小化

可以得到W₁(t)和W₂(t)的更新率。利用式(12)和式(13)分别计算评价器网络在t时刻的权重向量W₁(t)的更新率

以及执行器网络在t时刻的权重向量W₂(t)的更新率

式(12)和式(13)中，α₁>0和α₂>0为两个学习率参数，F₁>0为常参数矩阵，F₂>0为常参数，Δφ(t)表示t时刻的多项式基函数与t-T时刻的多项式基函数之差，且Δφ(t)＝φ(δ)(t))-φ(δ(t-T))，Δφ(t)^T表示Δφ(t)的转置，

表示多项式基函数φ(δ(t))相对于δ(t)的梯度；

步骤F：对领导者无人机施加控制策略

并对每个跟随者无人机施加控制策略

从而实现人-无人机群安全交互运动规划。

本发明中设计了基于控制障碍函数的安全控制策略

并将其与编队跟踪控制策略

叠加共同作用于领导者无人机，可以保证无人机群在人类命令不安全时暂时违背人类命令，并在安全性可保证时重新执行人类。实验结果如图3所示。此外所设计的安全控制策略

具有良好的可扩展性，与其他标称控制策略共同作用可以实现多种集群任务。

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行上述人-无人机群安全交互运动规划方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述人-无人机群安全交互运动规划方法的步骤。