CN115933748A - 一种基于动态博弈的人-无人机群安全交互运动规划方法 - Google Patents
一种基于动态博弈的人-无人机群安全交互运动规划方法 Download PDFInfo
- Publication number
- CN115933748A CN115933748A CN202211742094.0A CN202211742094A CN115933748A CN 115933748 A CN115933748 A CN 115933748A CN 202211742094 A CN202211742094 A CN 202211742094A CN 115933748 A CN115933748 A CN 115933748A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- follower
- time
- drone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于动态博弈的人‑无人机群安全交互运动规划方法,用于实现无人机群以期望编队跟踪人类给定轨迹,并在人类指令不安全时自主避障,该人‑无人机群安全交互运动规划方法,包括:步骤A:创建无人机集群模型;步骤B:设定期望的编队队形、安全集以及无人机间的通信关系;步骤C:设计跟随无人机的最优响应策略,即Nash均衡策略;步骤D:设计领导无人机的安全控制策略;步骤E:设计领导无人机的编队跟踪控制策略;步骤F:用步骤C、D、E所确定的控制器实现人‑无人机群安全交互运动规划。本发明以充分发挥无人机群在交互过程中的自主性,使其能够主动发现并采取措施弥补人类命令的不足,实现人机互补、安全交互。
Description
技术领域
本发明涉及一种运动规划方法,具体涉及一种基于动态博弈的人-无人机群安全交互运动规划方法,属于人-集群交互运动规划方法应用技术领域。
背景技术
尽管通常希望无人机集群能够自主完成期望的任务,但由于无人机在感知和决策方面具有天然弱势,不可避免地需要无人机集群与人类操作者在同一操作空间内共同完成任务。在这种情况下,期望无人机集群能够执行人类操作者的命令,以帮助人类操作者完成复杂任务;然而,由于人类可能存在疏忽、出现视野有限或某些紧急情况,使得人类操作者的命令并不总是安全。此时,希望无人机集群能够识别出人类命令的不安全性,并暂时违反人类命令以确保安全性。
控制障碍函数(Control Barrier Function,CBF)被广泛用来解决机器人系统中的避障问题。大多数已有工作运用CBF构造一个二次规划(Quadratic Programming,QP)问题,通过在每个离散时刻求解一个有约束的优化问题来规划安全路径;然而,所得优化问题可能在系统轨迹太靠近安全集边界时无解,从而导致避障失败。为解决这一问题,一些工作在优化目标中考虑未来时刻可能的收益/成本,并在最优控制框架下引入CBF研究避障问题。其中,大多数工作在优化目标中引入与CBF有关的项,这使得优化目标变的不光滑,加剧了安全控制策略的求解困难。尽管有一些工作运用学习的方法能够近似估计出相应的安全控制策略,如何保证在线学习过程中的安全性仍是值得探讨的关键问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提供了一种基于动态博弈的人-无人机群安全交互运动规划方法,以期能缓解现有技术在离散时刻重新规划路径可能在系统轨迹太靠近安全集边界时失效的问题,从而能充分发挥无人机群在交互过程中的自主性,使其能够主动发现并采取措施弥补人类命令的不足,以实现人机互补、安全交互。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于动态博弈的人-无人机群安全交互运动规划方法的特点在于,是按如下步骤进行:
步骤A:创建无人机集群模型;
步骤A.1:创建无人机动力学模型;
令无人机集群是由N+1个无人机组成的系统,且每个无人机在空间中的位置、速度、加速度均满足二阶动力学方程;利用式(1)构建t时刻的第i个无人机动力学模型:
式(1)中,xi(t)表示由第i个无人机t时刻的位置和速度所组成的增广状态,表示xi(t)的一阶导数,为偏移动力学矩阵,03为三维零矩阵,I3为三维单位阵,为输入矩阵,ui(t)为第i个无人机在t时刻的加速度;i=0,1,…,N;
步骤A.2:构建无人机群的分层结构;
令无人机集群中的第0个无人机为领导者,并与操作者直接交互;其余第1,…,第N个无人机均为跟随者,并根据观察到的领导者行为自主采取响应;所述领导者无人机和跟随者无人机之间为分层关系,其中,领导者处于上层,跟随者处于下层;
步骤B:设定期望的编队队形、安全集以及无人机间的通信关系;
步骤B.1:设定期望的编队队形;
用第k个跟随者无人机相对于领导者无人机状态的偏移量pk表示第k个跟随者无人机期望的编队队形;k=1,…,N;
步骤B.2:利用动捕设备识别运动空间内的行人或动态障碍物的位置,以设定安全集;
基于动捕设备所获得的行人位置,设定二次形式的安全集C={xi(t),i=0,1,…,N|h(xi(t))>0},其中,h(xi(t))表示碰撞函数,且表示由t时刻的行人位置sh(t)通过补0得到的增广向量,rh为安全半径;
步骤B.3:设定无人机间的通信关系;
将每个无人机视作一个节点,从而通过一个包含节点、边、边的权重的有向图G≡(V,ε,E)建模无人机之间的通信关系,其中,V={0,1,…,N}为有限的非空节点集, 为边集,(i,j)为从节点i到节点j的边,E=[ei,j]为描述边权重的(N+1)×(N+1)维邻接矩阵;其中,ei,j表示从节点j到节点i的边(j,i)的权重;
步骤C:设计跟随无人机在目标函数下的最优响应策略,即Nash均衡策略;
步骤C.1:根据邻居无人机状态和期望的编队队形,利用式(2)设计第k个跟随者无人机在t时刻的局部一致误差δk(t):
式(2)中,表示t时刻的第k个跟随者无人机的新状态,且xk(t)表示由第k个跟随者无人机的位置和速度所组成的t时刻的增广状态,表示t时刻的第j个无人机的新状态,且xj(t)表示由第j个无人机的位置和速度所组成的t时刻的增广状态,pj表示第j个无人机的偏移量,当j=0时,令p0表示6×1维的零向量;Nk表示第k个跟随者无人机的邻居节点的集合,且Nk={j∈V:(j,k)∈ε};(j,k)为从节点j到节点k的边;
步骤C.2:利用式(3)设计第k个跟随者无人机的目标函数Vk(δk(t)),从而使得第k个跟随者无人机在目标函数Vk(δk(t))下形成博弈;
式(3)中,Qk∈R6×6和Lk∈R3×3均为第k个跟随者无人机目标函数中两个正定的参数矩阵,R6×6为6×6维实空间,R3×3为3×3维实空间,δk(τ)表示k个跟随无人机在τ时刻的局部一致误差,uk(τ)表示第k个跟随者无人机在τ时刻的加速度,表示uk(τ)的转置,表示δk(τ)的转置;
步骤C.3:根据最优控制理论和动态规划原理,推导出第k个跟随无人机的Nash均衡策略所满足的非线性偏微分方程,如式(4)所示;
式(4)中,δk(t)T表示δk(t)的转置,表示第k个跟随者无人机在t时刻的Nash均衡策略,且BT表示B的转置,表示Lk的逆,表示第k个跟随者无人机在t时刻的最优值函数,且inf表示求极小值算子,表示最优值函数相对于δk(t)的梯度,表示的转置,dk表示第k个跟随者无人机的入度,且
步骤C.4:利用式(5)估计第k个跟随者无人机在t时刻的Nash均衡策略:
步骤E:设计领导者无人机的编队跟踪控制策略;
步骤E.1:根据所有无人机状态演化动力学给出一个增广系统状态;
根据领导者无人机的跟踪误差和跟随者无人机的局部一致误差,定义t时刻的全局误差增广向量δ(t)=[δ0(t)δ1(t)…δN(t)]T,其中,表示领导者无人机在t时刻的跟踪误差,表示领导者无人机在t时刻的新状态,xc(t)表示人类操作者在t时刻给出的期望参考轨迹;
步骤E.2:在跟随者无人机均采取Nash均衡策略的条件下,利用式(8)设计领导者无人机的目标函数V(δ(t)),使得领导者无人机在所述目标函数V(δ(t))下形成Stackelberg博弈;
式(8)中,Q∈R6(N+1)×6(N+1)和L∈R3×3表示领导者无人机目标函数中两个正定的参数矩阵,R6(N+1)×6(N+1)表示6(N+1)×6(N+1)维实空间,u0,f(τ)表示领导者无人机在τ时刻的编队跟踪控制策略,δ(τ)表示τ时刻的全局误差增广向量,δ(τ)T表示δ(τ)的转置;
步骤E.3:根据最优控制理论和动态规划原理,推导领导者无人机在目标函数V(δ(t))下的Stackelberg均衡策略所满足的非线性偏微分方程,如式(9)所示:
式(9)中,表示领导者无人机在τ时刻的最优编队跟踪控制策略,且 V*(δ(t))表示领导者无人机在t时刻的最优值函数,且 表示最优值函数V*(δ(t))相对于δ(t)的梯度,表示增广输入矩阵,且eN,0表示边(0,N)的权重,L-1表示矩阵L的逆;
式(10)和式(11)中,W1(t)∈RH为评价器网络在t时刻的权重向量,W2(t)∈RH为执行器网络在t时刻的权重向量,φ(δ(t))∈RH为多项式基函数,H表示网络中隐含层的数量;
式(12)和式(13)中,α1>0和α2>0为两个学习率参数,F1>0为常参数矩阵,F2>0为常参数,Δφ(t)表示t时刻的多项式基函数与t-T时刻的多项式基函数之差,且Δφ(t)=φ(δ(t))-φ(δ(t-T)),Δφ(t)T表示Δφ(t)的转置,表示多项式基函数φ(δ(t))相对于δ(t)的梯度;
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述人-无人机群安全交互运动规划方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述人-无人机群安全交互运动规划方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明考虑无人机的个体无穷时间区间最优性和个体间交互,运用动态规划和最优控制技术将人-无人机群安全交互问题建模为Stackelberg-Nash博弈问题,克服了现有技术因只考虑离散时刻目标而导致避障失败的缺陷。
2、本发明将用于实现编队跟踪的学习过程与安全性问题解耦,分别设计了基于控制障碍函数的安全控制策略和基于学习的编队跟踪控制策略,既保证最优路径的存在性又保证实现集群任务时不违反安全约束。
3、本发明所设计的安全控制策略具有出色的可扩展性,可与其他标称控制器结合实现不同的任务。
附图说明
图1是本发明基于动态博弈的人-无人机群安全交互运动规划方法的流程示意图;
图2是本发明无人机集群、人类操作者、障碍物位置间的信息传递关系图;
图3是本发明实验结果图。
具体实施方式
本实施例中,一种基于动态博弈的人-无人机群安全交互运动规划方法,考虑了个体无穷时间区间最优性和个体间交互,克服了现有技术因只考虑离散时刻目标而导致避障失败的缺陷,而且将用于实现编队跟踪的学习过程与安全性问题解耦,分别设计了基于控制障碍函数的安全控制策略和基于学习的编队跟踪控制策略,保证了学习过程不违反安全约束。此外,所设计的安全控制策略具有出色的可扩展性,可与其他标称控制器结合实现不同的任务。具体的说,该人-无人机群安全交互运动规划方法,用于实现无人机群以期望编队跟踪人类给定轨迹,并在人类指令不安全时自主避障。如图1所示,具体包括:
步骤A:创建无人机集群模型;
步骤A.1:创建无人机动力学模型;
令无人机集群是由N+1个无人机组成的系统,且第i个无人机在空间中的位置、速度、加速度均满足二阶动力学方程:其中,si(t)表示第i个无人机t时刻的空间位置,vi(t)表示第i个无人机t时刻的角速度,ai(t)表示第i个无人机t时刻的加速度,和分别表示si(t)和vi(t)的一阶导数,i=0,1,…N;用xi(t)=[xi(t)Tvi(t)T]T表示第i个无人机t时刻的位置和速度所组成的增广状态,基于此利用式(1)构建t时刻的第i个无人机动力学模型:
步骤A.2:构建无人机群的分层结构;
令无人机集群中的第0个无人机为领导者,并与操作者直接交互;其余第1,…,第N个无人机均为跟随者,并根据观察到的领导者行为自主采取响应;领导者无人机和跟随者无人机间为分层关系,其中,领导者处于上层,跟随者处于下层。领导者负责带领无人机群以期望的编队跟踪人类给定的轨迹,同时保证所有无人机均位于安全区域内;跟随者无人机均为理性个体,总是对当前的领导者无人机行为采取最优响应;
步骤B:设定期望的编队队形、安全集以及无人机间的通信关系;
步骤B.1:设定期望的编队队形;
用第k个跟随者无人机相对于领导者无人机状态的偏移量pk表示第k个跟随者无人机期望的编队队形;k=1,…,N;
步骤B.2:利用动捕设备识别运动空间内的行人或动态障碍物的位置,以设定安全集;
基于动捕设备所获得的行人位置,设定二次形式的安全集C={xi(t),i=0,1,…,N|h(xi(t))>0},其中,h(xi(t))表示碰撞函数,且表示由t时刻的行人位置sh(t)通过补0得到的增广向量,rh为安全半径;
步骤B.3:设定无人机间的通信关系;
将每个无人机视作一个节点,从而通过一个包含节点、边、边的权重的有向图G≡(V,ε,E)建模无人机之间的通信关系,其中,V={0,1,…,N}为有限的非空节点集, 为边集,(i,j)为从节点i到节点j的边,E=[ei,j]为描述边权重的(N+1)×(N+1)维邻接矩阵;其中,ei,j表示从节点j到节点i的边(j,i)的权重;如果存在从节点j到节点i的有向边,那么ei,j>0;否则ei,j=0;实验中设置的无人机间的有向图如图2所示;
步骤C:设计跟随无人机在目标函数下的最优响应策略,即Nash均衡策略;
步骤C.1:根据邻居无人机状态和期望的编队队形,将关于偏移量pk的编队问题转换为一致控制问题,为此,利用式(2)设计第k个跟随者无人机在t时刻的局部一致误差δk(t):
式(2)中,表示t时刻的第k个跟随者无人机的新状态,且xk(t)表示由第k个跟随者无人机的位置和速度所组成的t时刻的增广状态,表示t时刻的第j个无人机的新状态,且xj(t)表示由第j个无人机的位置和速度所组成的t时刻的增广状态,pj表示第j个无人机的偏移量,当j=0时,令p0表示6×1维的零向量;Nk表示第k个跟随者无人机的邻居节点的集合,且Nk={j∈V:(j,k)∈ε};(j,k)为从节点j到节点k的边;由式(2)可以看出,δk(t)刻画了第k个无人机的t时刻的新状态与其邻居无人机的新状态在边权ek,j下的加权和;
步骤C.2:利用式(3)设计第k个跟随者无人机的目标函数Vk(δk(t)),从而使得第k个跟随者无人机在目标函数Vk(δk(t))下形成博弈;
式(3)中,Qk∈R6×6和Lk∈R3×3均为第k个跟随者无人机目标函数中两个正定的参数矩阵,R6×6为6×6维实空间,R3×3为3×3维实空间,δk(τ)表示k个跟随无人机在τ时刻的局部一致误差,uk(τ)表示第k个跟随者无人机在τ时刻的加速度,表示uk(τ)的转置,表示δk(τ)的转置。
注意到,目标函数Vk(δk(t))是一个无穷时间积分函数,这意味着在设计跟随者无人机控制策略时不仅考虑了当前时刻t的目标,还考虑了未来时刻的目标,有助于提前规划安全路径,解决了只考虑离散时刻目标导致的优化问题无解,即安全路径不存在,的难题。
尽管在目标函数Vk(δk(t))中,Vk(δk(t))仅与δk(t)显式相关,但由于δk(t)的演化受第k个跟随者无人机的策略uk(t)及其邻居无人机策略uj(t),j∈Nk的影响,使得Vk(δk(t))也隐式地受uk(t)及uj(t),j∈Nk的影响。因此,跟随者无人机在目标函数Vk(δk(t))下形成博弈,最优响应策略即为Nash均衡策略。
步骤C.3:根据最优控制理论和动态规划原理,推导出第k个跟随无人机的Nash均衡策略所满足的非线性偏微分方程,如式(4)所示;
式(4)中,δk(t)T表示δk(t)的转置,表示第k个跟随者无人机在t时刻的Nash均衡策略,且BT表示B的转置,表示Lk的逆,表示第k个跟随者无人机在t时刻的最优值函数,且inf表示求极小值算子,表示最优值函数相对于δk(t)的梯度,表示的转置,dk表示第k个跟随者无人机的入度,且
式(7)中,h(0)表示碰撞函数h(xi(t))在xi(t)恒等于0时的取值,且cb的取值至关重要,当cb值较小时,无人机在靠近障碍物时的避开速度小,可能导致避障失败;而当cb取值较大时,无人机在靠近障碍物时的避开速度大,可能导致无人机集群前程避障后难以快速响应人类指令。
步骤E:设计领导者无人机的编队跟踪控制策略;
步骤E.1:根据所有无人机状态演化动力学给出一个增广系统状态;
根据领导者无人机的跟踪误差和跟随者无人机的局部一致误差,定义t时刻的全局误差增广向量δ(t)=[δ0(t)δ1(t)…δN(t)]T,其中,表示领导者无人机在t时刻的跟踪误差,表示领导者无人机在t时刻的新状态,xc(t)表示人类操作者给出的期望参考轨迹;
步骤E.2:在跟随者无人机均采取Nash均衡策略的条件下,利用式(8)设计领导者无人机的目标函数V(δ(t)),使得领导者无人机在目标函数V(δ(t))下形成Stackelberg博弈;
式(8)中,Q∈R6(N+1)×6(N+1)和L∈R3×3表示领导者无人机目标函数中两个正定的参数矩阵,R6(N+1)×6(N+1)表示6(N+1)×6(N+1)维实空间,u0,f(τ)表示领导者无人机在τ时刻的编队跟踪控制策略,δ(τ)表示τ时刻的全局误差增广向量,δ(τ)T表示δ(τ)的转置;
注意到,该全局误差增广向量δ(t)的演化受所有跟随者无人机控制策略的影响。考虑到所有跟随者无人机均为理性个体,即跟随者无人机总是对当前的领导者无人机的行为采取最优响应,在下述分析中,跟随者无人机均采取其Nash均衡策略根据Stackelberg均衡策略的定义可知,优化领导者无人机的目标函数V(δ(t))所得领导者无人机控制策略为Stackelberg均衡策略。
步骤E.3:根据最优控制理论和动态规划原理,推导领导者无人机在目标函数V(δ(t))下的Stackelberg均衡策略所满足的非线性偏微分方程,如式(9)所示:
式(9)中,表示领导者无人机在τ时刻的最优编队跟踪控制策略,且 V*(δ(t))表示领导者无人机在t时刻的最优值函数,且 表示最优值函数V*(δ(t))相对于δ的梯度,表示增广输入矩阵,且 eN,0表示边(0,N)的权重,L-1表示矩阵L的逆;
V*(δt))≈W1t)Tφ(δ(t)) (10)
式(10)和式(11)中,W1(t)∈RH为评价器网络在t时刻的权重向量,W1t)T表示W1(t)的转置;W2(t)∈RH为执行器网络在t时刻的权重向量,φ(δ(t))∈RH为多项式基函数,H表示网络中隐含层的数量;在实验中可设置由δ(t)中每个分量的二次型和交叉项组成的多项式基函数φ(δ(t))。
将式(10)和式(11)中估计的领导者无人机最优值函数V*(δ(t))以及Stackelberg均衡策略代入式(9)得到的非线性偏微分方程,产生估计余差E(t),且 运用梯度下降法最小化可以得到W1(t)和W2(t)的更新率。利用式(12)和式(13)分别计算评价器网络在t时刻的权重向量W1(t)的更新率以及执行器网络在t时刻的权重向量W2(t)的更新率
式(12)和式(13)中,α1>0和α2>0为两个学习率参数,F1>0为常参数矩阵,F2>0为常参数,Δφ(t)表示t时刻的多项式基函数与t-T时刻的多项式基函数之差,且Δφ(t)=φ(δ)(t))-φ(δ(t-T)),Δφ(t)T表示Δφ(t)的转置,表示多项式基函数φ(δ(t))相对于δ(t)的梯度;
本发明中设计了基于控制障碍函数的安全控制策略并将其与编队跟踪控制策略叠加共同作用于领导者无人机,可以保证无人机群在人类命令不安全时暂时违背人类命令,并在安全性可保证时重新执行人类。实验结果如图3所示。此外所设计的安全控制策略具有良好的可扩展性,与其他标称控制策略共同作用可以实现多种集群任务。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述人-无人机群安全交互运动规划方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述人-无人机群安全交互运动规划方法的步骤。
Claims (3)
1.一种基于动态博弈的人-无人机群安全交互运动规划方法,其特征在于,是按如下步骤进行:
步骤A:创建无人机集群模型;
步骤A.1:创建无人机动力学模型;
令无人机集群是由N+1个无人机组成的系统,且每个无人机在空间中的位置、速度、加速度均满足二阶动力学方程;利用式(1)构建t时刻的第i个无人机动力学模型:
式(1)中,xi(t)表示由第i个无人机t时刻的位置和速度所组成的增广状态,表示xi(t)的一阶导数,为偏移动力学矩阵,03为三维零矩阵,I3为三维单位阵,为输入矩阵,ui(t)为第i个无人机在t时刻的加速度;i=0,1,…,N;
步骤A.2:构建无人机群的分层结构;
令无人机集群中的第0个无人机为领导者,并与操作者直接交互;其余第1,…,第N个无人机均为跟随者,并根据观察到的领导者行为自主采取响应;所述领导者无人机和跟随者无人机之间为分层关系,其中,领导者处于上层,跟随者处于下层;
步骤B:设定期望的编队队形、安全集以及无人机间的通信关系;
步骤B.1:设定期望的编队队形;
用第k个跟随者无人机相对于领导者无人机状态的偏移量pk表示第k个跟随者无人机期望的编队队形;k=1,…,N;
步骤B.2:利用动捕设备识别运动空间内的行人或动态障碍物的位置,以设定安全集;
基于动捕设备所获得的行人位置,设定二次形式的安全集C={xi(t),i=0,1,…,N|h(xi(t))>0},其中,h(xi(t))表示碰撞函数,且xh(t)表示由t时刻的行人位置sh(t)通过补0得到的增广向量,rh为安全半径;
步骤B.3:设定无人机间的通信关系;
将每个无人机视作一个节点,从而通过一个包含节点、边、边的权重的有向图G≡(V,ε,E)建模无人机之间的通信关系,其中,V={0,1,…,N}为有限的非空节点集,i,j∈V,j≠i}为边集,(i,j)为从节点i到节点j的边,E=[ei,j]为描述边权重的(N+1)×(N+1)维邻接矩阵;其中,ei,j表示从节点j到节点i的边(j,i)的权重;
步骤C:设计跟随无人机在目标函数下的最优响应策略,即Nash均衡策略;
步骤C.1:根据邻居无人机状态和期望的编队队形,利用式(2)设计第k个跟随者无人机在t时刻的局部一致误差δk(t):
式(2)中,表示t时刻的第k个跟随者无人机的新状态,且xk(t)表示由第k个跟随者无人机的位置和速度所组成的t时刻的增广状态,表示t时刻的第j个无人机的新状态,且xj(t)表示由第j个无人机的位置和速度所组成的t时刻的增广状态,pj表示第j个无人机的偏移量,当j=0时,令p0表示6×1维的零向量;Nk表示第k个跟随者无人机的邻居节点的集合,且Nk={j∈V:(j,k)∈ε};(j,k)为从节点j到节点k的边;
步骤C.2:利用式(3)设计第k个跟随者无人机的目标函数Vk(δk(t)),从而使得第k个跟随者无人机在目标函数Vk(δk(t))下形成博弈;
式(3)中,Qk∈R6×6和Lk∈R3×3均为第k个跟随者无人机目标函数中两个正定的参数矩阵,R6×6为6×6维实空间,R3×3为3×3维实空间,δk(τ)表示k个跟随无人机在τ时刻的局部一致误差,uk(τ)表示第k个跟随者无人机在τ时刻的加速度,表示uk(τ)的转置,表示δk(τ)的转置;
步骤C.3:根据最优控制理论和动态规划原理,推导出第k个跟随无人机的Nash均衡策略所满足的非线性偏微分方程,如式(4)所示;
式(4)中,δk(t)T表示δk(t)的转置,表示第k个跟随者无人机在t时刻的Nash均衡策略,且BT表示B的转置,表示Lk的逆,表示第k个跟随者无人机在t时刻的最优值函数,且inf表示求极小值算子,表示最优值函数相对于δk(t)的梯度,表示的转置,dk表示第k个跟随者无人机的入度,且
步骤C.4:利用式(5)估计第k个跟随者无人机在t时刻的Nash均衡策略:
步骤E:设计领导者无人机的编队跟踪控制策略;
步骤E.1:根据所有无人机状态演化动力学给出一个增广系统状态;
根据领导者无人机的跟踪误差和跟随者无人机的局部一致误差,定义t时刻的全局误差增广向量δ(t)=[δ0(t)δ1(t)…δN(t)]T,其中,表示领导者无人机在t时刻的跟踪误差,表示领导者无人机在t时刻的新状态,xc(t)表示人类操作者在t时刻给出的期望参考轨迹;
步骤E.2:在跟随者无人机均采取Nash均衡策略的条件下,利用式(8)设计领导者无人机的目标函数V(δ(t)),使得领导者无人机在所述目标函数V(δ(t))下形成Stackelberg博弈;
式(8)中,Q∈R6(N+1)×6(N+1)和L∈R3×3表示领导者无人机目标函数中两个正定的参数矩阵,R6(N+1)×6(N+1)表示6(N+1)×6(N+1)维实空间,u0,f(τ)表示领导者无人机在τ时刻的编队跟踪控制策略,δ(τ)表示τ时刻的全局误差增广向量,δ(τ)T表示δ(τ)的转置;
步骤E.3:根据最优控制理论和动态规划原理,推导领导者无人机在目标函数V(δ(t))下的Stackelberg均衡策略所满足的非线性偏微分方程,如式(9)所示:
式(9)中,表示领导者无人机在τ时刻的最优编队跟踪控制策略,且 V*(δ(t))表示领导者无人机在t时刻的最优值函数,且 表示最优值函数V*(δ(t))相对于δ(t)的梯度,表示增广输入矩阵,且eN,0表示边(0,N)的权重,L-1表示矩阵L的逆;
式(10)和式(11)中,W1(t)∈RH为评价器网络在t时刻的权重向量,W2(t)∈RH为执行器网络在t时刻的权重向量,φ(δ(t))∈RH为多项式基函数,H表示网络中隐含层的数量;
式(12)和式(13)中,α1>0和α2>0为两个学习率参数,F1>0为常参数矩阵,F2>0为常参数,Δφ(t)表示t时刻的多项式基函数与t-T时刻的多项式基函数之差,且Δφ(t)=φ(δ(t))-φ(δ(t-T)),Δφ(t)T表示Δφ(t)的转置,表示多项式基函数φ(δ(t))相对于δ(t)的梯度;
2.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1所述人-无人机群安全交互运动规划方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
3.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1所述人-无人机群安全交互运动规划方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211742094.0A CN115933748A (zh) | 2022-12-30 | 2022-12-30 | 一种基于动态博弈的人-无人机群安全交互运动规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211742094.0A CN115933748A (zh) | 2022-12-30 | 2022-12-30 | 一种基于动态博弈的人-无人机群安全交互运动规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115933748A true CN115933748A (zh) | 2023-04-07 |
Family
ID=86655948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211742094.0A Pending CN115933748A (zh) | 2022-12-30 | 2022-12-30 | 一种基于动态博弈的人-无人机群安全交互运动规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115933748A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116880213A (zh) * | 2023-08-16 | 2023-10-13 | 北京航空航天大学 | 无人机抗干扰安全控制方法及相关产品 |
CN117111629A (zh) * | 2023-07-26 | 2023-11-24 | 中国人民解放军陆军工程大学 | 基于自适应动态规划的多无人机固定时间最优控制方法 |
-
2022
- 2022-12-30 CN CN202211742094.0A patent/CN115933748A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117111629A (zh) * | 2023-07-26 | 2023-11-24 | 中国人民解放军陆军工程大学 | 基于自适应动态规划的多无人机固定时间最优控制方法 |
CN117111629B (zh) * | 2023-07-26 | 2024-05-28 | 中国人民解放军陆军工程大学 | 基于自适应动态规划的多无人机固定时间最优控制方法 |
CN116880213A (zh) * | 2023-08-16 | 2023-10-13 | 北京航空航天大学 | 无人机抗干扰安全控制方法及相关产品 |
CN116880213B (zh) * | 2023-08-16 | 2024-02-13 | 北京航空航天大学 | 无人机抗干扰安全控制方法及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115933748A (zh) | 一种基于动态博弈的人-无人机群安全交互运动规划方法 | |
CN113495578B (zh) | 一种基于数字孪生式训练的集群航迹规划强化学习方法 | |
Park et al. | Fault tolerant flight control system for the tilt-rotor UAV | |
Kermorgant et al. | Dealing with constraints in sensor-based robot control | |
Kayacan et al. | Learning Control of Fixed‐Wing Unmanned Aerial Vehicles Using Fuzzy Neural Networks | |
CN113848984B (zh) | 一种无人机集群控制方法及系统 | |
Kuwata | Trajectory planning for unmanned vehicles using robust receding horizon control | |
Luna et al. | An adaptive coverage control algorithm for deployment of nonholonomic mobile sensors | |
CN113848974A (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
Guo et al. | Learning-based collision-free coordination for a team of uncertain quadrotor UAVs | |
CN114138002A (zh) | 分布式多无人机编队群集行为动态障碍物避障控制方法 | |
Vijayakumari et al. | Receding-horizon trajectory planning for multiple uavs using particle swarm optimization | |
Ramírez et al. | Coordinated sea rescue system based on unmanned air vehicles and surface vessels | |
Rampinelli et al. | Embedding obstacle avoidance in the control of a flexible multi-robot formation | |
Jacquet et al. | Motor-level N-MPC for cooperative active perception with multiple heterogeneous UAVs | |
Zhao et al. | Data-driven formation control for multiple heterogeneous vehicles in air–ground coordination | |
Sattigeri et al. | An adaptive vision-based approach to decentralized formation control | |
Li et al. | A warm-started trajectory planner for fixed-wing unmanned aerial vehicle formation | |
CN111176324B (zh) | 一种多无人机分布式协同编队规避动态障碍的方法 | |
Guo et al. | Collision-free distributed control for multiple quadrotors in cluttered environments with static and dynamic obstacles | |
CN113959446B (zh) | 一种基于神经网络的机器人自主物流运输导航方法 | |
Zamora et al. | Nonlinear control of a multilink aerial system and asekf-based disturbances compensation | |
Jardine | A reinforcement learning approach to predictive control design: autonomous vehicle applications | |
Gudeta et al. | Consensus Based Distributed Collective Motion of Swarm of Quadcopters | |
Nguyen et al. | Collision-free formation control of multiple nano-quadrotors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |