CN115933748A - 一种基于动态博弈的人-无人机群安全交互运动规划方法 - Google Patents

一种基于动态博弈的人-无人机群安全交互运动规划方法 Download PDF

Info

Publication number
CN115933748A
CN115933748A CN202211742094.0A CN202211742094A CN115933748A CN 115933748 A CN115933748 A CN 115933748A CN 202211742094 A CN202211742094 A CN 202211742094A CN 115933748 A CN115933748 A CN 115933748A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
follower
time
drone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211742094.0A
Other languages
English (en)
Inventor
秦家虎
李曼
马麒超
刘轻尘
张聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202211742094.0A priority Critical patent/CN115933748A/zh
Publication of CN115933748A publication Critical patent/CN115933748A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于动态博弈的人‑无人机群安全交互运动规划方法,用于实现无人机群以期望编队跟踪人类给定轨迹,并在人类指令不安全时自主避障,该人‑无人机群安全交互运动规划方法,包括:步骤A:创建无人机集群模型;步骤B:设定期望的编队队形、安全集以及无人机间的通信关系;步骤C:设计跟随无人机的最优响应策略,即Nash均衡策略;步骤D:设计领导无人机的安全控制策略;步骤E:设计领导无人机的编队跟踪控制策略;步骤F:用步骤C、D、E所确定的控制器实现人‑无人机群安全交互运动规划。本发明以充分发挥无人机群在交互过程中的自主性,使其能够主动发现并采取措施弥补人类命令的不足,实现人机互补、安全交互。

Description

一种基于动态博弈的人-无人机群安全交互运动规划方法
技术领域
本发明涉及一种运动规划方法,具体涉及一种基于动态博弈的人-无人机群安全交互运动规划方法,属于人-集群交互运动规划方法应用技术领域。
背景技术
尽管通常希望无人机集群能够自主完成期望的任务,但由于无人机在感知和决策方面具有天然弱势,不可避免地需要无人机集群与人类操作者在同一操作空间内共同完成任务。在这种情况下,期望无人机集群能够执行人类操作者的命令,以帮助人类操作者完成复杂任务;然而,由于人类可能存在疏忽、出现视野有限或某些紧急情况,使得人类操作者的命令并不总是安全。此时,希望无人机集群能够识别出人类命令的不安全性,并暂时违反人类命令以确保安全性。
控制障碍函数(Control Barrier Function,CBF)被广泛用来解决机器人系统中的避障问题。大多数已有工作运用CBF构造一个二次规划(Quadratic Programming,QP)问题,通过在每个离散时刻求解一个有约束的优化问题来规划安全路径;然而,所得优化问题可能在系统轨迹太靠近安全集边界时无解,从而导致避障失败。为解决这一问题,一些工作在优化目标中考虑未来时刻可能的收益/成本,并在最优控制框架下引入CBF研究避障问题。其中,大多数工作在优化目标中引入与CBF有关的项,这使得优化目标变的不光滑,加剧了安全控制策略的求解困难。尽管有一些工作运用学习的方法能够近似估计出相应的安全控制策略,如何保证在线学习过程中的安全性仍是值得探讨的关键问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提供了一种基于动态博弈的人-无人机群安全交互运动规划方法,以期能缓解现有技术在离散时刻重新规划路径可能在系统轨迹太靠近安全集边界时失效的问题,从而能充分发挥无人机群在交互过程中的自主性,使其能够主动发现并采取措施弥补人类命令的不足,以实现人机互补、安全交互。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于动态博弈的人-无人机群安全交互运动规划方法的特点在于,是按如下步骤进行:
步骤A:创建无人机集群模型;
步骤A.1:创建无人机动力学模型;
令无人机集群是由N+1个无人机组成的系统,且每个无人机在空间中的位置、速度、加速度均满足二阶动力学方程;利用式(1)构建t时刻的第i个无人机动力学模型:
Figure BDA0004030853020000021
式(1)中,xi(t)表示由第i个无人机t时刻的位置和速度所组成的增广状态,
Figure BDA0004030853020000022
表示xi(t)的一阶导数,
Figure BDA0004030853020000023
为偏移动力学矩阵,03为三维零矩阵,I3为三维单位阵,
Figure BDA0004030853020000024
为输入矩阵,ui(t)为第i个无人机在t时刻的加速度;i=0,1,…,N;
步骤A.2:构建无人机群的分层结构;
令无人机集群中的第0个无人机为领导者,并与操作者直接交互;其余第1,…,第N个无人机均为跟随者,并根据观察到的领导者行为自主采取响应;所述领导者无人机和跟随者无人机之间为分层关系,其中,领导者处于上层,跟随者处于下层;
步骤B:设定期望的编队队形、安全集以及无人机间的通信关系;
步骤B.1:设定期望的编队队形;
用第k个跟随者无人机相对于领导者无人机状态的偏移量pk表示第k个跟随者无人机期望的编队队形;k=1,…,N;
步骤B.2:利用动捕设备识别运动空间内的行人或动态障碍物的位置,以设定安全集;
基于动捕设备所获得的行人位置,设定二次形式的安全集C={xi(t),i=0,1,…,N|h(xi(t))>0},其中,h(xi(t))表示碰撞函数,且
Figure BDA0004030853020000025
表示由t时刻的行人位置sh(t)通过补0得到的增广向量,rh为安全半径;
步骤B.3:设定无人机间的通信关系;
将每个无人机视作一个节点,从而通过一个包含节点、边、边的权重的有向图G≡(V,ε,E)建模无人机之间的通信关系,其中,V={0,1,…,N}为有限的非空节点集,
Figure BDA0004030853020000026
Figure BDA0004030853020000027
为边集,(i,j)为从节点i到节点j的边,E=[ei,j]为描述边权重的(N+1)×(N+1)维邻接矩阵;其中,ei,j表示从节点j到节点i的边(j,i)的权重;
步骤C:设计跟随无人机在目标函数下的最优响应策略,即Nash均衡策略;
步骤C.1:根据邻居无人机状态和期望的编队队形,利用式(2)设计第k个跟随者无人机在t时刻的局部一致误差δk(t):
Figure BDA0004030853020000028
式(2)中,
Figure BDA0004030853020000029
表示t时刻的第k个跟随者无人机的新状态,且
Figure BDA00040308530200000210
xk(t)表示由第k个跟随者无人机的位置和速度所组成的t时刻的增广状态,
Figure BDA00040308530200000211
表示t时刻的第j个无人机的新状态,且
Figure BDA00040308530200000212
xj(t)表示由第j个无人机的位置和速度所组成的t时刻的增广状态,pj表示第j个无人机的偏移量,当j=0时,令p0表示6×1维的零向量;Nk表示第k个跟随者无人机的邻居节点的集合,且Nk={j∈V:(j,k)∈ε};(j,k)为从节点j到节点k的边;
步骤C.2:利用式(3)设计第k个跟随者无人机的目标函数Vkk(t)),从而使得第k个跟随者无人机在目标函数Vkk(t))下形成博弈;
Figure BDA0004030853020000031
式(3)中,Qk∈R6×6和Lk∈R3×3均为第k个跟随者无人机目标函数中两个正定的参数矩阵,R6×6为6×6维实空间,R3×3为3×3维实空间,δk(τ)表示k个跟随无人机在τ时刻的局部一致误差,uk(τ)表示第k个跟随者无人机在τ时刻的加速度,
Figure BDA0004030853020000032
表示uk(τ)的转置,
Figure BDA0004030853020000033
表示δk(τ)的转置;
步骤C.3:根据最优控制理论和动态规划原理,推导出第k个跟随无人机的Nash均衡策略所满足的非线性偏微分方程,如式(4)所示;
Figure BDA0004030853020000034
式(4)中,δk(t)T表示δk(t)的转置,
Figure BDA0004030853020000035
表示第k个跟随者无人机在t时刻的Nash均衡策略,且
Figure BDA0004030853020000036
BT表示B的转置,
Figure BDA0004030853020000037
表示Lk的逆,
Figure BDA0004030853020000038
表示第k个跟随者无人机在t时刻的最优值函数,且
Figure BDA0004030853020000039
inf表示求极小值算子,
Figure BDA00040308530200000310
表示最优值函数
Figure BDA00040308530200000311
相对于δk(t)的梯度,
Figure BDA00040308530200000312
表示
Figure BDA00040308530200000313
的转置,dk表示第k个跟随者无人机的入度,且
Figure BDA00040308530200000314
步骤C.4:利用式(5)估计第k个跟随者无人机在t时刻的Nash均衡策略:
Figure BDA00040308530200000315
式(5)中,Pk∈R6×6为第k个跟随者无人机的正定矩阵,且满足
Figure BDA00040308530200000316
Figure BDA00040308530200000317
步骤D:基于安全集C,利用式(6)设计领导无人机在t时刻的安全控制策略
Figure BDA00040308530200000318
Figure BDA00040308530200000319
式(6)中,cb表示正常数,Y(xi(t)为控制障碍函数,并由式(7)得到,
Figure BDA00040308530200000324
表示函数Y(xi(t)对xi(t)的梯度;
Figure BDA00040308530200000320
式(7)中,h(0)表示碰撞函数h(xi(t))在xi(t)恒等于0时的取值,且
Figure BDA00040308530200000321
步骤E:设计领导者无人机的编队跟踪控制策略;
步骤E.1:根据所有无人机状态演化动力学给出一个增广系统状态;
根据领导者无人机的跟踪误差和跟随者无人机的局部一致误差,定义t时刻的全局误差增广向量δ(t)=[δ0(t)δ1(t)…δN(t)]T,其中,
Figure BDA00040308530200000322
表示领导者无人机在t时刻的跟踪误差,
Figure BDA00040308530200000323
表示领导者无人机在t时刻的新状态,xc(t)表示人类操作者在t时刻给出的期望参考轨迹;
步骤E.2:在跟随者无人机均采取Nash均衡策略的条件下,利用式(8)设计领导者无人机的目标函数V(δ(t)),使得领导者无人机在所述目标函数V(δ(t))下形成Stackelberg博弈;
Figure BDA0004030853020000041
式(8)中,Q∈R6(N+1)×6(N+1)和L∈R3×3表示领导者无人机目标函数中两个正定的参数矩阵,R6(N+1)×6(N+1)表示6(N+1)×6(N+1)维实空间,u0,f(τ)表示领导者无人机在τ时刻的编队跟踪控制策略,δ(τ)表示τ时刻的全局误差增广向量,δ(τ)T表示δ(τ)的转置;
步骤E.3:根据最优控制理论和动态规划原理,推导领导者无人机在目标函数V(δ(t))下的Stackelberg均衡策略所满足的非线性偏微分方程,如式(9)所示:
Figure BDA0004030853020000042
式(9)中,
Figure BDA0004030853020000043
表示领导者无人机在τ时刻的最优编队跟踪控制策略,且
Figure BDA0004030853020000044
Figure BDA0004030853020000045
V*(δ(t))表示领导者无人机在t时刻的最优值函数,且
Figure BDA0004030853020000046
Figure BDA00040308530200000418
表示最优值函数V*(δ(t))相对于δ(t)的梯度,
Figure BDA0004030853020000048
表示增广输入矩阵,且
Figure BDA0004030853020000049
eN,0表示边(0,N)的权重,L-1表示矩阵L的逆;
步骤E.4:构建由多项式神经网络组成的评价器网络和执行器网络,从而利用式(10)和式(11)分别估计领导者无人机最优值函数V*(δ(t))以及Stackelberg均衡策略
Figure BDA00040308530200000410
Figure BDA00040308530200000411
Figure BDA00040308530200000412
式(10)和式(11)中,W1(t)∈RH为评价器网络在t时刻的权重向量,W2(t)∈RH为执行器网络在t时刻的权重向量,φ(δ(t))∈RH为多项式基函数,H表示网络中隐含层的数量;
利用式(12)和式(13)分别计算评价器网络在t时刻的权重向量W1(t)的更新率
Figure BDA00040308530200000413
以及执行器网络在t时刻的权重向量W2(t)的更新率
Figure BDA00040308530200000414
Figure BDA00040308530200000415
Figure BDA00040308530200000416
式(12)和式(13)中,α1>0和α2>0为两个学习率参数,F1>0为常参数矩阵,F2>0为常参数,Δφ(t)表示t时刻的多项式基函数与t-T时刻的多项式基函数之差,且Δφ(t)=φ(δ(t))-φ(δ(t-T)),Δφ(t)T表示Δφ(t)的转置,
Figure BDA00040308530200000419
表示多项式基函数φ(δ(t))相对于δ(t)的梯度;
步骤F:对领导者无人机施加控制策略
Figure BDA00040308530200000417
并对每个跟随者无人机施加控制策略
Figure BDA0004030853020000051
从而实现人-无人机群安全交互运动规划。
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述人-无人机群安全交互运动规划方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述人-无人机群安全交互运动规划方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明考虑无人机的个体无穷时间区间最优性和个体间交互,运用动态规划和最优控制技术将人-无人机群安全交互问题建模为Stackelberg-Nash博弈问题,克服了现有技术因只考虑离散时刻目标而导致避障失败的缺陷。
2、本发明将用于实现编队跟踪的学习过程与安全性问题解耦,分别设计了基于控制障碍函数的安全控制策略和基于学习的编队跟踪控制策略,既保证最优路径的存在性又保证实现集群任务时不违反安全约束。
3、本发明所设计的安全控制策略具有出色的可扩展性,可与其他标称控制器结合实现不同的任务。
附图说明
图1是本发明基于动态博弈的人-无人机群安全交互运动规划方法的流程示意图;
图2是本发明无人机集群、人类操作者、障碍物位置间的信息传递关系图;
图3是本发明实验结果图。
具体实施方式
本实施例中,一种基于动态博弈的人-无人机群安全交互运动规划方法,考虑了个体无穷时间区间最优性和个体间交互,克服了现有技术因只考虑离散时刻目标而导致避障失败的缺陷,而且将用于实现编队跟踪的学习过程与安全性问题解耦,分别设计了基于控制障碍函数的安全控制策略和基于学习的编队跟踪控制策略,保证了学习过程不违反安全约束。此外,所设计的安全控制策略具有出色的可扩展性,可与其他标称控制器结合实现不同的任务。具体的说,该人-无人机群安全交互运动规划方法,用于实现无人机群以期望编队跟踪人类给定轨迹,并在人类指令不安全时自主避障。如图1所示,具体包括:
步骤A:创建无人机集群模型;
步骤A.1:创建无人机动力学模型;
令无人机集群是由N+1个无人机组成的系统,且第i个无人机在空间中的位置、速度、加速度均满足二阶动力学方程:
Figure BDA0004030853020000052
其中,si(t)表示第i个无人机t时刻的空间位置,vi(t)表示第i个无人机t时刻的角速度,ai(t)表示第i个无人机t时刻的加速度,
Figure BDA0004030853020000061
Figure BDA0004030853020000062
分别表示si(t)和vi(t)的一阶导数,i=0,1,…N;用xi(t)=[xi(t)Tvi(t)T]T表示第i个无人机t时刻的位置和速度所组成的增广状态,基于此利用式(1)构建t时刻的第i个无人机动力学模型:
Figure BDA0004030853020000063
式(1)中,
Figure BDA0004030853020000064
表示xi(t)的一阶导数,
Figure BDA0004030853020000065
为偏移动力学矩阵,03为三维零矩阵,I3为三维单位阵,
Figure BDA0004030853020000066
为输入矩阵,ui(t)为第i个无人机在t时刻的加速度,且ui(t)=ai(t);i=0,1,…,N;
步骤A.2:构建无人机群的分层结构;
令无人机集群中的第0个无人机为领导者,并与操作者直接交互;其余第1,…,第N个无人机均为跟随者,并根据观察到的领导者行为自主采取响应;领导者无人机和跟随者无人机间为分层关系,其中,领导者处于上层,跟随者处于下层。领导者负责带领无人机群以期望的编队跟踪人类给定的轨迹,同时保证所有无人机均位于安全区域内;跟随者无人机均为理性个体,总是对当前的领导者无人机行为采取最优响应;
步骤B:设定期望的编队队形、安全集以及无人机间的通信关系;
步骤B.1:设定期望的编队队形;
用第k个跟随者无人机相对于领导者无人机状态的偏移量pk表示第k个跟随者无人机期望的编队队形;k=1,…,N;
步骤B.2:利用动捕设备识别运动空间内的行人或动态障碍物的位置,以设定安全集;
基于动捕设备所获得的行人位置,设定二次形式的安全集C={xi(t),i=0,1,…,N|h(xi(t))>0},其中,h(xi(t))表示碰撞函数,且
Figure BDA0004030853020000067
表示由t时刻的行人位置sh(t)通过补0得到的增广向量,rh为安全半径;
步骤B.3:设定无人机间的通信关系;
将每个无人机视作一个节点,从而通过一个包含节点、边、边的权重的有向图G≡(V,ε,E)建模无人机之间的通信关系,其中,V={0,1,…,N}为有限的非空节点集,
Figure BDA0004030853020000068
Figure BDA0004030853020000069
为边集,(i,j)为从节点i到节点j的边,E=[ei,j]为描述边权重的(N+1)×(N+1)维邻接矩阵;其中,ei,j表示从节点j到节点i的边(j,i)的权重;如果存在从节点j到节点i的有向边,那么ei,j>0;否则ei,j=0;实验中设置的无人机间的有向图如图2所示;
步骤C:设计跟随无人机在目标函数下的最优响应策略,即Nash均衡策略;
步骤C.1:根据邻居无人机状态和期望的编队队形,将关于偏移量pk的编队问题转换为一致控制问题,为此,利用式(2)设计第k个跟随者无人机在t时刻的局部一致误差δk(t):
Figure BDA0004030853020000071
式(2)中,
Figure BDA0004030853020000072
表示t时刻的第k个跟随者无人机的新状态,且
Figure BDA0004030853020000073
xk(t)表示由第k个跟随者无人机的位置和速度所组成的t时刻的增广状态,
Figure BDA0004030853020000074
表示t时刻的第j个无人机的新状态,且
Figure BDA0004030853020000075
xj(t)表示由第j个无人机的位置和速度所组成的t时刻的增广状态,pj表示第j个无人机的偏移量,当j=0时,令p0表示6×1维的零向量;Nk表示第k个跟随者无人机的邻居节点的集合,且Nk={j∈V:(j,k)∈ε};(j,k)为从节点j到节点k的边;由式(2)可以看出,δk(t)刻画了第k个无人机的t时刻的新状态
Figure BDA0004030853020000076
与其邻居无人机的新状态
Figure BDA0004030853020000077
在边权ek,j下的加权和;
步骤C.2:利用式(3)设计第k个跟随者无人机的目标函数Vkk(t)),从而使得第k个跟随者无人机在目标函数Vkk(t))下形成博弈;
Figure BDA0004030853020000078
式(3)中,Qk∈R6×6和Lk∈R3×3均为第k个跟随者无人机目标函数中两个正定的参数矩阵,R6×6为6×6维实空间,R3×3为3×3维实空间,δk(τ)表示k个跟随无人机在τ时刻的局部一致误差,uk(τ)表示第k个跟随者无人机在τ时刻的加速度,
Figure BDA0004030853020000079
表示uk(τ)的转置,
Figure BDA00040308530200000710
表示δk(τ)的转置。
注意到,目标函数Vkk(t))是一个无穷时间积分函数,这意味着在设计跟随者无人机控制策略时不仅考虑了当前时刻t的目标,还考虑了未来时刻的目标,有助于提前规划安全路径,解决了只考虑离散时刻目标导致的优化问题无解,即安全路径不存在,的难题。
尽管在目标函数Vkk(t))中,Vkk(t))仅与δk(t)显式相关,但由于δk(t)的演化受第k个跟随者无人机的策略uk(t)及其邻居无人机策略uj(t),j∈Nk的影响,使得Vkk(t))也隐式地受uk(t)及uj(t),j∈Nk的影响。因此,跟随者无人机在目标函数Vkk(t))下形成博弈,最优响应策略即为Nash均衡策略。
步骤C.3:根据最优控制理论和动态规划原理,推导出第k个跟随无人机的Nash均衡策略所满足的非线性偏微分方程,如式(4)所示;
Figure BDA00040308530200000711
式(4)中,δk(t)T表示δk(t)的转置,
Figure BDA00040308530200000712
表示第k个跟随者无人机在t时刻的Nash均衡策略,且
Figure BDA00040308530200000713
BT表示B的转置,
Figure BDA00040308530200000714
表示Lk的逆,
Figure BDA00040308530200000715
表示第k个跟随者无人机在t时刻的最优值函数,且
Figure BDA00040308530200000716
inf表示求极小值算子,
Figure BDA00040308530200000717
表示最优值函数
Figure BDA00040308530200000718
相对于δk(t)的梯度,
Figure BDA00040308530200000719
表示
Figure BDA00040308530200000720
的转置,dk表示第k个跟随者无人机的入度,且
Figure BDA0004030853020000081
步骤C.4:基于机器人间的通信弱耦合假设,用
Figure BDA0004030853020000082
近似表示最优值函数,其中,Pk为正定矩阵,且满足
Figure BDA0004030853020000083
利用式(5)估计第k个跟随者无人机在t时刻的Nash均衡策略:
Figure BDA0004030853020000084
步骤D:基于安全集C,利用式(6)设计领导无人机在t时刻的安全控制策略
Figure BDA0004030853020000085
Figure BDA0004030853020000086
式(6)中,cb表示正常数,Y(xi(t)为控制障碍函数,并由式(7)得到,
Figure BDA0004030853020000087
表示函数Y(xi(t)对xi(t)的梯度;
Figure BDA0004030853020000088
式(7)中,h(0)表示碰撞函数h(xi(t))在xi(t)恒等于0时的取值,且
Figure BDA0004030853020000089
cb的取值至关重要,当cb值较小时,无人机在靠近障碍物时的避开速度小,可能导致避障失败;而当cb取值较大时,无人机在靠近障碍物时的避开速度大,可能导致无人机集群前程避障后难以快速响应人类指令。
步骤E:设计领导者无人机的编队跟踪控制策略;
步骤E.1:根据所有无人机状态演化动力学给出一个增广系统状态;
根据领导者无人机的跟踪误差和跟随者无人机的局部一致误差,定义t时刻的全局误差增广向量δ(t)=[δ0(t)δ1(t)…δN(t)]T,其中,
Figure BDA00040308530200000810
表示领导者无人机在t时刻的跟踪误差,
Figure BDA00040308530200000811
表示领导者无人机在t时刻的新状态,xc(t)表示人类操作者给出的期望参考轨迹;
步骤E.2:在跟随者无人机均采取Nash均衡策略的条件下,利用式(8)设计领导者无人机的目标函数V(δ(t)),使得领导者无人机在目标函数V(δ(t))下形成Stackelberg博弈;
Figure BDA00040308530200000812
式(8)中,Q∈R6(N+1)×6(N+1)和L∈R3×3表示领导者无人机目标函数中两个正定的参数矩阵,R6(N+1)×6(N+1)表示6(N+1)×6(N+1)维实空间,u0,f(τ)表示领导者无人机在τ时刻的编队跟踪控制策略,δ(τ)表示τ时刻的全局误差增广向量,δ(τ)T表示δ(τ)的转置;
注意到,该全局误差增广向量δ(t)的演化受所有跟随者无人机控制策略的影响。考虑到所有跟随者无人机均为理性个体,即跟随者无人机总是对当前的领导者无人机的行为采取最优响应,在下述分析中,跟随者无人机均采取其Nash均衡策略
Figure BDA00040308530200000813
根据Stackelberg均衡策略的定义可知,优化领导者无人机的目标函数V(δ(t))所得领导者无人机控制策略为Stackelberg均衡策略。
步骤E.3:根据最优控制理论和动态规划原理,推导领导者无人机在目标函数V(δ(t))下的Stackelberg均衡策略所满足的非线性偏微分方程,如式(9)所示:
Figure BDA0004030853020000091
式(9)中,
Figure BDA0004030853020000092
表示领导者无人机在τ时刻的最优编队跟踪控制策略,且
Figure BDA0004030853020000093
Figure BDA0004030853020000094
V*(δ(t))表示领导者无人机在t时刻的最优值函数,且
Figure BDA0004030853020000095
Figure BDA0004030853020000096
表示最优值函数V*(δ(t))相对于δ的梯度,
Figure BDA0004030853020000097
表示增广输入矩阵,且
Figure BDA0004030853020000098
Figure BDA0004030853020000099
eN,0表示边(0,N)的权重,L-1表示矩阵L的逆;
步骤E.4:构建由多项式神经网络组成的评价器网络和执行器网络,从而利用式(10)和式(11)分别估计领导者无人机最优值函数V*(δ(t))以及Stackelberg均衡策略
Figure BDA00040308530200000910
V*(δt))≈W1t)Tφ(δ(t))  (10)
Figure BDA00040308530200000911
式(10)和式(11)中,W1(t)∈RH为评价器网络在t时刻的权重向量,W1t)T表示W1(t)的转置;W2(t)∈RH为执行器网络在t时刻的权重向量,φ(δ(t))∈RH为多项式基函数,H表示网络中隐含层的数量;在实验中可设置由δ(t)中每个分量的二次型和交叉项组成的多项式基函数φ(δ(t))。
将式(10)和式(11)中估计的领导者无人机最优值函数V*(δ(t))以及Stackelberg均衡策略
Figure BDA00040308530200000912
代入式(9)得到的非线性偏微分方程,产生估计余差E(t),且
Figure BDA00040308530200000913
Figure BDA00040308530200000914
运用梯度下降法最小化
Figure BDA00040308530200000915
可以得到W1(t)和W2(t)的更新率。利用式(12)和式(13)分别计算评价器网络在t时刻的权重向量W1(t)的更新率
Figure BDA00040308530200000916
以及执行器网络在t时刻的权重向量W2(t)的更新率
Figure BDA00040308530200000917
Figure BDA00040308530200000918
Figure BDA00040308530200000919
式(12)和式(13)中,α1>0和α2>0为两个学习率参数,F1>0为常参数矩阵,F2>0为常参数,Δφ(t)表示t时刻的多项式基函数与t-T时刻的多项式基函数之差,且Δφ(t)=φ(δ)(t))-φ(δ(t-T)),Δφ(t)T表示Δφ(t)的转置,
Figure BDA00040308530200000921
表示多项式基函数φ(δ(t))相对于δ(t)的梯度;
步骤F:对领导者无人机施加控制策略
Figure BDA00040308530200000920
并对每个跟随者无人机施加控制策略
Figure BDA0004030853020000101
从而实现人-无人机群安全交互运动规划。
本发明中设计了基于控制障碍函数的安全控制策略
Figure BDA0004030853020000102
并将其与编队跟踪控制策略
Figure BDA0004030853020000103
叠加共同作用于领导者无人机,可以保证无人机群在人类命令不安全时暂时违背人类命令,并在安全性可保证时重新执行人类。实验结果如图3所示。此外所设计的安全控制策略
Figure BDA0004030853020000104
具有良好的可扩展性,与其他标称控制策略共同作用可以实现多种集群任务。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述人-无人机群安全交互运动规划方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述人-无人机群安全交互运动规划方法的步骤。

Claims (3)

1.一种基于动态博弈的人-无人机群安全交互运动规划方法,其特征在于,是按如下步骤进行:
步骤A:创建无人机集群模型;
步骤A.1:创建无人机动力学模型;
令无人机集群是由N+1个无人机组成的系统,且每个无人机在空间中的位置、速度、加速度均满足二阶动力学方程;利用式(1)构建t时刻的第i个无人机动力学模型:
Figure FDA0004030853010000011
式(1)中,xi(t)表示由第i个无人机t时刻的位置和速度所组成的增广状态,
Figure FDA0004030853010000012
表示xi(t)的一阶导数,
Figure FDA0004030853010000013
为偏移动力学矩阵,03为三维零矩阵,I3为三维单位阵,
Figure FDA0004030853010000014
为输入矩阵,ui(t)为第i个无人机在t时刻的加速度;i=0,1,…,N;
步骤A.2:构建无人机群的分层结构;
令无人机集群中的第0个无人机为领导者,并与操作者直接交互;其余第1,…,第N个无人机均为跟随者,并根据观察到的领导者行为自主采取响应;所述领导者无人机和跟随者无人机之间为分层关系,其中,领导者处于上层,跟随者处于下层;
步骤B:设定期望的编队队形、安全集以及无人机间的通信关系;
步骤B.1:设定期望的编队队形;
用第k个跟随者无人机相对于领导者无人机状态的偏移量pk表示第k个跟随者无人机期望的编队队形;k=1,…,N;
步骤B.2:利用动捕设备识别运动空间内的行人或动态障碍物的位置,以设定安全集;
基于动捕设备所获得的行人位置,设定二次形式的安全集C={xi(t),i=0,1,…,N|h(xi(t))>0},其中,h(xi(t))表示碰撞函数,且
Figure FDA0004030853010000015
xh(t)表示由t时刻的行人位置sh(t)通过补0得到的增广向量,rh为安全半径;
步骤B.3:设定无人机间的通信关系;
将每个无人机视作一个节点,从而通过一个包含节点、边、边的权重的有向图G≡(V,ε,E)建模无人机之间的通信关系,其中,V={0,1,…,N}为有限的非空节点集,
Figure FDA0004030853010000016
i,j∈V,j≠i}为边集,(i,j)为从节点i到节点j的边,E=[ei,j]为描述边权重的(N+1)×(N+1)维邻接矩阵;其中,ei,j表示从节点j到节点i的边(j,i)的权重;
步骤C:设计跟随无人机在目标函数下的最优响应策略,即Nash均衡策略;
步骤C.1:根据邻居无人机状态和期望的编队队形,利用式(2)设计第k个跟随者无人机在t时刻的局部一致误差δk(t):
Figure FDA0004030853010000021
式(2)中,
Figure FDA0004030853010000022
表示t时刻的第k个跟随者无人机的新状态,且
Figure FDA0004030853010000023
xk(t)表示由第k个跟随者无人机的位置和速度所组成的t时刻的增广状态,
Figure FDA0004030853010000024
表示t时刻的第j个无人机的新状态,且
Figure FDA0004030853010000025
xj(t)表示由第j个无人机的位置和速度所组成的t时刻的增广状态,pj表示第j个无人机的偏移量,当j=0时,令p0表示6×1维的零向量;Nk表示第k个跟随者无人机的邻居节点的集合,且Nk={j∈V:(j,k)∈ε};(j,k)为从节点j到节点k的边;
步骤C.2:利用式(3)设计第k个跟随者无人机的目标函数Vkk(t)),从而使得第k个跟随者无人机在目标函数Vkk(t))下形成博弈;
Figure FDA0004030853010000026
式(3)中,Qk∈R6×6和Lk∈R3×3均为第k个跟随者无人机目标函数中两个正定的参数矩阵,R6×6为6×6维实空间,R3×3为3×3维实空间,δk(τ)表示k个跟随无人机在τ时刻的局部一致误差,uk(τ)表示第k个跟随者无人机在τ时刻的加速度,
Figure FDA0004030853010000027
表示uk(τ)的转置,
Figure FDA0004030853010000028
表示δk(τ)的转置;
步骤C.3:根据最优控制理论和动态规划原理,推导出第k个跟随无人机的Nash均衡策略所满足的非线性偏微分方程,如式(4)所示;
Figure FDA0004030853010000029
式(4)中,δk(t)T表示δk(t)的转置,
Figure FDA00040308530100000210
表示第k个跟随者无人机在t时刻的Nash均衡策略,且
Figure FDA00040308530100000211
BT表示B的转置,
Figure FDA00040308530100000212
表示Lk的逆,
Figure FDA00040308530100000213
表示第k个跟随者无人机在t时刻的最优值函数,且
Figure FDA00040308530100000214
inf表示求极小值算子,
Figure FDA00040308530100000215
表示最优值函数
Figure FDA00040308530100000216
相对于δk(t)的梯度,
Figure FDA00040308530100000217
表示
Figure FDA00040308530100000218
的转置,dk表示第k个跟随者无人机的入度,且
Figure FDA00040308530100000219
步骤C.4:利用式(5)估计第k个跟随者无人机在t时刻的Nash均衡策略:
Figure FDA00040308530100000220
式(5)中,Pk∈R6×6为第k个跟随者无人机的正定矩阵,且满足
Figure FDA00040308530100000221
Figure FDA00040308530100000222
步骤D:基于安全集C,利用式(6)设计领导无人机在t时刻的安全控制策略
Figure FDA00040308530100000223
Figure FDA00040308530100000224
式(6)中,cb表示正常数,Y(xi(t))为控制障碍函数,并由式(7)得到,
Figure FDA00040308530100000225
表示函数Y(xi(t))对xi(t)的梯度;
Figure FDA00040308530100000226
式(7)中,h(0)表示碰撞函数h(xi(t))在xi(t)恒等于0时的取值,且
Figure FDA0004030853010000031
步骤E:设计领导者无人机的编队跟踪控制策略;
步骤E.1:根据所有无人机状态演化动力学给出一个增广系统状态;
根据领导者无人机的跟踪误差和跟随者无人机的局部一致误差,定义t时刻的全局误差增广向量δ(t)=[δ0(t)δ1(t)…δN(t)]T,其中,
Figure FDA0004030853010000032
表示领导者无人机在t时刻的跟踪误差,
Figure FDA0004030853010000033
表示领导者无人机在t时刻的新状态,xc(t)表示人类操作者在t时刻给出的期望参考轨迹;
步骤E.2:在跟随者无人机均采取Nash均衡策略的条件下,利用式(8)设计领导者无人机的目标函数V(δ(t)),使得领导者无人机在所述目标函数V(δ(t))下形成Stackelberg博弈;
Figure FDA0004030853010000034
式(8)中,Q∈R6(N+1)×6(N+1)和L∈R3×3表示领导者无人机目标函数中两个正定的参数矩阵,R6(N+1)×6(N+1)表示6(N+1)×6(N+1)维实空间,u0,f(τ)表示领导者无人机在τ时刻的编队跟踪控制策略,δ(τ)表示τ时刻的全局误差增广向量,δ(τ)T表示δ(τ)的转置;
步骤E.3:根据最优控制理论和动态规划原理,推导领导者无人机在目标函数V(δ(t))下的Stackelberg均衡策略所满足的非线性偏微分方程,如式(9)所示:
Figure FDA0004030853010000035
式(9)中,
Figure FDA0004030853010000036
表示领导者无人机在τ时刻的最优编队跟踪控制策略,且
Figure FDA0004030853010000037
Figure FDA0004030853010000038
V*(δ(t))表示领导者无人机在t时刻的最优值函数,且
Figure FDA0004030853010000039
Figure FDA00040308530100000310
Figure FDA00040308530100000319
表示最优值函数V*(δ(t))相对于δ(t)的梯度,
Figure FDA00040308530100000311
表示增广输入矩阵,且
Figure FDA00040308530100000312
eN,0表示边(0,N)的权重,L-1表示矩阵L的逆;
步骤E.4:构建由多项式神经网络组成的评价器网络和执行器网络,从而利用式(10)和式(11)分别估计领导者无人机最优值函数V*(δ(t))以及Stackelberg均衡策略
Figure FDA00040308530100000313
Figure FDA00040308530100000314
Figure FDA00040308530100000315
式(10)和式(11)中,W1(t)∈RH为评价器网络在t时刻的权重向量,W2(t)∈RH为执行器网络在t时刻的权重向量,φ(δ(t))∈RH为多项式基函数,H表示网络中隐含层的数量;
利用式(12)和式(13)分别计算评价器网络在t时刻的权重向量W1(t)的更新率
Figure FDA00040308530100000316
以及执行器网络在t时刻的权重向量W2(t)的更新率
Figure FDA00040308530100000317
Figure FDA00040308530100000318
Figure FDA0004030853010000041
式(12)和式(13)中,α1>0和α2>0为两个学习率参数,F1>0为常参数矩阵,F2>0为常参数,Δφ(t)表示t时刻的多项式基函数与t-T时刻的多项式基函数之差,且Δφ(t)=φ(δ(t))-φ(δ(t-T)),Δφ(t)T表示Δφ(t)的转置,
Figure FDA0004030853010000042
表示多项式基函数φ(δ(t))相对于δ(t)的梯度;
步骤F:对领导者无人机施加控制策略
Figure FDA0004030853010000043
并对每个跟随者无人机施加控制策略
Figure FDA0004030853010000044
从而实现人-无人机群安全交互运动规划。
2.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1所述人-无人机群安全交互运动规划方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
3.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1所述人-无人机群安全交互运动规划方法的步骤。
CN202211742094.0A 2022-12-30 2022-12-30 一种基于动态博弈的人-无人机群安全交互运动规划方法 Pending CN115933748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211742094.0A CN115933748A (zh) 2022-12-30 2022-12-30 一种基于动态博弈的人-无人机群安全交互运动规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211742094.0A CN115933748A (zh) 2022-12-30 2022-12-30 一种基于动态博弈的人-无人机群安全交互运动规划方法

Publications (1)

Publication Number Publication Date
CN115933748A true CN115933748A (zh) 2023-04-07

Family

ID=86655948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211742094.0A Pending CN115933748A (zh) 2022-12-30 2022-12-30 一种基于动态博弈的人-无人机群安全交互运动规划方法

Country Status (1)

Country Link
CN (1) CN115933748A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116880213A (zh) * 2023-08-16 2023-10-13 北京航空航天大学 无人机抗干扰安全控制方法及相关产品
CN117111629A (zh) * 2023-07-26 2023-11-24 中国人民解放军陆军工程大学 基于自适应动态规划的多无人机固定时间最优控制方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117111629A (zh) * 2023-07-26 2023-11-24 中国人民解放军陆军工程大学 基于自适应动态规划的多无人机固定时间最优控制方法
CN117111629B (zh) * 2023-07-26 2024-05-28 中国人民解放军陆军工程大学 基于自适应动态规划的多无人机固定时间最优控制方法
CN116880213A (zh) * 2023-08-16 2023-10-13 北京航空航天大学 无人机抗干扰安全控制方法及相关产品
CN116880213B (zh) * 2023-08-16 2024-02-13 北京航空航天大学 无人机抗干扰安全控制方法及相关产品

Similar Documents

Publication Publication Date Title
CN115933748A (zh) 一种基于动态博弈的人-无人机群安全交互运动规划方法
CN113495578B (zh) 一种基于数字孪生式训练的集群航迹规划强化学习方法
Park et al. Fault tolerant flight control system for the tilt-rotor UAV
Kermorgant et al. Dealing with constraints in sensor-based robot control
Kayacan et al. Learning Control of Fixed‐Wing Unmanned Aerial Vehicles Using Fuzzy Neural Networks
CN113848984B (zh) 一种无人机集群控制方法及系统
Kuwata Trajectory planning for unmanned vehicles using robust receding horizon control
Luna et al. An adaptive coverage control algorithm for deployment of nonholonomic mobile sensors
CN113848974A (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
Guo et al. Learning-based collision-free coordination for a team of uncertain quadrotor UAVs
CN114138002A (zh) 分布式多无人机编队群集行为动态障碍物避障控制方法
Vijayakumari et al. Receding-horizon trajectory planning for multiple uavs using particle swarm optimization
Ramírez et al. Coordinated sea rescue system based on unmanned air vehicles and surface vessels
Rampinelli et al. Embedding obstacle avoidance in the control of a flexible multi-robot formation
Jacquet et al. Motor-level N-MPC for cooperative active perception with multiple heterogeneous UAVs
Zhao et al. Data-driven formation control for multiple heterogeneous vehicles in air–ground coordination
Sattigeri et al. An adaptive vision-based approach to decentralized formation control
Li et al. A warm-started trajectory planner for fixed-wing unmanned aerial vehicle formation
CN111176324B (zh) 一种多无人机分布式协同编队规避动态障碍的方法
Guo et al. Collision-free distributed control for multiple quadrotors in cluttered environments with static and dynamic obstacles
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
Zamora et al. Nonlinear control of a multilink aerial system and asekf-based disturbances compensation
Jardine A reinforcement learning approach to predictive control design: autonomous vehicle applications
Gudeta et al. Consensus Based Distributed Collective Motion of Swarm of Quadcopters
Nguyen et al. Collision-free formation control of multiple nano-quadrotors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination