CN116540780A

CN116540780A - 一种基于博弈制导的无人机决策控制方法

Info

Publication number: CN116540780A
Application number: CN202310714290.5A
Authority: CN
Inventors: 李娟�; 李亿俍; 扶磊; 杨成伟; 杨东晓; 刘畅
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-08-04

Abstract

本发明公开了一种基于博弈制导的无人机决策控制方法，涉及无人机决策控制技术领域，包括：获取参与攻防的个体信息，基于预设规则对参与攻防的个体进行目标匹配；根据所述目标匹配结果进行博弈制导计算；将博弈制导计算结果转化为期望姿态和油门后发送给飞行控制栈；飞行控制栈内环通过PID将期望姿态和油门转化成电机转速和舵机控制量，控制仿真中或者实物的动作。本发明能够支持集群层面的决策控制求解与输入，并不局限于个体控制，能够实现高机动追逃下的最优控制，本发明面向高仿真度无人机节点以及无人机实物平台，相较于当前微分博弈技术以及其他高智能现代飞行控制技术，具有更高的可行性与技术成熟度。

Description

一种基于博弈制导的无人机决策控制方法

技术领域

本发明涉及无人机决策控制技术领域，更具体的说是涉及一种基于博弈制导的无人机决策控制方法。

背景技术

飞行器的控制问题本质上是一个轨迹跟踪问题，当前对于飞行器控制问题的解决方法可以归为两类。一类方法将此问题分解为制导与控制问题，并进一步分离为外部制导回路和内部控制回路，简称外环、内环；另一类方法同时集成内外环功能，如滚动时域、微分平滑、神经网络等，由于其泛用性、可靠性、可解释性等原因，此类方法尚未得到广泛应用。

由于制导拦截弹药的出现和航天中有关机动追击问题的需要，现有技术中运用博弈论、变分法和控制理论的原理，来解决涉及两个或多个智能体之间动态冲突的问题，采用微分动态规划的方法，使得微分博弈从传统博弈的离散时间限制中跳脱出来，能够求解实时、动态的最优均衡策略。

现有的用于实机的飞行控制算法能够较好地解决航点和航迹的跟踪问题，但是对于当前高智能高机动目标的跟踪控制需求却无法满足最优；而为追逃最优决策而生的微分博弈方法却长期停留在数值分析计算层面，飞行器质点模型与实际模型相去甚远，且绝大多数研究场景被简化为二维平面，这也离实物应用相去甚远。

因此，如何提出一种基于博弈制导的无人机决策控制方法，面向实机，提高在追逃场景下无人机决策控制结果的最优性是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于博弈制导的无人机决策控制方法，适用于对目标的追逃、两智能体以及集群间的攻防；同时支持集中式和分布式飞行决策控制，为了实现上述目的，本发明采用如下技术方案：

一种基于博弈制导的无人机决策控制方法，包括：

获取参与攻防的个体信息，基于预设规则对参与攻防的个体进行目标匹配；

根据所述目标匹配结果进行博弈制导计算；

将博弈制导计算结果转化为期望姿态和油门后发送给飞行控制栈；

飞行控制栈内环通过PID将期望姿态和油门转化成电机转速和舵机控制量，控制仿真中或者实物的动作。

可选的，所述获取参与攻防的个体信息包括：追捕方集群与逃逸方集群所有个体的位置和欧拉角信息。

可选的，所述个体在向其他个体发送消息前需要检测自身状态，根据不同集群收发消息的无人机数量确定集群博弈的规模。

可选的，所述根据所述目标匹配结果进行博弈制导计算包括：将目标匹配结果输出至无人机，各无人机依据自身和匹配对象的状态信息进行博弈制导计算，或通过中心式计算得到各无人机加速度后再向各无人机发送指令，进行目标匹配与决策。

可选的，所述目标匹配基于拍卖机制，追捕方集群通过对逃逸方集群内个体的出价和竞价循环，最终确定每架目标无人机的归属。

可选的，对于逃逸方集群无人机的价值，采用基于三维Dubins路径长度的价值函数确定。

可选的，所述博弈制导计算包括：根据各无人机依据目标匹配后形成的配对，由微分博弈制导计算各无人机的三轴加速度，计算所需信息包括无人机的位置、速度与姿态。

可选的，所述将博弈制导计算结果转化为期望姿态和油门包括：

对于博弈制导计算得到的加速度，依据坐标系转换方法，将其从固定坐标系转化至载体坐标系；由载体坐标系下的y轴加速度生成期望滚转角；由载体坐标系下的x轴和z轴加速度生成期望速度与期望高度，经由总能量控制系统TECS计算后转化为期望俯仰角与期望油门。

可选的，将所述期望俯仰角、期望滚转角和期望油门以外部程序通信形式发送至飞行控制栈内环，外部程序与飞行控制栈以及各无人机飞行控制栈之间通过ROS2进行通讯，每一架飞机的飞行控制栈和外部程序都是不同的通信节点，各无人机之间分属不同的域。

可选的，所述目标匹配应用于最多三个集群间个体的追逃，对于无人机个体的追逃，无需进行目标匹配过程，对于两个个体间的攻防则直接跳过目标匹配步骤。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于博弈制导的无人机决策控制方法，具有如下有益效果：

本发明与PX4自动驾驶仪相比，能够支持集群层面的决策控制求解与输入，并不局限于个体控制。能够实现高机动追逃下的最优控制，相比于现有的传统无人机控制技术更加智能，而相较于基于神经网络的无人机控制技术可靠性、可解释性更强。本发明面向高仿真度无人机节点以及无人机实物平台，相较于当前微分博弈技术以及其他高智能现代飞行控制技术，具有更高的可行性与技术成熟度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于博弈制导的无人机决策控制方法框架示意图。

图2为本发明提供的无人机载体坐标系示意图。

图3为本发明提供的三方集群攻防配对示意图。

图4为本发明提供的低高度差下的Dubins路径轨迹示意图。

图5为本发明提供的中高度差下的Dubins路径轨迹示意图。

图6为本发明提供的高高度差下的Dubins路径轨迹示意图。

图7为本发明提供的博弈制导控制回路图。

图8为本发明提供的基于博弈制导的外环控制器设计原理图。

图9为本发明提供的FAST RTPS工作原理示意图。

图10为本发明提供的集中式决策控制原理示意图。

图11为本发明提供的分布式决策控制原理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于博弈制导的无人机决策控制方法，如图1所示，包括：

根据所述目标匹配结果进行博弈制导计算；

具体的，一种基于博弈制导的无人机决策控制方法，包括：

在完整的任务流程中，各无人机根据决策方法，在切换至offboard模式后，由机载计算机运行决策程序进行独立的决策，并将决策输入自动驾驶仪实现实际控制。每一个决策控制周期包含以下过程：

首先，默认各无人机能够实现互相通信，各无人机在向其他个体发送消息前将检测自身状态，确保自身状态健康参与攻防，并根据不同集群收发消息的无人机数量确定集群博弈的规模。

其次，各无人机基于所需信息进行防御与攻击集群、攻击与目标集群这两组追逃集群间的目标匹配，所需信息包括追捕方集群与逃逸方集群所有无人机个体的位置、欧拉角信息。目标匹配作为集群决策解耦的关键所在，其匹配过程基于拍卖机制，追捕方集群通过对逃逸方集群内个体的出价、竞价循环，最终确定每架目标无人机的归属。对于逃逸方无人机的价值，采用基于三维Dubins路径长度的价值函数确定。

然后，各无人机依据目标匹配后形成的配对，由微分博弈制导计算各机的三轴加速度，计算所需信息包括三架无人机的位置、速度与姿态。

最后，对于计算得到的加速度，首先依据坐标系转换方法，将其从固定坐标系转化至载体坐标系，如图2所示。由载体坐标系下的y轴加速度生成期望滚转角；由载体坐标系下的x轴和z轴加速度生成期望速度与期望高度，经由总能量控制系统TECS计算后转化为期望俯仰角与期望油门。将期望俯仰角、滚转角和油门以外部程序通信形式发送至飞控内环，外部程序与飞控、各机飞控之间通信过程由ROS2作为通讯工具。

需要说明的是，目标匹配方法的使用可以实现最多三个集群间个体的追逃，目标匹配与决策过程可以中心式计算得到各机加速度后再向各机发送指令，也可以通过分布式结构进行，由各机获取决策所需信息，并独立计算加速度。

具体的，一种基于博弈制导的无人机决策控制方法，用于无人机与另一个体间的追逃，也可以扩展最多三个集群间个体的攻防。包含目标匹配、博弈制导决策和飞行控制三大模块，作为分布式决策方法，各无人机的框架都是相同的。

步骤如下：

S1：当程序运行后，无人机由正常飞行模式切换为offboard外部控制模式，此模式切换过程随着程序运行自动切换，切换之后首先对参与攻防的个体数量及阵营进行判断，判断收发消息节点数。对于无人机个体的追逃，无需进行目标匹配过程，如果攻防对象数量大于1个，或是规模已然达到集群之间的攻防，则先经过目标匹配过程进行攻防配对，该配对功能可扩展至三个集群间的攻防，如图3所示，理论上的适用个体数量没有上限。对于两个个体间的攻防则直接跳过目标匹配步骤。

S2：在目标匹配之后，各机接收匹配结果，并且依据自身和匹配对象的状态信息开展博弈制导计算。博弈制导计算输出的结果为固定坐标系下每一个飞机的三轴加速度，经过后处理转化为期望姿态和油门后发送给飞控。

S3：飞行控制栈主要分为外环和内环，博弈结果越过外环发送至内环，内环通过PID将其转化成电机转速和舵机控制量。用于控制仿真中或者实物的动作。

S4：整个过程的通信使用ROS2框架，每一架飞机的飞控和博弈制导程序都是不同的通信节点，各机分属不同的域(DOMAIN)，以免飞机内部消息相互干扰。

在具体实施方式中，目标匹配具体步骤如下：

追逃无人机间的匹配原则为选择配对使得第i个追捕者和第j个逃逸者的配对价值value_ij之和最大。最优分配函数如下：

采用基于三维Dubins路径的价值函数作为空中追逃问题的最优分配函数。三维Dubins路径的生成需要先计算飞机起始点和终止点的位置和速度方向在地面投影对应的二维Dubins路径，并需要知道最大俯仰角。三维Dubins路径有三种不同的情况，取决于起始点和结束点之间的高度差|z_e-z_s|、地面投影的二维Dubins路径长度L_car和最大俯仰角θ_max限制，这三种情况被定义为低高度差、中高度差和高高度差，如图4、图5和图6所示。

在判断情况之前，需要先确定无人机的最小转弯半径。对于固定翼无人机，在固定速度、自动驾驶仪控制无滞后且飞机角度调整足够快的理想条件下，偏航角和滚转角之间的关系由协调转弯条件给出：

其中，ψ为偏航角，φ为滚转角。由于转弯半径与偏航角之间存在几何关系：

R×ψ＝V

无人机的最小转弯半径由下式给出：

其中V为飞机的固定飞行速度，g为重力加速度。三种高度差下的三维Dubins路径长度L_air由下式给出：

其中，z_s和z_e分别为起点和终点的高度，θ^*为低高度差下的最优俯仰角，满足：

φ^*为中等高度差下的中间弧最优圆心角，满足：

[L_car(φ^*)tanθ_max＝|z_e-z_s|

R^*为高高度差下的最优转弯半径，在螺线圈数为k时满足：

[L_car(R^*)+2πkR^*]tanθ_max＝|z_e-z_s|

将路径长度代入下式，即可得到基于三维Dubins路径的价值：

在具体实施方式中，博弈制导决策模块的原理包括：

博弈的本质是最优化过程，首先构建哈密尔顿函数H如下：

式中，和/>分别为拦截者和目标的控制加速度矢量，R^p和R^e分别为拦截者和目标的加速度控制权重矩阵，λ为终端条件，F和G分别为状态系数矩阵和输入系数矩阵，y₁₂为相对状态(相对位置和相对速度)矢量，/>为/>分别为拦截者和目标的附加干扰矢量(假设为0)。

根据最优化的必要条件可得，上式的偏导有如下性质：

代入哈密尔顿函数有：

将控制输入项移项至等式左边得到如下形式：

由于期望结果是将控制输入构建为关于系统状态的函数，因此可以将λ设为如下形式：

λ＝Py₁₂+Q

其中，P为6×6矩阵，为矩阵黎卡提微分方程(Matrix Riccati differentialequations,MRDE)的解；Q为6×1向量，后续表明是矢量黎卡提微分方程(Vector Riccatidifferential equations,VRDE)的解。观察形式可以看出矩阵P与博弈输入有关，而Q中含有额外加速度。将λ代入有：

由必要条件和哈密尔顿函数可得：

代入λ表达式，经过展开与代数化简可得：

由于上式要求对于所有y₁₂成立，所以y₁₂的系数与等式右侧必须等于零，即：

接下来，为了将数学模型应用于实际，定义权重矩阵结构如下：

并定义矩阵R：

R^p＝(R^p)^-1-(R^e)^-1

设矩阵R的结构为：

则矩阵中元素有如下关系：

为了解得能够应用的结果，做出如下设置：

s₁₁＝s₂₂＝s₃₃＝s₁

s₁₄＝s₂₅＝s₃₆＝s₂

s₄₄＝s₅₅＝s₆₆＝s₃

博弈制导的相关参数即由s₁、s₂、s₃、r^p、r^e构成。

记剩余时间T＝t_f-t，t_f为求解截止时间，t为当前时间。根据MRDE解可得：

追捕者和逃逸者的反馈增益矩阵如下：

即追捕者和逃逸者的控制输入反馈函数为：

通过控制回路框图的形式表示博弈制导的控制原理。将加速度表达式代入运动学方程，博弈制导的实现如图7所示。

在具体实施方式中，飞行控制具体步骤如下：

(1)通过总能量控制系统(TECS)，同时对固定翼飞行器的空速和高度进行控制。TECS提供了一种解决方案，即根据能量而不是初始设定值来反映问题。一架飞行器的总能量是飞行器动能和势能之和，推力即通过油门控制可以增加飞机的总能量。一个给定的总能量状态可以通过势能和动能的任意组合来实现。也就是说，飞行器在高海拔以低空速飞行和在低海拔以高空速飞行时的总能量是等价的。这种情况叫做比能量平衡，它是根据当前高度和真实空速设定值计算的。可以通过控制俯仰角来控制飞行器的比能量平衡。俯仰角增加将动能转变为势能，俯仰角减少则情况相反。这样，通过将初始空速和海拔设定值转化为能量大小，空速和海拔存在耦合，而能量大小可以独立控制，就可以把控制问题解耦。利用油门调节飞行器的特定总能量，利用俯仰角来维持势能(高度)和动能(真空速)的特定平衡点。包含TECS模块的博弈制导原理如图8所示。

(2)飞行模块主要使用px4飞行控制栈内环的姿态控制。姿态控制器采用级联环路的方法工作。外环计算姿态设定值和估计值的误差，并将误差乘上一个增益(比例控制器)，产生角速率设定值。内环计算角速率误差，并采用比例加积分控制器产生一个所需角加速度。

然后根据期望的角加速度和系统先验信息，通过控制分配(又叫混控)，计算出执行机构(副翼，水平尾翼，垂直尾翼等)的角偏移量。此外，由于控制面在高速时更有效，而在低速时效率较低，因此根据巡航速度调整的控制器使用空速测量值进行缩放。

如果没有安装空速传感器，固定翼姿态控制的增益调整将被禁用，将无法在总能量控制系统中使用空速反馈。但是，为了将飞机侧滑产生的侧向加速度最小化，偏航控制器利用转向协调约束产生偏航速率设定值。

前馈增益用于补偿空气动力阻尼。绕机体轴的两个主要力矩分量分别来自：控制翼面(副翼、水平尾翼、垂直尾翼，驱动机体转动)和空气动力阻尼(与机体角速率成正比，阻止机体转动)。为了保持恒定的角速率，可以在角速率回路中使用前馈来补偿这种空气动力阻尼。

滚转和俯仰控制器具有相同的结构，并且假设纵向和横向动力学足够解耦，可以独立工作。但是，为了将飞机侧滑产生的侧向加速度最小化，偏航控制器利用转向协调约束产生偏航速率设定值。转弯协调算法仅基于协调转弯几何计算，如下式所示。式中为偏航角速率设定值，g为重力加速度，V_T为飞机的纵向速度，φ_sp和θ_sp分别为期望滚转角和俯仰角。偏航角速度控制有助于抵消不利的横摆影响，并能通过提供额外阻尼来防止侧倾。

在具体实施方式中，ROS2通信具体步骤如下：

FAST RTPS桥，也称为micro RTPS桥，为PX4自动驾驶仪添加了实时发布-订阅(RTPS)接口，使各种飞控内部组件和(非机载)程序之间能够实时交换uORB消息。能够更好地与在ROS2中运行和链接的应用程序集成，共享传感器数据、命令和其他飞机信息。

micro RTPS桥接器在飞控与飞控、飞控与外部程序即目标匹配和博弈制导程序之间交换消息，在每个系统使用的uORB和RTPS/DDS消息之间无缝转换。其体系结构的主要组成部分如图9所示的客户端和代理进程。

(1)客户端(Client)

客户端是在飞控上运行的中间件守护进程。客户端订阅其他PX4自动驾驶组件发布的uORB主题，并向代理发送任何更新，通过UART或UDP端口，还接收来自代理的消息，并将其作为uORB消息发布到PX4自驾仪。

(2)代理(Agent)

代理程序作为后台进程在机外计算机即飞控外部运行。该代理监视来自客户端的uORB更新消息，并通过RTPS发布这些消息，还订阅来自其他DDS参与者应用程序的“uORB”RTPS/DDS消息，并将其转发给客户端。

(3)代理/客户端间通信

代理和客户端通过串行链路(UART)或UDP网络连接，uORB信息在发送之前进行CDR序列化(CDR序列化提供了在不同平台之间交换串行数据的通用格式)。

代理和任何Fast DDS应用程序都是通过UDP连接的，并且可以位于同一个或另一个设备上。在典型配置中，它们将位于同一系统上，例如，开发计算机、Linux配套计算机或计算板，并连接到客户端，可以通过Wifi连接或USB连接。

本发明设计了一种基于博弈制导的飞行器决策控制方法，适用于对目标的追逃、两智能体以及集群间的攻防；本发明设计的控制决策方法使用基于拍卖框架的目标匹配方法进行飞行控制的规模扩展，同时对于单机决策控制，使用博弈制导方法作为控制器外环，使用TECS模块将期望加速度转化为期望姿态，并直接输入飞控内环进行PID控制；使用ROS2框架作为各无人机飞控之间以及飞控与其他程序(目标匹配和博弈制导)之间的通讯手段，使用FAST RTPS作为消息格式转换的接口；同时支持集中式和分布式飞行决策控制，如图10、图11所示。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于博弈制导的无人机决策控制方法，其特征在于，包括：

根据所述目标匹配结果进行博弈制导计算；

2.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法，其特征在于，所述获取参与攻防的个体信息包括：追捕方集群与逃逸方集群所有个体的位置和欧拉角信息。

3.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法，其特征在于，所述个体在向其他个体发送消息前需要检测自身状态，根据不同集群收发消息的无人机数量确定集群博弈的规模。

4.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法，其特征在于，所述根据所述目标匹配结果进行博弈制导计算包括：将目标匹配结果输出至无人机，各无人机依据自身和匹配对象的状态信息进行博弈制导计算，或通过中心式计算得到各无人机加速度后再向各无人机发送指令，进行目标匹配与决策。

5.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法，其特征在于，所述目标匹配基于拍卖机制，追捕方集群通过对逃逸方集群内个体的出价和竞价循环，最终确定每架目标无人机的归属。

6.根据权利要求5所述的一种基于博弈制导的无人机决策控制方法，其特征在于，对于逃逸方集群无人机的价值，采用基于三维Dubins路径长度的价值函数确定。

7.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法，其特征在于，所述博弈制导计算包括：根据各无人机依据目标匹配后形成的配对，由微分博弈制导计算各无人机的三轴加速度，计算所需信息包括无人机的位置、速度与姿态。

8.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法，其特征在于，所述将博弈制导计算结果转化为期望姿态和油门包括：

9.根据权利要求8所述的一种基于博弈制导的无人机决策控制方法，其特征在于，将所述期望俯仰角、期望滚转角和期望油门以外部程序通信形式发送至飞行控制栈内环，外部程序与飞行控制栈以及各无人机飞行控制栈之间通过ROS2进行通讯，每一架飞机的飞行控制栈和外部程序都是不同的通信节点，各无人机之间分属不同的域。

10.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法，其特征在于，所述目标匹配应用于最多三个集群间个体的追逃，对于无人机个体的追逃，无需进行目标匹配过程，对于两个个体间的攻防则直接跳过目标匹配步骤。