CN108873936B

CN108873936B - 一种基于势博弈的飞行器自主编队方法

Info

Publication number: CN108873936B
Application number: CN201810745368.9A
Authority: CN
Inventors: 贾翔; 李珂; 吴森堂; 张美薇; 王旭
Original assignee: Beijing Institute of Electronic System Engineering
Current assignee: Beijing Institute of Electronic System Engineering
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2021-06-04
Anticipated expiration: 2038-07-09
Also published as: CN108873936A

Abstract

本发明公开一种基于势博弈的飞行器自主编队方法，包括：根据飞行器编队原则构建飞行器势博弈群体利益函数；根据每个飞行器获取的信息和群体利益函数构建势博弈个体利益函数；根据分布式原则定时更新飞行器信息以使群体利益和个体利益趋于最优。本发明在通信链路存在丢包情况下，提出一种基于势博弈和编队原则的飞行器自主编队分布式协同决策方法，充分考虑了个体利益和个体信息的本地化，同时兼顾群体利益的优化，可以保证较大规模的高动态飞行器自主编队在具有一定信息不确定性、组网通信存在丢包的条件下分布式地实现动态目标分配。

Description

一种基于势博弈的飞行器自主编队方法

技术领域

本发明涉及无人机自主控制技术领域。更具体地，涉及一种基于势博弈的飞行器自主编队方法。

背景技术

协同决策的方法一般按决策机制可以分为集中式、分布式和集散式，其中集中式的决策可以保证结果的一致性和最优性，但当编队规模较大时存在计算和通信信息量大，信息不确定性强或丢包严重情况下无法保证系统的鲁棒性和稳定性等特点；集散式介于分布式和集中式之间，例如分层递阶的决策，也一定程度的同样存在集中式决策的问题；而分布式决策可以保证每个编队成员按照自己的计算方式获得可行解，保证不确定环境、有限通信和计算量的情况下本地的优化，并在一定程度上兼顾全局的优化，但分布式决策的一致性和选择结果的优化收敛的证明是分布式决策的难点所在。

分布式决策与控制问题的研究已经大量的开展，其中基于势博弈的分布式决策是一种兼顾个体利益的自私性和群体利益的完整性的决策模式，可以很好地解决分布式系统的信息不完整问题，发挥不确定环境下群体中个体的自主性，并最终通过个体的优势选择，使整体逐渐趋于最优。

分布式协同决策方法是研究飞行器自主编队决策与管理系统的关键问题，而飞行器自主编队决策与管理系统是飞行器自主编队协同制导控制技术的重要组成部分。

因此，需要提供一种基于势博弈的飞行器自主编队方法。

发明内容

本发明的目的在于在通信链路存在丢包情况下，利用基于势博弈和编队原则的飞行器自主编队分布式协同决策方法，解决飞行器自主编队在复杂对抗环境下基于TDMA通信协议的分布式决策的可靠性、实时性和实用性问题。

为达到上述目的，本发明采用下述技术方案：

一种基于势博弈的飞行器自主编队方法，包括：

根据飞行器编队原则构建飞行器势博弈群体利益函数；

根据每个飞行器获取的信息和群体利益函数构建势博弈个体利益函数；

根据分布式原则定时更新飞行器信息以使群体利益和个体利益趋于最优。

进一步地，所述飞行器编队原则包括：

协同编队的必要性原则：判断多个飞行器协同组成编队执行任务，是否会比单枚飞行器单独执行任务利益高；

综合作战效能最大原则：同等条件时分配资源、编队队形后使完成任务效率最高；

编队的完整性惠顾原则：兼顾每个飞行器的性能差异，保证每个飞行器安全前提下完成任务。

进一步地，所述构建飞行器势博弈群体利益函数包括：

定义分配给飞行器群体的某个任务的分配结果为

分配结果对第T_j个任务的优势函数

为：

其中，

表示分配结果为

时，执行任意任务T_j的飞行器v_i(a_i＝T_j)的优势值，

为执行任务T_j最大需要的飞行器数量，

为分配结果中执行任务T_j的飞行器中优势值最大的

个优势值的和。

所述群体利益函数U_g(a)为：

其中，

为惩罚分配结果中威胁度为

(认为是常数)的任务T_j被忽略的代价，λ为惩罚因子，

为

分配结果时执行任务T_j的飞行器数量。

进一步地，所述构建势博弈个体利益函数包括：当飞行器群体获取的信息完全、通信完备时，个体利益函数

当飞行器群体获取的信息不完整时，个体利益函数

为：

其中，A_i为执行的任务集合。

进一步地，所述构建的群体利益函数U_g(a)和个体利益函数

满足：

进一步地，所述分布式原则包括：定时随机选择一个飞行器进行任务信息更新，并将更新的信息通过网络发送至其他飞行器。

进一步地，定义a(k-1)为所有飞行器上一步的选择方案，则第k步选中的飞行器v_i进行任务信息更新的选择方案的概率分布p_i(k)为：

其中，i(i∈{1,2…n})为飞行器编号，σ(·)为罗吉特概率函数，τ＞0，为随机性参数，调节决策过程的随机性，κ_i为信息丢包率。p_i(k)满足概率分布p_i(k)∈Δ(|A_i|)(Δ(n)＝{s∈Rⁿ|s≥0,1^Ts＝1})。

进一步地，所述分布式原则采用TDMA协议的编队支撑网络，确定利益优化所需时间，通过多次优化迭代得到近似纳什平衡状态结果。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述计算机可读存储介质在计算机上运行时，使得所述计算机执行上述的方法。

本发明的有益效果如下：

本发明所述技术方案涉及在通信链路存在丢包情况下，一种基于势博弈和编队原则的飞行器自主编队分布式协同决策方法，在给出飞行器编队协同制导与控制系统的概念后重点提出了一种基于势博弈的飞行器自主编队动态目标分配方法。首先构建了势博弈的个体利益函数和群体利益函数，个体利益函数充分考虑了个体利益和个体信息的本地化，同时兼顾群体利益的优化。随后给出了适用于飞行器自主编队分布式决策的本地优化协调机制，基于空间自适应选择法(SAP)的协调机制，引入“周期选择”和“基于编队支撑网络认知的宏观调节”的协调策略，并证明了该协调机制下，随着集群中飞行器本地优化的迭代，群体利益函数动态收敛到博弈的纳什平衡。采用该方法可以保证较大规模的高动态飞行器自主编队在具有一定信息不确定性、组网通信存在丢包的条件下分布式地实现动态目标分配。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明；

图1为基于势博弈的飞行器自主编队方法流程图；

图2为个体利益和群体利益函数变化曲线图；

图3为来实现本发明实施例的终端设备或服务器系统的结构示意图。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

分布式协同决策方法是研究飞行器自主编队决策与管理系统的关键问题，而飞行器自主编队决策与管理系统是飞行器自主编队协同制导控制技术的重要组成部分。编队中的飞行器成员在支撑网络中被称为节点。节点通过编队支撑网络和传感器系统获取相关的信息，包括局部(或全部，视编队规模和网络能力)节点的信息，网络的特征信息和任务环境特征信息，然后通过编队决策与管理系统对这些信息进行分析，权衡成员个体代价与群体代价，进行任务规划/目标分配、协同航路规划/队形优化、队形导引律和制导律生成，形成编队的队形导引轨迹和编队的队形优化指标，最后经编队飞行控制系统和成员飞行控制系统，按照编队的队形导引指令和队形要求完成编队飞行控制。

采用势博弈对该系统下分布式决策的建模机理如下：

以任务目标分布式分配为例，假设n_v个无人平台分配n_t个目标。每个目标或者无人平台都有其各自的特性，n_v个无人平台表示为

相应的n_t个目标表示为

其中T₀表示一个虚拟目标“空目标”，可以分配给无人平台ν_i的目标的集合表示为

因此，某一时刻分配给无人平台ν_i的目标可表示为a_i∈A_i，而

即为某一时刻整个群体的一个任务目标分配方案。

用U_g(a)表示群体的整体利益函数，表示无人平台ν_i的个体利益函数，每个个体成员依据群体的基本规则，在自己的可选目标集A_i内自主地选择自己的目标a_i，实现自身利益的最大化，个体利益函数的设定通常会为整体利益的优化做一定的修正，分布式决策的过程中，每个个体的目标选择将在提前设定好的协调机制的制约和牵引下进行，当个体和群体利益函数的选取满足特定要求的时候，该优化和协调过程即表现为势博弈或广义势博弈的收敛过程，最终达到纳什平衡。

上述个体利益函数

和群体利益函数U_g(a)当满足下式时，即可成为一个广义势博弈：

其中a_i′,a_i″∈A_i，

势博弈的利益函数选取和协调机制的设定将直接影响收敛的速率和平衡点的优劣，收敛的证明和平衡点的优劣也通常是博弈论在工程应用中具有较高难度的重要环节。另外，势博弈往往收敛较慢，同时优势函数和协调机制的选取多种多样，如选择性递归均值法(Selected Recursive Averaging Algorithm)、单步记忆空间自适应选择法(one-stepMemory Spatial Adaptive Play)。

如图1所示，本发明公开的一种基于势博弈的飞行器自主编队方法，包括：

S1、根据飞行器编队原则构建飞行器势博弈群体利益函数。

自主编队原则是选取决策方式、指导决策过程的重要依据。编队原则基本上可以概括为三大方面：协同编队的必要性原则、综合作战效能最大原则、编队的完整性惠顾原则。

协同编队的必要性原则：编队必要性的研究由多枚飞行器协同组成编队遂行任务，是否会比单枚飞行器单独遂行任务或者相互间无协同关系的多枚飞行器遂行任务所获得的综合作战效能有显著提高，同时保证当前使用的飞行器性能、遂行任务的作战环境、任务环境等条件下形成编队的编队效果和编队安全。

综合作战效能最大原则：编队综合作战效能最大原则是要研究同等作战环境条件、相同备弹情况下如何优化配置各种导引头等资源，采用何种编队机制、编队队形等编队管理策略，使飞行器成员的个体作战效能与协同编队的作战效能、协同编队的作战效能与编队成本费用得到优化平衡，进而使编队完成任务的能力最优的问题。

编队的完整性惠顾原则：编队完整性惠顾的原则是要充分兼顾飞行器成员的性能差异，在信息获取与共享、决策制定和协同行动中，应惠顾到编队所有的飞行器成员，保证飞行器编队顺利执行任务的情况下每个成员都有较高的生存几率和完成个体目标的概率。

本实施例中将一个任务作为一个打击目标，依据编队三原则，首先设计势博弈的群体利益函数，即U_g(a)，依然以动态目标分配为例，首先定义对应分配方案

时，分配结果对目标T_j的优势函数

如下：

其中，

表示分配结果为

情况下，任意打击目标T_j的飞行器v_i(a_i＝T_j)的优势值，

表示击毁目标T_j最大需要的飞行器数量，则上式表示分配结果中打击目标T_j的飞行器中优势值最大的

个优势值的和。

则给出U_g(a)定义如下：

其中，

表示惩罚分配结果中威胁度为

(认为是常数)的目标T_j被忽略的代价，其中λ为惩罚因子，

表示

分配结果时打击目标T_j的飞行器数量。

S2、根据每个飞行器获取的信息和群体利益函数构建势博弈个体利益函数；

势博弈的个体利益函数的选择一般要遵循两个基本原则，一个是保证与群体利益函数的关联性，一个是保证个体利益函数的本地化，即利用本地可以获取的有限信息构建个体利益函数。依据编队三原则，不同的任务环境和自然环境下需要设计不同的个体利益函数，下面给出了两种适用于飞行器自主编队动态目标分配的个体利益函数，同时给出了应用的任务环境和适用条件。

(1)假设编队支撑网络和信息获取系统给出的信息完全、通信完备，可采用个体利益函数：

此时，每个飞行器都将利用获取到的全局信息决策本地的选择结果，但由于其对网络服务质量有很强的依赖性，当编队规模较大时计算量和通信量都将急剧增加，因此仅适用于通信状况良好、节点数量较少的自主编队。

(2)假设编队支撑网络和信息获取系统可以给出临近飞行器较为完全的信息，则可以假设个体利益函数为：

此种个体利益函数要求本地获取到的信息包含本地任务集A_i中每个目标对应分配的所有飞行器的计算优势值时的所有数据，相对前一个体利益函数的设计，缩小了需求的信息量和计算量，也更符合不确定环境下的分布式决策问题。

可以证明所构造的群体利益函数和个体利益函数满足势博弈的要求：

S3、根据分布式原则定时更新飞行器信息以使群体利益和个体利益趋于最优。

除了设计适应任务环境满足势博弈要求的个体利益函数和群体利益函数，势博弈获得最优结果还需要与利益函数相对应的协调机制来使势博弈趋于平衡。协调机制的好坏将直接影响平衡点的优劣，本发明在分布自适应机制(SAP)的基础上，引入自主编队原则的思想，构造了适用于飞行器自主编队动态目标分配的协调机制，主要思想是“周期性选择的空间自适应博弈”、“基于编队支撑网络认知的宏观调节”。这里改进的SAP协调机制是采用TDMA协议的编队支撑网络。

SAP协调机制中，每一步都随机选择一个飞行器进行目标优化选择，并将更新的目标通过支撑网络告知其他飞行器，设a(k-1)所有飞行器上一步的选择方案，则设计第k步被选中的飞行器v_i的选择方案，即按照一个特定的概率分布p_i(k)∈Δ(|A_i|)(Δ(n)＝{s∈Rⁿ|s≥0,1^Ts＝1})来选择目标，其中概率分布p_i(k)使下式最大：

其中，H[·]是熵值函数，τ＞0是随机性参数调节决策过程的随机性，则可以给出上式最大时候的p_i(k)如下：

其中σ(·)是罗吉特概率函数。

σ：Rⁿ→Δ(n)＝logit or soft-max function

不同于文献中的SAP，本发明中通信使用的编队支撑网络采用的TDMA协议的AdHoc网络，每个通信周期(编队的网络更新率)选择需要更新的节点在分布式的机制下很难得到统一，因此采用“周期性选择的分布自适应机制”，即考虑让每个节点周期性的更新，虽然放弃了一定的随机性，但同样可以满足SAP协调机制的要求。即按照飞行器的编号i(i∈{1,2…n})顺序每个节点在n个周期内将更新一次。

同时为了加快SAP的收敛速度，在每个节点更新本地目标的时候加入基于编队支撑网络服务质量认知结果的不确定信息的全局修正，这里认为编队具备较为完善的支撑网络服务质量认知能力，即假设每个节点可得知自身的网络服务质量(文中主要考虑丢包率κ_i)，则轮到某个节点更新自身目标的时候将以一定的概率P_i(κ_i)放弃本节点的目标更新。

综上所述，本发明中采用的改进SAP协调机制如下：

第n·i个通信周期时更新飞行器v_i的目标信息，依据：

下面证明该协调机制可以收敛到平衡点：

首先为了证明

是一个势博弈分配}＝1，我们引入文献中的定理如下。

引理1：设G为具有势能函数ρ的一个对称势博弈，并设Γ为一个有限的加权图。对于每个β＞0，空间适应性过程P^Γ,β具有唯一的稳定分布

并且这个空间博弈的随机稳定状态是那些最大化ρ^*(x)的状态。

根据上述引理，本发明改进的SAP协调机制引入了一个不可约的马尔科夫过程，状态空间为A，第k步的状态表示为a(k)，则这个马尔科夫过程状态的转移频率将收敛于唯一的稳定分布，如引理1中给出的，稳定分布可写成如下格式：

详细的平衡条件为：

则由于协调机制的周期性选择更新节点的特点，只需要证明当a,b∈A两个状态只有一个量不同时是的平衡条件即可，即对特定的a,b∈A,a_i≠b_i,a_-i＝b_-i，

其中

可以得出

可以看出该协调机制可以有较高概率使自主编队在具有一定网络丢包条件下收敛到平衡状态，并具有低计算和通信负担的特点，适用于工程应用。

如图2所示，为了验证方法的有效性，采用系统由Vega Prime和Microsoft VisualStudio 2005软件搭建了一个综合数字仿真系统，在仿真系统中以某型反舰弹的模拟数据建立非线性六自由度模型，飞行器自主编队依照战场典型作战想定遂行作战任务，仿真试验的具体过程不再论述。从仿真图中可以看出个体利益函数和群体利益函数的曲线走势基本一致，最终决策结果的群体利益函数值明显比初始值得到了较大提高，但由于实际优化过程中随机性参数τ和支撑网络丢包率κ的值并非趋于0的小数，因而长期的势博弈结果将存在随机的波动，但在工程应用中特定的决策时间内可以保证分布式决策具有明显的优化效果。

下面参考图3，其示出了适于用实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

如图3所示，计算机系统包括中央处理单元(CPU)，其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中，还存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、确定模块和推荐模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的用于基于势博弈的飞行器自主编队的方法。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。