CN109523838A

CN109523838A - 基于演化博弈的异质化协同飞行冲突解决方法

Info

Publication number: CN109523838A
Application number: CN201811623412.5A
Authority: CN
Inventors: 王炜烨
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-03-26
Anticipated expiration: 2038-12-28
Also published as: CN109523838B

Abstract

本申请公开了基于演化博弈的异质化协同飞行冲突解决方法，该方法包括：步骤1，将多飞行器群体中任一个飞行器记作探测飞行器，根据探测飞行器的探测半径，确定探测飞行器对应的邻居飞行器集合；步骤2，根据演化博弈算法，计算探测飞行器对于邻居飞行器集合的博弈总收益；步骤3，根据探测飞行器的博弈总收益和邻居飞行器的博弈总收益，计算探测飞行器的飞行策略学习概率；步骤4，根据飞行策略学习概率，更新探测飞行器的飞行执行策略，其中，飞行执行策略为探测飞行器的自身飞行策略或者邻居飞行器的自身飞行策略中的一种。通过本申请中的技术方案，对异质化的多个飞行器进行协同飞行冲突解决，提高整个飞行器群体协同飞行的安全性。

Description

基于演化博弈的异质化协同飞行冲突解决方法

技术领域

本申请涉及飞行器的技术领域，具体而言，涉及基于演化博弈的异质化协同飞行冲突解决方法。

背景技术

多飞行器协同飞行就是寻找各个飞行器个体间的交互规则，这些交互规则的目标是在不需要全局统一控制的情况下，达到并维持全局一致的目标状态。多飞行器协同飞行的冲突问题，实际上就是飞行器之间的利益冲突问题。演化博弈是博弈论和动态演化过程相结合的一种理论，研究目标是寻找博弈演化过程中的稳定均衡点，因此，可以将协同飞行的过程看作是多个飞行器之间不断地交互和时间演化的演化博弈过程，通过这种交互和演化，寻找整个飞行器群体预期的整体性行为状态。

而现有技术中，一般是将协同飞行的多个飞行器进行同质化，如设定各飞行器的通信范围、飞行速度均相同，再对同质化后的多个飞行器进行协同飞行冲突解决。但是，在实际多飞行器协同飞行的过程中，各个飞行器个体的通信范围、飞行速度、发动机动力性能等参数，往往存在一项或多项的差异，并且可能会有一个或多个飞行器在整个飞行器群体中拥有较高的优先级，因此，无法继续采用同质化后的协同飞行冲突解决方法，对异质化的多个飞行器进行协同飞行冲突解决。

发明内容

本申请的目的在于：对异质化的多个飞行器进行协同飞行冲突解决，提高整个飞行器群体协同飞行的安全性和准确性。

本申请的技术方案是：提供了基于演化博弈的异质化协同飞行冲突解决方法，该方法包括：步骤1，将多飞行器群体中任一个飞行器记作探测飞行器，根据探测飞行器的探测半径，确定探测飞行器对应的邻居飞行器集合，其中，邻居飞行器集合中至少包括一个邻居飞行器，邻居飞行器属于飞行器群体；步骤2，当判定探测飞行器与邻居飞行器集合内的任一个邻居飞行器之间数据通信正常时，根据演化博弈算法，计算探测飞行器对于邻居飞行器集合的博弈总收益；步骤3，根据探测飞行器的博弈总收益和邻居飞行器的博弈总收益，计算探测飞行器的飞行策略学习概率；步骤4，根据飞行策略学习概率，更新探测飞行器的飞行执行策略，其中，飞行执行策略为探测飞行器的自身飞行策略或者邻居飞行器的自身飞行策略中的一种。

上述任一项技术方案中，进一步地，步骤2，具体包括：步骤21，当判定探测飞行器与邻居飞行器集合内的任一个邻居飞行器之间数据通信正常时，选取邻居飞行器集合中的任一个邻居飞行器；步骤22，根据探测飞行器的自身飞行策略、邻居飞行器的自身飞行策略，采用演化博弈算法，构建探测飞行的博弈收益矩阵；步骤23，根据博弈收益矩阵，计算探测飞行器相对于邻居飞行器的博弈收益，将博弈收益的和值记作博弈总收益，其中，博弈总收益的计算公式为：

式中，P_i(t)为当前时刻t的博弈总收益，A_i(t)为当前时刻t的邻居飞行器集合，P_i→j(t)当前时刻t的探测飞行器a_i与邻居飞行器a_j的博弈收益。

上述任一项技术方案中，进一步地，步骤3中，飞行策略学习概率的计算公式为：

式中，W[s_i(t)←s_j(t)]为飞行策略学习概率，s_i(t)为当前时刻t探测飞行器的自身飞行策略，s_j(t)为当前时刻t邻居飞行器的自身飞行策略， P_i(t)为探测飞行器的博弈总收益，P_j(t)为邻居飞行器的博弈总收益，K 为权重系数。

上述任一项技术方案中，进一步地，方法，还包括：步骤5，根据飞行执行策略，判断多飞行器群体是否达到均衡状态，若是，飞行器群体按照飞行执行策略保持均衡状态，若否，执行步骤6；步骤6，根据飞行执行策略，计算飞行群体的位置坐标，更新邻居飞行器集合。

上述任一项技术方案中，进一步地，步骤6，具体包括：步骤61，根据飞行执行策略，计算飞行群体中的探测飞行器的飞行角度和位置坐标，其中，飞行角度的计算公式为：

式中，θ_i(t+1)为下一时刻t+1的探测飞行器的飞行角度，θ_i(t)为当前时刻t的探测飞行器的飞行角度，θ_j(t)为当前时刻t的邻居飞行器的飞行角度，A_i(t)为当前时刻t的邻居飞行器集合，

坐标位置的计算公式为：

式中，x_i(t+1)为下一时刻t+1的探测飞行器的位置坐标，x_i(t)为当前时刻t的探测飞行器的位置坐标，为当前时刻t的探测飞行器的速度矢量，其大小为v，方向为θ_i(t)；步骤62，根据探测半径和位置坐标，更新邻居飞行器集合，其中，邻居飞行器集合A_i(t)的计算公式为：

A_i(t)＝{a_j||x_i(t)-x_j(t)||＜R_i，j＝1，2，...，i-1，i+1，...，M}，

式中，a_j为邻居飞行器，x_j(t)为当前时刻t的邻居飞行器的位置坐标，R_i为探测飞行器的探测半径。

上述任一项技术方案中，进一步地，还包括：步骤7，当判定探测飞行器与邻居飞行器集合内的任一个邻居飞行器之间数据通信异常时，根据多飞行器群体中的探测飞行器的全部单纯飞行策略和邻居飞行器的当前飞行策略，采用归一化算法和加权算法，计算飞行器对应的个体期望收益；步骤8，根据个体期望收益，生成多飞行器群体的策略记忆池，并计算策略记忆池中单纯飞行策略对应的总期望收益；步骤9，确定总期望收益最大值对应的单纯飞行策略为飞行器的飞行执行策略。

本申请的有益效果是：通过确定飞行器的邻居飞行器集合，引入演化博弈算法，计算探测飞行器相对于邻居飞行器集合的博弈总收益，以及飞行策略学习概率，更新探测飞行器的飞行执行策略，实现了对异质化的多个飞行器进行协同飞行冲突解决，提高了整个飞行器群体协同飞行的安全性。通过演化博弈算法，构建博弈收益矩阵，减小了博弈总收益的计算量，并提高了计算博弈总收益的准确性。

本申请能够扩大探测范围，并且能够更方便地对异质化的飞行器进行描述，提高了本申请中的冲突解决方法数学描述的准确性，以及确定飞行执行策略的可靠性，提高了多飞行器群体进行协同飞行的安全性。

本申请通过计算各个飞行器的个体期望收益，并生成策略记忆池，将策略记忆池中总期望收益最大值对应的单纯飞行策略记作解脱飞行策略，控制各个飞行器进行自主冲突解脱飞行，解决了在飞行器只能探测到相邻飞行器的当前飞行策略时，多飞行器之间的飞行冲突问题，提高了飞行器控制系统的稳定性。通过计算个体期望收益，有利于提高各个飞行器进行冲突解脱飞行过程中包括飞行时延、飞行能耗以及舒适度等方面的飞行效率，提高飞行路线规划的准确性和及时性。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的基于演化博弈的异质化协同飞行冲突解决方法的示意流程图；

图2是根据本申请的一个实施例的异质化探测半径示意图；

图3是根据本申请的一个实施例的探测半径仿真曲线示意图；

图4是根据本申请的一个实施例的博弈模型的示意图；

图5是根据本申请的一个实施例的合作频率计算函数仿真示意图；

图6是根据本申请的一个实施例的协同飞行过程仿真示意图；

图7是根据本申请的另一个实施例的通信异常情况下冲突解决方法的示意流程图；

图8是根据本申请的另一个实施例的记忆池的示意图；

图9是根据本申请的另一个实施例的系统效率仿真图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

实施例一：

以下结合图1至图6对本申请实施例一进行说明。

如图1所示，本实施例提供了基于演化博弈的异质化协同飞行冲突解决方法，包括：

步骤1，将多飞行器群体中任一个飞行器记作探测飞行器，根据探测飞行器的探测半径，确定探测飞行器对应的邻居飞行器集合，其中，邻居飞行器集合中至少包括一个邻居飞行器，邻居飞行器属于飞行器群体；

具体地，多飞行器群体中，对于不同型号的各个飞行器，其探测范围、飞行速度、发动机动力性能等参数存在差异，特别是对于各个飞行器的探测范围(探测半径)，是飞行器安全飞行的重要参数以及各飞行器异质化的重要指标，如图2所示，在实际情况中，对于不同探测半径的飞行器，其邻居飞行器集合中飞行器的数量是不相同的，因此，需要根据探测飞行器的探测半径确定对应的邻居飞行器。

在本实施例中，设定各飞行器之间能够实现局部信息共享，即任何探测飞行器都能够感知到邻居飞行器的所有飞行信息，如位置坐标、飞行速度、飞行角度以及下一时刻的自身飞行策略，其中，自身飞行策略由异质化协同飞行冲突解决系统根据各个飞行器的起始位置、终止位置以及当前飞行信息确定，各个飞行器的飞行速度v是恒定不变的，飞行器a_i的探测半径为R_i，探测半径R_i的计算公式为：

R_i＝ξ+<r>，

式中，ξ为随机分布函数，χ为随机数，随机数χ的取值范围为[0，1]，且满足<r>为多飞行器群体平均探测半径，其中，随机分布函数ξ可以为四种分布函数的一种或多种，四种分布函数依次为恒定常数、均匀分布、指数分布和幂律分布，四种分布函数对应的探测半径R_i的仿真曲线如图3(a)、图3(b)、图3(c)和图3(d)所示。在进行仿真试验过程中，可以将随机分布函数ξ仅服从恒定常数时对应的探测半径R_i，作为同质化探测半径R_i对比仿真试验。

优选地，当随机分布函数ξ为幂律分布函数时，幂律系数n＝3。

在初始时刻，各个飞行器的飞行方向随机设置，多飞行器群体A飞行在L×L的包含周期性边界二维方形区域，多飞行器群体A包含的飞行器数量为M，在当前时刻t，任一个飞行器a_i(i＝1，2，...，M)都满足a_i∈A，对应的位置坐标为x_i(t)。

在当前时刻t，将飞行器a_i记作探测飞行器，探测半径为R_i，其探测半径R_i内的飞行器组成了探测飞行器a_i的邻居飞行器集合A_i(t)，邻居飞行器集合A_i(t)的计算公式为：

A_i(t)＝{a_j|||x_i(t)-x_j(t)||＜R_i，j＝1，2，...，i-1，i+1，...，M}，

现有技术中，通常是将探测飞行器的探测半径设定为一个恒定值，即将探测飞行器同质化，而本申请是通过设置不同的探测半径，对探测飞行器进行异质化，提高了确定邻居飞行器集合的真实性，进而有利于提高计算邻居飞行器博弈总收益的准确性，以及根据博弈总收益计算飞行策略学习概率的准确性和真实性，使得本申请中的异质化飞行冲突解决方法更具有实用性和可靠性。

步骤2，根据演化博弈算法，计算探测飞行器对于邻居飞行器集合的博弈总收益；

进一步地，步骤2具体包括：

步骤21，当判定探测飞行器与邻居飞行器集合内的任一个邻居飞行器之间数据通信正常时，选取邻居飞行器集合中的任一个邻居飞行器；

步骤22，根据探测飞行器的自身飞行策略、邻居飞行器的自身飞行策略，采用演化博弈算法，构建探测飞行的博弈收益矩阵；

具体地，选取的邻居飞行器为a_j，在当前时刻t，当探测飞行器a_i和邻居飞行器a_j存在潜在飞行冲突时，构建博弈模型，如图4所示。根据演化博弈算法，当探测飞行器a_i和邻居飞行器a_j均采取背叛策略D时，两者不需要花费额外的成本，两者获得的博弈收益为P，但是两者必然发生冲突。

当探测飞行器a_i和邻居飞行器a_j均采取合作策略C时，两者都将花费一定的额外成本来进行避让机动操作，两者获得的博弈收益为R，两者可以避免冲突。

当探测飞行器a_i和邻居飞行器a_j一方采用合作策略C，而另一方采用背叛策略D时，合作方所花费的额外成本比两者都选择避让时付出的额外成本要高，所采取的避让机动操作幅度要大于都合作时的避让操作，甚至可能会超过飞机的实际执行能力，这对于飞机来说是毁灭性的，当然也无法保证飞行安全，合作方获得的博弈收益为S，而背叛方不花费任何额外成本就可以顺利通过，背叛方获得的博弈收益为T，为了提高博弈收益的计算速率，设定博弈收益R＝1、博弈收益T＝b、博弈收益P＝S＝0，其中，b为背叛诱惑，因此，生成的博弈收益矩阵如表1所示。

表1

步骤23，根据博弈收益矩阵，计算探测飞行器相对于邻居飞行器的博弈收益，将博弈收益的和值记作博弈总收益，其中，博弈总收益的计算公式为：

具体地，根据探测飞行器a_i的自身飞行策略s_i(t)和邻居飞行器的自身飞行策略s_j(t)，根据博弈收益矩阵，即可计算出当前时刻t的探测飞行器 a_i与邻居飞行器a_j的博弈收益P_i→j(t)，再根据当前时刻t的邻居飞行器集合A_i(t)，对博弈收益P_i→j(t)求和，得出当前时刻t的探测飞行器a_i的博弈总收益P_i(t)。

步骤3，根据探测飞行器的博弈总收益和邻居飞行器的博弈总收益，计算探测飞行器的飞行策略学习概率；

进一步地，步骤3中，飞行策略学习概率的计算公式为：

具体地，对于多飞行器群体A中的任一个飞行器，都可以通过上述步骤1和步骤2计算出各自的博弈总收益，相对于探测飞行器a_i，随机选取一个邻居飞行器a_j，根据两者当前时刻t的博弈总收益P_i(t)和P_j(t)，利用飞行策略学习概率的计算公式：

计算探测飞行器a_i学习邻居飞行器a_j的飞行策略(自身飞行策略)的概率，记作飞行策略学习概率。

现有技术中，由于是设定飞行器的探测半径为相同值，因此，通常是选取探测半径内博弈总收益最大的邻居飞行器作为飞行策略学习的目标，并没有考虑到在实际应用过程中，飞行器之间在协同飞行时，存在信号干扰的可能性。这种信号干扰一直是困扰本领域技术人员的一个技术难题，而本申请的申请人意外发现，能够通过随机选取探测半径内的一个邻居飞行器作为飞行策略学习的目标，降低飞行器在协同飞行过程中，因信号干扰而导致无法获取飞行策略学习目标的可能性，解决信号干扰的问题，进而提高了本申请中异质化协同飞行冲突解决方法的可靠性和适用性。

步骤4，根据飞行策略学习概率，更新探测飞行器的飞行执行策略，其中，飞行执行策略为探测飞行器的自身飞行策略或者邻居飞行器的自身飞行策略中的一种。

具体地，在当前时刻t，当探测飞行器a_i学习邻居飞行器a_j的飞行策略时，探测飞行器a_i将邻居飞行器a_j的飞行策略作为飞行执行策略，按照飞行执行策略进行冲突解决飞行。

当探测飞行器a_i不学习邻居飞行器a_j的飞行策略时，探测飞行器a_i将自身飞行策略作为飞行执行策略，按照自身飞行策略进行冲突解决飞行。

进一步地，异质化协同飞行冲突解决方法，还包括：

步骤5，根据飞行执行策略，判断多飞行器群体是否达到均衡状态，若是，飞行器群体按照飞行执行策略保持均衡状态，若否，执行步骤6；

具体地，设定合作频率计算函数fc：

式中，N_C为多飞行器群体A中采取合作策略C的飞行器数量，N_D为多飞行器群体A中采取背叛策略D的飞行器数量。

当探测半径R_i依次服从恒定常数、均匀分布、指数分布和幂律分布时，不同背叛诱惑b取值下，对应的合作频率fc的仿真曲线如图5所示，图5(a)为探测半径R_i为恒定常数(同质化)时合作频率fc的仿真曲线，图5(b)为探测半径R_i为均匀分布时合作频率fc的仿真曲线，图5(c) 为探测半径R_i为指数分布时合作频率fc的仿真曲线，图5(d)为探测半径R_i为幂律分布时合作频率fc的仿真曲线。通过仿真对比可得，采用本申请中的异质化协同飞行冲突解决方法，特别是探测半径R_i服从指数分布和幂律分布时，能够获得较高合作频率fc的取值，即多飞行器群体A 中采取合作策略C的飞行器数量较多，有利于多飞行器群体A进行协同飞行。

通过迭代计算，判断合作频率计算函数fc是否收敛，当收敛时，判定多飞行器群体A达到均衡状态，飞行器群体A中的各个飞行器按照当前时刻t的飞行执行策略保持均衡状态。当不收敛时，判定多飞行器群体 A没有到均衡状态，执行步骤6。

步骤6，根据飞行执行策略，计算飞行群体的位置坐标，更新邻居飞行器集合。

进一步地，步骤6具体还包括：

步骤61，根据飞行执行策略，计算飞行群体中的探测飞行器的飞行角度和位置坐标，其中，飞行角度的计算公式为：

坐标位置的计算公式为：

式中，x_i(t+1)为下一时刻t+1的探测飞行器的位置坐标，x_i(t)为当前时刻t的探测飞行器的位置坐标，为当前时刻t的探测飞行器的速度矢量，其大小为v，方向为θ_i(t)；

步骤62，根据探测半径和位置坐标，更新邻居飞行器集合，其中，邻居飞行器集合A_i(t)的计算公式为：

如图6所示，多飞行器群体A中的各个飞行器的飞行方向如图6中的箭头所示，各个飞行器的初始飞行方向如图6(a)所示，采用本申请中的异质化协同飞行冲突解决方法，经过多次的冲突解决飞行各个飞行器的飞行方向逐渐由图6(a)，经过图6(b)和图6(c)，转变为图6(d)，进而实现多飞行器冲突解决协同飞行，提高了飞行器之间冲突解决飞行的准确性和安全性。

实施例二：

以下结合图7至图9对本申请的实施例二进行说明。

如图7所示，本实施例提供了基于前序飞行信息的密集飞行自主冲突解决方法，包括：

步骤7，当判定探测飞行器与邻居飞行器集合内的任一个邻居飞行器之间数据通信异常时，根据多飞行器群体中的探测飞行器的全部单纯飞行策略和邻居飞行器的当前飞行策略，采用归一化算法和加权算法，计算探测飞行器对应的个体期望收益，其中，个体期望收益包括个体安全收益和个体效率收益，邻居飞行器的当前飞行策略由探测飞行器，根据探测到的邻居飞行器的飞行轨迹和位置坐标确定；

具体地，在实际环境中，飞行器之间存在因通信干扰无法正常获取对方飞行策略的可能，此时，探测飞行器仅能够探测到邻居飞行器的飞行轨迹和位置坐标，探测飞行器根据探测到的邻居飞行器的飞行轨迹和位置坐标，对邻居飞行器的当前飞行策略进行预估，生成邻居飞行器的当前飞行策略。

协同飞行过程中多个飞行器的实际飞行情况不同，根据每一个飞行器的起始位置、当前时刻的位置以及终止位置，采用飞行策略算法，可以计算出下一时刻该飞行器的多个单纯飞行策略(包括飞行路径)，但是由于协同飞行过程中飞行器间飞行路径的干扰，飞行器之间可能发生碰撞，需要在计算出的多个单纯飞行策略中，选取最佳的单纯飞行策略，记作下一时刻的飞行执行策略，以便于控制飞行器安全到达终止位置。

进一步地，步骤7中具体包括：

步骤71，根据探测飞行器的单纯飞行策略和任一个邻居飞行器当前飞行策略，计算探测飞行器的个体安全收益和个体效率收益，其中，探测飞行器和邻居飞行器进行多飞行器群体，当前飞行策略包括飞行轨迹和位置坐标；

具体地，设定多飞行器群体过程中的第i个飞行器为探测飞行器a_i， i＝1，2，...，M，M为协同飞行的飞行器数量，与探测飞行器a_i存在潜在飞行冲突的飞行器集合A_i中的第j个飞行器为邻居飞行器a_j，j≠i。探测飞行器 a_i能够探测到邻居飞行器a_j的当前飞行策略，定义个体安全收益的计算公式为：

式中，为个体安全收益，S_i ⁿ为探测飞行器a_i的第n个单纯飞行策略，n＝1，2，...，N，N为单纯飞行策略的总数，S_j ^c为邻居飞行器a_j的当前飞行策略。

其中，G(S_i ⁿ，S_j ^c)为冲突等级权重函数，对应的计算公式为：

式中，d_min(i,j)为探测飞行器a_i和邻居飞行器a_j之间的下一个时间步空域中的最小距离，d_CPA(i,j)为探测飞行器a_i相对于邻居飞行器a_j的最接近点距离，R_C为碰撞冲突半径，R_NM为风险接近半径，β为风险权重参数，其中，最小距离d_min(i,j)和最接近点距离d_CPA(i,j)由探测飞行器a_i根据自身的单纯飞行策略和探测到的邻居飞行器a_j的当前飞行策略确定。

定义个体效率收益的计算公式为：

式中，为个体效率收益，为探测飞行器a_i当前时刻的位置坐标，为探测飞行器a_i的第n个单纯飞行策略S_i ⁿ的向量形式，为探测飞行器a_i的终止位置坐标，为探测飞行器a_i的下一时刻的计划位置坐标，T_i ^p为探测飞行器a_i的计划飞行时间，T_i ^c为探测飞行器a_i的当前飞行时间，为距离向量。

步骤72，采用归一化算法，对探测飞行器的个体安全收益和个体效率收益，进行归一化计算；

步骤73，采用加权算法，根据归一化处理后的个体安全收益和个体效率收益，计算个体期望收益，其中，个体期望收益的计算公式为：

式中，为个体期望收益，为个体安全收益，为个体效率收益，λ为安全收益权重，为探测飞行器a_i的第n个单纯飞行策略， n＝1，2，...，N，i＝1，2，...，M，M为协同飞行的飞行器数量。

具体地，计算出个体安全收益和个体效率收益后，进行归一化处理，采用权重算法，根据个体期望收益的计算公式计算第一飞行器a_i的个体期望收益

控制系统确定飞行执行策略的首要目的是保证飞行器的飞行安全，因此，出于安全方面的考虑，安全收益权重λ的取值越大越好，但是，飞行执行策略是以牺牲飞行效率，即个体效率收益，为代价的，当安全收益权重λ的取值越大时，个体效率收益越得不到保障，因此，需要权衡个体安全收益和个体效率收益的权重值。

优选地，安全收益权重λ的取值，满足如下步骤：

步骤a，选取系统碰撞次数为零的单纯飞行策略，记作安全飞行策略，其中，系统碰撞次数的计算公式为：

式中，C为系统碰撞次数，Cm为第m个时间步空域中的碰撞次数， T_S为总飞行时间；

具体地，系统碰撞次数C，描述了整个飞行过程中碰撞冲突事件在单位时间内的平均发生率，因此，在控制系统进行仿真的过程中，不同的单纯飞行策略，可以得到不同的系统碰撞次数。为了飞行器避免碰撞，需要选取系统碰撞次数C为零的单纯飞行策略，记作安全飞行策略。

步骤b，根据安全飞行策略对应的计划飞行时间和航程仿真飞行时间，计算系统效率，其中，系统效率的计算公式为：

式中，SE为系统效率，EFF_i为探测飞行器a_i的飞行效率，T_i ^p为计划飞行时间，T_i为航程仿真飞行时间，M为飞行器数量；

步骤c，选取系统效率最大值对应的权重值，记作安全收益权重。

具体地，控制系统按照设定的步长，如0.05，在[0，1]的取值范围中逐个选取权重值，对系统碰撞次数为零的安全策略进行仿真，得到航程仿真飞行时间T_i，由于安全飞行策略(单纯飞行策略)中含有计划飞行时间T_i ^p，因此，可以计算出该安全飞行策略在不同权重值下、对应的系统效率SE。对计算出的系统效率SE进行排序，选取系统效率SE最大时的权重值，记作安全收益权重，以保证在安全飞行的前提下，获得最大的个体效率收益。

现有技术中，通常是采用经验值方法，设定安全收益权重值，而在本申请中，是通过对安全飞行策略进行仿真，在保证系统碰撞次数为零的前提下，选取系统效率最大值时对应的权重值，记作安全收益权重值，提高了安全收益权重值的准确性，进而有利于提高飞行器的飞行效率。

步骤8，根据个体期望收益，生成多飞行器群体的策略记忆池，并计算策略记忆池中单纯飞行策略对应的总期望收益；

进一步地，步骤8，具体包括：

步骤81，根据当前时间步空域和记忆池容量范围内的单纯飞行策略对应的个体期望收益，采用队列法，生成策略记忆池；

具体地，如图8所示，设定策略记忆池的容量范围为ω，采用队列法，将当前的单纯飞行策略对应的个体期望收益存储至策略记忆池，删除超出记忆池容量范围ω的个体期望收益，箭头方向为记忆池中数据的流向。设定记忆池中存储的个体期望收益的标号为k，标号k＝0表示当前的单纯飞行策略对应的个体期望收益，标号k＝1为前一时刻的飞行执行策略对应的个体期望收益。

步骤82，根据策略记忆池中的个体期望收益，计算当前时间步空域对应的总期望收益，其中，总期望收益的计算公式为：

式中，为总期望收益，为第k个体期望收益，为第i个飞行器a_i的第n个单纯飞行策略，Z_i为策略记忆池，m为个体期望收益的总数，总数m≤ω，ω为记忆池容量范围，为衰减系数，衰减系数的取值范围为[0，1]。

优选地，衰减系数的取值为0.5，记忆池容量ω的取值为100。

具体地，记忆池的工作模式类似于队列，在飞行器确定了当前时间步空域的全部单纯飞行策略后，能够计算出对应的个体期望收益将计算出的个体期望收益插入记忆池，进而计算记忆池中每一个单纯飞行策略对应的总期望收益衰减系数表示记忆池中时间越早的个体期望收益对总期望收益的影响越小。为了提高总期望收益的计算速度，并达到多飞行器控制系统的最佳状态，设定记忆池容量ω的取值为100，衰减系数的取值为0.5。

步骤9，确定总期望收益最大值对应的单纯飞行策略为飞行器的飞行执行策略。

具体地，在基于博弈算法的多飞行器控制系统中，每个飞行器都期望能够获得最大的总期望收益因此，确定飞行器的飞行执行策略的计算公式为：

式中，s_i为飞行执行策略，S_i为全部单纯飞行策略的集合。

在本申请创新性的提出了构建独特的策略记忆池的方法，并且记忆池中不是存储飞行策略，而是存储个体期望收益，根据策略记忆池中存储的个体期望收益和探测到的当前飞行策略，生成探测飞行器的飞行执行策略，降低了在无法获取邻居飞行器的飞行策略时，飞行器间发生碰撞的可能性，提高了本申请中自主冲突解决方法的可靠性以及探测飞行器的飞行效率。

通过将本申请中的自主冲突解决方法与Archibald提出的满意博弈论方法和Krozel提出的分布式冲突解决方法进行对比仿真，得到的系统效率仿真图如图9所示，其中，本申请的自主冲突解决方法对应的仿真曲线为曲线301，Archibald提出的满意博弈论方法对应的仿真曲线为曲线 302，Krozel提出的分布式冲突解决方法对应的仿真曲线为曲线303。通过对比可知，在探测范围内的邻居飞行器数量相同的情况下，采用本申请中的自主冲突解决方法能够获得较高的系统效率(SE)取值，即在保证安全飞行的前提下，采用本申请中的自主冲突解决方法，协同飞行的多个飞行器均可以获得较高的个体效率收益。

以上结合附图详细说明了本申请的技术方案，本申请提出了基于演化博弈的异质化协同飞行冲突解决方法，包括：步骤1，将多飞行器群体中任一个飞行器记作探测飞行器，根据探测飞行器的探测半径，确定探测飞行器对应的邻居飞行器集合；步骤2，当判定探测飞行器与邻居飞行器集合内的任一个邻居飞行器之间数据通信正常时，根据演化博弈算法，计算探测飞行器对于邻居飞行器集合的博弈总收益；步骤3，根据探测飞行器的博弈总收益和邻居飞行器的博弈总收益，计算探测飞行器的飞行策略学习概率；步骤4，根据飞行策略学习概率，更新探测飞行器的飞行执行策略，其中，飞行执行策略为探测飞行器的自身飞行策略或者邻居飞行器的自身飞行策略中的一种。通过本申请中的技术方案，对异质化的多个飞行器进行协同飞行冲突解决，提高整个飞行器群体协同飞行的安全性。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims

1.基于演化博弈的异质化协同飞行冲突解决方法，其特征在于，该方法包括：

步骤1，将多飞行器群体中任一个飞行器记作探测飞行器，根据所述探测飞行器的探测半径，确定所述探测飞行器对应的邻居飞行器集合，其中，所述邻居飞行器集合中至少包括一个邻居飞行器，所述邻居飞行器属于所述飞行器群体；

步骤2，当判定所述探测飞行器与所述邻居飞行器集合内的任一个所述邻居飞行器之间数据通信正常时，根据演化博弈算法，计算所述探测飞行器对于所述邻居飞行器集合的博弈总收益；

步骤3，根据所述探测飞行器的所述博弈总收益和所述邻居飞行器的所述博弈总收益，计算所述探测飞行器的飞行策略学习概率；

步骤4，根据所述飞行策略学习概率，更新所述探测飞行器的飞行执行策略，其中，所述飞行执行策略为所述探测飞行器的自身飞行策略或者所述邻居飞行器的自身飞行策略中的一种。

2.如权利要求1所述的基于演化博弈的异质化协同飞行冲突解决方法，其特征在于，所述步骤2，具体包括：

步骤21，当判定所述探测飞行器与所述邻居飞行器集合内的任一个所述邻居飞行器之间数据通信正常时，选取所述邻居飞行器集合中的任一个所述邻居飞行器；

步骤22，根据所述探测飞行器的自身飞行策略、所述邻居飞行器的自身飞行策略，采用所述演化博弈算法，构建所述探测飞行的博弈收益矩阵；

步骤23，根据所述博弈收益矩阵，计算所述探测飞行器相对于所述邻居飞行器的博弈收益，将所述博弈收益的和值记作所述博弈总收益，其中，所述博弈总收益的计算公式为：

式中，P_i(t)为当前时刻t的所述博弈总收益，A_i(t)为当前时刻t的所述邻居飞行器集合，P_i→j(t)当前时刻t的所述探测飞行器a_i与所述邻居飞行器a_j的所述博弈收益。

3.如权利要求1所述的基于演化博弈的异质化协同飞行冲突解决方法，其特征在于，所述步骤3中，所述飞行策略学习概率的计算公式为：

式中，W[s_i(t)←s_j(t)]为所述飞行策略学习概率，s_i(t)为当前时刻t所述探测飞行器的自身飞行策略，s_j(t)为当前时刻t所述邻居飞行器的自身飞行策略，P_i(t)为所述探测飞行器的博弈总收益，P_j(t)为所述邻居飞行器的博弈总收益，K为权重系数。

4.如权利要求1所述的基于演化博弈的异质化协同飞行冲突解决方法，其特征在于，所述方法，还包括：

步骤5，根据所述飞行执行策略，判断所述多飞行器群体是否达到均衡状态，若是，所述飞行器群体按照所述飞行执行策略保持所述均衡状态，若否，执行步骤6；

步骤6，根据所述飞行执行策略，计算所述飞行群体的位置坐标，更新所述邻居飞行器集合。

5.如权利要求4所述的基于演化博弈的异质化协同飞行冲突解决方法，其特征在于，所述步骤6，具体包括：

步骤61，根据所述飞行执行策略，计算所述飞行群体中的所述探测飞行器的飞行角度和所述位置坐标，其中，所述飞行角度的计算公式为：

式中，θ_i(t+1)为下一时刻t+1的所述探测飞行器的飞行角度，θ_i(t)为当前时刻t的所述探测飞行器的飞行角度，θ_j(t)为当前时刻t的所述邻居飞行器的飞行角度，A_i(t)为当前时刻t的所述邻居飞行器集合，

所述坐标位置的计算公式为：

式中，x_i(t+1)为下一时刻t+1的所述探测飞行器的位置坐标，x_i(t)为当前时刻t的所述探测飞行器的位置坐标，为当前时刻t的所述探测飞行器的速度矢量，其大小为v，方向为θ_i(t)；

步骤62，根据所述探测半径和所述位置坐标，更新所述邻居飞行器集合，其中，所述邻居飞行器集合A_i(t)的计算公式为：

A_i(t)＝{a_j|||x_i(t)-x_j(t)||<R_i，j＝1,2,…,i-1,i+1,…,M}，

式中，a_j为所述邻居飞行器，x_j(t)为当前时刻t的所述邻居飞行器的位置坐标，R_i为所述探测飞行器的所述探测半径。

6.如权利要求1所述的基于演化博弈的异质化协同飞行冲突解决方法，其特征在于，还包括：

步骤7，当判定所述探测飞行器与所述邻居飞行器集合内的任一个所述邻居飞行器之间数据通信异常时，根据多飞行器群体中的探测飞行器的全部单纯飞行策略和邻居飞行器的当前飞行策略，采用归一化算法和加权算法，计算所述飞行器对应的个体期望收益；

步骤8，根据所述个体期望收益，生成多飞行器群体的策略记忆池，并计算所述策略记忆池中所述单纯飞行策略对应的总期望收益；

步骤9，确定所述总期望收益最大值对应的所述单纯飞行策略为所述飞行器的飞行执行策略。