CN109658742A

CN109658742A - 基于前序飞行信息的密集飞行自主冲突解脱方法

Info

Publication number: CN109658742A
Application number: CN201811621962.3A
Authority: CN
Inventors: 王炜烨
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-04-19
Anticipated expiration: 2038-12-28
Also published as: CN109658742B

Abstract

本申请公开了基于前序飞行信息的密集飞行自主冲突解脱方法，该方法包括：步骤11，当判定目标飞行器与相邻飞行器之间通信异常时，根据多机协同飞行中的目标飞行器的全部单纯飞行策略和相邻飞行器的当前飞行策略，采用归一化算法和加权算法，计算目标飞行器对应的个体期望收益；步骤12，根据个体期望收益，生成多机协同飞行的策略记忆池，并计算策略记忆池中单纯飞行策略对应的总期望收益；步骤13，确定总期望收益最大值对应的单纯飞行策略为目标飞行器的解脱飞行策略。通过本申请中的技术方案，解决了在飞行器只能探测到相邻飞行器的当前飞行策略时，多飞行器之间的飞行冲突问题，提高多飞行器的飞行效率，提高飞行路线规划的准确性和及时性。

Description

基于前序飞行信息的密集飞行自主冲突解脱方法

技术领域

本申请涉及飞行器的技术领域，具体而言，涉及基于前序飞行信息的密集飞行自主冲突解脱方法。

背景技术

随着飞行器技术的不断发展，飞行器被广泛应用于各个领域。随着飞行器数量的增加，多飞行器之间存在发生碰撞的可能性，因此，需要对协同飞行的多飞行器进行自主冲突解脱控制，以避免协同飞行过程中，飞行器发生碰撞。

而现有技术中，对于多飞行器之间的自主解脱飞行控制，通常是以各个飞行器之间能够感知到对方的飞行策略为前提，即各个飞行器之间的信息交互是完全即时和准确的。但是，在实际情况中，对于高密度、高复杂度的空域状况，飞行器飞行时速度很快，网络拓扑高速动态变化，空域环境复杂因素较多，存在导致飞行器之间的通信链路延时、随机噪声干扰、甚至通讯暂时中断将导致无法正常获取其他飞行器的飞行信息的可能。飞行器只能感知到其探测范围内其它飞行器的存在，也就是其它飞行器前序飞行轨迹和当前位置信息等，而无法得知它们的其它飞行信息，例如飞行时间、延误时间、飞行意图以及目的地等信息。此时，飞行器存在自主解脱飞行控制异常，发生碰撞的可能性。同时，现有的自主解脱飞行控制，是以降低飞行效率为代价，如飞行效率包括时延、能耗及舒适度等方面，以保证自主解脱飞行控制的可行性。

发明内容

本申请的目的在于：解决多飞行器之间通信异常时的飞行冲突问题，提高多飞行器飞行安全的可靠性，提高飞行路线规划的准确性和及时性。

本申请的技术方案是：提供了基于前序飞行信息的密集飞行自主冲突解脱方法，该方法包括：步骤10，当判定多机协同飞行中的目标飞行器与相邻飞行器之间通信异常时，根据目标飞行器的总期望收益，确定目标飞行器的解脱飞行策略；步骤20，当判定目标飞行器和相邻飞行器之间的通信正常时，根据目标飞行器的博弈总收益，确定目标飞行器的解脱飞行策略。

上述任一项技术方案中，进一步地，步骤10中，具体包括：步骤11，当判定多机协同飞行中的目标飞行器与相邻飞行器之间通信异常时，根据多机协同飞行中的目标飞行器的全部单纯飞行策略和相邻飞行器的当前飞行策略，采用归一化算法和加权算法，计算目标飞行器对应的个体期望收益；步骤12，根据个体期望收益，生成多机协同飞行的策略记忆池，并计算策略记忆池中单纯飞行策略对应的总期望收益；步骤13，确定总期望收益最大值对应的单纯飞行策略为目标飞行器的解脱飞行策略。

上述任一项技术方案中，进一步地，步骤11中，具体包括：步骤111，根据目标飞行器的单纯飞行策略和任一个相邻飞行器的当前飞行策略，计算目标飞行器的个体安全收益和个体效率收益，其中，目标飞行器和相邻飞行器进行多机协同飞行；步骤112，采用归一化算法，对目标飞行器的个体安全收益和个体效率收益，进行归一化计算；步骤113，采用加权算法，根据归一化处理后的个体安全收益和归一化处理后的个体效率收益，计算个体期望收益，其中，个体期望收益的计算公式为：

式中，为个体期望收益，为个体安全收益，为个体效率收益，λ为安全收益权重，为目标飞行器a_i的第n个单纯飞行策略， n＝1,2,…,N，N为单纯飞行策略的总数，i＝1,2,…,M，M为协同飞行的飞行器数量。

上述任一项技术方案中，进一步地，安全收益权重的取值，满足如下步骤：步骤a，选取系统碰撞次数为零的单纯飞行策略，记作安全飞行策略；步骤b，根据安全飞行策略对应的计划飞行时间和航程仿真飞行时间，计算系统效率，其中，系统效率的计算公式为：

式中，SE为系统效率，EFF_i为目标飞行器a_i的飞行效率，T_i ^p为计划飞行时间，T_i为航程仿真飞行时间，M为飞行器数量；步骤c，选取系统效率最大值对应的权重值，记作安全收益权重。

上述任一项技术方案中，进一步地，步骤12，具体包括：步骤121，根据当前时间步空域和记忆池容量范围内的单纯飞行策略对应的个体期望收益，采用队列法，生成策略记忆池；步骤122，根据策略记忆池中的个体期望收益，计算当前时间步空域对应的总期望收益，其中，总期望收益的计算公式为：

式中，为总期望收益，为第k个个体期望收益，为第i 个飞行器a_i的第n个单纯飞行策略，Z_i为策略记忆池，m为个体期望收益的总数，总数m≤ω，ω为记忆池容量范围，为衰减系数，衰减系数的取值范围为[0,1]。

上述任一项技术方案中，进一步地，衰减系数的取值为0.5。

上述任一项技术方案中，进一步地，步骤20中，具体包括：步骤21，将多机协同飞行中任一个飞行器记作目标飞行器，根据目标飞行器的探测半径，确定目标飞行器对应的相邻飞行器集合，其中，相邻飞行器集合中至少包括一个相邻飞行器，相邻飞行器属于飞行器群体；步骤22，当判定目标飞行器与相邻飞行器集合内的任一个相邻飞行器之间数据通信正常时，根据演化博弈算法，计算目标飞行器对于相邻飞行器集合的博弈总收益；步骤23，根据目标飞行器的博弈总收益和相邻飞行器的博弈总收益，计算目标飞行器的飞行策略学习概率；步骤24，根据飞行策略学习概率，更新目标飞行器的解脱飞行策略，其中，解脱飞行策略为目标飞行器的自身飞行策略或者相邻飞行器的自身飞行策略中的一种。

本申请的有益效果是：通过计算各个飞行器的个体期望收益，并生成策略记忆池，将策略记忆池中总期望收益最大值对应的单纯飞行策略记作解脱飞行策略，控制各个飞行器进行自主冲突解脱飞行，解决了在飞行器只能探测到相邻飞行器的当前飞行策略时，多飞行器之间的飞行冲突问题，提高了飞行器控制系统的稳定性。通过计算个体期望收益，有利于提高各个飞行器进行冲突解脱飞行过程中包括飞行时延、飞行能耗以及舒适度等方面的飞行效率，提高飞行路线规划的准确性和及时性。

本申请通过确定飞行器的相邻飞行器集合，引入演化博弈算法，计算目标飞行器相对于相邻飞行器集合的博弈总收益，以及飞行策略学习概率，更新目标飞行器的解脱飞行策略，实现了对异质化的多个飞行器进行协同飞行冲突解决，提高了整个飞行器群体协同飞行的安全性。通过演化博弈算法，构建博弈收益矩阵，减小了博弈总收益的计算量，并提高了计算博弈总收益的准确性。

本申请能够扩大探测范围，并且能够更方便地对异质化的飞行器进行描述，提高了本申请中的冲突解决方法数学描述的准确性，以及确定解脱飞行策略的可靠性，提高了多机协同飞行进行协同飞行的安全性。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的基于前序飞行信息的密集飞行自主冲突解脱方法的示意流程图；

图2是根据本申请的一个实施例的记忆池的示意图；

图3是根据本申请的一个实施例的系统效率仿真图；

图4是根据本申请的另一个实施例的基于演化博弈的异质化协同飞行冲突解决方法的示意流程图；

图5是根据本申请的另一个实施例的异质化探测半径示意图；

图6是根据本申请的另一个实施例的探测半径仿真曲线示意图；

图7是根据本申请的另一个实施例的博弈模型的示意图；

图8是根据本申请的另一个实施例的合作频率计算函数仿真示意图；

图9是根据本申请的另一个实施例的协同飞行过程仿真示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

实施例一：

以下结合图1和图3对本申请实施例一进行说明。

如图1所示，本实施例提供了基于前序飞行信息的密集飞行自主冲突解脱方法，包括：步骤10，当判定多机协同飞行中的目标飞行器与相邻飞行器之间通信异常时，根据目标飞行器的总期望收益，确定目标飞行器的解脱飞行策略；步骤20，当判定目标飞行器和相邻飞行器之间的通信正常时，根据目标飞行器的博弈总收益，确定目标飞行器的解脱飞行策略。

进一步地，该步骤10中，具体包括：步骤11，当判定多机协同飞行中的目标飞行器与相邻飞行器之间通信异常时，根据多机协同飞行中的目标飞行器的全部单纯飞行策略和相邻飞行器的当前飞行策略，采用归一化算法和加权算法，计算目标飞行器对应的个体期望收益，其中，个体期望收益包括个体安全收益和个体效率收益，相邻飞行器的当前飞行策略由目标飞行器，根据探测到的相邻飞行器的飞行轨迹和位置坐标确定；

具体地，在实际环境中，飞行器之间存在因通信干扰无法正常获取对方飞行策略的可能，此时，目标飞行器仅能够探测到相邻飞行器的飞行轨迹和位置坐标，目标飞行器根据探测到的相邻飞行器的飞行轨迹和位置坐标，对相邻飞行器的当前飞行策略进行预估，生成相邻飞行器的当前飞行策略。

协同飞行过程中多个飞行器的实际飞行情况不同，根据每一个飞行器的起始位置、当前时刻的位置以及终止位置，采用飞行策略算法，可以计算出下一时刻该飞行器的多个单纯飞行策略(包括飞行路径)，但是由于协同飞行过程中飞行器间飞行路径的干扰，飞行器之间可能发生碰撞，需要在计算出的多个单纯飞行策略中，选取最佳的单纯飞行策略，记作下一时刻的解脱飞行策略，以便于控制飞行器安全到达终止位置。

进一步地，步骤11中具体包括：

步骤111，根据目标飞行器的单纯飞行策略和任一个相邻飞行器当前飞行策略，计算目标飞行器的个体安全收益和个体效率收益，其中，目标飞行器和相邻飞行器进行多机协同飞行，当前飞行策略包括飞行轨迹和位置坐标；

具体地，设定多机协同飞行过程中的第i个飞行器为目标飞行器a_i， i＝1,2,…,M，M为协同飞行的飞行器数量，与目标飞行器a_i存在潜在飞行冲突的飞行器集合A_i中的第j个飞行器为相邻飞行器a_j，j≠i。目标飞行器 a_i能够探测到相邻飞行器a_j的当前飞行策略，定义个体安全收益的计算公式为：

式中，为个体安全收益，S_i ⁿ为目标飞行器a_i的第n个单纯飞行策略，n＝1,2,…,N，N为单纯飞行策略的总数，S_j ^c为相邻飞行器a_j的当前飞行策略。

其中，G(S_i ⁿ,S_j ^c)为冲突等级权重函数，对应的计算公式为：

式中，d_min(i,j)为目标飞行器a_i和相邻飞行器a_j之间的下一个时间步空域中的最小距离，d_CPA(i,j)为目标飞行器a_i相对于相邻飞行器a_j的最接近点距离，R_C为碰撞冲突半径，R_NM为风险接近半径，β为风险权重参数，其中，最小距离d_min(i,j)和最接近点距离d_CPA(i,j)由目标飞行器a_i根据自身的单纯飞行策略和探测到的相邻飞行器a_j的当前飞行策略确定。

定义个体效率收益的计算公式为：

式中，为个体效率收益，为目标飞行器a_i当前时刻的位置坐标，为目标飞行器a_i的第n个单纯飞行策略S_i ⁿ的向量形式，为目标飞行器a_i的终止位置坐标，为目标飞行器a_i的下一时刻的计划位置坐标，T_i ^p为目标飞行器a_i的计划飞行时间，T_i ^c为目标飞行器a_i的当前飞行时间，为距离向量。

步骤112，采用归一化算法，对目标飞行器的个体安全收益和个体效率收益，进行归一化计算；

步骤113，采用加权算法，根据归一化处理后的个体安全收益和个体效率收益，计算个体期望收益，其中，个体期望收益的计算公式为：

式中，为个体期望收益，为个体安全收益，为个体效率收益，λ为安全收益权重，为目标飞行器a_i的第n个单纯飞行策略， n＝1,2,…,N，i＝1,2,…,M，M为协同飞行的飞行器数量。

具体地，计算出个体安全收益和个体效率收益后，进行归一化处理，采用权重算法，根据个体期望收益的计算公式计算第一飞行器a_i的个体期望收益

控制系统确定解脱飞行策略的首要目的是保证飞行器的飞行安全，因此，出于安全方面的考虑，安全收益权重λ的取值越大越好，但是，解脱飞行策略是以牺牲飞行效率，即个体效率收益，为代价的，当安全收益权重λ的取值越大时，个体效率收益越得不到保障，因此，需要权衡个体安全收益和个体效率收益的权重值。

优选地，安全收益权重λ的取值，满足如下步骤：

步骤a，选取系统碰撞次数为零的单纯飞行策略，记作安全飞行策略，其中，系统碰撞次数的计算公式为：

式中，C为系统碰撞次数，C_m为第m个时间步空域中的碰撞次数， T_S为总飞行时间；

具体地，系统碰撞次数C，描述了整个飞行过程中碰撞冲突事件在单位时间内的平均发生率，因此，在控制系统进行仿真的过程中，不同的单纯飞行策略，可以得到不同的系统碰撞次数。为了飞行器避免碰撞，需要选取系统碰撞次数C为零的单纯飞行策略，记作安全飞行策略。

步骤b，根据安全飞行策略对应的计划飞行时间和航程仿真飞行时间，计算系统效率，其中，系统效率的计算公式为：

式中，SE为系统效率，EFF_i为目标飞行器a_i的飞行效率，T_i ^p为计划飞行时间，T_i为航程仿真飞行时间，M为飞行器数量；

步骤c，选取系统效率最大值对应的权重值，记作安全收益权重。

具体地，控制系统按照设定的步长，如0.05，在[0,1]的取值范围中逐个选取权重值，对系统碰撞次数为零的安全策略进行仿真，得到航程仿真飞行时间T_i，由于安全飞行策略(单纯飞行策略)中含有计划飞行时间T_i ^p，因此，可以计算出该安全飞行策略在不同权重值下、对应的系统效率SE。对计算出的系统效率SE进行排序，选取系统效率SE最大时的权重值，记作安全收益权重，以保证在安全飞行的前提下，获得最大的个体效率收益。

现有技术中，通常是采用经验值方法，设定安全收益权重值，而在本申请中，是通过对安全飞行策略进行仿真，在保证系统碰撞次数为零的前提下，选取系统效率最大值时对应的权重值，记作安全收益权重值，提高了安全收益权重值的准确性，进而有利于提高飞行器的飞行效率。

步骤12，根据个体期望收益，生成多机协同飞行的策略记忆池，并计算策略记忆池中单纯飞行策略对应的总期望收益；

进一步地，步骤12，具体包括：

步骤121，根据当前时间步空域和记忆池容量范围内的单纯飞行策略对应的个体期望收益，采用队列法，生成策略记忆池；

具体地，如图2所示，设定策略记忆池的容量范围为ω，采用队列法，将当前的单纯飞行策略对应的个体期望收益存储至策略记忆池，删除超出记忆池容量范围ω的个体期望收益，箭头方向为记忆池中数据的流向。设定记忆池中存储的个体期望收益的标号为k，标号k＝0表示当前的单纯飞行策略对应的个体期望收益，标号k＝1为前一时刻的解脱飞行策略对应的个体期望收益。

步骤122，根据策略记忆池中的个体期望收益，计算当前时间步空域对应的总期望收益，其中，总期望收益的计算公式为：

式中，为总期望收益，为第k个体期望收益，为第i个飞行器a_i的第n个单纯飞行策略，Z_i为策略记忆池，m为个体期望收益的总数，总数m≤ω，ω为记忆池容量范围，为衰减系数，衰减系数的取值范围为[0,1]。

优选地，衰减系数的取值为0.5，记忆池容量ω的取值为100。

具体地，记忆池的工作模式类似于队列，在飞行器确定了当前时间步空域的全部单纯飞行策略后，能够计算出对应的个体期望收益将计算出的个体期望收益插入记忆池，进而计算记忆池中每一个单纯飞行策略对应的总期望收益衰减系数表示记忆池中时间越早的个体期望收益对总期望收益的影响越小。为了提高总期望收益的计算速度，并达到多飞行器控制系统的最佳状态，设定记忆池容量ω的取值为100，衰减系数的取值为0.5。

步骤13，确定总期望收益最大值对应的单纯飞行策略为目标飞行器的解脱飞行策略。

具体地，在基于博弈算法的多飞行器控制系统中，每个飞行器都期望能够获得最大的总期望收益因此，确定目标飞行器的解脱飞行策略的计算公式为：

式中，s_i为解脱飞行策略，S_i为全部单纯飞行策略的集合。

在本申请创新性的提出了构建独特的策略记忆池的方法，并且记忆池中不是存储飞行策略，而是存储个体期望收益，根据策略记忆池中存储的个体期望收益和探测到的当前飞行策略，生成目标目标飞行器的解脱飞行策略，降低了在无法获取相邻飞行器的飞行策略时，飞行器间发生碰撞的可能性，提高了本申请中自主冲突解脱方法的可靠性以及目标飞行器的飞行效率。

通过将本申请中的自主冲突解脱方法与Archibald提出的满意博弈论方法和Krozel提出的分布式冲突解脱方法进行对比仿真，得到的系统效率仿真如图3所示，其中，本申请的自主冲突解脱方法对应的仿真曲线为曲线301，Archibald提出的满意博弈论方法对应的仿真曲线为曲线302， Krozel提出的分布式冲突解脱方法对应的仿真曲线为曲线303。通过对比可知，在探测范围内的相邻飞行器数量相同的情况下，采用本申请中的自主冲突解脱方法能够获得较高的系统效率(SE)取值，即在保证安全飞行的前提下，采用本申请中的自主冲突解脱方法，协同飞行的多个飞行器均可以获得较高的个体效率收益。

实施例二：

以下结合图4至图9对本申请的实施例二进行说明。

如图4所示，当判定目标飞行器和相邻飞行器之间的通信正常时，该方法的步骤20中，具体包括：

步骤21，将多机协同飞行中任一个飞行器记作目标飞行器，根据目标飞行器的探测半径，确定目标飞行器对应的相邻飞行器集合，其中，相邻飞行器集合中至少包括一个相邻飞行器，相邻飞行器属于飞行器群体；

具体地，多机协同飞行中，对于不同型号的各个飞行器，其探测范围、飞行速度、发动机动力性能等参数存在差异，特别是对于各个飞行器的探测范围(探测半径)，是飞行器安全飞行的重要参数以及各飞行器异质化的重要指标，如图5所示，在实际情况中，对于不同探测半径的飞行器，其相邻飞行器集合中飞行器的数量是不相同的，因此，需要根据目标飞行器的探测半径确定对应的相邻飞行器。

在本实施例中，设定各飞行器之间能够实现局部信息共享，即任何目标飞行器都能够感知到相邻飞行器的所有飞行信息，如位置坐标、飞行速度、飞行角度以及下一时刻的自身飞行策略，其中，自身飞行策略由异质化协同飞行冲突解决系统根据各个飞行器的起始位置、终止位置以及当前飞行信息确定，各个飞行器的飞行速度v是恒定不变的，飞行器a_i的探测半径为R_i，探测半径R_i的计算公式为：

R_i＝ξ+<r>，

式中，ξ为随机分布函数，χ为随机数，随机数χ的取值范围为[0,1]，且满足<r>为多机协同飞行平均探测半径，其中，随机分布函数ξ可以为四种分布函数的一种或多种，四种分布函数依次为恒定常数、均匀分布、指数分布和幂律分布，四种分布函数对应的探测半径R_i的仿真曲线如图6(a)、图6(b)、图6(c)和图6(d)所示。在进行仿真试验过程中，可以将随机分布函数ξ仅服从恒定常数时对应的探测半径R_i，作为同质化探测半径R_i对比仿真试验。

优选地，当随机分布函数ξ为幂律分布函数时，幂律系数n＝3。

在初始时刻，各个飞行器的飞行方向随机设置，多机协同飞行A飞行在L×L的包含周期性边界二维方形区域，多机协同飞行A包含的飞行器数量为M，在当前时刻t，任一个飞行器a_i(i＝1，2，...，M)都满足a_i∈A，对应的位置坐标为x_i(t)。

在当前时刻t，将飞行器a_i记作目标飞行器，探测半径为R_i，其探测半径R_i内的飞行器组成了目标飞行器a_i的相邻飞行器集合A_i(t)，相邻飞行器集合A_i(t)的计算公式为：

A_i(t)＝{a_j|||x_i(t)-x_j(t)||＜R_i，j＝1，2，...，i-1，i+1，...，M}，

式中，a_j为相邻飞行器，x_j(t)为当前时刻t的相邻飞行器的位置坐标，R_i为目标飞行器的探测半径。

现有技术中，通常是将目标飞行器的探测半径设定为一个恒定值，即将目标飞行器同质化，而本申请是通过设置不同的探测半径，对目标飞行器进行异质化，提高了确定相邻飞行器集合的真实性，进而有利于提高计算相邻飞行器博弈总收益的准确性，以及根据博弈总收益计算飞行策略学习概率的准确性和真实性，使得本申请中的异质化飞行冲突解决方法更具有实用性和可靠性。

步骤22，根据演化博弈算法，计算目标飞行器对于相邻飞行器集合的博弈总收益；

进一步地，步骤22具体包括：

步骤221，当判定目标飞行器与相邻飞行器集合内的任一个相邻飞行器之间数据通信正常时，选取相邻飞行器集合中的任一个相邻飞行器；

步骤222，根据目标飞行器的自身飞行策略、相邻飞行器的自身飞行策略，采用演化博弈算法，构建探测飞行的博弈收益矩阵；

具体地，选取的相邻飞行器为a_j，在当前时刻t，当目标飞行器a_i和相邻飞行器a_j存在潜在飞行冲突时，构建博弈模型，如图7所示。根据演化博弈算法，当目标飞行器a_i和相邻飞行器a_j均采取背叛策略D时，两者不需要花费额外的成本，两者获得的博弈收益为P，但是两者必然发生冲突。

当目标飞行器a_i和相邻飞行器a_j均采取合作策略C时，两者都将花费一定的额外成本来进行避让机动操作，两者获得的博弈收益为R，两者可以避免冲突。

当目标飞行器a_i和相邻飞行器a_j一方采用合作策略C，而另一方采用背叛策略D时，合作方所花费的额外成本比两者都选择避让时付出的额外成本要高，所采取的避让机动操作幅度要大于都合作时的避让操作，甚至可能会超过飞机的实际执行能力，这对于飞机来说是毁灭性的，当然也无法保证飞行安全，合作方获得的博弈收益为S，而背叛方不花费任何额外成本就可以顺利通过，背叛方获得的博弈收益为T，为了提高博弈收益的计算速率，设定博弈收益R＝1、博弈收益T＝b、博弈收益P＝S＝0，其中，b为背叛诱惑，因此，生成的博弈收益矩阵如表1所示。

表1

步骤223，根据博弈收益矩阵，计算目标飞行器相对于相邻飞行器的博弈收益，将博弈收益的和值记作博弈总收益，其中，博弈总收益的计算公式为：

式中，P_i(t)为当前时刻t的博弈总收益，A_i(t)为当前时刻t的相邻飞行器集合，P_i→j(t)当前时刻t的目标飞行器a_i与相邻飞行器a_j的博弈收益。

具体地，根据目标飞行器a_i的自身飞行策略s_i(t)和相邻飞行器的自身飞行策略s_j(t)，根据博弈收益矩阵，即可计算出当前时刻t的目标飞行器 a_i与相邻飞行器a_j的博弈收益P_i→j(t)，再根据当前时刻t的相邻飞行器集合A_i(t)，对博弈收益P_i→j(t)求和，得出当前时刻t的目标飞行器a_i的博弈总收益P_i(t)。

步骤23，根据目标飞行器的博弈总收益和相邻飞行器的博弈总收益，计算目标飞行器的飞行策略学习概率；

进一步地，步骤23中，飞行策略学习概率的计算公式为：

式中，W[s_i(t)←s_j(t)]为飞行策略学习概率，s_i(t)为当前时刻t目标飞行器的自身飞行策略，s_j(t)为当前时刻t相邻飞行器的自身飞行策略， P_i(t)为目标飞行器的博弈总收益，P_j(t)为相邻飞行器的博弈总收益，K 为权重系数。

具体地，对于多机协同飞行A中的任一个飞行器，都可以通过上述步骤21和步骤22计算出各自的博弈总收益，相对于目标飞行器a_i，随机选取一个相邻飞行器a_j，根据两者当前时刻t的博弈总收益P_i(t)和P_j(t)，利用飞行策略学习概率的计算公式：

计算目标飞行器a_i学习相邻飞行器a_j的飞行策略(自身飞行策略)的概率，记作飞行策略学习概率。

现有技术中，由于是设定飞行器的探测半径为相同值，因此，通常是选取探测半径内博弈总收益最大的相邻飞行器作为飞行策略学习的目标，并没有考虑到在实际应用过程中，飞行器之间在协同飞行时，存在信号干扰的可能性。这种信号干扰一直是困扰本领域技术人员的一个技术难题，而本申请的申请人意外发现，能够通过随机选取探测半径内的一个相邻飞行器作为飞行策略学习的目标，降低飞行器在协同飞行过程中，因信号干扰而导致无法获取飞行策略学习目标的可能性，解决信号干扰的问题，进而提高了本申请中异质化协同飞行冲突解决方法的可靠性和适用性。

步骤24，根据飞行策略学习概率，更新目标飞行器的解脱飞行策略，其中，解脱飞行策略为目标飞行器的自身飞行策略或者相邻飞行器的自身飞行策略中的一种。

具体地，在当前时刻t，当目标飞行器a_i学习相邻飞行器a_j的飞行策略时，目标飞行器a_i将相邻飞行器a_j的飞行策略作为解脱飞行策略，按照解脱飞行策略进行冲突解决飞行。

当目标飞行器a_i不学习相邻飞行器a_j的飞行策略时，目标飞行器a_i将自身飞行策略作为解脱飞行策略，按照自身飞行策略进行冲突解决飞行。

进一步地，异质化协同飞行冲突解决方法，还包括：

步骤25，根据解脱飞行策略，判断多机协同飞行是否达到均衡状态，若是，飞行器群体按照解脱飞行策略保持均衡状态，若否，执行步骤26；

具体地，设定合作频率计算函数fc：

式中，N_C为多机协同飞行A中采取合作策略C的飞行器数量，N_D为多机协同飞行A中采取背叛策略D的飞行器数量。

当探测半径R_i依次服从恒定常数、均匀分布、指数分布和幂律分布时，不同背叛诱惑b取值下，对应的合作频率fc的仿真曲线如图8所示，图8(a)为探测半径R_i为恒定常数(同质化)时合作频率fc的仿真曲线，图8(b)为探测半径R_i为均匀分布时合作频率fc的仿真曲线，图8(c) 为探测半径R_i为指数分布时合作频率fc的仿真曲线，图8(d)为探测半径R_i为幂律分布时合作频率fc的仿真曲线。通过仿真对比可得，采用本申请中的异质化协同飞行冲突解决方法，特别是探测半径R_i服从指数分布和幂律分布时，能够获得较高合作频率fc的取值，即多机协同飞行A 中采取合作策略C的飞行器数量较多，有利于多机协同飞行A进行协同飞行。

通过迭代计算，判断合作频率计算函数fc是否收敛，当收敛时，判定多机协同飞行A达到均衡状态，飞行器群体A中的各个飞行器按照当前时刻t的解脱飞行策略保持均衡状态。当不收敛时，判定多机协同飞行 A没有到均衡状态，执行步骤26。

步骤26，根据解脱飞行策略，计算飞行群体的位置坐标，更新相邻飞行器集合。

进一步地，步骤26具体还包括：

步骤261，根据解脱飞行策略，计算飞行群体中的目标飞行器的飞行角度和位置坐标，其中，飞行角度的计算公式为：

式中，θ_i(t+1)为下一时刻t+1的目标飞行器的飞行角度，θ_i(t)为当前时刻t的目标飞行器的飞行角度，θ_j(t)为当前时刻t的相邻飞行器的飞行角度，A_i(t)为当前时刻t的相邻飞行器集合，

坐标位置的计算公式为：

式中，x_i(t+1)为下一时刻t+1的目标飞行器的位置坐标，x_i(t)为当前时刻t的目标飞行器的位置坐标，为当前时刻t的目标飞行器的速度矢量，其大小为v，方向为θ_i(t)；

步骤262，根据探测半径和位置坐标，更新相邻飞行器集合，其中，相邻飞行器集合A_i(t)的计算公式为：

式中，a_j为相邻飞行器，x_j(t)为当前时刻t的相邻飞行器的位置坐标，R_j为目标飞行器的探测半径。

如图9所示，多机协同飞行A中的各个飞行器的飞行方向如图9中的箭头所示，各个飞行器的初始飞行方向如图9(a)所示，采用本申请中的异质化协同飞行冲突解决方法，经过多次的冲突解决飞行各个飞行器的飞行方向逐渐由图9(a)，经过图9(b)和图9(c)，转变为图9(d)，进而实现多飞行器冲突解决协同飞行，提高了飞行器之间冲突解决飞行的准确性和安全性。

以上结合附图详细说明了本申请的技术方案，本申请提出了基于前序飞行信息的密集飞行自主冲突解脱方法，包括：步骤11，当判定目标飞行器与相邻飞行器之间通信异常时，根据多机协同飞行中的目标飞行器的全部单纯飞行策略和相邻飞行器的当前飞行策略，采用归一化算法和加权算法，计算目标飞行器对应的个体期望收益；步骤12，根据个体期望收益，生成多机协同飞行的策略记忆池，并计算策略记忆池中单纯飞行策略对应的总期望收益；步骤13，确定总期望收益最大值对应的单纯飞行策略为目标飞行器的解脱飞行策略。通过本申请中的技术方案，解决了在飞行器只能探测到相邻飞行器的当前飞行策略时，多飞行器之间的飞行冲突问题，提高多飞行器的飞行效率，提高飞行路线规划的准确性和及时性。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims

1.基于前序飞行信息的密集飞行自主冲突解脱方法，其特征在于，该方法包括：

步骤10，当判定多机协同飞行中的目标飞行器与相邻飞行器之间通信异常时，根据所述目标飞行器的总期望收益，确定所述目标飞行器的解脱飞行策略；

步骤20，当判定所述目标飞行器和所述相邻飞行器之间的通信正常时，根据所述目标飞行器的博弈总收益，确定所述目标飞行器的所述解脱飞行策略。

2.如权利要求1所述的基于前序飞行信息的密集飞行自主冲突解脱方法，其特征在于，所述步骤10中，具体包括：

步骤11，当判定多机协同飞行中的所述目标飞行器与所述相邻飞行器之间通信异常时，根据多机协同飞行中的目标飞行器的全部单纯飞行策略和相邻飞行器的当前飞行策略，采用归一化算法和加权算法，计算所述目标飞行器对应的个体期望收益；

步骤12，根据所述个体期望收益，生成多机协同飞行的策略记忆池，并计算所述策略记忆池中所述单纯飞行策略对应的总期望收益；

步骤13，确定所述总期望收益最大值对应的所述单纯飞行策略为所述目标飞行器的所述解脱飞行策略。

3.如权利要求2所述的基于前序飞行信息的密集飞行自主冲突解脱方法，其特征在于，所述步骤11中，具体包括：

步骤111，根据目标飞行器的所述单纯飞行策略和任一个所述相邻飞行器的所述当前飞行策略，计算所述目标飞行器的个体安全收益和个体效率收益，其中，所述目标飞行器和所述相邻飞行器进行多机协同飞行；

步骤112，采用归一化算法，对所述目标飞行器的个体安全收益和个体效率收益，进行归一化计算；

步骤113，采用加权算法，根据归一化处理后的所述个体安全收益和归一化处理后的所述个体效率收益，计算所述个体期望收益，其中，所述个体期望收益的计算公式为：

式中，为所述个体期望收益，为所述个体安全收益，为所述个体效率收益，λ为安全收益权重，为所述目标飞行器a_i的第n个所述单纯飞行策略，n＝1,2,…,N，N为所述单纯飞行策略的总数，i＝1,2,…,M，M为协同飞行的飞行器数量。

4.如权利要求3所述的基于前序飞行信息的密集飞行自主冲突解脱方法，其特征在于，所述安全收益权重的取值，满足如下步骤：

步骤a，选取系统碰撞次数为零的所述单纯飞行策略，记作安全飞行策略；

步骤b，根据所述安全飞行策略对应的计划飞行时间和航程仿真飞行时间，计算系统效率，其中，所述系统效率的计算公式为：

式中，SE为所述系统效率，EFF_i为所述目标飞行器a_i的飞行效率，T_i ^p为所述计划飞行时间，T_i为所述航程仿真飞行时间，M为飞行器数量；

步骤c，选取所述系统效率最大值对应的权重值，记作所述安全收益权重。

5.如权利要求2所述的基于前序飞行信息的密集飞行自主冲突解脱方法，其特征在于，所述步骤12，具体包括：

步骤121，根据当前时间步空域和记忆池容量范围内的所述单纯飞行策略对应的个体期望收益，采用队列法，生成所述策略记忆池；

步骤122，根据所述策略记忆池中的所述个体期望收益，计算当前时间步空域对应的所述总期望收益，其中，所述总期望收益的计算公式为：

式中，为所述总期望收益，为第k个所述个体期望收益，为第i个飞行器a_i的第n个所述单纯飞行策略，Z_i为所述策略记忆池，m为所述个体期望收益的总数，所述总数m≤ω，ω为所述记忆池容量范围，为衰减系数，所述衰减系数的取值范围为[0,1]。

6.如权利要求5所述的基于前序飞行信息的密集飞行自主冲突解脱方法，其特征在于，

所述衰减系数的取值为0.5。

7.如权利要求1所述的基于前序飞行信息的密集飞行自主冲突解脱方法，其特征在于，所述步骤20中，具体包括：

步骤21，将多机协同飞行中任一个飞行器记作目标飞行器，根据所述目标飞行器的探测半径，确定所述目标飞行器对应的相邻飞行器集合，其中，所述相邻飞行器集合中至少包括一个相邻飞行器，所述相邻飞行器属于所述飞行器群体；

步骤22，当判定所述目标飞行器与所述相邻飞行器集合内的任一个所述相邻飞行器之间数据通信正常时，根据演化博弈算法，计算所述目标飞行器对于所述相邻飞行器集合的所述博弈总收益；

步骤23，根据所述目标飞行器的所述博弈总收益和所述相邻飞行器的所述博弈总收益，计算所述目标飞行器的飞行策略学习概率；

步骤24，根据所述飞行策略学习概率，更新所述目标飞行器的解脱飞行策略，其中，所述解脱飞行策略为所述目标飞行器的自身飞行策略或者所述相邻飞行器的自身飞行策略中的一种。