CN114326826A

CN114326826A - 多无人机队形变换方法及系统

Info

Publication number: CN114326826A
Application number: CN202210025528.9A
Authority: CN
Inventors: 邢娜; 王月海; 尹文杰; 邢志强; 庞枫骞
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-04-12
Anticipated expiration: 2042-01-11
Also published as: CN114326826B

Abstract

本发明涉及一种多无人机队形变换方法及系统，属于无人机队形变换领域。先建立适用于多无人机队形变换的马尔科夫决策模型，然后采用深度强化学习计算马尔科夫决策模型的最优解，在计算过程中，采集其他障碍物的状态以及动作信息并为其计算注意力分数，分数越高的障碍物无人机本体路径的影响越大，无人机本体在下一步动作选择中要关注此障碍并注意躲避，从而有效减小了无人机之间的碰撞发生几率。

Description

多无人机队形变换方法及系统

技术领域

本发明涉及无人机队形变换领域，特别是涉及一种多无人机队形变换方法及系统。

背景技术

随着无人机技术以及电子信息技术的发展，无人机的应用越来越智能化，智能移动无人机的一个重要特征是在复杂动态环境下可以进行良好的路径轨迹规划实现无人机队形变换。智能无人机队形变换是指在搜索区域内给出合理的目标函数，并在一定范围内找到目标函数的最优解，使无人机进行有序的队形变换，无人机队形变换在许多领域有着广泛的应用，如大型无人机空中表演、无人机基站的区域覆盖以及无人机救援等。

近期用于无人机队形变换的主要算法是深度强化学习(Deep ReinforcementLearning,DRL)算法。DRL是人工智能领域近年来高速发展起来的一个方向，拥有着巨大的潜力，其主要是解决智能体从感知到决策的问题，深度强化学习也为无人机智能编队变换奠定了理论基础。

深度强化学习更早的用于路径规划的研究，但是早期研究更注重静态环境中单智能体的路径规划，但是随着应用场景复杂变化，智能体将从孤立的场景扩展成多个智能体共同存在的空间。传统的无人机队形变换通常将物体视为静态障碍物，这导致了智能体预见性低，容易产生不安全或者不自然的行为。为了解决多无人机安全实现智能队形变换的问题，无人机需要关注其他无人机的动作状态进行合作规则。基于此，亟需一种能够关注其他无人机的动作状态的多无人机队形变换方法及系统。

发明内容

本发明的目的是提供一种多无人机队形变换方法及系统，通过增加注意力机制来处理动态环境中信息复杂度高和对其他无人机重要性的评估不准确的问题。

为实现上述目的，本发明提供了如下方案：

一种多无人机队形变换方法，所述方法包括：

建立适用于多无人机队形变换的马尔科夫决策模型；

基于注意力机制以及深度价值网络算法计算马尔科夫决策模型的最优解，具体包括：

采集邻居无人机的状态动作信息，所述邻居无人机为与无人机本体相邻的无人机；

对无人机本体的状态动作信息以及所述邻居无人机的状态动作信息进行预处理，得到所述无人机本体和所述邻居无人机的联合状态特征向量；

根据所述联合状态特征向量和所述注意力机制获得注意得分；

根据所述联合状态特征向量和所述注意得分，获得综合特征值；

利用所述综合特征值和无人机本体的状态获得状态价值函数；

利用深度价值网络算法对所述状态价值函数进行迭代更新，得到最优状态价值函数；

根据最优状态价值函数获得无人机本体的最优动作选择，无人机本体的最优动作选择即为所述马尔科夫决策模型的最优解。

本发明还提供一种多无人机队形变换系统，所述系统包括：

模型建立模型，用于针对无人机队形变换问题建立适用于多无人机队形变换的马尔科夫决策模型；

计算模块，用于基于注意力机制以及深度价值网络算法计算马尔科夫决策模型的最优解

其中，所述计算模块具体包括：

数据采集子模块，用于采集邻居无人机的状态动作信息，所述邻居无人机为与无人机本体相邻的无人机；

预处理子模块，用于对无人机本体的状态动作信息以及所述邻居无人机的状态动作信息进行预处理，得到所述无人机本体和所述邻居无人机的联合状态特征向量；

注意得分计算子模块，用于根据所述联合状态特征向量和所述注意力机制获得注意得分；

特征提取子模块，用于根据所述联合状态特征向量和所述注意得分，获得综合特征值；

状态价值函数获取子模块，用于利用所述综合特征值和无人机本体的状态获得状态价值函数；

训练子模块，用于利用深度价值网络算法对所述状态价值函数进行迭代更新，得到最优状态价值函数；

最优动作选择子模块，用于根据最优状态价值函数获得无人机本体的最优动作选择，无人机本体的最优动作选择即为所述马尔科夫决策模型的最优解。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的多无人机队形变换系统，先建立适用于多无人机队形变换的马尔科夫决策模型，然后采用深度强化学习计算马尔科夫决策模型的最优解，在计算过程中，采集其他障碍物的状态以及动作信息并为其计算注意力分数，分数越高的障碍物无人机本体路径的影响越大，无人机本体在接下来的动作选择中要关注此障碍并注意躲避，从而有效减小了无人机之间的碰撞发生几率。本发明还采用深度价值网络算法通过迭代状态值函数找到无人机到目标点的最优路径。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种多无人机队形变换方法流程图；

图2为本发明实施例1提供的信息采集和预处理过程图；

图3为本发明实施例1提供的池化过程图；

图4为本发明实施例1提供的深度价值网络(Deep Value Network)的队形变换训练过程图；

图5为本发明实施例1提供的无人机队形变换前的效果图；

图6为本发明实施例1提供的无人机队形变换后的效果图；

图7为本发明实施例1提供的多无人机三角形队形变换轨迹图；

图8为本发明实施例1提供的多无人机圆形队形变换轨迹图；

图9为本发明实施例2提供的一种多无人机队形变换系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种多无人机队形变换方法及系统，通过融入注意力机制结合深度强化学习可以使无人机在智能队形变换过程中有效避障。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

本实施例提供一种多无人机队形变换方法，请参阅图1，所述方法包括：

S1、建立适用于多无人机队形变换的马尔科夫决策模型。

本发明针对多UAV动态环境中的智能队形变换问题建立适用于本环境的马尔可夫决策模型，考虑到UAV的当前动作只与上一个状态和采取的动作有关与其它时间的状态无关，因此本研究建立的马尔可夫决策模型包括：状态空间、动作空间、回报函数、状态转移概率以及折扣因子。

状态空间(State)：对于动态环境中的每一个无人机(包含本体和其他无人机)设定位置p＝[p_x,p_y]速度v＝[v_x,v_y]，智能体本体的观察半径为r(智能体对可观测半径r以内的障碍物进行注意分数计算)。此处需要说明的是：p＝[p_x,p_y]是每个无人机坐标的通用表示方法，可以表示无人机本体和其他邻居无人机的坐标，速度v＝[v_x,v_y]同理。

设定目标位置p_g，最佳速度v_pref。本实施例的过程中假设UAV经过速度v_t后能立刻能够执行动作a_t，从而可以将v_t＝a_t将速度和动作结合。

本实施例中，用s_t表示无人机本体t时刻的状态，用

表示其他无人机t时刻的状态。综合考虑其他无人机和本体的状态，将UAV本身和其他无人机的状态进行组合，定义为联合状态值，表示为

在建立的模型中，本体无人机位于中心，x轴指向目标点。对无人机本体和与本体相邻的其他无人机进行汇总如下：

s＝[p,d_g,v_pref,v_x,v_y,r]

w_i＝[p_x,p_y,v_x,v_y,r_i,d_i,r_i+r]

式中，s为无人机本体的状态集合，w_i是无人机邻居的位置、速度、与无人机本体距离信息的集合，d_g＝||p-p_g||₂表示无人机到目标点的距离(向量具有大小和方向)，i表示无人机到动态障碍物的临近距离。r_i为动态障碍物的感知半径，r_i+r表示智能体本体与动态障碍物两两互不感知的距离。

动作空间(Action)：为了完整表示无人机的完整运动学特性，无人机可以向任何方向进行移动，所以将[0,2π]平均分为16个方向，并且将无人机速度离散化，将[0,v_pref)区间内的速度指数分割为5个区间，从而可以得到最终的动作空间S′由80个离散的动作组成。

奖励空间(Reword)：对每一个动作进行评价，考虑到无人机的体积形状问题，不能仅针对无人机与障碍物距离小于0时刻(已经发生了碰撞)进行惩罚，同时还要对碰撞和距离小于0.2的行为进行惩罚，目的是为无人机增加安全域，更加贴合现实场景的应用。

式中，a_t是无人机在队形变换过程中执行的动作，

为无人机动作选择的回报值，回报值越大，说明无人机在队形变换过程中的可靠性越高，经过训练后无人机会趋向于选择一条无碰撞路径进行编队变换。d_t为[t-Δt,t]时间段内无人机与其他无人机最小分距离。

需要说明的是，上述距离小于0.2仅是为了说明本实施例的方案而列举的一个数值，本发明并不对具体数值进行限制，此数值可根据具体情况做出调整。

状态转移概率：表示S×A→S_p的转移概率。P(s_t+1|s_t,a)表示在状态s_t下采取行动a(在动作空间内)状态转移到s_t+1的概率。

针对无人机队形变换建立了适合本发明的马尔可夫决策模型，规定了状态空间，为无人机提供了坐标，可以根据不同的坐标建立不同的无人机队形样式；设定了动作空间，其中包含无人机运动的步长和动作方向，此类信息作为算法求解过程中邻居无人机信息的输入特征向量；设定了奖励空间，针对本发明自定了奖励算法，是算法求解过程中最佳动作选择的核心，通过设定奖励与惩罚函数来根据无人机邻居信息与本体的状态来决策本体下一步的动作，通过训练使无人机本体找到一条到目标点奖励分数最高的路径，即最短且无碰撞路径。马尔科夫决策过程简化了状态转移过程中的其他影响因子以实现无人机的动作选择。

S2、基于注意力机制以及深度价值网络算法计算马尔科夫决策模型的最优解。

本实施例现使用python语言在深度强化学习框架pytorch搭建深度价值(DeepValue Network-DVN)网络算法，在Ubnutu18.04系统下进行训练。本实施例在深度强化学习基础上引入三个步骤，分别是：无人机信息采集和预处理过程、池化过程、最佳动作选择过程。整个过程的工作原理是：首先，将无人机邻居的信息(w_i＝[p_x,p_y,v_x,v_y,r_i,d_i,r_i+r])作为输入，用于无人机状态动作信息的采集和信息的预处理，主要包括无人机本身与其他无人机(动态障碍物信息)内部状态动作信息，然后将信息传入到池化过程中，用于处理信息采集后的信息，降低信息复杂度，并将处理之后的联合状态信息传递给最佳动作选择过程，最后的最佳动作选择应用联合状态信息和强化学习的算法对状态价值函数进行更新，对环境做出预测和探索，经过大量训练后得到最优价值函数，为无人机的动作产生一个最优策略，下面对这一过程进行详细介绍：

需要说明的是：本发明采用的方法不需要数据集进行训练，强化学习无人机编队变换的训练方法为：从起点到目标点过程中，如果下一步发生了碰撞或距离小于0.2(奖励空间已设定)，那么就会给无人机的动作减分，如果下一步动作没有碰撞就会给无人机加分，经过无数次试错后，最终选择得分最高的动作，得分越高说明碰撞越少，即找到了一套最佳动作。通过离线试错，可以在线使用训练好的网络实时完成队形变换。

步骤S2具体可包括：

S21、采集邻居无人机的状态动作信息，所述邻居无人机为与无人机本体相邻的无人机。

S22、对无人机本体的状态动作信息以及所述邻居无人机的状态动作信息进行预处理，得到所述无人机本体和所述邻居无人机的联合状态特征向量。

由于如果直接收集信息复杂度很高并且计算复杂，会对之后的步骤产生影响导致结果不理想。所以本实施例给定了一个大小为L的邻域，构造一个地图张量M_i。通过地图张量M_i以无人机本体为中心，对L×L×3范围内的动态障碍物的位置和速度进行编码。

式中，w'_j＝(v_xj,v_yj,1)是其他智能体j(动态障碍物)的局部变量，δ_ab(x_j-x_i,y_j-y_i)是一个指示函数，仅在动态障碍物相对位置在区域(a,b)内为1。

将动态障碍物的状态w_i、地图张量M_i和无人机本体的状态s(State)作为第一层多层感知机的输入，进而得到无人机与动态障碍物的第一成对特征向量e_i，第一成对特征向量为一个定长向量。

e_i＝φ_e(s,w_i,M_i；W_e)

式中，φ_e＝(·)表示ReLU激活函数，W_e为网络权值。

由于只有底层特征对障碍物的动作状态信息判断不够准确，因此为了提高可靠性，本发明在第一层多层感知机的基础上再增加第二层多层感知机对障碍物动作状态信息特征加强提取，即定长向量e_i作为后续多层感知机的输入，得到无人机本体与动态障碍物的第二成对特征向量h_i。

h_i＝Ψ_h(e_i；W_h)

式中，W_h作为多层感知机的权重(也叫连接系数)。

如图2所示，MLP为多层感知机，其中e_i为经过一层感知机的特征向量，后面e_i作为输入再经过一层感知机作为加强特征提取。需要说明的是：第一成对特征向量e_i和第二成对特征向量h_i均为联合状态特征向量。

本发明引入无人机状态动作相互采集过程并对其预处理，由于直接收集信息复杂度很高，这会对之后的步骤产生影响，导致结果不理想，因此无人机状态动作信息采集的功能是对无人机状态以及动作信息的收集和预处理，减轻计算压力。

经过上述步骤S21-S22对无人机信息进行采集和预处理之后，获得了无人机本身与其他无人机(动态障碍物信息)内部状态动作信息，然后将信息传入到池化过程中，池化过程的作用是处理信息采集与预处理后传递过来的联合状态特征向量e_i与h_i，降低数据复杂度，并加入本发明提出的注意力机制，进行注意分数的计算。本发明利用注意力机制的最新进展，提出了一种池化方法来关注无人机队形变换过程中其他无人机对本无人机的相对重要性。池化过程主要包括下述步骤S23-S24。

S23、根据所述联合状态特征向量和所述注意力机制获得注意得分。

注意得分的计算公式为：

α_i＝ψ_α(e_i,e_m；W_α)

式中，e_m是与定长e_i相同长度的嵌入向量，是通过对e_i-j算术平均获得的。ψ_α()是一个多层感知机具有ReLU激活函数和权重W_α，α_i是指注意得分。

S24、根据所述联合状态特征向量和所述注意得分，获得综合特征值。

步骤S24中的联合状态特征向量指的是第二成对特征向量，将注意得分经过Softmax函数进行数值处理后，再与每一个第二成对特征向量h_i进行加权线性组合，得到综合特征值c。

综合特征值为无人机与动态障碍物和动态障碍物之间动作状态以及动作的综合特征表示，即池化过程最终得到一个c表示无人机与动态障碍物和动态障碍物之间动作状态以及动作的综合特征表示，上述池化过程具体请参阅图3。

池化过程之后进入无人机动作决策过程即最佳动作选择过程，最后的最佳动作选择应用联合状态信息和强化学习的算法对状态价值函数进行更新，对环境做出预测和探索，经过大量训练后得到最优价值函数，为无人机的动作产生一个最优策略。无人机动作决策过程包括步骤S25-S27。

S25、利用所述综合特征值和无人机本体的状态获得状态价值函数。

无人机的动作选择过程也就是队形变换的决策方法，它主要包含了Deep ValueNetwork算法。作为价值网络的状态输入，使用一个多层感知机进行处理池化过程的综合特征值c和无人机的状态

具体方式如下：

v＝f_v(s,c,W_v)

式中，f_v()为ReLU激活函数，权值用W_v表示。其中v是用于估计无人机规划的状态价值函数。

S26、利用深度价值网络算法对所述状态价值函数进行迭代更新，得到最优状态价值函数。

基于深度强化学习算法的相关基础知识，最优策略

由寻找最优状态价值函数

决定。如下面公式所示：

式中，

表示时刻t的实时奖励，γ∈(0,1)是折扣因子，在本次训练中折扣因子设定为0.9。

表示时刻t到时刻t+Δt的转移概率。v_pref因数值原因被用作为折扣因子的标准化项中。

为了寻找最优状态价值函数

本发明采用深度价值网络(Deep ValueNetwork-DVN)进行训练，步骤如下：

(1)使用一组模仿学习经验D进行无人机原始动作、状态的初始化，将当前value网络中的参数复制给Target-V网络，用模仿学习经验D进行经验池E的初始化；

(2)对于每一个episode，随机序列初始化状态

直到最后一个状态

(3)通过查询环境真值做出动作a_t的选择，将得到的

储存到经验池E中，其中，

为无人机本体和其他无人机的联合状态值，r_t为可被人观测半径；

(4)从经验池E中随机抽样出小批量元组

进行训练，设定目标价值函数

其中，γ∈(0,1)为折扣因子；

(5)计算损失函数

通过梯度下降算法进行网络更新；

(6)设定训练终止条件：到达终止状态s_t，t≥t_max步数大于设定的最大步数；

(7)停止更新状态价值函数v；

(8)训练完所有episode，返回最终的状态价值函数V^*，所述最终的状态价值函数即为最优状态价值函数。深度价值网络(Deep Value Network-DVN)算法流程如图4所示。

S27、根据最优状态价值函数获得无人机本体的最优动作选择，无人机本体的最优动作选择即为所述马尔科夫决策模型的最优解。

为了有效地让无人机做出最佳动作

价值网络模型需要精确地逼近最优值函数

该函数对无人机之间的合作进行编码，它可以有效地让无人机在庞大的集群中学习队形变换的最佳策略。

本发明基于深度强化学习理论建立多向状态动作信息采集模型。考虑到在环境中不仅存在动态障碍物与无人机的交互，也存在动态障碍物内部交互，发明建立多向状态动作信息采集模型来降低障碍物的不确定性带来的影响。在这基础上本发明提出了一种注意力机制的深度强化学习的多无人机队形变换的方法，不同于其他方法直接通过距离来判定障碍物对无人机的影响大小。注意力机制不仅通过位置距离，还考虑了速度、未来轨迹等多方面因素，来进行判定障碍物对无人机的影响。

本发明提供的多无人机队形变换方法中加入注意力机制进行注意分数的计算。注意力机制是在池化过程中加入的，通过计算障碍物的状态和动作信息的特征向量计算出注意分数，分数越高说明障碍物对无人机本体的影响越大，无人机越要注意躲避。池化层的作用是处理采集的状态动作信息传递过来的联合状态特征向量，降低数据复杂度。

本发明还加入最优路径规划过程，规划过程作为路径规划的决策步骤，它主要包含了Deep-V-learning算法，作用是规划无人机到目标点的最短路径。

下面对本发明进行实验验证：

为了验证上述方案的有效性，用python搭建了一个范围是12*12的场景，所有无人机都分布在半径为4m的圆上，他们运动的目标都设定关于圆心对称的位置上。将本发明的自我注意力机制的深度强化学习(Self-attention Reinforcement Learning,SARL)方案与现有最优相互式避障(Optimal Reciprocal CollisionAvoidance,ORCA)方案进行对比，通过进行500例测试可以得出以下结果如下表：

表1测试数据表

表中展示了测试结果的成功率、碰撞率、平均完成任务时间(不统计碰撞和超时案例)。其中ORCA在测试中表现差，这是因为它只考虑了单个状态动作信息，忽略了内部状态动作信息，这表明一项方法中应该同时考虑到所有无人机之间状态动作信息的必要性。相比于ORCA增加了注意力机制，大幅提升的成功率证明了所设计方法的优势。

接下来展示无人机队形变换测试结果并且进行分析。设置无人机为三角形编队，目标队形为现队形相反的三角形编队，为了测试本方法的可靠性，考虑让无人机都通过中心点运动进行队形变换，目的是为了每一架无人机都能进行有效避障并且可以规划出最短路径。以6号无人机为例，起始坐标为(3,0)的位置，目标点设定在(0,3)位置上，为了让无人机队形变换都通过圆心，因此将目标点设置为圆心对称点，其他无人机的位置以及目标点也遵循此规则，队形变化前后效果分别如图5和图6所示。

图5以及图6是多无人机三角形队形变换过程的变化图，在队形变化过程中增加注意力机制，数值越大说明编号无人机对无人机本体影响大。以4号无人机的视角来看，图中5号比1号无人机离本体距离近，但是5号无人机的注意得分比1号要低，这是因为5号无人机的运动方向正在朝向远离本体的方向运动，而1号运动方向正在朝向本体方向运动，所以综合考虑了运动速度、方向、距离等因素，得出注意得分1号无人机大于5号无人机。可以看出融入注意力机制可以更加提高无人机在队形变换中路径规划过程的可靠性。

无人机编队三角形队形变换过程如图7所示，可以看出，无人机编队能够通过在线运动规划实现安全避碰，完成队形变换。

图8是无人机圆形队形变换的示意图，这里让每个无人机的目标位置都是对面，那么所有无人机到达目标点的最短路径都要经过圆心，加入注意力后无人机可以处理好选择最短路径的动作。通过截取每秒的位置并绘制在一张图上得到，通过每个位置间的距离可以看出速度。测试最终用时10.25秒达到安全达到目标地点。

本发明主要设计了基于深度强化学习的多无人机路径规划下的队形变换，增加了注意力机制来处理动态环境中信息复杂度高和对其他无人机重要性的评估不准确的问题。本发明算法主要是基于深度强化学习中的深度Q网络(deep Q-network，DQN)算法为基础；通过不断迭代状态价值函数进行网络参数更新；并且在深度学习的部分增加了注意力的机制有效的加快了网络收敛速度，也使得整个路径规划算法更高效，用时更短。本发明上述提出的多无人机路径规划术，对于多机器人协同技术的研究具有十分重要的意义。该项发明稳定可靠，可扩展性好，稳定性强，整个算法均在处理器中完成，在PC端进行可视化。使整个系统有着更高的稳定性和可靠性。总而言之随着社会需求的提高，无人机有越来越多的功能需求及应用场景，要求无人机需要拥有更强的感知、决策以及执行能力，基于无人机的感知决策的研究成为解决该问题的关键。

实施例2

本实施例提供一种多无人机队形变换系统，请参阅图9，所述系统包括：

模型建立模型M1，用于针对无人机队形变换问题建立适用于多无人机队形变换的马尔科夫决策模型；

计算模块M2，用于基于注意力机制以及深度价值网络算法计算马尔科夫决策模型的最优解

其中，计算模块M2具体包括：

本发明主要具有如下优点：

(1)模拟场景验证技术：本发明提出了一种模仿复杂场景下多无人机队形变换以及有效避障的实验场景，模拟实现多无人机实现在无碰撞环境下的最短路径规划从而进行队形变换，并验证了强化学习、注意力机制、无人机避障、路径规划以及队形变换等多个关键技术，且整个平台模块化，可依据需要对算法进行替换。

(2)增加注意力分数以及可视化：本发明提出了一种基于注意力机制与深度强化学习相结合的方法，实现了无人机对目标障碍物的自主检测，为后续无人机有效避障奠定了基础。

(3)复杂场景中的应用广泛：本发明中提出的方法，能够更加贴合实际的生产生活场景，由于现实场景的复杂多变，障碍物出现的过程是随机的，因此这对无人机的有效避障提出了很大的挑战。因此，本发明融入的注意力机制对大规模无人机集群的队形变换有良好的效果。

对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多无人机队形变换方法，其特征在于，所述方法包括：

建立适用于多无人机队形变换的马尔科夫决策模型；

2.根据权利要求1所述的方法，其特征在于，所述马尔科夫决策模型具体包括：

状态空间：包括无人机本体的状态，与无人机本体相邻的其他无人机的状态，以及无人机本体和其他无人机的联合状态；

动作空间：由80个离散的动作组成，所述80个离散的动作包括由[0,2π]平均分成的16个方向以及由[0,v_pref)区间的速度指数分割的5个区间，其中v_pref为最佳速度；

回报函数：

式中，a_t是无人机在队形变换过程中执行的动作，

为无人机本体和其他无人机的联合状态值，

为无人机本体动作选择的回报值，d_t为[t-Δt,t]时间段内无人机本体与其他无人机最小分距离，p_g为目标位置；

状态转移概率：表示S×A→S_p的转移概率，P(s_t+1|s_t,a)表示在状态s_t下采取行动a状态转移到s_t+1的概率；

折扣因子：γ∈(0,1)。

3.根据权利要求1所述的方法，其特征在于，所述对无人机本体的状态动作信息以及所述邻居无人机的状态动作信息进行预处理，得到所述无人机本体和所述邻居无人机的联合状态特征向量，具体包括：

构造一个地图张量；

将所述地图张量、动态障碍物的状态以及无人机本体的状态输入到第一层多层感知机，得到无人机本体与动态障碍物的第一成对特征向量，所述第一成对特征向量为一个定长向量，所述动态障碍物为与无人机本体相邻的其他无人机；

将所述第一成对特征向量输入到第二层多层感知机，获得无人机本体与动态障碍物的第二成对特征向量，所述第一成对特征向量和所述第二成对特征向量均为联合状态特征向量。

4.根据权利要求3所述的方法，其特征在于，所述根据所述联合状态特征向量和所述注意力机制获得注意得分的公式为：

α_i＝ψ_α(e_i,e_m；W_α)

式中，e_i为第一成对特征向量，所述第一成对特征向量为一个定长向量，e_m是与定长向量e_i相同长度的嵌入向量，e_m是通过对e_i-j算术平均获得的，ψ_α()是一个多层感知机，具有ReLU激活函数和权重W_α，α_i是指注意得分。

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述联合状态特征向量和所述注意得分，获得综合特征值，具体包括：对所述第二成对特征向量和所述注意得分进行加权线性组合，得到综合特征值。

6.根据权利要求1所述的方法，其特征在于，所述利用所述综合特征值和无人机本体的状态获得状态价值函数的公式为：

v＝f_v(s,c,W_v)

式中，v是用于估计无人机规划的状态价值函数，f_v()为ReLU激活函数，W_v表示权值，s表示无人机本体的状态。

7.根据权利要求1所述的方法，其特征在于，所述利用深度价值网络算法对所述状态价值函数进行迭代更新，得到最优状态价值函数，具体包括：

使用一组模仿学习经验D进行无人机原始动作、状态的初始化，将当前value网络中的参数复制给Target-V网络，用模仿学习经验D进行经验池E的初始化；

对于每一个episode，随机序列初始化状态

直到最后一个状态

通过查询环境真值做出动作a_t的选择，将得到的

储存到经验池E中，其中，

从经验池E中随机抽样出小批量元组

进行训练，设定目标价值函数

其中，γ∈(0,1)为折扣因子；

计算损失函数

通过梯度下降算法进行网络更新；

设定训练终止条件：到达终止状态s_t，t≥t_max步数大于设定的最大步数；

停止更新状态价值函数v；

训练完所有episode，返回最终的状态价值函数V^*，所述最终的状态价值函数即为最优状态价值函数。

8.一种多无人机队形变换系统，其特征在于，所述系统包括：

其中，所述计算模块具体包括：