CN116318346A

CN116318346A - 多无人机间数据实时汇聚路径选择方法及装置

Info

Publication number: CN116318346A
Application number: CN202310213365.1A
Authority: CN
Inventors: 赵怡婧; 刘雨蒙; 王鹏; 万梓航; 王碧聪; 王潮; 闫紫滕
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-23
Anticipated expiration: 2043-03-07
Also published as: CN116318346B

Abstract

本发明涉及一种多无人机间数据实时汇聚路径选择方法及装置。所述方法包括针对无人机集群，构建每一时刻t的任务群特征图；使用L层的图卷积层对所述任务群特征图进行图特征汇聚；对最后一个图卷积层的输出进行隐变量子图采样，以计算节点为汇聚节点的概率值；在所述概率值小于设定阈值的情况下，在子群S_n中重新选择一节点，并返回至针对无人机集群，构建每一时刻t的任务群特征图；在所述概率值大于设定阈值的情况下，基于节点进行汇聚路径规划，得到实时路径选择结果。本发明能够基于动态变化的无人机集群状态智能地选择数据汇聚节点及数据汇聚路径，大幅提高了数据汇聚的效率和可靠性。

Description

多无人机间数据实时汇聚路径选择方法及装置

技术领域

本发明涉及无人机技术领域，尤其涉及一种多无人机间数据实时汇聚路径选择方法及装置。

背景技术

当前，空中多无人机执行任务向着分布式、集群化、协同化发展，能够形成单一平台所不具有的独特优势，例如经济优势、数量优势、能效优势、速度优势等。为实现多无人机执行任务过程中的有效协同，研究如何将单个无人机视野下的数据流转换为群体信息优势，实现多无人机平台数据的实时汇聚和处理，辅助后续任务的快速准确执行，已成为重要的研究课题之一。

传统的多无人机协同执行任务时，往往是预先设置簇头无人机或长机，同时设置地面数据中心，各无人机通过与长机或地面数据中心的连接实现机载数据的汇聚。但当无人机执行的任务复杂、集群规模较大时，上述传统的数据实时汇聚方式具有通信频繁、作业半径大等特点，给地面数据中心带来了极高的网络数据传输负载；同时，大量的无人机-地面数据中心模式的数据传输带来了大规模的数据冗余，不仅增加了数据传输的延时，也给后续的任务推演等环节带来了额外的计算负担；另外，这种数据实时汇聚模式较为固定，灵活性很低，在地面数据中心或长机失效后集群将失去全局数据管理能力，没有自主恢复、继续完成任务的能力，因此整个机群在实时数据处理方面可靠性低、各无人机平台的能动性差。

发明内容

针对现有方法存在的问题，本申请提出了一种多无人机间数据实时汇聚路径选择方法及装置，该方法将数据汇聚的节点分散到多无人机间，使数据在空中节点汇聚融合后再进行后续任务计算，减轻了地面数据中心频繁的通信需求；同时，在无人机间完成数据汇聚的方式大幅缩小了数据传输的通信半径，降低了数据汇聚带来的传输时延问题；另外，本方法能够基于动态变化的无人机集群状态智能地选择数据汇聚节点及数据汇聚路径，大幅提高了数据汇聚的效率和可靠性。

本发明的技术内容包括：

一种多无人机间数据实时汇聚路径选择方法，所述方法包括：

针对无人机集群，构建每一时刻t的任务群特征图；其中，所述任务群特征图的基本单元G＝(v_mp,e_vu,u_nq)，v_mp表示无人机子群S_m中的第p个节点为数据发送节点，u_nq表示无人机子群S_n中的第q个节点，e_vu是表示数据是从节点v_mp汇聚至节点u_nq的有向边，所述任务群特征图的节点属性基于该时刻的无人机属性得到，所述任务群特征图的有向边属性基于该时刻的链路通信属性得到；

使用L层的图卷积层对所述任务群特征图进行图特征汇聚；

对最后一个图卷积层的输出进行隐变量子图采样，以计算所述节点u_nq为汇聚节点的概率值；

在所述概率值小于设定阈值的情况下，在所述子群S_n中重新选择一节点，并返回至针对无人机集群，构建每一时刻t的任务群特征图；

在所述概率值大于设定阈值的情况下，基于所述节点u_nq进行汇聚路径规划，得到实时路径选择结果。

进一步地，所述无人机属性包括：节点任务、位置、任务数据量、数据容量、计算能力和飞行状态。

进一步地，所述链路通信属性包括：节点间通信带宽、可用发送链路带宽、链路长度、数据发送速度和融合计算延时。

进一步地，所述使用L层的图卷积层对所述任务群特征图进行图特征汇聚，包括：

对于每一个图卷积层l，基于公式

和公式/>

进行特征更新；其中，/>

表示节点v_mp的第l+1层特征向量，G表示任务群特征图，/>

表示第l层的节点注意力系数，/>

表示第l层的聚合节点和边特征的可学习权重，/>

表示无参数的组合对齐运算，/>

表示节点u_nq的第l层特征向量，/>

表示有向边e_vu的第l层特征向量，f(·)为激活函数，/>

表示第l层的有向边注意力系数，/>

表示聚合节点特征的可学习权重。

进一步地，所述节点注意力系数

其中，衰减函数/>

所述有向边注意力系数

一种多无人机间数据实时汇聚路径选择装置，所述装置包括：

特征图构建模块，用于针对无人机集群，构建每一时刻t的任务群特征图；其中，所述任务群特征图的基本单元G＝(v_mp,e_vu,u_nq)，v_mp表示无人机子群S_m中的第p个节点为数据发送节点，u_np表示无人机子群S_n中的第q个节点，e_vu是表示数据是从节点v_mp汇聚至节点u_nq的有向边，所述任务群特征图的节点属性基于该时刻的无人机属性得到，所述任务群特征图的有向边属性基于该时刻的链路通信属性得到；

图卷积网络，用于使用L层的图卷积层对所述任务群特征图进行图特征汇聚；

路径选择模块，用于对最后一个图卷积层的输出进行隐变量子图采样，以计算所述节点u_nq为汇聚节点的概率值；在所述概率值小于设定阈值的情况下，在所述子群S_n中重新选择一节点，并返回至针对无人机集群，构建每一时刻t的任务群特征图；在所述概率值大于设定阈值的情况下，基于所述节点u_nq进行汇聚路径规划，得到实时路径选择结果；

模型训练模块，用于训练特征图构建模块、图卷积网络和路径选择模块。

进一步地，所述模型训练模块，用于：

建立训练集的任务群特征图样本；

使用L层的图卷积层对任务群特征图样本进行图特征汇聚；

通过最后一个图卷积层的输出进行隐变量子图采样，得到对应训练数据的路径选择

其中，y_i表示汇聚节点；

基于图卷积层的输出，得到时刻t的无人机子群i的融合特征

连接所有融合特征

得到时刻t的无人机集群的融合特征H^t；

将不同时间的融合特征H^t进行连接，并通过时间注意力机制对所述融合特征H^t计算注意力系数，以得到时刻t的无人机集群的时空融合特征

将求解汇聚节点及路径选择问题建模为马尔可夫决策过程，并将定义为一个四元组表示(s_t,a_t,r_t,s_t+1)；其中，s_t表示时刻t的无人机集群的时空融合特征

a_t表示路径选择/>

r_t为时刻t得到的立即回报值；

基于PPO的强化学习算法、actor-critic算法、A3C算法或GAN算法对马尔可夫决策过程进行优化后，更新特征图构建模块、图卷积网络和路径选择模块中的参数。

进一步地，所述基于PPO的强化学习算法对马尔可夫决策过程进行优化，包括：

采用离线策略学习方法，最大化目标函数J^PPO(θ)＝J^θ′(θ)-εKL(θ,θ′)；其中，

θ表示当前策略π_θ的网络参数，θ′表示旧策略π_θ′的网络参数，p_θ表示在状态s_t下执行当前策略π_θ的动作a_t的状态转移概率，p_θ′：在状态s_t下执行旧策略π_θ′的动作a_t的状态转移概率，ε为可动态调整因子，优势函数/>

R^n,t表示在s_t状态选择动作a_t前提下某次样本所在的任务最终得到的回报值，b为使得优势函数不总是为正数的平衡因子，N表示实验总次数。

一种电子设备，其特征在于，所述电子设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实上述任一项所述方法。

一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述任一项所述方法。

与现有技术相比，本发明至少具有以下的有益效果：

本申请将数据汇聚的节点分散到多无人机间，使数据在空中节点汇聚融合后再进行后续任务计算，减轻了地面数据中心频繁的通信需求；同时，在无人机间完成数据汇聚的方式大幅缩小了数据传输的通信半径，降低了数据汇聚带来的传输时延问题；另外，本方法能够基于动态变化的无人机集群状态智能地选择数据汇聚节点及数据汇聚路径，大幅提高了数据汇聚的效率和可靠性。

附图说明：

图1为多无人机间数据实时汇聚路径选择方法的流程图。

具体实施方式：

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

为解决背景技术中提出的问题，本申请中提供了一种能够建模多无人机数据传输和融合处理过程中数据实时汇聚的问题表征，并通过具有动态时空关联特性的多无人机集群特征输入进行特征抽取和特征嵌入，自动学习并获得数据实时汇聚问题的特征输入，有效简化了动态优化算法的求解难度。另外，为解决训练标签无法通过手工标注的问题，利用强化学习机制对动作子图进行策略采样，通过数据汇聚的结果得分对网络进行训练，最终达到最优的数据实时汇聚路径选择方法。

步骤一、空中多无人机数据实时汇聚问题建模

该步骤的主要目的是捕捉各无人机在完成多目标任务时动态变化的各属性特征，在集群多任务数据场景中，求解多无人机各任务子群内部数据汇聚、计算的目标节点，同时优化各节点数据向目标节点进行数据汇聚的链路选择问题。

当多无人机集群S需要同时执行多个任务时，往往根据任务的分配情况分成多个任务子群S_i，其中i∈[1,N]为有限的任务数量。各任务子群包含

M_i表示第i个任务子群包含的无人机数量，s_ij表示第i个任务子群中第j架无人机。

从特征描述上，无人机集群包含了无人机作为节点本身的特征，也包含了无人机之间数据汇聚链路属性作为有向边特征。对无人机集群整体建立动态变化的时空特征图

其中，v表示节点特征属性的集合，ε表示有向边特征属性的集合，

表示随时间变化的特征图集合。

在每一个时间片下，无人机集群数据汇聚特征图

G_i为子任务群S_i的特征图，E_i为G_i与其他子任务群之间数据汇聚链路的特征表达，表示S_i作为数据发送端与其他子任务群之间的链路连接矩阵。

子任务群S_i特征图表示为G_i＝(v_ij,e_ij)，

表示无人机节点s_ij的属性，包含节点任务、位置、任务数据量、数据容量、计算能力、飞行状态等d个属性特征，/>

表示无人机节点s_ij作为数据汇聚链路发送端的链路通信能力特征矩阵，其中L_ij为通信范围内s_ij可以进行数据发送的节点数量，c为描述链路通信的属性特征数，包括节点间通信带宽、可用发送链路带宽、链路长度、数据发送速度、融合计算延时等。

求解子任务群S_i的数据汇聚节点问题表示为：

其中，G_m表示存在与S_i在通信范围内的其他任务群S_m，E_i→m表示任务群间以S_i作为数据发送端S_m作为数据接收端的数据链路表示，反之同理。y_ij最终取概率最大的作为汇聚节点选择。

当任务子群S_i的数据汇聚节点为y_i时，对于子群内部节点s_ij向y_i汇聚路径的选择为

求解问题表示为：

其中，π^s(v_ij,y_i)为以v_ij为路径起点y_i为路径终点的子图采样策略，

最终取价值最大的路径选择。

如何对上述无人机集群特征进行抽取、计算得到汇聚节点和汇聚路径选择的方案，在后续的步骤进行详细说明。

步骤二、基于改进注意力机制时空图卷积神经网络进行特征抽取(画一个特征融合图)

该步骤的主要目的是抽取多无人机在完成协同多目标任务过程的动态时序图隐含特征表达，具体步骤如下：

为统一地表示任务群内部处于相同或不同任务子群节点间关系，在每一个时刻t任务群S的特征图表示为G＝(v_mp,e_vu,u_nq)，其中v_mp表示节点为S_m子群中第p个节点，u_nq节点为S_n子群中第q个节点，e_vu表示数据是从节点v汇聚至节点u。上述元组为表示任务群特征图的基本单元。

对于每一个时刻t对任务群特征图进行图特征汇聚，建立L层图卷积层对任务群特征进行变换处理，对于每一个l∈[0,L-1]，按照下面的迭代公式更新节点嵌入特征和边嵌入特征：

其中，

为第l层节点特征向量，/>

为第l层边特征向量。/>

为聚合节点和边特征的可学习权重，/>

为聚合节点特征的可学习权重，/>

是一种无参数的组合对齐运算。f(·)为激活函数。具体的，初始化特征向量，有：

特别的，α_q,(v,u)与α_e,(v,u)为注意力系数，针对该场景提出一种基于多任务的改进注意力机制，通过将更多的注意力分给在同一任务子群的节点和边，同时也分散边缘注意力给其他任务子群的相连边或节点，使注意力机制作为一种特征聚合的引导方法。具体的，设置衰减函数σ(·)，有：

其中，V_matri表示一个常规矩阵。

当m≠n时，激活衰减函数，对于每一层具体的注意力系数计算方式为：

在图特征汇聚之后可以到当前时刻各节点和边的隐含特征表达，由于每一时刻集群均可能会发生节点数量和边数据量的变化，为统一不同时刻集群隐含特征表达的输出规模，便于后续参数运算，对上述最后一层节点和边特征进行特征变换或特征映射，得到集群在时刻t的任务群S_i融合特征：

其中，W_s为可学习的特征映射参数，

表示对于所有的j个/>

的每个元素求最大池化。

同理方式计算

对于整个多无人机集群融合特征表示为：

考虑从T时间范围内的无人机集群状态变化，对于H⁰,H¹,...,H^T，将不同时间的特征进行连接，再通过时间注意力机制对不同时间特征计算不同的注意力系数，得到时刻t无人机集群的时空融合特征：

经上述方法处理的时间特征，融合了前序多步的图关联关系特征，从而能够更加充分地描述多机协同任务下集群的动态时空变化特征。

步骤三、汇聚节点及路径选择方法

在步骤二对无人机集群时空关系图特征有效提取基础上，承接输出的隐变量特征之后，本步骤提出汇聚节点选择及汇聚路径选择方法。

以子任务群S_i为中心对图卷积结构最后一层输出进行隐变量子图采样，经过特征融合处理后得到

计算得到各子任务群汇聚节点概率值：

其中，W_γ为线性层可学习参数，再通过sigmoid激活函数计算得出各子任务节点作为汇聚节点的概率值，最终选择概率值最高的节点作为子任务群的汇聚节点ｙ_ｉ。

当任务子群S_ｉ的数据汇聚节点为ｙ_ｉ时，通过路径选择策略π^s，对于子任务群内部节点s_ij向y_i汇聚路径的选择为ｖ_ｉｊ→y_ｉ，这样的所有路径选择可能记为

通过计算全部的可能路径的值：

其中，Ｗ_β为多层感知机网络中的可学习参数，再通过sigmoid激活函数计算得出各路径选择的评价值，最终选择值最大的路径作为汇聚路径

步骤四、基于强化学习算法框架优化汇聚节点及路径选择

在步骤三中提到选择概率值最高的节点作为子任务群的汇聚节点ｙ_ｉ，以及选择值最大的路径作为汇聚路径

但在嵌入特征编码、图特征聚合以及概率和值的计算中均存在可学习参数。同时，在多无人机集群任务过程中，动态时变的时空状态数据搜索空间复杂、且单独的状态并不存在直观的标签，只有当子任务群的数据完成汇聚并最终完成全部任务群数据汇聚任务后才能确定整体任务的完成状态。鉴于上述情况，采用基于强化学习的算法、actor-critic、A3C或GAN模型的优化方法，都可以实现优化汇聚节点及路径选择过程中从输入特征嵌入到输出网络层的可学习参数值。

以强化学习的算法为例，是将求解汇聚节点及路径选择问题建模为马尔可夫决策过程，并将其定义为一个四元组表示(ｓ_ｔ,ａ_ｔ,r_t,s_t+1),其中，s_t表示当前时刻多无人机集群任务的状态由时空融合特征

表示，a_t为汇聚节点及路径选择由/>

表示，r_t为在当前时刻得到的立即回报值，通过以下规则进行设置：

其中，一步动作是指在当前时刻状态s_t选择执行动作a_t，得到的回报值。在本实施例中r1，r2，r3可分别取值为1，10，-0.1。s_t+1表示当动作执行完成后下一时刻多无人机集群任务的新状态。

由于场景交互复杂且更新训练网络参数众多，采用离线策略学习方法，即通过在大量π_θ′的采样数据样本下利用PPO算法更新π_θ的网络参数，并用KL散度作为罚数，即最大化以下目标函数：

J^PPO(θ)＝J^θ′(θ)-εKL(θ,θ′)

其中，当前策略：π_θ；旧策略：π_θ′；π_θ的网络参数：θ；π_θ′的网络参数：θ′；权重变化量：Δε；KL_max：KL散度最大值；KL_min：KL散度最小值，KL散度用于衡量θ和θ′间的差异；在ｓ_ｔ的状态下执行参数θ的策略的动作a_t的状态转移概率：p_θ(a_t|s_t)。

同时ε为可动态调整因子，当KL(θ,θ′)>KL_max时，ε+Δε→ε；反之当KL(θ,θ′)<KL_min时，ε-Δε→ε。KL_max，KL_min，Δε在本案例可设置为100，-100，1。其中，优势函数按照以下公式计算：

其中，R^n,t表示在s_t状态选择动作a_t前提下某次样本所在的任务最终得到的回报值，b为使得优势函数不总是为正数的平衡因子，该值与具体任务和回报值设置有关，在本案例中可以取所有任务回报值的加权平均数。

综上所述，本发明是首次解决集群协同动态环节下数据分布式处理所需的数据汇聚问题，现有技术大多是通过预设簇头或中心站的方式，在集群任务灵活性、可靠性、资源利用率等方面均有突破。

在对集群做时空状态特征提取时，采样时空图卷积神经网络，并充分考虑了集群间数据汇聚相关特征参数，对节点任务、汇聚数据量、数据容量、计算能力、节点间通信带宽、链路长度、数据发送速度、融合计算延时等进行特征编码，是现有技术中没有充分考虑过的。

由于集群协同状态时空的多变性，且该问题是NP问题，是难求最优解的无标签问题，本方法采用强化学习的PPO算法求解，并设置本问题的优势函数及其相关参数。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种多无人机间数据实时汇聚路径选择方法，其特征在于，所述方法包括：

使用L层的图卷积层对所述任务群特征图进行图特征汇聚；

2.如权利要求1所述的方法，其特征在于，所述无人机属性包括：节点任务、位置、任务数据量、数据容量、计算能力和飞行状态。

3.如权利要求1所述的方法，其特征在于，所述链路通信属性包括：节点间通信带宽、可用发送链路带宽、链路长度、数据发送速度和融合计算延时。

4.如权利要求1所述的方法，其特征在于，所述使用L层的图卷积层对所述任务群特征图进行图特征汇聚，包括：