CN116980881B

CN116980881B - 一种多无人机协作数据分发方法、系统、电子设备及介质

Info

Publication number: CN116980881B
Application number: CN202311095633.0A
Authority: CN
Inventors: 邢娜; 张晔; 王月海; 韩亚君
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2024-01-23
Anticipated expiration: 2043-08-29
Also published as: CN116980881A

Abstract

本发明公开一种多无人机协作数据分发方法、系统、电子设备及介质，涉及通信领域，该方法包括：获取多组无人机的本地数据；将边信息和节点信息输入至策略函数，得到当前时刻接收方无人机的编号信息；根据当前时刻接收方无人机的编号信息，应用预设约束条件，确定目标接收方无人机；发送方无人机将数据包发送至目标接收方无人机，目标接收方无人机根据接收到的数据包更新目标接收方无人机的本地数据，并将数据包发送至发送方无人机，发送方无人机根据数据包更新发送方无人机的本地数据，得到奖励数据；根据奖励数据，对所有无人机进行强化学习训练。本发明能够使点对点网络中每个无人机能够快速构建全局地图。

Description

一种多无人机协作数据分发方法、系统、电子设备及介质

技术领域

本发明涉及通信领域，特别是涉及一种多无人机协作数据分发方法、系统、电子设备及介质。

背景技术

多无人机群因能够完成单个无人机无法完成的复杂任务受到了广泛的关注。多无人机系统的实际应用十分广泛，如未知环境测绘、军事侦察、灾难后搜救等。这些场景往往无法安装通信设备。此时，多无人机群需要组成一个点对点网络，以分布式方式运行。

在灾难后的环境地图映射场景中，为了提高搜救效率，多无人机系统需要建立全局地图。通常，无人机通过附近的网关将局部地图发送给地面站，然后地面站将所有局部地图合并。由于灾区的通信基础设施经常遭到破坏，无人机之间需要相互通信以获取所有全局地图以继续救援。为了尽快得到全局地图，将无人机分成若干组，每组分别进行局部区域的地图绘制。同一组内的无人机获得相同的局部地图。换句话说，每个无人机拥有全局地图的一个子集。为了构建全局地图，无人机需要与邻居交互以获得所有局部地图。

在这种情况下，传统的广播方式会造成冗余传输，容易造成广播风暴和消息冲突。它不适用于需要传输大量数据的多无人机系统。此外，恶劣的环境，如暴风雨、闪电、山岭等，会导致无线通信质量下降。此外，移动无人机带来的动态拓扑结构给网络稳定性带来了挑战。因此，为了使点对点网络中每个无人机能够快速构建全局地图，需要设计一种有效的数据分发方法。

发明内容

本发明的目的是提供一种多无人机协作数据分发方法、系统、电子设备及介质，能够使点对点网络中每个无人机能够快速构建全局地图。

为实现上述目的，本发明提供了如下方案：

一种多无人机协作数据分发方法，所述数据分发方法包括：

获取多组无人机的本地数据；各所述无人机的本地数据包括物理信息、通信连接建立的时刻、接收方无人机当前拥有的数据包、已建立通信连接的目的节点和接收方无人机最近一次作为发送方的时刻；

以已建立通信连接的目的节点的无人机编号信息为边信息，以发送方无人机的物理信息、通信连接建立的时刻、接收方无人机当前拥有的数据包和接收方无人机最近一次作为发送方的时刻为节点信息，将所述边信息和所述节点信息输入至策略函数，得到当前时刻接收方无人机的编号信息；所述策略函数为聚合图神经网络；所述聚合图神经网络模型包括依次连接的编码器、图神经网络和解码器；

根据所述当前时刻接收方无人机的编号信息，应用预设约束条件，确定目标接收方无人机；

所述发送方无人机将数据包发送至所述目标接收方无人机，所述目标接收方无人机根据接收到的数据包更新所述目标接收方无人机的本地数据，并将所述数据包发送至所述发送方无人机，所述发送方无人机根据所述数据包更新所述发送方无人机的本地数据，得到奖励数据；

根据所述奖励数据，对所有无人机进行强化学习训练。

可选地，应用马尔科夫奖励过程确定奖励数据。

可选地，所述马尔科夫奖励过程的奖励函数为：

其中，λ为一次任务给定的时限，X₀为初始状态全部无人机群拥有的数据总量，X为任务完成状态无人机群应该有的数据总量，x为每个时隙通信无人机群内发生的数据交互量，R为本次决策的奖励值，t为完成任务的时间。

可选地，所述预设约束条件为：

任意一个无人机不能同时既作为发送方无人机又作为接收方无人机；

任意一个无人机至多对应一个接收方无人机或者发送方无人机；

所有通信连接的通信信号与所有通信连接的干扰信号加噪声信号的和的比值均大于设定阈值。

可选地，所有通信连接的通信信号与所有通信连接的干扰信号加噪声信号的和的比值均大于设定阈值，具体为：

其中，为当前接受者的信号与干扰加噪声比，当/>不小于阈值γ时，接收者才能接收到发送者发来的数据，/>是发送者i与接收者j在t时间的距离，Pⁱ是发送者i的发送功率，η是噪声功率，α是路径损失参数，k为发送者集合F中的元素序号，P^k是发送者k的发送功率，/>是发送者k与接收者j在t时间的距离。

一种多无人机协作数据分发系统，应用上述的多无人机协作数据分发方法，所述数据分发系统包括：

获取模块，获取多组无人机的本地数据；各所述无人机的本地数据包括物理信息、通信连接建立的时刻、接收方无人机当前拥有的数据包、已建立通信连接的目的节点和接收方无人机最近一次作为发送方的时刻；

编号信息确定模块，用于以已建立通信连接的目的节点的无人机编号信息为边信息，以发送方无人机的物理信息、通信连接建立的时刻、接收方无人机当前拥有的数据包和接收方无人机最近一次作为发送方的时刻为节点信息，将所述边信息和所述节点信息输入至策略函数，得到当前时刻接收方无人机的编号信息；所述策略函数为聚合图神经网络；所述聚合图神经网络模型包括依次连接的编码器、图神经网络和解码器；

目标确定模块，用于根据所述当前时刻接收方无人机的编号信息，应用预设约束条件，确定目标接收方无人机；

发送模块，用于所述发送方无人机将数据包发送至所述目标接收方无人机，所述目标接收方无人机根据接收到的数据包更新所述目标接收方无人机的本地数据，并将所述数据包发送至所述发送方无人机，所述发送方无人机根据所述数据包更新所述发送方无人机的本地数据，得到奖励数据；

训练模块，用于根据所述奖励数据，对所有无人机进行强化学习训练。

一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述的多无人机协作数据分发方法。

一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述的多无人机协作数据分发方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明基于图神经网络的决策策略，策略决定通信对象，通过预设约束条件，避免消息冲突。该策略通过强化学习进行训练，根据数据分发的完成进度设计奖励函数。仿真结果表明，在移动场景下，本文算法的性能都优于所有对比算法。同时，该方法具有较好的可扩展性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多无人机协作数据分发方法流程图；

图2为本发明聚合图神经网络模型结构图；

图3为本发明无人机数据协作传输示意图；

图4为本发明马尔科夫奖励过程示意图；

图5为本发明强化学习流程图；

图6为本发明多无人机协作数据分发方法发送-响应协议流程图；

图7为本发明多无人机协作数据分发系统结构示意图；

图8为本发明多无人机协作数据分发方法数据流图；

图9为本发明不同感受野下数据分发所需平均时隙数对比示意图；

图10为本发明不同无人机发送功率下数据分发所需平均时隙数对比示意图；

图11为本发明动态场景不同无人机速率下数据分发所需平均时隙数对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种面向搜救场景地图映射任务的协同数据分发方法。为提高映射效率，将无人机分组执行不同的本地映射任务，提出了一种基于图神经网络的决策策略，策略决定通信对象。为了避免消息冲突，设计了无线通信协议来限制传输连接的数量。该策略通过强化学习进行训练，根据数据分发的完成进度设计奖励函数。仿真结果表明，在移动场景下，本发明提供的算法具有更优秀的性能，同时具有较好的可扩展性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本发明提供了一种多无人机协作数据分发方法，所述数据分发方法包括：

步骤S1：获取多组无人机的本地数据；各所述无人机的本地数据包括物理信息、通信连接建立的时刻、接收方无人机当前拥有的数据包、已建立通信连接的目的节点和接收方无人机最近一次作为发送方的时刻。

在实际应用中，本发明提出的基于图神经网络的多无人机协作数据传输方法基于图神经网络实现，通过强化学习训练模型参数。对任何网络协议来说，关键是它为决策而缓存的元数据，在本发明中，这些信息形成了通信策略所消耗的特征向量。

步骤S2：以已建立通信连接的目的节点的无人机编号信息为边信息，以发送方无人机的物理信息、通信连接建立的时刻、接收方无人机当前拥有的数据包和接收方无人机最近一次作为发送方的时刻为节点信息，将所述边信息和所述节点信息输入至策略函数，得到当前时刻接收方无人机的编号信息；所述策略函数为聚合图神经网络；所述聚合图神经网络模型包括依次连接的编码器、图神经网络和解码器。

在实际应用中，如图2和图3所示，聚合图神经网络模型为编码-数据处理-解码三层神经网络结构，每个无人机将本地数据结构输入聚合图神经网络模型当中。所有无人机表示为集合N＝{1,2,...,n}，全局数据B被划分为m个数据包，表示为B＝{1,2,...,m}。在图2中，Input为输入，Encoder为编码，Process为数据处理过程，Decoder为解码，ReceiptiveField为感受野。

无人机本地数据结构设计如下，所有无人机的物理信息包括位置和速度，无人机i首次观测到无人机j的时间/>无人机当前拥有的数据包情况用向量表示，信息传递到无人机i所经过的所有节点/>无人机i将数据传递给无人机j的时间/>

数据处理部分由图网络块(Graph Network block)构成。图网络块可以用图结构和函数GN(·)表示，t为当前时刻，其中边信息集合/>表示所有已经建立的通信连接，节点信息集合/>记录所有通信连接建立时的发送方和接收方无人机特征发生的变化。针对多无人机协作数据传输问题，边信息集合/>节点信息集合/>以及函数GN(·)具体定义如下：

(1)边信息集合

无人机i作为发送节点，无人机j作为接收节点，二者建立的通信连接表示为(i,j),i,j∈N，因此，边集合可以表示为：

(2)节点信息集合

每一条通信连接被建立时，都需要记录发送方无人机特征，通信连接建立时，若发生数据传输，接收方无人机特征将会改变，即，因此，节点信息包括发送方无人机状态通信连接建立的时刻/>接收方无人机拥有数据情况向量/>接收方无人机最近一次作为发送方的时刻/>因此，节点信息集合可以表示为：

(3)函数GN(·)。

为了使用GN块处理图结构数据，需要将上述节点和边数据分别处理为一维向量，分别改写成边信号向量e_l和节点信号向量v_n，N^e表示当前通信连接边建立的总数。图神经网络通过聚合函数ρ^e→v与更新函数和/>进行数据处理。

输入图包括处理后的边信息和处理后的节点信息；所述处理后的边信息为：

所述处理后的节点信息为：

其中：

其中，e_l为边信号向量和节点信号向量v_n，N^e表示当前通信连接边建立的总数，ρ^e→v为聚合函数，为边信息更新函数，/>为节点信息更新函数，n为节点索引，l为边索引，s_l为第l条边的发送方无人机编号，r_l为第l条边的接收方无人机编号，/>和/>分别表示第r_l个节点信号和第s_l个节点信号，v′_n为处理后的节点信息，e′_l为处理后的边信息，/>是计算过程当中生成的固定大小的潜在向量，NN_e和NN_v分别为处理节点信息和边信息的多层向量机。

(4)编码-数据处理-解码三层神经网络结构。

GN(·)函数的个数决定了模型的感受野大小，本发明设计网络结构可利用不同大小的感受野，即不同远近的邻居节点特征，更新当前节点属性。f_enc是输入图编码函数，f_dec将图网络块输出的结果解码成输出图。将不同感受野下输出的结果连接起来形成的高维向量变换成模型要求的低维输出，即每个节点将要选择建立通信的对象。

(5)策略模型。

以无人机i为例，用π表示策略函数，用表示接收者编号集合，本发明规定集合内仅一位接收者：

本发明的策略模型为编码-数据处理-解码三层神经网络。基于上述得到的图神经网络模型，问题转化为如何决策当前无人机的接收者。

步骤S3：根据所述当前时刻接收方无人机的编号信息，应用预设约束条件，确定目标接收方无人机。

在实际应用中，无人机之间的通信，受到噪声和其他无人机发送信息带来的干扰影响，因此，使用信号与干扰加噪声比来评估两个无人机之间是否可以建立通信，并设计发送-响应协议，也即预设约束条件，具体地，所述预设约束条件为：

1.任意一个无人机不能同时既作为发送方无人机又作为接收方无人机。

2.任意一个无人机至多对应一个接收方无人机或者发送方无人机。

3.所有通信连接的通信信号与所有通信连接的干扰信号加噪声信号的和的比值均大于设定阈值。

进一步地，一个无人机不能同时作为发送者和接收者；一个无人机至多有一个接受者或者发送者。所有通信连接的通信信号与所有通信连接的干扰信号加噪声信号的和的比值均大于设定阈值，具体为：

步骤S4：所述发送方无人机将数据包发送至所述目标接收方无人机，所述目标接收方无人机根据接收到的数据包更新所述目标接收方无人机的本地数据，并将所述数据包发送至所述发送方无人机，所述发送方无人机根据所述数据包更新所述发送方无人机的本地数据，得到奖励数据。

在实际应用中，如图5和图6所示，设计发送-响应两阶段协议；其中，在发送阶段，根据当前系统和环境状态更新无人机本地数据结构，如无人机位置、速度以及拥有的数据情况，将数据(图结构数据，包括节点信息和边信息的特征)输入进聚合图神经网络策略模型，根据策略模型输出的接收者分别建立通信连接，并根据数据发送与接收情况，更新系统和环境状态。策略模型π输出集合为每个无人机i对应的接收者。

发送阶段具体流程如下：

为无人机当前属性赋初始值(无人机初始状态赋值是为了构建环境信息，无人机以此为基础进行决策，需要初值的属性有，M(包括位置和速度)、T(当前时刻)、K(当前无人机拥有哪些数据包))，其中是当前无人机位置，/>是当前速度，/>是一维向量，表示无人机i拥有哪些数据包，用1表示无人机拥有该数据，0表示无此数据，所有无人机观测自身状态的时间为当前时刻：

根据策略函数输出的接收者，经过无线通信限制计算，假设无人机j作为发送者，无人机i作为接收者。根据从发送者接收到的数据，接收者更新自己的本地数据结构，记录当前通信连接的目的节点发送者记录发送时间/>

接收者同时记录观测到的发送者信息，并根据发送者发送的信息，记录当前通信链接中发送者状态，链接建立的时间，以及接收者：

同时，当发送者可以传输新的数据包给接收者时，接收者i通过发送者j的数据结构记录其他无人机的信息，即，当任意一个数据块被无人机j拥有，不被无人机i拥有，且i作为j的发送者时，无人机i可以学习到无人机j记录的通信链接，以此丰富无人机i自己的经验。具体如下式所示：

其中，l是除了无人机j之外的无人机编号，b表示某一个数据包的编号，B是全部数据集合，表示在当前时刻t无人机i没有

数据包b，表示当前时刻t无人机j拥有数据包b。

在实际应用中，在响应阶段，根据已经建立的通信连接，将原接收方拥有的数据发送给原发送方，并对系统环境状态更新，并计算整个传输-响应过程对应奖励。

为最大化每次通信带来的数据交互量，本发明设计以最快完成全局数据共享为目的的奖励函数，为鼓励单个时隙数据交互，将数据交互量作为奖励的一部分，当任务没有完成时，决策导致无数据交互需要受到惩罚。任务完成且给定的时间还未用尽，每个时隙都给出任务完成奖励1，这将鼓励任务尽早完成，以使累计奖励最大。具体地，如图4所示，应用马尔科夫奖励过程确定奖励数据。

进一步地，所述马尔科夫奖励过程的奖励函数为：

步骤S5：根据所述奖励数据，对所有无人机进行强化学习训练。

本发明在动态环境下进行实验，对比算法为全部无人机完成数据分发的时间，对比算法为泛洪(Random Flooding)、轮询(Round Robin)和最小生成树算法(MST)，本发明普遍优于对比算法。

仿真的参数设定如下，路径损失参数α设定为2，高斯白噪声η为-50dBm，SINR阈值γ为1dBm。无人机最大通信距离为250米，默认速度3m/s，默认加速度20m/s²，假设通信拓扑图具备连通性，每个数据包至少被一组无人机拥有。策略模型使用强化学习算法PPO训练，共2×10⁶个观测对象，感受野固定为4，发射功率比固定为0.25。

测试了神经网络感受野大小和发送者的发射功率比对实验效果的影响。图9描绘了不同感受野所需的平均时隙。实验结果表明，与Round Robin算法相比，当感受野为4时，所提算法平均可减少15％的时隙。从图10可以看出，当通信距离大于最大任务距离的25％时，本发明优于对比算法。然而，智能体通常运行在极端环境中，如暴风雨、雷电、山脉等，这将极大地影响无线通信的效率。因此，本文设置发射功率比为0.25。

如图11所示，动态环境下，检验了不同速度下，本发明稳定有效；同时，本发明具有一定的泛化性，在不同的无人机规模和数据包数量下，都能够很好的适应。

本发明中提出了基于图神经网络的多无人机协作数据传输系统，该方案利用网络编码和无线通信模型建立多无人机协作数据传输问题模型；利用传输-响应两阶段进行数据传输；利用图神经网络决策数据传输路径；设计奖励函数并利用强化学习算法完成模型参数优化。通过对多无人机系统的大规模和移动两种场景验证，方案可扩展性好，鲁棒性高，是一套极有价值的系统方案。在无地面站等数据发送装置的前提下，考虑已完成数据收集任务的分布式多无人机系统，采用传输-响应两阶段数据协作传输方法实现数据全局共享。根据数据在无人机群中分布的特点，即位置相近的无人机获取相似的数据，考虑无线通信在现实条件受到噪声等干扰，采用传输-响应两阶段实现无人机之间充分交互。在传输阶段，各无人机通过根据当前信息选择最偏好的邻居建立连接，单向进行传输数据；在响应阶段，成功接收到数据的邻居无人机通过原连接将数据反向传输给原发送方。该方法考虑周全，收敛速度快，效果稳定，鲁棒性较好。

本发明设计无人机分组工作，每组无人机构建局部地图，构建完成后，再作为整体进行，还可以选择一个无人机作为中心节点，首先建立全局地图，再在无人机群中分发数据。将分布式算法转变为集中式算法，提高通信效率。

实施例二

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供一种多无人机协作数据分发系统，所述数据分发系统包括：

获取模块，获取多组无人机的本地数据；各所述无人机的本地数据包括物理信息、通信连接建立的时刻、接收方无人机当前拥有的数据包、已建立通信连接的目的节点和接收方无人机最近一次作为发送方的时刻。

编号信息确定模块，用于以已建立通信连接的目的节点的无人机编号信息为边信息，以发送方无人机的物理信息、通信连接建立的时刻、接收方无人机当前拥有的数据包和接收方无人机最近一次作为发送方的时刻为节点信息，将所述边信息和所述节点信息输入至策略函数，得到当前时刻接收方无人机的编号信息；所述策略函数为聚合图神经网络；所述聚合图神经网络模型包括依次连接的编码器、图神经网络和解码器。

目标确定模块，用于根据所述当前时刻接收方无人机的编号信息，应用预设约束条件，确定目标接收方无人机。

发送模块，用于所述发送方无人机将数据包发送至所述目标接收方无人机，所述目标接收方无人机根据接收到的数据包更新所述目标接收方无人机的本地数据，并将所述数据包发送至所述发送方无人机，所述发送方无人机根据所述数据包更新所述发送方无人机的本地数据，得到奖励数据。

在实际应用中，如图7所示，这是一种分布式多无人机数据分发系统，包括数据采集模块、数据存储模块、策略决策模块以及通信模块。1)数据采集模块：每台无人机配备传感器，可以单独采集地图数据；2)地图数据存储到无人机存储模块当中；3)根据训练的模型选择网络中的通信对象；4)实现无人机之间的数据传输以及信息通信。

如图8所示，根据数据流图，由数据采集模块先采集地图数据，由数据存储模块存储本地数据，无人机根据自己的位置、速度以及拥有的数据情况更新本地数据结构表，根据本地数据结构，无人机策略决策模块需要决策当前无人机的通信对象，通信连接建立后，通信模块将会更新本地数据结构表。

实施例三

本发明实施例提供一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行计算机程序以使电子设备执行实施例一的多无人机协作数据分发方法。

可选地，上述电子设备可以是服务器。

另外，本发明实施例还提供一种计算机可读存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现实施例一的多无人机协作数据分发方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多无人机协作数据分发方法，其特征在于，所述数据分发方法包括：

根据所述奖励数据，对所有无人机进行强化学习训练；

所述预设约束条件为：

所述预设约束条件还包括：

其中，r_t ^i,j为当前接受者的信号与干扰加噪声比，当r_t ^i,j不小于阈值γ时，接收者才能接收到发送者发来的数据，是发送者i与接收者j在t时间的距离，Pⁱ是发送者i的发送功率，η是噪声功率，α是路径损失参数，k为发送者集合F中的元素序号，P^k是发送者k的发送功率，/>是发送者k与接收者j在t时间的距离。

2.根据权利要求1所述的多无人机协作数据分发方法，其特征在于，应用马尔科夫奖励过程确定奖励数据。

3.根据权利要求2所述的多无人机协作数据分发方法，其特征在于，所述马尔科夫奖励过程的奖励函数为：

4.一种多无人机协作数据分发系统，其特征在于，所述数据分发系统包括：

训练模块，用于根据所述奖励数据，对所有无人机进行强化学习训练；

所述预设约束条件为：

所述预设约束条件还包括：

5.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至3中任一项所述的多无人机协作数据分发方法。

6.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的多无人机协作数据分发方法。