CN111277320B

CN111277320B - 一种蜂窝网联无人机轨迹设计和干扰管理的方法及装置

Info

Publication number: CN111277320B
Application number: CN202010072545.9A
Authority: CN
Inventors: 宋令阳; 吴凡毅; 张泓亮; 吴建军
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2021-06-11
Anticipated expiration: 2040-01-21
Also published as: CN111277320A

Abstract

本申请实施例涉及无人机区域监视技术领域，具体而言，涉及一种蜂窝网联无人机轨迹设计和干扰管理的方法及装置。所述方法应用于两个或多个无人机，每个无人机以周期的形式同步地执行任务，每个周期包含若干帧，所述方法包括：每个无人机对自身的轨迹算法进行强化训练；基站将所有初始信息广播给每个无人机；每一帧时，每个无人机通过基站获得所有无人机的当前状态；每一个周期开始时，无人机根据所有其他无人机的最新状态通过轨迹算法计算出自身所在周期内的感知点和传输点；无人机径直飞向感知点进行数据采集，然后径直飞向传输点进行数据传输。本发明允许多个无人机同步进行工作，整体性更强，时效性更高；而且减缓了彼此之间的干扰。

Description

一种蜂窝网联无人机轨迹设计和干扰管理的方法及装置

技术领域

本申请实施例涉及无人机区域监视技术领域，具体而言，涉及一种蜂窝网联无人机轨迹设计和干扰管理的方法、装置、存储介质及设备。

背景技术

无人机是一种功能强大的物联网感知设备，可以广泛应用于工业、农业、商业、军事等各个领域。在现有的无人机系统中，无人机通过未授权频段(如：ISM频段)将感知数据传输到移动设备。由于未授权频谱的随机接入特性，无人机会受到不可控的干扰，因此感知服务的服务质量难以保证。为了解决这个问题，一个有效的方案是通过地面蜂窝网络为无人机感知服务提供支持，该方案又被称为蜂窝网联无人机。

在一些感知应用中，感知任务的状态往往变化很快，因此对感知数据的时效性要求很高。此时，每个无人机需要持续不断地完成感知和传输以保证其感知数据的时效性。一种衡量时效性的物理量是AOI(Age Of Information，中文解释为：信息年龄)，其定义为：当前时刻到最近一次数据更新(即无人机成功将感知的数据传输给移动设备)的时间。当无人机的AOI较低时，其感知任务的时效性较高，因此每个无人机都希望最小化其AOI。而无人机的AOI与它在感知和传输过程中的飞行轨迹密切相关，当无人机离感知任务较近时，其感知的成功率较高，有利于降低AOI；但此时无人机远离基站，其传输速率较低，传输时间较长，导致AOI升高，反之亦然。因此，如何设计多个无人机的飞行轨迹以最小化其AOI是非常必要的。

而且，目前关于蜂窝网联无人机的轨迹设计方案主要集中于无人机与基站通信的场景和无人机之间通信的场景下的轨迹设计问题，在实际的无人机系统中，无人机感知到的数据存在直接传输给移动设备的需要，而目前关于蜂窝网联无人机的轨迹设计方案欠缺对直通通信(即U2D：UAV-to-Device，无人机与移动设备的通信)场景的考虑，这使得目前已有的方案都不适用于这一场景下的轨迹设计问题。

发明内容

为解决上述技术问题，本申请实施例提供一种蜂窝网联无人机轨迹设计和干扰管理的方法、装置、存储介质及设备。

本申请实施例第一方面提供一种蜂窝网联无人机轨迹设计和干扰管理的方法，应用于两个或多个无人机，每个无人机以周期的形式同步地执行任务，每个周期包含若干帧，所述方法包括：

每个无人机对自身内置的最小化周期内AOI的轨迹算法进行强化训练；

初始化，基站将所有任务内感知点和传输点的位置、所有移动设备的位置和所有无人机的初始位置广播给每个无人机；

每一帧时，每个无人机向基站汇报自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机；

每一个周期开始时，无人机根据获得的所有其他无人机的最新状态通过所述最小化周期内AOI的轨迹算法计算出自身所在周期内的感知点和传输点；

无人机径直飞向所在周期内的感知点进行数据采集，然后无人机径直飞向所在周期内的传输点进行数据传输，所述数据传输包括传输给基站或移动设备，数据传输完成后，所述周期结束。

可选的，无人机根据获得的所有其他无人机的最新状态通过所述最小化周期内AOI的轨迹算法计算出自身所在周期内的感知点和传输点，所述轨迹算法包括：

初始化，基站将所有任务内感知点和传输点的位置、所有移动设备的位置和所有无人机的初始位置广播给每个无人机，每个无人机初始化自身的演员DQN和评论家DQN；

在每个周期开始时，无人机把其他所有无人机最新的状态作为演员DQN的输入，并从演员DQN的输出获得其在本周期内的行动；

在本周期内，无人机执行所述行动，获得回报，所述回报为本周期内的AOI总和的负数，然后转移到下一个周期的初始状态；

当本周期结束后，无人机将本周期的初始状态、采取的行动、获得的回报和下一个周期的初始状态储存为训练样本；

每个周期结束后，无人机抽取训练样本进行演员DQN和评论家DQN的训练；

经过多个周期的训练后，如果无人机的演员DQN和评论家DQN参数收敛，此时获得的回报为最大值，无人机轨迹算法完成。

可选的，每一帧时，每个无人机向基站汇报包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机，所述状态还包括：当前的位置、本周期内感知点和传输点的位置、当前在进行的操作以及剩余的传输数据大小。

可选的，所述无人机径直飞向所在周期内的感知点进行数据采集，所述方法包括：

在飞行途中不进行数据采集，当到达感知点后，无人机悬停在感知点并采集一帧的数据；

所述无人机径直飞向所在周期内的传输点进行数据传输，所述方法包括：

在飞行途中即能传输数据，当到达传输点后，如果数据传输未完成，无人机悬停在传输点继续传输，直到数据传输完成，无人机记录并更新AOI。

本申请实施例第二方面提供一种蜂窝网联无人机轨迹设计和干扰管理的装置，应用于两个或多个无人机，每个无人机以周期的形式同步地执行任务，每个周期包含若干帧，所述方法包括：

强化训练模块，被配置为每个无人机对自身内置的最小化周期内AOI的轨迹算法进行强化训练；

第一初始化模块，被配置为基站将所有任务内感知点和传输点的位置、所有移动设备的位置和所有无人机的初始位置广播给每个无人机；

第一状态更新模块，被配置为每一帧时，每个无人机向基站汇报自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机；

第一轨迹设计模块，被配置为每一个周期开始时，无人机根据获得的所有其他无人机的最新状态通过所述最小化周期内AOI的轨迹算法计算出自身所在周期内的感知点和传输点；

数据采集和传输模块，被配置为无人机径直飞向所在周期内的感知点进行数据采集，然后无人机径直飞向所在周期内的传输点进行数据传输，所述数据传输包括传输给基站或移动设备，数据传输完成后，所述周期结束。

可选的，所述强化训练模块包括：

第二初始化模块，被配置为基站将所有任务内感知点和传输点的位置、所有移动设备的位置和所有无人机的初始位置广播给每个无人机，每个无人机初始化自身的演员DQN和评论家DQN；

第二状态更新模块，被配置为每一帧时，每个无人机向基站汇报自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机；

第二轨迹设计模块，被配置为在每个周期开始时，无人机把其他所有无人机最新的状态作为演员DQN的输入，并从演员DQN的输出获得其在本周期内的行动；

执行模块，被配置为在本周期内，无人机执行所述行动，获得回报，所述回报为本周期内的AOI总和的负数，然后转移到下一个周期的初始状态；

样本提取模块，被配置为当本周期结束后，无人机将本周期的初始状态、采取的行动、获得的回报和下一个周期的初始状态储存为训练样本；

学习模块，被配置为每个周期结束后，无人机抽取训练样本进行演员DQN和评论家DQN的训练；

可选的，所述第一状态更新模块被配置为每一帧时，每个无人机向基站汇报包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机，所述状态还包括：当前的位置、本周期内感知点和传输点的位置、当前在进行的操作以及剩余的传输数据大小。

可选的，所述数据采集和传输模块被配置为在飞行途中不进行数据采集，当到达感知点后，无人机悬停在感知点并采集一帧的数据；

本申请实施例第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如本申请第一方面所述的方法中的步骤。

采用本申请提供的蜂窝网联无人机轨迹设计和干扰管理的方法，能够有效提高多个无人机配合进行信息采集作业时的作业效率和服务质量。本方法通过设置无人机以周期的形式执行任务，每个周期内执行一个任务，并且每个周期内每台无人机通过基站向其他无人机共享自身每一帧的状态并相应地获得其他无人机每一帧的状态，每个周期内任务的感知点和传输点都是在该周期开始时通过其他无人机最近一帧时的状态进行综合判断得出的。因此本发明允许多个无人机同步进行工作，整体性更强，时效性更高；而且，无人机在设计飞行轨迹时考虑了其他无人机的当前状态，减缓了彼此之间的干扰，因此能有效降低无人机之间的相互影响，提升服务质量。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的蜂窝网联无人机轨迹设计和干扰管理的方法的流程图；

图2是本申请另一实施例提出的蜂窝网联无人机轨迹设计和干扰管理的方法的流程图；

图3是本申请另一实施例提出的蜂窝网联无人机轨迹设计和干扰管理的方法中轨迹算法的流程图；

图4是本申请一实施例提出的蜂窝网联无人机轨迹设计和干扰管理的装置的示意图；

图5是本申请一实施例提出的蜂窝网联无人机轨迹设计和干扰管理的装置中强化训练模块的示意图；

图6是本申请一实施例提出的蜂窝网联无人机轨迹设计和干扰管理的方法的场景示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图6是本申请一实施例提出的蜂窝网联无人机轨迹设计和干扰管理的方法的场景示意图，包括多个任务点、移动设备和基站，无人机使用基站分配的信道进行信息传输，无人机与基站通过U2N链路(U2N：UAV-to-Network，无人机与网络的通信，蜂窝网联无人机通信中的主要场景之一，无人机采集到的感知数据通过授权(蜂窝)频段传输给基站)传输，无人机与移动设备通过U2D链路(U2D：UAV-to-Device，无人机与移动设备的通信，蜂窝网联无人机通信中的主要场景之一。无人机采集到的感知数据通过授权(蜂窝)频段直接传输给移动设备)传输，无人机同步执行任务。

参考图1，图1是本申请一实施例提出的蜂窝网联无人机轨迹设计和干扰管理的方法的流程图。如图1所示，应用于两个或多个无人机，每个无人机以周期的形式同步地执行任务，周期是指无人机完成一个任务的时间，即无人机从飞向感知点开始，到在感知点进行数据采集，再到在传输点将采集到的数据传输完这样的一个过程，每个周期包含若干帧，帧为系统中的时间单位，即无人机的感知和传输都用帧来衡量，该方法包括以下步骤：

在步骤S10中，每个无人机对自身内置的最小化周期内AOI的轨迹算法进行强化训练；

在步骤S11中，初始化，基站将所有任务内感知点和传输点的位置、所有移动设备的位置和所有无人机的初始位置广播给每个无人机。

在本实施例中，在进行第一个周期的任务执行时，由于每个无人机都还未开始工作，因此，每个无人机当前的状态都为空，需要将所有的初始数据输入到无人机中以执行第一次任务，而影响无人机对其所要执行的任务的因素有：其他所有任务内感知点和传输点的位置、所有移动设备的位置、其他所有无人机的初始位置。

在步骤S12中，每一帧时，每个无人机向基站汇报自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机。

在本实施例中，每个无人机需要了解所有其他无人机的最新状态，以根据无人机的最新状态判断下一周期所要执行的任务。由于无人机的飞行速度不一定完全一致，每个无人机在其周期开始时的初始位置与其当前周期内执行任务的感知点和传输点的距离不一致，导致每个无人机执行任务的周期长短不一致，即有些无人机的周期较短，有些无人机的周期较长，周期较短的无人机在执行完本周期的任务时，周期较长的无人机还在执行其当前周期内的任务，而此时刚执行完一个周期内任务的无人机需要根据其他的无人机的当前状态决定下一个周期内的任务。为了实现每个无人机都是根据其他无人机的当前状态决定出的下一个任务，每一个无人机在每一帧时都要向基站汇报自身包括当前AOI在内的当前状态，若所有无人机都处于其自身的周期内时，基站则不必将所有无人机的当前状态广播给每个无人机，当某一个无人机执行完一个周期的任务，开始下一个周期时，基站再将获得的所有无人机的当前状态广播给该无人机。由于帧是该系统中的时间单位，因此每一帧时，每个无人机都向基站汇报自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的状态广播给该无人机，保证该状态是最新的状态，防止已完成上一周期任务的无人机生成与其他无人机正在进行的任务相冲突的任务。

在步骤S13中，每一个周期开始时，每个无人机根据获得的所有无人机的状态通过最小化周期内AOI的轨迹算法计算出自身所在周期内的感知点和传输点；

在本实施例中，每一个周期开始时有两种情况，一种情况是初始化时的第一个周期，此时所有无人机是同步开始第一个周期的，因此，确定第一个周期的任务时，也需要通过获知其他所有无人机的最新状态计算出自身所在周期的感知点和传输点，而其他所有无人机的最新状态是初始化时导入的；另一种情况是每个无人机在执行完上一周期的任务后，在下一个周期开始时，会根据其他所有无人机的当前状态信息计算出下一周期所要执行的任务，其他所有无人机的最新状态的每个无人机在最近一帧时汇报的当前状态；任务包括具体的感知点和传输点，具体的感知点和传输点是通过强化训练后的轨迹算法计算得出的，而轨迹算法是根据最小化本周期内AOI的原则进行计算的，最小化每个周期内的AOI即可以使整个系统中的AOI尽量最小化。

在步骤S14中，每个无人机径直飞向所在周期内的感知点进行数据采集，然后径直飞向所在周期内的传输点进行数据传输，所述数据传输包括传输给基站或移动设备，数据传输完成后，所述周期结束。

在本实施例中，在确定了每个周期内任务的感知点和传输点后，无人机需要飞向感知点进行数据采集，采集到数据后需要飞向传输点以完成数据的传输，数据成功传输后代表数据完成了更新，完成一个周期的时间越短代表数据更新越快，则AOI越小，为了减小完成整个周期所需要的时间，使无人机径直的飞向感知点和传输点，这样飞行的路径最短，在飞行速度不变、采集时间和传输时间不变的情况下，可缩短完成整个周期所需要的时间。

基站和移动设备均为地面通信单元，用于接收无人机采集到的信息，根据用户需求的不同，一部分无人机的感知数据通过蜂窝通信的方式传输给基站，即U2N链路，另一部分无人机的感知数据通过蜂窝通信直接传输给移动设备，即U2D链路，在数据传输成功后，该周期结束。

下面以一个存在单个基站的城市道路中，(M+N)个无人机需要对各自的任务路段进行监控，其中每个无人机对应一个任务，每个无人机需要从任务路段处采集感知数据，并将数据传输给地面通信单元的场景为例，对上述步骤进行说明。

根据用户需求的不同，有M个无人机的采集的感知数据通过蜂窝通信的方式传输给基站，其余N个无人机的感知数据通过蜂窝通信直接传输给移动设备。无人机以周期的形式同步地执行任务，每个周期包含若干个帧。在每个周期中，无人机依次进行感知和传输。

首先，每个无人机对自身内置的最小化周期内AOI的轨迹算法进行强化训练；

然后，基站将所有任务的感知点和传输点、所有移动设备的位置和(M+N)个无人机的当前位置都广播给每个无人机，每个无人机根据强化训练后的轨迹算法确定一个相互不冲突的任务，每个无人机在执行对应任务的周期内的每一帧开始时，都需要向基站汇报其自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，然后基站将获得的所有无人机的状态广播给该无人机；

当某个无人机执行完一个任务时，所在任务对应的周期结束，该无人机开始执行下一个周期的任务，在下一个周期开始时，该无人机需要计算出下一个周期的任务内的感知点和传输点，而下一个周期的任务内的感知点和传输点是通过强化训练后的轨迹算法根据其他所有无人机的当前状态计算出来的，轨迹算法依据的原则是最小化本周期内的AOI，若本周期内共有n(n>3)帧，则本周期内AOI的和为：1+2+3+…+n。每一个无人机开始一个新的周期时，都会根据其他所有无人机的最新状态通过最小化周期内AOI的轨迹算法计算出自身所要开始的新的周期内的感知点和传输点；

然后无人机径直飞向感知点进行数据采集，采集完数据之后径直飞向传输点进行数据传输。在传输过程中，无人机的信道分配由基站来完成。当无人机的所有感知数据传输完毕之后，无人机会记录并更新AOI，此周期结束。

图2是根据另一示例性实施例示出的蜂窝网联无人机轨迹设计和干扰管理的方法的流程图，参照图2，所述方法包括以下步骤：

在步骤S21中，每个无人机对自身内置的最小化周期内AOI的轨迹算法进行强化训练；

在本实施例中，在某一个工作场景中，先让无人机在该工作场景中对轨迹算法进行强化训练，使得该算法在该场景下能够得出最优的解。

图3是本申请另一实施例提出的蜂窝网联无人机轨迹设计和干扰管理的方法中轨迹算法的流程图；参照图3，具体的强化训练步骤如下：

在步骤S211中，初始化，基站将所有任务内感知点和传输点的位置、所有移动设备的位置和所有无人机的初始位置广播给每个无人机，每个无人机初始化自身的演员DQN和评论家DQN；

每个无人机初始化自身的演员DQN和评论家DQN是指：在进行第一个周期的任务执行时，由于每个无人机都还未开始工作，因此，每个无人机当前的状态都为空，需要将所有的初始数据输入到无人机中以执行第一次任务。而影响无人机对其所要执行的任务的因素有：其他所有任务内感知点和传输点的位置、所有移动设备的位置、其他所有无人机的初始位置，基站将上述信息广播给无人机后，无人机确定一个首次执行的任务，首次执行的任务可以人工生成，也可以无人机随机生成，每个无人机所执行的任务不能相互冲突。

在步骤S212中，每一帧时，每个无人机向基站汇报自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的状态广播给该无人机；

每个无人机需要了解所有其他无人机的最新状态，以根据其他无人机的最新状态判断下一周期所要执行的任务。

在步骤S213中，无人机把其他所有无人机最新的状态作为演员DQN的输入，并从演员DQN的输出获得其在本周期内的行动；

把其他所有无人机最新的状态作为演员DQN的输入，使演员DQN可以将其他无人机正在执行的任务中的感知点和传输点排除，避免演员DQN输出的任务中包含有其他无人机正在执行的任务中的感知点和传输点，防止造成干涉，演员DQN在剩下的感知点和传输点中选择最优的感知点和传输点作为输出；所述最优的感知点和传输点是指无人机在执行该任务时，该周期内的AOI最小；

在步骤S214中，在本周期内，无人机执行所述行动，获得回报，所述回报为本周期内的AOI总和的负数，然后转移到下一个周期的初始状态；

无人机按照上一步骤中输出的感知点和传输点，进行数据采集和数据传输，在数据传输完成之前，定义本周期内的AOI总和的负数为该行动的回报，若本周期内共有n(n>1)帧，则本周期内AOI的回报为：-n(n+1)/2，AOI越小代表信息的时效性越好，而回报越大越好，因此将回报定义为本周期内的AOI总和的负数。

在步骤S215中，当本周期结束后，无人机将本周期的初始状态、采取的行动、获得的回报和下一个周期的初始状态储存为训练样本；

在步骤S216中，每个周期结束后，无人机抽取训练样本进行演员DQN和评论家DQN的训练；

无人机不断地执行任务，对无人机的算法强化训练，并记录每个周期内的数据，包括初始状态、采取的行动、获得的回报和下一个周期的初始状态，直到演员DQN和评论家DQN参数收敛，无人机轨迹算法完成。判断无人机的演员DQN和评论家DQN参数是否收敛，可以通过以下方法：

设定一个门限值，若经过多次训练后，无人机连续两次的性能评估值之差小于该门限值，则判定收敛；反之，则判定不收敛。

在步骤S22中，初始化，基站将所有任务内感知点和传输点的位置、所有移动设备的位置和所有无人机的初始位置广播给每个无人机；

在对轨迹算法训练结束后，便可投入正式的使用中，在正式使用时，首先需要对整个系统初始化，即把所有任务内感知点和传输点的位置、所有移动设备的位置和所有无人机的初始位置广播给每个无人机，每个无人机根据上述信息通过强化训练后的轨迹算法算出其自身需要执行的任务。

在步骤S23中，每一帧时，每个无人机向基站汇报自身包括当前AOI、当前的位置、本周期内感知点和传输点的位置、当前在进行的操作以及剩余的传输数据大小在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的状态广播给该无人机；

在本实施例中，每个无人机需要了解所有其他无人机的最新状态，以根据无人机的最新状态判断下一周期所要执行的任务。由于无人机的飞行速度不一定完全一致，每个无人机在其周期开始时的初始位置与其当前周期内执行任务的感知点和传输点的距离不一致，导致每个无人机执行任务的周期长短不一致，即有些无人机的周期较短，有些无人机的周期较长，周期较短的无人机在执行完本周期的任务时，周期较长的无人机还在执行其当前周期内的任务，而此时刚执行完一个周期内任务的无人机需要根据其他的无人机的当前状态决定下一个周期内的任务。为了实现每个无人机都是根据其他无人机的当前状态决定出的下一个任务，每一个无人机在每一帧时都要向基站汇报自身包括当前AOI在内的当前状态，若所有无人机都处于其自身的周期内时，基站则不必将所有无人机的当前状态广播给每个无人机，当某一个无人机执行完一个周期的任务，开始下一个周期时，基站再将获得的所有无人机的状态广播给该无人机。由于帧是该系统中的时间单位，因此每一帧时，每个无人机都向基站汇报自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的状态广播给该无人机，保证该状态是最新的状态，防止已完成上一周期任务的无人机生成与其他无人机正在进行的任务相冲突的任务。

在步骤S24中，每一个周期开始时，无人机根据获得的所有其他无人机的最新状态通过最小化周期内AOI的轨迹算法计算出自身所在周期内的感知点和传输点；

在本实施例中，每一个周期开始时有两种情况，一种情况是初始化时的第一个周期，此时所有无人机是同步开始第一个周期的，因此，确定第一个周期的任务时，也需要通过获知其他所有无人机的最新状态计算出自身所在周期的感知点和传输点，而其他所有无人机的最新状态是初始化时导入的；另一种情况是每个无人机在执行完上一周期的任务后，在下一个周期开始时，会根据其他所有无人机的最新状态信息计算出下一周期所要执行的任务，包括具体的感知点和传输点，其他所有无人机的最新状态的每个无人机在最近一帧时汇报的当前状态，具体的感知点和传输点是通过轨迹算法计算得出的，而轨迹算法是根据最小化本周期内AOI的原则进行计算的，最小化每个周期内的AOI即可以使整个系统中的AOI尽量最小化。

在步骤S25中，无人机径直飞向所在周期内的感知点进行数据采集，在飞行途中不进行数据采集，当到达感知点后，无人机悬停在感知点并采集一帧的数据；然后径直飞向所在周期内的传输点进行数据传输，在飞行途中即能传输数据，当到达传输点后，如果数据传输未完成，无人机悬停在传输点继续传输，直到数据传输完成，无人机记录并更新AOI。

在确定了每个周期内任务的感知点和传输点后，无人机需要飞向感知点进行数据采集，采集到数据后需要飞向传输点以完成数据的传输，数据成功传输后代表数据完成了更新，完成一个周期的时间越短代表数据更新越快，则AOI越小，为了减小完成整个周期所需要的时间，使无人机径直的飞向感知点和传输点，这样飞行的路径最短，在飞行速度不变、采集时间和传输时间不变的情况下，可缩短完成整个周期所需要的时间，为了保证采集数据的准确性，无人机在到达感知点后才进行数据采集，在飞向感知点的图中不进行数据采集，具体的，无人机悬停在感知点并采集一帧的数据，帧为时间单位；数据采集完成后，径直飞向传输点进行数据传输，无人机在离传输点越近，则信号越好，其传输速率及传输成功率更高，当传输信噪比大于一定门限值(可以取值10db)时，即可进行传输，因此无人机在飞行途中即可进行传输，若到达传输点时数据还未传输完成，则悬停在传输点上继续传输，直至数据传输完成，此时该周期结束，数据完成更新，因此对AOI进行更新并记录。

下面同样以一个存在单个基站的城市道路中，(M+N)个无人机需要对各自的任务路段进行监控，其中每个无人机对应一个任务，每个无人机需要从任务路段处采集感知数据，并将数据传输给地面通信单元的场景为例，对上述步骤进行说明。

首先，无人机会进行强化训练，在这一场景中，本次训练的目标为：在一段给定的时间Nepi内，优化所有无人机的轨迹以最小化系统中的平均AOI，所述系统是指所有周期的总和。在这里，系统每一次完整地工作时间Nepi，称为一个episode。由于该系统中平均AOI最小化问题的状态行动空间非常庞大，本发明将采用多智能体深度强化学习的方法，即一种基于DDPG的无人机轨迹设计算法来解决这个问题。

DDPG：DeepDeterministicPolicyGradient，深度确定性策略梯度。深度强化学习中的一种常用算法，其基本思想基于“演员评论家(Actor-Critic)”算法的原理，即每个智能体都通过一个演员网络来选择行为，并通过一个评论家网络对行为的优劣进行评估。与传统的演员评论家算法不同的是，在DDPG算法中，演员和评论家网络都通过DQN进行Q值估计，以此来提高算法的收敛性。

在该算法中，每个无人机都有一个演员DQN和一个评论家DQN网络，各个无人机的网络是单独训练的。而训练过程中，每个无人机都需要观测所有无人机的状态。具体来说，在每一个episode，即给定时间Nepi内，第i个无人机(i＝1,2,…,M+N)的飞行轨迹将按照如下流程确定。

初始化，基站将所有任务的位置、所有移动设备的位置和所有无人机的初始位置广播给第i个无人机。此外，第i个无人机初始化自身的演员DQNμ_i和评论家DQNQ_i。

第i个无人机以周期为单位执行任务，在第k个周期开始时，第i个无人机观测其他所有无人机的最新状态s，并把s作为演员DQNμ_i的输入。随后，该无人机从演员DQNμ_i的输出获得本周期内的行动a_i(即本周期内感知点和传输点的位置)。

在第k周期内，第i个无人机执行行动a_i并获得回报r_i，并转移到下一个周期(即第(k+1)个周期)的初始状态s’。其中，无人机的回报定义为本周期内的AoI总和的负数。

当第k周期结束后，第i个无人机将该周期的初始状态s，采取的行动a_i，获得的回报r_i，和下一个周期的初始状态s’作为训练样本，记为m＝{s,a_i,r_i,s’}，储存在一个样本池RM_i中。随后，第i个无人机从其样本池RM_i抽取固定数量的训练样本用于其演员DQNμ_i和评论家DQNQ_i的训练。在训练过程中，两个网络是顺次训练的。首先训练评论家DQNQ_i，可直接由抽取的样本根据梯度下降法训练。然后训练演员DQNμ_i，需要先通过评论家DQNQ_i利用抽取的样本计算出策略梯度，然后再使用策略梯度根据梯度下降法训练。

经过一定数目的episode的训练后，如果第i个无人机的演员DQNμ_i和评论家DQNQ_i参数收敛，则算法结束。判断是否收敛时，可以利用一个门限值ε。假设经过一定的训练后，连续两次episode内第i个无人机的性能(平均AOI值)之差小于ε，则可判定算法收敛。

当训练结束后，第i个无人机的飞行轨迹可通过演员DQNμ_i来确定。具体来说，在任意一个周期的开始，第i个无人机将当前状态作为演员DQNμ_i的输入，即可从演员DQNμ_i的输出获得本周期内的感知点和传输点的位置，从而确定本周期内的飞行轨迹。

在正式执行任务时，将所有任务的感知点和传输点、所有移动设备的位置和(M+N)个无人机的当前位置都广播给每个无人机，每个无人机通过强化训练的轨迹算法确定各自的任务，每个无人机在执行对应任务的周期内的每一帧开始时，都需要向基站汇报其自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，然后基站将获得的所有无人机的状态广播给该无人机；

当某个无人机执行完一个任务时，所在任务对应的周期结束，该无人机开始执行下一个周期的任务，在下一个周期开始时，该无人机需要计算出下一个周期的任务内的感知点和传输点，而下一个周期的任务内的感知点和传输点是通过该无人机内置的轨迹算法根据其他所有无人机的当前状态计算出来的，轨迹算法依据的原则是最小化本周期内的AOI，若本周期内共有n(n>3)帧，则本周期内AOI的和为：1+2+3+…+n。每一个无人机开始一个新的周期时，都会根据其他所有无人机的最新状态通过最小化周期内AOI的轨迹算法计算出自身所要开始的新的周期内的感知点和传输点；

然后无人机径直飞向感知点进行数据采集，在飞行途中不进行数据采集，当到达感知点后，无人机悬停在感知点并采集一帧的数据；然后径直飞向所在周期内的传输点进行数据传输，在飞行途中即能传输数据，当到达传输点后，如果数据传输未完成，无人机悬停在传输点继续传输，直到数据传输完成，无人机记录并更新AOI。

按照上述步骤，继续执行下一个周期的任务，直到总任务执行完毕，每一个周期内无人机的轨迹的总和即为整个系统中最优的无人机轨迹。

基于同一发明构思，本申请一实施例提供一种蜂窝网联无人机轨迹设计和干扰管理的装置。参考,4，图4是本申请一实施例提出的蜂窝网联无人机轨迹设计和干扰管理的装置的示意图。如图4所示，该装置包括：

强化训练模块1，被配置为每个无人机对自身内置的最小化周期内AOI的轨迹算法进行强化训练；

第一初始化模块2，被配置为基站将所有任务内感知点和传输点的位置、所有移动设备的位置和所有无人机的初始位置广播给每个无人机；

第一状态更新模块3，被配置为每一帧时，每个无人机向基站汇报自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机；

第一轨迹设计模块4，被配置为每一个周期开始时，无人机根据获得的所有其他无人机的最新状态通过所述最小化周期内AOI的轨迹算法计算出自身所在周期内的感知点和传输点；

数据采集和传输模块5，被配置为无人机径直飞向所在周期内的感知点进行数据采集，然后无人机径直飞向所在周期内的传输点进行数据传输，所述数据传输包括传输给基站或移动设备，数据传输完成后，所述周期结束。

图5是本申请一实施例提出的蜂窝网联无人机轨迹设计和干扰管理的装置中强化训练模块的示意图，如图5所示；

可选的，所述强化训练模块1包括：

第二初始化模块11，被配置为基站将所有任务内感知点和传输点的位置、所有移动设备的位置和所有无人机的初始位置广播给每个无人机，每个无人机初始化自身的演员DQN和评论家DQN；

第二状态更新模块12，被配置为每一帧时，每个无人机向基站汇报自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机；

第二轨迹设计模块13，被配置为在每个周期开始时，无人机把其他所有无人机最新的状态作为演员DQN的输入，并从演员DQN的输出获得其在本周期内的行动；

执行模块14，被配置为在本周期内，无人机执行所述行动，获得回报，所述回报为本周期内的AOI总和的负数，然后转移到下一个周期的初始状态；

样本提取模块15，被配置为当本周期结束后，无人机将本周期的初始状态、采取的行动、获得的回报和下一个周期的初始状态储存为训练样本；

学习模块16，被配置为每个周期结束后，无人机抽取训练样本进行演员DQN和评论家DQN的训练；

可选的，所述第一状态更新模块3，被配置为每一帧时，每个无人机向基站汇报包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机，所述状态还包括：当前的位置、本周期内感知点和传输点的位置、当前在进行的操作以及剩余的传输数据大小。

可选的，所述数据采集和传输模块5，被配置为所述无人机径直飞向所在周期内的感知点进行数据采集，所述方法包括：

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的蜂窝网联无人机轨迹设计和干扰管理的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的蜂窝网联无人机轨迹设计和干扰管理的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种蜂窝网联无人机轨迹设计和干扰管理的方法、装置、设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种蜂窝网联无人机轨迹设计和干扰管理的方法，应用于两个或多个无人机，其特征在于，每个无人机以周期的形式同步地执行任务，每个周期包含若干帧，所述方法包括：

每一帧开始时，每个无人机向基站汇报自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机；

无人机径直飞向所在周期内的感知点进行数据采集，然后无人机径直飞向所在周期内的传输点进行数据传输，所述数据传输包括传输给基站或移动设备，数据传输完成后，所述周期结束；

其中，所述最小化周期内AOI的轨迹算法中的所述轨迹算法包括：

2.根据权利要求1所述的方法，其特征在于，每一帧开始时，每个无人机向基站汇报包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机，所述状态还包括：当前的位置、本周期内感知点和传输点的位置、当前在进行的操作以及剩余的传输数据大小。

3.根据权利要求1至2任意一项所述的方法，其特征在于，所述无人机径直飞向所在周期内的感知点进行数据采集，所述方法包括：

4.一种蜂窝网联无人机轨迹设计和干扰管理的装置，应用于两个或多个无人机，其特征在于，每个无人机以周期的形式同步地执行任务，每个周期包含若干帧，所述装置包括：

第一状态更新模块，被配置为每一帧开始时，每个无人机向基站汇报自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机；

数据采集和传输模块，被配置为无人机径直飞向所在周期内的感知点进行数据采集，然后无人机径直飞向所在周期内的传输点进行数据传输，所述数据传输包括传输给基站或移动设备，数据传输完成后，所述周期结束；

其中，所述强化训练模块包括：

第二状态更新模块，被配置为每一帧开始时，每个无人机向基站汇报自身包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机；

5.根据权利要求4所述的装置，其特征在于，所述第一状态更新模块被配置为每一帧开始时，每个无人机向基站汇报包括当前AOI在内的当前状态，当一个无人机的周期开始时，基站将获得的所有无人机的当前状态广播给该无人机，所述状态还包括：当前的位置、本周期内感知点和传输点的位置、当前在进行的操作以及剩余的传输数据大小。

6.根据权利要求4至5任意一项所述的装置，其特征在于，所述数据采集和传输模块被配置为在飞行途中不进行数据采集，当到达感知点后，无人机悬停在感知点并采集一帧的数据；

以及，所述数据采集和传输模块还被配置为在飞行途中即能传输数据，当到达传输点后，如果数据传输未完成，无人机悬停在传输点继续传输，直到数据传输完成，无人机记录并更新AOI。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1至3任一所述的方法中的步骤。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至3任一所述的方法的步骤。