CN111291984A

CN111291984A - 多无人机分布式任务选择和轨迹设计方法及装置

Info

Publication number: CN111291984A
Application number: CN202010072790.XA
Authority: CN
Inventors: 宋令阳; 胡敬植; 唐斌; 张泓亮
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-16
Anticipated expiration: 2040-01-21
Also published as: CN111291984B

Abstract

本发明提供了一种多无人机分布式任务选择和轨迹设计方法、装置、电子设备和计算机可读存储介质，涉及无线通信技术领域。所述方法包括：目标无人机获取初始环境状态的特征向量，根据初始环境状态的特征向量、各个任务的指示向量、位置决策模型和平均AoI预测模型，获得目标任务对应的目标执行位置，移动到所述目标执行位置，并完成预设工作任务，通过将位置决策模型与平均AoI预测模型进行结合，并将其他无人机当前的位置，各个任务最新AoI作为状态，保证其在决策的过程中能考虑到其它无人机的位置和任务的实时状态，通过无人机集群中每个无人机的分布式自主决策，取消了现有技术中的中心节点进行任务和轨迹分配方式，使得决策过程鲁棒性较强。

Description

多无人机分布式任务选择和轨迹设计方法及装置

技术领域

本发明涉及无线通信技术领域，特别是涉及一种多无人机分布式任务选择和轨迹设计方法及装置。

背景技术

无人机是一种新兴的物联网感知设备，它具有布置灵活，感知范围广的优点，可以应用于许多需求进行感知任务的领域，如交通监控，住宅安全，智慧农业等。无人机尤其适用于一些对感知数据的时效性有较高要求，需求无人机反复执行的感知任务之中，并最大化任务感知数据的AoI(Age of Information，信息时效性)。无人机执行感知任务分为两步，首先是对任务中的目标进行感知，并收集感知数据；其次，无人机需要将感知数据上传到蜂窝小区的基站。由于无人机电池、负重的能力有限，其传感器的感知能力以及信号发送器的传输能力有限。当无人机远离任务目标的时候，其成功感知任务目标状态的概率降低；当无人机离小区基站的距离较远的时候，其发送的信号到达基站较弱，传输数据的速率较低。因此，无人机需要适当的选择其执行感知任务的位置。

此外，当多无人机联合执行多任务的时候，无人机所面临的决策更多且更为复杂：多无人机之间面临任务分配的问题，即每一时刻，无人机都需要根据当前状态选择自己要执行任务；多无人机面临轨迹选择的问题，即接下来朝着哪个方向运动，前往何处执行自己选择的任务。

为了实现最大化任务感知数据的AoI的目标，多无人机需要联合考虑任务分配，轨迹选择问题。针对多无人机需要联合考虑任务分配，轨迹选择问题，现有技术是基于中心化轨迹分配的方式，小区基站集中地对多无人机的任务分配和运行轨迹进行优化，并通过控制信道将命令传达给各无人机。然而，中心化的方式，对于中心节点的依赖程度高，系统不够稳健。此外，中心化的优化计算依赖于对环境及感知、传输过程有准确的建模。由于无人机运行于动态且复杂的环境中，无人机的感知传输过程的模型难以准确获得。因此中心式的感知任务与运行轨迹分配的方式不适用于复杂、动态的环境下对无人机进行控制的需求。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种多无人机分布式任务选择和轨迹设计方法、装置、电子设备和计算机可读存储介质。

依据本发明的第一方面，提供了一种多无人机分布式任务选择和轨迹设计方法，应用于目标无人机，所述目标无人机为无人机集群中的任一无人机，所述方法包括：

获取初始环境状态的特征向量，所述初始环境状态的特征向量包括所述目标无人机的初始位置，所述无人机集群中其他无人机的初始位置，各个任务的位置，以及各个任务最新AoI；

根据所述初始环境状态的特征向量、各个任务的指示向量以及位置决策模型，预测所述目标无人机执行各个任务分别对应的执行位置；

根据所述初始环境状态的特征向量、各个任务的指示向量、各个任务分别对应的执行位置以及平均AoI预测模型，预测所述目标无人机执行所述各个任务分别对应的平均AoI；

选择所述各个任务分别对应的平均AoI中最小的平均AoI，以所述最小的平均AoI对应的任务为目标任务，以所述最小的平均AoI对应的执行位置为所述目标任务对应的目标执行位置；

移动到所述目标执行位置，并完成预设工作任务。

可选地，所述平均AoI预测模型是通过以下步骤得到的：

获取样本初始环境状态的特征向量、初始动作向量、无人机移动到所述样本任务对应的所述执行位置，并完成预设工作过程中，所有样本任务的AoI累积、状态移动后环境状态的特征向量以及状态转移后的动作向量，其中，无人机每移动到一个执行位置即发生一次状态转移，所述动作向量包括样本任务的指示向量和样本任务对应的执行位置；

将所述样本初始环境状态的特征向量、所述初始的动作向量、所有样本任务的AoI累积、状态移动后环境状态的特征向量以及状态转移后的动作向量作为一个训练样本，利用多个所述训练样本对第一预设模型进行训练，得到所述平均AoI预测模型。

可选地，所述位置决策模型是通过以下步骤得到的：

将所述样本初始环境状态的特征向量和所述初始动作向量作为一个训练样本，利用多个所述训练样本，通过反向传播算法，以最小化所述平均AoI预测模型输出的平均AoI为目标，对第二预设模型进行训练，得到所述位置决策模型。

可选地，所述位置决策模型包括第一输入层、第一隐藏层、第二隐藏层和第一输出层，其中，输入层的节点数量由无人机获取的环境状态的特征向量长度和任务的指示向量长度决定，第一隐藏层的节点数量为400个，第二隐藏层的节点数量为300个，第一输出层的大小由确定无人机任务执行位置所需的参数向量长度决定，第一隐藏层和第二隐藏层的节点采用ReLU函数作为激活函数；

所述平均AoI预测模型包括第二输入层、第三隐藏层、第四隐藏层和第二输出层，其中，第二输入层的节点数量由无人机获取的环境状态的特征向量长度、任务的指示向量长度以及确定无人机任务执行位置所需的参数向量长度数量决定，第三隐藏层的节点数量为400个，第四隐藏层的节点数量为300个，第二输出层的大小为1，第三隐藏层和第四隐藏层的节点采用ReLU函数作为激活函数。

依据本发明的第二方面，提供了一种多无人机分布式任务选择和轨迹设计装置，应用于目标无人机，所述目标无人机为无人机集群中的任一无人机，所述装置包括：

第一获取模块，用于获取初始环境状态的特征向量，所述初始环境状态的特征向量包括所述目标无人机的初始位置，所述无人机集群中其他无人机的初始位置，各个任务的位置，以及各个任务最新AoI；

第一预测模块，用于根据所述初始环境状态的特征向量、各个任务的指示向量以及位置决策模型，预测所述目标无人机执行各个任务分别对应的执行位置；

第二预测模块，用于根据所述初始环境状态的特征向量、各个任务的指示向量、各个任务分别对应的执行位置以及平均AoI预测模型，预测所述目标无人机执行所述各个任务分别对应的平均AoI；

选择模块，用于选择所述各个任务分别对应的平均AoI中最小的平均AoI，以所述最小的平均AoI对应的任务为目标任务，以所述最小的平均AoI对应的执行位置为所述目标任务对应的目标执行位置；

任务执行模块，用于移动到所述目标执行位置，并完成预设工作任务。

可选地，所述装置还包括：

第二获取模块，用于获取样本初始环境状态的特征向量、初始动作向量、无人机移动到所述样本任务对应的所述执行位置，并完成预设工作过程中，所有样本任务的AoI累积、状态移动后环境状态的特征向量以及状态转移后的动作向量，其中，无人机每移动到一个执行位置即发生一次状态转移，所述动作向量包括样本任务的指示向量和样本任务对应的执行位置；

第一训练模块，用于将所述样本初始环境状态的特征向量、所述初始的动作向量、所有样本任务的AoI累积、状态移动后环境状态的特征向量以及状态转移后的动作向量作为一个训练样本，利用多个所述训练样本对第一预设模型进行训练，得到所述平均AoI预测模型。

可选地，所述装置还包括：

第二训练模块，用于将所述样本初始环境状态的特征向量和所述初始动作向量作为一个训练样本，利用多个所述训练样本，通过反向传播算法，以最小化所述平均AoI预测模型输出的平均AoI为目标，对第二预设模型进行训练，得到所述位置决策模型。

依据本发明的第三方面，提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一项所述的多无人机分布式任务选择和轨迹设计方法的步骤。

依据本发明的第四方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的多无人机分布式任务选择和轨迹设计方法的步骤。

本发明实施例提供的一种多无人机分布式任务选择和轨迹设计方法，目标无人机获取初始环境状态的特征向量，根据初始环境状态的特征向量、各个任务的指示向量以及位置决策模型，预测所述目标无人机执行各个任务分别对应的执行位置，根据所述初始环境状态的特征向量、各个任务的指示向量、各个任务分别对应的执行位置以及平均AoI预测模型，预测所述目标无人机执行所述各个任务分别对应的平均AoI，选择所述各个任务分别对应的平均AoI中最小的平均AoI，以所述最小的平均AoI对应的任务为目标任务，以所述最小的平均AoI对应的执行位置为所述目标任务对应的目标执行位置，移动到所述目标执行位置，并完成预设工作任务。

通过将位置决策模型与平均AoI预测模型进行结合，并将其他无人机当前的位置，各个任务最新AoI作为状态，保证其在决策的过程中能考虑到其它无人机的位置和任务的实时状态，通过无人机集群中每个无人机的分布式自主决策，取消了现有技术中的中心节点进行任务和轨迹分配方式，使得决策过程鲁棒性较强。

此外，无人机应用神经网络，并依据强化学习算法与环境的反馈训练神经网络，使得无人机具有自主学习环境模型的能力，可适用于动态、复杂的环境。具体地，无人机实现强化学习，对当前执行的任务和下一步执行的任务和任务执行位置(飞行的轨迹)进行决策，并基于决策进行运动、执行任务。根据所有无人机的决策和环境当前状态，发生状态转移，并反馈给各无人机当前任务的实现程度。无人机根据反馈对采取的动作的进行训练和优化，从而更好的实现完成感知任务。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种无人机集群执行任务的场景示意图；

图2是本发明实施例提供的一种多无人机分布式任务选择和轨迹设计方法的步骤流程图；

图3是本发明实施例提供的一种所有样本任务的AoI累积示意图；

图4是本发明实施例提供的一种多无人机分布式任务选择和轨迹设计方法的示意性流程图；

图5是本发明实施例提供的一种多无人机分布式任务选择和轨迹设计装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

请参考图1，图1是本发明实施例提供的一种无人机集群执行任务的场景示意图。如图1所示，环境中包括无人机集群，无人机集群中的多个无人机同时执行任务，例如可以是十字路口交通状况监测任务，如果是对1号十字路口进行监测，可以看做是任务1，无人机在执行任务采集数据后，可以将数据发送到基站，同时无人机还可以从基站获取其他无人机采集的数据。

请参考图2，图2是本发明实施例提供的一种多无人机分布式任务选择和轨迹设计方法的步骤流程图，该方法应用于目标无人机，目标无人机为无人机集群中的任一无人机，如图2所示，该方法可以包括以下步骤：

步骤S21，获取初始环境状态的特征向量，所述初始环境状态的特征向量包括所述目标无人机的初始位置，所述无人机集群中其他无人机的初始位置，各个任务的位置，以及各个任务最新AoI。

本实施例中，初始环境状态的特征向量指的是无人机移动之前的环境状态对应的特征向量，包括目标无人机的初始位置、无人机集群中其他无人机的初始位置，各个任务的位置，以及各个任务最新AoI。

其中，目标无人机的初始位置可以通过目标无人机自身装载的定位装置获取；由于所有无人机均会周期性与基站进行通信，向基站发送自身的位置以及任务执行情况，示例地，无人机在每一帧均会向基站发送自己的位置以及任务执行情况，并且，各个任务的位置是预先固定的，可以提前存储在基站，以无人机执行十字路口交通检测任务为例，各个十字路口的位置是固定的，因此，无人机集群中其他无人机的初始位置以及各个任务最新AoI，以及各个任务的位置，均可以通过基站获取。

AoI，Age of Information，信息时效性。其具体物理意义是对于某一项需要感知的任务目标，例如可以是无人机的监测任务中的1号待监测十字路口，最近一次基站获得其感知数据的时刻距离当前时刻的时间长度。

步骤S22，根据所述初始环境状态的特征向量、各个任务的指示向量以及位置决策模型，预测所述目标无人机执行各个任务分别对应的执行位置。

本实施例中，执行位置指的是无人机完成工作任务的具体位置，如果是十字路口交通状况监测任务的话，则对应于某个十字路口上方的某个具体位置，可以是一个三维坐标点。各个任务的指示向量可以是预先存储在目标无人机内部的，也可以是目标无人机在预测任务执行位置之前生成的。假设任务的总数量是M，那么第j个任务的指示向量则是一个M维度的向量，并且，只有第j个维度上为1，其他维度为0。

步骤S23，根据所述初始环境状态的特征向量、各个任务的指示向量、各个任务分别对应的执行位置以及平均AoI预测模型，预测所述目标无人机执行所述各个任务分别对应的平均AoI。

本实施例中，所有样本任务的AoI累积指的是目标无人机在执行样本任务过程中，所有样本任务的AoI总量；平均AoI指的是目标无人机在执行某个任务过程中，所有任务的AoI总量与任务总数量的比值。假设有3个任务，目标无人机可能在执行任务1，这个过程中，任务1的AoI、任务2的AoI和任务3的AoI的总量与无人机总数量3的比值即为目标无人机执行任务1对应的平均AoI；另外，目标无人机可能在执行任务2，这个过程中，任务1的AoI、任务2的AoI和任务3的AoI的总量与无人机总数量3的比值即为目标无人机执行任务2对应的平均AoI；或者目标无人机在执行任务2，这个过程中，任务1的AoI、任务2的AoI和任务3的AoI的总量与无人机总数量3的比值即为目标无人机执行任务3对应的平均AoI，通常情况下，目标无人机执行各个任务分别对应的平均AoI不相同。

本实施例中，用于预测目标无人机执行各个任务分别对应的执行位置的位置决策模型可以是采用相关技术得到的第二预设模型(在初次执行步骤S22的情况下)，也可以是更新后的位置决策模型(在非初次执行步骤S22的情况下)。

位置决策模型包括第一输入层、第一隐藏层、第二隐藏层和第一输出层，其中，输入层的节点数量由无人机获取的环境状态的特征向量长度和任务的指示向量长度决定，第一隐藏层的节点数量为400个，第二隐藏层的节点数量为300个，第一输出层的大小由确定无人机任务执行位置所需的参数向量长度决定，第一隐藏层和第二隐藏层的节点采用ReLU函数作为激活函数；

对于任务执行位置，若无人机需要决定其x坐标，y坐标和高度，则第一输出层大小为3；若无人机在固定高度飞行，需要决定x坐标和y坐标，则第一输出层大小为2。

其中，在第一次应用第二预设模型时，即初次执行步骤S22时，由于位置决策模型还未经过更新，因此，在网络设计的过程中，给位置决策模型的输出用tanh函数增加一个映射关系，限制其任务执行位置范围在任务位置附近，例如距离任务位置50m以内。位置决策模型的输出会被映射到任务位置50m以内的空间中，并通过训练得到在此范围中，任务执行位置的最优选取。

本实施例中，用于预测目标无人机执行各个任务分别对应的平均AoI的平均AoI预测模型可以是采用相关技术得到的第一预设模型(在初次执行步骤S23的情况下)，也可以是更新后的平均AoI预测模型(在非初次执行步骤S23的情况下)。

其中，更新后的平均AoI预测模型是按照以下方式得到的：

获取样本初始环境状态的特征向量、初始动作向量、无人机移动到所述样本任务对应的所述执行位置，并完成预设工作过程中，所有样本任务的AoI累积、状态移动后环境状态的特征向量以及状态转移后的动作向量，其中，无人机每移动到一个执行位置即发生一次状态转移，所述动作向量包括样本任务的指示向量和样本任务对应的执行位置。

本实施例中，发生一次状态转移指的是无人机从前一个任务执行位置移动到相邻的后一个任务执行位置，对于前一个任务执行位置与相邻的后一个任务执行位置而言，前一个任务执行位置可以看作是初始位置，无人机发生状态转移的具体的移动轨迹可以是沿直线移动。

第一预设模型的训练方法采用反向传播算法，收集的训练样本包括一个s、a、r、s'、a'的五元组，其中，s是样本初始环境状态的特征向量、a是初始动作向量、r是无人机移动到所述样本任务对应的所述执行位置，并完成预设工作过程中，所有样本任务的AoI累积、s'是状态移动后环境状态的特征向量、a'是状态转移后的动作向量。也就是说无人机每发生一次状态转移过程中对应的一组五元组数据，均可以作为一个训练样本，利用多个训练样本对第一预设模型进行训练，便能够得到更新后的平均AoI预测模型。其中，多个训练样本可以来自无人机对于不同任务的任务执行过程。

其中，更新后的位置决策模型是按照以下方式得到的：

第二预设模型的训练方法采用反向传播算法，收集的训练样本包括一个s、a的二元组，其中，s是样本初始环境状态的特征向量、a是初始动作向量。具体而言，是通过反向传播算法，使得第二预设模型的输出能在平均AoI预测模型中，得到更大的收益，即以最小化所述平均AoI预测模型输出的平均AoI为目标，也就是朝着

的方向进行训练。

同样地，无人机每发生一次状态转移过程中对应的一组二元组数据，均可以作为一个训练样本，利用多个训练样本对第二预设模型进行训练，便能够得到更新后的位置决策模型。其中，多个训练样本可以来自无人机对于不同任务的任务执行过程。

位置决策模型的结果是任务执行位置，会和初始环境状态的特征向量以及各个任务的指示向量一同输入平均AoI预测模型，得到此状态下，此决策后未来预期平均AoI的值，位置决策模型和平均AoI预测模型是串接关系。

无人机应用神经网络，并依据强化学习算法与环境的反馈训练神经网络，使得无人机具有自主学习环境模型的能力，可适用于动态、复杂的环境。具体地，无人机实现强化学习，对当前执行的任务和下一步执行的任务和任务执行位置(飞行的轨迹)进行决策，并基于决策进行运动、执行任务。根据所有无人机的决策和环境当前状态，系统发生状态转移，并反馈给各无人机当前任务的实现程度。无人机根据反馈对采取的动作的进行训练和优化，从而更好的实现完成感知任务。

本实施例中，目标无人机将获取的初始环境状态的特征向量和各个任务的指示向量输入位置决策模型，便可以由位置决策模型预测得到目标无人机执行各个任务分别对应的执行位置，接着，再将初始环境状态的特征向量、各个任务的指示向量和各个任务分别对应的执行位置输入平均AoI预测模型，便可以由平均AoI预测模型预测目标无人机执行所述各个任务分别对应的平均AoI。

步骤S24，选择所述各个任务分别对应的平均AoI中最小的平均AoI，以所述最小的平均AoI对应的任务为目标任务，以所述最小的平均AoI对应的执行位置为所述目标任务对应的目标执行位置。

本实施例中，平均AoI越小，各个无人机之间协作得到的总任务AoI最小，无人机协作效率更高，因此，选择所述各个任务分别对应的平均AoI中最小的平均AoI，表示目标无人机选择的最小的平均AoI对应的任务为最优任务。

步骤S25，移动到所述目标执行位置，并完成预设工作任务。

在本发明实施例中，目标无人机获取初始环境状态的特征向量，根据初始环境状态的特征向量、各个任务的指示向量以及位置决策模型，预测所述目标无人机执行各个任务分别对应的执行位置，根据所述初始环境状态的特征向量、各个任务的指示向量、各个任务分别对应的执行位置以及平均AoI预测模型，预测所述目标无人机执行所述各个任务分别对应的平均AoI，选择所述各个任务分别对应的平均AoI中最小的平均AoI，以所述最小的平均AoI对应的任务为目标任务，以所述最小的平均AoI对应的执行位置为所述目标任务对应的目标执行位置，移动到所述目标执行位置，并完成预设工作任务。通过将位置决策模型与平均AoI预测模型进行结合，并将其他无人机当前的位置，各个任务最新AoI作为状态，保证其在决策的过程中能考虑到其它无人机的位置和任务的实时状态，通过无人机集群中每个无人机的分布式自主决策，取消了现有技术中的中心节点进行任务和轨迹分配方式，使得决策过程鲁棒性较强。

请参考图3，图3是本发明实施例提供的一种无人机移动到所述样本任务对应的所述执行位置，并完成预设工作过程中，所有样本任务的AoI累积示意图，如图3所示：

对于目标无人机状态转移过程中所有样本任务的AoI累积取决于以下几点：

1)初始环境状态时刻，M个任务的当前AoI；

2)在状态转移过程中，每一个任务在每一时刻的实时AoI，如果在目标无人机状态转移过程中，其它无人机成功完成了某一任务，则该任务的在状态转移过程中的AoI变化图呈现出锯齿状；

3)目标无人机完成样本任务时刻，M个任务的当前AoI。

假设无人机集群中存在两个无人机(无人机A、无人机B)，以及存在两个任务(任务1、任务2)，其中以无人机A作为目标无人机，无人机B作为其他无人机，无人机A开始感知并执行任务2对应于坐标轴上的0S时刻，无人机完成任务2，即移动到任务2对应的执行位置，并完成预设工作对应于坐标上的时刻为3S，这个过程中的AoI(图3中条形区域3的面积)为任务2的AoI，在此过程中(即从0S时刻到3S时刻)，无人机B也在感知任务(任务1)并对感知的任务1完成预设工作，这个过程中的AoI(图3中条形区域1的面积)为任务1在0S-3S时间内的部分AoI，在无人机B对任务1完成预设工作之后，3S时刻还未到达，在到达3S的这段时间内，如果只有两个无人机的话，由于无人机A正在对任务2完成预设工作，无人机B可以继续感知到任务1并对任务1完成预设工作，这个过程中的AoI(图3中条形区域2的面积)也是任务1的部分AoI，因此，样本任务的AoI累积为条形区域1和条形区域2和条形区域3的面积之和。上述AoI的累积可以由基站进行计算并发送到目标无人机。

此外，需要注意的是，在一个任务被某个无人机执行完成之后，并不会立刻被其他无人机感知到，因此，对于任意一个任务，其可能存在初始AoI，继续参考图3，在无人机A感知到任务2的时刻为0S，此时任务1距离上一次被成功完成过去2S，任务2距离上一次被成功完成过去1S，这个2S和1S分别决定了任务1和任务2的初始AoI。对应于图3中，条形区域1和条形区域3均为梯形，即未从AoI轴的原点开始。

请参考图4，图4示出了本发明实施例提供的一种多无人机分布式任务选择和轨迹设计方法的示意性流程图，如图4所示，该方法可以包括以下流程：

1)目标无人机观察当前的市内环境，获取初始环境状态的特征向量。

2)目标无人机生成关于任务j的指示向量，即一个M维度的向量，该向量只有第j维度上为1，其它维度为0的向量，其中j为大于0，小于等于M的正整数。

3)目标无人机将任务j的指示向量、初始环境状态的特征向量输入任务执行位置决策模型，得到当选取任务j时，选取的任务执行位置。

4)目标无人机将任务j的指示向量、初始环境状态的特征向量以及任务执行位置输入平均AoI预测模型，预测当前状态下，选择在由位置决策模型执行任务j，可以预测得到的所有任务的平均AoI。

5)目标无人机对比执行M个任务时所有任务的平均AoI，选择最优的任务以及相应的任务执行位置为决策。

6)目标无人机执行决策，发生状态转移，基站收集所有任务的AoI变化，生成所有任务的AoI累积，并反馈给各无人机状态转移过程中的所有任务的AoI累积。

7)无人机根据从环境中得到的反馈(将从基站获取的所有任务的AoI累积作为奖励回报)，训练位置决策模型和平均AoI预测模型。

基于相同的发明构思，参照图5，图5示出了本发明实施例提供的一种多无人机分布式任务选择和轨迹设计装置的框图，如图5所示，该装置50可以包括：

第一获取模块51，用于获取初始环境状态的特征向量，所述初始环境状态的特征向量包括所述目标无人机的初始位置，所述无人机集群中其他无人机的初始位置，各个任务的位置，以及各个任务最新AoI；

第一预测模块52，用于根据所述初始环境状态的特征向量、各个任务的指示向量以及位置决策模型，预测所述目标无人机执行各个任务分别对应的执行位置；

第二预测模块53，用于根据所述初始环境状态的特征向量、各个任务的指示向量、各个任务分别对应的执行位置以及平均AoI预测模型，预测所述目标无人机执行所述各个任务分别对应的平均AoI；

选择模块54，用于选择所述各个任务分别对应的平均AoI中最小的平均AoI，以所述最小的平均AoI对应的任务为目标任务，以所述最小的平均AoI对应的执行位置为所述目标任务对应的目标执行位置；

任务执行模块55，用于移动到所述目标执行位置，并完成预设工作任务。

可选地，所述装置还包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述多无人机分布式任务选择和轨迹设计方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述多无人机分布式任务选择和轨迹设计方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例可提供为方法、系统、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、装置、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理电子设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理电子设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理电子设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理电子设备上，使得在计算机或其他可编程电子设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程电子设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者电子设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者电子设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者电子设备中还存在另外的相同要素。

以上对本发明所提供的一种多无人机分布式任务选择和轨迹设计方法、装置、电子设备和计算机可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多无人机分布式任务选择和轨迹设计方法，其特征在于，应用于目标无人机，所述目标无人机为无人机集群中的任一无人机，所述方法包括：

移动到所述目标执行位置，并完成预设工作任务。

2.根据权利要求1所述的方法，其特征在于，所述平均AoI预测模型是通过以下步骤得到的：

3.根据权利要求2所述的方法，其特征在于，所述位置决策模型是通过以下步骤得到的：

4.根据权利要求1所述的方法，其特征在于，

所述位置决策模型包括第一输入层、第一隐藏层、第二隐藏层和第一输出层，其中，输入层的节点数量由无人机获取的环境状态的特征向量长度和任务的指示向量长度决定，第一隐藏层的节点数量为400个，第二隐藏层的节点数量为300个，第一输出层的大小由确定无人机任务执行位置所需的参数向量长度决定，第一隐藏层和第二隐藏层的节点采用ReLU函数作为激活函数；

5.一种多无人机分布式任务选择和轨迹设计装置，其特征在于，应用于目标无人机，所述目标无人机为无人机集群中的任一无人机，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的多无人机分布式任务选择和轨迹设计方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的多无人机分布式任务选择和轨迹设计方法的步骤。