CN114061589B

CN114061589B - 端边协同的多无人机自主导航方法

Info

Publication number: CN114061589B
Application number: CN202111358297.5A
Authority: CN
Inventors: 陈旭; 陈浩玮; 周知
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2023-05-26
Anticipated expiration: 2041-11-16
Also published as: CN114061589A

Abstract

本发明涉及一种端边协同的多无人机自主导航方法。包括：S1.采用卷积神经网络对无人机进行自主导航；S2.定量分析端到端时延对导航的影响；S3.通过空间金字塔池化方法，调整输入图像分辨率，降低计算时延；S4.定义单无人机导航优化问题、定义强化学习的状态空间、定义强化学习的动作空间、定义强化学习的奖励；S5.多无人机场景下，估算每台无人机将计算卸载到边缘服务器的概率；根据卸载概率，初步为每台无人机分配计算资源；定义无人机分得计算资源的上限和下限，保证公平性；调整计算资源分配方案，使每台无人机所获得的资源小于预先定义的上限；调整计算资源分配方案，使每台无人机所获得的资源大于预先定义的下限。本发明准确度更高，鲁棒性更强。

Description

端边协同的多无人机自主导航方法

技术领域

本发明涉及无人机自主导航技术领域，更具体地，涉及一种端边协同的多无人机自主导航方法。

背景技术

无人机是一种终端计算设备，为了解决终端设备计算能力不足的问题，传统做法是将计算任务卸载到云端。但终端设备与云之间的带宽往往是不稳定的，这将会增加传输时延。为了解决这个问题，研究人员提出了边缘计算的概念，利用部署在网络边缘的服务器协同终端设备执行计算密集型任务，称为端边协同。边缘服务器指部署在骨干网边缘，地理上距离用户较近的一类服务器。边缘服务器与用户之间的通信时延往往较小，网络连接较为稳定，目前已有许多使用边缘服务器辅助终端设备执行深度学习一类的计算密集型任务的工作。这里的终端设备范围很广，可以是普通人使用的智能手机，可穿戴设备，也可以是带有计算能力的监控摄像头，无人机，无人车等。在边缘计算的研究场景中，通常终端用户会设定一系列性能的约束，如能够容忍的最高端到端时延，最高功率，最低推理频率等，边缘计算系统需要在满足这些性能约束的情况下优化一系列指标，如任务执行的准确度，吞吐量或其他自定义的用户体验指标。

目前有许多学者研究了多个终端设备需要执行视频流分析应用时，如何调整各设备的分辨率，帧率，模型执行位置来最大化整体优化目标，他们都将研究场景进行数学建模，应用数学优化的方法找到最优解。我们认为无人机集群的自主导航可以看作一种多终端设备的视频分析应用，这些工作对我们颇有启发意义。例如，Wang C,Zhang S,Chen Y,etal.Joint configuration adaptation and bandwidth allocation for edge-basedreal-time video analytics[C]//IEEE INFOCOM 2020-IEEE Conference on ComputerCommunications.IEEE,2020:257-266.提出了边缘辅助下的视频分析系统(edge-assistedvideo analytics system)，他研究了如何使用一台边缘服务器辅助多个终端设备执行视频分析应用，其中边缘服务器有计算资源和带宽的限制。该系统采用“模型袋”方法，在线下训练了多个大小不同的网络，这些网络都被训练为解决同一个问题，大的网络具有更高的准确度和计算量，小的网络具有相对低的准确度和计算量。每个终端设备和边缘服务器上都保存了所有模型。作者设计算法在线上动态地为每个终端设备选择不同的模型，在满足最低时延要求的同时最大化所有终端设备的平均准确率。选择的依据是数学建模，该系统将环境变量中的各个参数(如带宽，环境复杂度，服务器负载等)和优化目标之间的关系使用数学模型拟合，在线上测得系统的各项环境参数，利用凸优化、马尔可夫随机优化等数学方法，求出决策变量的最优解，以达到降低时延同时保持精度的目的。

但是，使用“模型袋”方法时，需要在线上动态切换不同的模型，切换过程会引入模型加载和初始化时延，拖累系统性能。而且多个大小不同的模型需要常驻内存，对于内存空间有限的终端设备来说，额外的内存占用是难以接受的。而且上述系统将所有决策变量与优化目标之间的关系用数学模型建模出来，变量之间的数学关系通过经验观察数据拟合，这种拟合的关系是不准确的，并且线上拟合这些关系会造成额外的系统开销。

发明内容

本发明为克服上述现有技术中的缺陷，提供一种端边协同的多无人机自主导航方法，提高了准确性和鲁棒性。

为解决上述技术问题，本发明采用的技术方案是：一种端边协同的多无人机自主导航方法，包括以下步骤：

S1.采用卷积神经网络对无人机进行自主导航；

S2.定量分析端到端时延对导航的影响；

S3.通过空间金字塔池化方法，调整输入图像分辨率，降低计算时延；

S4.优化单无人机的自主导航性能，构建单无人机的深度强化学习模型；包括：形式化定义单无人机导航优化问题、定义强化学习的状态空间、定义强化学习的动作空间、定义强化学习的奖励；

S5.协调多无人机进行自主导航；包括：

S51.多无人机场景下，估算每台无人机将计算卸载到边缘服务器的概率；

S52.根据卸载概率，初步为每台无人机分配计算资源；

S53.定义无人机分得计算资源的上限l和下限h，保证公平性；

S54.调整计算资源分配方案，使每台无人机所获得的资源小于预先定义的上限；

S55.调整计算资源分配方案，使每台无人机所获得的资源大于预先定义的下限。

进一步的，在所述的步骤S1中，使用无人机的前向摄像头获取当前所处环境的图像，该图像作为导航模型的输入，导航模型为单输入二输出的卷积神经网络，输出分别是模型预测的转弯角度θ_t和碰撞概率p_t，θ_t直接作为无人机下一时刻的转弯角速度，p_t经过简单的线性换算后作为无人机下一时刻的前进速度v_t＝v_max(1-p_t)；在运行时，模型不断进行着“接收图像，输出转弯角度和碰撞概率，生成飞行指令”这一循环，实现对无人机飞行的实时控制。

进一步的，所述的步骤S2中，如果端到端时延增大到不可忽略的水平，模型的输出将有滞后性，影响自主导航模型的准确度。为了量化端到端时延对准确率的影响，定义摄像头拍摄到图像的时刻为t₀，无人机接收到该图像对应的飞行指令的时刻为t₁，则端到端时延为Δt＝t₁-t₀；为了计算时延对准确率的影响，比较t₀与t₁时刻的推理结果，因为无人机在t₁时刻时实际执行的指令是根据t₀时刻的环境产生的，所以把对应t₁时刻环境的推理结果作为地面真值，t₀时刻环境对应的推理结果作为预测结果，然后计算在飞行过程中的时间平均准确度timeAverageAccuracy，即为准确的推理结果占所有结果的比重，形式化的定义为：

式中，I为指示函数，I(true)＝1，I(false)＝0。实验结果表明，端到端时延会对无人机的导航准确性带来巨大的影响，所以要优化导航的性能，就必须需要将时延纳入到考虑范围内。

进一步的，在所述的步骤S3中，为了降低计算时延，系统在运行过程中动态改变模型的计算量来适应不同的环境，实现计算时延和精度的权衡。其中空间金字塔池化层满足本发明需求。空间金字塔池化层有这样的特性：它可以接受任意大小图片的输入，模型的计算量与图片的像素数量呈严格的正比例关系，并且观察到模型的推理准确度与分辨率呈大致的正相关关系。这种特性使得可以通过调整输入图像分辨率，实现计算量与推理准确度的权衡。空间金字塔池化层的设计是利用了卷积层和池化层可以接受任意大小输入的特点，在一个有卷积、池化、全连接层组成的卷积神经网络中，只有全连接层的输入是固定的，这导致了通常的卷积神经网络只能接受固定大小的输入。而全连接层的输入来自于池化层的输出，池化层的输出大小取决于输出大小。空间金字塔池化层通过改造池化层为空间金字塔池化层，空间金字塔池化层由若干个“动态”池化层组成，“动态”池化层的卷积核大小、步长和填充是随输入大小动态调整的，若输入特征图的大小为(w_in，h_in)，假设我们希望输出特征的特征图固定为(w_out，h_out)，则卷积核的大小为(w_in/w_out，h_in/h_out)。多个“动态”池化层的输出拼接起来作为全连接层的输入。

进一步的，导航性能由“时间平均准确率”量化，记为a。本发明的优化间题可以看成是无约束的。根据步骤S2中的分析，准确率a受端到端时延l，分辨率r和jpg编码质量j影响，记为a＝a(l，r，j)。再进一步，端到端时延l又取决于分辨率r，是否卸载o和jpg编码质量j，记为l＝l(r，o，j)，所以，所述的形式化定义单无人机导航的优化问题可以定义为：

max_r，o，ja(l，r，j)

s.t.l＝l(r，o，j)

r∈R，j∈J，o∈{0，1}

式中，a为准确率，l为端到端时延，r为分辨率；j为jpg编码质量；决策变量为r，o，j，组合起来称为执行决策；R为候选的分辨率的集合，J为候选的jpg编码的集合，o为是否卸载；o＝0代表本地执行，o＝1代表在边缘服务器执行模型。

另外，要在线上找到一组好的决策变量是困难的，不应执着于准确建模每一个变量之间的关系，而是应该整个系统当成黑盒进行优化。使用深度强化学习解决优化问题。深度强化学习模型由一个神经网络组成，输入从环境中观测的状态，输出针对该状态系统应该采取的动作以优化回报值。神经网络具有强大的拟合非线性函数的能力，能够学习到上述变量之间的关系。

进一步的，带宽b可以描述数据量和传输时延之间的关系，在状态空间中加入过去三个时间段内的带宽，由向量b＝(b_t-3，b_t-2，b_t-1)表示。这里时间段的长度是强化学习中每一步的时间跨度。边缘服务器可供无人机使用的计算资源s可以描述当选择卸载时，计算量与计算时延之间的关系，假定服务器分配给无人机的计算资源可在每个时间段的开始时确定，将当前时间段的s_t加入状态空间中。

①定义“环境复杂度”c来衡量准确率随分辨率下降的幅度，在某个时间段上，随机取一张图像，以最高分辨率(448×448)将其输入模型，得到输出θ_h，p_h，再以最低分辨率(112×112)将图像输入模型，得到输出θ_l，p_l，比较两种输出之间的差距Δθ＝|θ_t-θ_l|和Δp＝|p_t-p_l|，将Δθ与Δp的加权和作为环境复杂度c的度量，即c＝Δθ+αΔp，其中系数α控制Δp与Δθ处于同一数量级，实验中观察Δp和Δθ的大小，可以将α定为0.3。

②定义“环境动态性”d来衡量准确率受端到端时延影响的程度，将一段时间内模型输出的方差作为该段时间内的环境动态性的量化方式，即d＝std(θ)+β×std(p)，其中β是控制std(θ)和std(p)保持在同一数量级的系数，根据实验的观察，可以将β设为0.09；至此，完成了状态空间的定义S＝(c，d，b，s_t)，它由10个元素构成，并且可以捕捉到环境中所有动态变化的量。

进一步的，动作应该与执行决策保持一致，即包括分辨率r，是否卸载o和jpg编码质量j。根据前面决策变量取值范围的定义，动作空间为A＝R×J×{0，1}，×代表笛卡尔积，为了降低深度强化学习模型的学习难度，将动作空间离散化，其中R取{448，224，112}，J取{95，60，10}。则|A|＝18，但模型选择在本地执行时，jpg编码质量j是不需要的，实际的动作只有12个。该动作的生效时间为深度强化学习中一步的时间。

进一步的，回报应该与优化目标保持一致。根据问题定义，将回报定义为a。a为过去一步内的导航准确率。

进一步的，当一台边缘服务器需要同时支持多台无人机使用上述技术进行自主导航时，会出现边缘计算资源竞争的问题。为每台无人机划分边缘计算资源，并且将划分的边缘计算资源的数量告知每台无人机的深度强化学习模型，以方便模型做出合适的执行决策。一个简单的想法是：给最需要边缘计算资源的无人机分配更多的资源，相对不那么需要边缘计算资源的无人机分配较少的资源。能够获取到的关于无人机的动态信息有带宽b，环境复杂性c和环境动态性d三种，假设多台无人机在地理上的位置是分散的，那么它们所处环境的差别可以通过的各无人机的b，c，d的值体现出来。尝试使用这三个量来衡量不同无人机对边缘计算资源的“需求程度”。本发明应用了一种数据驱动的方法，利用训练好的深度强化学习模型，观察在单台无人机的情况下，深度强化学习模型选择将计算卸载到服务器概率。发现卸载率与带宽b、环境复杂度c、环境动态性d均呈现大致的正相关关系，使用线性函数来拟合这种关系：

假定b，c，d对卸载率o的影响是相互独立的，则在线上预测下一时间段无人机i的卸载概率为：

o_i＝o(b_i)×o(c_i)×o(d_i)，1≤i≤n

式中，n为无人机总数，o_i即作为衡量无人机对服务器计算资源“需求程度”的指标。

进一步的，所述的步骤S52具体包括：根据各无人机o_i的比值来分配边缘计算资源，即无人机i获得的边缘计算资源为a_i，使用“软最大值”比例来计算a_i：

式中，TR为边缘服务器计算资源总量，t为公平性系数，t越大则a_i之间的差距越小，实验中将t设为1。另外，在每个时间段开始时无法获得该时间段内的b，c，d，为了简化框架设计，使用每台无人机上一时间段的数据来近似下一时间段的数据。

进一步的，在所述的步骤S53中，当某台无人机获得的资源多于h时，将其多出来的资源按比例分给其他无人机，当前资源越少的无人机分得的资源越多。

进一步的，在所述的步骤S54中，为了应对TR＜n×l的情况，将部分无人机标记为“被抛弃的”，标记为“被抛弃的”无人机不获得计算资源；找到一台a_i＜l的无人机i，检查能否通过将其他无人机的资源分给无人机i，使得a_i≥l，并且分配完毕后如果其他无人机的资源仍然大于l；如果可以，则将其他无人机的资源按比例分给无人机i；如果不能，则找到当前资源最少的无人机i，将其标记为“被抛弃的”，并将其资源按比例分给其他没有标记为“被抛弃的”无人机。

与现有技术相比，有益效果是：

1、本发明引入了深度强化学习来解决单无人机决策问题，神经网络具有强大的学习能力，在有足够的训练数据时可以较为准确地学到环境变量、决策变量和优化目标之间的关系，相比于数学建模的方法，本发明准确度更高，鲁棒性更强，能够适应不同的环境，并且本发明的深度强化学习模型是轻量级的，即使在计算资源受限的终端设备上，模型的计算时延也可以控制在1毫秒左右；

2、本发明引入了空间金字塔池化层技术实现卷积神经网络模型在计算量和计算精度之间的权衡，相比与“模型”袋方法，本发明只需训练和部署一个模型，即可适应不同环境，省去了模型切换的开销，进一步降低了端到端时延和准确性；

3、本发明针对多无人机自主导航场景下的边缘资源争夺问题设计了协调算法，根据单无人机的实验数据，应用数据驱动的方法分析各无人机对计算资源的需求程度，做到了边缘计算资源的按需分配，尽可能满足各无人机的资源需求。与基于排队的算法相比，本发明的方法充分利用了并行运算的优势，系统性能更高；

4、本发明在计算资源分配时考虑了无人机之间的公平性，给每台无人机的资源限定了上下限，并设计了巧妙的算法在按需分配的前提下使得分配方案满足这个上下限，不会出现某台无人机资源过多或过少的情况，进一步提高了集群的导航性能；

5、本发明针对使用卷积神经网络无人机自主导航应用作优化的，目前这一领域仍处于空白阶段，本发明填补了这一空白。本发明设计系统的过程至始至终都考虑了无人机自主导航的各种特性，如定义了自主导航应用特有的“时间平均准确度”，在深度强化学习的状态空间中加入环境复杂度和环境动态性参数等，这些设计是无人机自主导航应用所特有的，所以相比与其他通用的模型卸载工作，本发明的系统在无人机自主导航应用上具有优越性。

附图说明

图1是本发明方法流程示意图。

图2是本发明实施例中的框架结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

如图1所示，一种端边协同的多无人机自主导航方法，包括以下步骤：

步骤1.采用卷积神经网络对无人机进行自主导航；这是一种端到端的方法：使用无人机的前向摄像头获取当前所处环境的图像，该图像作为导航模型的输入，导航模型为单输入二输出的卷积神经网络，输出分别是模型预测的转弯角度θ_t和碰撞概率p_t，θ_t直接作为无人机下一时刻的转弯角速度，p_t经过简单的线性换算后作为无人机下一时刻的前进速度v_t＝v_max(1-p_t)；在运行时，模型不断进行着“接收图像，输出转弯角度和碰撞概率，生成飞行指令”这一循环，实现对无人机飞行的实时控制。

步骤2.定量分析端到端时延对导航的影响；如果端到端时延增大到不可忽略的水平，模型的输出将有滞后性，影响自主导航模型的准确度。为了量化端到端时延对准确率的影响，定义摄像头拍摄到图像的时刻为t₀，无人机接收到该图像对应的飞行指令的时刻为t₁，则端到端时延为Δt＝t₁-t₀；为了计算时延对准确率的影响，比较t₀与t₁时刻的推理结果，因为无人机在t₁时刻时实际执行的指令是根据t₀时刻的环境产生的，所以把对应t₁时刻环境的推理结果作为地面真值，t₀时刻环境对应的推理结果作为预测结果，然后计算在飞行过程中的时间平均准确度timeAverageAccuracy，即为准确的推理结果占所有结果的比重，形式化的定义为：

步骤3.通过空间金字塔池化方法，调整输入图像分辨率，降低计算时延；为了降低计算时延，系统在运行过程中动态改变模型的计算量来适应不同的环境，实现计算时延和精度的权衡。其中空间金字塔池化层满足本发明需求。空间金字塔池化层有这样的特性：它可以接受任意大小图片的输入，模型的计算量与图片的像素数量呈严格的正比例关系，并且观察到模型的推理准确度与分辨率呈大致的正相关关系。这种特性使得可以通过调整输入图像分辨率，实现计算量与推理准确度的权衡。空间金字塔池化层的设计是利用了卷积层和池化层可以接受任意大小输入的特点，在一个有卷积、池化、全连接层组成的卷积神经网络中，只有全连接层的输入是固定的，这导致了通常的卷积神经网络只能接受固定大小的输入。而全连接层的输入来自于池化层的输出，池化层的输出大小取决于输出大小。空间金字塔池化层通过改造池化层为空间金字塔池化层，空间金字塔池化层由若干个“动态”池化层组成，“动态”池化层的卷积核大小、步长和填充是随输入大小动态调整的，若输入特征图的大小为(w_in，h_in)，假设我们希望输出特征的特征图固定为(w_out，h_out)，则卷积核的大小为(w_in/w_out，h_in/h_out)。多个“动态”池化层的输出拼接起来作为全连接层的输入。

步骤4.优化单无人机的自主导航性能，构建单无人机的深度强化学习模型；包括：形式化定义单无人机导航优化问题、定义强化学习的状态空间、定义强化学习的动作空间、定义强化学习的奖励；

4.1形式化定义单无人机导航优化问题：导航性能由“时间平均准确率”量化，记为a。本发明的优化问题可以看成是无约束的。根据步骤S2中的分析，准确率a受端到端时延l，分辨率r和jpg编码质量j影响，记为a＝a(l，r，j)。再进一步，端到端时延l又取决于分辨率r，是否卸载o和jpg编码质量j，记为l＝l(r，o，j)，所以，所述的形式化定义单无人机导航的优化问题可以定义为：

max_r，o，ja(l，r，j)

s.t.l＝l(r，o，j)

r∈R，j∈J，o∈{0，1}

要在线上找到一组好的决策变量是困难的，不应执着于准确建模每一个变量之间的关系，而是应该整个系统当成黑盒进行优化。使用深度强化学习解决优化问题。深度强化学习模型由一个神经网络组成，输入从环境中观测的状态，输出针对该状态系统应该采取的动作以优化回报值。神经网络具有强大的拟合非线性函数的能力，能够学习到上述变量之间的关系。

4.2定义强化学习的状态空间：带宽b可以描述数据量和传输时延之间的关系，在状态空间中加入过去三个时间段内的带宽，由向量b＝(b_t-3，b_t-2，b_t-1)表示。这里时间段的长度是强化学习中每一步的时间跨度。边缘服务器可供无人机使用的计算资源s可以描述当选择卸载时，计算量与计算时延之间的关系，假定服务器分配给无人机的计算资源可在每个时间段的开始时确定，将当前时间段的s_t加入状态空间中。

4.3定义强化学习的动作空间：动作应该与执行决策保持一致，即包括分辨率r，是否卸载o和jpg编码质量j。根据前面决策变量取值范围的定义，动作空间为A＝R×J×{0，1)，×代表笛卡尔积，为了降低深度强化学习模型的学习难度，将动作空间离散化，其中R取{448，224，112{，J取{95，60，10{。则|A|＝18，但模型选择在本地执行时，jpg编码质量j是不需要的，实际的动作只有12个。该动作的生效时间为深度强化学习中一步的时间。

4.4定义强化学习的奖励：回报应该与优化目标保持一致。根据问题定义，将回报定义为a。a为过去一步内的导航准确率。

步骤5.协调多无人机进行自主导航；包括：

S51.多无人机场景下，估算每台无人机将计算卸载到边缘服务器的概率；当一台边缘服务器需要同时支持多台无人机使用上述技术进行自主导航时，会出现边缘计算资源竞争的问题。为每台无人机划分边缘计算资源，并且将划分的边缘计算资源的数量告知每台无人机的深度强化学习模型，以方便模型做出合适的执行决策。一个简单的想法是：给最需要边缘计算资源的无人机分配更多的资源，相对不那么需要边缘计算资源的无人机分配较少的资源。能够获取到的关于无人机的动态信息有带宽b，环境复杂性c和环境动态性d三种，假设多台无人机在地理上的位置是分散的，那么它们所处环境的差别可以通过的各无人机的b，c，d的值体现出来。尝试使用这三个量来衡量不同无人机对边缘计算资源的“需求程度”。本发明应用了一种数据驱动的方法，利用训练好的深度强化学习模型，观察在单台无人机的情况下，深度强化学习模型选择将计算卸载到服务器概率。发现卸载率与带宽b、环境复杂度c、环境动态性d均呈现大致的正相关关系，使用线性函数来拟合这种关系：

o_i＝o(b_i)×o(c_i)×o(d_i)，1≤i≤n

S52.根据卸载概率，初步为每台无人机分配计算资源；根据各无人机o_i的比值来分配边缘计算资源，即无人机i获得的边缘计算资源为a_i，使用“软最大值”比例来计算a_i：

S53.定义无人机分得计算资源的上限l和下限h，保证公平性；当边缘计算资源少到一定程度时，服务器的计算时延甚至要大于无人机本地计算时延，此时分给该无人机的计算资源是无意义的。当计算资源多到一定程度时，再增加计算不会使推理时延有明显下降，如当CPU核心数量大于4时，计算时延的下降幅度小于0.01s。为了更好地利用服务器资源，认为应该人为地规定每台无人机分得的资源上下限(l,h)。要将a_i限制在(l,h)范围内并不容易。当a_i不在(l,h)范围内时，要如何调整资源分配，当边缘计算资源总量TR<n×l时又要如何分配资源，都需要精心设计算法。如表1所示，算法1展示了调整a_i的过程。

表1算法1边缘计算资源分配

S54.调整计算资源分配方案，使每台无人机所获得的资源小于预先定义的上限；如表1所示，算法11-16行将分配给所有无人机的边缘计算资源限制在小于h的范围内。当某台无人机获得的资源多于h时，将其多出来的资源按比例分给其他无人机，当前资源越少的无人机分得的资源越多，第10行对TR的限制保证了分配完成后不会使某台无人机获得资源后其资源总量大于h。

S55.调整计算资源分配方案，使每台无人机所获得的资源大于预先定义的下限。如表1所示，算法18-37行将分配给无人机的资源限制在大于l的范围内。为了应对TR＜n×l的情况，我们会将部分无人机标记为“被抛弃的”(abandoned)，标记为“被抛弃的”无人机不获得计算资源。21行中找到一台a_i＜l的无人机i，检查能否通过将其他无人机的资源分给无人机i，使得a_i≥l，并且分配完毕后如果其他无人机的资源仍然大于l。如果可以，则23-27行将其他无人机的资源按比例分给无人机i。如果不能，则28-36行找到当前资源最少的无人机i，将其标记为“被抛弃的”，并将其资源按比例分给其他没有标记为“被抛弃的”无人机。

步骤6.对算法进行简要分析。如表1所示，算法18-36行的循环中，每次循环都保证有一台无人机被标记为“被抛弃的”或计算资源从小于l增加到l。该循环的执行次数不大于n。23行的if分支对所有无人机进行一次遍历，28行的elseif分支对所有无人机进行两次遍历，它们的复杂度均为O(n)，所以整个算法的复杂度为O(n²)。最后，讨论分配算法执行频率的问题，每隔一段时间，系统都需要运行上述算法以重新分配资源，在服务器上划分计算资源本身需要时间开销，频率不宜过高，但过低的频率将会导致计算资源的分配不能及时适应环境的变化，实验中我们将分配资源的频率定为20秒一次。

具体实验过程：

步骤1：定义、训练空间金字塔模型。将空间金字塔池化层引入到无人机自主导航系统中，为此需要将原来的导航模型改造为空间金字塔模型。将原导航模型中与全连接层直接连接的池化层改为空间金字塔池化层，该空间金字塔池化层由4个“动态”池化层组成，它们输出的特征图的大小分别固定为6×6，3×3，2×2，1×1。结合了现有的无人机自主导航模型“dronet”和空间金字塔模型的训练方法，训练的数据集是“dronet”的作者提供的公开数据集，它是由一系列汽车和自行车驾驶的图像组成，标签分别是转弯角度和是否碰撞，实验结果表明使用该数据集训练的模型在无人机上能够实现较好的导航性能。损失函数与“dronet”保持一致。训练过程参考了首次提出空间金字塔池化层的作者的方法，每一轮使用不同的输入大小进行训练，使用三种输入分辨率448×448，224×224，112×112轮流训练，总共训练了60轮，即每种分辨率各训练20轮。将数据集的5/6划分为训练集，剩余1/6为测试集。

步骤2：训练深度强化学习模型。训练深度强化学习模型时，采用了基于“演员-评论家”方法的“A2C”。同时训练“演员”和“评论家”两个网络，它们的输入都为状态向量，“评论家”用于估计状态价值V，“演员”输出该状态下应该执行的动作的概率分布。训练过程中，“评论家”的损失函数为：

loss＝E(r_t+γV(S_t+1)-V(S_t))²

V(S_t+1)和V(S_t)分别是t+1和t时刻下，深度强化学习模型遵循“演员”网络生成的策略行动时的状态价值，r_t为执行“演员”网络生成的动作时，t时刻获得的回报，γ是对未来价值的折扣因子。“演员”网络R_θ的更新梯度为：

r(S_t，a)为状态S_t下执行动作a的回报，θ代表“演员”网络的参数，p_θ(a|S_t)代表在状态S_t下执行动作a的概率，它是“演员”网络的输出。状态S_t+1由深度强化学习模型在状态S_t下执行动作a转移而来。“演员”的学习目标为输出使r(S_t，a)+V(S_t+1)，也就是Q(S_t，a)最大的动作a。在训练完毕后，我们只需使用“演员”网络经过一次推理预测最佳动作a。

步骤3：构建用于训练深度强化学习模型的模拟环境。为了加速训练过程，构建数值模拟环境以训练深度强化学习模型。在数值模拟环境中使用的数据均来源于现实测量的数据和真实数据集。使用了一个无人机机载摄像头视频数据集“Mid-Air”，长度为80分钟，包含约42万帧图像，覆盖了晴天、雨天、下雪、雾霾等各种天气条件。使用带宽变化数据集“HSDPA”，它收集了挪威城市和郊区的3G带宽变化情况，共有上百条带宽变化轨迹，轨迹的长度从500s到1500s不等。使用“Jetson Nano”作为机载计算设备，测量导航模型在不同分辨率输入下的计算时延，我们还在服务器上测量了不同计算资源下的计算时延。假定这些计算时延的数据在运行时是不变的，将事先测量的数据作为运行时的数据，利用这些数据构建一个无人机模拟环境。为了进一步提升训练效率，事先使用动作空间中定义的三种分辨率和三种jpg编码质量生成所有42万帧图像的导航模型推理结果，每帧对应9个推理结果。在训练深度强化学习模型过程中，不需要实际执行导航模型即可获得其推理结果。由于导航模型的复杂度远大于深度强化学习模型中的“演员”和“评论家”网络，所以这将节省大量的训练时间。模拟器使得深度强化学习模型能够在10分钟内“体验”到80分钟的飞行。

步骤4：分析、实现系统的数据流。如图2所示，展示了框架结构图。黑色连接线表示数据流方向，首先机载计算设备从真实无人机或模拟器中获取摄像头拍摄的图像，推理控制器根据执行决策决定要以哪个分辨率作为导航模型的输入，是否要将图像发送至边缘服务器，如果需要发送至边缘服务器，要以哪个jpg编码质量编码图像，然后图像被发送到本地导航模型或服务器模型上进行推理，服务器上的导航模型运行在“docker”容器中，导航模型输出飞行指令后发送给机载计算设备的无人机控制器，无人机控制器再将飞行指令发送给无人机或仿真环境执行，完成一次飞行控制闭环。

步骤5：分析、实现系统的控制流。如图2所示，虚线表示控制流方向，运行在边缘服务器上的系统监视器获取各个无人机的运行时信息，包括带宽b，环境复杂度c和环境动态性d。系统监视器同时将这些信息发送给边缘计算资源分配器和深度强化学习模型，计算资源分配器应用计算资源分配算法为每台无人机分配计算资源，将分配计划同时发送给容器控制器和深度强化学习模型，此时深度强化学习模型收集到状态空间中的所有信息，通过其“演员”网络输出执行决策，多台无人机的情况下，每台无人机的状态空间都不相同，深度强化学习模型需要进行多次推理，将不同的执行决策发送给每一台无人机。

步骤6：实现系统监视器。对于运行在边缘服务器的系统监视器，它有n个实例，每个实例负责对接一台无人机。带宽的监视实际是在机载计算设备上执行的(图中未画出)，它使用“psutil”监视在过去一步内机载计算设备的出口带宽峰值，如果这段时间内机载计算设备选择将导航模型放在本地计算，服务器与无人机之间没有传输数据，则此时使用“iperf3”测量无人机与服务器之间的带宽，得到的带宽数据被发送给服务器上的系统监视器。对于环境复杂度，如第5步中所定义的，需要随机抽取一帧，以不同分辨率输入到导航模型以比较其输出，这项工作由服务器中的系统监视器承担，无人机需要在每一步内发送一帧给系统监视器。对于环境动态性，需要计算一段时间内导航模型输出的方差，无论是本地计算还是卸载到服务器，模型的输出最终都会发送给机载计算设备上的无人机控制器，所以把方差的计算放在无人机控制器上，它将一段时间内的环境动态性发送给服务器上的系统监视器。

步骤7：实现容器控制器。服务器上的“docker”容器是导航模型实际运行的位置，每台被分配了计算资源的无人机在服务器上都有一个专用的“docker”容器，所以计算资源的分配是通过“docker”实现的，“docker”提供了为每个容器分配CPU资源的应用编程接口(API)，其最细的粒度为0.01个CPU，在实验中使用的最小粒度为0.1个CPU。使用“docker”提供的Python编程接口实现了容器控制器，它负责接收边缘资源分配器生成的资源分配方案，控制各个“docker”容器能够获得的CPU资源。框架结构图中所有模块的通信均使用“ZeroMQ”实现。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种端边协同的多无人机自主导航方法，其特征在于，包括以下步骤：

S1.采用卷积神经网络对无人机进行自主导航；使用无人机的前向摄像头获取当前所处环境的图像，该图像作为导航模型的输入，导航模型为单输入二输出的卷积神经网络，输出分别是模型预测的转弯角度θ_t和碰撞概率p_t，θ_t直接作为无人机下一时刻的转弯角速度，p_t经过简单的线性换算后作为无人机下一时刻的前进速度v_t＝v_max(1-p_t)，在运行时，模型不断进行着“接收图像，输出转弯角度和碰撞概率，生成飞行指令”这一循环，实现对无人机飞行的实时控制；

S2.定量分析端到端时延对导航的影响；为了量化端到端时延对准确率的影响，定义摄像头拍摄到图像的时刻为t₀，无人机接收到该图像对应的飞行指令的时刻为t₁，则端到端时延为Δt＝t₁-t₀；为了计算时延对准确率的影响，比较t₀与t₁时刻的推理结果，把对应t₁时刻环境的推理结果作为地面真值，t₀时刻环境对应的推理结果作为预测结果，然后计算在飞行过程中的时间平均准确度timeAverageAccuracy，即为准确的推理结果占所有结果的比重，形式化的定义为：

式中，I为指示函数，I(true)＝1，I(false)＝0；

S5.协调多无人机进行自主导航；包括：

S52.根据卸载概率，初步为每台无人机分配计算资源；

S53.定义无人机分得计算资源的上限l和下限h，保证公平性；

2.根据权利要求1所述的端边协同的多无人机自主导航方法，其特征在于，所述的形式化定义单无人机导航的优化问题具体包括：

max_r,o，ja(l，r，j)

s.t.l＝2(r，o，j)

r∈R，j∈J，o∈{0，1}

式中，a为准确率，l为端到端时延，r为分辨率；j为jpg编码质量；决策变量为r，o，j，组合起来称为执行决策；R为候选的分辨率的集合，J为候选的jpg编码的集合，o为是否卸载。

3.根据权利要求2所述的端边协同的多无人机自主导航方法，其特征在于，所述的定义强化学习的状态空间具体包括：①定义“环境复杂度”c来衡量准确率随分辨率下降的幅度，在某个时间段上，随机取一张图像，以最高分辨率将其输入模型，得到输出θ_h，p_h，再以最低分辨率将图像输入模型，得到输出θ_l，p_l，比较两种输出之间的差距Δθ＝|θ_t-θ_l|和Δp＝|p_t-p_l|，将Δθ与Δp的加权和作为环境复杂度c的度量，即c＝Δθ+αΔp，其中系数α控制Δp与Δθ处于同一数量级；②定义“环境动态性”d来衡量准确率受端到端时延影响的程度，将一段时间内模型输出的方差作为该段时间内的环境动态性的量化方式，即d＝std(θ)+β×std(p)，其中β是控制std(θ)和std(p)保持在同一数量级的系数；则，状态空间的定义S＝(c，d，b，s_t)。

4.根据权利要求3所述的端边协同的多无人机自主导航方法，其特征在于，所述的定义强化学习的动作空间包括：根据决策变量取值范围的定义，动作空间为A＝R×J×{0，1}，×代表笛卡尔积；所述的定义强化学习的奖励包括：将奖励定义为a，a为导航准确率。

5.根据权利要求4所述的端边协同的多无人机自主导航方法，其特征在于，所述的步骤S51具体包括：为每台无人机划分边缘计算资源，并且将划分的边缘计算资源的数量告知每台无人机的深度强化学习模型；假设多台无人机在地理上的位置是分散的，那么它们所处环境的差别通过各无人机的b，c，d的值体现出来，使用这三个量来衡量不同无人机对边缘计算资源的“需求程度”，即卸载率；使用线性函数来拟合卸载率与带宽b、环境复杂度c、环境动态性d的关系：

o_i＝o(b_i)×o(c_i)×o(d_i)，1≤i≤n

式中，n为无人机的数量，o_i即作为衡量无人机对服务器计算资源“需求程度”的指标。

6.根据权利要求5所述的端边协同的多无人机自主导航方法，其特征在于，所述的步骤S52具体包括：根据各无人机o_i的比值来分配边缘计算资源，即无人机i获得的边缘计算资源为a_i，将a_i定义为：

式中，TR为边缘服务器计算资源总量，t为公平性系数，t越大则a_i之间的差距越小。

7.根据权利要求6所述的端边协同的多无人机自主导航方法，其特征在于，在所述的步骤S53中，当某台无人机获得的资源多于h时，将其多出来的资源按比例分给其他无人机，当前资源越少的无人机分得的资源越多。

8.根据权利要求7所述的端边协同的多无人机自主导航方法，其特征在于，在所述的步骤S54中，为了应对TR＜n×l的情况，将部分无人机标记为“被抛弃的”，标记为“被抛弃的”无人机不获得计算资源；找到一台a_i＜l的无人机i，检查能否通过将其他无人机的资源分给无人机i，使得a_i≥l，并且分配完毕后如果其他无人机的资源仍然大于l；如果可以，则将其他无人机的资源按比例分给无人机i；如果不能，则找到当前资源最少的无人机i，将其标记为“被抛弃的”，并将其资源按比例分给其他没有标记为“被抛弃的”无人机。