CN113572832A

CN113572832A - 一种基于端边云及深度强化学习的无人机械协作方法

Info

Publication number: CN113572832A
Application number: CN202110825914.1A
Authority: CN
Inventors: 徐雍; 廖俊森; 彭慧; 鲁仁全; 林明
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-10-29
Anticipated expiration: 2041-07-21
Also published as: CN113572832B

Abstract

一种基于端边云及深度强化学习的无人机械协作方法包括如下步骤：根据无人艇和/或无人机的不同任务的作业要求，设计一个适合该任务的自主导航边缘智能模型；在核心云端基于无人艇和无人机协作的作业要求，进行基于深度强化学习的仿真训练；在核心云端的第一DRL训练模块中基于真实场景采用sim2real部署仿真训练获取的自主导航边缘智能模型；通过第一通讯模块将第一DRL训练模块中的自主导航边缘智能模型下发至边侧端的第二DRL训练模块，本发明采取端边云计算方案，通过增加节点的方式，使得数据传输的速度更快，处理更及时，而且在无人机和无人艇在执行任务之前，通过测试时延，选择合适的深度强化学习通信架构，可以选择最合适的通信线路，降低通信时延。

Description

一种基于端边云及深度强化学习的无人机械协作方法

技术领域

发明涉及智能设备控制技术领域，特别是一种基于端边云及深度强化学习的无人机械协作方法。

背景技术

传统的云计算在之前智能体较少且数据量较少时，利用性能较为强大的核心服务器，可以使得整个系统反应较为迅速。但随着智能体的不断增多，云计算在传输智能体产生的大数据时，容易受到带宽的限制，同时，对于控制系统这类对实时性要求很高的计算问题来说，海量数据的即时处理可能会使云计算滞后，导致智能体反应较慢。

对于无人机和无人艇来说，执行任务时，环境变化频繁。传统的规划方法可以很好地应对静态环境，但在动态环境中可靠的实现规划仍然是一个很大的挑战。传统的多智能体路径规划方法如最优算法和近似算法，需要提前感知环境。此类方法在环境不是大部分已知的情况下，自适应能力较差，不能满足在复杂多变的环境中作业的需求。

无人机作为一种边端设备，如果无人机上搭载高性能的处理芯片，其续航能力将大幅下降。因此，无法在无人机上进行大型神经网络训练这样的计算密集型程序。当前，处理无人机获得的图像和巡航日志数据一般有三种方法：一是将其存储在无人机，在无人机结束任务后，从无人机中取出数据，转移到本地计算机进行分析处理，该方法需要大量的人工参与，灵活性较差；二是将无人机飞行时产生的数据，直接上传到云数据中心进行分析处理，对于使用强化学习的方法对无人机进行实时控制之类的任务来说，该方法对于无人机与数据中心之间的传输时延要求极高；三是传输到边缘服务器中处理，相较于二来说，该方法可以有效降低传输时延，但边缘服务器因其有限的计算力，可能无法支持高效的深度强化学习训练。这三种方法在不同的通信环境下，可以取得不一样的效果。但以往的多智能体控制平台在处理无人机获得的图像和巡航日志数据时，往往只支持一种方法，导致通信环境变化时，平台的反应速度降低。

发明内容

针对上述缺陷，发明的目的在于提出一种基于端边云及深度强化学习的无人机械协作方法。

为达此目的，发明采用以下技术方案：

一种基于端边云及深度强化学习的无人机械协作方法，所述方法应用于基于端边云及深度强化学习的无人机械协作系统，所述基于端边云及深度强化学习的无人机械协作系统包括：

核心云端、边侧端、以及应用端，所述核心云端与所述边侧端双向通讯电联接，所述边侧端与所述应用端双向通讯电联接；

所述核心云端包括：边缘应用模型、调度模块、数据管理模块、第一通讯模块、第一DRL训练模块以及机-艇日志分析模块；

所述边侧端包括边缘云和边缘网关，其中边缘云包含第二DRL训练模块、数据聚合模块以及缓存管理模块，边缘网关包含节点设备管理模块以及协议转换模块；

所述应用端设有本地智能体，所述本地智能体包括周边机-艇感知模块、周边机-艇轨迹预测模块、避障模块、控制模块、第二通讯模块以及数据采集模块；

所述本地智能体设置有第三DRL训练模块；

基于端边云及深度强化学习的无人机械协作方法包括如下步骤：

步骤S1：基于无人艇和/或无人机的任务作业要求，建立自主导航边缘智能模型；

步骤S2：在核心云端基于无人艇和无人机协作的作业要求，进行基于深度强化学习的仿真训练；

步骤S3：在核心云端的第一DRL训练模块中部署仿真训练获取的自主导航边缘智能模型，同时，可通过sim2real方法在线进行进一步的真实场景训练；

步骤S4：通过第一通讯模块将第一DRL训练模块中的自主导航边缘智能模型下发并部署至边侧端的第二DRL训练模块，同时，可通过sim2real方法在线进行进一步的真实场景训练；

步骤S5:将第二DRL训练模块上自主导航边缘智能模型产生的控制数据通过边缘网关进行协议转换之后下发到应用端，同时应用端中数据采集模块采集的数据也是通过边缘网关进行协议转换之后发送到边缘云；

步骤S6：通过第二通讯模块将第一DRL训练模块中的自主导航边缘智能模型下发至本地智能体的第三DRL训练模块，同样，可通过sim2real方法在线进行进一步的真实场景训练；

步骤S7:所述应用端根据数据发送至核心云端以及边侧端两者的时间延迟，选择相应的通讯架构。

优选的，所述智能体为无人艇和/或无人机。

优选的，步骤S1中所述自主导航边缘智能模型属于多智能体协作的范畴，多智能体强化学习遵循随机博弈过程，其中随机博弈由多元组组成，其中在多元组内包括：环境状态、多个智能体以及奖励函数，在所述智能体根据环境状态做出相关动作，所述智能体在做出相关动作后所述环境状态反馈出奖励函数，通过分析所述奖励函数判断所述智能体做出的相关动作对于环境状态的影响；

所述多元组表示为：＜S,A₁,A₂,A₃...A_n,R₁,R₂,R₃...R_n,f,γ＞，其中S表示环境的状态空间，n为大于0的自然整数，A_n表示不同智能体的动作集合，R_n:S×A_n×S→R表示单个智能体执行动作后的奖赏函数，γ表示折扣因子；

f:S×A_n×S→[0,1]表示状态转移函数，f决定所有智能体在在执行联合动作a∈A后，由当前状态s∈S转移到下一状态s∈S′的概率分布；

所有智能体在某一时刻t的联合动作为a_t，其表达公式为：

a_i,t∈A_i，其中a_i,t为智能体i在t时刻时，执行的动作；

其中，每个智能体的个体策略为π_i：S×A_n→[0，1]，所有智能体共同构成联合策略为π；

总奖赏函数表达公式为：

其中S0为初始状态，s为当前转态，r_n，t+1为智能体的回报，乘上γ^t使结果达到经验回放的效果。

优选的，所述步骤S7中包所述通讯架构包括全通信集中决策架构、全通信自主决策架构以及欠通信自主决策架构；

其中所述全通信集中决策架构为多个智能体之间的通信过程发生在神经网络内部，且多个智能体具有自我学习的通信架构；

所述全通信集中决策架构设置有决策单元，所述决策单元用于接收各智能体处理后的局部观测信息，并对局部观测信息进行融合,获得全局信息表征，所述决策单元根据全局信息表征决策产生的联合动作,并以通信的方式指导单智能体的完成动作；

所述全通信自主决策架构为多个智能体之间的通信过程发生在神经网络之前,且单个智能体利用自组网通信拓扑的通信架构；

所述全通信自主决策架构用于接收智能体的局部观测信息以及历史动作,采用嵌入式的方法对接收的局部观测信息进行融合,并结合自身的观测信息进行自主决策,协作智能体的完成动作；

所述欠通信自主决策架构为采用循环神经网络进行学习，且代表智能体策略的多个神经网络之间没有信息交互的通信架构；

在所述欠通信自主决策架构内，各个智能体依靠自我观测的能力，获得部分环境信息，结合对其他智能体的观测与推断，进行自主决策，确定执行动作。

优选的，在步骤S2中，强化学习为非监督学习，其仿真训练步骤如下：

步骤S21：在机器人操作系统上创建执行任务对应的无人机和无人艇模型；

步骤S22：使用Gazebo创建合适的仿真环境，并将无人机和无人艇节点放到仿真环境中；

步骤S23：使用所述自主导航边缘智能模型对无人机和无人艇进行训练。

优选的，在步骤S7中选择相应的通讯架构包括以下步骤：

步骤S71：每个本地智能体分别向边缘云和核心云端发送信号，并通过边缘云与核心云的响应信号计算单个智能体分别到核心云端和边缘云的平均时延，其中核心云端的单体时延表示为

，边缘云的单体时延表示为

；

步骤S72：每个本地智能体将所述核心云端的单体时延与边缘云的单体时延发送至核心云端，所述核心云端分别计算所有智能体的到核心云端的平均时延t^cloud和边缘云的平均时延t^edge；

核心云端的平均时延t^cloud和边缘云的平均时延t^edge分别乘以相对应的偏好系数，获取核心云端的综合时延T^cloud和边缘云的综合时延T^edge；

步骤S73：判断核心云端的综合时延T^cloud和边缘云的综合时延T^edge是否大于阈值，若大于阈值，则选择使用所述欠通信自主决策架；

若否，则判断核心云端的综合时延T^cloud和边缘云的综合时延T^edge之间的大小，若核心云端的综合时延T^cloud大于边缘云的综合时延T^edge，则选择使用全通信自主决策架构；

若否，则选择使用全通信集中决策架构。

优选的，若选择使用欠通信自主决策架，则所述自主导航边缘智能模型参数更新工作由本地智能体所完成；

若选择全通信自主决策架构，则所述自主导航边缘智能模型的训练与参数更新工作由边缘云所完成；

若选择使用全通信集中决策架构，则所述自主导航边缘智能模型的训练与参数更新工作由核心云端所完成。

发明的有益效果：1.采取端边云计算方案，通过增加节点的方式，使得数据传输的速度更快，处理更及时，而且硬件的利用率更高。

2.采取深度学习算法来计算多智能体的协作任务，使得无人机和无人艇可以适应复杂多变的环境。

3.在无人机和无人艇在执行任务之前，通过测试时延，选择合适的深度强化学习通信架构，可以选择最合适的通信线路，降低通信时延。

附图说明

图1是本发明中无人机械协作系统的结构示意图；

图2是本发明中基于端边云及深度强化学习的无人机械协作方法的流程示意图；

图3是本发明中多智能体强化学习框架图；

图4是本发明中全通信集中决策架构图；

图5是本发明中全通信自主决策架构；

图6是本发明中欠通信自主决策架构。

具体实施方式

下面详细描述发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释发明，而不能理解为对发明的限制。

在发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在发明中的具体含义。

如图1～6所示，一种基于端边云及深度强化学习的无人机械协作方法，所述方法应用于基于端边云及深度强化学习的无人机械协作系统，所述基于端边云及深度强化学习的无人机械协作系统包括：

所述核心云端包括：边缘应用模型、调度模块、数据管理模块、第一通讯模块、第一DRL训练模块以及机-艇日志分析模块

所述本地智能体设置有第三DRL训练模块；

详细的，在边缘云和核心云端还可以保存多种边缘应用模型，如溢油检测、海航测绘以及海面巡检等模型，然后通过第一通讯模块或第二通讯模块发送到无人机和无人艇上。因为无人机和无人艇之间，不同型号的无人机之间以及边侧部署的不同服务器之间存在计算和存储能力不同的情况，调度模块负责边侧之间的调度，使得该协作平台充分利用闲置资源，减少整个计算系统的延迟和能耗。数据管理模块可以对从边侧或端侧上传上来的数据进行清洗、融合，并保存到存储设备中，供日后机-艇日志分析模块使用。sim2real方法为训模型的方法，通过该方法可以在使用的过程中在线对模型进行训练，具有极佳的方便性。第一DRL训练模块则负责无人艇和无人机作业任务的仿真训练和真实场景上的在线学习。在边侧的第二DRL训练模块，使得边侧同样具有在线学习能力。因无人艇和无人机的数据多元异构，需要使用数据聚合模块进行聚合之后再进行存储或分析等操作。同时，因不同模块之间的带宽不同，缓存管理模块可以将一些数据临时保留在缓存区中。在边缘网关中的节点设备管理模块负责进行无人机和无人艇设备的接入平台的工作，协议转换模块负责无人机和无人艇的不同总线设备之间的通信协议转换。在端侧，通过周边机-艇感知模块和周边机-艇轨迹预测模块的支持，可以在本地就实现避障模块上的避障功能。控制模块则通过底层控制中心对无人机和无人艇进行运动控制。为完成云侧下发的任务，无人机和无人艇通过数据采集模块获取传感器的数据，并通过通讯模块发送给边缘云或核心云端。

而在使用基于端边云及深度强化学习的无人机械协作系统前，需要设计系统内主要的自主导航边缘智能模型，以实现无人艇以及无人机的自主驾驶，在设计自主导航边缘智能模型完成后，将根据无人艇和无人机协作的作业要求对自主导航边缘智能模型进行基于深度强化学习的仿真训练，获得接近真实数据的自主导航边缘智能模型，能够减少在实施时无人艇或者无人机意外情况的发生。

在自主导航边缘智能模型训练完成后，就可以通过将自主导航边缘智能模型下发至核心云端的第一DRL训练模块，进行部署。随后在通过第一或第二通讯模块将第一DRL训练模块中部署的自主导航边缘智能模型下发至多个边缘云的第二DRL训练模块以及本地智能体的第三DRL训练模块进行部署。在部署完成后，无人机或者无人艇在工作时收集的数据可以反馈至第一DRL训练模块、第二DRL训练模块或第三DRL训练模块中，通过自主导航边缘智能模型分析出当前无人机或者无人艇所需要完成的动作，以实现本地智能体的自主运作，并以在线的形式使用sim2real方法继续对智能体进行深度强化学习的训练。

第一DRL训练模块设置于核心云端，具有最佳最快的运算速度，能够对自主导航边缘智能模型进行更新以及优化，获取无人机或者无人艇的最优动作方案，但是其离无人艇或无人机的通讯距离是最远的，可能导致数据传输存在时延，虽然得到最优动作方案，但是高时延的存在会导致本地智能体无法及时做出对应的动作。而第二DRL训练模块中设置于边缘云，边缘云其计算能力虽然没有核心云端的计算能力强，但是边缘云与本地智能体的距离是短于核心运动与本地智能体的距离，能够及时响应本地智能体收集的数据从而通过第二DRL训练模块中的自主导航边缘智能模型进行动作分析，获取到动作方案。但是边缘云与核心云端两者同样会收到网络通讯的时延影响，在时延高的情况下也是无法反馈本地智能体的动作方案。而第三DRL训练模块中设置于本地智能体，而本地智能体缺少高性能的处理芯片，无法对自主导航边缘智能模型进行训练与更新。但是本地智能体在收集到的数据能够直接传输到第三DRL训练模块中的自主导航边缘智能模型，不会受到时延的影响，能够在第一时间反馈出本体智能体的动作方案，保证本体智能体的运作。

所以在运作本体智能体时都会获取本体智能体到核心云端以及边侧端两者之间的时延，并根据时延的具体情况选择对应的通讯框架，并通过通讯框架将本体智能体所采集到的实时数据发送至对应的自主导航边缘智能模型中。以保证本体智能体的正常运作。

优选的，所述智能体为无人艇和/或无人机。

所有智能体在某一时刻t的联合动作为a_t，其表达公式为：

a_k∈A，a_i，k∈A_i；

总奖赏函数表达公式为：

由于使用真实的无人机以及无人艇进行真实训练产生模型数据的话，对于易损坏的无人机和无人艇来说，成本太高。因此，需要在逼真的仿真环境下，先对智能体进行预训练。

本发明采用的是具有遵循随机博弈过程的多智能体强化学习来构建自主导航边缘智能模型，其整个过程可描述为下图2所示。在训练的始处设置有多个智能体，以及将智能体防止在随机环境中，当遇到新的环境时，所述智能体会做出随机的动作，在智能体做出动作后，环境状态将会发生改变，环境状态改变后会对智能体反馈一个奖赏函数，通过分析这个奖赏行数就可以判断出智能体在某个环境中做出的动作对于环境状态的影响是好还是坏。而在实际运作无人艇或者无人机时，都是多个机械协同运作，所以在自主导航边缘智能模型中需要获取每一个智能体的动作，然后在计算其动作的结合即需要计算得到π，然后再将π输入到环境中，环境根据π做出状态变化，同时输出所有智能体共同构成联合策略π的总奖赏函数

具体通过分析这个总奖赏函数

即可获取最优的智能体在该环境中需要做出的动作。具体的可以通过定义每一个智能体的Q函数并求出Q函数的期望即可以获得最优联合策略π^*，所述Q函数的表达公式为

通过本发明的自主导航边缘智能模型能够在虚拟的环境中获取到智能体的某个环境中做出什么动作才能最快完成边缘应用模型的目标，无需真实的无人艇或无人机反馈运行数据，大大减少了实施成本。

所述步骤S7中包所述通讯架构包括全通信集中决策架构、全通信自主决策架构以及欠通信自主决策架构；

而在在训练时，在每个回合都应对仿真环境的视觉信息或者物理参数进行随机化，并加入一定的噪声扰动，以增强模型的鲁棒性，最终达到一定的效果。

优选的，在步骤S7中选择相应的通讯架构包括以下步骤：

，边缘云的单体时延表示为

；

若否，则选择使用全通信集中决策架构。

由于在实际工作中，是由多个无人机或者无人艇联合工作，在计算本地智能体到核心云端或者边缘云之间时延时，需要将多个无人机或者无人艇看作一个整体，所以获取其平均时延t^cloud和平均时延t^edge，再通过平均时延t^cloud和平均时延t^edge乘以其对应的偏好系数，获得综合时延T^cloud和边缘云的综合时延T^edge。而综合时延T^cloud和边缘云的综合时延T^edge由于乘以了偏好系数，更加能代表多个无人机或者无人艇联合工作的时延。

具体的当综合时延T^cloud和边缘云的综合时延T^edge均大于30ms时需要选择欠通信自主决策架作为通讯架构，并使用其第三DRL训练模块中的自主导航边缘智能模型指导无人机或无人艇做出相关动作。

所述本地智能体设置有周边机-艇感知模块、周边机-艇轨迹预测模块、避障模块和控制模块等多个模块在运行时能够收集到本地智能体附近的环境信息。当通讯选择使用全通信自主决策架构或全通信集中决策架构时，本体智能体收集的环境信息可以反馈至自主导航边缘智能模型中对里面的环境状态进行训练并参数更新获得本体智能体的动作方案。而当选择欠通信自主决策架时，是采用本体智能体上的自主导航边缘智能模型进行参数更新获得本体智能体的动作方案，由于其不具备高度的运算能力，所以无法对自主导航边缘智能模型进行训练。当然在本体智能体停止运作时，可以通过第一通讯模块与第二通讯模块将训练后的自主导航边缘智能模型下发至第三DRL训练模块，对第三DRL训练模块中的自主导航边缘智能模型进行更新。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了发明的实施例，本领域的普通技术人员可以理解：在不脱离发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，发明的范围由权利要求及其等同物限定。

Claims

1.一种基于端边云及深度强化学习的无人机械协作方法，其特征在于，所述方法应用于基于端边云及深度强化学习的无人机械协作系统，所述基于端边云及深度强化学习的无人机械协作系统包括：

所述本地智能体设置有第三DRL训练模块；

步骤S3：在核心云端的第一DRL训练模块中部署仿真训练获取的自主导航边缘智能模型，同时通过sim2real方法在线进行进一步的真实场景训练；

步骤S4：通过第一通讯模块将第一DRL训练模块中的自主导航边缘智能模型下发并部署至边侧端的第二DRL训练模块，同时通过sim2real方法在线进行进一步的真实场景训练；

步骤S5：将第二DRL训练模块上自主导航边缘智能模型产生的控制数据通过边缘网关进行协议转换之后下发到应用端，同时应用端中数据采集模块采集的数据也是通过边缘网关进行协议转换之后发送到边缘云；

步骤S6：通过第二通讯模块将第一DRL训练模块中的自主导航边缘智能模型下发至本地智能体的第三DRL训练模块，同时通过sim2real方法在线进行进一步的真实场景训练；

2.根据权利要求1所述的一种基于端边云及深度强化学习的无人机械协作方法，其特征在于，所述智能体为无人艇和/或无人机。

3.根据权利要求1所述的一种基于端边云及深度强化学习的无人机械协作方法，其特征在于，步骤S1中所述自主导航边缘智能模型属于多智能体，多智能体强化学习遵循随机博弈过程，其中随机博弈由多元组组成，其中在多元组内包括：环境状态、多个智能体以及奖励函数，在所述智能体根据环境状态做出相关动作，所述智能体在做出相关动作后所述环境状态反馈出奖励函数，通过分析所述奖励函数判断所述智能体做出的相关动作对于环境状态的影响；

所有智能体在某一时刻t的联合动作为a_t，其表达公式为：

其中a_i,t为智能体i在t时刻所执行的动作；

总奖赏函数表达公式为：

4.根据权利要求1所述的一种基于端边云及深度强化学习的无人机械协作方法，其特征在于，所述步骤S7中包所述通讯架构包括全通信集中决策架构、全通信自主决策架构以及欠通信自主决策架构；

5.根据权利要求1所述的一种基于端边云及深度强化学习的无人机械协作方法，其特征在于，在步骤S2中，强化学习为非监督学习，其仿真训练步骤如下：

6.根据权利要求4所述的一种基于端边云及深度强化学习的无人机械协作方法，其特征在于，在步骤S7中选择相应的通讯架构包括以下步骤：

边缘云的单体时延表示为

若否，则选择使用全通信集中决策架构。

7.根据权利要求6所述的一种基于端边云及深度强化学习的无人机械协作方法，其特征在于，若选择使用欠通信自主决策架，则所述自主导航边缘智能模型参数更新工作由本地智能体所完成；