CN115454646B

CN115454646B - 一种面向集群无人机决策的多智能体强化学习加速方法

Info

Publication number: CN115454646B
Application number: CN202211198216.4A
Authority: CN
Inventors: 李福生; 吴泽桂
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-08-25
Anticipated expiration: 2042-09-29
Also published as: CN115454646A

Abstract

本发明属于计算机领域，具体提供一种面向集群无人机决策的多智能体强化学习加速方法能适用于应用集中式学习、分布式执行框架的多智能体强化学习算法加速。本发明在多块ZYNQ和一块主CPU组成的异构计算平台上完成多智能体强化学习算法的训练，其中，主CPU运行集群无人机虚拟仿真环境，在训练模式中各ZYNQ端FPGA运行动作网络、评价网络与目标动作网络、目标评价网络，通过ZYNQ端CPU与主CPU集群无人机虚拟仿真环境交互，完成训练并更新网络参数，完成训练后可直接将ZYNQ部署于无人机上；本发明能够根据智能体的数量灵活配置ZYNQ的数量，实现所有智能体并行计算，极大加速了训练过程，且设计流程简单灵活。

Description

一种面向集群无人机决策的多智能体强化学习加速方法

技术领域

本发明属于计算机领域，涉及集群无人机的决策控制技术，具体提供一种面向集群无人机决策的多智能体强化学习加速方法。

背景技术

多智能体强化学习是将强化学习和多智能体系统进行结合的一种算法，通过端到端的学习方式，协调多个智能体的活动，该算法广泛应用于群体机器人、无人机集群、物流调度、工厂排产、交通控制、电竞游戏、军事对抗等领域。如文献“Ryan Lowe,Yi Wu,AvivTamar,Jean Harb,Pieter Abbeel,Igor Mordatch:Multi-Agent Actor-Critic forMixed Cooperative-Competitive Environments.NIPS 2017:6379-6390”中公开了MADDPG(Multi-Agent Deep Deterministic Policy Gradient)算法，能够实现多个智能体的合作和竞争；又如文献“冯旸赫,程光权,施伟,等.基于深度强化学习的多机协同空战规划方法及系统[J].自动化学报,2021,47(7):14.”、“杜云,贾慧敏,邵士凯,等.面向多目标侦察任务的无人机航线规划[J].控制与决策,2021(036-005).”等将多智能体强化学习应用于集群无人机的决策控制上，但都没有真正进行部署。越来越多的研究被投入到集群无人机的决策控制中，智能体数量规模也不断扩大。

在类似于MADDPG的各种多智能体强化学习算法中，大多采用集中式训练，分布式执行的架构，每一个智能体都有对应的agent网络、Critic网络等网络，每一个智能体都需要和环境做交互、和其他智能体做通讯；智能体越多，需要训练的网络数量也会随之增多。目前业界普遍使用CPU+GPU的硬件架构完成多智能体强化学习的训练，但在这类硬件中，各个智能体的网络大多是串行运行的，随着智能体规模的扩大，训练时间也指数上升，而在部署阶段，该架构无法满足无人机集群控制等对实时性和功耗要求较高的任务。

FPGA芯片内集成了大量的数字电路和存储器，可以为专用的算法设计专门的电路，以此来加快计算效率，并且具有可重复配置的优势，可以适应不断迭代的算法。其中，Xilinx推出的具有CPU和FPGA两种异构计算单元的ZYNQ系列处理器，非常适合用于协同决策的多智能体强化学习算法在端侧进行快速高效的实现。

发明内容

本发明的目的在于针对上述现有的问题提出一种面向集群无人机决策的多智能体强化学习加速方法，能够在多块ZYNQ和一块主CPU组成的异构计算平台上完成多智能体强化学习算法的训练，而后直接将多块ZYNQ分别部署在各自对应的无人机上，该系统构架具有灵活、简单、易配置的优点。

为实现上述目的，本发明采用的技术方案为：

一种面向集群无人机决策的多智能体强化学习加速方法，基于主CPU与N块ZYNQ组成的异构计算平台进行，其中，ZYNQ包括：子CPU、FPGA、DDR与SD卡，子CPU与主CPU通过总线进行通讯；所述多智能体强化学习加速方法包括：训练阶段与推理部署阶段；

所述训练阶段包括以下步骤：

步骤1-1、每块ZYNQ初始化DDR内存空间：在DDR中固定位置存放评价网络、动作网络、目标评价网络与目标动作网络的网络参数与经验池数据；

步骤2-2、主CPU运行集群无人机虚拟仿真环境，将初始无人机观测状态S＝(s₁,s₂,...,s_n,...,s_N)发送至各个ZYNQ；在ZYNQ端，子CPU将对应的个体无人机观测状态s_n输入至FPGA作为动作网络的输入，FPGA从DDR中获取动作网络参数进行前向计算、并返回个体无人机动作值A_n至子CPU，再传送至主CPU；

步骤1-3、主CPU接收到所有ZYNQ传输的个体无人机动作值后，在集群无人机虚拟仿真环境中执行所有无人机动作，获得各个无人机的奖励值R与下一时刻所有无人机的观测状态S′，并将观测状态S′与奖励值R发送至各个ZYNQ；

步骤1-4、在ZYNQ端，子CPU将所有无人机当前观测状态S、无人机动作值A_n、接收到的所有无人机下一观测状态S′及奖励值R以<S,A_n,S′,R>格式存入DDR的经验池中，之后将观测状态更新为下一观测状态S′；

步骤1-5、在ZYNQ端，当经验池大于预设阈值后，子CPU抽取batch规模的观测状态S′，并通过AXI总线传输至BRAM中，FPGA从DDR中获取目标动作网络的网络参数、从BRAM中获取s′_n作为目标动作网络的输入进行前向运算，获得无人机目标动作A′_n；FPGA从DDR中获取目标评价网络的网络参数、从BRAM中获取S′，将S′与A′_n合并作为目标评价网络输入进行前向计算，将输出Q_n传输至子CPU中；子CPU从经验池抽取batch规模的奖励值R数据、并计算TD_n：TD_n＝R+γ·Q_n；子CPU从经验池抽取batch规模的S数据与A_n数据、并与TD_n一起通过AXI总线传入FPGA，FPGA将S数据存入BRAM中，同时将S数据与A_n数据作为评价网络输入、TD_n作为评价网络的训练标签对评价网络进行反向传播训练，更新评价网络的网络参数ω_c；

步骤1-6、完成评价网络训练后，FPGA从DDR中获取动作网络的网络参数，从BRAM中获取s_n作为动作网络输入进行前向网络计算，获得新的动作值A_n(不再从DDR的经验库中获取)；FPGA从DDR中获取评价网络的网络参数，将BRAM中的S与新的动作值A_n作为评价网络输入进行前向计算，获得评价值作为动作网络的训练标签，利用梯度上升法对动作网络进行训练，更新动作网络的网络参数ω_a；

步骤1-7、达到训练次数后，将评价网络的网络参数ω_c赋值给目标评价网络，将动作网络的网络参数ω_a赋值给目标动作网络；

步骤1-8、达到训练总次数后，将动作网络的网络参数存储至SD卡中，完成训练；

所述推理部署阶段包括以下步骤：

步骤2-1、将各个ZYNQ直接搭载至相对应的无人机上，子CPU从SD卡中读取动作网络的网络参数，将网络参数通过AXI总线传输至到BRAM上；无人机上子CPU获取真实的环境状态并输入至FPGA作为动作网络的输入，FPGA根据BRAM中网络参数进行前向计算，获得无人机动作值/>并返回至子CPU，子CPU将动作值/>发送至飞控系统中进行执行，完成推理部署。

基于上述技术方案，本发明的有益效果在于：

本发明提出一种面向集群无人机决策的多智能体强化学习加速方法，适用于应用集中式学习、分布式执行框架的多智能体强化学习算法加速；本发明在多块ZYNQ和一块主CPU组成的异构计算平台上完成多智能体强化学习算法的训练，其中，主CPU运行集群无人机虚拟仿真环境，在训练模式时多个ZYNQ在DDR内存中分配网络参数和经验池位置，各ZYNQ端FPGA运行动作网络、评价网络与目标动作网络、目标评价网络，通过ZYNQ端CPU与主CPU集群无人机虚拟仿真环境交互，采集数据存入各自经验池并进行训练，并行更新各个ZYNQ端网络参数，完成训练后可直接将ZYNQ部署于无人机上，训练及部署使用同一套计算平台，大大降低成本。本发明根据多智能体强化学习算法的特点，利用FPGA低功耗、可重配置的优点，使用多块ZYNQ对多智能体强化学习进行加速，其系统架构能够根据智能体的数量灵活配置ZYNQ的数量，实现所有智能体并行计算，极大加速了训练过程，且设计流程简单灵活。

附图说明

图1为本发明中面向集群无人机决策的多智能体强化学习加速方法对应的系统框架图。

图2为本发明中面向集群无人机决策的多智能体强化学习加速方法中ZYNQ端的流程示意图。

图3为本发明中面向集群无人机决策的多智能体强化学习加速方法中主CPU端的流程示意图。

图4为本发明中面向集群无人机决策的多智能体强化学习加速方法中训练阶段的数据交互示意图。

图5为本发明中面向集群无人机决策的多智能体强化学习加速方法中推理部署阶段的数据交互示意图。

具体实施方式

为使本发明的目的、技术方案与有益效果更加清楚明白，下面结合附图和实施例对本发明做进一步详细说明。

本实施例提供一种面向集群无人机决策的多智能体强化学习加速方法，基于主CPU与N块ZYNQ组成的异构计算平台进行，如图1所示；其中，主CPU运行集群无人机虚拟仿真环境；ZYNQ包括：子CPU、FPGA、DDR与SD卡，FPGA作为主计算设备，FPGA通过片内AXI总线与子CPU、DDR内存进行数据交互，FPGA直接读取BRAM，子CPU直接读取SD卡；子CPU与主CPU通过总线进行通讯。

所述多智能体强化学习加速方法包括：训练阶段与推理部署阶段，ZYNQ端的流程如图2所示，主CPU端的流程如图3所示；具体如下：

所述训练阶段中，FPGA运行评价网络、动作网络、目标评价网络与目标动作网络，DDR中存储评价网络、动作网络、目标评价网络与目标动作网络的网络参数与经验池数据，FPGA通过AXI总线读写DDR中网络参数，子CPU通过AXI总线读写DDR中经验池数据；

步骤1-5、在ZYNQ端，当经验池大于预设阈值后，子CPU抽取batch规模的观测状态S′，并通过AXI总线传输至BRAM中，FPGA从DDR中获取目标动作网络的网络参数、从BRAM中获取s′_n作为目标动作网络的输入进行前向运算，获得无人机目标动作A′_n；FPGA从DDR中获取目标评价网络的网络参数、从BRAM中获取S′，将S′与A′_n合并作为目标评价网络输入进行前向计算，将输出Q_n传输至子CPU中；子CPU从经验池抽取batch规模的奖励值R数据、并计算TD_n：TD_n＝R+γ·Q_n(γ为预设衰减因子)；子CPU从经验池抽取batch规模的S数据与A_n数据、并与TD_n一起通过AXI总线传入FPGA，FPGA将S数据存入BRAM中，同时将S数据与A_n数据作为评价网络输入、TD_n作为评价网络的训练标签对评价网络进行反向传播训练，更新评价网络的网络参数ω_c；

步骤1-8、达到训练总次数后，将动作网络的网络参数存储至SD卡中，完成训练；该过程中，主CPU与ZYNQ，以及ZYNQ内子CPU、FPGA、BRAM、DDR的数据交互如图4所示；

所述推理部署阶段中，FPGA运行评价网络运行动作网络；

步骤2-1、将各个ZYNQ直接搭载至相对应的无人机上，子CPU从SD卡中读取动作网络的网络参数，将网络参数通过AXI总线传输至到BRAM上；无人机上子CPU获取真实的环境状态并输入至FPGA作为动作网络的输入，FPGA根据BRAM中网络参数进行前向计算，获得无人机动作值/>并返回至子CPU，子CPU将动作值/>发送至飞控系统中进行执行，完成推理部署；该过程中，ZYNQ内子CPU、FPGA、BRAM的数据交互如图5所示。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种面向集群无人机决策的多智能体强化学习加速方法，基于主CPU与N块ZYNQ组成的异构计算平台进行，其中，ZYNQ包括：子CPU、FPGA、DDR与SD卡，子CPU与主CPU通过总线进行通讯；所述多智能体强化学习加速方法包括：训练阶段与推理部署阶段；

所述训练阶段包括以下步骤：

所述推理部署阶段包括以下步骤：

步骤2-1、将各个ZYNQ直接搭载至相对应的无人机上，子CPU从SD卡中读取动作网络的网络参数，将该网络参数通过AXI总线传输至到BRAM上；无人机上子CPU获取真实的环境状态并输入至FPGA作为动作网络的输入，FPGA根据BRAM中网络参数进行前向计算，获得无人机动作值/>并返回至子CPU，子CPU将动作值/>发送至飞控系统中进行执行，完成推理部署。