CN115454646B - 一种面向集群无人机决策的多智能体强化学习加速方法 - Google Patents

一种面向集群无人机决策的多智能体强化学习加速方法 Download PDF

Info

Publication number
CN115454646B
CN115454646B CN202211198216.4A CN202211198216A CN115454646B CN 115454646 B CN115454646 B CN 115454646B CN 202211198216 A CN202211198216 A CN 202211198216A CN 115454646 B CN115454646 B CN 115454646B
Authority
CN
China
Prior art keywords
network
unmanned aerial
action
aerial vehicle
zynq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211198216.4A
Other languages
English (en)
Other versions
CN115454646A (zh
Inventor
李福生
吴泽桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202211198216.4A priority Critical patent/CN115454646B/zh
Publication of CN115454646A publication Critical patent/CN115454646A/zh
Application granted granted Critical
Publication of CN115454646B publication Critical patent/CN115454646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于计算机领域,具体提供一种面向集群无人机决策的多智能体强化学习加速方法能适用于应用集中式学习、分布式执行框架的多智能体强化学习算法加速。本发明在多块ZYNQ和一块主CPU组成的异构计算平台上完成多智能体强化学习算法的训练,其中,主CPU运行集群无人机虚拟仿真环境,在训练模式中各ZYNQ端FPGA运行动作网络、评价网络与目标动作网络、目标评价网络,通过ZYNQ端CPU与主CPU集群无人机虚拟仿真环境交互,完成训练并更新网络参数,完成训练后可直接将ZYNQ部署于无人机上;本发明能够根据智能体的数量灵活配置ZYNQ的数量,实现所有智能体并行计算,极大加速了训练过程,且设计流程简单灵活。

Description

一种面向集群无人机决策的多智能体强化学习加速方法
技术领域
本发明属于计算机领域,涉及集群无人机的决策控制技术,具体提供一种面向集群无人机决策的多智能体强化学习加速方法。
背景技术
多智能体强化学习是将强化学习和多智能体系统进行结合的一种算法,通过端到端的学习方式,协调多个智能体的活动,该算法广泛应用于群体机器人、无人机集群、物流调度、工厂排产、交通控制、电竞游戏、军事对抗等领域。如文献“Ryan Lowe,Yi Wu,AvivTamar,Jean Harb,Pieter Abbeel,Igor Mordatch:Multi-Agent Actor-Critic forMixed Cooperative-Competitive Environments.NIPS 2017:6379-6390”中公开了MADDPG(Multi-Agent Deep Deterministic Policy Gradient)算法,能够实现多个智能体的合作和竞争;又如文献“冯旸赫,程光权,施伟,等.基于深度强化学习的多机协同空战规划方法及系统[J].自动化学报,2021,47(7):14.”、“杜云,贾慧敏,邵士凯,等.面向多目标侦察任务的无人机航线规划[J].控制与决策,2021(036-005).”等将多智能体强化学习应用于集群无人机的决策控制上,但都没有真正进行部署。越来越多的研究被投入到集群无人机的决策控制中,智能体数量规模也不断扩大。
在类似于MADDPG的各种多智能体强化学习算法中,大多采用集中式训练,分布式执行的架构,每一个智能体都有对应的agent网络、Critic网络等网络,每一个智能体都需要和环境做交互、和其他智能体做通讯;智能体越多,需要训练的网络数量也会随之增多。目前业界普遍使用CPU+GPU的硬件架构完成多智能体强化学习的训练,但在这类硬件中,各个智能体的网络大多是串行运行的,随着智能体规模的扩大,训练时间也指数上升,而在部署阶段,该架构无法满足无人机集群控制等对实时性和功耗要求较高的任务。
FPGA芯片内集成了大量的数字电路和存储器,可以为专用的算法设计专门的电路,以此来加快计算效率,并且具有可重复配置的优势,可以适应不断迭代的算法。其中,Xilinx推出的具有CPU和FPGA两种异构计算单元的ZYNQ系列处理器,非常适合用于协同决策的多智能体强化学习算法在端侧进行快速高效的实现。
发明内容
本发明的目的在于针对上述现有的问题提出一种面向集群无人机决策的多智能体强化学习加速方法,能够在多块ZYNQ和一块主CPU组成的异构计算平台上完成多智能体强化学习算法的训练,而后直接将多块ZYNQ分别部署在各自对应的无人机上,该系统构架具有灵活、简单、易配置的优点。
为实现上述目的,本发明采用的技术方案为:
一种面向集群无人机决策的多智能体强化学习加速方法,基于主CPU与N块ZYNQ组成的异构计算平台进行,其中,ZYNQ包括:子CPU、FPGA、DDR与SD卡,子CPU与主CPU通过总线进行通讯;所述多智能体强化学习加速方法包括:训练阶段与推理部署阶段;
所述训练阶段包括以下步骤:
步骤1-1、每块ZYNQ初始化DDR内存空间:在DDR中固定位置存放评价网络、动作网络、目标评价网络与目标动作网络的网络参数与经验池数据;
步骤2-2、主CPU运行集群无人机虚拟仿真环境,将初始无人机观测状态S=(s1,s2,...,sn,...,sN)发送至各个ZYNQ;在ZYNQ端,子CPU将对应的个体无人机观测状态sn输入至FPGA作为动作网络的输入,FPGA从DDR中获取动作网络参数进行前向计算、并返回个体无人机动作值An至子CPU,再传送至主CPU;
步骤1-3、主CPU接收到所有ZYNQ传输的个体无人机动作值后,在集群无人机虚拟仿真环境中执行所有无人机动作,获得各个无人机的奖励值R与下一时刻所有无人机的观测状态S′,并将观测状态S′与奖励值R发送至各个ZYNQ;
步骤1-4、在ZYNQ端,子CPU将所有无人机当前观测状态S、无人机动作值An、接收到的所有无人机下一观测状态S′及奖励值R以<S,An,S′,R>格式存入DDR的经验池中,之后将观测状态更新为下一观测状态S′;
步骤1-5、在ZYNQ端,当经验池大于预设阈值后,子CPU抽取batch规模的观测状态S′,并通过AXI总线传输至BRAM中,FPGA从DDR中获取目标动作网络的网络参数、从BRAM中获取s′n作为目标动作网络的输入进行前向运算,获得无人机目标动作A′n;FPGA从DDR中获取目标评价网络的网络参数、从BRAM中获取S′,将S′与A′n合并作为目标评价网络输入进行前向计算,将输出Qn传输至子CPU中;子CPU从经验池抽取batch规模的奖励值R数据、并计算TDn:TDn=R+γ·Qn;子CPU从经验池抽取batch规模的S数据与An数据、并与TDn一起通过AXI总线传入FPGA,FPGA将S数据存入BRAM中,同时将S数据与An数据作为评价网络输入、TDn作为评价网络的训练标签对评价网络进行反向传播训练,更新评价网络的网络参数ωc
步骤1-6、完成评价网络训练后,FPGA从DDR中获取动作网络的网络参数,从BRAM中获取sn作为动作网络输入进行前向网络计算,获得新的动作值An(不再从DDR的经验库中获取);FPGA从DDR中获取评价网络的网络参数,将BRAM中的S与新的动作值An作为评价网络输入进行前向计算,获得评价值作为动作网络的训练标签,利用梯度上升法对动作网络进行训练,更新动作网络的网络参数ωa
步骤1-7、达到训练次数后,将评价网络的网络参数ωc赋值给目标评价网络,将动作网络的网络参数ωa赋值给目标动作网络;
步骤1-8、达到训练总次数后,将动作网络的网络参数存储至SD卡中,完成训练;
所述推理部署阶段包括以下步骤:
步骤2-1、将各个ZYNQ直接搭载至相对应的无人机上,子CPU从SD卡中读取动作网络的网络参数,将网络参数通过AXI总线传输至到BRAM上;无人机上子CPU获取真实的环境状态并输入至FPGA作为动作网络的输入,FPGA根据BRAM中网络参数进行前向计算,获得无人机动作值/>并返回至子CPU,子CPU将动作值/>发送至飞控系统中进行执行,完成推理部署。
基于上述技术方案,本发明的有益效果在于:
本发明提出一种面向集群无人机决策的多智能体强化学习加速方法,适用于应用集中式学习、分布式执行框架的多智能体强化学习算法加速;本发明在多块ZYNQ和一块主CPU组成的异构计算平台上完成多智能体强化学习算法的训练,其中,主CPU运行集群无人机虚拟仿真环境,在训练模式时多个ZYNQ在DDR内存中分配网络参数和经验池位置,各ZYNQ端FPGA运行动作网络、评价网络与目标动作网络、目标评价网络,通过ZYNQ端CPU与主CPU集群无人机虚拟仿真环境交互,采集数据存入各自经验池并进行训练,并行更新各个ZYNQ端网络参数,完成训练后可直接将ZYNQ部署于无人机上,训练及部署使用同一套计算平台,大大降低成本。本发明根据多智能体强化学习算法的特点,利用FPGA低功耗、可重配置的优点,使用多块ZYNQ对多智能体强化学习进行加速,其系统架构能够根据智能体的数量灵活配置ZYNQ的数量,实现所有智能体并行计算,极大加速了训练过程,且设计流程简单灵活。
附图说明
图1为本发明中面向集群无人机决策的多智能体强化学习加速方法对应的系统框架图。
图2为本发明中面向集群无人机决策的多智能体强化学习加速方法中ZYNQ端的流程示意图。
图3为本发明中面向集群无人机决策的多智能体强化学习加速方法中主CPU端的流程示意图。
图4为本发明中面向集群无人机决策的多智能体强化学习加速方法中训练阶段的数据交互示意图。
图5为本发明中面向集群无人机决策的多智能体强化学习加速方法中推理部署阶段的数据交互示意图。
具体实施方式
为使本发明的目的、技术方案与有益效果更加清楚明白,下面结合附图和实施例对本发明做进一步详细说明。
本实施例提供一种面向集群无人机决策的多智能体强化学习加速方法,基于主CPU与N块ZYNQ组成的异构计算平台进行,如图1所示;其中,主CPU运行集群无人机虚拟仿真环境;ZYNQ包括:子CPU、FPGA、DDR与SD卡,FPGA作为主计算设备,FPGA通过片内AXI总线与子CPU、DDR内存进行数据交互,FPGA直接读取BRAM,子CPU直接读取SD卡;子CPU与主CPU通过总线进行通讯。
所述多智能体强化学习加速方法包括:训练阶段与推理部署阶段,ZYNQ端的流程如图2所示,主CPU端的流程如图3所示;具体如下:
所述训练阶段中,FPGA运行评价网络、动作网络、目标评价网络与目标动作网络,DDR中存储评价网络、动作网络、目标评价网络与目标动作网络的网络参数与经验池数据,FPGA通过AXI总线读写DDR中网络参数,子CPU通过AXI总线读写DDR中经验池数据;
步骤1-1、每块ZYNQ初始化DDR内存空间:在DDR中固定位置存放评价网络、动作网络、目标评价网络与目标动作网络的网络参数与经验池数据;
步骤2-2、主CPU运行集群无人机虚拟仿真环境,将初始无人机观测状态S=(s1,s2,...,sn,...,sN)发送至各个ZYNQ;在ZYNQ端,子CPU将对应的个体无人机观测状态sn输入至FPGA作为动作网络的输入,FPGA从DDR中获取动作网络参数进行前向计算、并返回个体无人机动作值An至子CPU,再传送至主CPU;
步骤1-3、主CPU接收到所有ZYNQ传输的个体无人机动作值后,在集群无人机虚拟仿真环境中执行所有无人机动作,获得各个无人机的奖励值R与下一时刻所有无人机的观测状态S′,并将观测状态S′与奖励值R发送至各个ZYNQ;
步骤1-4、在ZYNQ端,子CPU将所有无人机当前观测状态S、无人机动作值An、接收到的所有无人机下一观测状态S′及奖励值R以<S,An,S′,R>格式存入DDR的经验池中,之后将观测状态更新为下一观测状态S′;
步骤1-5、在ZYNQ端,当经验池大于预设阈值后,子CPU抽取batch规模的观测状态S′,并通过AXI总线传输至BRAM中,FPGA从DDR中获取目标动作网络的网络参数、从BRAM中获取s′n作为目标动作网络的输入进行前向运算,获得无人机目标动作A′n;FPGA从DDR中获取目标评价网络的网络参数、从BRAM中获取S′,将S′与A′n合并作为目标评价网络输入进行前向计算,将输出Qn传输至子CPU中;子CPU从经验池抽取batch规模的奖励值R数据、并计算TDn:TDn=R+γ·Qn(γ为预设衰减因子);子CPU从经验池抽取batch规模的S数据与An数据、并与TDn一起通过AXI总线传入FPGA,FPGA将S数据存入BRAM中,同时将S数据与An数据作为评价网络输入、TDn作为评价网络的训练标签对评价网络进行反向传播训练,更新评价网络的网络参数ωc
步骤1-6、完成评价网络训练后,FPGA从DDR中获取动作网络的网络参数,从BRAM中获取sn作为动作网络输入进行前向网络计算,获得新的动作值An(不再从DDR的经验库中获取);FPGA从DDR中获取评价网络的网络参数,将BRAM中的S与新的动作值An作为评价网络输入进行前向计算,获得评价值作为动作网络的训练标签,利用梯度上升法对动作网络进行训练,更新动作网络的网络参数ωa
步骤1-7、达到训练次数后,将评价网络的网络参数ωc赋值给目标评价网络,将动作网络的网络参数ωa赋值给目标动作网络;
步骤1-8、达到训练总次数后,将动作网络的网络参数存储至SD卡中,完成训练;该过程中,主CPU与ZYNQ,以及ZYNQ内子CPU、FPGA、BRAM、DDR的数据交互如图4所示;
所述推理部署阶段中,FPGA运行评价网络运行动作网络;
步骤2-1、将各个ZYNQ直接搭载至相对应的无人机上,子CPU从SD卡中读取动作网络的网络参数,将网络参数通过AXI总线传输至到BRAM上;无人机上子CPU获取真实的环境状态并输入至FPGA作为动作网络的输入,FPGA根据BRAM中网络参数进行前向计算,获得无人机动作值/>并返回至子CPU,子CPU将动作值/>发送至飞控系统中进行执行,完成推理部署;该过程中,ZYNQ内子CPU、FPGA、BRAM的数据交互如图5所示。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (1)

1.一种面向集群无人机决策的多智能体强化学习加速方法,基于主CPU与N块ZYNQ组成的异构计算平台进行,其中,ZYNQ包括:子CPU、FPGA、DDR与SD卡,子CPU与主CPU通过总线进行通讯;所述多智能体强化学习加速方法包括:训练阶段与推理部署阶段;
所述训练阶段包括以下步骤:
步骤1-1、每块ZYNQ初始化DDR内存空间:在DDR中固定位置存放评价网络、动作网络、目标评价网络与目标动作网络的网络参数与经验池数据;
步骤2-2、主CPU运行集群无人机虚拟仿真环境,将初始无人机观测状态S=(s1,s2,...,sn,...,sN)发送至各个ZYNQ;在ZYNQ端,子CPU将对应的个体无人机观测状态sn输入至FPGA作为动作网络的输入,FPGA从DDR中获取动作网络参数进行前向计算、并返回个体无人机动作值An至子CPU,再传送至主CPU;
步骤1-3、主CPU接收到所有ZYNQ传输的个体无人机动作值后,在集群无人机虚拟仿真环境中执行所有无人机动作,获得各个无人机的奖励值R与下一时刻所有无人机的观测状态S′,并将观测状态S′与奖励值R发送至各个ZYNQ;
步骤1-4、在ZYNQ端,子CPU将所有无人机当前观测状态S、无人机动作值An、接收到的所有无人机下一观测状态S′及奖励值R以<S,An,S′,R>格式存入DDR的经验池中,之后将观测状态更新为下一观测状态S′;
步骤1-5、在ZYNQ端,当经验池大于预设阈值后,子CPU抽取batch规模的观测状态S′,并通过AXI总线传输至BRAM中,FPGA从DDR中获取目标动作网络的网络参数、从BRAM中获取s′n作为目标动作网络的输入进行前向运算,获得无人机目标动作A′n;FPGA从DDR中获取目标评价网络的网络参数、从BRAM中获取S′,将S′与A′n合并作为目标评价网络输入进行前向计算,将输出Qn传输至子CPU中;子CPU从经验池抽取batch规模的奖励值R数据、并计算TDn:TDn=R+γ·Qn;子CPU从经验池抽取batch规模的S数据与An数据、并与TDn一起通过AXI总线传入FPGA,FPGA将S数据存入BRAM中,同时将S数据与An数据作为评价网络输入、TDn作为评价网络的训练标签对评价网络进行反向传播训练,更新评价网络的网络参数ωc
步骤1-6、完成评价网络训练后,FPGA从DDR中获取动作网络的网络参数,从BRAM中获取sn作为动作网络输入进行前向网络计算,获得新的动作值An(不再从DDR的经验库中获取);FPGA从DDR中获取评价网络的网络参数,将BRAM中的S与新的动作值An作为评价网络输入进行前向计算,获得评价值作为动作网络的训练标签,利用梯度上升法对动作网络进行训练,更新动作网络的网络参数ωa
步骤1-7、达到训练次数后,将评价网络的网络参数ωc赋值给目标评价网络,将动作网络的网络参数ωa赋值给目标动作网络;
步骤1-8、达到训练总次数后,将动作网络的网络参数存储至SD卡中,完成训练;
所述推理部署阶段包括以下步骤:
步骤2-1、将各个ZYNQ直接搭载至相对应的无人机上,子CPU从SD卡中读取动作网络的网络参数,将该网络参数通过AXI总线传输至到BRAM上;无人机上子CPU获取真实的环境状态并输入至FPGA作为动作网络的输入,FPGA根据BRAM中网络参数进行前向计算,获得无人机动作值/>并返回至子CPU,子CPU将动作值/>发送至飞控系统中进行执行,完成推理部署。
CN202211198216.4A 2022-09-29 2022-09-29 一种面向集群无人机决策的多智能体强化学习加速方法 Active CN115454646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211198216.4A CN115454646B (zh) 2022-09-29 2022-09-29 一种面向集群无人机决策的多智能体强化学习加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211198216.4A CN115454646B (zh) 2022-09-29 2022-09-29 一种面向集群无人机决策的多智能体强化学习加速方法

Publications (2)

Publication Number Publication Date
CN115454646A CN115454646A (zh) 2022-12-09
CN115454646B true CN115454646B (zh) 2023-08-25

Family

ID=84306020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211198216.4A Active CN115454646B (zh) 2022-09-29 2022-09-29 一种面向集群无人机决策的多智能体强化学习加速方法

Country Status (1)

Country Link
CN (1) CN115454646B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101767648B1 (ko) * 2016-10-07 2017-08-14 주식회사 지오스토리 한국형 수심측량장비의 데이터 전처리를 위한 데이터 처리 소프트웨어가 탑재된 드론 비행 장치
CN109445456A (zh) * 2018-10-15 2019-03-08 清华大学 一种多无人机集群导航方法
CN109743210A (zh) * 2019-01-25 2019-05-10 电子科技大学 基于深度强化学习的无人机网络多用户接入控制方法
CN110873879A (zh) * 2018-08-30 2020-03-10 沈阳航空航天大学 一种多源异构传感器特征深度融合的装置及方法
CN112731477A (zh) * 2020-12-29 2021-04-30 联防信息科技(苏州)有限公司 基于zynq架构的无人机导航诱骗基带信号处理方法
CN114674492A (zh) * 2022-03-11 2022-06-28 哈尔滨工业大学 基于zynq的无人机纵向重心测量系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101767648B1 (ko) * 2016-10-07 2017-08-14 주식회사 지오스토리 한국형 수심측량장비의 데이터 전처리를 위한 데이터 처리 소프트웨어가 탑재된 드론 비행 장치
CN110873879A (zh) * 2018-08-30 2020-03-10 沈阳航空航天大学 一种多源异构传感器特征深度融合的装置及方法
CN109445456A (zh) * 2018-10-15 2019-03-08 清华大学 一种多无人机集群导航方法
CN109743210A (zh) * 2019-01-25 2019-05-10 电子科技大学 基于深度强化学习的无人机网络多用户接入控制方法
CN112731477A (zh) * 2020-12-29 2021-04-30 联防信息科技(苏州)有限公司 基于zynq架构的无人机导航诱骗基带信号处理方法
CN114674492A (zh) * 2022-03-11 2022-06-28 哈尔滨工业大学 基于zynq的无人机纵向重心测量系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多智能体深度强化学习的无人机集群自主决策;刘志飞 等;《信息技术与网络安全》;第41卷(第5期);全文 *

Also Published As

Publication number Publication date
CN115454646A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN113032904B (zh) 模型构建方法、任务分配方法、装置、设备及介质
CN113346944B (zh) 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN106776796B (zh) 基于云计算和大数据无人机任务规划系统和方法
CN114281104B (zh) 一种基于改进蚁群算法的多无人机协同调控方法
CN108985549A (zh) 基于量子鸽群机制的无人机任务分配方法
CN109597839B (zh) 一种基于航电作战态势的数据挖掘方法
CN114326827B (zh) 一种无人机集群多任务动态分配方法及系统
CN112732436B (zh) 一种多核处理器-单图形处理器的深度强化学习加速方法
CN107133088A (zh) 一种基于粒子群算法的多核系统任务调度方法
CN113660681A (zh) 一种应用于无人机集群辅助传输的多智能体资源优化方法
CN111157002B (zh) 基于多智能体进化算法的飞行器3d路径规划方法
Liao et al. Energy minimization for UAV swarm-enabled wireless inland ship MEC network with time windows
CN114895710A (zh) 一种无人机集群自主行为的控制方法及系统
CN114598721A (zh) 基于轨迹与资源联合优化的高能效数据收集方法及系统
CN115454646B (zh) 一种面向集群无人机决策的多智能体强化学习加速方法
Moser et al. Solving dynamic single-runway aircraft landing problems with extremal optimisation
Shang et al. A cross-layer optimization framework for distributed computing in IoT networks
Yu et al. An approach to coordinated control of structured unmanned swarm based on evolutionary game
CN116578354A (zh) 电力巡检无人机边缘计算任务卸载方法及装置
Zhao et al. Reliable DNN partitioning for UAV swarm
Yan et al. Research on task reassignment method of heterogeneous UAV in dynamic environment
CN110673651A (zh) 一种通信受限条件下的无人机群鲁棒编队方法
CN114564044B (zh) 一种输入限幅事件触发的无人机有限时间编队控制方法
CN115564374A (zh) 协同多任务重分配方法、装置、设备及可读存储介质
Tang et al. Dynamic scheduling for multi-level air defense with contingency situations based on Human-Intelligence collaboration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant