CN112784445B - 一种飞行控制智能体的并行分布式计算系统及方法 - Google Patents

一种飞行控制智能体的并行分布式计算系统及方法 Download PDF

Info

Publication number
CN112784445B
CN112784445B CN202110265442.9A CN202110265442A CN112784445B CN 112784445 B CN112784445 B CN 112784445B CN 202110265442 A CN202110265442 A CN 202110265442A CN 112784445 B CN112784445 B CN 112784445B
Authority
CN
China
Prior art keywords
simulation
module
scheduling
task
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110265442.9A
Other languages
English (en)
Other versions
CN112784445A (zh
Inventor
何扬
季玉龙
俎文强
黄操
吴志红
白泞玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110265442.9A priority Critical patent/CN112784445B/zh
Publication of CN112784445A publication Critical patent/CN112784445A/zh
Application granted granted Critical
Publication of CN112784445B publication Critical patent/CN112784445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种飞行控制智能体的并行分布式计算系统及方法,系统包括全局调度模块、数据处理模块和仿真模拟模块,针对航空控制领域强化学习而设计;解决其它飞行仿真模拟器都无法统一直接地完成强化学习并行计算的问题;计算方法可以将空中航空领域主要计算囊括并分布式化,解决了仿真模拟计算进程可以在多台机器上实现高效并行处理的问题,也可以在集群适用于大型的计算;其技术方案要点是:包括深度强化学习组件、全局调度组件、局部调度组件用于任务调度,进程调度;状态控制程序,用于信息状态供给全局调度算法;数据同步组件,用于计算完成的数据同步。本发明具有高吞吐量低延迟的数据传输能力;支持飞行训练任务的动态构建。

Description

一种飞行控制智能体的并行分布式计算系统及方法
技术领域
本发明涉及智能空管技术领域,具体为一种飞行控制智能体的并行分布式计算系统及方法。
背景技术
自由空战代表了无人机的未来发展方向。空战行为以机动轨迹的形式表示,其目的是通过机动获得战场形势的优势,构成武器发射的条件,最大限度地发挥武器性能,最大程度地消灭敌人并保护我们的飞行员。
在新大纲自由空战训练中,要求飞机有更高精度和更快速的反应来防御敌机的进攻并做出相应的攻击,在这种情况下,飞行员将无法控制飞机在最短反应时间内进行最佳机动。为了保护飞行员的生命,无人驾驶飞行器在空战中扮演着越来越重要的角色。但是保护飞行员的安全并不是提供的唯一优势,无人作战飞机能够以比有人驾驶飞机更低的成本执行某些任务。目前,无人作战飞机可以执行一些基本的空对地打击任务。此外,下一代无人作战飞机的功能将更加强大。
未来空战是空军武器装备体系与体系之间的对抗,无人作战飞机是一种全新的空中武器系统,无人作战飞机从过去主要是执行空中侦察·战场监视和战斗毁伤评估等任务的作战支援装备,升级成为能执行压制敌防空系统·对地攻击,诊治可以执行对空作战的主要作战装备之一。而在现代仿真理论和仿真技术强力支持下,可以在现代高技术的仿真复杂战场环境条件下,进行无危险或无损伤的仿真对抗训练,进行作战行动预演和现代作战理论、作战原则、作战方式的战法研究。因此,为了满足预期的和更强大的功能,有必要提高无人作战飞机的自主性。将智能控制器加载到无人作战飞机上,可以有效地增加无人作战飞机的作战能力。由于应具有适应动态环境的能力和从动态环境中学习的能力,这个问题非常复杂。受到深度强化学习的控制机器人的启发,使用深度强化学习算法来控制操纵杆,油门和踏板以实现飞行控制。
强化学习是人工智能中讨论最多、关注最多和考虑最多的话题之一,因为它有可能改变大多数环境。根据问题的复杂性,强化学习算法可以在必要时随时间保持适应环境,以便长期获得最大的回报。一个通过强化学习来学会行走的机器人将通过尝试不同的方法实现目标,获得有关这些方式成功的反馈,然后进行调整直到达到行走的目标。大步伐会让机器人摔倒,通过调整步距来判断这是否是保持直立的原因,通过不同的变化持续学习,最终能够行走。以上说明,奖励是保持直立,惩罚就是摔倒,机器人基于对其动作的反馈信息进而优化并强化。强化学习需要大量的数据,这就是为什么这项技术的第一个应用领域是模拟数据,如游戏和机器人。
战术理论的研究与创新,以及新机型新战法的高难度训练,都需要借助仿真环境的强力支撑,因此,体系作战仿真已成为高技术条件下加快空军战斗力生成模式转变的重要手段。空中作战具有作战对抗激烈、态势变化迅速、战术运用灵活等重要特性,其作战模拟训练设备按规模可以分为战役级、战术级、作战平台级及精确武器级仿真平台,各级既有独特的任务和功能,又可以联为一体,构建成规模更大的体系训练平台。战术级仿真系统起着上下层衔接的核心作用,是作战仿真系统中关注问题最多的一级系统,无人作战飞机的研究会对作战仿真技术发展起着非常重要的意义。
将强化学习引领的人工智能技术应用在战术级仿真系统上能够有效提高计算机生成兵力的智能化水平。无人作战飞机的深度强化学习过程需要通过随机采样,通过判定结果价值来反馈更新神经网络的参数,而空战过程发生在三维的空间内,在位置、速度等多个参数上跟踪给观测空间的大小造成了指数级别的增长,现有技术的单智能体训练环境无法承担智能空战的研究需求。
发明内容
针对上述问题,本发明的目的在于提供一种飞行控制智能体的并行分布式计算系统及方法,增强智能体与仿真环境的交互速度,减少深度强化学习的训练时间,加快作战飞机智能体的训练速度,且观测环境更加具体,将仿真性能从三自由度提升到六自由度。技术方案如下:
一种飞行控制智能体的并行分布式计算系统,包括:
1)全局调度模块:管理所有的计算资源,根据训练任务,随机选取某服务器作为主节点,即全局调度节点,作为集中的服务端,是所有计算节点之间传递消息的纽带;根据调度策略调配服务器资源;去中心化管理仿真节点和智能体节点:对任务进行显式的资源约束,对所有节点的计算资源进行硬件无关的抽象,将所有资源归一化管理,每个节点独立的对自己所看到的任务进行调度;调度策略的特征点在于,对于每个任务计算任务的权重设置;调度策略通过智能体的配置文件读取调度资源的量值为等待训练任务产生调度权重,按权重进行节点选择,并将任务调度过去;局部调度模块则根据计算任务调配单个服务器的进程来完成计算任务;
2)并行数据处理模块:负责各个节点之间的数据通信,强化学习的特征在于MDP决策模型,当多机训练时智能体与环境之间的观测数据增大,导致交互延时增大精度降低;以DIS协议的为基础,将多个飞机的六自由度数据通过加上时间戳的方式,合并发送数据以达到提高精度和效率的目的;并行数据处理模块与各个仿真节点的进程之间有通信管道,智能体训练时,各个数据监控线程将收集的数据缓存到缓存队列并加上时间信息,每隔一段时间将该阶段的数据序列化为字节流发送给智能体节点分析并学习数据;
3)仿真模拟模块:用于模拟仿真战斗机的训练环境,包括仿真数据存储模块、分布式网络支撑模块、强化学习控制模块、仿真核心模块、仿真命令子模块、记录回放模块和运动核心子模块;
所述仿真数据存储模块用于存储仿真数据,为仿真核心模块和记录回放模块提供数据读写支持;
所述分布式网络支撑模块用于信息发送和信息接收;
所述强化学习控制模块用于解析网络命令和封装环境信息交由分布式网络支撑模块发送与接收;
所述仿真核心模块用于解析训练命令,将控制命令送入运动核心子模块进行仿真计算,更新飞机六自由度信息;
所述仿真命令子模块读取强化学习控制模块的处理命令,根据命令修改仿真参数,包括航空器的当前推力;
所述记录回放模块从仿真数据存储模块中读取仿真数据,进行训练信息回放处理,并记录训练信息;
所述运动核心子模块从仿真数据存储子模块读取航空器性能参数,解析数据库中飞机的气动模型,将飞机模型数据建模,提供物理仿真基础;运动核心子模块中的仿真循环计算出新的状态写入仿真数据存储模块提供给分布式网络支撑子模块发送数据。
进一步的,所述调度策略包括确定飞行训练任务调度的目标机器;如果计算节点负荷可以完成,则在该节点创建进程开始计算;如果机器计算资源不足,则跳过当前任务,并将飞行训练任务返回全局调度节点的任务队列。
更进一步的,所述仿真数据包括:
机场信息:机场跑道信息、机场滑行线信息、机场关键点信息、机场塔台信息;
空域信息:导航台、固定点、扇区信息;
航空器性能参数:包括翼展、机长、地面滑行速度等;
环境信息:云、风信息。
更进一步的,还包括多台多机种仿真器,每台仿真器根据空战训练需求模拟多种机型,并模拟多机内的各种编队空战。
一种飞行控制智能体的并行分布式计算方法,包括以下步骤:
步骤1:仿真设置:在各节点上设置脚本参数,包括飞行智能体任务资源需求向量,根据收集到的数据,生成仿真核心模块的运行参数;仿真参数生成之后,通过全局调度算法将仿真参数输入仿真模拟节点,并启动仿真循环;
步骤2:系统根据智能体训练任务向全局调度节点提交需要运行的任务,通过任务资源需求向量、预期训练时间进行描述;全局调度节点收到用户提交的任务后将其放置于待训练调度任务队列末尾,等待被执行;
步骤3:每隔一定时间,全局调度节点从前往后扫描待调度任务队列中的所有任务,并计算出应该把该训练任务调度到哪一台机器上的仿真训练器进行训练,如果该调度动作合法,即目标机器资源充足可以运行当前任务,则将该任务和调度决策提交给任务调度模块;
步骤4:初始化模型结构,全局调度节点给agent节点发送初始化模型指令,agent节点依照控制参数,初始化智能体的策略神经网络和价值神经网络的超参数;
步骤5:建立agent节点和仿真模拟节点之间的联系,仿真模拟节点观测智能体六自由度的信息,开始各个任务的智能体仿真训练,计算奖励值更新策略网络和价值网络;
步骤6:训练成功之后,系统将智能训练好的神经网络权重保存在指定目录,以便调用模型。
进一步的,所述步骤5中,飞行控制智能体采用深度神经网络来表示智能体算法的策略函数和值函数,将飞机的六自由度作为深度强化学习的状态s,输入所述价值神经网络对状态s进行评估,进而通过计算策略网络来选择动作a',然后再次与飞行仿真模拟环境交互获取状态s'和reward进而更新网络参数。
更进一步的,当进行多对多空战时训练任务时,动作a'的一维向量表示为飞机的杆舵的三个偏移量和油门作为输入。
本发明的有益效果是:本发明在仿真设置阶段,引入了并行计算的仿真方法,增强了智能体与仿真环境的交互速度使得深度强化学习的训练时间大大减少;引入了飞行仿真的去中心化管理仿真模式,在DIS协议的基础上将飞行数据加上同步时间戳以保证数据的时间有序性,使得多节点的仿真观测数据精度达到深度强化学习的仿真要求;引入了基于权重的节点调度模型,提高了训练任务的计算机利用率。
在训练阶段,引入了六自由度环境,从三自由度提升到六自由度的仿真性能提升;记录回放使得离线数据可以用来更新策略神经网络和价值神经网络。
附图说明
图1是本发明并行飞行智能体计算的流程图。
图2是本发明的仿真模拟模块数据图。
图3是本发明的并行分布式计算系统基础结构图;分布式计算基础结构图显示节点与节点之间的通信方式,以及主节点通过对象索引表和飞行任务索引表来记录训练信息的方式。
图4是深度强化学习观测智能体六自由度状态示意图;(1)航空器经纬高示意图;(2)航空器姿态的信息示意图。
图5本发明飞行控制智能体的并行分布式计算系统结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。
本发明提出一种飞行控制智能体的并行分布式计算方法,将计算机集群资源管理和飞行作战任务调度建模,按照训练任务的参数来调度集群中的计算资源,决定仿真训练的需求和算法的需求。本发明使用作战任务的基础优先级,并根据作战任务的需求,确定集群计算机的调度顺序。
对于每个智能体的训练流程都是相同的,如下所示:
1、初始化模型结构。
2、加载模型内容。
3、启动仿真模拟机,观测飞机六自由度状态。
4、输出动作交由模拟机模拟,并返回下一步的观测状态。
5、将状态返回计算出action,计算TD-error更新价值网络。
6、更新策略神经网络并准备下一次环境迭代。
飞行模拟软件已开发成用于深度强化学习的并行分布式计算环境。此实验需要代理主机与仿真环境之间的高频数据交互,这需要训练过程中数据的高精度。在仿真环境中,除了仿真主线程外,虚拟仿真环境中还存在一个数据发送和接收分布式网络支撑模块,以确保正确传输数据。仿真模拟环境和agent之间的通信可以通过DIS协议实现。
通过此通信过程,可以将数据序列化为字节流,并通过局域网在环境和通信节点之间,并且飞行模拟软件提供了接口。因此,每当anget节点数据获取请求时,它将通过此接口获取无人作战飞机的当前状态数据。接下来,将数据序列化为字节并将其发送给agent节点,代理将通过反序列化获得飞机观测数据。然后,可深度强化学习算法就通过环境的值来计算并更新神经网络。
如图5所示,本发明主要包含待全局调度模块,并行数据处理模块,仿真模拟模块组成,主要分为仿真设置和智能体训练两大过程。
所述全局调度模块,全局调度节点作为集中的服务端,是节点之间传递消息的纽带。每个服务节点都有一个共用的对象保存表。局部调度节点内部的调度,同时通过全局调度节点来和其他服务端上的节点通信。对象保存模块时间也有通信,作用是传递计算节点之间的数据。局部调度决策包括确定飞行训练任务调度的目标机器;如果计算节点负荷可以完成,则在该节点创建进程开始计算;如果机器计算资源不足,则跳过当前任务,并将飞行训练任务返回全局调度节点的任务队列。
全局调度模块的创新之处在于,去中心化管理仿真节点和智能体节点,它对任务进行显式的资源约束,因此需要对所有节点的资源进行硬件无关的抽象,将所有资源归一化管理,每个节点独立的对自己所看到的任务进行调度。智能体节点是正在为智能体计算仿真结果的服务器,一个智能体节点上可以运行多个智能体程序。仿真节点是正在运行仿真程序的仿真服务器,智能体节点和仿真节点都是全局调度模块对计算资源的抽象表示。
调度策略的特征点在于,对于每个任务有计算任务的权重设置,在调度资源定义了三个量值分别是:
1)计算资源的量值
2)不同资源及其量值集合
3)不同资源的等级标号
调度策略通过智能体的配置文件读取三个量值为等待训练任务产生调度权重,按权重进行节点选择,并将任务调度过去。
所述并行数据处理模块:负责各个节点之间的数据通信,强化学习的特征在于MDP决策模型,当多机训练时智能体与环境之间的观测数据增大,导致交互延时增大精度降低。并行数据处理模块的创新点为:以DIS协议的为基础,将多个飞机的六自由度数据通过加上时间戳的方式,合并发送数据以达到提高精度和效率的目的。并行数据处理模块与各个仿真节点的进程之间有通信管道,智能体训练时,各个数据监控线程将收集的数据缓存到缓存队列并加上时间信息,每隔一段时间将该阶段的数据序列化为字节流发送给智能体节点分析并学习数据。
所述仿真模拟模块,用于模拟仿真战斗机的训练环境,其中包括了分布式网络支撑模块,负责信息发送和信息接收;强化学习控制模块,负责解析网络命令和封装环境信息交由分布式网络支撑模块发送与接收;仿真核心模块:以飞行结算,气动模拟,解析仿真命令和运动核心等功能所设计的;记录回放模块:深度强化学习可以从经验中学习,大大提高了智能体训练效率。
模拟仿真战斗机的训练环境,负责根据训练任务调用飞行解算模拟飞机启动、数据控制存储模块和数据并行通信单元来处理数据之间的通信。运动核心子模块:解析数据库中飞机的气动模型,将飞机模型数据建模,提供物理仿真基础。数据控制存储模块为仿真核心模块和记录回放模块提供数据读写支持。仿真核心子模块,其作用为解析训练命令,将控制命令送入运动核心进行仿真计算,更新飞机六自由度信息。
仿真设置过程即在某个节点上设置脚本参数,包括飞行智能体任务资源需求向量,根据收集到的数据,生成图2仿真核心模块的运行参数。仿真参数生成之后,全局调度算法将仿真参数输入仿真模拟节点启动仿真循环,仿真循环开始之后,开始进入运行过程。运行过程包含如下的步骤:
1)系统根据智能体训练任务向全局调度节点提交想要运行的任务,使用任务资源需求向量、预期训练时间进行描述。调度节点收到用户提交的任务后将其放置于待训练调度任务队列末尾,等待被执行。
2)每隔一定时间,全局调度节点从前往后扫描待调度任务队列中的所有任务,并计算出应该把该训练任务调度到哪一台机器上的仿真训练器进行训练,如果该调度动作合法,即目标机器资源充足可以运行当前任务,则将该任务和调度决策提交给任务调度模块。
3)初始化模型结构,全局节点给agent节点发送初始化模型指令,agent节点依照控制参数,初始化智能体的策略神经网络和价值神经网络和超参数。
4)建立agent节点和仿真节点之间的联系,仿真模拟节点观测图4的信息(包括了经度纬度高度,姿态信息),开始各个任务的智能体仿真训练,计算奖励值更新策略网络和价值网络。
飞行控制智能体采用深度神经网络来表示智能体算法的策略函数和值函数,将飞机的六自由度作为深度强化学习的状态s,输入所述价值神经网络对状态s进行评估,进而通过计算策略网络来选择动作a',然后再次与飞行仿真模拟环境交互获取状态s'和reward进而更新网络参数。当进行多对多空战时训练任务时,动作a'的一维向量表示为飞机的杆舵的三个偏移量和油门作为输入。
5)训练成功之后,系统将智能训练好的神经网络权重保存在指定目录,方便调用模型。

Claims (7)

1.一种飞行控制智能体的并行分布式计算系统,其特征在于,包括:
1)全局调度模块:管理所有的计算资源,根据训练任务,随机选取某服务器作为主节点,即全局调度节点,作为集中的服务端,是所有计算节点之间传递消息的纽带;根据调度策略调配服务器资源;去中心化管理仿真节点和智能体节点:对任务进行显式的资源约束,对所有节点的计算资源进行硬件无关的抽象,将所有资源归一化管理,每个节点独立的对自己所看到的任务进行调度;调度策略的特征点在于,对于每个任务计算任务的权重设置;调度策略通过智能体的配置文件读取调度资源的量值为等待训练任务产生调度权重,按权重进行节点选择,并将任务调度过去;局部调度模块则根据计算任务调配单个服务器的进程来完成计算任务;
2)并行数据处理模块:负责各个节点之间的数据通信,强化学习的特征在于MDP决策模型,当多机训练时智能体与环境之间的观测数据增大,导致交互延时增大精度降低;以DIS协议为基础,将多个飞机的六自由度数据通过加上时间戳的方式,合并发送数据以达到提高精度和效率的目的;并行数据处理模块与各个仿真节点的进程之间有通信管道,智能体训练时,各个数据监控线程将收集的数据缓存到缓存队列并加上时间信息,每隔一段时间将该段时间的数据序列化为字节流发送给智能体节点分析并学习数据;
3)仿真模拟模块:用于模拟仿真战斗机的训练环境,包括仿真数据存储模块、分布式网络支撑模块、强化学习控制模块、仿真核心模块、仿真命令子模块、记录回放模块和运动核心子模块;
所述仿真数据存储模块用于存储仿真数据,为仿真核心模块和记录回放模块提供数据读写支持;
所述分布式网络支撑模块用于信息发送和信息接收;
所述强化学习控制模块用于解析网络命令和封装环境信息交由分布式网络支撑模块发送与接收;
所述仿真核心模块用于解析训练命令,将控制命令送入运动核心子模块进行仿真计算,更新飞机六自由度信息;
所述仿真命令子模块读取强化学习控制模块的处理命令,根据命令修改仿真参数,包括航空器的当前推力;
所述记录回放模块从仿真数据存储模块中读取仿真数据,进行训练信息回放处理,并记录训练信息;
所述运动核心子模块从仿真数据存储子模块读取航空器性能参数,解析数据库中飞机的气动模型,将飞机模型数据建模,提供物理仿真基础;运动核心子模块中的仿真循环计算出新的状态写入仿真数据存储模块提供给分布式网络支撑子模块发送数据。
2.根据权利要求1所述的飞行控制智能体的并行分布式计算系统,其特征在于,所述局部调度模块确定飞行训练任务调度的目标机器;如果计算节点负荷可以完成,则在该节点创建进程开始计算;如果机器计算资源不足,则跳过当前任务,并将飞行训练任务返回全局调度节点的任务队列。
3.根据权利要求1所述的飞行控制智能体的并行分布式计算系统,其特征在于,所述仿真数据包括:
机场信息:包括机场跑道信息、机场滑行线信息、机场关键点信息和机场塔台信息;
空域信息:包括导航台、固定点和扇区信息;
航空器性能参数:包括翼展、机长和地面滑行速度;
环境信息:包括云信息和风信息。
4.根据权利要求1所述的飞行控制智能体的并行分布式计算系统,其特征在于,还包括多台多机种仿真器,每台仿真器根据空战训练需求模拟多种机型,并模拟多机内的各种编队空战。
5.一种飞行控制智能体的并行分布式计算方法,其特征在于,包括以下步骤:
步骤1:仿真设置:在各节点上设置脚本参数,包括飞行智能体任务资源需求向量,根据收集到的数据,生成仿真核心模块的运行参数;仿真参数生成之后,通过全局调度模块将仿真参数输入仿真模拟节点,并启动仿真循环;
步骤2:系统根据智能体训练任务向全局调度节点提交需要运行的任务,通过任务资源需求向量和预期训练时间进行描述;全局调度节点收到用户提交的任务后将其放置于待训练调度任务队列末尾,等待被执行;
步骤3:每隔特定时间,全局调度节点从前往后扫描待调度任务队列中的所有任务,并计算出应该把该训练任务调度到哪一台机器上的仿真训练器进行训练,如果该调度动作合法,即目标机器资源充足可以运行当前任务,则将该任务和调度决策提交给任务调度模块;
步骤4:初始化模型结构,全局调度节点给agent节点发送初始化模型指令,agent节点依照控制参数,初始化智能体的策略神经网络和价值神经网络的超参数;
步骤5:建立agent节点和仿真模拟节点之间的联系,仿真模拟节点观测智能体六自由度的信息,开始各个任务的智能体仿真训练,计算奖励值更新策略网络和价值网络;
步骤6:训练成功之后,系统将智能训练好的神经网络权重保存在指定目录,以便调用模型。
6.根据权利要求5所述的飞行控制智能体的并行分布式计算方法,其特征在于,所述步骤5中,飞行控制智能体采用深度神经网络来表示智能体算法的策略函数和值函数,将飞机的六自由度作为深度强化学习的状态s,输入所述价值神经网络对状态s进行评估,进而通过计算策略网络来选择动作a',然后再次与飞行仿真模拟环境交互获取状态s'和reward进而更新网络参数。
7.根据权利要求6所述的飞行控制智能体的并行分布式计算方法,其特征在于,当进行多对多空战时训练任务时,动作a'的一维向量表示为飞机的杆舵的三个偏移量和油门作为输入。
CN202110265442.9A 2021-03-11 2021-03-11 一种飞行控制智能体的并行分布式计算系统及方法 Active CN112784445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110265442.9A CN112784445B (zh) 2021-03-11 2021-03-11 一种飞行控制智能体的并行分布式计算系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110265442.9A CN112784445B (zh) 2021-03-11 2021-03-11 一种飞行控制智能体的并行分布式计算系统及方法

Publications (2)

Publication Number Publication Date
CN112784445A CN112784445A (zh) 2021-05-11
CN112784445B true CN112784445B (zh) 2023-01-31

Family

ID=75762519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110265442.9A Active CN112784445B (zh) 2021-03-11 2021-03-11 一种飞行控制智能体的并行分布式计算系统及方法

Country Status (1)

Country Link
CN (1) CN112784445B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947125B (zh) * 2021-05-13 2021-07-13 北京航空航天大学 一种基于高速串行总线的嵌入式无人机集群仿真系统
CN113705102B (zh) * 2021-08-31 2024-05-10 湖南苍树航天科技有限公司 海空集群对抗的推演仿真系统及方法、设备、存储介质
CN113780554B (zh) * 2021-09-10 2023-10-24 网易(杭州)网络有限公司 深度强化学习模型的处理方法及装置、介质、电子设备
CN114003121B (zh) * 2021-09-30 2023-10-31 中国科学院计算技术研究所 数据中心服务器能效优化方法与装置、电子设备及存储介质
CN114167748B (zh) * 2021-10-26 2024-04-09 北京航天自动控制研究所 一种飞行控制算法一体化训练平台
CN114546914B (zh) * 2022-02-23 2024-04-26 北京奕斯伟计算技术股份有限公司 用于对多个通道信息执行数据处理的处理装置及系统
CN114611335B (zh) * 2022-05-10 2022-08-12 南京国睿信维软件有限公司 基于分布式引擎的仿真任务调度方法
CN116775220B (zh) * 2023-06-30 2024-04-12 南京希音电子商务有限公司 基于异步进程的分布式仿真优化方法、系统、设备及介质
CN116760505B (zh) * 2023-08-16 2023-11-03 中国兵器装备集团兵器装备研究所 一种基于开源鸿蒙分布式数据对象的时间同步方法
CN118093203B (zh) * 2024-04-24 2024-07-30 北京壁仞科技开发有限公司 数据搬运方法、分布式训练系统、电子设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151472B2 (en) * 2017-03-31 2021-10-19 At&T Intellectual Property I, L.P. Dynamic updating of machine learning models
CN108021754A (zh) * 2017-12-06 2018-05-11 北京航空航天大学 一种无人机自主空战决策框架及方法
US20190303648A1 (en) * 2018-04-02 2019-10-03 QRI Group, LLC Smart surveillance and diagnostic system for oil and gas field surface environment via unmanned aerial vehicle and cloud computation
US20210063603A1 (en) * 2019-08-26 2021-03-04 Loon Llc Distributed computing system and method for generating atmospheric wind forecasts

Also Published As

Publication number Publication date
CN112784445A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112784445B (zh) 一种飞行控制智能体的并行分布式计算系统及方法
CN112295229B (zh) 一种智能博弈对抗平台
US8645112B2 (en) Distributed physics based training system and methods
CN107343025B (zh) 分布式卫星云雾网络架构及能耗约束下的时延优化方法
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN112131786A (zh) 基于多智能体强化学习的目标探测与分配方法及装置
CN112034888B (zh) 一种固定翼无人机自主控制协作策略训练方法
CN109597839B (zh) 一种基于航电作战态势的数据挖掘方法
CN114185362A (zh) 一种基于郊狼信息熵的无人机集群任务动态分配方法
CN109345902A (zh) 一种飞行模拟器飞机仿真系统
CN111857177B (zh) 一种远程操控靶标指令生成方法、装置、设备及介质
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
CN118171572A (zh) 无人机集群演进式的仿真训练方法、系统、介质及设备
Zhu et al. Mastering air combat game with deep reinforcement learning
CN116362109A (zh) 一种基于数字孪生的智能无人系统和方法
CN115046433A (zh) 基于深度强化学习的飞行器时间协同制导方法
Huang et al. Research on Autonomous Maneuvering Decision of UAV in Close Air Combat
Li et al. A study on the behavior modeling method of helicopter force
Hanák et al. Collaborative Agents for Synthetic Tactical Training
Lihua et al. Multi-platform fire control strike track planning method based on deep enhance learning
CN117970952B (zh) 无人机机动策略离线建模方法
Hu et al. An Intelligent MAV-UAV Cooperative Combat Planning Method Based on Deep Reinforcement Learning
Xiaoyu et al. Intelligent Air Combat Maneuvering Decision Based on TD3 Algorithm
Fu et al. Distributed Advantage-Based Weights Reshaping Algorithm with Sparse Reward
Zeng et al. Check for updates LVC Simulation Technology for Manned Helicopter UAV Cooperative Combat System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: He Yang

Inventor after: Ji Yulong

Inventor after: Zu Wenqiang

Inventor after: Huang Cao

Inventor after: Wu Zhihong

Inventor after: Bai Ningwei

Inventor before: He Yang

Inventor before: Ji Yulong

Inventor before: Zu Wenqiang

Inventor before: Huang Cao

Inventor before: Wu Zhihong

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant