CN114489144A - 无人机自主机动决策方法、装置及无人机 - Google Patents

无人机自主机动决策方法、装置及无人机 Download PDF

Info

Publication number
CN114489144A
CN114489144A CN202210363450.1A CN202210363450A CN114489144A CN 114489144 A CN114489144 A CN 114489144A CN 202210363450 A CN202210363450 A CN 202210363450A CN 114489144 A CN114489144 A CN 114489144A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
action
target
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210363450.1A
Other languages
English (en)
Other versions
CN114489144B (zh
Inventor
高阳
李�浩
颜冠伟
常惠
聂勤
梁亚蓉
赵皓
张鑫辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
AVIC Chengdu Aircraft Design and Research Institute
Original Assignee
Institute of Automation of Chinese Academy of Science
AVIC Chengdu Aircraft Design and Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, AVIC Chengdu Aircraft Design and Research Institute filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210363450.1A priority Critical patent/CN114489144B/zh
Publication of CN114489144A publication Critical patent/CN114489144A/zh
Application granted granted Critical
Publication of CN114489144B publication Critical patent/CN114489144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种无人机自主机动决策方法、装置及无人机,该方法包括:搭建各无人机的运动模型,并基于所有无人机的所述运动模型,确定对抗环境相关的当前空间状态信息;将当前空间状态信息输入至双深度Q网络,生成无人机的动作序列;从动作序列中筛选出无人机的下一动作,并引导无人机执行下一动作。本发明提供的无人机自主机动决策方法、装置及无人机,基于多维度的各无人机的运动模型,模拟无人机博弈对抗仿真环境,并确定当前空间状态信息,通过双深度Q网络生成无人机的动作序列,通过动作序列筛选出无人机的下一动作,并指导无人机进行对抗。能够在多维度空间进行决策,避免过拟合,实现端到端的快速感知和决策控制,提高通用性。

Description

无人机自主机动决策方法、装置及无人机
技术领域
本发明涉及无人机控制技术领域,尤其涉及一种无人机自主机动决策方法、装置及无人机。
背景技术
随着战场环境的复杂性和计算机技术特别是人工智能技术的快速发展,无人机的智能化和自主化程度不断提高。
目前,无人机自主机动决策常用的技术有专家系统法、微分对策法、影响图法、优化理论法、动态规划法等。其中,专家系统方法使用规定的规则库和推理机,但是规则库建立起来太复杂,通用性、鲁棒性和准确性低。微分对策法在面对非零和问题时效果不佳,且由于复杂的空战态势和环境,容易出现模型规模大带来的维数灾难。虽然影响图法能够更直观、更真实地反馈现状,并对现状进行分类和解释,但由于其复杂,难以进行解析求解。在众多优化理论方法中,目前常用的是遗传算法。该方法通过评估相应机动的适应性来获得合理的机动,具有广泛的实用性。但时效性差,主观性和经验性强。动态规划法将空战过程划分为多个规划时域,并在每个规划时域内进行最优控制,避免了维数灾难,但学习周期长,难以应对复杂机动。
可见,现有技术中关于优化无人机自主机动决策的部分技术方案,适应的场景和提供的决策方案都比较有限,难以应对无人机对抗过程中用高维状态和动作空间的决策,无法满足通用性的需求。
发明内容
本发明提供一种无人机自主机动决策方法、装置及无人机,用以解决现有技术中高维状态和动作空间的处理过程中鲁棒性低、通用性差的缺陷,实现无人机多维度空间进行决策,避免过拟合。
本发明提供一种无人机自主机动决策方法,包括:
搭建各无人机的运动模型,并基于所有无人机的所述运动模型,确定对抗环境相关的当前空间状态信息;
将所述当前空间状态信息输入至双深度Q网络,生成所述无人机的动作序列;
从所述动作序列中筛选出所述无人机的下一动作,并引导所述无人机执行所述下一动作;
其中,所述双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。
根据本发明提供的一种无人机自主机动决策方法,所述从所述动作序列中筛选出所述无人机的下一动作,包括:
基于epsilon-greedy策略,对所述动作序列进行全局探索,获取探索系数;
在所述动作序列相关的目标随机数大于或者等于所述探索系数的情况下,基于玻尔兹曼策略,从所述动作序列中确定所述无人机的下一动作;
其中,所述目标随机数是伴随所述动作序列在0和1之间随机生成的。
根据本发明提供的一种无人机自主机动决策方法,在所述将所述当前空间状态信息输入至双深度Q网络,生成所述无人机的动作序列之前,还包括:
基于所述当前空间状态信息,在所述评估网络中得到所述动作序列中各动作的评估值,以根据最大评估值确定目标动作;
基于所述当前空间状态信息,在所述目标网络中获取所述目标动作的目标值;
基于所述最大评估值和所述目标动作的目标值,利用损失函数进行反向传播,更新所述评估网络的参数,并将所述评估网络的参数同步更新至所述目标网络。
根据本发明提供的一种无人机自主机动决策方法,所述基于所述当前空间状态信息,在所述目标网络中获取所述目标动作的目标值,包括:
基于所述当前空间状态信息,以使得所述无人机执行目标动作之后,得到下一空间状态信息和综合奖励值;
生成一样本,并将所述样本存至经验回放队列;所述样本至少包括所述下一空间状态信息和所述综合奖励值;从所述经验回放队列抽样,并输入至所述目标网络,获取所述目标动作的目标值。
根据本发明提供的一种无人机自主机动决策方法,所述当前空间状态信息包括所述对抗环境下的无人机的数量、转移函数、综合奖励值,以及各所述无人机的位姿信息、候选动作和奖励函数中的至少一种。
根据本发明提供的一种无人机自主机动决策方法,所述搭建各无人机的运动模型,包括:
基于六自由度,建立所述无人机的状态方程;
基于控制参量和预设动作库,对所述无人机的状态方程进行积分,获取所述无人机的航迹;
根据所述航迹的变化规律,构建所述运动模型;
其中,所述控制参量与所述候选动作的维度对应。
根据本发明提供的一种无人机自主机动决策方法,所述对抗环境由两个或者两个以上的所述无人机以分组对抗的形式组成;
或,所述对抗环境包括一个或者多个所述无人机,以及一个或者多个有人机以分组对抗的形式组成。
本发明还提供一种无人机自主机动决策装置,包括:
空间信息获取模块,用于搭建各无人机的运动模型,并基于所有无人机的所述运动模型,确定对抗环境相关的当前空间状态信息;
序列获取模块,用于将所述当前空间状态信息输入至双深度Q网络,生成所述无人机的动作序列;
动作筛选模块,用于从所述动作序列中筛选出所述无人机的下一动作,并引导所述无人机执行所述下一动作;
其中,所述双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。
本发明还提供一种无人机,包括无人机本体,所述无人机本体中设置有决策处理器;还包括存储器及存储在所述存储器上并可在所述决策处理器上运行的程序或指令,所述程序或指令被所述决策处理器执行时执行如上述任一种所述无人机自主机动决策方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述无人机自主机动决策方法。
本发明提供的无人机自主机动决策方法、装置及无人机,基于多维度的各无人机的运动模型,模拟无人机博弈对抗仿真环境,并确定当前空间状态信息,通过双深度Q网络生成无人机的动作序列,通过动作序列筛选出无人机的下一动作,并指导无人机进行对抗。能够在多维度空间进行决策,避免过拟合,实现端到端的快速感知和决策控制,提高通用性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的无人机自主机动决策方法的流程示意图;
图2是本发明提供的双深度Q网络的结构示意图;
图3是本发明提供的无人机自主机动决策方法的仿真结果示意图;
图4是本发明提供的无人机自主机动决策装置的结构示意图;
图5是本发明提供的无人机的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
图1是本发明提供的无人机自主机动决策方法的流程示意图。如图1所示,本发明实施例提供的无人机自主机动决策方法,包括:步骤101、搭建各无人机的运动模型,并基于所有无人机的所述运动模型,确定对抗环境相关的当前空间状态信息。
其中,对抗环境由两个或者两个以上的目标无人机以分组对抗的形式组成。
需要说明的是,本发明实施例提供的无人机自主机动决策方法的执行主体无人机自主机动决策装置。
无人机自主机动决策装置本身是一个设置在无人机上的电子设备。无人机自主机动决策装置的应用场景为在空战演练中,由无人机自主作出决策,引导无人机占领有利的态势位置。
对抗环境,是指由两方无人机集群在平面区域内的协同对抗场景。其中,蓝方作为进攻方,希望突破红方无人机的拦截,成功抵达目的地遂行军事行动。红方则希望在给定的区域内完成对蓝方无人机的拦截,阻止蓝方的突防。
具体地,在步骤101中,无人机自主机动决策装置根据任一无人机在任一时刻下在三维空间中的运动维度,建立该无人机的运动模型。并将对抗环境中红蓝双方的无人机的状态特征用对应的运动模型进行表征,以融合生成当前空间状态信息。
其中,在任意的某个时刻,无人机所处的状态
Figure 4379DEST_PATH_IMAGE001
可以由无人机的速度和位姿信息组 成。
优选地,无人机自主机动决策装置在建立好各无人机的运动模型后,执行场景模拟设置并在显示界面中对相关态势信息进行实时的前端显示,以构建无人机博弈对抗仿真环境。
步骤102、将当前空间状态信息输入至双深度Q网络,生成目标无人机的动作序列。
其中,双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。
需要说明的是,双深度Q网络(Double Deep Q Network,DDQN)的基本思想是将动作的选择与评估分开。在DDQN中有包含两套结构相同而参数不同的神经网络结构,即评估网络和目标网络。其实质是使用评估网络来评估对抗策略,使用目标网络来估算其价值。
具体地,在步骤102中,无人机自主机动决策装置将DDQN应用到无人机智能对抗中,将无人机连续无限的当前空间状态信息作为DDQN的输入,利用DDQN中的评估网络和目标网络对无人机动作的选择和评估进行解耦合操作处理,寻找无人机进行对抗所能采取的动作序列,以作为对抗策略。
步骤103、从动作序列中筛选出无人机的下一动作,并引导无人机执行下一动作。
具体地,在步骤103中,无人机自主机动决策装置按照指定策略进行筛选,从动作序列中选取出某一动作作为无人机以对抗为目的所执行的下一动作,并对根据下一动作产生相应指令,以驱动无人机各部件,使无人机在下一时刻以指定的位姿到达指定位置。
本发明实施例基于多维度的各无人机的运动模型,模拟无人机博弈对抗仿真环境,并确定当前空间状态信息,通过双深度Q网络生成无人机的动作序列,通过动作序列筛选出无人机的下一动作,并指导无人机进行对抗。能够在多维度空间进行决策,避免过拟合,实现端到端的快速感知和决策控制,提高通用性。
在上述任一实施例的基础上,从动作序列中筛选出无人机的下一动作,包括:基于epsilon-greedy策略,对动作序列进行全局探索,获取探索系数。
具体地,在步骤103中,无人机自主机动决策装置使用epsilon-greedy策略来对无人机的探索和利用进行折中,对步骤102中获取的动作序列中的每个动作进行实验,确定每个动作对应的探索系数,其计算公式如下所示:
Figure 452678DEST_PATH_IMAGE002
其中,
Figure 29153DEST_PATH_IMAGE003
为动作序列中的每个动作,
Figure 955521DEST_PATH_IMAGE004
为无人机当前所处的状态,在每次实验中以
Figure 35472DEST_PATH_IMAGE005
的概率进行探索,以
Figure 920252DEST_PATH_IMAGE006
的概率进行利用。
在所述动作序列相关的目标随机数大于或者等于所述探索系数的情况下,基于玻尔兹曼策略,从所述动作序列中确定所述无人机的下一动作。
其中,所述目标随机数是伴随所述动作序列在0和1之间随机生成的。
具体地,每次开始实验时,会伴随产生一个目标随机数,将目标随机数与本次实验的动作所对应的探索系数进行对比。
其中,目标随机数的取值范围为大于0,且小于1。
在目标随机数大于或者等于该动作对应的探索系数的情况下,即说明当前处于以
Figure 718443DEST_PATH_IMAGE007
的概率进行利用的阶段,无人机自主机动决策装置则进一步地使用玻尔兹曼策略进行 探索,通过计算动作序列中每个动作被采取的概率值进行无人机动作的判断和选择,根据 该概率值的大小选择最大值所对应的动作,并作为无人机在当前步长所要采取的下一动 作。
其中,玻尔兹曼策略根据每个动作的Q值(即
Figure 448502DEST_PATH_IMAGE008
),对动作空间每个动作被采 取的概率值进行计算,
Figure 382960DEST_PATH_IMAGE009
为动作序列中包含的动作之一,
Figure 173061DEST_PATH_IMAGE010
为无人机在当前状态
Figure 458549DEST_PATH_IMAGE011
采 取动作
Figure 992299DEST_PATH_IMAGE012
的概率,其计算公式如下所示:
Figure 46843DEST_PATH_IMAGE013
在目标随机数小于该动作对应的探索系数的情况下,即说明当前处于以
Figure 7845DEST_PATH_IMAGE014
的概率 进行探索的阶段,则无人机自主机动决策装置以均匀概率随机,从动作序列中选取动作,并 将该动作作为无人机在当前步长所要采取的下一动作。
本发明实施例基于使用epsilon-greedy策略作为全局探索策略,在利用阶段通过采用玻尔兹曼策略进行局部探索,确定无人机的下一动作。能够在无人机探索环境时采用epsilon-greedy和玻尔兹曼结合的混合策略,有效避免无人机陷入到次优策略或局部最优策略。
在上述任一实施例的基础上,在所述将所述当前空间状态信息输入至双深度Q网络,生成所述无人机的动作序列之前,还包括:
基于所述当前空间状态信息,在所述评估网络中得到所述动作序列中各动作的评估值,以根据最大评估值确定目标动作。
需要说明的是,在训练双深度Q网络之前,需要预先设置迭代轮数、高维度的当前 状态信息、动作序列、步长、衰减因子
Figure 515050DEST_PATH_IMAGE015
、参数为
Figure 586911DEST_PATH_IMAGE016
的评估网络、参数为
Figure 761541DEST_PATH_IMAGE017
的目标网络、批量 梯度下降的样本数量,以及目标网络的参数更新频率。
本发明实施例对此不作具体限定。示例性地,如表1所示:
表1 算法参数设定表
Figure 627865DEST_PATH_IMAGE018
并随机初始化动作序列中所有动作对应的价值Q。随机初始化当前评估网络的所 有参数
Figure 887945DEST_PATH_IMAGE019
,初始化目标网络的参数
Figure 497918DEST_PATH_IMAGE020
,同时,清空经验回放队列。
具体地,在参数为
Figure 798493DEST_PATH_IMAGE021
的评估网络中使用当前状态信息作为输入,得到评估网络的 动作序列中所有动作对应的Q值输出。利用指定策略在环境中进行探索和利用,选择最大的 Q值所对应的动作作为目标动作。
基于所述当前空间状态信息,在所述目标网络中获取所述目标动作的目标值。
具体地,在参数为
Figure 835719DEST_PATH_IMAGE022
的目标网络中使用当前状态信息作为输入,得到在当前状态 信息下执行目标动作,所得到新状态对应的目标值。
基于所述最大评估值和所述目标动作的目标值,利用损失函数进行反向传播,更新所述评估网络的参数,并将所述评估网络的参数同步更新至所述目标网络。
具体地,根据目标动作对应的评估值和目标值计算损失函数,并通过误差反向传 递的方式更新评估网络的参数
Figure 583095DEST_PATH_IMAGE023
。若当前迭代轮数与目标网络的参数更新频率契合,则同 步更新目标网络的参数
Figure 996759DEST_PATH_IMAGE024
,直至当前状态信息下执行目标动作所得到的新状态的奖励 值满足要求,则判定其为终止状态,当前轮迭代完毕。
本发明实施例对此过程不作具体限定,其过程如下所示:
Figure 614822DEST_PATH_IMAGE025
其中,
Figure 354108DEST_PATH_IMAGE026
为无人机的当前状态信息,
Figure 323201DEST_PATH_IMAGE027
为目标动作,
Figure 274976DEST_PATH_IMAGE028
为评估网络的输出值,
Figure 278705DEST_PATH_IMAGE029
为 目标网络的输出值,
Figure 923313DEST_PATH_IMAGE030
为目标动作的目标值,
Figure 379702DEST_PATH_IMAGE031
为评估值,
Figure 135168DEST_PATH_IMAGE032
为衰减因子, 取值范围为
Figure 993403DEST_PATH_IMAGE033
Figure 74491DEST_PATH_IMAGE034
为即时奖励。损失函数
Figure 18176DEST_PATH_IMAGE035
根据评估值和目标值的均方误差(Mean Square Error, MSE)进行计算后最终得到。
本发明实施例基于将当前状态信息输入到双深度Q网络的评估网络确定目标动作,通过在目标网络中以当前状态信息执行目标动作计算目标值,通过目标动作的评估值和目标值,反向传播更新双深度Q网络。能够减少经验样本之间的相关性,避免过拟合。
图2是本发明提供的双深度Q网络的结构示意图。如图2所示,在上述任一实施例的基础上,基于当前空间状态信息,在目标网络中获取目标动作的目标值,包括:基于当前空间状态信息,以使得所述无人机执行目标动作之后,得到下一空间状态信息和综合奖励值。
具体地,在目标网络的训练过程中,在输入的当前空间状态信息对应的状态下,执行目标动作并与环境交互,得到下一空间状态信息,以及对应的综合奖励值。
其中,对抗环境中红蓝双方无人机的学习目标不同。红方无人机的目标是学习最大化折扣奖励的预期总和的策略。相反,蓝方无人机的联合策略是最小化期望和。针对此现象,本发明构建关键事件奖励塑造,如表2所示。
表2关键事件奖励塑造表
Figure 311754DEST_PATH_IMAGE036
生成一样本,并将所述样本存至经验回放队列。所述样本至少包括所述下一空间状态信息和所述综合奖励值。
具体地,根据将下一空间状态信息
Figure 24496DEST_PATH_IMAGE037
和综合奖励值
Figure 10906DEST_PATH_IMAGE038
,结合当前空间状态信息
Figure 441887DEST_PATH_IMAGE039
与 目标动作添加至
Figure 539156DEST_PATH_IMAGE040
元组中,并将其作为样本存入至经验回放队列D中。
从所述经验回放队列抽样,并输入至所述目标网络,获取所述目标动作的目标值。
具体地,从经验回放队列D中采样指定数量的样本,以计算目标动作的目标值。
本发明实施例基于在目标网络中以当前状态信息执行目标动作计算目标值。能够将动作的选择与评估分开由评估网络来评估对抗策略,使用目标网络来估算其价值,避免过拟合。
在上述任一实施例的基础上,当前空间状态信息包括对抗环境下的无人机的数量、转移函数、综合奖励值,以及各无人机的位姿信息、候选动作和奖励函数中的至少一种。
具体地,在步骤101中,基于红蓝双方对抗条件下的多无人机博弈中,以二人零和博弈为条件对对抗博弈进行建模,以表征任一无人机的当前空间状态信息。
可选地,对抗环境下的无人机的数量,是指参与对抗的无人机的总数。
可选地,各无人机的位姿信息,是指参与对抗的每一个无人机在三维空间下的状态特征。
可选地,候选动作,是指不同无人机可选的机动动作。示例性地,可供选择的机动动作是围绕预先设置的控制维度开展的。
可选地,奖励函数,是指在不同无人机执行策略时获得的奖励机制,可以获取对应的综合奖励值。
可选地,转移函数,是指红方无人机当前状态下在红方根据策略选择的动作与对手蓝方选择的动作的联合行为影响下,转移到下一状态的概率。
可选地,综合奖励值,是指执行该状态下所有行为的概率与对应行为产生的即时奖励的乘积的和。
优选地,将对抗环境中的各无人机状态特征融合至一个元组
Figure 106404DEST_PATH_IMAGE041
,以表征当前空间状态信息。
示例性地,以红蓝双方在同一高度下进行1V1对抗博弈为示例:
(1)将红蓝双方无人机对抗中玩家数量
Figure 263716DEST_PATH_IMAGE042
设定为2。
(2)根据影响无人机对抗态势的因素,可以确定每一个无人机的状态特征。
由于红蓝双方在同一高度下进行对抗博弈,所以能影响无人机对抗态势的因素包 括:三维空间的x坐标轴、三维空间的y坐标轴、偏转角和滚转角,则根据对抗空间下的每个 无人机的因素融合成空间状态特征
Figure 181993DEST_PATH_IMAGE043
,即主要由红方无人机的二维坐标
Figure 817374DEST_PATH_IMAGE044
、偏转角
Figure 504707DEST_PATH_IMAGE045
和滚转角
Figure 98500DEST_PATH_IMAGE046
,以及蓝方无人机二维坐标
Figure 238494DEST_PATH_IMAGE047
、偏转角
Figure 943145DEST_PATH_IMAGE048
和滚转角
Figure 484985DEST_PATH_IMAGE049
组成。
Figure 984099DEST_PATH_IMAGE050
在上式中,下标为r的元素表示红方无人机的状态特征,下标为b的元素表示蓝方无人机的状态特征。
由于无人机的状态空间是连续无限空间,所以需要用到深度学习神经网络来处理这些特征。
(3)无人机的候选动作
Figure 628968DEST_PATH_IMAGE051
时从影响无人机对抗态势的因素中选取一个或者多个, 作为对抗中执行机动动作进行控制的参量。以围绕滚转角设定候选动作为示例,可以设置 向左滚转L、维持滚转G和向右滚转R三类可选动作。
(4)确定转移函数
Figure 606151DEST_PATH_IMAGE052
,以红方为例,红方当前状态
Figure 268076DEST_PATH_IMAGE053
在红方根据策略选择的动作与 对手蓝方选择的动作的联合行为影响下,转移到下一状态
Figure 938092DEST_PATH_IMAGE054
的概率。
(5)需要确定对抗环境中每个无人机的状态特征、候选动作和奖励函数
Figure 52679DEST_PATH_IMAGE055
,无人机为当前状态
Figure 833553DEST_PATH_IMAGE039
决策选择一个动作,到达下一个状态
Figure 349985DEST_PATH_IMAGE056
,利用对应的奖 励函数,可以得到与环境交互后反馈综合奖励值,然后进行下一轮交互,由此实现循环。
本发明实施例基于无人机的数量、转移函数、综合奖励值,以及各无人机的位姿信息、候选动作和奖励函数融合成对抗环境的当前空间状态信息。能够在高维度完整的反映当前的态势信息。
在上述任一实施例的基础上,搭建无人机的运动模型,包括:基于六自由度,建立无人机的状态方程。
具体地,在步骤101中,围绕着速度和六自由度构建一个七元组,去描述任一无人 机的状态
Figure 190902DEST_PATH_IMAGE057
,并依照七元组中的每一个元素随着时间的变化,建立无人机的状态方程。
Figure 792785DEST_PATH_IMAGE058
其中,
Figure 377350DEST_PATH_IMAGE059
表示无人机在惯性坐标系中的位置,
Figure 748288DEST_PATH_IMAGE060
为无人机速度,
Figure 760106DEST_PATH_IMAGE061
为俯仰角,
Figure 849285DEST_PATH_IMAGE062
为偏航角,
Figure 971962DEST_PATH_IMAGE063
为滚转角。
基于控制参量和预设动作库,对无人机的状态方程进行积分,获取所述无人机的航迹。
其中,控制参量与候选动作的维度对应。
需要说明的是,需要说明的是,在步骤101之前,需要预先根据任务需求,选定无人机在三维空间的控制参量。
控制参量,是指根据无人机航迹变化所发生改变的参量。控制参量用于规定无人机在对抗环境中可以执行机动动作的维度。
预设动作库,是指在各中控制参量下能执行的动作集合。预设动作库包括但不限于定常飞行、减速飞行、加速飞行、左转弯、右转弯、向上拉起和向下俯冲等机动动作。
具体地,无人机自主机动决策装置采用预先设置的控制参量和预设动作库,根据四阶龙格-库塔法对常微分方程组进行数值积分,得到各无人机的航迹。
根据所述航迹的变化规律,构建所述运动模型。
具体地,无人机自主机动决策装置将无人机的轨迹随时间变化的规律,作为该无人机的运动模型。
其中,无人机的航迹变化规律包括该无人机的机动速度随时间变化的规律和空间轨迹随时间变化的规律。
本发明实施例基于控制参量和预设动作库,对六自由度的状态方程进行积分,并根据获取的无人机的航迹关于时间的变化规律,构建所述运动模型。能够提高对无人机进行控制的灵活性。
图3是本发明提供的无人机自主机动决策方法的仿真结果示意图。如图3所示,在上述任一实施例的基础上,所述对抗环境由两个或者两个以上的所述无人机以分组对抗的形式组成。
或,对抗环境包括一个或者多个无人机,以及一个或者多个有人机以分组对抗的形式组成。
需要说明的是,将有人机搭载的电子设备与其飞行操纵杆通信连接,以使得电子设备可以接收到有人机在飞行操纵杆控制下的态势信息在人机博弈对抗仿真环境下进行实时的前端显示。
本发明实施例对有人机的飞行操纵杆不作具体限定,优选地,有人机设置有HOTAS飞行操纵杆,以进行人机博弈对抗的实验。
具体地,将各无人机搭载的无人机自主机动决策,与参与对抗的飞机搭载的电子装置建立对应的通信连接关系,并在统一的仿真平台进行前端显示。
本发明实施例对参与对抗的飞机,及其搭载的电子设备不作具体限定。
可选地,将红方无人机搭载的无人机自主机动决策装置与蓝方无人机搭载的无人机自主机动决策装置建立对应的通信连接关系,并在统一的仿真平台进行前端显示。
可选地,将各无人机搭载的无人机自主机动决策装置与有人机搭载的电子设备建立对应的通信连接关系,并在统一的仿真平台进行前端显示。
本发明实施例对无人机自主机动决策装置、有人机搭载的电子设备以及仿真平台之间的通信过程不作具体限定。
示例性地,仿真平台向无人机自主机动决策装置和有人机的电子设备发送模拟时间戳、模拟控制命令、训练集序号和训练步骤序号。
并且,仿真平台将无人机的态势信息、与无人机当前态势相关的机动动作,输出至无人机自主机动决策装置。
仿真平台将有人机的态势信息、与有人机当前态势相关的机动动作,输出至有人机的电子设备。
相对地,无人机自主机动决策装置可以将模拟时间戳响应、无人机机动策略(即下一动作)、无人机位置、无人机速度、无人机方位角和无人机俯仰角,输出至仿真平台。
相对地,有人机的电子设备可以将模拟时间戳响应、有人机位置、有人机速度、有人机方位角和有人机俯仰角,输出至仿真平台。
优选地,为避免无人机与有人机直接对抗导致大量无效和错误决策导致学习效率低下和局部最优问题,该系统模仿人类学习过程:
第一,进行基础训练,使无人机面对一个执行简单机动模拟目标来探索简单的策略。
第二,进行模拟对抗训练。使无人机基于简单的策略优化算法进行机动,以供目标无人机与之对抗并学习此类机动策略。
第三,进行人机对抗训练。在目标无人机可以用简单的优化算法完全击败其他无人机的基础上,对抗由操作员控制的有人机,学习和更新机动策略。
下面给出一种无人机自主机动决策的具体实施过程:
步骤1、在训练过程中,红蓝双方无人机的运动模型均采用步骤101中描述的模型,利用改进的算法不断探索出新的策略,使得对抗的输出更加合理和完善。
步骤2、以无人机和目标无人机相对飞行,目标匀速直线运动飞行的对抗场景为例,按照发明内容的步骤对无人机的对抗进行强化学习建模和训练。实验在1v1的无人机对抗模式下进行,利用DDQN算法和改进DDQN算法的无人机分别与基于规则式策略进行对抗,验证改进算法的有效性。
步骤3、为了进一步说明算法设计与实现的可行性,本发明实验中设置双方均初始化为水平方向,从正前方与敌人交锋,假设红方的初始位置为(0,0,10000),初始速度为100m/s,初始高度为10000m,初始俯仰角为0°,初始航向角为90°,初始滚转角为0°。而蓝方的初始位置为(2000,2000,10000),初始速度为100m/s,初始俯仰角为0°,初始航向角为120°,初始滚转角为0°。
步骤4、通过训练可以让无人机在简单任务中学习到合适的攻击策略,实验中设定训练最大回合数为10000,单回合最大步长为30,道路环境刷新周期为1s,单回合终止条件为无人机单回合执行步数达到最大或无人机进行决策。
步骤5、在红蓝双方无人机智能对抗仿真中,用基于深度强化学习的智能体(红方)与基于有人机操作输入数据(蓝方)对抗的方式进行。从初始状态向后运行20个决策步长,即一轮学习,执行10000轮完成算法的训练,分别统计训练过程中各个阶段内红方胜出、蓝方胜出和打成平局的次数,并计算各个阶段内的平均奖励值。
从实验对比中DDQN网络和改进的DDQN网络都可以在博弈情景下生成对抗策略,实验的仿真结果如图3所示,通过各回合步长的平均奖励值变化曲线进行对比,可以看出经过一定阶段的训练学习之后,红方在对抗中取得了较为优秀的成绩。在本回合中获得的总奖励曲线是呈上升态势的,但改进DDQN网络的奖励值更大,并且可以更快的收敛,证明了算法在博弈条件下的可行性,可以让无人机有效地作出决策,引导无人机占领有利的态势位置。
图4是本发明提供的无人机自主机动决策装置的结构示意图。在上述任一实施例的基础上,如图4所示,本发明实施例提供的无人机自主机动决策装置,包括:空间信息获取模块410、序列获取模块420和动作筛选模块430,其中:
空间信息获取模块410,用于搭建各无人机的运动模型,并基于所有无人机的所述运动模型,确定对抗环境相关的当前空间状态信息。
序列获取模块420,用于将当前空间状态信息输入至双深度Q网络,生成无人机的动作序列。
动作筛选模块430,用于从动作序列中筛选出无人机的下一动作,并引导无人机执行下一动作。
其中,双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。
具体地,空间信息获取模块410、序列获取模块420和动作筛选模块430顺次电连接。
空间信息获取模块410根据任一无人机在任一时刻下在三维空间中的运动维度,建立该无人机的运动模型。并将对抗环境中红蓝双方的无人机的状态特征用对应的运动模型进行表征,以融合生成当前空间状态信息。
序列获取模块420将DDQN应用到无人机智能对抗中,将无人机连续无限的当前空间状态信息作为DDQN的输入,利用DDQN中的评估网络和目标网络对无人机动作的选择和评估进行解耦合操作处理,寻找无人机进行对抗所能采取的动作序列,以作为对抗策略。
动作筛选模块430按照指定策略进行筛选,从动作序列中选取出某一动作作为无人机以对抗为目的所执行的下一动作,并对根据下一动作产生相应指令,以驱动无人机各部件,使无人机在下一时刻以指定的位姿到达指定位置。
可选地,动作筛选模块430包括全局探索单元和局部探索单元,其中:
全局探索单元,用于基于epsilon-greedy策略,对动作序列进行全局探索,获取探索系数。
局部探索单元,用于在所述动作序列相关的目标随机数大于或者等于所述探索系数的情况下,基于玻尔兹曼策略,从所述动作序列中确定所述无人机的下一动作。
其中,所述目标随机数是伴随所述动作序列在0和1之间随机生成的。
可选地,该装置还包括,包括第一训练模块、第二训练模块、第三训练模块,其中:
第一训练模块,用于基于所述当前空间状态信息,在所述评估网络中得到所述动作序列中各动作的评估值,以根据最大评估值确定目标动作。
第二训练模块,用于基于所述当前空间状态信息,在所述目标网络中获取所述目标动作的目标值。
第三训练模块,用于基于所述最大评估值和所述目标动作的目标值,利用损失函数进行反向传播,更新所述评估网络的参数,并将所述评估网络的参数同步更新至所述目标网络。
可选地,第二训练模块包括交互单元、回放单元和计算单元,其中:
交互单元,用于基于所述当前状态信息,以使得所述无人机执行目标动作之后,得到下一空间状态信息和综合奖励值。
回放单元,用于生成一样本,并将所述样本存至经验回放队列;所述样本至少包括下一空间状态信息和所述综合奖励值。
计算单元,用于从所述经验回放队列抽样,并输入至所述目标网络,获取所述目标动作的目标值。
可选地,当前空间状态信息包括对抗环境下的无人机的数量、转移函数、综合奖励值,以及各无人机的位姿信息、候选动作和奖励函数中的至少一种。
可选地,空间信息获取模块410包括状态获取单元、航机获取单元和建模单元,其中:
状态获取单元,用于基于六自由度,建立无人机的状态方程。
航机获取单元,用于基于控制参量和预设动作库,对无人机的状态方程进行积分,获取所述无人机的航迹;
建模单元,用于根据所述航迹的变化规律,构建所述运动模型。
其中,控制参量与候选动作的维度对应。
可选地,所述对抗环境由两个或者两个以上的所述无人机以分组对抗的形式组成。
或,对抗环境包括一个或者多个无人机,以及一个或者多个有人机以分组对抗的形式组成。
本发明实施例提供的无人机自主机动决策装置,用于执行本发明上述无人机自主机动决策方法,其实施方式与本发明提供的无人机自主机动决策方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例基于多维度的各无人机的运动模型,模拟无人机博弈对抗仿真环境,并确定当前空间状态信息,通过双深度Q网络生成无人机的动作序列,通过动作序列筛选出无人机的下一动作,并指导无人机进行对抗。能够在多维度空间进行决策,避免过拟合,实现端到端的快速感知和决策控制,提高通用性。
图5是本发明提供的无人机的结构示意图。在上述任一实施例的基础上,如图5所示,本发明实施例提供的无人机包括无人机本体510,无人机本体510中设置有决策处理器520,由决策处理器520执行无人机自主机动决策方法,并驱动无人机本体510的各部件执行对应机动动作,以进行对抗。
本发明的无人机还包括存储器及存储在存储器上并可在决策处理器上运行的程序或指令,所述程序或指令被决策处理器520执行时执行无人机自主机动决策方法,该方法包括:搭建各无人机的运动模型,并基于所有无人机的所述运动模型,确定对抗环境相关的当前空间状态信息;将当前空间状态信息输入至双深度Q网络,生成无人机的动作序列;从动作序列中筛选出无人机的下一动作,并引导无人机执行下一动作;其中,双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的无人机自主机动决策方法,该方法包括:搭建各无人机的运动模型,并基于所有无人机的所述运动模型,确定对抗环境相关的当前空间状态信息;将当前空间状态信息输入至双深度Q网络,生成无人机的动作序列;从动作序列中筛选出无人机的下一动作,并引导无人机执行下一动作;其中,双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的无人机自主机动决策方法,该方法包括:搭建各无人机的运动模型,并基于所有无人机的所述运动模型,确定对抗环境相关的当前空间状态信息;将当前空间状态信息输入至双深度Q网络,生成无人机的动作序列;从动作序列中筛选出无人机的下一动作,并引导无人机执行下一动作;其中,双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种无人机自主机动决策方法,其特征在于,包括:
搭建各无人机的运动模型,并基于所有无人机的所述运动模型,确定对抗环境相关的当前空间状态信息;
将所述当前空间状态信息输入至双深度Q网络,生成所述无人机的动作序列;
从所述动作序列中筛选出所述无人机的下一动作,并引导所述无人机执行所述下一动作;
其中,所述双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。
2.根据权利要求1所述的无人机自主机动决策方法,其特征在于,所述从所述动作序列中筛选出所述无人机的下一动作,包括:
基于epsilon-greedy策略,对所述动作序列进行全局探索,获取探索系数;
在所述动作序列相关的目标随机数大于或者等于所述探索系数的情况下,基于玻尔兹曼策略,从所述动作序列中确定所述无人机的下一动作;
其中,所述目标随机数是伴随所述动作序列在0和1之间随机生成的。
3.根据权利要求1至2任一所述的无人机自主机动决策方法,其特征在于,在所述将所述当前空间状态信息输入至双深度Q网络,生成所述无人机的动作序列之前,还包括:
基于所述当前空间状态信息,在所述评估网络中得到所述动作序列中各动作的评估值,以根据最大评估值确定目标动作;
基于所述当前空间状态信息,在所述目标网络中获取所述目标动作的目标值;
基于所述最大评估值和所述目标动作的目标值,利用损失函数进行反向传播,更新所述评估网络的参数,并将所述评估网络的参数同步更新至所述目标网络。
4.根据权利要求3所述的无人机自主机动决策方法,其特征在于,所述基于所述当前空间状态信息,在所述目标网络中获取所述目标动作的目标值,包括:
基于所述当前空间状态信息,以使得所述无人机执行目标动作之后,得到下一空间状态信息和综合奖励值;
生成一样本,并将所述样本存至经验回放队列;所述样本至少包括所述下一空间状态信息和所述综合奖励值;
从所述经验回放队列抽样,并输入至所述目标网络,获取所述目标动作的目标值。
5.根据权利要求1所述的无人机自主机动决策方法,其特征在于,所述当前空间状态信息包括所述对抗环境下的所述无人机的数量、转移函数、综合奖励值,以及各无人机的位姿信息、候选动作和奖励函数中的至少一种。
6.根据权利要求5所述的无人机自主机动决策方法,其特征在于,所述搭建各无人机的运动模型,包括:
基于六自由度,建立所述无人机的状态方程;
基于控制参量和预设动作库,对所述无人机的状态方程进行积分,获取所述无人机的航迹;
根据所述航迹的变化规律,构建所述运动模型;
其中,所述控制参量与所述候选动作的维度对应。
7.根据权利要求1所述的无人机自主机动决策方法,其特征在于,所述对抗环境由两个或者两个以上的所述无人机以分组对抗的形式组成;
或,所述对抗环境包括一个或者多个所述无人机,以及一个或者多个有人机以分组对抗的形式组成。
8.一种无人机自主机动决策装置,其特征在于,包括:
空间信息获取模块,用于搭建各无人机的运动模型,并基于所有无人机的所述运动模型,确定对抗环境相关的当前空间状态信息;
序列获取模块,用于将所述当前空间状态信息输入至双深度Q网络,生成所述无人机的动作序列;
动作筛选模块,用于从所述动作序列中筛选出所述无人机的下一动作,并引导所述无人机执行所述下一动作;
其中,所述双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。
9.一种无人机,其特征在于,包括无人机本体,所述无人机本体中设置有决策处理器;还包括存储器及存储在所述存储器上并可在所述决策处理器上运行的程序或指令,所述程序或指令被所述决策处理器执行时执行如权利要求1至7任一项所述无人机自主机动决策方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述无人机自主机动决策方法。
CN202210363450.1A 2022-04-08 2022-04-08 无人机自主机动决策方法、装置及无人机 Active CN114489144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210363450.1A CN114489144B (zh) 2022-04-08 2022-04-08 无人机自主机动决策方法、装置及无人机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210363450.1A CN114489144B (zh) 2022-04-08 2022-04-08 无人机自主机动决策方法、装置及无人机

Publications (2)

Publication Number Publication Date
CN114489144A true CN114489144A (zh) 2022-05-13
CN114489144B CN114489144B (zh) 2022-07-12

Family

ID=81488216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210363450.1A Active CN114489144B (zh) 2022-04-08 2022-04-08 无人机自主机动决策方法、装置及无人机

Country Status (1)

Country Link
CN (1) CN114489144B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996856A (zh) * 2022-06-27 2022-09-02 北京鼎成智造科技有限公司 一种用于飞机智能体机动决策的数据处理方法及装置
CN115048823A (zh) * 2022-08-15 2022-09-13 白杨时代(北京)科技有限公司 一种智能决策推演的方法、装置、设备及存储介质
CN115113642A (zh) * 2022-06-02 2022-09-27 中国航空工业集团公司沈阳飞机设计研究所 一种多无人机时空关键特征自学习协同对抗决策方法
CN115268481A (zh) * 2022-07-06 2022-11-01 中国航空工业集团公司沈阳飞机设计研究所 一种无人机对抗策略决策方法及其系统

Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945002A (zh) * 2012-10-18 2013-02-27 南京航空航天大学 基于非线性数学模型的通用型无人机仿真方法及系统
CN108319132A (zh) * 2018-01-11 2018-07-24 合肥工业大学 用于无人机空中对抗的决策系统及方法
CN109933053A (zh) * 2017-12-15 2019-06-25 海鹰航空通用装备有限责任公司 一种基于机动动作链的无人机控制方法和无人机
CN110502034A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于深度强化学习的固定翼无人机群集控制方法
CN110531786A (zh) * 2019-09-10 2019-12-03 西北工业大学 基于dqn的无人机机动策略自主生成方法
CN110852808A (zh) * 2019-11-14 2020-02-28 北京工业大学 基于深度神经网络的电子产品异步自适应价值评估方法
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111240212A (zh) * 2020-03-25 2020-06-05 北京航空航天大学 一种基于优化预测的倾转旋翼无人机控制分配方法
KR20200063309A (ko) * 2018-11-20 2020-06-05 고려대학교 산학협력단 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템
CN111459026A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 基于竞争群算法的倾转旋翼无人机多目标控制分配方法
CN111461294A (zh) * 2020-03-16 2020-07-28 中国人民解放军空军工程大学 面向动态博弈的智能飞行器类脑认知学习方法
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112566209A (zh) * 2020-11-24 2021-03-26 山西三友和智慧信息技术股份有限公司 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
CN112712193A (zh) * 2020-12-02 2021-04-27 南京航空航天大学 基于改进Q-Learning的多无人机局部航路规划方法及装置
CN113406965A (zh) * 2021-05-31 2021-09-17 南京邮电大学 一种基于强化学习的无人机能耗优化方法
CN113511082A (zh) * 2021-05-31 2021-10-19 深圳先进技术研究院 基于规则和双深度q网络的混合动力汽车能量管理方法
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法
AU2021106316A4 (en) * 2021-08-21 2021-11-04 Beihang University Method for assisting data transmission of vehicle-mounted ad-hoc network by cooperative relay of multi-unmanned aerial vehicles
CN113625740A (zh) * 2021-08-27 2021-11-09 北京航空航天大学 一种基于迁移学习鸽群优化的无人机空战博弈方法
CN113836803A (zh) * 2021-09-13 2021-12-24 南京航空航天大学 基于改进狼群算法的无人机群资源调度方法
CN113894780A (zh) * 2021-09-27 2022-01-07 中国科学院自动化研究所 多机器人协作对抗方法、装置、电子设备和存储介质
CN113962012A (zh) * 2021-07-23 2022-01-21 中国科学院自动化研究所 无人机对抗策略优化方法及装置
CN114167756A (zh) * 2021-12-08 2022-03-11 北京航空航天大学 多无人机协同空战决策自主学习及半实物仿真验证方法

Patent Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945002A (zh) * 2012-10-18 2013-02-27 南京航空航天大学 基于非线性数学模型的通用型无人机仿真方法及系统
CN109933053A (zh) * 2017-12-15 2019-06-25 海鹰航空通用装备有限责任公司 一种基于机动动作链的无人机控制方法和无人机
CN108319132A (zh) * 2018-01-11 2018-07-24 合肥工业大学 用于无人机空中对抗的决策系统及方法
KR20200063309A (ko) * 2018-11-20 2020-06-05 고려대학교 산학협력단 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템
CN110502034A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于深度强化学习的固定翼无人机群集控制方法
CN110531786A (zh) * 2019-09-10 2019-12-03 西北工业大学 基于dqn的无人机机动策略自主生成方法
CN110852808A (zh) * 2019-11-14 2020-02-28 北京工业大学 基于深度神经网络的电子产品异步自适应价值评估方法
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111461294A (zh) * 2020-03-16 2020-07-28 中国人民解放军空军工程大学 面向动态博弈的智能飞行器类脑认知学习方法
CN111240212A (zh) * 2020-03-25 2020-06-05 北京航空航天大学 一种基于优化预测的倾转旋翼无人机控制分配方法
CN111459026A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 基于竞争群算法的倾转旋翼无人机多目标控制分配方法
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN112566209A (zh) * 2020-11-24 2021-03-26 山西三友和智慧信息技术股份有限公司 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
CN112712193A (zh) * 2020-12-02 2021-04-27 南京航空航天大学 基于改进Q-Learning的多无人机局部航路规划方法及装置
CN113406965A (zh) * 2021-05-31 2021-09-17 南京邮电大学 一种基于强化学习的无人机能耗优化方法
CN113511082A (zh) * 2021-05-31 2021-10-19 深圳先进技术研究院 基于规则和双深度q网络的混合动力汽车能量管理方法
CN113962012A (zh) * 2021-07-23 2022-01-21 中国科学院自动化研究所 无人机对抗策略优化方法及装置
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法
AU2021106316A4 (en) * 2021-08-21 2021-11-04 Beihang University Method for assisting data transmission of vehicle-mounted ad-hoc network by cooperative relay of multi-unmanned aerial vehicles
CN113625740A (zh) * 2021-08-27 2021-11-09 北京航空航天大学 一种基于迁移学习鸽群优化的无人机空战博弈方法
CN113836803A (zh) * 2021-09-13 2021-12-24 南京航空航天大学 基于改进狼群算法的无人机群资源调度方法
CN113894780A (zh) * 2021-09-27 2022-01-07 中国科学院自动化研究所 多机器人协作对抗方法、装置、电子设备和存储介质
CN114167756A (zh) * 2021-12-08 2022-03-11 北京航空航天大学 多无人机协同空战决策自主学习及半实物仿真验证方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115113642A (zh) * 2022-06-02 2022-09-27 中国航空工业集团公司沈阳飞机设计研究所 一种多无人机时空关键特征自学习协同对抗决策方法
CN114996856A (zh) * 2022-06-27 2022-09-02 北京鼎成智造科技有限公司 一种用于飞机智能体机动决策的数据处理方法及装置
CN115268481A (zh) * 2022-07-06 2022-11-01 中国航空工业集团公司沈阳飞机设计研究所 一种无人机对抗策略决策方法及其系统
CN115048823A (zh) * 2022-08-15 2022-09-13 白杨时代(北京)科技有限公司 一种智能决策推演的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114489144B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN114489144B (zh) 无人机自主机动决策方法、装置及无人机
CN112947581B (zh) 基于多智能体强化学习的多无人机协同空战机动决策方法
De Souza et al. Decentralized multi-agent pursuit using deep reinforcement learning
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN112880688A (zh) 基于混沌自适应麻雀搜索算法的无人机三维航迹规划方法
CN110991545A (zh) 一种面向多智能体对抗的强化学习训练优化方法及装置
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN113791634A (zh) 一种基于多智能体强化学习的多机空战决策方法
You et al. Target tracking strategy using deep deterministic policy gradient
CN112906233B (zh) 基于认知行为知识的分布式近端策略优化方法及其应用
Zhang et al. Efficient training techniques for multi-agent reinforcement learning in combat tasks
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN111240356A (zh) 一种基于深度强化学习的无人机集群会合方法
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN114063644B (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
Ciou et al. Composite reinforcement learning for social robot navigation
CN117313561B (zh) 无人机智能决策模型训练方法及无人机智能决策方法
Zhou et al. Learning system for air combat decision inspired by cognitive mechanisms of the brain
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
CN114167756B (zh) 多无人机协同空战决策自主学习及半实物仿真验证方法
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
Jiang et al. Short-range air combat maneuver decision of uav swarm based on multi-agent transformer introducing virtual objects
Källström et al. Design of simulation-based pilot training systems using machine learning agents
Zhang et al. Situational continuity-based air combat autonomous maneuvering decision-making
Androulakakis et al. Evolutionary design of engagement strategies for turn-constrained agents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant