CN108427286B - 用于强对抗环境下无人机深度决策的训练方法及训练网络 - Google Patents
用于强对抗环境下无人机深度决策的训练方法及训练网络 Download PDFInfo
- Publication number
- CN108427286B CN108427286B CN201810324470.1A CN201810324470A CN108427286B CN 108427286 B CN108427286 B CN 108427286B CN 201810324470 A CN201810324470 A CN 201810324470A CN 108427286 B CN108427286 B CN 108427286B
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- weapon
- ground target
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000009471 action Effects 0.000 claims description 56
- 238000005070 sampling Methods 0.000 claims description 27
- 230000000694 effects Effects 0.000 claims description 11
- 230000004083 survival effect Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 230000003042 antagnostic effect Effects 0.000 claims description 2
- 230000006378 damage Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供一种用于强对抗环境下无人机深度决策的训练方法及训练网络,属于无人机深度决策技术领域。该训练网络包括输入层、隐藏层、输出层、回报值获取模块、记忆库和梯度训练模块。训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
Description
技术领域
本发明涉及无人机深度决策技术领域,具体地涉及一种用于强对抗环境下无人机深度决策的训练方法及训练网络。
背景技术
现有的无人机决策方法大多未考虑无人机的强对抗环境,无法解决强对抗环境下无人机自主决策问题。如论文《一种基于情景构建的无人机自主鲁棒决策方法》是使用基于影响图的不确定性求解方法,其存在如下两个方面的不足:第一,该决策方法实质是从候选方案中选择效用最大方案的过程,候选方案能涵盖的突发情况维度,直接决定了该方法鲁棒性能的优劣,而这些候选方案往往都只能由历史战例中总结获得,无法胜任未经历过场景下的决策;第二,影响图法需要预先构建影响图模型,且在模型构建之后无法进行持续改进,很难适应复杂多变的高动态性战场条件。
发明内容
本发明的目的是提供一种用于强对抗环境下无人机深度决策的训练方法及训练网络,该训练方法突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
为了实现上述目的,在一方面,本发明提供一种用于强对抗环境下无人机深度决策的训练方法,强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器,该训练方法包括以下步骤:获取当前状态下强对抗环境的第一状态空间数据的初始值,第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数,其中,无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况,地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间,第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况,第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况;根据第一状态空间数据计算当前状态下无人机、地面目标和第二武器之间的状态值,其中,状态值包括无人机与地面目标之间的距离和高度差、无人机的航向与地面目标之间的水平夹角、无人机与第二武器之间的距离;对状态值进行标准化处理,获得标准化状态值;根据标准化状态值采用深度确定性策略梯度DDPG方法计算无人机在当前环境下的决策动作,决策动作包括机动动作和打击动作;获取无人机执行决策动作后的第二状态空间数据;计算无人机执行决策动作的回报值;根据第一状态空间数据、第二状态空间数据和回报值更新DDPG方法的权值参数;根据第二状态空间数据更新第一状态空间数据;判断无人机或地面目标是否被摧毁;在判断无人机或地面目标被摧毁的情况下,记录无人机与地面目标的作战情况,作战情况包括无人机是否被摧毁和地面目标是否被摧毁;判断无人机和地面目标的作战次数是否大于或者等于100次,无人机或地面目标被摧毁一次定义为完成一次作战;在判断无人机和地面目标的作战次数大于或者等于100次的情况下,计算无人机的百回合胜率;判断百回合胜率是否大于或者等于预设值;在判断百回合胜率大于或者等于预设值的情况下,完成强对抗环境下无人机深度决策的训练;
该训练方法还包括:在完成强对抗环境下无人机深度决策的训练的情况下,生成并存储强对抗环境下无人机深度决策的神经网络;
无人机与地面目标之间的距离采用式(1)来表示:
标准化后的无人机与地面目标之间的距离采用式(2)来表示:
无人机的航向与地面目标之间的水平夹角采用式(3)来表示:
标准化后的无人机的航向与地面目标之间的水平夹角采用式(4)来表示:
无人机与地面目标之间的高度差采用式(5)来表示:
无人机与第二武器之间的距离采用式(6)来表示:
回报值被定义为强对抗环境对无人机执行的决策动作的效用的评估值,回报值包括长时间分辨率回报值和短时间分辨率回报值,长时间分辨率回报值为长采样周期的起始时刻的回报值,短时间分辨率回报值为短采样周期的起始时刻的回报值,长采样周期包含多个短采样周期,第i个短采样周期为第i步,回报值采用式(7)来表示:
其中,Rei为在第i步无人机执行决策动作的回报值,为在第i个短采样周期无人机执行决策动作的短时间分辨率回报值,为在第j个长采样周期无人机执行决策动作的长时间分辨率回报值,第i个短采样周期包含在第j个长采样周期中。
优选地,长时间分辨率回报值和短时间分辨率回报值为规则性回报值与战果性回报值二者的和,规则性回报值采用式(8)来表示:
战果性回报值采用式(9)来表示:
在另一方面,本发明提供一种用于强对抗环境下无人机深度决策的训练网络,该训练网络包括:输入层,用于:获取强对抗环境的第一状态空间数据的初始值,根据第一状态空间数据计算无人机、地面目标、第一武器和第二武器之间的状态值,对状态值进行标准化处理,获得标准化状态值并发送给隐藏层;隐藏层,用于:接收标准化状态值,根据标准化状态值计算无人机在当前环境下的决策动作,存储决策动作,将决策动作发送给输出层;输出层,用于输出决策动作,以控制无人机执行决策动作;回报值获取模块,用于计算无人机执行决策动作的回报值;输入层还用于:获取无人机执行决策动作后的第二状态空间数据,根据第二状态空间数据更新第一状态空间数据;记忆库,用于存储第一状态空间数据、第二状态空间数据和回报值;梯度训练模块,用于根据第一状态空间数据、第二状态空间数据和回报值对隐藏层进行策略改进。
通过上述技术方案,训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图;
图2是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图;
图3是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练网络的结构框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图。如图1所示,在本发明的一实施方式中提供了一种用于强对抗环境下无人机深度决策的训练方法,强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器,该训练方法可以包括以下步骤:
在步骤S101中,获取当前状态下强对抗环境的第一状态空间数据的初始值,第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数,
其中,无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况,地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间,第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况,第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况;
在步骤S102中,根据第一状态空间数据计算当前状态下无人机、地面目标和第二武器之间的状态值,
其中,状态值包括无人机与地面目标之间的距离和高度差、无人机的航向与地面目标之间的水平夹角、无人机与第二武器之间的距离;
在步骤S103中,对状态值进行标准化处理,获得标准化状态值;
在步骤S104中,根据标准化状态值采用深度确定性策略梯度DDPG方法计算无人机在当前环境下的决策动作,决策动作包括机动动作和打击动作;
在步骤S105中,获取无人机执行决策动作后的第二状态空间数据;
在步骤S106中,计算无人机执行决策动作的回报值;
在步骤S107中,根据第一状态空间数据、第二状态空间数据和回报值更新DDPG方法的权值参数;
在步骤S108中,根据第二状态空间数据更新第一状态空间数据;
在步骤S109中,判断无人机或地面目标是否被摧毁;
在步骤S110中,在判断无人机或地面目标被摧毁的情况下,记录无人机与地面目标的作战情况,作战情况包括无人机是否被摧毁和地面目标是否被摧毁;
在步骤S111中,判断无人机和地面目标的作战次数是否大于或者等于100次,无人机或地面目标被摧毁一次定义为完成一次作战;
在步骤S112中,在判断无人机和地面目标的作战次数大于或者等于100次的情况下,计算无人机的百回合胜率;
在步骤S113中,判断百回合胜率是否大于或者等于预设值;
在判断百回合胜率大于或者等于预设值的情况下,完成强对抗环境下无人机深度决策的训练。
DDPG方法是所属领域技术人员所知的技术,为突出本发明的要点,因此在本发明的说明书中对该已知技术未做详细的描述。
无人机参数例如可以采用以下方式来表示:
无人机参数还可以包括无人机载弹情况和无人机的第一武器的攻击半径,可以分别采用以下方式表示:
第一武器的攻击半径可以表示为:DR=d,DR为第一武器的攻击半径,d为一固定正整数,表示无人机可以进行攻击的距离,单位为公里。
地面目标参数例如可以采用以下方式来表示:
地面目标弹药重装填时间: 为地面目标在第i步重新装填弹药所需的时间,重新装填弹药所需的时间例如可以采用回合数来表示,地面目标和无人机完成一次作战记做一个回合,g表示地面目标的弹药重新装填完成剩余的回合数,即在i步地面目标还需要g个回合才能再次进行攻击。
第一武器参数和第二武器参数:
武器活动情况:第一武器和第二武器的活动情况可以分别表示为:和 为第一武器在i步是否进行过攻击,为第二武器在i步是否进行过攻击,若第一武器在i步进行过攻击或者地面目标消失,则否则若第二武器在i步进行过攻击或者无人机消失,则否则
在真实环境下,无人机的机动空间是三维空间,包括六个自由度,由于无人机的滚转对于对抗决策的影响可以忽略,因此在本发明的一实施方式中可以只考虑无人机的其他五个自由度的机动。假定速度恒定,则无人机的机动动作可以看作是由俯仰角和偏转角的配合来实现的。而这两个角度都需要在可行区间中进行连续取值。则无人机在第i步的机动动作可以表示为: 为无人机在第i步的机动动作,为无人机在第i步的俯仰角,为无人机在第i步的偏转角。θ,的取值范围也可以根据实际情况进行调整。
无人机、地面目标和第二武器之间的状态值以及标准化状态值可以采用以下方式来表示:
无人机与地面目标之间的距离采用式(1)来表示:
标准化后的无人机与地面目标之间的距离采用式(2)来表示:
无人机的航向与地面目标之间的水平夹角采用式(3)来表示:
标准化后的无人机的航向与地面目标之间的水平夹角采用式(4)来表示:
无人机与地面目标之间的高度差采用式(5)来表示:
无人机与第二武器之间的距离采用式(6)来表示:
在本发明的一实施方式中,回报值被定义为强对抗环境对无人机执行的决策动作的效用的评估值,回报值包括长时间分辨率回报值和短时间分辨率回报值,长时间分辨率回报值为长采样周期的起始时刻的回报值,短时间分辨率回报值为短采样周期的起始时刻的回报值,长采样周期包含多个短采样周期,第i个短采样周期为第i步,回报值采用式(7)来表示:
其中,Rei为在第i步无人机执行决策动作的回报值,为在第i个短采样周期无人机执行决策动作的短时间分辨率回报值,为在第j个长采样周期无人机执行决策动作的长时间分辨率回报值,第i个短采样周期包含在第j个长采样周期中。
长时间分辨率回报值和短时间分辨率回报值为规则性回报值与战果性回报值二者的和,规则性回报值采用式(8)来表示:
战果性回报值采用式(9)来表示:
图2是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图。如图2所示,在本发明的一实施方式中提供了一种用于强对抗环境下无人机深度决策的训练方法,与图1所示的训练方法相比,该训练方法还可以包括:
在步骤S214中,在完成强对抗环境下无人机深度决策的训练的情况下,生成并存储强对抗环境下无人机深度决策的神经网络。
图3是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练网络的结构框图。如图3所示。在本发明的一实施方式中还提供了一种用于强对抗环境下无人机深度决策的训练网络,强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器,其特征在于,包括:
输入层,用于:
获取强对抗环境的第一状态空间数据的初始值,
根据第一状态空间数据计算无人机、地面目标、第一武器和第二武器之间的状态值,
对状态值进行标准化处理,获得标准化状态值并发送给隐藏层;
隐藏层,用于:
接收标准化状态值,
根据标准化状态值计算无人机在当前环境下的决策动作,
存储决策动作,
将决策动作发送给输出层;
输出层,用于输出决策动作,以控制无人机执行决策动作;
回报值获取模块(回馈值获取模块),用于计算无人机执行决策动作的回报值;
输入层还用于:
获取无人机执行决策动作后的第二状态空间数据,
根据第二状态空间数据更新第一状态空间数据;
记忆库(存储库),用于存储第一状态空间数据、第二状态空间数据和回报值;
梯度训练模块,用于根据第一状态空间数据、第二状态空间数据和回报值对隐藏层进行策略改进。
通过上述实施方式,训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
以上结合附图详细描述了本发明的可选实施方式,但是,本发明并不限于上述可选实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。
Claims (3)
1.一种用于强对抗环境下无人机深度决策的训练方法,所述强对抗环境包括无人机、地面目标、所述无人机的第一武器以及所述地面目标的第二武器,其特征在于,包括以下步骤:
获取当前状态下所述强对抗环境的第一状态空间数据的初始值,所述第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数,
其中,所述无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况,所述地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间,所述第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况,所述第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况;
根据所述第一状态空间数据计算当前状态下所述无人机、所述地面目标和所述第二武器之间的状态值,其中,所述状态值包括所述无人机与所述地面目标之间的距离和高度差、所述无人机的航向与所述地面目标之间的水平夹角、所述无人机与所述第二武器之间的距离;
对所述状态值进行标准化处理,获得标准化状态值;
根据所述标准化状态值采用深度确定性策略梯度DDPG方法计算所述无人机在当前环境下的决策动作,所述决策动作包括机动动作和打击动作;
获取所述无人机执行所述决策动作后的第二状态空间数据;
计算所述无人机执行所述决策动作的回报值;
根据所述第一状态空间数据、所述第二状态空间数据和所述回报值更新所述DDPG方法的权值参数;
根据所述第二状态空间数据更新所述第一状态空间数据;
判断所述无人机或所述地面目标是否被摧毁;
在判断所述无人机或所述地面目标被摧毁的情况下,记录所述无人机与所述地面目标的作战情况,所述作战情况包括所述无人机是否被摧毁和所述地面目标是否被摧毁;
判断所述无人机和所述地面目标的作战次数是否大于或者等于100次,所述无人机或所述地面目标被摧毁一次定义为完成一次作战;
在判断所述无人机和所述地面目标的作战次数大于或者等于100次的情况下,计算所述无人机的百回合胜率;
判断所述百回合胜率是否大于或者等于预设值;
在判断所述百回合胜率大于或者等于所述预设值的情况下,完成所述强对抗环境下无人机深度决策的训练;
所述训练方法还包括:
在完成所述强对抗环境下无人机深度决策的训练的情况下,生成并存储所述强对抗环境下无人机深度决策的神经网络;
其中,所述无人机与所述地面目标之间的距离采用式(1)来表示:
标准化后的所述无人机与所述地面目标之间的距离采用式(2)来表示:
所述无人机的航向与所述地面目标之间的水平夹角采用式(3)来表示:
其中,γi为所述无人机的航向与所述地面目标之间在第i步的水平夹角, 为所述无人机的航向与水平面内的参考坐标轴之间的夹角,为所述地面目标的运行方向与水平面内的参考坐标轴之间的夹角,atan为反正切函数,π为圆周率;
标准化后的所述无人机的航向与所述地面目标之间的水平夹角采用式(4)来表示:
所述无人机与所述地面目标之间的高度差采用式(5)来表示:
所述无人机与所述第二武器之间的距离采用式(6)来表示:
另外,所述回报值被定义为所述强对抗环境对所述无人机执行的所述决策动作的效用的评估值,所述回报值包括长时间分辨率回报值和短时间分辨率回报值,所述长时间分辨率回报值为长采样周期的起始时刻的回报值,所述短时间分辨率回报值为短采样周期的起始时刻的回报值,所述长采样周期包含多个所述短采样周期,第i个短采样周期为第i步,所述回报值采用式(7)来表示:
3.一种用于强对抗环境下无人机深度决策的训练网络,通过如权利要求1或2所述的训练方法得到,所述强对抗环境包括无人机、地面目标、所述无人机的第一武器以及所述地面目标的第二武器,其特征在于,包括:
输入层,用于:
获取所述强对抗环境的第一状态空间数据的初始值,
根据所述第一状态空间数据计算所述无人机、所述地面目标、所述第一武器和所述第二武器之间的状态值,
对所述状态值进行标准化处理,获得标准化状态值并发送给隐藏层;
所述隐藏层,用于:
接收所述标准化状态值,
根据所述标准化状态值计算所述无人机在当前环境下的决策动作,存储所述决策动作,
将所述决策动作发送给输出层;
所述输出层,用于输出所述决策动作,以控制所述无人机执行所述决策动作;
回报值获取模块,用于计算所述无人机执行所述决策动作的回报值;
所述输入层还用于:
获取所述无人机执行所述决策动作后的第二状态空间数据,
根据所述第二状态空间数据更新所述第一状态空间数据;
记忆库,用于存储所述第一状态空间数据、所述第二状态空间数据和所述回报值;
梯度训练模块,用于根据第一状态空间数据、所述第二状态空间数据和所述回报值对所述隐藏层进行策略改进。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810324470.1A CN108427286B (zh) | 2018-04-12 | 2018-04-12 | 用于强对抗环境下无人机深度决策的训练方法及训练网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810324470.1A CN108427286B (zh) | 2018-04-12 | 2018-04-12 | 用于强对抗环境下无人机深度决策的训练方法及训练网络 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108427286A CN108427286A (zh) | 2018-08-21 |
CN108427286B true CN108427286B (zh) | 2021-06-01 |
Family
ID=63161052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810324470.1A Active CN108427286B (zh) | 2018-04-12 | 2018-04-12 | 用于强对抗环境下无人机深度决策的训练方法及训练网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108427286B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111045443B (zh) | 2018-10-11 | 2021-07-02 | 北京航空航天大学 | 无人机通信网络移动控制方法、装置、设备及存储介质 |
CN110673620B (zh) * | 2019-10-22 | 2020-10-27 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN110991545B (zh) * | 2019-12-10 | 2021-02-02 | 中国人民解放军军事科学院国防科技创新研究院 | 一种面向多智能体对抗的强化学习训练优化方法及装置 |
CN111369833B (zh) * | 2020-03-09 | 2021-06-08 | 沈观清 | 基于长航时大高度小型无人机的预警和对抗系统 |
CN112486200B (zh) * | 2020-10-15 | 2022-07-26 | 合肥工业大学 | 多无人机协同对抗在线重决策方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488171A (zh) * | 2013-09-29 | 2014-01-01 | 合肥工业大学 | 一种基于情景构建的无人机自主鲁棒决策方法 |
CN104199788A (zh) * | 2014-06-30 | 2014-12-10 | 兰州交通大学 | 一种多目标空对地半监督机器适应自主决策实时攻击方法 |
CN105278542A (zh) * | 2015-09-23 | 2016-01-27 | 沈阳航空航天大学 | 多无人机协同打击任务的攻防对策最优策略方法 |
CN105427032A (zh) * | 2015-11-09 | 2016-03-23 | 河海大学 | 一种无人机对抗决策评估方法 |
CN106020215A (zh) * | 2016-05-09 | 2016-10-12 | 北京航空航天大学 | 一种基于单步预测矩阵博弈的近距空战自主决策方法 |
CN107390706A (zh) * | 2017-07-26 | 2017-11-24 | 北京航空航天大学 | 一种基于预演机动规则系统的无人机近距格斗决策方法 |
CN107832850A (zh) * | 2017-10-27 | 2018-03-23 | 合肥工业大学 | 对抗环境下无人机占位决策的矩阵博弈方法及装置 |
CN107832939A (zh) * | 2017-10-27 | 2018-03-23 | 合肥工业大学 | 无人平台空中对抗推演方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9003943B2 (en) * | 2011-12-16 | 2015-04-14 | Saab Ab | Object-focussed decision support |
-
2018
- 2018-04-12 CN CN201810324470.1A patent/CN108427286B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488171A (zh) * | 2013-09-29 | 2014-01-01 | 合肥工业大学 | 一种基于情景构建的无人机自主鲁棒决策方法 |
CN104199788A (zh) * | 2014-06-30 | 2014-12-10 | 兰州交通大学 | 一种多目标空对地半监督机器适应自主决策实时攻击方法 |
CN105278542A (zh) * | 2015-09-23 | 2016-01-27 | 沈阳航空航天大学 | 多无人机协同打击任务的攻防对策最优策略方法 |
CN105427032A (zh) * | 2015-11-09 | 2016-03-23 | 河海大学 | 一种无人机对抗决策评估方法 |
CN106020215A (zh) * | 2016-05-09 | 2016-10-12 | 北京航空航天大学 | 一种基于单步预测矩阵博弈的近距空战自主决策方法 |
CN107390706A (zh) * | 2017-07-26 | 2017-11-24 | 北京航空航天大学 | 一种基于预演机动规则系统的无人机近距格斗决策方法 |
CN107832850A (zh) * | 2017-10-27 | 2018-03-23 | 合肥工业大学 | 对抗环境下无人机占位决策的矩阵博弈方法及装置 |
CN107832939A (zh) * | 2017-10-27 | 2018-03-23 | 合肥工业大学 | 无人平台空中对抗推演方法及装置 |
Non-Patent Citations (6)
Title |
---|
Mission decision-making method of multi-aircraft cooperatively attacking multi-target based on game theoretic framework;YaoZongxin,LiMing,ChenZongji,ZhouRui;《Chinese Journal of Aeronautics》;20161231;第29卷(第6期);全文 * |
Robust decision making for UAV air-to-ground attack under severe uncertainty;HU Xiao-xuan, CHEN Yi, LUO He;《Journal of Central South University》;20151231(第11期);全文 * |
协同多目标攻击空战决策及其神经网络实现;李林森, 佟明安;《航空学报》;19990731;第20卷(第4期);全文 * |
基于动态贝叶斯网络的空战决策方法;孟光磊,罗元强,梁宵,徐一民;《指挥控制与仿真》;20170630;第39卷(第3期);全文 * |
孟光磊,罗元强,梁宵,徐一民.基于动态贝叶斯网络的空战决策方法.《指挥控制与仿真》.2017,第39卷(第3期), * |
小型战术察打一体无人机武器系统作战应用研究;兰文博,付义伟,李平坤,罗小云;《飞航导弹》;20131231(第2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108427286A (zh) | 2018-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427286B (zh) | 用于强对抗环境下无人机深度决策的训练方法及训练网络 | |
US11669110B2 (en) | Control system based on multi-unmanned aerial vehicle cooperative strategic confrontation | |
CN112651181B (zh) | 一种基于零和博弈的雷达对抗策略建模与仿真方法 | |
US9030347B2 (en) | Preemptive signature control for vehicle survivability planning | |
US9240001B2 (en) | Systems and methods for vehicle survivability planning | |
CN113791634A (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
CN114460959A (zh) | 一种基于多体博弈的无人机群协同自主决策方法及装置 | |
CN109740876A (zh) | 目标威胁判断方法 | |
CN109063819B (zh) | 基于贝叶斯网络的任务共同体的识别方法 | |
CN113705102A (zh) | 海空集群对抗的推演仿真系统及方法、设备、存储介质 | |
US8831793B2 (en) | Evaluation tool for vehicle survivability planning | |
CN109541960B (zh) | 一种用于飞行器数字化战场对抗的系统和方法 | |
CN113536528A (zh) | 一种无护航编队情况下预警机战术行为模拟方法及系统 | |
CN113741525A (zh) | 基于策略集合maddpg多无人机协同攻防对抗方法 | |
CN113220033B (zh) | 基于改进多元宇宙优化算法的多异构无人机任务分配方法 | |
CN115951709A (zh) | 基于td3的多无人机空战策略生成方法 | |
CN114638339A (zh) | 基于深度强化学习的智能体任务分配方法 | |
Qiu et al. | One-to-one air-combat maneuver strategy based on improved TD3 algorithm | |
CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
CN117313561B (zh) | 无人机智能决策模型训练方法及无人机智能决策方法 | |
Duan et al. | Autonomous maneuver decision for unmanned aerial vehicle via improved pigeon-inspired optimization | |
Sun et al. | Task allocation in multi-AUV dynamic game based on interval ranking under uncertain information | |
Yuksek et al. | Development of UCAV fleet autonomy by reinforcement learning in a wargame simulation environment | |
CN113126651B (zh) | 多无人机协同对抗的智能决策装置和系统 | |
Dietl et al. | Fighter Design and Fleet Effectiveness Evaluation via System of Systems Battlespace Simulation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |