CN108427286B - 用于强对抗环境下无人机深度决策的训练方法及训练网络 - Google Patents

用于强对抗环境下无人机深度决策的训练方法及训练网络 Download PDF

Info

Publication number
CN108427286B
CN108427286B CN201810324470.1A CN201810324470A CN108427286B CN 108427286 B CN108427286 B CN 108427286B CN 201810324470 A CN201810324470 A CN 201810324470A CN 108427286 B CN108427286 B CN 108427286B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
weapon
ground target
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810324470.1A
Other languages
English (en)
Other versions
CN108427286A (zh
Inventor
胡笑旋
张任驰
马华伟
郭君
夏维
王执龙
罗贺
王国强
靳鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201810324470.1A priority Critical patent/CN108427286B/zh
Publication of CN108427286A publication Critical patent/CN108427286A/zh
Application granted granted Critical
Publication of CN108427286B publication Critical patent/CN108427286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种用于强对抗环境下无人机深度决策的训练方法及训练网络,属于无人机深度决策技术领域。该训练网络包括输入层、隐藏层、输出层、回报值获取模块、记忆库和梯度训练模块。训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。

Description

用于强对抗环境下无人机深度决策的训练方法及训练网络
技术领域
本发明涉及无人机深度决策技术领域,具体地涉及一种用于强对抗环境下无人机深度决策的训练方法及训练网络。
背景技术
现有的无人机决策方法大多未考虑无人机的强对抗环境,无法解决强对抗环境下无人机自主决策问题。如论文《一种基于情景构建的无人机自主鲁棒决策方法》是使用基于影响图的不确定性求解方法,其存在如下两个方面的不足:第一,该决策方法实质是从候选方案中选择效用最大方案的过程,候选方案能涵盖的突发情况维度,直接决定了该方法鲁棒性能的优劣,而这些候选方案往往都只能由历史战例中总结获得,无法胜任未经历过场景下的决策;第二,影响图法需要预先构建影响图模型,且在模型构建之后无法进行持续改进,很难适应复杂多变的高动态性战场条件。
发明内容
本发明的目的是提供一种用于强对抗环境下无人机深度决策的训练方法及训练网络,该训练方法突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
为了实现上述目的,在一方面,本发明提供一种用于强对抗环境下无人机深度决策的训练方法,强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器,该训练方法包括以下步骤:获取当前状态下强对抗环境的第一状态空间数据的初始值,第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数,其中,无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况,地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间,第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况,第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况;根据第一状态空间数据计算当前状态下无人机、地面目标和第二武器之间的状态值,其中,状态值包括无人机与地面目标之间的距离和高度差、无人机的航向与地面目标之间的水平夹角、无人机与第二武器之间的距离;对状态值进行标准化处理,获得标准化状态值;根据标准化状态值采用深度确定性策略梯度DDPG方法计算无人机在当前环境下的决策动作,决策动作包括机动动作和打击动作;获取无人机执行决策动作后的第二状态空间数据;计算无人机执行决策动作的回报值;根据第一状态空间数据、第二状态空间数据和回报值更新DDPG方法的权值参数;根据第二状态空间数据更新第一状态空间数据;判断无人机或地面目标是否被摧毁;在判断无人机或地面目标被摧毁的情况下,记录无人机与地面目标的作战情况,作战情况包括无人机是否被摧毁和地面目标是否被摧毁;判断无人机和地面目标的作战次数是否大于或者等于100次,无人机或地面目标被摧毁一次定义为完成一次作战;在判断无人机和地面目标的作战次数大于或者等于100次的情况下,计算无人机的百回合胜率;判断百回合胜率是否大于或者等于预设值;在判断百回合胜率大于或者等于预设值的情况下,完成强对抗环境下无人机深度决策的训练;
该训练方法还包括:在完成强对抗环境下无人机深度决策的训练的情况下,生成并存储强对抗环境下无人机深度决策的神经网络;
无人机与地面目标之间的距离采用式(1)来表示:
Figure GDA0002922443330000031
其中,
Figure GDA0002922443330000032
为无人机与地面目标之间在第i步的距离,第i步被定义为第i次获取第二状态空间数据,
Figure GDA0002922443330000033
为无人机在第i步的空间坐标,
Figure GDA0002922443330000034
为地面目标在第i步的空间坐标;
标准化后的无人机与地面目标之间的距离采用式(2)来表示:
Figure GDA0002922443330000035
其中,
Figure GDA0002922443330000036
为标准化后的无人机与地面目标之间在第i步的距离,
Figure GDA0002922443330000037
的对数,ln(d+1)为d+1的对数,d为第一武器的作战范围;
无人机的航向与地面目标之间的水平夹角采用式(3)来表示:
Figure GDA0002922443330000038
其中,γi为无人机的航向与地面目标之间在第i步的水平夹角,
Figure GDA0002922443330000039
Figure GDA00029224433300000310
为无人机的航向与水平面内的参考坐标轴之间的夹角,
Figure GDA00029224433300000311
为地面目标的运行方向与水平面内的参考坐标轴之间的夹角,
Figure GDA00029224433300000312
Figure GDA00029224433300000313
atan为反正切函数,π为圆周率;
标准化后的无人机的航向与地面目标之间的水平夹角采用式(4)来表示:
Figure GDA00029224433300000314
其中,
Figure GDA00029224433300000315
为标准化后的无人机的航向与地面目标之间在第i步的水平夹角;
无人机与地面目标之间的高度差采用式(5)来表示:
Figure GDA0002922443330000041
其中,
Figure GDA0002922443330000042
为无人机与地面目标之间在第i步的高度差;
无人机与第二武器之间的距离采用式(6)来表示:
Figure GDA0002922443330000043
其中,
Figure GDA0002922443330000044
为无人机与第二武器之间在第i步的距离;
Figure GDA0002922443330000045
为第二武器在第i步的空间坐标;
回报值被定义为强对抗环境对无人机执行的决策动作的效用的评估值,回报值包括长时间分辨率回报值和短时间分辨率回报值,长时间分辨率回报值为长采样周期的起始时刻的回报值,短时间分辨率回报值为短采样周期的起始时刻的回报值,长采样周期包含多个短采样周期,第i个短采样周期为第i步,回报值采用式(7)来表示:
Figure GDA0002922443330000046
其中,Rei为在第i步无人机执行决策动作的回报值,
Figure GDA0002922443330000047
为在第i个短采样周期无人机执行决策动作的短时间分辨率回报值,
Figure GDA0002922443330000048
为在第j个长采样周期无人机执行决策动作的长时间分辨率回报值,第i个短采样周期包含在第j个长采样周期中。
优选地,长时间分辨率回报值和短时间分辨率回报值为规则性回报值与战果性回报值二者的和,规则性回报值采用式(8)来表示:
Figure GDA0002922443330000049
其中,ReR1为无人机执行决策动作的规则性回报值,
Figure GDA00029224433300000410
为无人机的高度回报值,被定义为
Figure GDA00029224433300000411
Figure GDA00029224433300000412
为无人机的时间回报值,被定义为
Figure GDA00029224433300000413
Figure GDA00029224433300000414
为第一武器的活动情况回报值,
Figure GDA00029224433300000415
被定义为在第一武器每发出一次攻击的情况下
Figure GDA00029224433300000416
战果性回报值采用式(9)来表示:
Figure GDA0002922443330000051
其中,ReR2为战果性回报值,
Figure GDA0002922443330000052
为地面目标被摧毁的情况下的战果回报值,被定义为
Figure GDA0002922443330000053
Figure GDA0002922443330000054
为地面目标未被摧毁的情况下的战果回报值,被定义为
Figure GDA0002922443330000055
在另一方面,本发明提供一种用于强对抗环境下无人机深度决策的训练网络,该训练网络包括:输入层,用于:获取强对抗环境的第一状态空间数据的初始值,根据第一状态空间数据计算无人机、地面目标、第一武器和第二武器之间的状态值,对状态值进行标准化处理,获得标准化状态值并发送给隐藏层;隐藏层,用于:接收标准化状态值,根据标准化状态值计算无人机在当前环境下的决策动作,存储决策动作,将决策动作发送给输出层;输出层,用于输出决策动作,以控制无人机执行决策动作;回报值获取模块,用于计算无人机执行决策动作的回报值;输入层还用于:获取无人机执行决策动作后的第二状态空间数据,根据第二状态空间数据更新第一状态空间数据;记忆库,用于存储第一状态空间数据、第二状态空间数据和回报值;梯度训练模块,用于根据第一状态空间数据、第二状态空间数据和回报值对隐藏层进行策略改进。
通过上述技术方案,训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图;
图2是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图;
图3是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练网络的结构框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图。如图1所示,在本发明的一实施方式中提供了一种用于强对抗环境下无人机深度决策的训练方法,强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器,该训练方法可以包括以下步骤:
在步骤S101中,获取当前状态下强对抗环境的第一状态空间数据的初始值,第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数,
其中,无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况,地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间,第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况,第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况;
在步骤S102中,根据第一状态空间数据计算当前状态下无人机、地面目标和第二武器之间的状态值,
其中,状态值包括无人机与地面目标之间的距离和高度差、无人机的航向与地面目标之间的水平夹角、无人机与第二武器之间的距离;
在步骤S103中,对状态值进行标准化处理,获得标准化状态值;
在步骤S104中,根据标准化状态值采用深度确定性策略梯度DDPG方法计算无人机在当前环境下的决策动作,决策动作包括机动动作和打击动作;
在步骤S105中,获取无人机执行决策动作后的第二状态空间数据;
在步骤S106中,计算无人机执行决策动作的回报值;
在步骤S107中,根据第一状态空间数据、第二状态空间数据和回报值更新DDPG方法的权值参数;
在步骤S108中,根据第二状态空间数据更新第一状态空间数据;
在步骤S109中,判断无人机或地面目标是否被摧毁;
在步骤S110中,在判断无人机或地面目标被摧毁的情况下,记录无人机与地面目标的作战情况,作战情况包括无人机是否被摧毁和地面目标是否被摧毁;
在步骤S111中,判断无人机和地面目标的作战次数是否大于或者等于100次,无人机或地面目标被摧毁一次定义为完成一次作战;
在步骤S112中,在判断无人机和地面目标的作战次数大于或者等于100次的情况下,计算无人机的百回合胜率;
在步骤S113中,判断百回合胜率是否大于或者等于预设值;
在判断百回合胜率大于或者等于预设值的情况下,完成强对抗环境下无人机深度决策的训练。
DDPG方法是所属领域技术人员所知的技术,为突出本发明的要点,因此在本发明的说明书中对该已知技术未做详细的描述。
无人机参数例如可以采用以下方式来表示:
无人机位置坐标:以地面目标几何中心为原点,正东方向为X轴方向,正北方向为Y轴方向,指向地心相反方向为Z轴方向构建环境坐标系,在第i步无人机的空间位置坐标可以表示为
Figure GDA0002922443330000081
无人机机头指向:以无人机为原点,平行于环境坐标系构建机上坐标系,无人机机头指向例如可以由俯仰角θ和偏转角
Figure GDA0002922443330000082
来确定,无人机的飞行速度假设恒定为VR,则第i步无人机机头指向可以使用球面坐标系表示为:
Figure GDA0002922443330000083
无人机生存状况:在第i步无人机的生存情况可以表示为:
Figure GDA0002922443330000084
其中
Figure GDA0002922443330000085
为无人机在第i步的生存情况,1表示无人机存活,0表示无人机被消灭。
无人机参数还可以包括无人机载弹情况和无人机的第一武器的攻击半径,可以分别采用以下方式表示:
在第i步无人机载弹情况可以表示为:
Figure GDA0002922443330000086
Figure GDA0002922443330000087
为第在i步无人机的剩余弹药数量,假设一架飞机最多载弹两发,则m的初始值为2。
第一武器的攻击半径可以表示为:DR=d,DR为第一武器的攻击半径,d为一固定正整数,表示无人机可以进行攻击的距离,单位为公里。
地面目标参数例如可以采用以下方式来表示:
地面目标位置坐标:使用环境坐标系作为参照系,则地面目标在第i步的空间坐标可以表示为:
Figure GDA0002922443330000088
地面目标生存情况:
Figure GDA0002922443330000089
Figure GDA00029224433300000810
为地面目标在第i步的生存情况,1表示地面目标存活,0表示地面目标被摧毁。
地面目标弹药重装填时间:
Figure GDA00029224433300000811
Figure GDA00029224433300000812
为地面目标在第i步重新装填弹药所需的时间,重新装填弹药所需的时间例如可以采用回合数来表示,地面目标和无人机完成一次作战记做一个回合,g表示地面目标的弹药重新装填完成剩余的回合数,即在i步地面目标还需要g个回合才能再次进行攻击。
第一武器参数和第二武器参数:
武器坐标:使用环境坐标系作为参照系,则第一武器和第二武器在第i步的空间坐标可以分别表示为:
Figure GDA0002922443330000091
Figure GDA0002922443330000092
武器活动情况:第一武器和第二武器的活动情况可以分别表示为:
Figure GDA0002922443330000093
Figure GDA0002922443330000094
Figure GDA0002922443330000095
为第一武器在i步是否进行过攻击,
Figure GDA0002922443330000096
为第二武器在i步是否进行过攻击,若第一武器在i步进行过攻击或者地面目标消失,则
Figure GDA0002922443330000097
否则
Figure GDA0002922443330000098
若第二武器在i步进行过攻击或者无人机消失,则
Figure GDA0002922443330000099
否则
Figure GDA00029224433300000910
武器命中情况:第一武器和第二武器的命中情况可以分别表示为:
Figure GDA00029224433300000911
Figure GDA00029224433300000912
SW1=1表示第一武器攻击命中,SW1=0表示第一武器攻击命中,SW2=1表示第二武器攻击命中,SW2=0表示第二武器攻击命中。
在真实环境下,无人机的机动空间是三维空间,包括六个自由度,由于无人机的滚转对于对抗决策的影响可以忽略,因此在本发明的一实施方式中可以只考虑无人机的其他五个自由度的机动。假定速度恒定,则无人机的机动动作可以看作是由俯仰角和偏转角的配合来实现的。而这两个角度都需要在可行区间中进行连续取值。则无人机在第i步的机动动作可以表示为:
Figure GDA00029224433300000913
Figure GDA00029224433300000914
为无人机在第i步的机动动作,
Figure GDA00029224433300000915
为无人机在第i步的俯仰角,
Figure GDA00029224433300000916
为无人机在第i步的偏转角。θ,
Figure GDA00029224433300000917
的取值范围也可以根据实际情况进行调整。
无人机在第i步的打击动作可以表示为:
Figure GDA00029224433300000918
Figure GDA00029224433300000919
表示无人机进行攻击,
Figure GDA00029224433300000920
表示无人机待机。
无人机、地面目标和第二武器之间的状态值以及标准化状态值可以采用以下方式来表示:
无人机与地面目标之间的距离采用式(1)来表示:
Figure GDA0002922443330000101
其中,
Figure GDA0002922443330000102
为无人机与地面目标之间在第i步的距离,第i步被定义为第i次获取第二状态空间数据,
Figure GDA0002922443330000103
为无人机在第i步的空间坐标,
Figure GDA0002922443330000104
为地面目标在第i步的空间坐标;
标准化后的无人机与地面目标之间的距离采用式(2)来表示:
Figure GDA0002922443330000105
其中,
Figure GDA0002922443330000106
为标准化后的无人机与地面目标之间在第i步的距离,
Figure GDA0002922443330000107
Figure GDA0002922443330000108
Figure GDA0002922443330000109
的对数,ln(d+1)为d+1的对数,d为第一武器的作战范围;
无人机的航向与地面目标之间的水平夹角采用式(3)来表示:
Figure GDA00029224433300001010
其中,γi为无人机的航向与地面目标之间在第i步的水平夹角,
Figure GDA00029224433300001011
Figure GDA00029224433300001012
为无人机的航向与水平面内的参考坐标轴之间的夹角,
Figure GDA00029224433300001013
为地面目标的运行方向与水平面内的参考坐标轴之间的夹角,
Figure GDA00029224433300001014
Figure GDA00029224433300001015
atan为反正切函数,π为圆周率;
标准化后的无人机的航向与地面目标之间的水平夹角采用式(4)来表示:
Figure GDA00029224433300001016
其中,
Figure GDA00029224433300001017
为标准化后的无人机的航向与地面目标之间在第i步的水平夹角;
无人机与地面目标之间的高度差采用式(5)来表示:
Figure GDA0002922443330000111
其中,
Figure GDA0002922443330000112
为无人机与地面目标之间在第i步的高度差;
无人机与第二武器之间的距离采用式(6)来表示:
Figure GDA0002922443330000113
其中,
Figure GDA0002922443330000114
为无人机与第二武器之间在第i步的距离;
Figure GDA0002922443330000115
为第二武器在第i步的空间坐标。
在本发明的一实施方式中,回报值被定义为强对抗环境对无人机执行的决策动作的效用的评估值,回报值包括长时间分辨率回报值和短时间分辨率回报值,长时间分辨率回报值为长采样周期的起始时刻的回报值,短时间分辨率回报值为短采样周期的起始时刻的回报值,长采样周期包含多个短采样周期,第i个短采样周期为第i步,回报值采用式(7)来表示:
Figure GDA0002922443330000116
其中,Rei为在第i步无人机执行决策动作的回报值,
Figure GDA0002922443330000117
为在第i个短采样周期无人机执行决策动作的短时间分辨率回报值,
Figure GDA0002922443330000118
为在第j个长采样周期无人机执行决策动作的长时间分辨率回报值,第i个短采样周期包含在第j个长采样周期中。
长时间分辨率回报值和短时间分辨率回报值为规则性回报值与战果性回报值二者的和,规则性回报值采用式(8)来表示:
Figure GDA0002922443330000119
其中,ReR1为无人机执行决策动作的规则性回报值,
Figure GDA00029224433300001110
为无人机的高度回报值,被定义为
Figure GDA00029224433300001111
Figure GDA00029224433300001112
为无人机的时间回报值,被定义为
Figure GDA00029224433300001113
Figure GDA00029224433300001114
为第一武器的活动情况回报值,
Figure GDA00029224433300001115
被定义为在第一武器每发出一次攻击的情况下
Figure GDA00029224433300001116
战果性回报值采用式(9)来表示:
Figure GDA0002922443330000121
其中,ReR2为战果性回报值,
Figure GDA0002922443330000122
为地面目标被摧毁的情况下的战果回报值,被定义为
Figure GDA0002922443330000123
Figure GDA0002922443330000124
为地面目标未被摧毁的情况下的战果回报值,被定义为
Figure GDA0002922443330000125
图2是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图。如图2所示,在本发明的一实施方式中提供了一种用于强对抗环境下无人机深度决策的训练方法,与图1所示的训练方法相比,该训练方法还可以包括:
在步骤S214中,在完成强对抗环境下无人机深度决策的训练的情况下,生成并存储强对抗环境下无人机深度决策的神经网络。
图3是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练网络的结构框图。如图3所示。在本发明的一实施方式中还提供了一种用于强对抗环境下无人机深度决策的训练网络,强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器,其特征在于,包括:
输入层,用于:
获取强对抗环境的第一状态空间数据的初始值,
根据第一状态空间数据计算无人机、地面目标、第一武器和第二武器之间的状态值,
对状态值进行标准化处理,获得标准化状态值并发送给隐藏层;
隐藏层,用于:
接收标准化状态值,
根据标准化状态值计算无人机在当前环境下的决策动作,
存储决策动作,
将决策动作发送给输出层;
输出层,用于输出决策动作,以控制无人机执行决策动作;
回报值获取模块(回馈值获取模块),用于计算无人机执行决策动作的回报值;
输入层还用于:
获取无人机执行决策动作后的第二状态空间数据,
根据第二状态空间数据更新第一状态空间数据;
记忆库(存储库),用于存储第一状态空间数据、第二状态空间数据和回报值;
梯度训练模块,用于根据第一状态空间数据、第二状态空间数据和回报值对隐藏层进行策略改进。
通过上述实施方式,训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
以上结合附图详细描述了本发明的可选实施方式,但是,本发明并不限于上述可选实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。

Claims (3)

1.一种用于强对抗环境下无人机深度决策的训练方法,所述强对抗环境包括无人机、地面目标、所述无人机的第一武器以及所述地面目标的第二武器,其特征在于,包括以下步骤:
获取当前状态下所述强对抗环境的第一状态空间数据的初始值,所述第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数,
其中,所述无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况,所述地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间,所述第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况,所述第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况;
根据所述第一状态空间数据计算当前状态下所述无人机、所述地面目标和所述第二武器之间的状态值,其中,所述状态值包括所述无人机与所述地面目标之间的距离和高度差、所述无人机的航向与所述地面目标之间的水平夹角、所述无人机与所述第二武器之间的距离;
对所述状态值进行标准化处理,获得标准化状态值;
根据所述标准化状态值采用深度确定性策略梯度DDPG方法计算所述无人机在当前环境下的决策动作,所述决策动作包括机动动作和打击动作;
获取所述无人机执行所述决策动作后的第二状态空间数据;
计算所述无人机执行所述决策动作的回报值;
根据所述第一状态空间数据、所述第二状态空间数据和所述回报值更新所述DDPG方法的权值参数;
根据所述第二状态空间数据更新所述第一状态空间数据;
判断所述无人机或所述地面目标是否被摧毁;
在判断所述无人机或所述地面目标被摧毁的情况下,记录所述无人机与所述地面目标的作战情况,所述作战情况包括所述无人机是否被摧毁和所述地面目标是否被摧毁;
判断所述无人机和所述地面目标的作战次数是否大于或者等于100次,所述无人机或所述地面目标被摧毁一次定义为完成一次作战;
在判断所述无人机和所述地面目标的作战次数大于或者等于100次的情况下,计算所述无人机的百回合胜率;
判断所述百回合胜率是否大于或者等于预设值;
在判断所述百回合胜率大于或者等于所述预设值的情况下,完成所述强对抗环境下无人机深度决策的训练;
所述训练方法还包括:
在完成所述强对抗环境下无人机深度决策的训练的情况下,生成并存储所述强对抗环境下无人机深度决策的神经网络;
其中,所述无人机与所述地面目标之间的距离采用式(1)来表示:
Figure FDA0002922443320000021
其中,
Figure FDA0002922443320000022
为所述无人机与所述地面目标之间在第i步的距离,第i步被定义为第i次获取所述第二状态空间数据,
Figure FDA0002922443320000023
为所述无人机在第i步的空间坐标,
Figure FDA0002922443320000024
为所述地面目标在第i步的空间坐标;
标准化后的所述无人机与所述地面目标之间的距离采用式(2)来表示:
Figure FDA0002922443320000025
其中,
Figure FDA0002922443320000026
为标准化后的所述无人机与所述地面目标之间在第i步的距离,
Figure FDA0002922443320000027
Figure FDA0002922443320000028
的对数,ln(d+1)为d+1的对数,d为所述第一武器的作战范围;
所述无人机的航向与所述地面目标之间的水平夹角采用式(3)来表示:
Figure FDA0002922443320000031
其中,γi为所述无人机的航向与所述地面目标之间在第i步的水平夹角,
Figure FDA0002922443320000032
Figure FDA0002922443320000033
为所述无人机的航向与水平面内的参考坐标轴之间的夹角,
Figure FDA0002922443320000034
为所述地面目标的运行方向与水平面内的参考坐标轴之间的夹角,
Figure FDA0002922443320000035
atan为反正切函数,π为圆周率;
标准化后的所述无人机的航向与所述地面目标之间的水平夹角采用式(4)来表示:
Figure FDA0002922443320000036
其中,
Figure FDA0002922443320000037
为标准化后的所述无人机的航向与所述地面目标之间在第i步的水平夹角;
所述无人机与所述地面目标之间的高度差采用式(5)来表示:
Figure FDA0002922443320000038
其中,
Figure FDA0002922443320000039
为所述无人机与所述地面目标之间在第i步的高度差;
所述无人机与所述第二武器之间的距离采用式(6)来表示:
Figure FDA00029224433200000310
其中,
Figure FDA00029224433200000311
为所述无人机与所述第二武器之间在第i步的距离;
Figure FDA00029224433200000312
为所述第二武器在第i步的空间坐标;
另外,所述回报值被定义为所述强对抗环境对所述无人机执行的所述决策动作的效用的评估值,所述回报值包括长时间分辨率回报值和短时间分辨率回报值,所述长时间分辨率回报值为长采样周期的起始时刻的回报值,所述短时间分辨率回报值为短采样周期的起始时刻的回报值,所述长采样周期包含多个所述短采样周期,第i个短采样周期为第i步,所述回报值采用式(7)来表示:
Figure FDA00029224433200000413
其中,Rei为在第i步所述无人机执行所述决策动作的回报值,
Figure FDA00029224433200000414
为在第i个短采样周期所述无人机执行所述决策动作的短时间分辨率回报值,
Figure FDA00029224433200000415
为在第j个长采样周期所述无人机执行所述决策动作的长时间分辨率回报值,所述第i个短采样周期包含在所述第j个长采样周期中。
2.根据权利要求1所述的训练方法,其特征在于,所述长时间分辨率回报值和所述短时间分辨率回报值为规则性回报值与战果性回报值二者的和,所述规则性回报值采用式(8)来表示:
Figure FDA0002922443320000041
其中,ReR1为所述无人机执行所述决策动作的规则性回报值,
Figure FDA0002922443320000042
为所述无人机的高度回报值,被定义为
Figure FDA0002922443320000043
Figure FDA0002922443320000044
为所述无人机的时间回报值,被定义为
Figure FDA0002922443320000045
Figure FDA0002922443320000046
为所述第一武器的活动情况回报值,
Figure FDA0002922443320000047
被定义为在所述第一武器每发出一次攻击的情况下
Figure FDA0002922443320000048
所述战果性回报值采用式(9)来表示:
Figure FDA0002922443320000049
其中,ReR2为所述战果性回报值,
Figure FDA00029224433200000410
为所述地面目标被摧毁的情况下的所述战果回报值,被定义为
Figure FDA00029224433200000411
Figure FDA00029224433200000412
为所述地面目标未被摧毁的情况下的所述战果回报值,被定义为
Figure FDA0002922443320000051
3.一种用于强对抗环境下无人机深度决策的训练网络,通过如权利要求1或2所述的训练方法得到,所述强对抗环境包括无人机、地面目标、所述无人机的第一武器以及所述地面目标的第二武器,其特征在于,包括:
输入层,用于:
获取所述强对抗环境的第一状态空间数据的初始值,
根据所述第一状态空间数据计算所述无人机、所述地面目标、所述第一武器和所述第二武器之间的状态值,
对所述状态值进行标准化处理,获得标准化状态值并发送给隐藏层;
所述隐藏层,用于:
接收所述标准化状态值,
根据所述标准化状态值计算所述无人机在当前环境下的决策动作,存储所述决策动作,
将所述决策动作发送给输出层;
所述输出层,用于输出所述决策动作,以控制所述无人机执行所述决策动作;
回报值获取模块,用于计算所述无人机执行所述决策动作的回报值;
所述输入层还用于:
获取所述无人机执行所述决策动作后的第二状态空间数据,
根据所述第二状态空间数据更新所述第一状态空间数据;
记忆库,用于存储所述第一状态空间数据、所述第二状态空间数据和所述回报值;
梯度训练模块,用于根据第一状态空间数据、所述第二状态空间数据和所述回报值对所述隐藏层进行策略改进。
CN201810324470.1A 2018-04-12 2018-04-12 用于强对抗环境下无人机深度决策的训练方法及训练网络 Active CN108427286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810324470.1A CN108427286B (zh) 2018-04-12 2018-04-12 用于强对抗环境下无人机深度决策的训练方法及训练网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810324470.1A CN108427286B (zh) 2018-04-12 2018-04-12 用于强对抗环境下无人机深度决策的训练方法及训练网络

Publications (2)

Publication Number Publication Date
CN108427286A CN108427286A (zh) 2018-08-21
CN108427286B true CN108427286B (zh) 2021-06-01

Family

ID=63161052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810324470.1A Active CN108427286B (zh) 2018-04-12 2018-04-12 用于强对抗环境下无人机深度决策的训练方法及训练网络

Country Status (1)

Country Link
CN (1) CN108427286B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111045443B (zh) 2018-10-11 2021-07-02 北京航空航天大学 无人机通信网络移动控制方法、装置、设备及存储介质
CN110673620B (zh) * 2019-10-22 2020-10-27 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110991545B (zh) * 2019-12-10 2021-02-02 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111369833B (zh) * 2020-03-09 2021-06-08 沈观清 基于长航时大高度小型无人机的预警和对抗系统
CN112486200B (zh) * 2020-10-15 2022-07-26 合肥工业大学 多无人机协同对抗在线重决策方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488171A (zh) * 2013-09-29 2014-01-01 合肥工业大学 一种基于情景构建的无人机自主鲁棒决策方法
CN104199788A (zh) * 2014-06-30 2014-12-10 兰州交通大学 一种多目标空对地半监督机器适应自主决策实时攻击方法
CN105278542A (zh) * 2015-09-23 2016-01-27 沈阳航空航天大学 多无人机协同打击任务的攻防对策最优策略方法
CN105427032A (zh) * 2015-11-09 2016-03-23 河海大学 一种无人机对抗决策评估方法
CN106020215A (zh) * 2016-05-09 2016-10-12 北京航空航天大学 一种基于单步预测矩阵博弈的近距空战自主决策方法
CN107390706A (zh) * 2017-07-26 2017-11-24 北京航空航天大学 一种基于预演机动规则系统的无人机近距格斗决策方法
CN107832850A (zh) * 2017-10-27 2018-03-23 合肥工业大学 对抗环境下无人机占位决策的矩阵博弈方法及装置
CN107832939A (zh) * 2017-10-27 2018-03-23 合肥工业大学 无人平台空中对抗推演方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013089606A1 (en) * 2011-12-16 2013-06-20 Saab Ab Object-focussed decision support

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488171A (zh) * 2013-09-29 2014-01-01 合肥工业大学 一种基于情景构建的无人机自主鲁棒决策方法
CN104199788A (zh) * 2014-06-30 2014-12-10 兰州交通大学 一种多目标空对地半监督机器适应自主决策实时攻击方法
CN105278542A (zh) * 2015-09-23 2016-01-27 沈阳航空航天大学 多无人机协同打击任务的攻防对策最优策略方法
CN105427032A (zh) * 2015-11-09 2016-03-23 河海大学 一种无人机对抗决策评估方法
CN106020215A (zh) * 2016-05-09 2016-10-12 北京航空航天大学 一种基于单步预测矩阵博弈的近距空战自主决策方法
CN107390706A (zh) * 2017-07-26 2017-11-24 北京航空航天大学 一种基于预演机动规则系统的无人机近距格斗决策方法
CN107832850A (zh) * 2017-10-27 2018-03-23 合肥工业大学 对抗环境下无人机占位决策的矩阵博弈方法及装置
CN107832939A (zh) * 2017-10-27 2018-03-23 合肥工业大学 无人平台空中对抗推演方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Mission decision-making method of multi-aircraft cooperatively attacking multi-target based on game theoretic framework;YaoZongxin,LiMing,ChenZongji,ZhouRui;《Chinese Journal of Aeronautics》;20161231;第29卷(第6期);全文 *
Robust decision making for UAV air-to-ground attack under severe uncertainty;HU Xiao-xuan, CHEN Yi, LUO He;《Journal of Central South University》;20151231(第11期);全文 *
协同多目标攻击空战决策及其神经网络实现;李林森, 佟明安;《航空学报》;19990731;第20卷(第4期);全文 *
基于动态贝叶斯网络的空战决策方法;孟光磊,罗元强,梁宵,徐一民;《指挥控制与仿真》;20170630;第39卷(第3期);全文 *
孟光磊,罗元强,梁宵,徐一民.基于动态贝叶斯网络的空战决策方法.《指挥控制与仿真》.2017,第39卷(第3期), *
小型战术察打一体无人机武器系统作战应用研究;兰文博,付义伟,李平坤,罗小云;《飞航导弹》;20131231(第2期);全文 *

Also Published As

Publication number Publication date
CN108427286A (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
CN108427286B (zh) 用于强对抗环境下无人机深度决策的训练方法及训练网络
US11669110B2 (en) Control system based on multi-unmanned aerial vehicle cooperative strategic confrontation
CN112651181B (zh) 一种基于零和博弈的雷达对抗策略建模与仿真方法
CN113536528B (zh) 一种无护航编队情况下预警机战术行为模拟方法及系统
US9240001B2 (en) Systems and methods for vehicle survivability planning
CN113791634A (zh) 一种基于多智能体强化学习的多机空战决策方法
US20130293406A1 (en) Preemptive signature control for vehicle survivability planning
CN109063819B (zh) 基于贝叶斯网络的任务共同体的识别方法
CN114460959A (zh) 一种基于多体博弈的无人机群协同自主决策方法及装置
US8831793B2 (en) Evaluation tool for vehicle survivability planning
CN113705102A (zh) 海空集群对抗的推演仿真系统及方法、设备、存储介质
CN109541960B (zh) 一种用于飞行器数字化战场对抗的系统和方法
CN110058608B (zh) 多无人机协同对抗的控制方法、系统及存储介质
CN113741525A (zh) 基于策略集合maddpg多无人机协同攻防对抗方法
CN115951709A (zh) 基于td3的多无人机空战策略生成方法
CN114638339A (zh) 基于深度强化学习的智能体任务分配方法
Crumpacker et al. An approximate dynamic programming approach for solving an air combat maneuvering problem
Qiu et al. One-to-one air-combat maneuver strategy based on improved TD3 algorithm
Duan et al. Autonomous maneuver decision for unmanned aerial vehicle via improved pigeon-inspired optimization
CN113126651B (zh) 多无人机协同对抗的智能决策装置和系统
Deng et al. Research on intelligent decision technology for Multi-UAVs prevention and control
RU2734144C1 (ru) Устройство для моделирования процесса функционирования средств противовоздушной обороны
Yuksek et al. Development of UCAV fleet autonomy by reinforcement learning in a wargame simulation environment
CN117313561B (zh) 无人机智能决策模型训练方法及无人机智能决策方法
Wang et al. Research on naval air defense intelligent operations on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant