CN108427286A - 用于强对抗环境下无人机深度决策的训练方法及训练网络 - Google Patents
用于强对抗环境下无人机深度决策的训练方法及训练网络 Download PDFInfo
- Publication number
- CN108427286A CN108427286A CN201810324470.1A CN201810324470A CN108427286A CN 108427286 A CN108427286 A CN 108427286A CN 201810324470 A CN201810324470 A CN 201810324470A CN 108427286 A CN108427286 A CN 108427286A
- Authority
- CN
- China
- Prior art keywords
- unmanned plane
- ground target
- weapon
- return value
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Abstract
本发明提供一种用于强对抗环境下无人机深度决策的训练方法及训练网络,属于无人机深度决策技术领域。该训练网络包括输入层、隐藏层、输出层、回报值获取模块、记忆库和梯度训练模块。训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
Description
技术领域
本发明涉及无人机深度决策技术领域,具体地涉及一种用于强对抗环境下无人机深度决策的训练方法及训练网络。
背景技术
现有的无人机决策方法大多未考虑无人机的强对抗环境,无法解决强对抗环境下无人机自主决策问题。如论文《一种基于情景构建的无人机自主鲁棒决策方法》是使用基于影响图的不确定性求解方法,其存在如下两个方面的不足:第一,该决策方法实质是从候选方案中选择效用最大方案的过程,候选方案能涵盖的突发情况维度,直接决定了该方法鲁棒性能的优劣,而这些候选方案往往都只能由历史战例中总结获得,无法胜任未经历过场景下的决策;第二,影响图法需要预先构建影响图模型,且在模型构建之后无法进行持续改进,很难适应复杂多变的高动态性战场条件。
发明内容
本发明的目的是提供一种用于强对抗环境下无人机深度决策的训练方法及训练网络,该训练方法突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
为了实现上述目的,在一方面,本发明提供一种用于强对抗环境下无人机深度决策的训练方法,强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器,该训练方法包括以下步骤:获取当前状态下强对抗环境的第一状态空间数据的初始值,第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数,其中,无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况,地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间,第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况,第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况;根据第一状态空间数据计算当前状态下无人机、地面目标和第二武器之间的状态值,其中,状态值包括无人机与地面目标之间的距离和高度差、无人机的航向与地面目标之间的水平夹角、无人机与第二武器之间的距离;对状态值进行标准化处理,获得标准化状态值;根据标准化状态值采用深度确定性策略梯度DDPG方法计算无人机在当前环境下的决策动作,决策动作包括机动动作和打击动作;获取无人机执行决策动作后的第二状态空间数据;计算无人机执行决策动作的回报值;根据第一状态空间数据、第二状态空间数据和回报值更新DDPG方法的权值参数;根据第二状态空间数据更新第一状态空间数据;判断无人机或地面目标是否被摧毁;在判断无人机或地面目标被摧毁的情况下,记录无人机与地面目标的作战情况,作战情况包括无人机是否被摧毁和地面目标是否被摧毁;判断无人机和地面目标的作战次数是否大于或者等于100次,无人机或地面目标被摧毁一次定义为完成一次作战;在判断无人机和地面目标的作战次数大于或者等于100次的情况下,计算无人机的百回合胜率;判断百回合胜率是否大于或者等于预设值;在判断百回合胜率大于或者等于预设值的情况下,完成强对抗环境下无人机深度决策的训练。
优选地,该训练方法还包括:在完成强对抗环境下无人机深度决策的训练的情况下,生成并存储强对抗环境下无人机深度决策的神经网络。
优选地,无人机与地面目标之间的距离采用式(1)来表示:
其中,为无人机与地面目标之间在第i步的距离,第i步被定义为第i次获取第二状态空间数据,为无人机在第i步的空间坐标,为地面目标在第i步的空间坐标;
标准化后的无人机与地面目标之间的距离采用式(2)来表示:
其中,为标准化后的无人机与地面目标之间在第i步的距离,
为的对数,ln(d+1)为d+1的对数,d为第一武器的作战范围;
无人机的航向与地面目标之间的水平夹角采用式(3)来表示:
其中,γi为无人机的航向与地面目标之间在第i步的水平夹角,为无人机的航向与水平面内的参考坐标轴之间的夹角,为地面目标的运行方向与水平面内的参考坐标轴之间的夹角, atan为反正切函数,π为圆周率;
标准化后的无人机的航向与地面目标之间的水平夹角采用式(4)来表示:
其中,为标准化后的无人机的航向与地面目标之间在第i步的水平夹角;
无人机与地面目标之间的高度差采用式(5)来表示:
其中,为无人机与地面目标之间在第i步的高度差;
无人机与第二武器之间的距离采用式(6)来表示:
其中,为无人机与第二武器之间在第i步的距离;为第二武器在第i步的空间坐标。
优选地,回报值被定义为强对抗环境对无人机执行的决策动作的效用的评估值,回报值包括长时间分辨率回报值和短时间分辨率回报值,长时间分辨率回报值为长采样周期的起始时刻的回报值,短时间分辨率回报值为短采样周期的起始时刻的回报值,长采样周期包含多个短采样周期,第i个短采样周期为第i步,回报值采用式(7)来表示:
其中,Rei为在第i步无人机执行决策动作的回报值,为在第i个短采样周期无人机执行决策动作的短时间分辨率回报值,为在第j个长采样周期无人机执行决策动作的长时间分辨率回报值,第i个短采样周期包含在第j个长采样周期中。
优选地,长时间分辨率回报值和短时间分辨率回报值为规则性回报值与战果性回报值二者的和,规则性回报值采用式(8)来表示:
其中,ReR1为无人机执行决策动作的规则性回报值,为无人机的高度回报值,被定义为 为无人机的时间回报值,被定义为 为第一武器的活动情况回报值,被定义为在第一武器每发出一次攻击的情况下
战果性回报值采用式(9)来表示:
其中,ReR2为战果性回报值,为地面目标被摧毁的情况下的战果回报值,被定义为 为地面目标未被摧毁的情况下的战果回报值,被定义为
在另一方面,本发明提供一种用于强对抗环境下无人机深度决策的训练网络,该训练网络包括:输入层,用于:获取强对抗环境的第一状态空间数据的初始值,根据第一状态空间数据计算无人机、地面目标、第一武器和第二武器之间的状态值,对状态值进行标准化处理,获得标准化状态值并发送给隐藏层;隐藏层,用于:接收标准化状态值,根据标准化状态值计算无人机在当前环境下的决策动作,存储决策动作,将决策动作发送给输出层;输出层,用于输出决策动作,以控制无人机执行决策动作;回报值获取模块,用于计算无人机执行决策动作的回报值;输入层还用于:获取无人机执行决策动作后的第二状态空间数据,根据第二状态空间数据更新第一状态空间数据;记忆库,用于存储第一状态空间数据、第二状态空间数据和回报值;梯度训练模块,用于根据第一状态空间数据、第二状态空间数据和回报值对隐藏层进行策略改进。
通过上述技术方案,训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图;
图2是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图;
图3是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练网络的结构框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图。如图1所示,在本发明的一实施方式中提供了一种用于强对抗环境下无人机深度决策的训练方法,强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器,该训练方法可以包括以下步骤:
在步骤S101中,获取当前状态下强对抗环境的第一状态空间数据的初始值,第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数,
其中,无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况,地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间,第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况,第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况;
在步骤S102中,根据第一状态空间数据计算当前状态下无人机、地面目标和第二武器之间的状态值,
其中,状态值包括无人机与地面目标之间的距离和高度差、无人机的航向与地面目标之间的水平夹角、无人机与第二武器之间的距离;
在步骤S103中,对状态值进行标准化处理,获得标准化状态值;
在步骤S104中,根据标准化状态值采用深度确定性策略梯度DDPG方法计算无人机在当前环境下的决策动作,决策动作包括机动动作和打击动作;
在步骤S105中,获取无人机执行决策动作后的第二状态空间数据;
在步骤S106中,计算无人机执行决策动作的回报值;
在步骤S107中,根据第一状态空间数据、第二状态空间数据和回报值更新DDPG方法的权值参数;
在步骤S108中,根据第二状态空间数据更新第一状态空间数据;
在步骤S109中,判断无人机或地面目标是否被摧毁;
在步骤S110中,在判断无人机或地面目标被摧毁的情况下,记录无人机与地面目标的作战情况,作战情况包括无人机是否被摧毁和地面目标是否被摧毁;
在步骤S111中,判断无人机和地面目标的作战次数是否大于或者等于100次,无人机或地面目标被摧毁一次定义为完成一次作战;
在步骤S112中,在判断无人机和地面目标的作战次数大于或者等于100次的情况下,计算无人机的百回合胜率;
在步骤S113中,判断百回合胜率是否大于或者等于预设值;
在判断百回合胜率大于或者等于预设值的情况下,完成强对抗环境下无人机深度决策的训练。
DDPG方法是所属领域技术人员所知的技术,为突出本发明的要点,因此在本发明的说明书中对该已知技术未做详细的描述。
无人机参数例如可以采用以下方式来表示:
无人机位置坐标:以地面目标几何中心为原点,正东方向为X轴方向,正北方向为Y轴方向,指向地心相反方向为Z轴方向构建环境坐标系,在第i步无人机的空间位置坐标可以表示为
无人机机头指向:以无人机为原点,平行于环境坐标系构建机上坐标系,无人机机头指向例如可以由俯仰角θ和偏转角来确定,无人机的飞行速度假设恒定为VR,则第i步无人机机头指向可以使用球面坐标系表示为:
无人机生存状况:在第i步无人机的生存情况可以表示为:其中为无人机在第i步的生存情况,1表示无人机存活,0表示无人机被消灭。
无人机参数还可以包括无人机载弹情况和无人机的第一武器的攻击半径,可以分别采用以下方式表示:
在第i步无人机载弹情况可以表示为: 为第在i步无人机的剩余弹药数量,假设一架飞机最多载弹两发,则m的初始值为2。
第一武器的攻击半径可以表示为:DR=d,DR为第一武器的攻击半径,d为一固定正整数,表示无人机可以进行攻击的距离,单位为公里。
地面目标参数例如可以采用以下方式来表示:
地面目标位置坐标:使用环境坐标系作为参照系,则地面目标在第i步的空间坐标可以表示为:
地面目标生存情况: 为地面目标在第i步的生存情况,1表示地面目标存活,0表示地面目标被摧毁。
地面目标弹药重装填时间: 为地面目标在第i步重新装填弹药所需的时间,重新装填弹药所需的时间例如可以采用回合数来表示,地面目标和无人机完成一次作战记做一个回合,g表示地面目标的弹药重新装填完成剩余的回合数,即在i步地面目标还需要g个回合才能再次进行攻击。
第一武器参数和第二武器参数:
武器坐标:使用环境坐标系作为参照系,则第一武器和第二武器在第i步的空间坐标可以分别表示为:和
武器活动情况:第一武器和第二武器的活动情况可以分别表示为:和 为第一武器在i步是否进行过攻击,为第二武器在i步是否进行过攻击,若第一武器在i步进行过攻击或者地面目标消失,则否则若第二武器在i步进行过攻击或者无人机消失,则否则
武器命中情况:第一武器和第二武器的命中情况可以分别表示为:和SW1=1表示第一武器攻击命中,SW1=0表示第一武器攻击命中,SW2=1表示第二武器攻击命中,SW2=0表示第二武器攻击命中。
在真实环境下,无人机的机动空间是三维空间,包括六个自由度,由于无人机的滚转对于对抗决策的影响可以忽略,因此在本发明的一实施方式中可以只考虑无人机的其他五个自由度的机动。假定速度恒定,则无人机的机动动作可以看作是由俯仰角和偏转角的配合来实现的。而这两个角度都需要在可行区间中进行连续取值。则无人机在第i步的机动动作可以表示为: 为无人机在第i步的机动动作,为无人机在第i步的俯仰角,为无人机在第i步的偏转角。的取值范围也可以根据实际情况进行调整。
无人机在第i步的打击动作可以表示为: 表示无人机进行攻击,表示无人机待机。
无人机、地面目标和第二武器之间的状态值以及标准化状态值可以采用以下方式来表示:
无人机与地面目标之间的距离采用式(1)来表示:
其中,为无人机与地面目标之间在第i步的距离,第i步被定义为第i次获取第二状态空间数据,为无人机在第i步的空间坐标,为地面目标在第i步的空间坐标;
标准化后的无人机与地面目标之间的距离采用式(2)来表示:
其中,为标准化后的无人机与地面目标之间在第i步的距离,为的对数,ln(d+1)为d+1的对数,d为第一武器的作战范围;
无人机的航向与地面目标之间的水平夹角采用式(3)来表示:
其中,γi为无人机的航向与地面目标之间在第i步的水平夹角,为无人机的航向与水平面内的参考坐标轴之间的夹角,为地面目标的运行方向与水平面内的参考坐标轴之间的夹角, atan为反正切函数,π为圆周率;
标准化后的无人机的航向与地面目标之间的水平夹角采用式(4)来表示:
其中,为标准化后的无人机的航向与地面目标之间在第i步的水平夹角;
无人机与地面目标之间的高度差采用式(5)来表示:
其中,为无人机与地面目标之间在第i步的高度差;
无人机与第二武器之间的距离采用式(6)来表示:
其中,为无人机与第二武器之间在第i步的距离;为第二武器在第i步的空间坐标。
在本发明的一实施方式中,回报值被定义为强对抗环境对无人机执行的决策动作的效用的评估值,回报值包括长时间分辨率回报值和短时间分辨率回报值,长时间分辨率回报值为长采样周期的起始时刻的回报值,短时间分辨率回报值为短采样周期的起始时刻的回报值,长采样周期包含多个短采样周期,第i个短采样周期为第i步,回报值采用式(7)来表示:
其中,Rei为在第i步无人机执行决策动作的回报值,为在第i个短采样周期无人机执行决策动作的短时间分辨率回报值,为在第j个长采样周期无人机执行决策动作的长时间分辨率回报值,第i个短采样周期包含在第j个长采样周期中。
长时间分辨率回报值和短时间分辨率回报值为规则性回报值与战果性回报值二者的和,规则性回报值采用式(8)来表示:
其中,ReR1为无人机执行决策动作的规则性回报值,为无人机的高度回报值,被定义为 为无人机的时间回报值,被定义为
为第一武器的活动情况回报值,被定义为在第一武器每发出一次攻击的情况下
战果性回报值采用式(9)来表示:
其中,ReR2为战果性回报值,为地面目标被摧毁的情况下的战果回报值,被定义为 为地面目标未被摧毁的情况下的战果回报值,被定义为
图2是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图。如图2所示,在本发明的一实施方式中提供了一种用于强对抗环境下无人机深度决策的训练方法,与图1所示的训练方法相比,该训练方法还可以包括:
在步骤S214中,在完成强对抗环境下无人机深度决策的训练的情况下,生成并存储强对抗环境下无人机深度决策的神经网络。
图3是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练网络的结构框图。如图3所示。在本发明的一实施方式中还提供了一种用于强对抗环境下无人机深度决策的训练网络,强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器,其特征在于,包括:
输入层,用于:
获取强对抗环境的第一状态空间数据的初始值,
根据第一状态空间数据计算无人机、地面目标、第一武器和第二武器之间的状态值,
对状态值进行标准化处理,获得标准化状态值并发送给隐藏层;
隐藏层,用于:
接收标准化状态值,
根据标准化状态值计算无人机在当前环境下的决策动作,
存储决策动作,
将决策动作发送给输出层;
输出层,用于输出决策动作,以控制无人机执行决策动作;
回报值获取模块,用于计算无人机执行决策动作的回报值;
输入层还用于:
获取无人机执行决策动作后的第二状态空间数据,
根据第二状态空间数据更新第一状态空间数据;
记忆库,用于存储第一状态空间数据、第二状态空间数据和回报值;
梯度训练模块,用于根据第一状态空间数据、第二状态空间数据和回报值对隐藏层进行策略改进。
通过上述实施方式,训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限,使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。
以上结合附图详细描述了本发明的可选实施方式,但是,本发明并不限于上述可选实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。
Claims (6)
1.一种用于强对抗环境下无人机深度决策的训练方法,所述强对抗环境包括无人机、地面目标、所述无人机的第一武器以及所述地面目标的第二武器,其特征在于,包括以下步骤:
获取当前状态下所述强对抗环境的第一状态空间数据的初始值,所述第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数,
其中,所述无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况,所述地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间,所述第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况,所述第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况;
根据所述第一状态空间数据计算当前状态下所述无人机、所述地面目标和所述第二武器之间的状态值,
其中,所述状态值包括所述无人机与所述地面目标之间的距离和高度差、所述无人机的航向与所述地面目标之间的水平夹角、所述无人机与所述第二武器之间的距离;
对所述状态值进行标准化处理,获得标准化状态值;
根据所述标准化状态值采用深度确定性策略梯度DDPG方法计算所述无人机在当前环境下的决策动作,所述决策动作包括机动动作和打击动作;
获取所述无人机执行所述决策动作后的第二状态空间数据;
计算所述无人机执行所述决策动作的回报值;
根据所述第一状态空间数据、所述第二状态空间数据和所述回报值更新所述DDPG方法的权值参数;
根据所述第二状态空间数据更新所述第一状态空间数据;
判断所述无人机或所述地面目标是否被摧毁;
在判断所述无人机或所述地面目标被摧毁的情况下,记录所述无人机与所述地面目标的作战情况,所述作战情况包括所述无人机是否被摧毁和所述地面目标是否被摧毁;
判断所述无人机和所述地面目标的作战次数是否大于或者等于100次,所述无人机或所述地面目标被摧毁一次定义为完成一次作战;
在判断所述无人机和所述地面目标的作战次数大于或者等于100次的情况下,计算所述无人机的百回合胜率;
判断所述百回合胜率是否大于或者等于预设值;
在判断所述百回合胜率大于或者等于所述预设值的情况下,完成所述强对抗环境下无人机深度决策的训练。
2.根据权利要求1所述的训练方法,其特征在于,还包括:
在完成所述强对抗环境下无人机深度决策的训练的情况下,生成并存储所述强对抗环境下无人机深度决策的神经网络。
3.根据权利要求2所述的训练方法,其特征在于,
所述无人机与所述地面目标之间的距离采用式(1)来表示:
其中,为所述无人机与所述地面目标之间在第i步的距离,第i步被定义为第i次获取所述第二状态空间数据,为所述无人机在第i步的空间坐标,为所述地面目标在第i步的空间坐标;
标准化后的所述无人机与所述地面目标之间的距离采用式(2)来表示:
其中,为标准化后的所述无人机与所述地面目标之间在第i步的距离,
为的对数,ln(d+1)为d+1的对数,d为所述第一武器的作战范围;
所述无人机的航向与所述地面目标之间的水平夹角采用式(3)来表示:
其中,γi为所述无人机的航向与所述地面目标之间在第i步的水平夹角,为所述无人机的航向与水平面内的参考坐标轴之间的夹角,为所述地面目标的运行方向与水平面内的参考坐标轴之间的夹角,atan为反正切函数,π为圆周率;
标准化后的所述无人机的航向与所述地面目标之间的水平夹角采用式(4)来表示:
其中,为标准化后的所述无人机的航向与所述地面目标之间在第i步的水平夹角;
所述无人机与所述地面目标之间的高度差采用式(5)来表示:
其中,为所述无人机与所述地面目标之间在第i步的高度差;
所述无人机与所述第二武器之间的距离采用式(6)来表示:
其中,为所述无人机与所述第二武器之间在第i步的距离;为所述第二武器在第i步的空间坐标。
4.根据权利要求3所述的训练方法,其特征在于,所述回报值被定义为所述强对抗环境对所述无人机执行的所述决策动作的效用的评估值,所述回报值包括长时间分辨率回报值和短时间分辨率回报值,所述长时间分辨率回报值为长采样周期的起始时刻的回报值,所述短时间分辨率回报值为短采样周期的起始时刻的回报值,所述长采样周期包含多个所述短采样周期,第i个短采样周期为第i步,所述回报值采用式(7)来表示:
其中,Rei为在第i步所述无人机执行所述决策动作的回报值,为在第i个短采样周期所述无人机执行所述决策动作的短时间分辨率回报值,为在第j个长采样周期所述无人机执行所述决策动作的长时间分辨率回报值,所述第i个短采样周期包含在所述第j个长采样周期中。
5.根据权利要求1所述的训练方法,其特征在于,所述长时间分辨率回报值和所述短时间分辨率回报值为规则性回报值与战果性回报值二者的和,所述规则性回报值采用式(8)来表示:
其中,ReR1为所述无人机执行所述决策动作的规则性回报值,为所述无人机的高度回报值,被定义为 为所述无人机的时间回报值,被定义为 为所述第一武器的活动情况回报值,被定义为在所述第一武器每发出一次攻击的情况下
所述战果性回报值采用式(9)来表示:
其中,ReR2为所述战果性回报值,为所述地面目标被摧毁的情况下的所述战果回报值,被定义为 为所述地面目标未被摧毁的情况下的所述战果回报值,被定义为
6.一种用于强对抗环境下无人机深度决策的训练网络,所述强对抗环境包括无人机、地面目标、所述无人机的第一武器以及所述地面目标的第二武器,其特征在于,包括:
输入层,用于:
获取所述强对抗环境的第一状态空间数据的初始值,
根据所述第一状态空间数据计算所述无人机、所述地面目标、所述第一武器和所述第二武器之间的状态值,
对所述状态值进行标准化处理,获得标准化状态值并发送给隐藏层;
所述隐藏层,用于:
接收所述标准化状态值,
根据所述标准化状态值计算所述无人机在当前环境下的决策动作,存储所述决策动作,
将所述决策动作发送给输出层;
所述输出层,用于输出所述决策动作,以控制所述无人机执行所述决策动作;
回报值获取模块,用于计算所述无人机执行所述决策动作的回报值;
所述输入层还用于:
获取所述无人机执行所述决策动作后的第二状态空间数据,
根据所述第二状态空间数据更新所述第一状态空间数据;
记忆库,用于存储所述第一状态空间数据、所述第二状态空间数据和所述回报值;
梯度训练模块,用于根据第一状态空间数据、所述第二状态空间数据和所述回报值对所述隐藏层进行策略改进。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810324470.1A CN108427286B (zh) | 2018-04-12 | 2018-04-12 | 用于强对抗环境下无人机深度决策的训练方法及训练网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810324470.1A CN108427286B (zh) | 2018-04-12 | 2018-04-12 | 用于强对抗环境下无人机深度决策的训练方法及训练网络 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108427286A true CN108427286A (zh) | 2018-08-21 |
CN108427286B CN108427286B (zh) | 2021-06-01 |
Family
ID=63161052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810324470.1A Active CN108427286B (zh) | 2018-04-12 | 2018-04-12 | 用于强对抗环境下无人机深度决策的训练方法及训练网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108427286B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110673620A (zh) * | 2019-10-22 | 2020-01-10 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN110991545A (zh) * | 2019-12-10 | 2020-04-10 | 中国人民解放军军事科学院国防科技创新研究院 | 一种面向多智能体对抗的强化学习训练优化方法及装置 |
CN111045443A (zh) * | 2018-10-11 | 2020-04-21 | 北京航空航天大学 | 移动控制方法、装置、设备及存储介质 |
CN111369833A (zh) * | 2020-03-09 | 2020-07-03 | 沈观清 | 基于长航时大高度小型无人机的预警和对抗系统 |
CN112486200A (zh) * | 2020-10-15 | 2021-03-12 | 合肥工业大学 | 多无人机协同对抗在线重决策方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488171A (zh) * | 2013-09-29 | 2014-01-01 | 合肥工业大学 | 一种基于情景构建的无人机自主鲁棒决策方法 |
CN104199788A (zh) * | 2014-06-30 | 2014-12-10 | 兰州交通大学 | 一种多目标空对地半监督机器适应自主决策实时攻击方法 |
US20140373705A1 (en) * | 2011-12-16 | 2014-12-25 | Saab Ab | Object-focussed decision support |
CN105278542A (zh) * | 2015-09-23 | 2016-01-27 | 沈阳航空航天大学 | 多无人机协同打击任务的攻防对策最优策略方法 |
CN105427032A (zh) * | 2015-11-09 | 2016-03-23 | 河海大学 | 一种无人机对抗决策评估方法 |
CN106020215A (zh) * | 2016-05-09 | 2016-10-12 | 北京航空航天大学 | 一种基于单步预测矩阵博弈的近距空战自主决策方法 |
CN107390706A (zh) * | 2017-07-26 | 2017-11-24 | 北京航空航天大学 | 一种基于预演机动规则系统的无人机近距格斗决策方法 |
CN107832939A (zh) * | 2017-10-27 | 2018-03-23 | 合肥工业大学 | 无人平台空中对抗推演方法及装置 |
CN107832850A (zh) * | 2017-10-27 | 2018-03-23 | 合肥工业大学 | 对抗环境下无人机占位决策的矩阵博弈方法及装置 |
-
2018
- 2018-04-12 CN CN201810324470.1A patent/CN108427286B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140373705A1 (en) * | 2011-12-16 | 2014-12-25 | Saab Ab | Object-focussed decision support |
CN103488171A (zh) * | 2013-09-29 | 2014-01-01 | 合肥工业大学 | 一种基于情景构建的无人机自主鲁棒决策方法 |
CN104199788A (zh) * | 2014-06-30 | 2014-12-10 | 兰州交通大学 | 一种多目标空对地半监督机器适应自主决策实时攻击方法 |
CN105278542A (zh) * | 2015-09-23 | 2016-01-27 | 沈阳航空航天大学 | 多无人机协同打击任务的攻防对策最优策略方法 |
CN105427032A (zh) * | 2015-11-09 | 2016-03-23 | 河海大学 | 一种无人机对抗决策评估方法 |
CN106020215A (zh) * | 2016-05-09 | 2016-10-12 | 北京航空航天大学 | 一种基于单步预测矩阵博弈的近距空战自主决策方法 |
CN107390706A (zh) * | 2017-07-26 | 2017-11-24 | 北京航空航天大学 | 一种基于预演机动规则系统的无人机近距格斗决策方法 |
CN107832939A (zh) * | 2017-10-27 | 2018-03-23 | 合肥工业大学 | 无人平台空中对抗推演方法及装置 |
CN107832850A (zh) * | 2017-10-27 | 2018-03-23 | 合肥工业大学 | 对抗环境下无人机占位决策的矩阵博弈方法及装置 |
Non-Patent Citations (5)
Title |
---|
HU XIAO-XUAN, CHEN YI, LUO HE: "Robust decision making for UAV air-to-ground attack under severe uncertainty", 《JOURNAL OF CENTRAL SOUTH UNIVERSITY》 * |
YAOZONGXIN,LIMING,CHENZONGJI,ZHOURUI: "Mission decision-making method of multi-aircraft cooperatively attacking multi-target based on game theoretic framework", 《CHINESE JOURNAL OF AERONAUTICS》 * |
兰文博,付义伟,李平坤,罗小云: "小型战术察打一体无人机武器系统作战应用研究", 《飞航导弹》 * |
孟光磊,罗元强,梁宵,徐一民: "基于动态贝叶斯网络的空战决策方法", 《指挥控制与仿真》 * |
李林森, 佟明安: "协同多目标攻击空战决策及其神经网络实现", 《航空学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111045443A (zh) * | 2018-10-11 | 2020-04-21 | 北京航空航天大学 | 移动控制方法、装置、设备及存储介质 |
CN111045443B (zh) * | 2018-10-11 | 2021-07-02 | 北京航空航天大学 | 无人机通信网络移动控制方法、装置、设备及存储介质 |
US11161609B2 (en) | 2018-10-11 | 2021-11-02 | Beihang University | Multi-UAV continuous movement control method, apparatus, device, and storage medium for energy efficient communication coverage |
CN110673620A (zh) * | 2019-10-22 | 2020-01-10 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN110673620B (zh) * | 2019-10-22 | 2020-10-27 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN110991545A (zh) * | 2019-12-10 | 2020-04-10 | 中国人民解放军军事科学院国防科技创新研究院 | 一种面向多智能体对抗的强化学习训练优化方法及装置 |
CN111369833A (zh) * | 2020-03-09 | 2020-07-03 | 沈观清 | 基于长航时大高度小型无人机的预警和对抗系统 |
CN111369833B (zh) * | 2020-03-09 | 2021-06-08 | 沈观清 | 基于长航时大高度小型无人机的预警和对抗系统 |
CN112486200A (zh) * | 2020-10-15 | 2021-03-12 | 合肥工业大学 | 多无人机协同对抗在线重决策方法 |
CN112486200B (zh) * | 2020-10-15 | 2022-07-26 | 合肥工业大学 | 多无人机协同对抗在线重决策方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108427286B (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427286A (zh) | 用于强对抗环境下无人机深度决策的训练方法及训练网络 | |
US11669110B2 (en) | Control system based on multi-unmanned aerial vehicle cooperative strategic confrontation | |
CN108318032A (zh) | 一种考虑攻防对抗的无人机航迹智能规划方法 | |
CN106779210B (zh) | 基于蚁群算法的火力分配方法 | |
US9030347B2 (en) | Preemptive signature control for vehicle survivability planning | |
CN107479572B (zh) | 基于仿生的无人机群组实时路径规划方法 | |
CN113791634A (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
CN110134139B (zh) | 一种对抗环境下无人机编队的战术决策方法和装置 | |
US8831793B2 (en) | Evaluation tool for vehicle survivability planning | |
CN109541960B (zh) | 一种用于飞行器数字化战场对抗的系统和方法 | |
CN113741525A (zh) | 基于策略集合maddpg多无人机协同攻防对抗方法 | |
CN115951709A (zh) | 基于td3的多无人机空战策略生成方法 | |
CN110058608A (zh) | 多无人机协同对抗的控制方法、系统及存储介质 | |
CN114638339A (zh) | 基于深度强化学习的智能体任务分配方法 | |
CN113553777B (zh) | 反无人机蜂群的防空部署方法、装置、设备和介质 | |
CN110727289A (zh) | 一种无人机飞行控制方法 | |
CN116661496B (zh) | 一种基于智能算法的多巡飞弹协同航迹规划方法 | |
CN110134138A (zh) | 对抗环境下无人机智能决策的纳什均衡博弈方法及系统 | |
CN117313561B (zh) | 无人机智能决策模型训练方法及无人机智能决策方法 | |
CN116796521B (zh) | 水面战斗群对抗战模拟方法、装置、电子设备及存储介质 | |
CN116068889B (zh) | 一种巡飞弹的饱和攻击方法、装置及存储介质 | |
Zhang et al. | Intelligent Close Air Combat Design based on MA-POCA Algorithm | |
CN114610077B (zh) | 多高超声速飞行器轨迹规划方法和系统 | |
Hao et al. | Research progress in firepower compatibility technology | |
Taylor | Counter-Unmanned Aerial Vehicles Study: Shipboard Laser Weapon System Engagement Strategies for Countering Drone Swarm Threats in The Maritime Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |