CN115755956A - 一种知识与数据协同驱动的无人机机动决策方法与系统 - Google Patents

一种知识与数据协同驱动的无人机机动决策方法与系统 Download PDF

Info

Publication number
CN115755956A
CN115755956A CN202211367933.5A CN202211367933A CN115755956A CN 115755956 A CN115755956 A CN 115755956A CN 202211367933 A CN202211367933 A CN 202211367933A CN 115755956 A CN115755956 A CN 115755956A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
data
loss function
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211367933.5A
Other languages
English (en)
Other versions
CN115755956B (zh
Inventor
李伟湋
高培雪
徐军
路玉卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202211367933.5A priority Critical patent/CN115755956B/zh
Publication of CN115755956A publication Critical patent/CN115755956A/zh
Application granted granted Critical
Publication of CN115755956B publication Critical patent/CN115755956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种知识与数据协同驱动的无人机机动决策方法与系统,解决了空战仿真中无人机机动动作的自主决策问题。本发明包括无人机运动模型、面向空战博弈的马尔科夫决策模型及知识与数据协同驱动的强化学习模型。首先利用专家经验数据进行预训练,获取较好的初始策略;之后在正式训练阶段,针对专家经验数据无法包含空战过程中所有状态的问题,构建行为克隆模型对专家经验数据进行训练,得到状态到动作的映射;利用该映射改进探索策略,使用带有专家知识的动作决策方法,对强化学习模型进行训练,从而实现智能机动决策。本发明可加快收敛速度,减少智能体与环境之间的交互,在不断的仿真和训练中提高无人机决策水平。

Description

一种知识与数据协同驱动的无人机机动决策方法与系统
技术领域
本发明属于无人机技术领域,具体涉及一种知识与数据协同驱动的无人机机动决策方法与系统。
背景技术
无人机由于造价相对低廉、机动性好、安全系数高,已广泛应用于地质勘探、巡检、航拍等民用领域,同时也越来越多地被应用于侦察监视、预警、电子对抗等军事领域,在现代战争中发挥着越来越难以替代的作用。其中研究较多的便是无人机机动决策,即根据当前空战态势,自动生成合适的机动动作。但由于智能化水平的限制,目前仍无法实现无人机自主决策。因此,提升无人机的智能化水平,让无人机实现空战态势到机动动作的映射是当前主要的研究方向。
当前,无人机机动决策方法有很多。常用的方法可分为以下三类:基于对策理论的方法,如微分对策,矩阵对策等;基于专家知识的方法,如专家系统,影响图等;基于启发式学习的方法,如神经网络,遗传算法,强化学习等。其中,基于对策理论的方法求解复杂性较高,基于专家知识的方法难以对新知识进行扩展,且这两种方法的决策策略一般是固定的,无法满足复杂且瞬时变化的空战环境。基于启发式学习的方法在训练过程中优化自身模型的结构和参数,自适应性强,能够应对复杂多变的空战环境,其中深度强化学习方法通过与环境进行交互实时更新参数,选出的动作具有较强的合理性和实时性,能够更好地解决空战决策问题。但该方法仍存在数据利用率低,探索与利用的矛盾等问题。
发明内容
发明目的:本发明为了解决无人机机动决策问题,提出一种知识与数据协同驱动的无人机机动决策方法与系统,能够解决基于强化学习的机动决策中数据利用率低,探索与利用的矛盾等问题,通过专家知识进行预训练,加快收敛速度,同时改进探索策略,构建结合专家知识的动作决策方法,从而将专家知识引入到强化学习中,减少智能体与环境的交互,提升智能体的学习性能。
技术方案:本发明所述的一种知识与数据协同驱动的无人机机动决策方法,包括以下步骤:
建立无人机运动模型及作战双方的相对关系,构建空战机动决策的马尔科夫博弈模型,定义空战机动决策过程中无人机的状态空间、动作空间以及奖励函数;
初始化作战双方的相对态势,初始化强化学习模型的价值Q网络参数、交互经验池、专家经验池以及用于实现探索的参数;
在预训练阶段,我方无人机只与专家经验池进行交互,预训练损失函数定义为单步损失函数、多步损失函数、监督损失函数和网络参数正则化损失的加权和;
在正式训练阶段,我方无人机开始与环境进行交互,动态更新交互经验池,针对专家经验池无法包含空战过程中所有状态的问题,使用行为克隆模型对专家经验池中的数据进行训练,得到状态到动作的映射;从专家经验池与交互经验池中随机抽取数据,根据空战状态、探索参数选择动作并执行,如果抽取的数据为专家经验池中数据,则损失函数与预训练损失函数计算方式相同,如果抽取到的数据为交互经验池中数据,则不计算损失函数中的监督损失函数。
作为优选,无人机在地面坐标系下的三维空间运动学模型如下:
Figure BDA0003924075780000021
无人机在地面坐标系下的三维空间动力学模型如下:
Figure BDA0003924075780000022
其中,x、y和z分别表示无人机在地面坐标系中的坐标值,v表示无人机的行进速度,θ、ψ分别表示无人机的俯仰角和偏航角;g表示重力加速度;
Figure BDA0003924075780000023
Figure BDA0003924075780000024
分别表示x、y、z对时间t求微分,nx为无人机的切向过载;nz为无人机的法向过载;μ是无人机的滚转角。
作为优选,空战过程中对敌双方的相对关系用态势来表示,包括:角度态势,高度态势,速度态势和距离态势;角度态势包括脱离角和偏离角,高度态势为红方和蓝方的高度以及最佳空战高度的关系,速度态势为红方和蓝方的速度以及最佳空战速度的关系,距离态势为红方和蓝方的距离。
作为优选,将空战机动决策过程建模为马尔科夫博弈模型,确定双方的状态空间、动作空间以及奖励函数,用元组(S,A,γ,R)表示,S,A,γ,R分别为状态空间,动作空间,折扣因子和奖励函数;其中将状态空间包括双方的速度、位置、俯仰角和偏航角,动作空间包括定常飞行、加速飞行、减速飞行、左转弯、右转弯、向上拉起和向下俯冲;奖励函数包括即时奖励和最终奖励,即时奖励包括角度态势、高度态势、速度态势和距离态势的奖励,最终奖励是指一方获胜、平局或失败获得的奖励。
作为优选,以红方为例相关奖励的定义如下:综合偏离角ATA和脱离角AA的角度奖励定义为:
Figure BDA0003924075780000031
在高度奖励函数中引入一个校正量,校正后的高度奖励定义为:
Figure BDA0003924075780000032
Figure BDA0003924075780000033
式中,
Figure BDA0003924075780000034
是红方速度在竖直方向上的分量,H0是一个常数参量,用来调整高度奖励函数的梯度,Hopt是最佳空战高度,zr,zb是红方和蓝方高度,Vopt是最佳空战速度;
速度奖励定义为:RV=R'V+RV_self
当Vopt>1.5vb
Figure BDA0003924075780000035
当Vopt≤1.5vb
Figure BDA0003924075780000041
vr,vb是红方和蓝方速度;
Figure BDA0003924075780000042
距离奖励定义为:
Figure BDA0003924075780000043
Dopt为最佳空战距离,D0是一个常数参量,用来调整距离奖励函数的梯度,d是红方和蓝方的距离。
作为优选,预训练损失函数表示为:
J(Q)=JDQ(Q)+λ1Jn(Q)+λ2JE(Q)+λ3JL2(Q)
式中,λ1、λ2和λ3为分别为n步损失函数Jn(Q)、监督损失函数JE(Q)和L2正则化损失函数JL2(Q)的权重参数;
设专家经验池Ddemo中每条专家数据的格式为(st,at,rt,rt n,st+1,done),分别表示t时刻的状态、动作、一步奖励值、n步奖励值(n≥2)以及回合是否结束;
为使训练比较稳定,引入两个网络:价值Q网络和目标Q网络,二者的网络结构相同,参数更新方式不同;价值Q网络随着训练时刻进行参数更新,目标Q网络每隔一段时间复制价值Q网络的参数进行更新。
单步损失函数JDQ(Q)定义如下:
Figure BDA0003924075780000044
式中,θ-为目标Q网络参数,θ为价值Q网络参数,γ为折扣因子,
Figure BDA0003924075780000051
为t+1时刻的最佳动作;
n步损失函数Jn(Q)定义如下:
Figure BDA0003924075780000052
rt n=rt+γrt+1+...+γn-1rt+n-1
式中,n步奖励值rt n=rt+γrt+1+...+γn-1rt+n-1
Figure BDA0003924075780000053
为t+n时刻的最佳动作;
监督损失函数JE(Q)定义如下:
Figure BDA0003924075780000054
l(aE,at)是边界损失,其恒大于等于0,aE是专家动作;
L2正则化损失函数定义如下:
Figure BDA0003924075780000055
式中,W是价值Q网络的权重参数。
作为优选,正式训练阶段,构建行为克隆模型,对专家经验池中的数据进行训练,得到状态到动作的映射,从而对探索策略进行改进;改进探索策略的探索方法具体如下:如果随机数rand()<ε,在动作空间内随机选取动作;如果随机数ε≤rand()<δ,从行为克隆模型中选取当前状态对应最优的动作;如果随机数rand()>δ,选取最大Q值对应的动作,ε和δ为预设的用于实现探索的参数。
作为优选,正式训练阶段,从缓冲池中随机抽取数据,根据当前空战状态st、探索参数ε和参数δ选择动作并执行;如果抽取的数据为专家知识,则损失函数为J(Q),如果抽取到的数据为交互数据,则损失函数J(Q)中的参数λ2=0;使用优化器进行价值Q网络参数更新,在一段时间后,将其网络参数赋值给目标Q网络进行目标Q网络参数更新;重复上述步骤直到达到设定的正式训练次数。
一种知识与数据协同驱动的无人机机动决策系统,包括:
模型构建与初始化模块,用于建立无人机运动模型及作战双方的相对关系,构建空战机动决策的马尔科夫博弈模型,定义空战机动决策过程中无人机的状态空间、动作空间以及奖励函数;以及初始化对敌双方的相对态势,初始化强化学习的价值Q网络参数、缓冲经验池、专家经验池以及用于实现探索的参数;
预训练模块,用于与专家经验池进行交互,预训练损失函数定义为单步损失函数、多步损失函数、监督损失函数和网络参数正则化损失的加权和;
以及,正式训练模块,用于开始与环境进行交互,动态更新交互经验池,针对专家经验池无法包含空战过程中所有状态的问题,使用行为克隆模型对专家经验池中的数据进行训练,得到状态到动作的映射;从专家经验池与交互经验池中随机抽取数据,根据空战状态、探索参数选择动作并执行,如果抽取的数据为专家经验池中数据,则损失函数与预训练损失函数计算方式相同,如果抽取到的数据为交互经验池中数据,则不计算损失函数中的监督损失函数。
一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的知识与数据协同驱动的无人机机动决策方法。
有益效果:与现有技术相比,本发明具有如下优点:
(1)本发明采用深度强化学习方法,使无人机在空战过程中实现自主决策,根据环境信息,敌方状态等选择无人机机动动作,使决策生成更加准确。
(2)本发明将专家知识与强化学习相结合,利用专家知识进行预训练,通过设置n步损失函数同时使专家的价值传播到更早的状态,设置监督损失函数使专家经验池中不存在的动作价值较为合理,设置L2正则化损失函数防止网络过拟合,从而在预训练后获取较好的初始策略,能够改进基于强化学习的机动决策中数据利用率低的问题。
(3)本发明改进探索策略,平衡专家知识与自学习策略,能够解决预训练的数据集无法包含全部空战状态的问题,同时改进基于强化学习的机动决策中存在的探索与利用的矛盾问题。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的仿真实验效果图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式进行详细描述。
如图1所示,本发明实施例公开了一种知识与数据协同驱动的无人机机动决策方法,包括如下步骤:
步骤1:建立无人机运动模型、作战双方的相对关系及博弈模型。本发明实施例中假定对敌双方无人机为我方和敌方,我方无人机为红机,敌方无人机为蓝机,建立无人机运动模型及相对关系,构建空战机动决策的马尔科夫博弈模型,定义空战机动决策过程中我方及敌方无人机的状态空间、动作空间以及奖励函数。具体包括如下:
步骤1-1:建立无人机运动模型。构建以地面为参考系的三维空间,其中,x轴指向地面坐标系的正东方向,y轴指向正北方向,z轴指向垂直向上的方向;无人机在地面坐标系下的三维空间运动学模型如下:
Figure BDA0003924075780000071
无人机在地面坐标系下的三维空间动力学模型如下:
Figure BDA0003924075780000072
其中,x、y和z分别表示无人机在地面坐标系中的坐标值,v表示无人机的行进速度,θ、ψ分别表示无人机的俯仰角和偏航角;俯仰角是无人机的行进速度方向与水平面之间的夹角(向上为正,向下为负),偏航角是无人机的行进速度方向在水平面的投影与正东方之间的夹角(向右为正,向左为负),g表示重力加速度;
Figure BDA0003924075780000073
分别表示x、y、z对时间t求微分,即
Figure BDA0003924075780000074
(nx,nz,μ)为无人机的控制变量,其中,nx为无人机的切向过载,表示无人机在前进速度方向上受到的推力和自身重力的比值,可以改变无人机的速度大小;nz为无人机的法向过载,表示无人机收到的与其机身屏幕垂直且方向向上的过载,可以改变无人机的俯仰方向;μ是无人机的滚转角,表示无人机绕自身速度方向的夹角;因此通过(nx,nz,μ)的值控制无人机进行机动动作。
则无人机状态更新公式如下:
st+1=f(st,a) (3)
其中,st为无人机在当前时刻t的状态,st+1为无人机在下一时刻t+1的状态,a为无人机执行的机动动作,f(·)为计算函数,为保证精度,一般使用龙格库塔方法进行解算。
步骤1-2:确定空战过程中我方和敌方的相对关系。我方为红方,用下标r表示,敌方为蓝方,用下标b表示。空战过程中双方的相对关系一般用态势来表示,包括:角度态势,高度态势,速度态势和距离态势。角度态势主要是脱离角(Aspect Angle,AA)和偏离角(Antenna Train Angle,ATA),其计算公式如下,高度态势为我方和敌方的高度以及最佳空战高度的关系,速度态势为我方和敌方的速度以及最佳空战速度的关系,距离态势为我方和敌方的距离,其公式如下:
Figure BDA0003924075780000081
Figure BDA0003924075780000082
Figure BDA0003924075780000083
步骤1-3:构建空战机动决策的马尔科夫博弈模型,定义空战机动决策过程中我方及敌方无人机的状态空间、动作空间以及奖励函数;
步骤1-3-1:将空战机动决策过程建模为马尔科夫博弈模型,确定双方的状态空间、动作空间以及奖励函数,用元组(S,A,γ,R)表示,分别为状态空间,动作空间,折扣因子和奖励函数;
步骤1-3-2:结合无人机运动方程,将状态空间定义为:S={vr,xr,yr,zrrr,vb,xb,yb,zbbb};
步骤1-3-3:使用美国NASA提出的基本空战机动集合,设定七种机动动作,分别为:定常飞行,加速飞行,减速飞行,左转弯,右转弯,向上拉起,向下俯冲;
步骤1-3-4:设置奖励函数。奖励函数包括即时奖励和最终奖励两部分。即时奖励是指在对战过程中依据双方态势设定的奖励,一般分为角度态势、高度态势、速度态势和距离态势四个部分。最终奖励是指一方获胜、平局或失败获得的奖励。(下面均以红方为例);
角度态势中影响最大的是偏离角ATA和脱离角AA,综合二者的角度奖励定义为:
Figure BDA0003924075780000091
高度奖励函数定义为:
Figure BDA0003924075780000092
式中:Hopt是最佳空战高度。在空战过程中,战机为了获胜有一定的概率下降到较低高度,此时有坠机风险。为了使战机具备在高度过低时自主纠正高度的能力,在高度奖励函数中引入一个校正量,校正后的高度奖励函数如下所示:
Figure BDA0003924075780000093
式中,
Figure BDA0003924075780000094
是红方速度在竖直方向上的分量,H0是一个常数参量,用来调整高度奖励函数的梯度,当无人机高度较大时,校正量权重较小,奖励值对速度在竖直方向上的变化不敏感,即高度变化不敏感;当无人机高度较小时,校正量权重较大,奖励值对速度在竖直方向上的变化比较敏感,即高度变化比较敏感,无人机会增加高度获取更大的奖励,从而避免坠机的危险。
速度奖励函数定义为:当Vopt>1.5vb
Figure BDA0003924075780000101
当Vopt≤1.5vb
Figure BDA0003924075780000102
式中:Vopt是最佳空战速度。在空战过程中,战机的速度过小时会失速,有坠机的危险。为了使战机的速度保持在合适的数值,在速度奖励函数中引入一个约束,无人机速度约束的奖励如下所示:
Figure BDA0003924075780000103
式中,vmin为最小空战速度,实验中取值为50。
综合的速度奖励函数如下所示:
RV=R'V+RV_self (13)
距离奖励函数定义为:
Figure BDA0003924075780000104
式中,Dopt为最佳空战距离,D0是一个常数参量,用来调整距离奖励函数的梯度。
综合上述奖励函数,定义空战中红方战机的即时奖励为:
R1=w1×RA+w2×RH+w3×RV+w4×RD (15)
式中,w1、w2、w3和w4为权重参数,其和为1。
定义最终奖励需要先设定空战中红方获胜的条件:
Figure BDA0003924075780000111
式中,AAmax为占据攻击优势时的最大脱离角,实验中取值为π/6;ATAmax为占据攻击优势时的最大偏离角,实验中取值为π/3。
同理,当蓝方达到上述条件时,红方失败;设定最大步数来约束双方战机对抗的步数上限,双方每进行一步机动对抗,步数加1,达到最大步数时此次对抗视为平局,当某一方战机飞出限定空域边界时也视为平局。
因此,定义空战中红方战机的最终奖励为:
Figure BDA0003924075780000112
式中,Rfin为获胜时得到的最终奖励,实验中取值为30。
综上,奖励函数如下所示:
R=R1+R2 (18)
步骤2:构建基于知识的强化学习算法,利用专家知识改进探索策略。具体包括:
步骤2-1:首先进行初始化,确定红方和蓝方的相对态势,设定双方的位置,速度等状态信息;初始化强化学习算法的价值Q网络参数,初始化交互经验池Dreplay,用于保存探索交互得到的经验数据;初始化专家经验池Ddemo,用来存放包含n步奖励值的专家演示数据,总的缓冲经验池D包含Dreplay和Ddemo,初始化参数ε和参数δ,用于实现探索。
步骤2-2:预训练阶段,此时缓冲池为专家经验池Ddemo,从经验池Ddemo中随机采样batch_size条专家数据,每条专家数据的格式为(st,at,rt,rt n,st+1,done),分别表示t时刻的状态、动作、一步奖励值、n步奖励值(n≥2)和回合是否结束;为使训练比较稳定,引入两个网络:价值Q网络和目标Q网络,二者的网络结构相同,参数更新方式不同;价值Q网络随着训练时刻进行参数更新,目标Q网络每隔一段时间复制价值Q网络的参数进行更新。
单步损失函数JDQ(Q)定义如下:
Figure BDA0003924075780000121
式中,θ-为目标Q网络参数,θ为价值Q网络参数,γ为折扣因子,
Figure BDA0003924075780000122
为t+1时刻的最佳动作;JDQ(Q)中的Q是价值Q网络的简写,Jn(Q)、JE(Q)、JL2(Q)和J(Q)中也是相同的含义。
为了使专家的价值传播到更早的状态,从而更好地进行预训练,使用n步时序差分算法进行预训练,因此n步损失函数Jn(Q)定义如下:
Figure BDA0003924075780000123
rt n=rt+γrt+1+...+γn-1rt+n-1 (21)
式中,rt n为n步的奖励值,
Figure BDA0003924075780000124
为t+n时刻的最佳动作。
为了对演示数据中未包含动作的价值进行约束,强制任何与专家动作aE不同的动作的价值小于专家动作的价值,使未包含动作的价值变为合理价值,监督损失函数JE(Q)定义如下:
Figure BDA0003924075780000125
l(aE,at)是边界损失,其恒大于等于0,定义如下:
Figure BDA0003924075780000126
为了防止过拟合,使用L2正则化对网络参数进行约束,因此L2正则化损失函数JL2(Q)定义如下:
Figure BDA0003924075780000127
式中,W是价值Q网络的权重参数。
损失函数如下:
J(Q)=JDQ(Q)+λ1Jn(Q)+λ2JE(Q)+λ3JL2(Q) (25)
使用优化器进行价值Q网络参数更新,在一段时间后,将其网络参数赋值给目标Q网络进行目标Q网络参数更新。重复上述步骤,直到仿真达到设定的预训练次数,定义为pre_episodes。
步骤2-3:正式训练阶段,智能体开始与环境进行交互,缓冲区包含专家经验池Ddemo和交互经验池Dreplay。使用行为克隆模型对专家数据集进行训练,得到状态到动作的映射,用其改进探索策略,添加两个探索参数ε和δ。
行为克隆模型从专家数据中进行学习,挖掘和模拟专家数据中的知识和经验。行为克隆模型通过建立一个状态到行动的映射来学习如何正确应对当前的状态,通过最小化模型输出的动作a和专家在相同状态下的动作aE之间的差异来模拟专家知识。对于离散的动作空间,该问题可被视为一个多标签分类问题,行为克隆模型的学习过程通过最小化交叉熵损失来完成,如式所示
LBC=H(a,aE|s) (26)
式中,H代表交叉熵损失函数,s为某一时刻的状态,a为该状态下模型输出的动作,aE为该状态下的专家动作。
改进探索策略的探索方法具体如下:如果随机数rand()<ε,在动作空间内随机选取动作;如果随机数ε≤rand()<δ,从行为克隆模型中选取当前状态对应最优的动作;如果随机数rand()>δ,选取最大Q值对应的动作。
从缓冲池中随机抽取batch_size条数据,根据当前空战状态st、参数ε和参数δ选择动作并执行,根据式(3)得到下一时刻的状态st+1,根据式(18)获得当前时刻的一步奖励值rt,根据式(21)获得当前时刻的n步奖励值rt n。如果抽取的数据为专家知识,则损失函数为J(Q)=JDQ(Q)+λ1Jn(Q)+λ2JE(Q)+λ3JL2(Q),如果抽取到的数据为交互数据,则损失函数J(Q)=JDQ(Q)+λ1Jn(Q)+λ3JL2(Q)。计算网络的梯度值并使用优化器进行更新,重复上述步骤,直到仿真达到设定的正式训练次数,定义为episodes。
具体实施例:研究设定我机和敌机的初始状态如表1所示:
表1:双方起始状态
Figure BDA0003924075780000141
导弹的最大攻击距离为1000m;无人机最佳空战速度为200m/s,最佳空战高度为6000m,最佳空战距离为1000m。
根据上述场景,设置决策周期T=0.25s,每次抽取样本数量batch_size=64,预训练10000个episode,正式训练5000个episode后的效果如图2所示。图中实线为我方轨迹,虚线为敌方轨迹,可以看出,我方在初始时刻开始靠近敌机,消除了距离劣势,进而向上爬升再下降,进而形成了对敌方的尾追优势,证明本发明提出的知识与数据协同驱动的无人机机动决策方法,通过训练能够让无人机完成自主决策。
基于相同的发明构思,本发明实施例公开了一种知识与数据协同驱动的无人机机动决策系统,包括:模型构建与初始化模块,用于建立无人机运动模型及作战双方的相对关系,构建空战机动决策的马尔科夫博弈模型,定义空战机动决策过程中无人机的状态空间、动作空间以及奖励函数;以及初始化对敌双方的相对态势,初始化强化学习的价值Q网络参数、缓冲经验池、专家经验池以及用于实现探索的参数;预训练模块,用于与专家经验池进行交互,预训练损失函数定义为单步损失函数、多步损失函数、监督损失函数和网络参数正则化损失的加权和;以及,正式训练模块,用于开始与环境进行交互,动态更新交互经验池,针对专家经验池无法包含空战过程中所有状态的问题,使用行为克隆模型对专家经验池中的数据进行训练,得到状态到动作的映射;从专家经验池与交互经验池中随机抽取数据,根据空战状态、探索参数选择动作并执行,如果抽取的数据为专家经验池中数据,则损失函数与预训练损失函数计算方式相同,如果抽取到的数据为交互经验池中数据,则不计算损失函数中的监督损失函数。
基于相同的发明构思,本发明实施例公开了一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的知识与数据协同驱动的无人机机动决策方法。

Claims (10)

1.一种知识与数据协同驱动的无人机机动决策方法,其特征在于,包括如下步骤:
建立无人机运动模型及作战双方的相对关系,构建空战机动决策的马尔科夫博弈模型,定义空战机动决策过程中无人机的状态空间、动作空间以及奖励函数;
初始化作战双方的相对态势,初始化强化学习模型的价值Q网络参数、交互经验池、专家经验池以及用于实现探索的参数;
在预训练阶段,我方无人机只与专家经验池进行交互,预训练损失函数定义为单步损失函数、多步损失函数、监督损失函数和网络参数正则化损失的加权和;
在正式训练阶段,我方无人机开始与环境进行交互,动态更新交互经验池,针对专家经验池无法包含空战过程中所有状态的问题,使用行为克隆模型对专家经验池中的数据进行训练,得到状态到动作的映射;从专家经验池与交互经验池中随机抽取数据,根据空战状态、探索参数选择动作并执行,如果抽取的数据为专家经验池中数据,则损失函数与预训练损失函数计算方式相同,如果抽取到的数据为交互经验池中数据,则不计算损失函数中的监督损失函数。
2.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,无人机在地面坐标系下的三维空间运动学模型如下:
Figure FDA0003924075770000011
无人机在地面坐标系下的三维空间动力学模型如下:
Figure FDA0003924075770000012
其中,x、y和z分别表示无人机在地面坐标系中的坐标值,v表示无人机的行进速度,θ、ψ分别表示无人机的俯仰角和偏航角;g表示重力加速度;
Figure FDA0003924075770000013
Figure FDA0003924075770000014
分别表示x、y、z对时间t求微分,nx为无人机的切向过载;nz为无人机的法向过载;μ是无人机的滚转角。
3.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,空战过程中对敌双方的相对关系用态势来表示,包括:角度态势,高度态势,速度态势和距离态势;角度态势包括脱离角和偏离角,高度态势为红方和蓝方的高度以及最佳空战高度的关系,速度态势为红方和蓝方的速度以及最佳空战速度的关系,距离态势为红方和蓝方的距离。
4.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,将空战机动决策过程建模为马尔科夫博弈模型,确定双方的状态空间、动作空间以及奖励函数,用元组(S,A,γ,R)表示,S,A,γ,R分别为状态空间,动作空间,折扣因子和奖励函数;其中将状态空间包括双方的速度、位置、俯仰角和偏航角,动作空间包括定常飞行、加速飞行、减速飞行、左转弯、右转弯、向上拉起和向下俯冲;奖励函数包括即时奖励和最终奖励,即时奖励包括角度态势、高度态势、速度态势和距离态势的奖励,最终奖励是指一方获胜、平局或失败获得的奖励。
5.根据权利要求4所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,以红方为例相关奖励的定义如下:综合偏离角ATA和脱离角AA的角度奖励定义为:
Figure FDA0003924075770000021
在高度奖励函数中引入一个校正量,校正后的高度奖励定义为:
Figure FDA0003924075770000022
Figure FDA0003924075770000023
式中,
Figure FDA0003924075770000024
是红方速度在竖直方向上的分量,H0是一个常数参量,用来调整高度奖励函数的梯度,Hopt是最佳空战高度,zr,zb是红方和蓝方高度,Vopt是最佳空战速度;
速度奖励定义为:RV=R'V+RV_self
当Vopt>1.5vb
Figure FDA0003924075770000031
当Vopt≤1.5vb
Figure FDA0003924075770000032
vr,vb是红方和蓝方速度;
Figure FDA0003924075770000033
距离奖励定义为:
Figure FDA0003924075770000034
Dopt为最佳空战距离,D0是一个常数参量,用来调整距离奖励函数的梯度,d是红方和蓝方的距离。
6.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,预训练损失函数表示为:
J(Q)=JDQ(Q)+λ1Jn(Q)+λ2JE(Q)+λ3JL2(Q)
式中,λ1、λ2和λ3为分别为n步损失函数Jn(Q)、监督损失函数JE(Q)和L2正则化损失函数JL2(Q)的权重参数;
设专家经验池Ddemo中每条专家数据的格式为
Figure FDA0003924075770000041
分别表示t时刻的状态、动作、一步奖励值、n步奖励值(n≥2)以及回合是否结束;
为使训练比较稳定,引入两个网络:价值Q网络和目标Q网络,二者的网络结构相同,参数更新方式不同;价值Q网络随着训练时刻进行参数更新,目标Q网络每隔一段时间复制价值Q网络的参数进行更新;
单步损失函数JDQ(Q)定义如下:
Figure FDA0003924075770000042
式中,θ-为目标Q网络参数,θ为价值Q网络参数,γ为折扣因子,
Figure FDA0003924075770000043
为t+1时刻的最佳动作;
n步损失函数Jn(Q)定义如下:
Figure FDA0003924075770000044
Figure FDA0003924075770000045
式中,n步奖励值rt n=rt+γrt+1+...+γn-1rt+n-1
Figure FDA0003924075770000046
为t+n时刻的最佳动作;
监督损失函数JE(Q)定义如下:
Figure FDA0003924075770000047
l(aE,at)是边界损失,其恒大于等于0,aE是专家动作;
L2正则化损失函数定义如下:
Figure FDA0003924075770000048
式中,W是价值Q网络的权重参数。
7.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,正式训练阶段,构建行为克隆模型,对专家经验池中的数据进行训练,得到状态到动作的映射,从而对探索策略进行改进;改进探索策略的探索方法具体如下:如果随机数rand()<ε,在动作空间内随机选取动作;如果随机数ε≤rand()<δ,从行为克隆模型中选取当前状态对应最优的动作;如果随机数rand()>δ,选取最大Q值对应的动作,ε和δ为预设的用于实现探索的参数。
8.根据权利要求6所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,正式训练阶段,从缓冲池中随机抽取数据,根据当前空战状态st、探索参数ε和参数δ选择动作并执行;如果抽取的数据为专家知识,则损失函数为J(Q),如果抽取到的数据为交互数据,则损失函数J(Q)中的参数λ2=0;使用优化器进行价值Q网络参数更新,在一段时间后,将其网络参数赋值给目标Q网络进行目标Q网络参数更新;重复上述步骤直到达到设定的正式训练次数。
9.一种知识与数据协同驱动的无人机机动决策系统,其特征在于,包括:
模型构建与初始化模块,用于建立无人机运动模型及作战双方的相对关系,构建空战机动决策的马尔科夫博弈模型,定义空战机动决策过程中无人机的状态空间、动作空间以及奖励函数;以及初始化对敌双方的相对态势,初始化强化学习的价值Q网络参数、缓冲经验池、专家经验池以及用于实现探索的参数;
预训练模块,用于与专家经验池进行交互,预训练损失函数定义为单步损失函数、多步损失函数、监督损失函数和网络参数正则化损失的加权和;
以及,正式训练模块,用于开始与环境进行交互,动态更新交互经验池,针对专家经验池无法包含空战过程中所有状态的问题,使用行为克隆模型对专家经验池中的数据进行训练,得到状态到动作的映射;从专家经验池与交互经验池中随机抽取数据,根据空战状态、探索参数选择动作并执行,如果抽取的数据为专家经验池中数据,则损失函数与预训练损失函数计算方式相同,如果抽取到的数据为交互经验池中数据,则不计算损失函数中的监督损失函数。
10.一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-8任一项所述的知识与数据协同驱动的无人机机动决策方法。
CN202211367933.5A 2022-11-03 2022-11-03 一种知识与数据协同驱动的无人机机动决策方法与系统 Active CN115755956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211367933.5A CN115755956B (zh) 2022-11-03 2022-11-03 一种知识与数据协同驱动的无人机机动决策方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211367933.5A CN115755956B (zh) 2022-11-03 2022-11-03 一种知识与数据协同驱动的无人机机动决策方法与系统

Publications (2)

Publication Number Publication Date
CN115755956A true CN115755956A (zh) 2023-03-07
CN115755956B CN115755956B (zh) 2023-12-15

Family

ID=85357152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211367933.5A Active CN115755956B (zh) 2022-11-03 2022-11-03 一种知识与数据协同驱动的无人机机动决策方法与系统

Country Status (1)

Country Link
CN (1) CN115755956B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116796505A (zh) * 2023-05-11 2023-09-22 中国人民解放军海军航空大学 一种基于示例策略约束的空战机动策略生成方法
CN117556681A (zh) * 2023-07-20 2024-02-13 北京师范大学 一种智能空战决策方法、系统及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3748551A1 (de) * 2019-06-07 2020-12-09 Robert Bosch GmbH Verfahren, vorrichtung und computerprogramm zum einstellen eines hyperparameters
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113341958A (zh) * 2021-05-21 2021-09-03 西北工业大学 一种混合经验的多智能体强化学习运动规划方法
CN113467515A (zh) * 2021-07-22 2021-10-01 南京大学 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法
CN115033022A (zh) * 2022-06-28 2022-09-09 华南理工大学 面向移动平台基于专家经验的ddpg无人机降落方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3748551A1 (de) * 2019-06-07 2020-12-09 Robert Bosch GmbH Verfahren, vorrichtung und computerprogramm zum einstellen eines hyperparameters
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113341958A (zh) * 2021-05-21 2021-09-03 西北工业大学 一种混合经验的多智能体强化学习运动规划方法
CN113467515A (zh) * 2021-07-22 2021-10-01 南京大学 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法
CN115033022A (zh) * 2022-06-28 2022-09-09 华南理工大学 面向移动平台基于专家经验的ddpg无人机降落方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李伟湋等: "基于累积前景理论和三支决策的无人机态势评估", 《上海交通大学学报》, pages: 1479 - 1490 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116796505A (zh) * 2023-05-11 2023-09-22 中国人民解放军海军航空大学 一种基于示例策略约束的空战机动策略生成方法
CN116796505B (zh) * 2023-05-11 2024-02-20 中国人民解放军海军航空大学 一种基于示例策略约束的空战机动策略生成方法
CN117556681A (zh) * 2023-07-20 2024-02-13 北京师范大学 一种智能空战决策方法、系统及电子设备
CN117556681B (zh) * 2023-07-20 2024-03-29 北京师范大学 一种智能空战决策方法、系统及电子设备

Also Published As

Publication number Publication date
CN115755956B (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN112198892B (zh) 一种多无人机智能协同突防对抗方法
CN115291625A (zh) 基于多智能体分层强化学习的多无人机空战决策方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN113893539B (zh) 智能体的协同对战方法及装置
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN111461294B (zh) 面向动态博弈的智能飞行器类脑认知学习方法
CN114492805A (zh) 一种基于模糊推理的空战机动决策设计方法
CN114063644B (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
CN113282100A (zh) 基于强化学习的无人机对抗博弈训练控制方法
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
CN117313561B (zh) 无人机智能决策模型训练方法及无人机智能决策方法
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
Ma et al. Strategy generation based on reinforcement learning with deep deterministic policy gradient for UCAV
CN114492677B (zh) 一种无人机对抗方法及装置
CN113093803B (zh) 一种基于e-sac算法的无人机空战运动控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant