CN113625569B - 一种基于混合决策模型的小型无人机防控决策方法及系统 - Google Patents

一种基于混合决策模型的小型无人机防控决策方法及系统 Download PDF

Info

Publication number
CN113625569B
CN113625569B CN202110926857.6A CN202110926857A CN113625569B CN 113625569 B CN113625569 B CN 113625569B CN 202110926857 A CN202110926857 A CN 202110926857A CN 113625569 B CN113625569 B CN 113625569B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
prevention
small unmanned
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110926857.6A
Other languages
English (en)
Other versions
CN113625569A (zh
Inventor
牛余凯
晋晓曦
李晋徽
温志津
刘阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
32802 Troops Of People's Liberation Army Of China
Original Assignee
32802 Troops Of People's Liberation Army Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 32802 Troops Of People's Liberation Army Of China filed Critical 32802 Troops Of People's Liberation Army Of China
Priority to CN202110926857.6A priority Critical patent/CN113625569B/zh
Publication of CN113625569A publication Critical patent/CN113625569A/zh
Application granted granted Critical
Publication of CN113625569B publication Critical patent/CN113625569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于混合决策模型的小型无人机防控决策方法及系统,方法包括:获取小型无人机位置运动信息,构建其三自由度质点运动模型;构建小型无人机防控规则模型,使用小型无人机防控规则模型和三自由度质点运动模型描述小型无人机防控步骤;依据马尔科夫决策过程构建状态空间S,动作空间A,奖励函数R;建立基于dueling结构的D3QN网络,训练及优化防控决策模型;根据防控决策模型,更新小型无人机防控规则模型。本发明构建小型无人机防控混合决策模型,能够有效提升遂行防控任务的小型无人机防控系统自动化水平,解决现有小型无人机防控指挥决策中存在的决策速度慢、难以处理复杂场景等问题,满足防控小型无人机的指挥决策需求。

Description

一种基于混合决策模型的小型无人机防控决策方法及系统
技术领域
本发明属于指挥控制技术领域,特别涉及一种基于混合决策模型的小型无人机防控决策方法及系统。
背景技术
随着“低慢小”无人机的快速发展与应用,对各国的公共安全、国家安全产生了极大的威胁。在民用领域,无人机严重扰乱了空管秩序;在军事领域,无人机更是成为了一种新兴作战武器,在局部地区冲突中取得了较好的打击效果。因此,世界各国正在加快对反无人机技术及手段的研究,其中,指挥决策需协调控制多源探测与多元处置手段来防控目标并评估防控效果,是目前反无人机技术及手段中的核心难点。但目前已有的防控系统存在以下问题:(1)小型无人机防控环境复杂,现有的决策体制和流程难以适应;(2)决策时间较短,人工操作反应慢,且难以应对多目标。
Alpha Go的出现有效促进了深度强化学习的发展,深度强化学习可将具体想定下的作战任务抽象化为序列决策问题。基于深度强化学习的指挥决策方法能够充分扩展传统的防控规则,并能够即时进行防控策略的效能分析。但是,基于深度强化学习的指挥决策也存在部分问题:(1)在小型无人机防控等实际问题场景中,深度强化学习需要大量与环境交互所产生的训练样本;(2)基于深度强化学习的指挥决策模型没有初始经验,首先在庞大的策略空间中随机探索,探索效率低,导致训练周期长,学习速度慢。
尽管防控任务等知识庞杂,无法建立一个规则种类齐全、智能化的专家系统。但传统的基于专家规则的指挥决策方法,能够将大量的经验知识有效组织起来,用于实际问题的分析求解。同时,将这些经验知识以一定方式融入到过程来指导智能体的探索,可避免许多无效的探索,并加快防控决策智能体的训练速度,提升最终的效果。例如DeepMind提出的Alpha Star,采用了规则对决策智能体进行预训练,再采用深度强化学习训练,取得了一定效果。
基于专家规则与基于深度强化学习的指挥决策方法各有利弊,二者结合是高效求解复杂决策问题的有效手段。专家规则和深度强化学习相结合的方法为小型无人机防控场景中的决策问题提供了一种新思路、新方法。
发明内容
本发明提出了一种基于混合决策模型的小型无人机防控决策方法,包括:
获取小型无人机位置运动信息,构建小型无人机的三自由度质点运动模型;
构建小型无人机防控规则模型,使用小型无人机防控规则模型和三自由度质点运动模型描述小型无人机防控步骤;
依据马尔科夫决策过程构建状态空间S,动作空间A,奖励函数R;
建立基于dueling结构的D3QN网络,训练及优化防控决策模型;
根据防控决策模型,更新小型无人机防控规则模型。
进一步地,所述构建小型无人机的三自由度质点运动模型包括:
以地面防控中心为原点,将小型无人机视为质点,其三自由度质点模型为:
Figure GDA0003410513870000021
其中(x,y,z)表示小型无人机在以地面为参考系三维空间的坐标;v,θ和ψ分别表示小型无人机的速度、俯仰角和航向角。
进一步地,所述依据马尔科夫决策过程构建状态空间S,动作空间A,奖惩函数R包括:
状态空间S为:
S=[dt,vt,at,et,ht,tl,tj] (2)
dt,vt,at,et,ht的表达式分别为:
Figure GDA0003410513870000031
Figure GDA0003410513870000032
at=tan-1[(ya-yb)/(xa-xb)],
Figure GDA0003410513870000033
ht=(zb-za),
其中,(xb,yb,zb)和(xb1,yb1,zb1)分别表示小型无人机在上一时刻t1和马尔科夫决策过程步进的当前时刻t的位置坐标,(xa,ya,za)表示探测设备的位置坐标;dt表示当前时刻小型无人机相对探测设备的距离;vt表示当前时刻小型无人机的飞行速率;tl表示出激光时间;tj表示开电子干扰的时间;at和et分别表示t时刻无人机相对地面目标的方位角和俯仰角;
动作空间A的表达式为:
A=[Js,Jp,Ls,Lp] (3)
其中,Js和Ls分别表示为干扰和激光设备的开关动作,取值为0或1;Jp和Lp分别表示为干扰功率和激光功率,具体取值为-1,0或1;
奖励函数R的表达式为:
R=μ1·Rdj2·Rdl3·Rv4·Ra (5)
其中,Rdj、Rdl、Rv、Ra分别表示干扰距离奖励函数、拦截距离奖励函数、角度奖励函数和速度奖励函数;μ1、μ2、μ3、μ4分别为干扰距离奖励函数、拦截距离奖励函数、速度奖励函数和角度奖励函数对应的权值,其满足约束条件:μ1234=1,μ1234≥0;
Rdj、Rdl、Rv、Ra表达式为:
Figure GDA0003410513870000041
k为保持干扰和拦截距离奖励函数在最小奖励正值的平滑系数,
Figure GDA0003410513870000042
Figure GDA0003410513870000043
分别表示干扰最大作用距离和激光作用最大距离;
Figure GDA0003410513870000044
分别表示小型无人机的速度低于一定速度阈值和高于最大速度阈值时所对应的奖励系数;vmi,vma和vxh分别表示小型无人机的最小速度、最大速度和巡航速度;q表示探测到的小型无人机径向连线与其速度矢量间的夹角;qm表示角度奖励值为最小奖励正值时的角度值;
Figure GDA0003410513870000045
分别表示探测到无人机在范围内及无人机离开探测范围的奖励值。
进一步地,所述基于dueling结构的D3QN网络,整个D3QN网络共有3层,包括输入层、隐藏层和输出层;输入层与输出层为全连接层,中间隐藏层为循环神经网络结构,其中,
目标价值网络和评估价值网络为循环网络结构。
进一步地,所述基于dueling结构的D3QN网络Q值输出表达式为:
Figure GDA0003410513870000046
其中,ω表示网络结构参数,α,β分别表示两个全连接层网络的参数,s表示状态空间,a表示动作空间;a’表示动作空间的某一动作;
所述优化防控决策模型方式如下:
所述评估价值网络输出值为Q(φ(s),a|ω),输入为上一步采取的动作a及当前状态s,输出为下一时刻采取的处置动作,对应的评估价值网络参数为ω;目标价值网络的输入为上一步采取的动作a及当前状态s,对应的目标价值网络参数为ω-,其最终输出值yj由目标价值网络输出与奖励Rj共同构成,其具体表达式为:
Figure GDA0003410513870000051
Figure GDA0003410513870000052
其中,Rj表示该第j个数据对应的奖励,φ(s)表示经验池采集经验数据当前状态对应的特征向量,φ(s')表示经验池采集经验数据的下一状态的特征向量,γ为奖励折扣系数,argmaxa'(Q(φ(s'),a')|ω)|ω-表示评估价值网络中最大Q值对应的动作,L(ω)表示对参数为ω的评估价值网络进行训练时所用的误差函数,
Figure GDA0003410513870000053
表示状态s'下采取动作a'后,目标价值网络输出的最大
Figure GDA0003410513870000054
值;
所述评估价值网络,其参数ω朝评估价值网络输出值增大的方向进行更新,该过程为:
Figure GDA0003410513870000055
其中,
Figure GDA0003410513870000056
表示状态特征φ(s)和动作a对应Q值函数对参数ω的梯度,
Figure GDA0003410513870000057
表示损失函数L(ω)对参数ω的梯度。
进一步地,所述方法还包括:
使用新的小型无人机防控规则模型重新训练防控决策模型。
进一步地,使用所述小型无人机防控规则模型与所述防控决策模型迭代提升形成小型无人机防控混合决策模型。
本发明还提供一种基于混合决策模型的小型无人机防控决策系统,所述系统包括:
三自由度质点运动模型生成模块,用于获取小型无人机位置运动信息,构建小型无人机的三自由度质点运动模型;
小型无人机防控规则模型生成模块,用于构建小型无人机防控规则模型;
描述模块,用于使用小型无人机防控规则模型和三自由度质点运动模型描述无人机防控步骤;
马尔科夫决策模块,用于依据无人机防控步骤,使用马尔科夫决策过程构建状态空间S,动作空间A,奖惩函数R;
网络建立模块,用于建立基于dueling结构的D3QN网络;
训练优化模块,用于使用状态空间S,动作空间A,奖惩函数R和基于dueling结构的D3QN网络训练及优化防控决策模型;
更新模块,用于根据防控决策模型,更新小型无人机防控规则模型。
进一步地,所述基于dueling结构的D3QN网络,整个D3QN网络共有3层,包括输入层、隐藏层和输出层;输入层与输出层为全连接层,中间隐藏层为循环神经网络结构,其中,
目标价值网络和评估价值网络为循环网络结构。
进一步地,所述基于dueling结构的D3QN网络Q值输出表达式为:
Figure GDA0003410513870000061
其中,ω表示网络结构参数,α,β分别表示两个全连接层网络的参数,s表示状态空间,a表示动作空间;a’表示动作空间的某一动作;
所述优化防控决策模型方式如下:
所述评估价值网络输出值为Q(φ(s),a|ω),输入为上一步采取的动作a及当前状态s,输出为下一时刻采取的处置动作,对应的评估价值网络参数为ω;目标价值网络的输入为上一步采取的动作a及当前状态s,对应的目标价值网络参数为ω-,其最终输出值yj由目标价值网络输出与奖励Rj共同构成,其具体表达式为:
Figure GDA0003410513870000071
Figure GDA0003410513870000072
其中,Rj表示该第j个数据对应的奖励,φ(s)表示经验池采集经验数据当前状态对应的特征向量,φ(s')表示经验池采集经验数据的下一状态的特征向量,γ为奖励折扣系数,argmaxa'(Q(φ(s'),a')|ω)|ω-表示评估价值网络中最大Q值对应的动作,L(ω)表示对参数为ω的评估价值网络进行训练时所用的误差函数,
Figure GDA0003410513870000073
表示状态s'下采取动作a'后,目标价值网络输出的最大
Figure GDA0003410513870000074
值;
所述评估价值网络,其参数ω朝评估价值网络输出值增大的方向进行更新,该过程为:
Figure GDA0003410513870000075
其中,
Figure GDA0003410513870000076
表示状态特征φ(s)和动作a对应Q值函数对参数ω的梯度,
Figure GDA0003410513870000077
表示损失函数L(ω)对参数ω的梯度。
本发明所设计的一种基于混合决策模型的小型无人机防控决策方法及系统,构建小型无人机防控混合决策模型,能够有效提升遂行防控任务的小型无人机防控系统自动化水平,解决现有小型无人机防控指挥决策中存在的决策速度慢、难以处理复杂场景等问题,满足防控小型无人机的指挥决策需求。
附图说明
图1示出了本发明实施例的一种基于混合决策模型的小型无人机防控决策方法组成及工作原理框图;
图2示出了本发明实施例的一种基于混合决策模型的小型无人机防控决策方法流程图;
图3示出了本发明实施例的基于dueling结构D3QN网络的决策模型神经网络结构图;
图4示出了本发明实施例的基于dueling结构D3QN网络的防控混合决策参数更新示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明中小型无人机包括固定翼和旋翼两种,其起飞重量不超过25千克。如图1所示,本发明从基于规则和基于深度强化学习两方面入手,通过作战场景想定构想模拟小型无人机各种情形,形成仿真环境;使用基于规则的小型无人机防控规则模型给出防控策略;对状态空间、动作空间和奖励函数进行设计;对算法网络结构进行设计,进行训练和优化;同时,设计目标价值网络和评估价值网络,通过动作、策略方式来指导改进。训练形成基于深度强化学习的防控决策模型。当防控决策模型内优于已有策略时,反向优化小型无人机防控规则模型。再利用优化过的小型无人机防控规则模型重新训练,并通过一系列的评估测试,最终得到小型无人机防控混合决策模型。
本发明提供了一种基于混合决策模型的小型无人机防控决策方法,如图2所示,包括:
步骤1、获取小型无人机位置运动信息,构建小型无人机的三自由度质点运动模型。
在小型无人机防控任务中,主要根据探测分系统所获取目标位置、速度等运动信息来进行防控处置,探测分系统可以是雷达等设备。由于当前环境,无法从现实环境中得到足够的敌方小型无人机运动信息,本发明通过作战场景想定构想来模拟若干小型无人机。作战场景想定构想可以设置敌方小型无人机各种情形,相当于获取到小型无人机位置运动信息。
因此重点是构建小型无人机的三自由度质点运动模型。
以地面防控中心为原点,将小型无人机视为质点,其三自由度质点模型如式(1)所示:
Figure GDA0003410513870000091
其中(x,y,z)表示小型无人机在以地面为参考系三维空间的坐标;v,θ和ψ分别表示小型无人机的速度、俯仰角和航向角。
构建小型无人机的三自由度质点运动模型时,需要将小型无人机上一时刻t1和当前时刻t的运动信息全部构建在小型无人机的三自由度质点运动模型中。
在具体实施例中,假设地面防控中心所在防护区域外,随机初始化N架执行侦察、打击任务的小型无人机,t1时刻其位置信息为(xit1,yit1,zit1),对应的速度、俯仰角和航向角分别为vit1,θit1和ψit1;t时刻其位置信息为(xit,yit,zit),对应的速度、俯仰角和航向角分别为vit,θit和ψit;其中,i=1…N。
步骤2、构建小型无人机防控规则模型,使用小型无人机防控规则模型和三自由度质点运动模型描述小型无人机防控步骤。
小型无人机防控规则模型包括规则集及行为树解析模块。规则集在形式化描述规则的基础上建立,用于根据场景中获取的观测选定对应的规则;行为树解析模块用于对所选取规则的解析,得到对应的防控动作。防控动作包括:无线电干扰和激光拦截,进一步的,选择相应功率后进行无线电干扰和激光拦截。优选的,小型无人机防控规则模型基于专家规则生成。
小型无人机防控规则模型设定了小型无人机的各种情况的各种处置手段,如小型无人机距离当前位置小于N米时如何进行防控。小型无人机防控规则模型中,设定包括小型无人机相关距离、位置、速度、俯仰角、航向角等各项内容,所有在三自由度质点运动模型中的小型无人机均能在小型无人机防控规则模型中找到对应的防控动作。如小型无人机a位置信息为(13000,4000,200),小型无人机的速度为20m/s,俯仰角为-10度、航向角为90度,对应的防控动作为打开激光,使用正常功率激光拦截。
步骤3、依据马尔科夫决策过程构建状态空间S,动作空间A,奖励函数R。
根据小型无人机防控任务特性及马尔可夫决策(Markov Decision Process,MDP)过程,建立基于深度强化学习的防控决策模型,并设计状态空间和处置决策空间,奖励函数则根据所防控不同目标的意图确定。
对任一在三自由度质点运动模型中的小型无人机,其防控步骤均可以用马尔科夫决策过程来构建状态空间S,动作空间A,奖惩函数R。其中,状态空间S为所探测到的防控目标信息,动作空间A是防控系统的处置设备的具体动作内容,奖励函数R是防控系统不同情况下处置设备的评判标准。
强化学习中采用马尔科夫决策过程来描述防控决策模型与环境的交互,马尔科夫决策过程主要由状态空间、动作空间、奖励函数、折扣系数及状态转移概率组成,本发明中的防控决策模型采用无模型的强化学习算法建立,因此仅考虑除状态转移概率外的其他要素。
状态空间S如式(2)所示。
S=[dt,vt,at,et,ht,tl,tj] (2)
dt,vt,at,et,ht的表达式分别为:
Figure GDA0003410513870000101
Figure GDA0003410513870000102
at=tan-1[(ya-yb)/(xa-xb)],
Figure GDA0003410513870000103
ht=(zb-za),
其中,(xb,yb,zb)和(xb1,yb1,zb1)分别表示小型无人机在上一时刻t1和马尔科夫决策过程步进的当前时刻t的位置坐标,(xa,ya,za)表示探测设备的位置坐标;dt表示当前时刻小型无人机相对探测设备的距离;vt表示当前时刻小型无人机的飞行速率;tl表示出激光时间;tj表示开电子干扰的时间;at和et分别表示t时刻无人机相对地面目标的方位角和俯仰角。
本发明考虑到探测设备与地面防控中心可能不在同一地点。如两者在同一地点,则(xa,ya,za)为(0,0,0)。
如某小型无人机X,其S=[10000,500,37,18,320,20,30]。
动作空间A的表达式如式(3)所示。
A=[Js,Jp,Ls,Lp] (3)
其中,Js和Ls分别表示为干扰和激光设备的开关动作,取值为0或1;Jp和Lp分别表示为干扰功率和激光功率,具体取值为-1,0或1。其中0表示功率保持不变,-1代表功率减小预设值(例如减少0.5w),1代表功率增大预设值(例如增加0.5w)。
小型无人机防控任务中的处置手段包括激光拦截和无线电干扰,其中,激光拦截存在2个可控动作:开关机、调整出光功率;无线电干扰存在2个可控动作:开关机、调整干扰功率。处置手段的各类动作采用动作空间A这样的4元组编码。
如某小型无人机X,对应的A=[1,-1,0,0]。
奖励函数R由Rdj、Rdl、Rv和Ra综合确定,Rdj、Rdl、Rv和Ra分别表示干扰距离奖励函数、拦截距离奖励函数、角度奖励函数和速度奖励函数;干扰和拦截距离奖励函数采用距离相关的线性函数表示,k为保持干扰和拦截距离奖励函数在最小奖励正值的平滑系数,
Figure GDA0003410513870000111
Figure GDA0003410513870000112
分别表示干扰最大作用距离和激光作用最大距离;
Figure GDA0003410513870000113
分别表示小型无人机的速度低于一定速度阈值和高于最大速度阈值时所对应的奖励系数;vmi,vma和vxh分别表示小型无人机的最小速度、最大速度和巡航速度;q表示探测到的小型无人机径向连线与其速度矢量间的夹角;qm表示角度奖励值为最小奖励正值时的角度值;
Figure GDA0003410513870000114
分别表示探测到无人机在范围内及无人机离开探测范围的奖励值。其表达式如式(4)所示:
Figure GDA0003410513870000121
将Rdj、Rdl、Rv和Ra加权求和,得到奖励函数R的表达式如式(5)表示:
R=μ1·Rdj2·Rdl3·Rv4·Ra (5)
其中,μ1、μ2、μ3、μ4分别为干扰距离奖励函数、拦截距离奖励函数、速度奖励函数和角度奖励函数对应的权值,可预先设置,根据经验值获得,其满足约束条件:μ1234=1,μ1234≥0。
步骤4、建立基于dueling结构的D3QN网络,训练及优化防控决策模型。
本发明所使用基于dueling结构的D3QN网络训练防控决策模型。D3QN,竞争双深度Q网络,即DuelingDouble Deep QNetwork。训练直至可以生成针对执行不同任务(如打击与侦察)的小型无人机的驱离及毁伤打击的防控策略,当该策略的防御成功率超过一定阈值时,停止训练并保存当前神经网络模型的参数,完成深度强化学习防控决策模型的阶段性训练。
本发明中,在D3QN网络算法中引入了dueling结构,改进了价值网络的结构,如图3所示。本发明中,整个D3QN网络共有3层,包括输入层、隐藏层和输出层。输入层与输出层为全连接层,中间隐藏层为循环神经网络结构(RNN)。
本发明中,分离并利用状态价值V(s)和固定状态下的动作价值A(s,a),更加准确的估算Q值,使得最终Q值输出表达式如式(6)所示:
Figure GDA0003410513870000131
其中,ω表示网络结构参数,α,β分别表示两个全连接层网络的参数,s表示状态空间,a表示动作空间;a’表示动作空间的某一动作。
两个全连接层网络为图3中A(s,a)与V(s)两个对应的全连接层。
本发明优化方式如图4所示,构建了评估价值网络和目标价值网络,评估价值网络输出值表示为Q(φ(s),a|ω),其输入为上一步采取的动作a及当前状态s,其输出为下一时刻采取的处置动作,对应的评估价值网络参数为ω,评估价值网络采用最小化评估价值网络的状态动作值与目标价值网络状态动作值之间的均方误差来更新优化网络参数ω,评估价值网络输出的Q(φ(s),a|ω)值直接由该网络输出。目标价值网络的输入为上一步采取的动作a及当前状态s,对应的目标价值网络参数为ω-,其最终输出值yj由目标价值网络输出与奖励Rj共同构成,其具体表达式如式(7)、式(8)所示:
Figure GDA0003410513870000132
Figure GDA0003410513870000133
其中,Rj表示该第j个数据对应的奖励,φ(s)表示经验池采集经验数据当前状态对应的特征向量,φ(s')表示经验池采集经验数据的下一状态的特征向量,γ为奖励折扣系数,argmaxa'(Q(φ(s'),a')|ω)|ω-表示评估价值网络中最大Q值对应的动作,L(ω)表示对参数为ω的评估价值网络进行训练时所用的误差函数,此处采用均方误差函数MSE(mean square error),
Figure GDA0003410513870000134
表示状态s'下采取动作a'后,目标价值网络输出的最大
Figure GDA0003410513870000135
值。
将式(7)代入式(8)得到:
Figure GDA0003410513870000141
对于评估价值网络,其参数ω朝评估价值网络输出值增大的方向进行更新,该过程如式(10)所示:
Figure GDA0003410513870000142
其中,
Figure GDA0003410513870000143
表示状态特征φ(s)和动作a对应Q值函数对参数ω的梯度,
Figure GDA0003410513870000144
表示损失函数L(ω)对参数ω的梯度。
采用固定目标价值网络参数的方法,每达到一定步长,对目标价值网络的参数进行更新,ω-←ω。
目标价值网络和评估价值网络采用循环网络结构(RNN),由全连接层与循环神经网络层构成的网络架构,共有3层,输入与输出为全连接层,中间隐藏层为循环神经网络层。
本发明利用D3QN算法对防控决策模型进行训练,训练数据为每个仿真步长所得到状态空间S,动作空间A,奖惩函数R,下一状态S’,并存储到经验回放池中。通过优先级经验回放的方式,根据每条经验的优先级提取用来训练模型。采用Pytorch深度学习框架,目标价值网络和评估价值网络采用循环网络结构,由全连接层与循环神经网络层构成的网络架构,共有3层,输入与输出为全连接层,中间隐藏层为循环神经网络层,分别选取100、50和50个神经元;每次训练的上限设为5000回合,每回合步长设置为104,所述策略的防御成功率超过一定阈值时,具体是指当达到每训练500回合有450及以上回合可防御成功,此时停止训练并保存此时神经网络模型参数。
步骤5、根据防控决策模型,更新小型无人机防控规则模型,并重新训练防控决策模型。
分析训练得到的防控决策模型,对其中的防控方式等进行整理并总结。对其中与小型无人机防控规则模型不相同的内容使用人工判断等手段进行分析,得到更优化的防控规则。并用更优化的防控规则更新小型无人机防控规则模型。利用新的小型无人机防控规则模型来重新训练防控决策模型。以上方式循环多次,直到达到预设指标。
对所述基于深度强化学习的防控决策模型和所述基于规则驱动的小型无人机防控规则模型进行迭代对抗训练,当训练所述深度强化学习决策模型时,固定基于规则驱动的防控决策模型;当训练基于规则驱动的决策模型时,固定所述深度强化学习决策模型,通过反复迭代,完成对基于深度强化学习的防控决策模型和所述基于规则驱动的小型无人机防控规则模型的训练。预设策略评估指标,通过小型无人机防控规则模型来形成防控决策模型的基线,训练防控决策模型;然后扩展小型无人机防控规则模型,再训练防控决策模型,迭代提升,最终得到基于混合决策模型的小型无人机防控决策模型。
可以使用以下方式验证及评估基于混合决策模型的小型无人机防控决策模型。在小型无人机防控任务场景中加载训练所得到的小型无人机防控混合决策模型,并根据从场景中实时获取的状态空间s进行决策,得到实时无人机防控策略,处置动作a作用到场景中,改变环境状态并得到实时奖励反馈。
本发明还设计一种基于混合决策模型的小型无人机防控决策系统,所述系统包括:
三自由度质点运动模型生成模块,用于获取小型无人机位置运动信息,构建小型无人机的三自由度质点运动模型;
小型无人机防控规则模型生成模块,用于构建小型无人机防控规则模型;
描述模块,用于使用小型无人机防控规则模型和三自由度质点运动模型描述无人机防控步骤;
马尔科夫决策模块,用于依据无人机防控步骤,使用马尔科夫决策过程构建状态空间S,动作空间A,奖惩函数R;
网络建立模块,用于建立D3QN+dueling结构网络;
训练优化模块,用于使用状态空间S,动作空间A,奖惩函数R和D3QN+dueling结构网络训练及优化防控决策模型;
更新模块,用于根据防控决策模型,更新小型无人机防控规则模型。
所述基于dueling结构的D3QN网络,整个D3QN网络共有3层,包括输入层、隐藏层和输出层;输入层与输出层为全连接层,中间隐藏层为循环神经网络结构,其中,
目标价值网络和评估价值网络为循环网络结构。
所述基于dueling结构的D3QN网络Q值输出表达式为:
Figure GDA0003410513870000161
其中,ω表示网络结构参数,α,β分别表示两个全连接层网络的参数,s表示状态空间,a表示动作空间;a’表示动作空间的某一动作;
所述优化防控决策模型方式如下:
所述评估价值网络输出值为Q(φ(s),a|ω),输入为上一步采取的动作a及当前状态s,输出为下一时刻采取的处置动作,对应的评估价值网络参数为ω;目标价值网络的输入为上一步采取的动作a及当前状态s,对应的目标价值网络参数为ω-,其最终输出值yj由目标价值网络输出与奖励Rj共同构成,其具体表达式为:
Figure GDA0003410513870000162
Figure GDA0003410513870000163
其中,Rj表示该第j个数据对应的奖励,φ(s)表示经验池采集经验数据当前状态对应的特征向量,φ(s')表示经验池采集经验数据的下一状态的特征向量,γ为奖励折扣系数,argmaxa'(Q(φ(s'),a')|ω)|ω-表示评估价值网络中最大Q值对应的动作,L(ω)表示对参数为ω的评估价值网络进行训练时所用的误差函数,
Figure GDA0003410513870000164
表示状态s'下采取动作a'后,目标价值网络输出的最大
Figure GDA0003410513870000165
值。
所述评估价值网络,其参数ω朝评估价值网络输出值增大的方向进行更新,该过程为:
Figure GDA0003410513870000166
其中,
Figure GDA0003410513870000171
表示状态特征φ(s)和动作a对应Q值函数对参数ω的梯度,
Figure GDA0003410513870000172
表示损失函数L(ω)对参数ω的梯度。
本发明所设计的一种基于混合决策模型的小型无人机防控决策方法和系统,构建小型无人机防控混合决策模型,能够有效提升遂行防控任务的小型无人机防控系统自动化水平,解决现有小型无人机防控指挥决策中存在的决策速度慢、难以处理复杂场景等问题,满足防控小型无人机的指挥决策需求。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (9)

1.一种基于混合决策模型的小型无人机防控决策方法,其特征在于,所述方法包括:
获取小型无人机位置运动信息,构建小型无人机的三自由度质点运动模型;
构建小型无人机防控规则模型,使用小型无人机防控规则模型和三自由度质点运动模型描述小型无人机防控步骤;
依据马尔科夫决策过程构建状态空间S,动作空间A,奖励函数R;
建立基于dueling结构的D3QN网络,训练及优化防控决策模型;
根据防控决策模型,更新小型无人机防控规则模型;
所述依据马尔科夫决策过程构建状态空间S,动作空间A,奖惩函数R包括:
状态空间S为:
S=[dt,vt,at,et,ht,tl,tj] (2)
dt,vt,at,et,ht的表达式分别为:
Figure FDA0003423964210000011
Figure FDA0003423964210000012
at=tan-1[(ya-yb)/(xa-xb)],
Figure FDA0003423964210000013
ht=(zb-za),
其中,(xb,yb,zb)和(xb1,yb1,zb1)分别表示小型无人机在上一时刻t1和马尔科夫决策过程步进的当前时刻t的位置坐标,(xa,ya,za)表示探测设备的位置坐标;dt表示当前时刻小型无人机相对探测设备的距离;vt表示当前时刻小型无人机的飞行速率;tl表示出激光时间;tj表示开电子干扰的时间;at和et分别表示t时刻无人机相对地面目标的方位角和俯仰角;
动作空间A的表达式为:
A=[Js,Jp,Ls,Lp] (3)
其中,Js和Ls分别表示为干扰和激光设备的开关动作,取值为0或1;Jp和Lp分别表示为干扰功率和激光功率,具体取值为-1,0或1;
奖励函数R的表达式为:
R=μ1·Rdj2·Rdl3·Rv4·Ra (5)
其中,Rdj、Rdl、Rv、Ra分别表示干扰距离奖励函数、拦截距离奖励函数、角度奖励函数和速度奖励函数;μ1、μ2、μ3、μ4分别为干扰距离奖励函数、拦截距离奖励函数、速度奖励函数和角度奖励函数对应的权值,其满足约束条件:μ1234=1,μ1234≥0;
Rdj、Rdl、Rv、Ra表达式为:
Figure FDA0003423964210000021
k为保持干扰和拦截距离奖励函数在最小奖励正值的平滑系数,
Figure FDA0003423964210000022
Figure FDA0003423964210000023
分别表示干扰最大作用距离和激光作用最大距离;
Figure FDA0003423964210000024
分别表示小型无人机的速度低于最大速度阈值和高于最大速度阈值时所对应的奖励系数;vmi,vma和vxh分别表示小型无人机的最小速度、最大速度和巡航速度;q表示探测到的小型无人机径向连线与其速度矢量间的夹角;qm表示角度奖励值为最小奖励正值时的角度值;
Figure FDA0003423964210000031
分别表示探测到无人机在范围内及无人机离开探测范围的奖励值。
2.根据权利要求1所述的基于混合决策模型的小型无人机防控决策方法,其特征在于,
所述构建小型无人机的三自由度质点运动模型包括:
以地面防控中心为原点,将小型无人机视为质点,其三自由度质点模型为:
Figure FDA0003423964210000032
其中(x,y,z)表示小型无人机在以地面为参考系三维空间的坐标;v,θ和ψ分别表示小型无人机的速度、俯仰角和航向角。
3.根据权利要求1所述的基于混合决策模型的小型无人机防控决策方法,其特征在于,
所述基于dueling结构的D3QN网络,整个D3QN网络共有3层,包括输入层、隐藏层和输出层;输入层与输出层为全连接层,中间隐藏层为循环神经网络结构,其中,
目标价值网络和评估价值网络为循环网络结构。
4.根据权利要求3所述的基于混合决策模型的小型无人机防控决策方法,其特征在于,
所述基于dueling结构的D3QN网络Q值输出表达式为:
Figure FDA0003423964210000033
其中,ω表示网络结构参数,α,β分别表示两个全连接层网络的参数,s表示状态空间,a表示动作空间;a’表示动作空间的某一动作;
所述优化防控决策模型方式如下:
所述评估价值网络输出值为Q(φ(s),a|ω),输入为上一步采取的动作a及当前状态s,输出为下一时刻采取的处置动作,对应的评估价值网络参数为ω;目标价值网络的输入为上一步采取的动作a及当前状态s,对应的目标价值网络参数为ω-,其最终输出值yj由目标价值网络输出与奖励Rj共同构成,其具体表达式为:
Figure FDA0003423964210000041
Figure FDA0003423964210000042
其中,Rj表示第j个数据对应的奖励,φ(s)表示经验池采集经验数据当前状态对应的特征向量,φ(s')表示经验池采集经验数据的下一状态的特征向量,γ为奖励折扣系数,argmaxa'(Q(φ(s'),a')|ω)|ω-表示评估价值网络中最大Q值对应的动作,L(ω)表示对参数为ω的评估价值网络进行训练时所用的误差函数,
Figure FDA0003423964210000043
表示状态s'下采取动作a'后,目标价值网络输出的最大
Figure FDA0003423964210000044
值;
所述评估价值网络,其参数ω朝评估价值网络输出值增大的方向进行更新,该过程为:
Figure FDA0003423964210000045
其中,
Figure FDA0003423964210000046
表示状态特征φ(s)和动作a对应Q值函数对参数ω的梯度,
Figure FDA0003423964210000047
表示损失函数L(ω)对参数ω的梯度。
5.根据权利要求1-4中任一所述的基于混合决策模型的小型无人机防控决策方法,其特征在于,
所述方法还包括:
使用新的小型无人机防控规则模型重新训练防控决策模型。
6.根据权利要求5所述的基于混合决策模型的小型无人机防控决策方法,其特征在于,
使用所述小型无人机防控规则模型与所述防控决策模型迭代提升形成小型无人机防控混合决策模型。
7.一种基于混合决策模型的小型无人机防控决策系统,其特征在于,
所述系统包括:
三自由度质点运动模型生成模块,用于获取小型无人机位置运动信息,构建小型无人机的三自由度质点运动模型;
小型无人机防控规则模型生成模块,用于构建小型无人机防控规则模型;
描述模块,用于使用小型无人机防控规则模型和三自由度质点运动模型描述无人机防控步骤;
马尔科夫决策模块,用于依据无人机防控步骤,使用马尔科夫决策过程构建状态空间S,动作空间A,奖惩函数R;
网络建立模块,用于建立基于dueling结构的D3QN网络;
训练优化模块,用于使用状态空间S,动作空间A,奖惩函数R和基于dueling结构的D3QN网络训练及优化防控决策模型;
更新模块,用于根据防控决策模型,更新小型无人机防控规则模型;
所述依据马尔科夫决策过程构建状态空间S,动作空间A,奖惩函数R包括:
状态空间S为:
S=[dt,vt,at,et,ht,tl,tj] (2)
dt,vt,at,et,ht的表达式分别为:
Figure FDA0003423964210000051
Figure FDA0003423964210000052
at=tan-1[(ya-yb)/(xa-xb)],
Figure FDA0003423964210000053
ht=(zb-za),
其中,(xb,yb,zb)和(xb1,yb1,zb1)分别表示小型无人机在上一时刻t1和马尔科夫决策过程步进的当前时刻t的位置坐标,(xa,ya,za)表示探测设备的位置坐标;dt表示当前时刻小型无人机相对探测设备的距离;vt表示当前时刻小型无人机的飞行速率;tl表示出激光时间;tj表示开电子干扰的时间;at和et分别表示t时刻无人机相对地面目标的方位角和俯仰角;
动作空间A的表达式为:
A=[Js,Jp,Ls,Lp] (3)
其中,Js和Ls分别表示为干扰和激光设备的开关动作,取值为0或1;Jp和Lp分别表示为干扰功率和激光功率,具体取值为-1,0或1;
奖励函数R的表达式为:
R=μ1·Rdj2·Rdl3·Rv4·Ra (5)
其中,Rdj、Rdl、Rv、Ra分别表示干扰距离奖励函数、拦截距离奖励函数、角度奖励函数和速度奖励函数;μ1、μ2、μ3、μ4分别为干扰距离奖励函数、拦截距离奖励函数、速度奖励函数和角度奖励函数对应的权值,其满足约束条件:μ1234=1,μ1234≥0;
Rdj、Rdl、Rv、Ra表达式为:
Figure FDA0003423964210000071
k为保持干扰和拦截距离奖励函数在最小奖励正值的平滑系数,
Figure FDA0003423964210000072
Figure FDA0003423964210000073
分别表示干扰最大作用距离和激光作用最大距离;
Figure FDA0003423964210000074
分别表示小型无人机的速度低于最大速度阈值和高于最大速度阈值时所对应的奖励系数;vmi,vma和vxh分别表示小型无人机的最小速度、最大速度和巡航速度;q表示探测到的小型无人机径向连线与其速度矢量间的夹角;qm表示角度奖励值为最小奖励正值时的角度值;
Figure FDA0003423964210000075
分别表示探测到无人机在范围内及无人机离开探测范围的奖励值。
8.根据权利要求7所述的基于混合决策模型的小型无人机防控决策系统,其特征在于,
所述基于dueling结构的D3QN网络,整个D3QN网络共有3层,包括输入层、隐藏层和输出层;输入层与输出层为全连接层,中间隐藏层为循环神经网络结构,其中,
目标价值网络和评估价值网络为循环网络结构。
9.根据权利要求8所述的基于混合决策模型的小型无人机防控决策系统,其特征在于,
所述基于dueling结构的D3QN网络Q值输出表达式为:
Figure FDA0003423964210000081
其中,ω表示网络结构参数,α,β分别表示两个全连接层网络的参数,s表示状态空间,a表示动作空间;a’表示动作空间的某一动作;
所述优化防控决策模型方式如下:
所述评估价值网络输出值为Q(φ(s),a|ω),输入为上一步采取的动作a及当前状态s,输出为下一时刻采取的处置动作,对应的评估价值网络参数为ω;目标价值网络的输入为上一步采取的动作a及当前状态s,对应的目标价值网络参数为ω-,其最终输出值yj由目标价值网络输出与奖励Rj共同构成,其具体表达式为:
Figure FDA0003423964210000082
Figure FDA0003423964210000083
其中,Rj表示第j个数据对应的奖励,φ(s)表示经验池采集经验数据当前状态对应的特征向量,φ(s')表示经验池采集经验数据的下一状态的特征向量,γ为奖励折扣系数,argmaxa'(Q(φ(s'),a')|ω)|ω-表示评估价值网络中最大Q值对应的动作,L(ω)表示对参数为ω的评估价值网络进行训练时所用的误差函数,
Figure FDA0003423964210000084
表示状态s'下采取动作a'后,目标价值网络输出的最大
Figure FDA0003423964210000085
值;
所述评估价值网络,其参数ω朝评估价值网络输出值增大的方向进行更新,该过程为:
Figure FDA0003423964210000086
其中,
Figure FDA0003423964210000087
表示状态特征φ(s)和动作a对应Q值函数对参数ω的梯度,
Figure FDA0003423964210000088
表示损失函数L(ω)对参数ω的梯度。
CN202110926857.6A 2021-08-12 2021-08-12 一种基于混合决策模型的小型无人机防控决策方法及系统 Active CN113625569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110926857.6A CN113625569B (zh) 2021-08-12 2021-08-12 一种基于混合决策模型的小型无人机防控决策方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110926857.6A CN113625569B (zh) 2021-08-12 2021-08-12 一种基于混合决策模型的小型无人机防控决策方法及系统

Publications (2)

Publication Number Publication Date
CN113625569A CN113625569A (zh) 2021-11-09
CN113625569B true CN113625569B (zh) 2022-02-08

Family

ID=78385147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110926857.6A Active CN113625569B (zh) 2021-08-12 2021-08-12 一种基于混合决策模型的小型无人机防控决策方法及系统

Country Status (1)

Country Link
CN (1) CN113625569B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114662404B (zh) * 2022-04-07 2024-04-30 西北工业大学 规则数据双驱动的机器人复杂操作过程人机混合决策方法
CN115017759B (zh) * 2022-05-25 2023-04-07 中国航空工业集团公司沈阳飞机设计研究所 一种无人机末端自主防御仿真验证平台
CN117634548A (zh) * 2024-01-26 2024-03-01 西南科技大学 一种无人机行为树调整与优化方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN112435275A (zh) * 2020-12-07 2021-03-02 中国电子科技集团公司第二十研究所 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10907940B1 (en) * 2017-12-12 2021-02-02 Xidrone Systems, Inc. Deterrent for unmanned aerial systems using data mining and/or machine learning for improved target detection and classification
CN111667513B (zh) * 2020-06-01 2022-02-18 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN112947575B (zh) * 2021-03-17 2023-05-16 中国人民解放军国防科技大学 基于深度强化学习的无人机集群多目标搜索方法及系统
CN113093802B (zh) * 2021-04-03 2022-08-02 西北工业大学 一种基于深度强化学习的无人机机动决策方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN112435275A (zh) * 2020-12-07 2021-03-02 中国电子科技集团公司第二十研究所 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法

Also Published As

Publication number Publication date
CN113625569A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN111240353B (zh) 基于遗传模糊树的无人机协同空战决策方法
Yang et al. UAV air combat autonomous maneuver decision based on DDPG algorithm
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN113268081B (zh) 一种基于强化学习的小型无人机防控指挥决策方法及系统
CN111859541B (zh) 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN114510078B (zh) 一种基于深度强化学习的无人机机动规避决策方法
CN113625740B (zh) 一种基于迁移学习鸽群优化的无人机空战博弈方法
CN113159266B (zh) 基于麻雀搜索神经网络的空战机动决策方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
Lee et al. Autonomous control of combat unmanned aerial vehicles to evade surface-to-air missiles using deep reinforcement learning
CN113741500B (zh) 仿哈里斯鹰智能捕食优化的无人机空战机动决策方法
CN114444201A (zh) 基于贝叶斯网络的对地攻击无人机自主能力评估方法
CN114638339A (zh) 基于深度强化学习的智能体任务分配方法
Li et al. Autonomous air combat decision‐making of UAV based on parallel self‐play reinforcement learning
Yuan et al. Research on UCAV maneuvering decision method based on heuristic reinforcement learning
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
Kong et al. Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat
CN115097861B (zh) 一种基于cel-maddpg的多无人机围捕策略方法
CN116400726A (zh) 一种基于强化学习的旋翼无人机逃逸方法及系统
CN115457809A (zh) 对面支援场景下基于多智能体强化学习的航迹规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant