CN112906233A - 基于认知行为知识的分布式近端策略优化方法及其应用 - Google Patents

基于认知行为知识的分布式近端策略优化方法及其应用 Download PDF

Info

Publication number
CN112906233A
CN112906233A CN202110249707.6A CN202110249707A CN112906233A CN 112906233 A CN112906233 A CN 112906233A CN 202110249707 A CN202110249707 A CN 202110249707A CN 112906233 A CN112906233 A CN 112906233A
Authority
CN
China
Prior art keywords
cognitive behavior
agent
knowledge
strategy
cognitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110249707.6A
Other languages
English (en)
Other versions
CN112906233B (zh
Inventor
黄健
陈浩
李嘉祥
刘权
龚建兴
韩润海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110249707.6A priority Critical patent/CN112906233B/zh
Publication of CN112906233A publication Critical patent/CN112906233A/zh
Application granted granted Critical
Publication of CN112906233B publication Critical patent/CN112906233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Computational Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Medical Informatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于认知行为知识的分布式近端策略优化方法及其应用,方法包括以下步骤:采用认知行为知识建立Agent的认知行为模型,并将该认知行为模型引入深度强化学习,构建基于认知行为知识的深度强化学习框架;基于上述深度强化学习框架,提出基于认知行为知识的分布式近端策略优化算法;定量化设计认知行为模型对Agent策略更新的引导方式,实现Agent在认知行为知识基础上持续学习。本发明提出的方法可以有效利用认知行为知识,并在此基础上进行策略更新,从而提高Agent的学习效率。

Description

基于认知行为知识的分布式近端策略优化方法及其应用
技术领域
本发明涉及深度强化学习技术领域,具体涉及一种基于认知行为知识的分布式近端策略优化方法及其在空战机动决策中的应用。
背景技术
近年来,深度强化学习在视频游戏、交通信号灯控制、机器人等领域取得了广泛应用。然而,强化学习算法需要大量的采样并通过试错的方式不断优化Agent的策略。但是,巨大的采样复杂度限制了强化学习算法在实际问题中的应用,而运用已有的认知行为知识加速Agent策略学习是解决上述问题的有效手段。
人类与学习型Agent在认知水平、认知方式以及行为方式上存在较大差异,将人的认知行为知识描述为人和Agent可以相互理解的形式并实现高效的认知行为知识融合非常困难。为提升学习效率,在学习过程中,需要将人的认知行为知识介入深度强化学习,进而在跨认知层次上实现相互补充,其本质是协调先验认知行为知识和学习的关系。因此,如何利用Agent系统的表示方法,将认知行为知识描述为形式化的、可被Agent理解的认知行为模型,同时在此基础上,将认知行为模型融入深度强化学习,使Agent实现认知行为之上的再学习是强化学习中需要解决的难题。
发明内容
本发明要解决的技术问题是克服现有技术的不足而提供一种基于认知行为知识的分布式近端策略优化方法及其应用,以合理有效地利用已有的先验知识加速多Agent系统学习。
为解决上述技术问题,本发明的内容包括:
基于认知行为知识的分布式近端策略优化方法,包括以下步骤:
S1.采用认知行为知识建立Agent的认知行为模型,并将该认知行为模型引入深度强化学习,构建基于认知行为知识的深度强化学习框架;
S2.对于上述深度强化学习框架,构建基于认知行为知识的分布式近端策略优化算法;
S3.定量化设计认知行为模型对Agent策略更新的引导方式,实现Agent在认知行为知识基础上持续学习。
进一步的,所述步骤S1中,所述Agent的认知行为模型以当前的环境信息作为状态输入,通过知识集理解当前状态,并修改自身的信念集和任务集,在此基础上,结合行为规则集做出决策,输出宏动作;所述宏动作是一系列原子动作合成的更高层次动作。
进一步的,所述步骤S1中,采用基于BDI的GOAL编程语言构建Agent的认知行为模型,采用Prolog语言描述认知行为模型的内部状态,以知识集代表一般性的概念以及领域内的知识,并将知识集应用于信念集和任务集,信念集和任务集分别代表认知行为模型对当前时刻环境的认识和Agent最终要达到的目标;动作空间中的动作以STRIPS语言描述,Agent执行动作后,环境发生改变,认知行为模型通过感知环境发生改变的事件,进而修改信念集和任务集;行为规则集具有beliefs+goals=>action的形式,利用if-then和forall语句实现;行为选择是基于知识集、信念集、任务集和当前状态的规则系统。
进一步的,所述步骤S2中,所述基于认知行为知识的分布式近端策略优化算法是将认知行为模型融入分布式近端策略优化算法的目标函数,将认知行为知识作为启发信息,用于指导强化学习前期Agent的策略更新,随着时间步长的推进,逐渐摆脱对认知行为模型的依赖,转而完全依靠强化学习机制更新策略。
进一步的,在Agent与环境交互过程中,认知行为模型感知当前状态信息,通过其感知规则更新认知行为模型的信念集和任务集,综合考虑更新后的认知行为模型内部状态及其行为规则作出决策,向深度强化学习DPPO模块推荐宏动作;同时DPPO模块也与环境交互并感知当前状态信息,Agent综合当前DPPO的学习策略与认知行为模块推荐的宏动作作出决策,并从环境获得反馈信号。
进一步的,在策略更新阶段,Agent考虑当前策略与认知行为模型推荐策略的差异,在更新Actorclip loss的同时不断缩小与认知行为策略的差距,随着学习步长的推进,逐渐减小对认知行为模型的依赖,在充分融合认知行为策略后转而进入完全强化学习阶段。
进一步的,所述步骤S3中,所述引导方式为:在当前状态下有可用的认知行为知识时,Agent每次迭代时按照一定程度,缩小当前策略与认知行为策略之间的差距;当前状态没有可用的认知行为知识时,Agent按照强化学习算法更新策略。
进一步的,所述步骤S3中,所述基于认知行为知识的分布式近端策略优化算法中,Actor的目标函数LActor(θ)包括不考虑认知行为模型时的损失函数LCLIP(θ)和由当前策略π(θ)与认知行为策略πcog(θ)不一致而导致的差异Lcog(θ):
LActor(θ)=LCLIP(θ)-f(t)Lcog(θ)
式中,θ为Actor的参数;
Figure BDA0002965479310000021
式中,clip为值域为[1-ε,1+ε]的截断函数,∈∈(0,1),rt(θ)表示新旧策略的概率比,表示为
Figure BDA0002965479310000031
其中,πθ表示Agent的策略,
Figure BDA0002965479310000032
表示Agent上一更新时刻的策略;
Figure BDA0002965479310000033
表示t时刻相对优势函数的估计;
Lcog(θ)采用KL散度衡量当前策略π(θ)与认知行为策略πcog(θ)的差异,表示为:
Lcog(θ)=DKLcog(θ)||π(θ))
f(t)为Lcog(θ)的折扣因子,形式化表示为
Figure BDA0002965479310000034
其中c2为超参;
Critic的损失函数表示为:
Figure BDA0002965479310000035
式中,θv为Critic的参数。
基于认知行为知识的分布式近端策略优化方法在空战机动决策中的应用,包括以下步骤:
P1.构建三维空战空间中具有六自由度的无人战斗机Agent的动力学模型和运动学模型:
Figure BDA0002965479310000036
Figure BDA0002965479310000037
Figure BDA0002965479310000038
Figure BDA0002965479310000039
式中,g=9.81m/s2为重力常数,ηx为切向过载,ηf为法向过载,γ为航迹倾角,μ为滚转角,ψ为航迹偏角,vgx为x轴速度,vgy为y轴速度,vgz为z轴速度;通过对战斗机切向过载ηx,法向过载ηf以及滚转角μ的控制即可实现对其轨迹和姿态控制;
P2.确定战斗机Agent的原子动作;
P3.确定认知行为知识,构建基于GOAL的认知行为模型:将由战斗机Agent的原子动作组合成的典型战术机动动作构成Agent的宏动作集合,构建Agent的认知行为知识;
P4.在三维空战空间中,选取一个11维的状态向量
Figure BDA00029654793100000310
描述敌我双方战斗机当前时刻的态势信息,作为基于认知行为知识的分布式近端策略优化算法的态势信息输入;其中,qr为偏离角,表示我方战斗机速度矢量与我敌战机质心连线的夹角,qb为脱离角,表示敌方战斗机速度矢量与敌我战机质心连线的夹角,
Figure BDA0002965479310000041
分别为偏离角和脱离角的在当前时刻的变化率,β为两机速度的夹角,d为两机质心之间的距离,h为我方战斗机高度,Δh为我敌战斗机高度差,v为我方战斗机速度,
Figure BDA0002965479310000047
为我方速度的变化率,Δv2为我敌双方速度的平方差;根据前述战斗机Agent的动力学模型和运动学模型,以上各参数由下式计算:
qr=arccos[(xb-xr)cosψrcosγr+(yb-yr)sinψrcosγr+(zb-zr)sinγr]/d
qb=arccos[(xr-xb)cosψbcosγb+(yr-yb)sinψbcosγb+(zr-zb)sinγb]/d
Figure BDA0002965479310000042
β=arccos(cosψr cosγr cosψb cosγb+sinψr cosγr sinψb cosγb+sinγr sinγb)
Δh=zr-zb
Figure BDA0002965479310000043
Figure BDA0002965479310000044
h=zr
式中,下标r代表我方战斗机参数,下标b代表敌方战斗机参数;航迹偏角ψ∈[-π,π]表示与x轴的夹角,逆时针偏转为正,顺时针偏转为负;航迹倾角γ表示与x-y平面的夹角,爬升时为正,俯冲时为负;
P5.设计总体回报函数:除环境反馈外,将战斗机的实时态势优势作为总体回报函数构成的一部分,即在对抗过程中实时计算战斗机间的角度优势、距离优势、速度优势、高度优势,然后依权重合成该时刻最终态势优势作为回报反馈给学习Agent。
进一步的,所述步骤P5中,
(一)设计态势优势回报函数
(1)角度优势函数为:
Figure BDA0002965479310000045
(2)距离优势函数为:
Figure BDA0002965479310000046
式中,wop为机载武器最佳射程,σw为机载武器最佳攻击射程标准差,d为两机质心的距离。当两机的距离小于机载武器最佳射程时,距离优势为1,否则距离优势呈指数下降。
(3)速度优势函数为:
Figure BDA0002965479310000051
式中,
Figure BDA0002965479310000052
为我方最佳速度,
Figure BDA0002965479310000053
与敌方速度、机载武器射程之间的关系为:
Figure BDA0002965479310000054
式中,vb为敌机速度,d为两机质心的距离,vmax为战斗机最大速度,wop为机载武器最佳射程;
当两机的距离小于等于机载武器最佳射程,尾追态势下与敌机速度相同时,我方速度优势函数最大,否则我机应适当加速以缩小与敌机的距离,使得两机质心距离接近机载武器最佳射程。
(4)高度优势函数为:
Figure BDA0002965479310000055
式中,hop为最佳攻击高度,σh为最佳攻击高度标准差;
(5)将以上态势优势函数依权重合成,获得我方战斗机的整体态势优势,构造的态势优势合成函数为:
fsituation(fa,fd,fv,fh)=ωafadfdvfvhfh
式中,ωadvh=1,ωadvh分别为角度优势、距离优势、速度优势和高度优势的权重;
(二)设计对抗环境回报函数
充分考虑战斗机的动力学特性和运动学特性约束,最终设计的对抗环境回报函数为:
Figure BDA0002965479310000061
(三)设计总体回报函数
综合考虑对抗环境回报和态势优势回报,设计总体回报函数为:
r=fenv+c3·fsituation(fa,fd,fv,fh)
式中,fenv为环境回报,fsituation为态势优势回报,c3为调节参数,用于调整态势优势回报在总体回报中的占比。
本发明的有益效果是:
现有深度强化学习算法对高效采样的需求限制了其在复杂实际问题中的应用,特别是面对状态-动作空间复杂的多Agent系统时,仅依靠深度强化学习算法从零学习最优策略十分困难,而合理有效地利用已有的先验知识是加速多Agent系统学习的有效手段。本发明提出了一种基于认知行为知识的分布式近端策略优化方法,将人的认知行为知识融入Agent强化学习框架中引导策略收敛。本发明首先采用基于BDI(Belief-Desire-Intention)的建模框架,将认知行为知识描述为人和Agent之间相互可理解的形式;并在此基础上,将构建的认知行为模型引入深度强化学习,提出一种基于认知行为知识的深度强化学习框架;其次基于该框架,提出了基于认知行为知识的分布式近端策略优化算法;当有可用的认知行为知识时,Agent不断缩小当前策略与认知行为知识间的差距,逼近认知行为策略;当没有可用的认知行为知识时,Agent仅依靠强化学习算法优化其策略。然后本发明定量化设计了认知行为模型对Agent策略更新的引导方式。本发明最后通过空战机动实验验证了本发明提出的方法可以有效利用认知行为知识,并在此基础上进行策略更新,从而提高Agent的学习效率。
附图说明
图1是本发明基于认知行为模型的深度强化学习框架;
图2是基于GOAL的认知行为模型与环境交互的过程;
图3是GOAL更新信念集和目标集示意图;
图4是基于认知行为知识的分布式近端策略优化算法COG-DPPO;
图5是无人战斗机七种基本战机机动动作示意图;
图6是无人战斗机战斗转弯动作示意图;
图7是空战机动态势输入信息示意图;
图8是空战机动中四种基本初始化态势示意图;
图9是以我机劣势为初始态势时DPPO算法学习后对抗轨迹及态势优势曲线;
图10是以我机劣势为初始态势时COG-DPPO算法学习后对抗轨迹及态势优势曲线。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提出的基于认知行为知识的分布式近端策略优化方法包括以下步骤:
S1.采用认知行为知识建立Agent的认知行为模型,并将该认知行为模型引入深度强化学习,构建基于认知行为知识的深度强化学习框架。基于认知行模型的深度强化学习框架如图1所示。基于GOAL的认知行为模型与环境交互的过程如图2所示。本发明采用统一的Agent建模方法,将知识、信念、意图、规则等要素表示为多Agent之间相互可理解的形式。在此基础上,将Agent的认知行为模型引入深度强化学习框架,解决强化学习冷启动的问题。
采用基于BDI的GOAL编程语言构建Agent的认知行为模型,采用Prolog语言描述认知行为模型的内部状态,以知识集代表一般性的概念以及领域内的知识,并将知识集应用于信念集和任务集,信念集和任务集分别代表认知行为模型对当前时刻环境的认识和Agent最终要达到的目标;动作空间中的动作以STRIPS语言描述,Agent执行动作后,环境发生改变,认知行为模型通过感知环境发生改变的事件,进而修改信念集和任务集;行为规则集具有beliefs+goals=>action的形式,利用if-then和for all语句实现;行为选择是基于知识集、信念集、任务集和当前状态的规则系统。
Agent的认知行为模型以当前的环境信息作为状态输入,通过知识集理解当前状态,并修改自身的信念集和任务集,在此基础上,结合行为规则集做出决策,输出宏动作;所述宏动作是一系列原子动作合成的更高层次动作。例如,导弹发射这个宏动作可以分解为填弹、瞄准、启动等一系列原子动作的组合。对于信念集(beliefs)和目标集(goals)的更新可以用分别用add()、delete()和adopt()、drop()内建函数实现增删。以木块世界为例,信念集和目标集的修改原理如图3所示。此外,GOAL支持由原子动作叠加而构成宏动作应用于某条规则中,其形式化表示为:if<mental_state_condition>then<action1>+<action2>+…。该规则中的原子动作从左至右依次执行。
S2.对于上述深度强化学习框架,构建基于认知行为知识的分布式近端策略优化算法。
分布式近端策略优化算法(Distributed Proximal Policy Optimization,DPPO)是PPO的分布式改进版本,其主要目的是为了更加有效地收集学习需要的数据。本发明以DPPO算法为基础,提出基于认知行为知识的分布式近端策略优化算法(Cognitive-basedDPPO,COG-DPPO),即将认知行为模型融入分布式近端策略优化算法的目标函数,将认知行为知识作为启发信息,用于指导强化学习前期Agent的策略更新,随着时间步长的推进,逐渐摆脱对认知行为模型的依赖,转而完全依靠强化学习机制更新策略。本发明用GOAL构建Agent的认知行为模型,并将其用于DPPO策略更新,COG-DPPO算法框架如图4所示。
结合图1和图4,说明COG-DPPO的基本工作流程:在Agent与环境交互过程中,认知行为模型感知当前状态信息,通过其感知规则更新认知行为模型的信念集和任务集,综合考虑更新后的认知行为模型内部状态(信念集和任务集)及其行为规则作出决策,向深度强化学习DPPO模块推荐宏动作;同时DPPO模块也与环境交互并感知当前状态信息,Agent综合当前DPPO的学习策略与认知行为模块推荐的宏动作作出决策,并从环境获得反馈信号。在策略更新阶段,Agent考虑当前策略与认知行为模型推荐策略的差异,在更新Actorcliploss的同时不断缩小与认知行为策略的差距,随着学习步长的推进,逐渐减小对认知行为模型的依赖,在充分融合认知行为策略后转而进入完全强化学习阶段。
S3.定量化设计认知行为模型对Agent策略更新的引导方式,实现Agent在认知行为知识基础上持续学习。
对于需要学习的任务,人的认知知识通常是不完备的,因此构建的认知行为模型并不能覆盖整个状态空间。另一方面,构建的认知行为知识并不一定都是正确的,Agent在学习过程中不能完全按照认知行为模型输出的宏动作更新策略,而应该能够根据环境反馈分辨出哪些认知行为知识是有利于策略学习的。因此,需要处理好不完备的认知行为知识与覆盖整个连续状态空间的策略之间的矛盾。即在当前状态下有可用的认知行为知识时,Agent每次迭代时按照一定程度,缩小当前策略与认知行为策略之间的差距;当前状态没有可用的认知行为知识时,Agent按照强化学习算法更新策略。
在COG-DPPO中,认知行为模型输出的宏动作构成在当前状态下的认知行为策略,其并不直接参与Agent动作选择,而是在Actor的策略更新阶段为其提供引导。具体来讲,Actor的目标函数LActor(θ)包括不考虑认知行为模型时的损失函数LCLIP(θ)和由当前策略π(θ)与认知行为策略πcog(θ)不一致而导致的差异Lcog(θ),Lcog(θ)可以看作由于认知行为模型而引入的监督信号,以一定程度引导Agent的策略更新。综上,COG-DPPO中Actor的目标函数LActor(θ)表示为:
LActor(θ)=LCLIP(θ)-f(t)Lcog(θ)
式中,θ为Actor的参数。
Figure BDA0002965479310000091
式中,clip为值域为[1-ε,1+ε]的截断函数,∈∈(0,1),rt(θ)表示新旧策略的概率比,表示为
Figure BDA0002965479310000092
其中,πθ表示Agent的策略,
Figure BDA0002965479310000093
表示Agent上一更新时刻的策略;
Figure BDA0002965479310000094
表示t时刻相对优势函数的估计。
Lcog(θ)采用KL散度衡量当前策略π(θ)与认知行为策略πcog(θ)的差异,表示为:
Lcog(θ)=DKLcog(θ)||π(θ))
f(t)为Lcog(θ)的折扣因子,形式化表示为
Figure BDA0002965479310000095
其中c2为超参;随着学习进度的推进,f(t)逐渐减小,从而使得Actor的策略更新逐渐脱离认知行为模型的引导,而由LCLIP(θ)逐渐占据策略更新的主导地位。
Actor策略的更新采用随机梯度上升的方式,从而实现最大化的LActor。Critic的更新方式与DPPO类似,其损失函数表示为:
Figure BDA0002965479310000096
式中,θv为Critic的参数。
本发明还提出了基于认知行为知识的分布式近端策略优化方法在空战机动决策中的应用,包括以下步骤:
P1.构建三维空战空间中具有六自由度的无人战斗机Agent的动力学模型和运动学模型。
空战机动的主要目标是获取相对优势态势,本发明在不影响相关理论研究的前提下,对无人战斗机进行合理简化,构建出三维空战空间中具有六自由度的战斗机模型。
Figure BDA0002965479310000101
Figure BDA0002965479310000102
Figure BDA0002965479310000103
Figure BDA0002965479310000104
式中,g=9.81m/s2为重力常数,ηx为切向过载,ηf为法向过载,γ为航迹倾角,μ为滚转角,ψ为航迹偏角,vgx为x轴速度,vgy为y轴速度,vgz为z轴速度;通过对战斗机切向过载ηx,法向过载ηf以及滚转角μ的控制即可实现对其轨迹和姿态控制;
P2.确定Agent的原子动作。
美国太空总署(NASA)将飞机的机动方式分解为七种基本战机机动动作(BasicFighter Maneuvers,BFM),如图5所示,分别是左转弯飞行c1、加速飞行c2、保持当前状态c3、减速飞行c4、右转弯飞行c5、仰起飞行c6以及俯冲飞行c7。BFM是指在空战机动中战斗机为获得相对于对手有利位置采取战术级动作。以这七种基本战机机动动作为战斗机Agent的原子动作。
依照前述建模过程,对战斗机的轨迹和姿态控制可以转化为对切向过载ηx,法向过载ηf和滚转角μ的控制。本发明的研究重点是通过深度强化学习算法得到智能化博弈对抗策略,以这七个基本战机机动动作构成战斗机的离散动作空间,每个基本战机机动动作都使用最大过载,各个基本战机机动动作与控制量之间的关系如下表所示:
Figure BDA0002965479310000105
P3.确定认知行为知识,构建基于GOAL的认知行为模型:将由战斗机Agent的原子动作组合成的典型战术机动动作构成Agent的宏动作集合,构建Agent的认知行为知识;
本算例仅选用了少量的认知行为知识构建认知行为模型,一方面是因为本算例的主要目的在于验证COG-DPPO可以在学习中融合认知行为知识,在此基础上学习对抗策略;另一方面是要验证其在仅有部分可用认知行为知识前提下的学习能力。如果融合过多的认知行为知识,最后的学习效果可能会不够明显。
原子动作可以组合成更为复杂的典型战术机动动作,例如低速Yo-Yo、高速Yo-Yo、半滚倒转、殷麦曼回转(Immelmann Turn)等。这些典型的机动动作构成了Agent的宏动作集合,可以用于构建Agent的认知行为知识。以殷麦曼回转为例,该宏动作可以分解为水平飞行、半圈爬升、180°横滚三个子动作。
以战斗转弯为例说明构建如何构建基于GOAL的认知行为模型。战斗转弯是在实战中常用的典型空战机动动作,其主要作用是当敌方尾后我方,敌我双方的航向基本一致时,我方为了迅速摆脱敌方跟踪并尝试获取优势态势位置的机动动作。战斗转弯的具体过程如图6所示。
用GOAL编程语言实现的战斗转弯对应的认知行为模型可以表示为:
Figure BDA0002965479310000111
P4.在三维空战空间中,选取一个11维的状态向量
Figure BDA0002965479310000121
描述敌我双方战斗机当前时刻的态势信息,作为基于认知行为知识的分布式近端策略优化算法的态势信息输入;其中,qr为偏离角,表示我方战斗机速度矢量与我敌战机质心连线的夹角,qb为脱离角,表示敌方战斗机速度矢量与敌我战机质心连线的夹角,
Figure BDA0002965479310000125
分别为偏离角和脱离角的在当前时刻的变化率,β为两机速度的夹角,d为两机质心之间的距离,h为我方战斗机高度,Δh为我敌战斗机高度差,v为我方战斗机速度,
Figure BDA0002965479310000126
为我方速度的变化率,Δv2为我敌双方速度的平方差;各状态变量的关系如图7所示。
根据前述战斗机Agent的动力学模型和运动学模型,以上各参数由下式计算:
qr=arccos[(xb-xr)cosψrcosγr+(yb-yr)sinψrcosγr+(zb-zr)sinγr]/d
qb=arccos[(xr-xb)cosψbcosγb+(yr-yb)sinψbcosγb+(zr-zb)sinγb]/d
Figure BDA0002965479310000122
β=arccos(cosψr cosγr cosψb cosγb+sinψr cosγr sinψb cosγb+sinγr sinγb)
Δh=zr-zb
Figure BDA0002965479310000123
Figure BDA0002965479310000124
h=zr
式中,下标r代表我方战斗机参数,下标b代表敌方战斗机参数;航迹偏角ψ∈[-π,π]表示与x轴的夹角,逆时针偏转为正,顺时针偏转为负;航迹倾角γ表示与x-y平面的夹角,爬升时为正,俯冲时为负;
P5.设计总体回报函数。
由于本发明采用深度强化学习机制,通过不断试错与环境交互,迭代更新Agent的策略,因而回报函数对算法的收敛速度和学习效果至关重要,不合理的回报函数可能导致算法不收敛。此外,对抗环境往往都存在状态空间连续、维度大等问题,单纯依靠对抗结果作为回报函数的设计标准会导致回报稀疏的问题,从而导致算法收敛困难。为解决上述难题,除环境反馈外,将战斗机的实时态势优势作为总体回报函数构成的一部分。具体来讲,在对抗过程中实时计算战斗机间的角度优势、距离优势、速度优势、高度优势,然后依权重合成该时刻最终态势优势作为回报反馈给学习Agent。
(一)设计态势优势回报函数
(1)在空战机动决策中,尾追态势对我方来说是优势态势,相向飞行或背向飞行属于均势,而被追时则处于劣势。对于图7所示的对抗态势来说,偏离角qr越小,脱离角qb越大,则越接近尾追态势,我方的角度优势越大。因此,构造的角度优势函数为:
Figure BDA0002965479310000131
(2)两机的距离是确定态势优劣的关键因素,本发明主要考虑战斗机机载武器的攻击范围与两机距离之间的大小关系,两机的距离越接近武器的最优攻击范围,距离优势函数越大,构造的距离优势函数为:
Figure BDA0002965479310000132
式中,wop为机载武器最佳射程,σw为机载武器最佳攻击射程标准差,d为两机质心的距离。当两机的距离小于机载武器最佳射程时,距离优势为1,否则距离优势呈指数下降。
(3)速度优势主要考虑敌我双方当前时刻的速度以及敌我双方的距离和机载武器的射程等因素。速度优势函数为:
Figure BDA0002965479310000133
式中,
Figure BDA0002965479310000134
为我方最佳速度。
Figure BDA0002965479310000135
与敌方速度、机载武器射程之间的关系为:
Figure BDA0002965479310000136
式中,vb为敌机速度,d为两机质心的距离,vmax为战斗机最大速度,wop为机载武器最佳射程;当两机的距离小于等于机载武器最佳射程,尾追态势下与敌机速度相同时,我方速度优势函数最大,否则我机应适当加速以缩小与敌机的距离,使得两机质心距离接近机载武器最佳射程。
(4)空战机动中,在敌机上方为优势态势,本发明依据定义的最佳攻击高度hop和最佳攻击高度标准差σh,定义高度优势函数为:
Figure BDA0002965479310000141
(5)上述四个态势优势函数的值域都为[0,1],分别从单一的态势要素片面描述了我机的态势优势,此外,不同态势下,各态势要素对整体空战态势的影响也不相同,要获得我方战斗机的整体态势优势需将以上态势优势函数依权重合成,构造的态势优势合成函数为:
fsituation(fa,fd,fv,fh)=ωafadfdvfvhfh
式中,ωadvh=1,ωadvh分别为角度优势、距离优势、速度优势和高度优势的权重,其在不同的对抗态势下所占的权重不同。
(二)设计对抗环境回报函数
对抗环境对于学习型Agent的回报主要考虑战斗机是否达到开火条件,也就是获得了最终对抗态势优势。以我方战斗机为例,根据确定的态势输入,当我方战斗机速度矢量与我敌质心的连线构成的偏离角qr小于30°,敌机速度矢量与敌我质心连线的夹角qb大于120°,两机速度的夹角β小于45°,两机质心间的距离d小于1500m时,我方获得开火机会,在空战机动对抗环境中获得正向奖励;相反,当敌方战斗机获得开火机会时,我方从对抗环境获得负向奖励。此外,本发明充分考虑战斗机的动力学特性和运动学特性约束,最终设计的对抗环境回报函数为:
Figure BDA0002965479310000142
即当我方战斗机超速(>300m/s)或失速(<80m/s),超过允许最大高度(18000m)或小于最低高度(200m)时,从对抗环境中获得负向奖励。
(三)设计总体回报函数
综合考虑对抗环境回报和态势优势回报,本发明设计的总体回报函数为:
r=fenv+c3·fsituation(fa,fd,fv,fh)
式中,fenv为环境回报,fsituation为态势优势回报,c3为调节参数,用于调整态势优势回报在总体回报中的占比。
将实时态势优势引入总体回报函数设计,有效解决了空战机动中状态空间巨大、连续所导致的回报稀疏问题。在空战机动对抗学习过程中,环境仅在关键态势有反馈,态势优势函数可以有效引导Agent朝着优势态势演化策略。
实验设计与结果分析:
将空战机动对抗限定在200km×200km×20km的三维空战空间内,敌我双方的战斗机都采用前述的动力学模型和运动学模型,且二者参数一致。对抗过程中,我方采用本发明提出的方法,敌方每一决策时刻都依据当前态势下进行一步规划,并采取使得合成态势优势函数fsituation增大的动作,如有多个这样的动作存在,则等概率随机从中选取。若没有使得fsituation增大的动作存在,则从基本战机机动动作中等概率随机选取一个作为当步决策。每次实验进行50万个回合,每个回合结束的条件依据步骤三环境回报函数设定,回合结束条件与环境回报的对应关系为:
Figure BDA0002965479310000151
我方达到开火条件,我方获得环境回报10;
Figure BDA0002965479310000152
敌方达到开火条件,我方获得环境回报-10;
Figure BDA0002965479310000153
我方战斗机失速或超速,我方获得环境回报-10;
Figure BDA0002965479310000154
我方战斗机超过最大允许高度或小于最低允许高度,我方获得环境回报-10;
Figure BDA0002965479310000155
我方战斗机超出限定空战机动环境,我方获得环境回报-10;
Figure BDA0002965479310000156
敌方战斗机超出限定空战机动环境,我方获得环境回报0;
Figure BDA0002965479310000157
双方格斗时间超过仿真时间500s,我方获得环境回报0。
从我机的角度来讲,空战机动双方战斗机初始化态势基本可以分为四类,如图8所示,分别为χ1:我机处于优势,χ2:我机处于劣势,χ3:双方中立,χ4:双方不利。
以图8-(b)所示的位置关系作为初始态势,此时,我机处于被追击的不利态势,在该情况下,我方应首先摆脱敌方的追击,再争取可以攻击的位置。因此,在被追击的态势下获得开火机会更为困难。红蓝双方的初始位置坐标分别为[110000,100000,5000],[105000,100000,5000],双方初始速度为200m/s,初始滚转角、航迹倾角、航迹偏角都为0°,每次决策的时间间隔为1s。敌方每次决策以获取最大优势态势为目的。在本实验中,我方分别采用DPPO和COG-DPPO两种算法,当两机距离大于3km时,角度优势、距离优势、速度优势和高度优势的权重为ωa=0.3,ωd=0.3,ωv=0.25,ωh=0.15,当两机距离小于3km时,各权重设置为ωa=0.4,ωd=0.3,ωv=0.15,ωh=0.15。
DPPO经50万个回合后仍不能学习到最优对抗策略。用其学习后的模型对抗敌方战斗机(敌方策略为每次决策获取最大态势优势)的轨迹及双方对应的态势优势曲线如图9所示,可以看出,三次对抗轨迹都以我机高于最大允许高度(18km)结束,三次对抗仿真时间都接近600s,我方战斗机没能在允许的时间、空间范围内获得可以开火的优势态势位置。由图9(a)-2、9(b)-2和9(c)-2可以看出,在整个对抗过程中,我方战机都没能获取态势优势并获得开火机会。
从以上分析可见,单纯使用现有的深度强化学习算法难以解决我机初始时刻被尾追的情况。而使用本发明基于认知行为知识的深度强化学习算法COG-DPPO能够解决该问题。COG-DPPO算法经50万代训练后获得其策略模型。图10展示了八次以学习后的策略模型在被敌方尾后的初始态势下,对抗敌方战斗机(敌方策略为每次决策获取最大态势优势)的轨迹及双方对应的态势优势曲线。从图10的各态势优势曲线可以看出,由于我方处于被追击位,我机在初始阶段处于明显劣势,但在对抗过程中,我方逐渐在态势位置上扳回劣势,在对抗中期,双方的态势优势互有升降,说明空战机动过程中双方都在争取获得开火条件,但最终COG-DPPO训练的战斗机Agent获得了开火机会。
以上四次对抗的轨迹曲线可以明显看出,在对抗初始阶段,符合认知行为模型描述的战斗转弯态势要求,COG-DPPO也学习到了对应认知知识,在对抗开始时,便采用了如图6所示的战斗转弯,顺利地摆脱了敌机,并获得高度优势,迅速缩小态势优势差距。在此之后,COG-DPPO借助深度强化学习算法的学习能力,在认知行为模型的基础上继续学习最优对抗策略。图10中八次对抗的结束相对态势分别为:
Figure BDA0002965479310000161
(a)qr=4.4°,qb=132.1°,β=43.6°,d=1446.3m
Figure BDA0002965479310000162
(b)qr=29.2°,qb=142.2°,β=15.9°,d=1496.5m
Figure BDA0002965479310000163
(c)qr=25.5°,qb=139.0°,β=21.9°,d=838.1m
Figure BDA0002965479310000164
(d)qr=29.3°,qb=133.3°,β=23.9°,d=1363.3m
Figure BDA0002965479310000165
(e)qr=25.7°,qb=151.5°,β=25.5°,d=715.3m
Figure BDA0002965479310000166
(f)qr=26.5°,qb=129.2°,β=30.5°,d=1024.2m
Figure BDA0002965479310000167
(g)qr=27.9°,qb=153.5°,β=15.5°,d=1286.3m
Figure BDA0002965479310000171
(h)qr=22.6°,qb=146.9°,β=10.3°,d=1116.3m
综上,COG-DPPO可以在学习过程中融合认知行为模型,在满足认知行为知识的触发条件时,Agent不断缩小当前策略与认知行为策略在当前状态下的差距,向认知行为策略靠拢。在没有可用的认知行为知识时,COG-DPPO借助已有的学习经验,并在此基础上依靠深度强化学习框架优化其对抗策略。

Claims (10)

1.基于认知行为知识的分布式近端策略优化方法,其特征是,所述方法包括以下步骤:
S1.采用认知行为知识建立Agent的认知行为模型,并将该认知行为模型引入深度强化学习,构建基于认知行为知识的深度强化学习框架;
S2.对于上述深度强化学习框架,构建基于认知行为知识的分布式近端策略优化算法;
S3.定量化设计认知行为模型对Agent策略更新的引导方式,实现Agent在认知行为知识基础上持续学习。
2.如权利要求1所述的基于认知行为知识的分布式近端策略优化方法,其特征是,所述步骤S1中,所述Agent的认知行为模型以当前的环境信息作为状态输入,通过知识集理解当前状态,并修改自身的信念集和任务集,在此基础上,结合行为规则集做出决策,输出宏动作;所述宏动作是一系列原子动作合成的更高层次动作。
3.如权利要求2所述的基于认知行为知识的分布式近端策略优化方法,其特征是,所述步骤S1中,采用基于BDI的GOAL编程语言构建Agent的认知行为模型,采用Prolog语言描述认知行为模型的内部状态,以知识集代表一般性的概念以及领域内的知识,并将知识集应用于信念集和任务集,信念集和任务集分别代表认知行为模型对当前时刻环境的认识和Agent最终要达到的目标;动作空间中的动作以STRIPS语言描述,Agent执行动作后,环境发生改变,认知行为模型通过感知环境发生改变的事件,进而修改信念集和任务集;行为规则集具有beliefs+goals=>action的形式,利用if-then和for all语句实现;行为选择是基于知识集、信念集、任务集和当前状态的规则系统。
4.如权利要求1所述的基于认知行为知识的分布式近端策略优化方法,其特征是,所述步骤S2中,所述基于认知行为知识的分布式近端策略优化算法是将认知行为模型融入分布式近端策略优化算法的目标函数,将认知行为知识作为启发信息,用于指导强化学习前期Agent的策略更新,随着时间步长的推进,逐渐摆脱对认知行为模型的依赖,转而完全依靠强化学习机制更新策略。
5.如权利要求4所述的基于认知行为知识的分布式近端策略优化方法,其特征是,在Agent与环境交互过程中,认知行为模型感知当前状态信息,通过其感知规则更新认知行为模型的信念集和任务集,综合考虑更新后的认知行为模型内部状态及其行为规则作出决策,向深度强化学习DPPO模块推荐宏动作;同时DPPO模块也与环境交互并感知当前状态信息,Agent综合当前DPPO的学习策略与认知行为模块推荐的宏动作作出决策,并从环境获得反馈信号。
6.如权利要求5所述的基于认知行为知识的分布式近端策略优化方法,其特征是,在策略更新阶段,Agent考虑当前策略与认知行为模型推荐策略的差异,在更新Actorclip loss的同时不断缩小与认知行为策略的差距,随着学习步长的推进,逐渐减小对认知行为模型的依赖,在充分融合认知行为策略后转而进入完全强化学习阶段。
7.如权利要求1所述的基于认知行为知识的分布式近端策略优化方法,其特征是,所述步骤S3中,所述引导方式为:在当前状态下有可用的认知行为知识时,Agent每次迭代时按照一定程度,缩小当前策略与认知行为策略之间的差距;当前状态没有可用的认知行为知识时,Agent按照强化学习算法更新策略。
8.如权利要求1所述的基于认知行为知识的分布式近端策略优化方法,其特征是,所述步骤S3中,所述基于认知行为知识的分布式近端策略优化算法中,Actor的目标函数LActor(θ)包括不考虑认知行为模型时的损失函数LCLIP(θ)和由当前策略π(θ)与认知行为策略πcog(θ)不一致而导致的差异Lcog(θ):
LActor(θ)=LCLIP(θ)-f(t)Lcog(θ)
式中,θ为Actor的参数;
Figure FDA0002965479300000021
式中,clip为值域为[1-ε,1+ε]的截断函数,∈∈(0,1),rt(θ)表示新旧策略的概率比,表示为
Figure FDA0002965479300000022
其中,πθ表示Agent的策略,
Figure FDA0002965479300000023
表示Agent上一更新时刻的策略;
Figure FDA0002965479300000031
表示t时刻相对优势函数的估计;
Lcog(θ)采用KL散度衡量当前策略π(θ)与认知行为策略πcog(θ)的差异,表示为:
Lcog(θ)=DKLcog(θ)||π(θ))
f(t)为Lcog(θ)的折扣因子,形式化表示为
Figure FDA0002965479300000032
其中c2为超参;
Critic的损失函数表示为:
Figure FDA0002965479300000033
式中,θv为Critic的参数。
9.基于认知行为知识的分布式近端策略优化方法在空战机动决策中的应用,其特征是,包括以下步骤:
P1.构建三维空战空间中具有六自由度的无人战斗机Agent的动力学模型和运动学模型:
Figure FDA0002965479300000034
Figure FDA0002965479300000035
Figure FDA0002965479300000036
Figure FDA0002965479300000037
式中,g=9.81m/s2为重力常数,ηx为切向过载,ηf为法向过载,γ为航迹倾角,μ为滚转角,ψ为航迹偏角,vgx为x轴速度,vgy为y轴速度,vgz为z轴速度;通过对战斗机切向过载ηx,法向过载ηf以及滚转角μ的控制即可实现对其轨迹和姿态控制;
P2.确定战斗机Agent的原子动作;
P3.确定认知行为知识,构建基于GOAL的认知行为模型:将由战斗机Agent的原子动作组合成的典型战术机动动作构成Agent的宏动作集合,构建Agent的认知行为知识;
P4.在三维空战空间中,选取一个11维的状态向量
Figure FDA0002965479300000041
描述敌我双方战斗机当前时刻的态势信息,作为基于认知行为知识的分布式近端策略优化算法的态势信息输入;
其中,qr为偏离角,表示我方战斗机速度矢量与我敌战机质心连线的夹角,qb为脱离角,表示敌方战斗机速度矢量与敌我战机质心连线的夹角,
Figure FDA0002965479300000042
分别为偏离角和脱离角的在当前时刻的变化率,β为两机速度的夹角,d为两机质心之间的距离,h为我方战斗机高度,Δh为我敌战斗机高度差,v为我方战斗机速度,
Figure FDA0002965479300000043
为我方速度的变化率,Δv2为我敌双方速度的平方差;根据前述战斗机Agent的动力学模型和运动学模型,以上各参数由下式计算:
qr=arccos[(xb-xr)cosψrcosγr+(yb-yr)sinψrcosγr+(zb-zr)sinγr]/d
qb=arccos[(xr-xb)cosψbcosγb+(yr-yb)sinψbcosγb+(zr-zb)sinγb]/d
Figure FDA0002965479300000044
β=arccos(cosψrcosγrcosψbcosγb+sinψrcosγrsinψbcosγb+sinγrsinγb)
Δh=zr-zb
Figure FDA0002965479300000045
Figure FDA0002965479300000046
h=zr
式中,下标r代表我方战斗机参数,下标b代表敌方战斗机参数;航迹偏角ψ∈[-π,π]表示与x轴的夹角,逆时针偏转为正,顺时针偏转为负;航迹倾角γ表示与x-y平面的夹角,爬升时为正,俯冲时为负;
P5.设计总体回报函数:除环境反馈外,将战斗机的实时态势优势作为总体回报函数构成的一部分,即在对抗过程中实时计算战斗机间的角度优势、距离优势、速度优势、高度优势,然后依权重合成该时刻最终态势优势作为回报反馈给学习Agent。
10.如权利要求9所述的基于认知行为知识的分布式近端策略优化方法在空战机动决策中的应用,其特征是,所述步骤P5中,
(一)设计态势优势回报函数
(1)角度优势函数为:
Figure FDA0002965479300000051
(2)距离优势函数为:
Figure FDA0002965479300000052
式中,wop为机载武器最佳射程,σw为机载武器最佳攻击射程标准差,d为两机质心的距离。当两机的距离小于机载武器最佳射程时,距离优势为1,否则距离优势呈指数下降。
(3)速度优势函数为:
Figure FDA0002965479300000053
式中,
Figure FDA0002965479300000054
为我方最佳速度,
Figure FDA0002965479300000055
与敌方速度、机载武器射程之间的关系为:
Figure FDA0002965479300000056
式中,vb为敌机速度,d为两机质心的距离,vmax为战斗机最大速度,wop为机载武器最佳射程;
当两机的距离小于等于机载武器最佳射程,尾追态势下与敌机速度相同时,我方速度优势函数最大,否则我机应适当加速以缩小与敌机的距离,使得两机质心距离接近机载武器最佳射程。
(4)高度优势函数为:
Figure FDA0002965479300000057
式中,hop为最佳攻击高度,σh为最佳攻击高度标准差;
(5)将以上态势优势函数依权重合成,获得我方战斗机的整体态势优势,构造的态势优势合成函数为:
fsituation(fa,fd,fv,fh)=ωafadfdvfvhfh
式中,ωadvh=1,ωadvh分别为角度优势、距离优势、速度优势和高度优势的权重;
(二)设计对抗环境回报函数
充分考虑战斗机的动力学特性和运动学特性约束,最终设计的对抗环境回报函数为:
Figure FDA0002965479300000061
(三)设计总体回报函数
综合考虑对抗环境回报和态势优势回报,设计总体回报函数为:
r=fenv+c3·fsituation(fa,fd,fv,fh)
式中,fenv为环境回报,fsituation为态势优势回报,c3为调节参数,用于调整态势优势回报在总体回报中的占比。
CN202110249707.6A 2021-03-08 2021-03-08 基于认知行为知识的分布式近端策略优化方法及其应用 Active CN112906233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110249707.6A CN112906233B (zh) 2021-03-08 2021-03-08 基于认知行为知识的分布式近端策略优化方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110249707.6A CN112906233B (zh) 2021-03-08 2021-03-08 基于认知行为知识的分布式近端策略优化方法及其应用

Publications (2)

Publication Number Publication Date
CN112906233A true CN112906233A (zh) 2021-06-04
CN112906233B CN112906233B (zh) 2023-04-18

Family

ID=76107964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110249707.6A Active CN112906233B (zh) 2021-03-08 2021-03-08 基于认知行为知识的分布式近端策略优化方法及其应用

Country Status (1)

Country Link
CN (1) CN112906233B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554166A (zh) * 2021-06-16 2021-10-26 中国人民解放军国防科技大学 认知行为模型加速的深度q网络强化学习方法及设备
CN113741186A (zh) * 2021-08-22 2021-12-03 西北工业大学 一种基于近端策略优化的双机空战决策方法
CN113962012A (zh) * 2021-07-23 2022-01-21 中国科学院自动化研究所 无人机对抗策略优化方法及装置
CN113962032A (zh) * 2021-12-21 2022-01-21 中国科学院自动化研究所 空战机动决策方法及装置
CN117192982A (zh) * 2023-08-28 2023-12-08 四川大学 基于控制参数化的近距空战机动决策优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203693A1 (en) * 2002-05-22 2007-08-30 Estes Timothy W Knowledge Discovery Agent System and Method
US20120254200A1 (en) * 2011-04-01 2012-10-04 Zvi Lifshitz User behavior based cognitive engine for data objects
EP3340115A1 (en) * 2016-12-21 2018-06-27 Fujitsu Limited A system and method to predict the path of moving objects
CN109447140A (zh) * 2018-10-19 2019-03-08 广州四十五度科技有限公司 一种基于神经网络深度学习的图像识别并推荐认知的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203693A1 (en) * 2002-05-22 2007-08-30 Estes Timothy W Knowledge Discovery Agent System and Method
US20120254200A1 (en) * 2011-04-01 2012-10-04 Zvi Lifshitz User behavior based cognitive engine for data objects
EP3340115A1 (en) * 2016-12-21 2018-06-27 Fujitsu Limited A system and method to predict the path of moving objects
CN109447140A (zh) * 2018-10-19 2019-03-08 广州四十五度科技有限公司 一种基于神经网络深度学习的图像识别并推荐认知的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈浩等: "空战机动中多智能体协同对抗问题研究", 《第八届中国指挥控制大会论文集》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554166A (zh) * 2021-06-16 2021-10-26 中国人民解放军国防科技大学 认知行为模型加速的深度q网络强化学习方法及设备
CN113962012A (zh) * 2021-07-23 2022-01-21 中国科学院自动化研究所 无人机对抗策略优化方法及装置
CN113962012B (zh) * 2021-07-23 2024-05-24 中国科学院自动化研究所 无人机对抗策略优化方法及装置
CN113741186A (zh) * 2021-08-22 2021-12-03 西北工业大学 一种基于近端策略优化的双机空战决策方法
CN113741186B (zh) * 2021-08-22 2023-08-18 西北工业大学 一种基于近端策略优化的双机空战决策方法
CN113962032A (zh) * 2021-12-21 2022-01-21 中国科学院自动化研究所 空战机动决策方法及装置
CN117192982A (zh) * 2023-08-28 2023-12-08 四川大学 基于控制参数化的近距空战机动决策优化方法
CN117192982B (zh) * 2023-08-28 2024-05-14 四川大学 基于控制参数化的近距空战机动决策优化方法

Also Published As

Publication number Publication date
CN112906233B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN112906233B (zh) 基于认知行为知识的分布式近端策略优化方法及其应用
CN112947581B (zh) 基于多智能体强化学习的多无人机协同空战机动决策方法
CN112902767B (zh) 一种多弹时间协同的导弹制导方法及系统
CN110928329B (zh) 一种基于深度q学习算法的多飞行器航迹规划方法
CN113791634A (zh) 一种基于多智能体强化学习的多机空战决策方法
Wang et al. Improving maneuver strategy in air combat by alternate freeze games with a deep reinforcement learning algorithm
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN114063644B (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN114489144A (zh) 无人机自主机动决策方法、装置及无人机
CN113282100A (zh) 基于强化学习的无人机对抗博弈训练控制方法
CN115688268A (zh) 一种飞行器近距空战态势评估自适应权重设计方法
CN114721424A (zh) 一种多无人机协同对抗方法、系统以及存储介质
Zhou et al. Learning system for air combat decision inspired by cognitive mechanisms of the brain
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
Yuan et al. Research on UCAV maneuvering decision method based on heuristic reinforcement learning
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
CN114167756B (zh) 多无人机协同空战决策自主学习及半实物仿真验证方法
Kong et al. Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat
Jiang et al. A novel decision-making algorithm for beyond visual range air combat based on deep reinforcement learning
CN116432030A (zh) 一种基于深度强化学习的空战多意图策略自主生成方法
CN116468121A (zh) 基于通用经验博弈强化学习的多机空战决策方法
CN114706418A (zh) 基于深度强化学习td3算法的无人机格斗自主决策方法
Wang et al. Research on autonomous decision-making of UCAV based on deep reinforcement learning
CN116679742B (zh) 一种多六自由度飞行器协同作战决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant