CN112906233A

CN112906233A - 基于认知行为知识的分布式近端策略优化方法及其应用

Info

Publication number: CN112906233A
Application number: CN202110249707.6A
Authority: CN
Inventors: 黄健; 陈浩; 李嘉祥; 刘权; 龚建兴; 韩润海
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-06-04
Anticipated expiration: 2041-03-08
Also published as: CN112906233B

Abstract

本发明公开了一种基于认知行为知识的分布式近端策略优化方法及其应用，方法包括以下步骤：采用认知行为知识建立Agent的认知行为模型，并将该认知行为模型引入深度强化学习，构建基于认知行为知识的深度强化学习框架；基于上述深度强化学习框架，提出基于认知行为知识的分布式近端策略优化算法；定量化设计认知行为模型对Agent策略更新的引导方式，实现Agent在认知行为知识基础上持续学习。本发明提出的方法可以有效利用认知行为知识，并在此基础上进行策略更新，从而提高Agent的学习效率。

Description

基于认知行为知识的分布式近端策略优化方法及其应用

技术领域

本发明涉及深度强化学习技术领域，具体涉及一种基于认知行为知识的分布式近端策略优化方法及其在空战机动决策中的应用。

背景技术

近年来，深度强化学习在视频游戏、交通信号灯控制、机器人等领域取得了广泛应用。然而，强化学习算法需要大量的采样并通过试错的方式不断优化Agent的策略。但是，巨大的采样复杂度限制了强化学习算法在实际问题中的应用，而运用已有的认知行为知识加速Agent策略学习是解决上述问题的有效手段。

人类与学习型Agent在认知水平、认知方式以及行为方式上存在较大差异，将人的认知行为知识描述为人和Agent可以相互理解的形式并实现高效的认知行为知识融合非常困难。为提升学习效率，在学习过程中，需要将人的认知行为知识介入深度强化学习，进而在跨认知层次上实现相互补充，其本质是协调先验认知行为知识和学习的关系。因此，如何利用Agent系统的表示方法，将认知行为知识描述为形式化的、可被Agent理解的认知行为模型，同时在此基础上，将认知行为模型融入深度强化学习，使Agent实现认知行为之上的再学习是强化学习中需要解决的难题。

发明内容

本发明要解决的技术问题是克服现有技术的不足而提供一种基于认知行为知识的分布式近端策略优化方法及其应用，以合理有效地利用已有的先验知识加速多Agent系统学习。

为解决上述技术问题，本发明的内容包括：

基于认知行为知识的分布式近端策略优化方法，包括以下步骤：

S1.采用认知行为知识建立Agent的认知行为模型，并将该认知行为模型引入深度强化学习，构建基于认知行为知识的深度强化学习框架；

S2.对于上述深度强化学习框架，构建基于认知行为知识的分布式近端策略优化算法；

S3.定量化设计认知行为模型对Agent策略更新的引导方式，实现Agent在认知行为知识基础上持续学习。

进一步的，所述步骤S1中，所述Agent的认知行为模型以当前的环境信息作为状态输入，通过知识集理解当前状态，并修改自身的信念集和任务集，在此基础上，结合行为规则集做出决策，输出宏动作；所述宏动作是一系列原子动作合成的更高层次动作。

进一步的，所述步骤S1中，采用基于BDI的GOAL编程语言构建Agent的认知行为模型，采用Prolog语言描述认知行为模型的内部状态，以知识集代表一般性的概念以及领域内的知识，并将知识集应用于信念集和任务集，信念集和任务集分别代表认知行为模型对当前时刻环境的认识和Agent最终要达到的目标；动作空间中的动作以STRIPS语言描述，Agent执行动作后，环境发生改变，认知行为模型通过感知环境发生改变的事件，进而修改信念集和任务集；行为规则集具有beliefs+goals＝>action的形式，利用if-then和forall语句实现；行为选择是基于知识集、信念集、任务集和当前状态的规则系统。

进一步的，所述步骤S2中，所述基于认知行为知识的分布式近端策略优化算法是将认知行为模型融入分布式近端策略优化算法的目标函数，将认知行为知识作为启发信息，用于指导强化学习前期Agent的策略更新，随着时间步长的推进，逐渐摆脱对认知行为模型的依赖，转而完全依靠强化学习机制更新策略。

进一步的，在Agent与环境交互过程中，认知行为模型感知当前状态信息，通过其感知规则更新认知行为模型的信念集和任务集，综合考虑更新后的认知行为模型内部状态及其行为规则作出决策，向深度强化学习DPPO模块推荐宏动作；同时DPPO模块也与环境交互并感知当前状态信息，Agent综合当前DPPO的学习策略与认知行为模块推荐的宏动作作出决策，并从环境获得反馈信号。

进一步的，在策略更新阶段，Agent考虑当前策略与认知行为模型推荐策略的差异，在更新Actorclip loss的同时不断缩小与认知行为策略的差距，随着学习步长的推进，逐渐减小对认知行为模型的依赖，在充分融合认知行为策略后转而进入完全强化学习阶段。

进一步的，所述步骤S3中，所述引导方式为：在当前状态下有可用的认知行为知识时，Agent每次迭代时按照一定程度，缩小当前策略与认知行为策略之间的差距；当前状态没有可用的认知行为知识时，Agent按照强化学习算法更新策略。

进一步的，所述步骤S3中，所述基于认知行为知识的分布式近端策略优化算法中，Actor的目标函数L_Actor(θ)包括不考虑认知行为模型时的损失函数L^CLIP(θ)和由当前策略π(θ)与认知行为策略π_cog(θ)不一致而导致的差异L^cog(θ)：

L_Actor(θ)＝L^CLIP(θ)-f(t)L^cog(θ)

式中，θ为Actor的参数；

式中，clip为值域为[1-ε,1+ε]的截断函数，∈∈(0,1)，r_t(θ)表示新旧策略的概率比，表示为

其中，π_θ表示Agent的策略，

表示Agent上一更新时刻的策略；

表示t时刻相对优势函数的估计；

L^cog(θ)采用KL散度衡量当前策略π(θ)与认知行为策略π_cog(θ)的差异，表示为：

L^cog(θ)＝D_KL(π_cog(θ)||π(θ))

f(t)为L^cog(θ)的折扣因子，形式化表示为

其中c₂为超参；

Critic的损失函数表示为：

式中，θ_v为Critic的参数。

基于认知行为知识的分布式近端策略优化方法在空战机动决策中的应用，包括以下步骤：

P1.构建三维空战空间中具有六自由度的无人战斗机Agent的动力学模型和运动学模型：

式中，g＝9.81m/s²为重力常数，η_x为切向过载，η_f为法向过载，γ为航迹倾角，μ为滚转角，ψ为航迹偏角，v_gx为x轴速度，v_gy为y轴速度，v_gz为z轴速度；通过对战斗机切向过载η_x，法向过载η_f以及滚转角μ的控制即可实现对其轨迹和姿态控制；

P2.确定战斗机Agent的原子动作；

P3.确定认知行为知识，构建基于GOAL的认知行为模型：将由战斗机Agent的原子动作组合成的典型战术机动动作构成Agent的宏动作集合，构建Agent的认知行为知识；

P4.在三维空战空间中，选取一个11维的状态向量

描述敌我双方战斗机当前时刻的态势信息，作为基于认知行为知识的分布式近端策略优化算法的态势信息输入；其中，q_r为偏离角，表示我方战斗机速度矢量与我敌战机质心连线的夹角，q_b为脱离角，表示敌方战斗机速度矢量与敌我战机质心连线的夹角，

分别为偏离角和脱离角的在当前时刻的变化率，β为两机速度的夹角，d为两机质心之间的距离，h为我方战斗机高度，Δh为我敌战斗机高度差，v为我方战斗机速度，

为我方速度的变化率，Δv²为我敌双方速度的平方差；根据前述战斗机Agent的动力学模型和运动学模型，以上各参数由下式计算：

q_r＝arccos[(x_b-x_r)cosψ_rcosγ_r+(y_b-y_r)sinψ_rcosγ_r+(z_b-z_r)sinγ_r]/d

q_b＝arccos[(x_r-x_b)cosψ_bcosγ_b+(y_r-y_b)sinψ_bcosγ_b+(z_r-z_b)sinγ_b]/d

β＝arccos(cosψ_r cosγ_r cosψ_b cosγ_b+sinψ_r cosγ_r sinψ_b cosγ_b+sinγ_r sinγ_b)

Δh＝z_r-z_b

h＝z_r

式中，下标r代表我方战斗机参数，下标b代表敌方战斗机参数；航迹偏角ψ∈[-π,π]表示与x轴的夹角，逆时针偏转为正，顺时针偏转为负；航迹倾角γ表示与x-y平面的夹角，爬升时为正，俯冲时为负；

P5.设计总体回报函数：除环境反馈外，将战斗机的实时态势优势作为总体回报函数构成的一部分，即在对抗过程中实时计算战斗机间的角度优势、距离优势、速度优势、高度优势，然后依权重合成该时刻最终态势优势作为回报反馈给学习Agent。

进一步的，所述步骤P5中，

(一)设计态势优势回报函数

(1)角度优势函数为：

(2)距离优势函数为：

式中，w_op为机载武器最佳射程，σ_w为机载武器最佳攻击射程标准差，d为两机质心的距离。当两机的距离小于机载武器最佳射程时，距离优势为1，否则距离优势呈指数下降。

(3)速度优势函数为：

式中，

为我方最佳速度，

与敌方速度、机载武器射程之间的关系为：

式中，v_b为敌机速度，d为两机质心的距离，v_max为战斗机最大速度，w_op为机载武器最佳射程；

当两机的距离小于等于机载武器最佳射程，尾追态势下与敌机速度相同时，我方速度优势函数最大，否则我机应适当加速以缩小与敌机的距离，使得两机质心距离接近机载武器最佳射程。

(4)高度优势函数为：

式中，h_op为最佳攻击高度，σ_h为最佳攻击高度标准差；

(5)将以上态势优势函数依权重合成，获得我方战斗机的整体态势优势，构造的态势优势合成函数为：

f_situation(f_a,f_d,f_v,f_h)＝ω_af_a+ω_df_d+ω_vf_v+ω_hf_h

式中，ω_a+ω_d+ω_v+ω_h＝1，ω_a,ω_d,ω_v,ω_h分别为角度优势、距离优势、速度优势和高度优势的权重；

(二)设计对抗环境回报函数

充分考虑战斗机的动力学特性和运动学特性约束，最终设计的对抗环境回报函数为：

(三)设计总体回报函数

综合考虑对抗环境回报和态势优势回报，设计总体回报函数为：

r＝f_env+c₃·f_situation(f_a,f_d,f_v,f_h)

式中，f_env为环境回报，f_situation为态势优势回报，c₃为调节参数，用于调整态势优势回报在总体回报中的占比。

本发明的有益效果是：

现有深度强化学习算法对高效采样的需求限制了其在复杂实际问题中的应用，特别是面对状态-动作空间复杂的多Agent系统时，仅依靠深度强化学习算法从零学习最优策略十分困难，而合理有效地利用已有的先验知识是加速多Agent系统学习的有效手段。本发明提出了一种基于认知行为知识的分布式近端策略优化方法，将人的认知行为知识融入Agent强化学习框架中引导策略收敛。本发明首先采用基于BDI(Belief-Desire-Intention)的建模框架，将认知行为知识描述为人和Agent之间相互可理解的形式；并在此基础上，将构建的认知行为模型引入深度强化学习，提出一种基于认知行为知识的深度强化学习框架；其次基于该框架，提出了基于认知行为知识的分布式近端策略优化算法；当有可用的认知行为知识时，Agent不断缩小当前策略与认知行为知识间的差距，逼近认知行为策略；当没有可用的认知行为知识时，Agent仅依靠强化学习算法优化其策略。然后本发明定量化设计了认知行为模型对Agent策略更新的引导方式。本发明最后通过空战机动实验验证了本发明提出的方法可以有效利用认知行为知识，并在此基础上进行策略更新，从而提高Agent的学习效率。

附图说明

图1是本发明基于认知行为模型的深度强化学习框架；

图2是基于GOAL的认知行为模型与环境交互的过程；

图3是GOAL更新信念集和目标集示意图；

图4是基于认知行为知识的分布式近端策略优化算法COG-DPPO；

图5是无人战斗机七种基本战机机动动作示意图；

图6是无人战斗机战斗转弯动作示意图；

图7是空战机动态势输入信息示意图；

图8是空战机动中四种基本初始化态势示意图；

图9是以我机劣势为初始态势时DPPO算法学习后对抗轨迹及态势优势曲线；

图10是以我机劣势为初始态势时COG-DPPO算法学习后对抗轨迹及态势优势曲线。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提出的基于认知行为知识的分布式近端策略优化方法包括以下步骤：

S1.采用认知行为知识建立Agent的认知行为模型，并将该认知行为模型引入深度强化学习，构建基于认知行为知识的深度强化学习框架。基于认知行模型的深度强化学习框架如图1所示。基于GOAL的认知行为模型与环境交互的过程如图2所示。本发明采用统一的Agent建模方法，将知识、信念、意图、规则等要素表示为多Agent之间相互可理解的形式。在此基础上，将Agent的认知行为模型引入深度强化学习框架，解决强化学习冷启动的问题。

采用基于BDI的GOAL编程语言构建Agent的认知行为模型，采用Prolog语言描述认知行为模型的内部状态，以知识集代表一般性的概念以及领域内的知识，并将知识集应用于信念集和任务集，信念集和任务集分别代表认知行为模型对当前时刻环境的认识和Agent最终要达到的目标；动作空间中的动作以STRIPS语言描述，Agent执行动作后，环境发生改变，认知行为模型通过感知环境发生改变的事件，进而修改信念集和任务集；行为规则集具有beliefs+goals＝>action的形式，利用if-then和for all语句实现；行为选择是基于知识集、信念集、任务集和当前状态的规则系统。

Agent的认知行为模型以当前的环境信息作为状态输入，通过知识集理解当前状态，并修改自身的信念集和任务集，在此基础上，结合行为规则集做出决策，输出宏动作；所述宏动作是一系列原子动作合成的更高层次动作。例如，导弹发射这个宏动作可以分解为填弹、瞄准、启动等一系列原子动作的组合。对于信念集(beliefs)和目标集(goals)的更新可以用分别用add()、delete()和adopt()、drop()内建函数实现增删。以木块世界为例，信念集和目标集的修改原理如图3所示。此外，GOAL支持由原子动作叠加而构成宏动作应用于某条规则中，其形式化表示为：if<mental_state_condition>then<action1>+<action2>+…。该规则中的原子动作从左至右依次执行。

S2.对于上述深度强化学习框架，构建基于认知行为知识的分布式近端策略优化算法。

分布式近端策略优化算法(Distributed Proximal Policy Optimization,DPPO)是PPO的分布式改进版本，其主要目的是为了更加有效地收集学习需要的数据。本发明以DPPO算法为基础，提出基于认知行为知识的分布式近端策略优化算法(Cognitive-basedDPPO，COG-DPPO)，即将认知行为模型融入分布式近端策略优化算法的目标函数，将认知行为知识作为启发信息，用于指导强化学习前期Agent的策略更新，随着时间步长的推进，逐渐摆脱对认知行为模型的依赖，转而完全依靠强化学习机制更新策略。本发明用GOAL构建Agent的认知行为模型，并将其用于DPPO策略更新，COG-DPPO算法框架如图4所示。

结合图1和图4，说明COG-DPPO的基本工作流程：在Agent与环境交互过程中，认知行为模型感知当前状态信息，通过其感知规则更新认知行为模型的信念集和任务集，综合考虑更新后的认知行为模型内部状态(信念集和任务集)及其行为规则作出决策，向深度强化学习DPPO模块推荐宏动作；同时DPPO模块也与环境交互并感知当前状态信息，Agent综合当前DPPO的学习策略与认知行为模块推荐的宏动作作出决策，并从环境获得反馈信号。在策略更新阶段，Agent考虑当前策略与认知行为模型推荐策略的差异，在更新Actorcliploss的同时不断缩小与认知行为策略的差距，随着学习步长的推进，逐渐减小对认知行为模型的依赖，在充分融合认知行为策略后转而进入完全强化学习阶段。

对于需要学习的任务，人的认知知识通常是不完备的，因此构建的认知行为模型并不能覆盖整个状态空间。另一方面，构建的认知行为知识并不一定都是正确的，Agent在学习过程中不能完全按照认知行为模型输出的宏动作更新策略，而应该能够根据环境反馈分辨出哪些认知行为知识是有利于策略学习的。因此，需要处理好不完备的认知行为知识与覆盖整个连续状态空间的策略之间的矛盾。即在当前状态下有可用的认知行为知识时，Agent每次迭代时按照一定程度，缩小当前策略与认知行为策略之间的差距；当前状态没有可用的认知行为知识时，Agent按照强化学习算法更新策略。

在COG-DPPO中，认知行为模型输出的宏动作构成在当前状态下的认知行为策略，其并不直接参与Agent动作选择，而是在Actor的策略更新阶段为其提供引导。具体来讲，Actor的目标函数L_Actor(θ)包括不考虑认知行为模型时的损失函数L^CLIP(θ)和由当前策略π(θ)与认知行为策略π_cog(θ)不一致而导致的差异L^cog(θ)，L^cog(θ)可以看作由于认知行为模型而引入的监督信号，以一定程度引导Agent的策略更新。综上，COG-DPPO中Actor的目标函数L_Actor(θ)表示为：

L_Actor(θ)＝L^CLIP(θ)-f(t)L^cog(θ)

式中，θ为Actor的参数。

其中，π_θ表示Agent的策略，

表示Agent上一更新时刻的策略；

表示t时刻相对优势函数的估计。

L^cog(θ)＝D_KL(π_cog(θ)||π(θ))

f(t)为L^cog(θ)的折扣因子，形式化表示为

其中c₂为超参；随着学习进度的推进，f(t)逐渐减小，从而使得Actor的策略更新逐渐脱离认知行为模型的引导，而由L^CLIP(θ)逐渐占据策略更新的主导地位。

Actor策略的更新采用随机梯度上升的方式，从而实现最大化的L_Actor。Critic的更新方式与DPPO类似，其损失函数表示为：

式中，θ_v为Critic的参数。

本发明还提出了基于认知行为知识的分布式近端策略优化方法在空战机动决策中的应用，包括以下步骤：

P1.构建三维空战空间中具有六自由度的无人战斗机Agent的动力学模型和运动学模型。

空战机动的主要目标是获取相对优势态势，本发明在不影响相关理论研究的前提下，对无人战斗机进行合理简化，构建出三维空战空间中具有六自由度的战斗机模型。

P2.确定Agent的原子动作。

美国太空总署(NASA)将飞机的机动方式分解为七种基本战机机动动作(BasicFighter Maneuvers,BFM)，如图5所示，分别是左转弯飞行c₁、加速飞行c₂、保持当前状态c₃、减速飞行c₄、右转弯飞行c₅、仰起飞行c₆以及俯冲飞行c₇。BFM是指在空战机动中战斗机为获得相对于对手有利位置采取战术级动作。以这七种基本战机机动动作为战斗机Agent的原子动作。

依照前述建模过程，对战斗机的轨迹和姿态控制可以转化为对切向过载η_x，法向过载η_f和滚转角μ的控制。本发明的研究重点是通过深度强化学习算法得到智能化博弈对抗策略，以这七个基本战机机动动作构成战斗机的离散动作空间，每个基本战机机动动作都使用最大过载，各个基本战机机动动作与控制量之间的关系如下表所示：

本算例仅选用了少量的认知行为知识构建认知行为模型，一方面是因为本算例的主要目的在于验证COG-DPPO可以在学习中融合认知行为知识，在此基础上学习对抗策略；另一方面是要验证其在仅有部分可用认知行为知识前提下的学习能力。如果融合过多的认知行为知识，最后的学习效果可能会不够明显。

原子动作可以组合成更为复杂的典型战术机动动作，例如低速Yo-Yo、高速Yo-Yo、半滚倒转、殷麦曼回转(Immelmann Turn)等。这些典型的机动动作构成了Agent的宏动作集合，可以用于构建Agent的认知行为知识。以殷麦曼回转为例，该宏动作可以分解为水平飞行、半圈爬升、180°横滚三个子动作。

以战斗转弯为例说明构建如何构建基于GOAL的认知行为模型。战斗转弯是在实战中常用的典型空战机动动作，其主要作用是当敌方尾后我方，敌我双方的航向基本一致时，我方为了迅速摆脱敌方跟踪并尝试获取优势态势位置的机动动作。战斗转弯的具体过程如图6所示。

用GOAL编程语言实现的战斗转弯对应的认知行为模型可以表示为：

P4.在三维空战空间中，选取一个11维的状态向量

为我方速度的变化率，Δv²为我敌双方速度的平方差；各状态变量的关系如图7所示。

根据前述战斗机Agent的动力学模型和运动学模型，以上各参数由下式计算：

Δh＝z_r-z_b

h＝z_r

P5.设计总体回报函数。

由于本发明采用深度强化学习机制，通过不断试错与环境交互，迭代更新Agent的策略，因而回报函数对算法的收敛速度和学习效果至关重要，不合理的回报函数可能导致算法不收敛。此外，对抗环境往往都存在状态空间连续、维度大等问题，单纯依靠对抗结果作为回报函数的设计标准会导致回报稀疏的问题，从而导致算法收敛困难。为解决上述难题，除环境反馈外，将战斗机的实时态势优势作为总体回报函数构成的一部分。具体来讲，在对抗过程中实时计算战斗机间的角度优势、距离优势、速度优势、高度优势，然后依权重合成该时刻最终态势优势作为回报反馈给学习Agent。

(一)设计态势优势回报函数

(1)在空战机动决策中，尾追态势对我方来说是优势态势，相向飞行或背向飞行属于均势，而被追时则处于劣势。对于图7所示的对抗态势来说，偏离角q_r越小，脱离角q_b越大，则越接近尾追态势，我方的角度优势越大。因此，构造的角度优势函数为：

(2)两机的距离是确定态势优劣的关键因素，本发明主要考虑战斗机机载武器的攻击范围与两机距离之间的大小关系，两机的距离越接近武器的最优攻击范围，距离优势函数越大，构造的距离优势函数为：

(3)速度优势主要考虑敌我双方当前时刻的速度以及敌我双方的距离和机载武器的射程等因素。速度优势函数为：

式中，

为我方最佳速度。

与敌方速度、机载武器射程之间的关系为：

式中，v_b为敌机速度，d为两机质心的距离，v_max为战斗机最大速度，w_op为机载武器最佳射程；当两机的距离小于等于机载武器最佳射程，尾追态势下与敌机速度相同时，我方速度优势函数最大，否则我机应适当加速以缩小与敌机的距离，使得两机质心距离接近机载武器最佳射程。

(4)空战机动中，在敌机上方为优势态势，本发明依据定义的最佳攻击高度h_op和最佳攻击高度标准差σ_h，定义高度优势函数为：

(5)上述四个态势优势函数的值域都为[0,1]，分别从单一的态势要素片面描述了我机的态势优势，此外，不同态势下，各态势要素对整体空战态势的影响也不相同，要获得我方战斗机的整体态势优势需将以上态势优势函数依权重合成，构造的态势优势合成函数为：

f_situation(f_a,f_d,f_v,f_h)＝ω_af_a+ω_df_d+ω_vf_v+ω_hf_h

式中，ω_a+ω_d+ω_v+ω_h＝1，ω_a,ω_d,ω_v,ω_h分别为角度优势、距离优势、速度优势和高度优势的权重，其在不同的对抗态势下所占的权重不同。

(二)设计对抗环境回报函数

对抗环境对于学习型Agent的回报主要考虑战斗机是否达到开火条件，也就是获得了最终对抗态势优势。以我方战斗机为例，根据确定的态势输入，当我方战斗机速度矢量与我敌质心的连线构成的偏离角q_r小于30°，敌机速度矢量与敌我质心连线的夹角q_b大于120°，两机速度的夹角β小于45°，两机质心间的距离d小于1500m时，我方获得开火机会，在空战机动对抗环境中获得正向奖励；相反，当敌方战斗机获得开火机会时，我方从对抗环境获得负向奖励。此外，本发明充分考虑战斗机的动力学特性和运动学特性约束，最终设计的对抗环境回报函数为：

即当我方战斗机超速(>300m/s)或失速(<80m/s)，超过允许最大高度(18000m)或小于最低高度(200m)时，从对抗环境中获得负向奖励。

(三)设计总体回报函数

综合考虑对抗环境回报和态势优势回报，本发明设计的总体回报函数为：

r＝f_env+c₃·f_situation(f_a,f_d,f_v,f_h)

将实时态势优势引入总体回报函数设计，有效解决了空战机动中状态空间巨大、连续所导致的回报稀疏问题。在空战机动对抗学习过程中，环境仅在关键态势有反馈，态势优势函数可以有效引导Agent朝着优势态势演化策略。

实验设计与结果分析：

将空战机动对抗限定在200km×200km×20km的三维空战空间内，敌我双方的战斗机都采用前述的动力学模型和运动学模型，且二者参数一致。对抗过程中，我方采用本发明提出的方法，敌方每一决策时刻都依据当前态势下进行一步规划，并采取使得合成态势优势函数f_situation增大的动作，如有多个这样的动作存在，则等概率随机从中选取。若没有使得f_situation增大的动作存在，则从基本战机机动动作中等概率随机选取一个作为当步决策。每次实验进行50万个回合，每个回合结束的条件依据步骤三环境回报函数设定，回合结束条件与环境回报的对应关系为：

我方达到开火条件，我方获得环境回报10；

敌方达到开火条件，我方获得环境回报-10；

我方战斗机失速或超速，我方获得环境回报-10；

我方战斗机超过最大允许高度或小于最低允许高度，我方获得环境回报-10；

我方战斗机超出限定空战机动环境，我方获得环境回报-10；

敌方战斗机超出限定空战机动环境，我方获得环境回报0；

双方格斗时间超过仿真时间500s，我方获得环境回报0。

从我机的角度来讲，空战机动双方战斗机初始化态势基本可以分为四类，如图8所示，分别为χ₁：我机处于优势，χ₂：我机处于劣势，χ₃：双方中立，χ₄：双方不利。

以图8-(b)所示的位置关系作为初始态势，此时，我机处于被追击的不利态势，在该情况下，我方应首先摆脱敌方的追击，再争取可以攻击的位置。因此，在被追击的态势下获得开火机会更为困难。红蓝双方的初始位置坐标分别为[110000,100000,5000]，[105000,100000,5000]，双方初始速度为200m/s，初始滚转角、航迹倾角、航迹偏角都为0°，每次决策的时间间隔为1s。敌方每次决策以获取最大优势态势为目的。在本实验中，我方分别采用DPPO和COG-DPPO两种算法，当两机距离大于3km时，角度优势、距离优势、速度优势和高度优势的权重为ω_a＝0.3,ω_d＝0.3,ω_v＝0.25,ω_h＝0.15，当两机距离小于3km时，各权重设置为ω_a＝0.4,ω_d＝0.3,ω_v＝0.15,ω_h＝0.15。

DPPO经50万个回合后仍不能学习到最优对抗策略。用其学习后的模型对抗敌方战斗机(敌方策略为每次决策获取最大态势优势)的轨迹及双方对应的态势优势曲线如图9所示，可以看出，三次对抗轨迹都以我机高于最大允许高度(18km)结束，三次对抗仿真时间都接近600s，我方战斗机没能在允许的时间、空间范围内获得可以开火的优势态势位置。由图9(a)-2、9(b)-2和9(c)-2可以看出，在整个对抗过程中，我方战机都没能获取态势优势并获得开火机会。

从以上分析可见，单纯使用现有的深度强化学习算法难以解决我机初始时刻被尾追的情况。而使用本发明基于认知行为知识的深度强化学习算法COG-DPPO能够解决该问题。COG-DPPO算法经50万代训练后获得其策略模型。图10展示了八次以学习后的策略模型在被敌方尾后的初始态势下，对抗敌方战斗机(敌方策略为每次决策获取最大态势优势)的轨迹及双方对应的态势优势曲线。从图10的各态势优势曲线可以看出，由于我方处于被追击位，我机在初始阶段处于明显劣势，但在对抗过程中，我方逐渐在态势位置上扳回劣势，在对抗中期，双方的态势优势互有升降，说明空战机动过程中双方都在争取获得开火条件，但最终COG-DPPO训练的战斗机Agent获得了开火机会。

以上四次对抗的轨迹曲线可以明显看出，在对抗初始阶段，符合认知行为模型描述的战斗转弯态势要求，COG-DPPO也学习到了对应认知知识，在对抗开始时，便采用了如图6所示的战斗转弯，顺利地摆脱了敌机，并获得高度优势，迅速缩小态势优势差距。在此之后，COG-DPPO借助深度强化学习算法的学习能力，在认知行为模型的基础上继续学习最优对抗策略。图10中八次对抗的结束相对态势分别为：

(a)q_r＝4.4°,q_b＝132.1°,β＝43.6°,d＝1446.3m

(b)q_r＝29.2°,q_b＝142.2°,β＝15.9°,d＝1496.5m

(c)q_r＝25.5°,q_b＝139.0°,β＝21.9°,d＝838.1m

(d)q_r＝29.3°,q_b＝133.3°,β＝23.9°,d＝1363.3m

(e)q_r＝25.7°,q_b＝151.5°,β＝25.5°,d＝715.3m

(f)q_r＝26.5°,q_b＝129.2°,β＝30.5°,d＝1024.2m

(g)q_r＝27.9°,q_b＝153.5°,β＝15.5°,d＝1286.3m

(h)q_r＝22.6°,q_b＝146.9°,β＝10.3°,d＝1116.3m

综上，COG-DPPO可以在学习过程中融合认知行为模型，在满足认知行为知识的触发条件时，Agent不断缩小当前策略与认知行为策略在当前状态下的差距，向认知行为策略靠拢。在没有可用的认知行为知识时，COG-DPPO借助已有的学习经验，并在此基础上依靠深度强化学习框架优化其对抗策略。

Claims

1.基于认知行为知识的分布式近端策略优化方法，其特征是，所述方法包括以下步骤：

2.如权利要求1所述的基于认知行为知识的分布式近端策略优化方法，其特征是，所述步骤S1中，所述Agent的认知行为模型以当前的环境信息作为状态输入，通过知识集理解当前状态，并修改自身的信念集和任务集，在此基础上，结合行为规则集做出决策，输出宏动作；所述宏动作是一系列原子动作合成的更高层次动作。

3.如权利要求2所述的基于认知行为知识的分布式近端策略优化方法，其特征是，所述步骤S1中，采用基于BDI的GOAL编程语言构建Agent的认知行为模型，采用Prolog语言描述认知行为模型的内部状态，以知识集代表一般性的概念以及领域内的知识，并将知识集应用于信念集和任务集，信念集和任务集分别代表认知行为模型对当前时刻环境的认识和Agent最终要达到的目标；动作空间中的动作以STRIPS语言描述，Agent执行动作后，环境发生改变，认知行为模型通过感知环境发生改变的事件，进而修改信念集和任务集；行为规则集具有beliefs+goals＝>action的形式，利用if-then和for all语句实现；行为选择是基于知识集、信念集、任务集和当前状态的规则系统。

4.如权利要求1所述的基于认知行为知识的分布式近端策略优化方法，其特征是，所述步骤S2中，所述基于认知行为知识的分布式近端策略优化算法是将认知行为模型融入分布式近端策略优化算法的目标函数，将认知行为知识作为启发信息，用于指导强化学习前期Agent的策略更新，随着时间步长的推进，逐渐摆脱对认知行为模型的依赖，转而完全依靠强化学习机制更新策略。

5.如权利要求4所述的基于认知行为知识的分布式近端策略优化方法，其特征是，在Agent与环境交互过程中，认知行为模型感知当前状态信息，通过其感知规则更新认知行为模型的信念集和任务集，综合考虑更新后的认知行为模型内部状态及其行为规则作出决策，向深度强化学习DPPO模块推荐宏动作；同时DPPO模块也与环境交互并感知当前状态信息，Agent综合当前DPPO的学习策略与认知行为模块推荐的宏动作作出决策，并从环境获得反馈信号。

6.如权利要求5所述的基于认知行为知识的分布式近端策略优化方法，其特征是，在策略更新阶段，Agent考虑当前策略与认知行为模型推荐策略的差异，在更新Actorclip loss的同时不断缩小与认知行为策略的差距，随着学习步长的推进，逐渐减小对认知行为模型的依赖，在充分融合认知行为策略后转而进入完全强化学习阶段。

7.如权利要求1所述的基于认知行为知识的分布式近端策略优化方法，其特征是，所述步骤S3中，所述引导方式为：在当前状态下有可用的认知行为知识时，Agent每次迭代时按照一定程度，缩小当前策略与认知行为策略之间的差距；当前状态没有可用的认知行为知识时，Agent按照强化学习算法更新策略。

8.如权利要求1所述的基于认知行为知识的分布式近端策略优化方法，其特征是，所述步骤S3中，所述基于认知行为知识的分布式近端策略优化算法中，Actor的目标函数L_Actor(θ)包括不考虑认知行为模型时的损失函数L^CLIP(θ)和由当前策略π(θ)与认知行为策略π_cog(θ)不一致而导致的差异L^cog(θ)：

L_Actor(θ)＝L^CLIP(θ)-f(t)L^cog(θ)

式中，θ为Actor的参数；