CN104484500A

CN104484500A - 一种基于拟合强化学习的空战行为建模方法

Info

Publication number: CN104484500A
Application number: CN201410665956.3A
Authority: CN
Inventors: 马耀飞; 马小乐; 宋晓; 龚光红
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-09-03
Filing date: 2014-11-19
Publication date: 2015-04-01

Abstract

本发明提出了一种基于拟合强化学习的空战行为建模方法，解决了虚拟空战仿真中战术动作的智能决策问题。本方法包含：对飞机作战过程的轨迹进行采样；在状态空间中对效用函数进行拟合，通过贝尔曼迭代和最小二乘法拟合对效用函数进行近似计算；作战决策，通过前瞻测试，在预测过程中采用所拟合的效用函数进行动作决策，根据预测的执行结果确定最终执行的动作。本发明方法可有效提高效用函数的拟合效率以及获取效率，相对传统方法，本发明方法能更快地获取最优行动策略。

Description

一种基于拟合强化学习的空战行为建模方法

技术领域

本发明属于计算机仿真技术领域，具体涉及一种用于飞机的空战智能决策任务的实现方法。

背景技术

随着无人机系统在现代战场中承担的任务越来越复杂,对无人机的智能决策水平的要求也越来越高；空战决策无疑是其中难度水平最高的任务之一。

强化学习技术是由学习对象通过“试错”的方式与行为环境进行交互，通过即时回报的累积来获取自身最优行动策略的一种方法。但在传统的强化学习过程中，为了使行动策略能够有效收敛，一种常用的处理方式是对状态空间各维度进行离散化，从而获取“有限”的基本状态单元；行动策略就是基于这些基本单元进行不断尝试，从而找到丛初始单元到目标单元的轨迹；最优策略是其中最短的。

但是，如果状态空间的维度较高，即时基本单元的数量是有限的，其数量规模也将达到很可观的水平；在这样的环境中，寻找最优策略的收敛过程将及其漫长。

发明内容

针对现有问题，本发明提供了一种基于拟合强化学习的空战行为建模方法，采用近似拟合的方法对空战决策问题求解，将近似的拟合方法应用到空战决策问题，以快速获得最优策略。

设红方飞机和蓝方飞机进行作战，本发明的基于拟合强化学习的空战行为建模方法，用于红方飞机，具体实现步骤如下：

步骤1：数据采样；

采用轨迹采样法，对飞机作战过程的轨迹进行记录，获取采样点集合X；

步骤2：效用函数拟合；

采用适于连续状态空间函数的拟合方法拟合效用函数J(x)，x为态势(或称状态)；具体拟合方法为：首先，选取特征量描述空战状态空间，所有选取的特征量组成一个特征向量，用特征向量表示集合X中的每个状态x；然后，基于采样点集合X，使用贝尔曼迭代以及最小二乘法，进行效用函数的拟合；

步骤3：作战决策；

对当前的状态x，采用前瞻测试对红方飞机的所有动作的执行后果进行预测，选取预测结果最好的动作执行。所述的前瞻测试是一种虚拟执行的方法，以指定的动作开始虚拟推进作战过程，直到完成指定的回合数。前瞻测试的每个回合中红方飞机均采用步骤2得到的效用函数进行动作决策。

所述的步骤1进行数据采样的具体过程为：

● 建立红方、蓝方飞机，给定红、蓝双方的初始态势；

● 双方均采用式(1)定义的即时回报函数S(x)，进行动作决策，展开空战。动作决策时，选取在当前态势下，使己方即时回报函数值最大、同时使对方即时回报函数值最小的动作。

S (x) = (\frac{[(1 - \frac{AA}{180}) + (1 - \frac{ATA}{18 / 0})]}{2}) e^{- (\frac{| R - R_{d} |}{180 \cdot k})} - - - (1)

其中，AA表示脱离角，ATA表示进入角；R表示两架飞机之间的距离，R_d表示两架飞机之间的相对最佳距离；k是一个影响因子，单位是m/deg，用来调整距离和角度的相对影响。

● 对飞机交战的轨迹采样，形成双方轨迹集合X。

所述的步骤2中选取的特征量包括如下：

{R, AA, \overset{\cdot}{A} A, | AA |, ATA, A \overset{\cdot}{T} A, | ATA |, HCA, | HCA |}

各特征量的具体含义为：

所述的步骤2中进行效用函数拟合时，具体如下：

设效用函数拟合时的循环次数为N，在第k轮循环中执行下面(2.1)和(2.2)，k＝1,2,…,N；

(2.1)获得蓝方飞机对于集合X决策的动作向量A_b；

(2.2)获得红方飞机的动作向量A_r，以及当前循环下的优化效用

{A_{r}, {\tilde{J}}^{k}} = \underset{A}{\arg \max {F}} = ar \underset{A}{g \max} {λ \cdot {\tilde{J}}^{k - 1} (f (X, A, A_{b})) + R (f (X, A, A_{b}))} - - - (2)

β^{k} = {(Φ^{T} Φ)}^{- 1} Φ^{T} \cdot {\tilde{J}}^{k} - - - (3)

{\hat{J}}^{k} = Φ \cdot β^{k} - - - (4)

其中，A为待选的红方飞机的动作向量，表示求取使得式F的值最大的A，对应得到的最大F值为λ为折扣因子，0<λ<1；表示第k-1次循环得到的效用函数， R(X)为根据集合X得到的即时回报函数值向量；f(X,A,A_b)表示在状态X下，红方飞机动作向量为A、蓝方飞机动作向量为A_b的情况下到达的下一个状态向量；β^k表示第k次循环中特征向量Φ的拟和系数；根据式(3)得到当前循环下的优化效用

第N次循环输出的为拟合得到的效用函数。

所述的步骤3进行前瞻测试时，对于红方飞机的每个待选动作a_r，根据当前的状态x和蓝方飞机的决策动作，获得下一状态x′，然后从状态x′开始，预测N_roll个决策步长之后的未来状态每次决策时，红方飞机采用步骤2得到的效用函数进行动作决策。

对比各待选动作a_r的未来状态选取其中后果最好的动作执行。对红方飞机的每个待选动作a_r，预测N_roll个决策步长之后的未来状态选取使J值最大对应的动作作为最佳动作；

J = λ \cdot {\hat{J}}^{N} (x^{N_{roll}}) + S (x^{N_{roll}}) - - - (5)

其中，表示状态的效用，表示状态的即时回报。

本发明相对于现有技术，其优点和积极效果在于：

(1)本发明通过对历史交战轨迹采样，提高了采样效率；能够把空战过程中最可能访问的状态空间进行采样，增强了采样的合理性，使得后续效用函数拟合的效果更好；

(2)采用了适于连续状态空间函数的拟合方法，提高了效用函数的获取效率；通过前瞻测试评估飞机所有可能动作的执行后果，从而选取执行后果较好的动作执行；

(3)通过实验验证，相对传统方法，本发明提供的空战行为建模方法能更快地获取最优行动策略。

附图说明

图1是本发明的空战行为建模方法的流程示意图；

图2是基于采样的效用函数拟合方法的流程示意图；

图3是作战决策的前瞻测试方法的流程示意图；

图4是四种初始态势(进攻、中立、防御、对抗)示意图；

图5是以初态I(红方进攻)开始的作战过程示意图：红方采用本发明提出的方法，蓝方采用最大最小决策方法，红方4.5秒取胜；

图6是以初态II(红、蓝中立)开始的作战过程示意图：红方采用本发明提出的方法，蓝方采用最大最小决策方法，红方3秒钟取胜；

图7是以初态III(红方防御)开始的作战过程示意图：红方采用本发明提出的方法，蓝方采用最大最小决策方法，红方12秒钟取胜；

图8是以初态IV(红蓝面对面直接对抗)开始的作战过程示意图：红方采用本发明提出的方法，蓝方采用最大最小决策方法，红方10.5秒钟取胜；

图9是以初态IV(红蓝面对面直接对抗)开始的作战过程示意：红、蓝双方均采用传统决策方法。

具体实施方式

下面将结合附图对本发明的实施过程作进一步说明。

本发明提出的一种基于拟合强化学习的空战行为建模方法，采用函数拟合的方法，对连续状态空间中的效用函数进行拟合，从而可快速获得最优策略。

如图1所示，本发明基于拟合强化学习的空战行为建模方法，包括三个步骤：步骤1：数据采样；步骤2：效用函数拟合；步骤3：作战决策。

步骤1：数据采样。

数据采样的目的是为了获取空战状态空间中的有效点集，用于后续的效用函数拟合。数据采样的密度越高，效用函数的拟合效果越好。但是，考虑到计算时间的问题，采样样本必须满足两个条件：1)采样点应处于空战过程中访问概率较高的区间；2)数量不能过多。实验结果表明，10⁵个采样点集合X能够比较好的满足实验要求。本发明采用了轨迹采样法，即通过记录历史空战过程满足以上采样条件，获得采样点集合。集合X为态势(或称状态)x的集合。

数据采样的具体过程为：

步骤101：交战过程仿真。

● 建立红方(假设为我方)、蓝方飞机，给定红、蓝双方的初始态势；

● 双方均采用式(1)定义的即时回报函数S(x)，计算需要执行的动作，展开空战。以红方为例，在当前态势x下，选取使即时回报函数S(x)回报最大、同时使蓝方即时回报函数S(x)回报最小的动作u。蓝方亦如此决策。在式(1)中，脱离角AA和进入角ATA的最大幅度为180度；R和R_d是两架飞机之间的距离和相对最佳距离；k是一个影响因子(单位是m/deg)，用来调整距离和角度的相对影响。

S (x) = (\frac{[(1 - \frac{AA}{180}) + (1 - \frac{ATA}{18 / 0})]}{2}) e^{- (\frac{| R - R_{d} |}{180 \cdot k})} - - - (1)

本发明采用如式(1)所示的即时回报函数对飞机的作战态势进行评估。该回报函数的优点在于：可以在任意初始状态与目标状态之间建立平滑的过渡关系，从而更好地引导飞机从任意初始状态发现到达获胜的目标状态。

步骤102：对飞机交战的轨迹采样，记录双方轨迹集合X。

飞机作战过程由空战决策软件实现，如基于规则的决策软件。生成的交战轨迹可认为是空战状态空间中到达概率较大的点集。这种采样方式能够把空战过程中最可能访问的状态空间进行采样，增强了采样的合理性，使后续效用函数拟合的效果更好。

步骤2：效用函数拟合。

效用函数J(x)是描述特定态势x效用的函数。在传统方法中，该效用由即时回报函数S(x)的长期积累得到。在本发明中，为了提高J(x)的获取效率，采用了适于连续状态空间函数的拟合方法。具体过程为：

步骤201：选取特征量描述空战状态空间。

选取特征量描述空战状态。特征量是对空战状态空间更直观的描述；选取合理的特征量将提高效用函数的拟合效果。特征量包括静态特征和动态特征两类。静态特征包括红、蓝双方的距离R、角度关系AA、ATA、HCA；动态特征包括描述了蓝方脱离角的变化率，以及红方进入角的变化率。考虑信息的完整性，特征量集合选择如下：

{R, AA, \overset{\cdot}{A} A, | AA |, ATA, A \overset{\cdot}{T} A, | ATA |, HCA, | HCA |}

这些特征量的具体含义如表1所示。

表1 空战特征量

每个状态x为用上面所述的特征量集合表示的向量。

步骤202：效用函数拟合。

图2给出了基于采样点集合X，效用函数J(X)的拟合过程。

本发明使用贝尔曼迭代以及最小二乘法方法，进行效用函数的拟合，设循环次数为N，每一轮的过程如下：

(1)获得蓝方飞机通过它的行动策略π^mm(X)决策的动作向量A_b；对于集合X中的每个状态x都通过行动策略π^mm(x)决策有一个动作a_b；

(2)获得基础之上的一次迭代优化效用以及红方飞机通过贝尔曼迭代得到的动作向量A_r；

{A_{r}, {\tilde{J}}^{k}} = \underset{A}{\arg \max {F}} = ar \underset{A}{g \max} {λ \cdot {\tilde{J}}^{k - 1} (f (X, A, A_{b})) + R (f (X, A, A_{b}))} - - - (2)

β^{k} = {(Φ^{T} Φ)}^{- 1} Φ^{T} \cdot {\tilde{J}}^{k} - - - (3)

{\hat{J}}^{k} = Φ \cdot β^{k} - - - (4)

对于集合X中的每个状态x及(1)中对应决策的蓝方飞机动作a_b，计算有一个红方飞机动作，所有的红方飞机动作组成一个向量。设式子表示求取使得式F的值最大的A，对应得到的最大F值为A为待选的红方动作向量；f(X,A,A_b)由函数f(x,a_r,a_b)计算得到；f(x,a_r,a_b)用于计算在状态x下，红方采取动作a_r、蓝方采取动作a_b的情况下到达的下一个状态x′。0<λ<1为折扣因子，确保在多次迭代后收敛，表示第k-1次循环得到的效用函数，其中S(X)为对集合X中的每个x根据式(1)计算得到的即时回报函数值的向量。使(2)式右侧取值最大的A记为A_r。β^k表示第k次循环中特征向量的拟和系数。特征向量为Φ(X)，上面式中简写为Φ。特征向量包含如表1所示的特征量，设Φ(X)＝{φ₁(X),φ₂(X),…φ_i(X),…φ_n(X)}，n为特征量的个数，如表1所示n的值为9，φ_i(X)表示集合X中对应的第i个特征量对应的向量，i＝1,2,…n。

循环N次输出就是最终拟合得到的效用函数J(x)。

步骤3：作战决策。本步骤对最终结果进行前瞻测试，即以指定的动作开始，虚拟推进作战过程，从而评估该动作的执行后果，只有后果较好的动作才最终被执行。

通过上个步骤得到拟合效用函数J(x)后，并不是通过它直接获取最优行动，而是采用前瞻测试的方法对所有可能的行动进行评估，具体过程如图3所示：

假设红方飞机根据拟合的效用函数J(x)进行决策。红方飞机将对每一个动作a_r可能引起的后果进行预测。对每个a_r，执行以下操作(3.1)～(3.3)：

(3.1)根据当前状态x，红方飞机的行动a_r，计算蓝方飞机通过它的行动策略π^mm(x)决策的动作a_b，并获得下一个状态x′：

x′＝f(x,a_r,π^mm(x))；

f(x,a_r,a_b)用于计算在状态x下，红方飞机采取动作a_r、蓝方飞机采取动作a_b＝π^mm(x)的情况下到达的下一个状态x′；

(3.2)从状态x′开始，预测N_roll个决策步长之后的未来状态，设预测N_roll个决策步长之后的未来状态为在每次决策中，红方飞机采用步骤2得到的效用函数进行动作决策，对于状态x，蓝方飞机的决策动作为π^mm(x)，红方飞机的决策动作为π^appx(x)。N_roll个决策步长也就是进行N_roll次作战回合。

第1次决策中，x¹＝f(x⁰,π^appx(x⁰),π^mm(x⁰))；其中，x⁰＝x′；

第2次决策中，x²＝f(x¹,π^appx(x¹),π^mm(x¹))；

第i次决策中，xⁱ＝f(x^i-1,π^appx(x^i-1),π^mm(x^i-1))；

第N^roll次决策中，

x^{N_{roll}} = f (x^{N_{roll} - 1}, π^{appx} (x^{N_{roll} - 1}), π^{mm} (x^{N_{roll} - 1})) .

(3.3)对未来状态估计它的即时回报和折扣效用之和J：

J = λ \cdot {\hat{J}}^{N} (x^{N_{roll}}) + S (x^{N_{roll}})

若J大于当前记录的最大值J_best，则更新J_best＝J，并将当前红方飞机的最佳行动a_best为更新为当前的a_r；否则，保持J_best和a_best不变。初始J_best和a_best均未空。

对红方飞机所有的待选动作a_r遍历后，返回的a_best就是红方飞机的最佳行动。

实施例

步骤1：进行数据采样。

步骤101：建立红、蓝双方飞机参与的交战仿真。其中，交战双方均采用一种传统的作战决策方法，称为最大最小方法。以红方为例，该方法的决策过程可描述为：对任何一个态势x选择使即时回报S(x)最大、同时使蓝方的即时回报最小的动作。蓝方也如此决策。采样结果如图5所示。

步骤102：记录交战仿真生成的交战轨迹，获得轨迹采样点集合。

步骤2：效用函数拟合。

步骤201：建立特征集合，如表1所示。

步骤202：进行效用函数的拟合，过程如图2所示。

步骤3：进行作战决策。

通过前瞻测试方法，得到最终行动，由飞机执行。

在实施的过程中，可将空战初始状态分为四种典型的初始态势(从红方视角)：I进攻、II中立、III防御、IV对抗，如图4所示。在作战决策时，如表2所示设置四种初始态势：

表2 四种基本态势的初始设置

其中，x、y为位置，ψ为航行角；下标r和b分别代表红方和蓝方。决策性能的好坏用两个指标来衡量：a)获胜时间(TTW)，获胜的定义为占据相对敌方有利位置并维持10s；b)累计被杀伤风险(APK)，表示为被对方杀伤的概率累积值。TTW和APK越小，则表明决策效果越好。

对四种初始状态的每个都进行了作战决策测试，如图5～图8所示。在这些测试里，红方飞机(图中的my plane)均采用本发明提出的方法，而蓝方飞机(图中的enemy)均采用最大最小方法。表3列出了两种决策方法下TTW和APK指标的统计结果。结果表明，采用本发明提出的方法，红方的进攻更有侵略性(APK值较大)，但取胜的速度更快(TTW值较小)。

表3 采用不同决策方法时候的统计结果

图5是以红方进攻开始的作战过程示意，红方飞机4.5秒取胜。图6是以红、蓝中立开始的作战过程示意，红方飞机3秒钟取胜。图6左右两幅图分别为0-1.5s和1.5s-3s的作战过程。图7是以红方防御开始的作战过程示意，红方飞机12秒钟取胜。图7的四幅图分别为0-3s、3s-6s、6s-9s和9s-12s的作战过程。图8是以红蓝面对面直接对抗开始的作战过程示意，红方飞机10.5秒钟取胜。图8四幅图分别为0-2.5s、2.5s-5s、5s-7.5s以及7.5s-10.5s的作战过程。

为了进一步进行对比，图9对初始态势IV进行了重新决策，其中红蓝双方均采用最大最小决策方法。图9中的七幅图分为0-3s、3s-6s、6s-9s、9s-12s、12s-15s、15s-18s以及18s-23s的作战过程。可以看出，在这个过程中，红方飞机花费了较长时间(23秒)才最终取胜。这个对比结果说明了本发明提出方法是有效的，且能更快的获取最优行动策略。

Claims

1.一种基于拟合强化学习的空战行为建模方法，用于作战的红方飞机，其特征在于，该空战行为建模方法包括如下三个步骤：

步骤1：数据采样；

步骤2：效用函数拟合；

首先，选取特征量描述空战状态空间，所有选取的特征量组成一个特征向量，用特征向量表示集合X中的每个状态x；然后，基于采样点集合X，使用贝尔曼迭代以及最小二乘法，进行效用函数的拟合；

(2.1)获得蓝方飞机对于集合X决策的动作向量A_b；

{A_{r}, {\tilde{J}}^{k}} = \arg \max_{A} {F} = \arg \max_{A} {λ \cdot {\tilde{J}}^{k - 1} (f (X, A, A_{b})) + S (f (X, A, A_{b}))} - - - (1)

β^{k} = {(Φ^{T} Φ)}^{- 1} Φ^{T} \cdot {\tilde{J}}^{k} - - - (2)

{\hat{J}}^{k} = Φ \cdot β^{k} - - - (3)

其中，A为待选的红方飞机的动作向量，表示求取使得式F的值最大的A，对应得到的最大F值为λ为折扣因子，0<λ<1；表示第k-1次循环得到的效用函数，S(X)为根据集合X得到的即时回报函数值向量；f(X,A,A_b)表示在状态X下，红方飞机动作向量为A、蓝方飞机动作向量为A_b的情况下到达的下一个状态向量；β^k表示第k次循环中特征向量Φ的拟和系数；根据式(3)得到当前循环下的优化效用

第N次循环输出的为拟合得到的效用函数；

步骤3：作战决策；

对当前的状态x，采用前瞻测试对红方飞机的所有待选动作的执行后果进行预测，选取预测结果最好的动作执行；所述的前瞻测试是一种虚拟执行的方法，以指定的动作开始虚拟推进作战过程，直到完成指定的回合数；前瞻测试的每个回合中红方飞机均采用步骤2得到的效用函数进行动作决策。

2.根据权利要求1所述的一种基于拟合强化学习的空战行为建模方法，其特征在于，所述的数据采样，具体过程为：

(1)首先，建立红方、蓝方飞机，给定红、蓝双方的初始状态；

(2)然后，双方均采用下面定义的即时回报函数S(x)，进行动作决策，展开空战；在动作决策时，选取在当前状态x下，使己方即时回报函数值最大、同时使对方即时回报函数值最小的动作；

S (x) = (\frac{[(1 - \frac{AA}{180}) + (1 - \frac{ATA}{180})]}{2}) e^{- (\frac{| R - R_{d} |}{180 \cdot k})} - - - (4)

其中，AA表示脱离角，ATA表示进入角；R表示两架飞机之间的距离，R_d表示两架飞机之间的相对最佳距离；k为影响因子，用来调整距离和角度的相对影响；

(3)对飞机交战的轨迹采样，形成采样点集合X。

3.根据权利要求1所述的一种基于拟合强化学习的空战行为建模方法，其特征在于，所述的步骤2中选取的特征量包括：两机之间的欧式距离R，脱离角AA，脱离角的变化率脱离角的绝对值|AA|，进入角ATA，进入角的变化率进入角的绝对值|ATA|，偏航角的偏差HCA，以及偏航角偏差的绝对值|HCA|。

4.根据权利要求1或3所述的一种基于拟合强化学习的空战行为建模方法，其特征在于，步骤3中所述的前瞻测试，对红方飞机的每个待选动作a_r，根据当前的状态x和蓝方飞机的决策动作，获得下一状态x′，然后从状态x′开始，预测N_roll个决策步长之后的未来状态

5.根据权利要求4所述的一种基于拟合强化学习的空战行为建模方法，其特征在于，步骤3中所述的前瞻测试，对红方飞机的每个待选动作a_r，预测N_roll个决策步长之后的未来状态选取使下式J值最大对应的动作作为最佳动作；

J = λ \cdot {\hat{J}}^{N} (x^{N_{roll}}) + S (x^{N_{roll}}) - - - (5)

其中，表示状态的效用，表示状态的即时回报。