CN110917622B

CN110917622B - 基于近似动态规划算法的博弈决策方法及系统

Info

Publication number: CN110917622B
Application number: CN201911142525.8A
Authority: CN
Inventors: 芦维宁; 杨君; 梁斌; 赵千川; 马骁腾
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2021-11-30
Anticipated expiration: 2039-11-20
Also published as: CN110917622A

Abstract

本发明公开了一种基于近似动态规划算法的博弈决策方法及系统，其中，该方法包括以下步骤：根据空中格斗游戏的特点，确定多维度特征向量来描述空中格斗过程，并作为近似动态规划算法的特征输入；根据预设的基于空中格斗游戏经验规则的自适应奖励机制，分阶段从进攻能力以及防守和躲避能力两个方面提升博弈算法的性能；利用近似动态规划算法学习出空中格斗游戏的价值函数，在此价值函数下指导我方做出格斗动作。该博弈决策方法将传统的表格形式使用函数来近似，增强了增强学习中的泛化和推广能力，从而在决策策略接近最优的前提下，保证决策的快速性。

Description

基于近似动态规划算法的博弈决策方法及系统

技术领域

本发明涉及博弈决策技术领域，特别涉及一对一空战游戏环境下基于近似动态规划算法的博弈决策方法及系统。

背景技术

对抗性博弈决策问题目前是一类广泛受到关注的研究问题，其相关应用已经深入到诸如政治、军事、经济等社会各个领域。而随着人工智能技术的不断发展，机器博弈也在该领域的研究中发挥越来重要的作用，例如由DeepMind在2016年以及2017年推出的AlphaGo和AlphaGo Zero系统，在围棋类博弈游戏中成功战胜人类顶级高手玩家，其预示着机器博弈算法是解决该类问题的重要途径之一。

一对一空战游戏是一类典型的对抗性博弈决策类游戏，由于其游戏环境具有相对性和动态性，因此设计自主的空战决策方法需要同时兼顾准确性和快速性。从原理上来说，动态规划算法很适合解决该类问题，但实际问题中往往面临着具有大规模或是连续空间的状态和策略空间，使用传统的动态规划方法会导致“维数灾难”。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于近似动态规划算法的博弈决策方法，该方法在决策策略接近最优的前提下，保证决策的快速性。

本发明的另一个目的在于提出一种基于近似动态规划算法的博弈决策系统。

为达到上述目的，本发明一方面实施例提出了基于近似动态规划算法的博弈决策方法，包括以下步骤：采集空中格斗游戏的游戏信息，并确定描述空中格斗过程的多维度特征向量，以作为近似动态规划算法的特征输入；根据预设的基于空中格斗游戏经验规则的自适应奖励机制，分阶段从进攻能力以及防守和躲避能力调整博弈算法；以及利用所述近似动态规划算法学习空中格斗游戏的价值函数，以在所述价值函数下指导格斗动作，输出博弈决策。

本发明实施例的基于近似动态规划算法的博弈决策方法，为解决传统的动态规划方法会导致“维数灾难”的问题，提出近似动态规划方法，将传统的表格形式使用函数来近似，增强学习中的泛化和推广能力，从而在决策策略接近最优的前提下，保证决策的快速性。

另外，根据本发明上述实施例的基于近似动态规划算法的博弈决策方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述多维度特征向量包括：双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。

进一步地，在本发明的一个实施例中，所述自适应奖励机制为在构建所述价值函数的过程中，当初期对战胜率满足第一预设条件时，对于正向反馈将给与预设奖励，当对战胜率满足第二预设条件时，以预设缩小策略缩小正向反馈所获得的奖励。

进一步地，在本发明的一个实施例中，所述自适应奖励机制为：

其中，ω＝θ^1-2r，r为训练过程中的统计胜率，θ为超参数，用于控制对于不同情况下的奖励比例，g'(x)为奖励函数。

进一步地，在本发明的一个实施例中，所述博弈决策为：

其中，u_p为我方策略，u_d为敌方策略，J_approx为初始化目标函数，g(x)为自适应奖励机制。

为达到上述目的，本发明另一方面实施例提出了基于近似动态规划算法的博弈决策系统，包括：采集确定模块，用于采集空中格斗游戏的游戏信息，并确定描述空中格斗过程的多维度特征向量，以作为近似动态规划算法的特征输入；调整模块，用于根据预设的基于空中格斗游戏经验规则的自适应奖励机制，分阶段从进攻能力以及防守和躲避能力调整博弈算法；指导模块，用于利用所述近似动态规划算法学习空中格斗游戏的价值函数，以在所述价值函数下指导格斗动作，输出博弈决策。

本发明实施例的基于近似动态规划算法的博弈决策系统，为解决传统的动态规划方法会导致“维数灾难”的问题，提出近似动态规划方法，将传统的表格形式使用函数来近似，增强学习中的泛化和推广能力，从而在决策策略接近最优的前提下，保证决策的快速性。

另外，根据本发明上述实施例的基于近似动态规划算法的博弈决策系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述博弈决策为：

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于近似动态规划算法的博弈决策方法流程图；

图2为根据本发明提出一种基于近似动态规划算法的博弈模型构建流程图；

图3为根据本发明所用到的一对一空中格斗游戏对战平台中飞机格斗模型示意图；

图4为根据本发明中与敌我双方位置关系相关的变量定义示意图；

图5为根据本发明提出的博弈决策方法学习出的空中格斗游戏价值评价函数示意图；

图6为根据本发明一个实施例的基于近似动态规划算法的博弈决策系统结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于近似动态规划算法的博弈决策方法及系统，首先将参照附图描述根据本发明实施例提出的基于近似动态规划算法的博弈决策方法。

图1是本发明一个实施例的基于近似动态规划算法的博弈决策方法流程图。

如图1所示，该基于近似动态规划算法的博弈决策方法包括以下步骤：

在步骤S101中，采集空中格斗游戏的游戏信息，并确定描述空中格斗过程的多维度特征向量，以作为近似动态规划算法的特征输入。

进一步地，在本发明的一个实施例中，多维度特征向量包括：双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。

也就是说，根据空中格斗游戏的特点设计多维度特征向量，通过描述敌我双方的速度、朝向角、翻滚角，以及敌我双方的相对位姿关系等与空战态势相关的各项因素，实现刻画空中格斗游戏的演变过程，并作为近似动态规划算法的特征输入。

在步骤S102中，根据预设的基于空中格斗游戏经验规则的自适应奖励机制，分阶段从进攻能力以及防守和躲避能力调整博弈算法。

进一步地，在本发明的一个实施例中，自适应奖励机制为在构建价值函数的过程中，当初期对战胜率满足第一预设条件时，对于正向反馈将给与预设奖励，当对战胜率满足第二预设条件时，以预设缩小策略缩小正向反馈所获得的奖励。

也就是说，当构建价值函数的前期训练过程中，强化进攻能力将做作为主要的优化方向，当在胜率达到一定程度后，强化防守能力将作为主要的优化方向。

进一步地，在本发明的一个实施例中，自适应奖励机制为：

具体地，自适应奖励机制的工作原理为：在训练初期胜率较小的时候，ω较大，此时奖励机制给予优势行为更大的奖励，即着重优化产生进攻行为的策略，而当后期胜率逐渐增大时，ω随之减小，此时奖励机制给予优势行为的奖励逐渐变小，此时着重优化产生躲避或防守行为的策略。

在步骤S103中，如图2所示，利用近似动态规划算法学习空中格斗游戏的价值函数，以在价值函数下指导格斗动作，输出博弈决策。

进一步地，在本发明的一个实施例中，博弈决策为：

下面通过参考附图描述的示例性实施例，对本发明实施例做进一步解释，但不限于此。

本发明实施例采用的二维空战仿真平台包含飞机的动力学模型、格斗模型。在二维平面内，每架飞机的状态用一个五元组s＝(x,y,v,θ,σ)来表示，各个变量的含义：

飞机位置(x,y)：俯视视角下飞机的位置；

飞机速率v：飞机当前的飞行速率；

飞机偏航角θ：飞机当前的机头朝向；

机身翻滚角σ：飞机机身在轴线上偏离水平面的角度；

上述变量均存在各自的范围限制，与本发明实施例中采用的游戏仿真平台匹配，由于仿真平台的开发细节不属于本发明的内容，故在此不做展开。

如图3所示，每架飞机正前方有一个扇形攻击区，其长度为r_atk，角度为θ_atk。每架飞机的正后方则有一个易受攻击的扇形死角，其长度为r_df，角度为θ_df。

如图4所示，分别为敌我双方质心距离r,方位AA,天线偏角ATA来描述，相对位置(r,AA,ATA)可以由两架飞机的位置计算得出。

两架飞机一对一格斗的情况。在二维平面内，每架飞机行动的最终的目标是：1)使敌机位于自身攻击区内；2)同时使自身位于敌机的死角内。同时满足上述两个条件，则可以认为飞机已经进入了可以攻击敌方而难以受到反击的优势状态。

动态规划方法基于贝尔曼方程求解值函数。以最短路径问题为例，假设机器人在一个4X4的棋盘上，每次只能选择向某一个方向移动一格，此时可能出现的状态和策略数都是离散的。定义奖励函数如下：

其中，x表示机器人的状态，二维数组，分别表示机器人位置的横纵坐标。

值函数J(x)用一张表格来表示，初始化J⁰(x)＝0，然后使用贝尔曼公式更新值函数直到收敛。贝尔曼公式如下：

J^k+1(x)＝max_u{γJ^k[f(x,u)]+g(x)}

其中，f为状态转移函数；u为采取的策略；γ为折扣因子，本发明实施例中取0.9。

当值函数收敛时，就得到了最佳的策略：

π^*(x)＝argmax_u{γJ^*[f(x,u)]+g(x)}

如果将问题的定义扩展到连续的状态空间，此时传统的动态规划方法就不再适用了，需要引入近似值函数J_approx(x)＝φ(x)β，式中φ(x)是状态x的特征函数，β是其参数。这样问题就由求解所有状态的评价值，变成求解最佳的值函数参数β。

通过迭代求解最佳参数β^*的过程如下：随机采样一些状态记作X，初始化β⁰＝0，估计此时采样点的值函数

其中X′表示采样点转移后的状态；由最小二乘方法修改此时的参数

其中Φ＝φ(X)；重复过程直到β收敛。以上即近似动态规划方法(approximate dynamicprogramming，ADP)的基本原理。

ADP算法效果很大程度上依赖于特征函数φ的设计。本发明实施例采用设计的特征以及其两两乘积作为其特征，即如果选择了三种特征A(x),B(x),C(x)，则，

φ(x)＝[A(x),B(x),C(x),A²(x),B²(x),C²(x),A(x)B(x),B(x)C(x),A(x)C(x)]

考虑敌我双方的速度、朝向角、翻滚角，以及敌我双方的相对位姿关系等与空战态势相关的各项因素，本发明实施例选用来刻画空战过程演进的特征包括：

其中，

除了特征之外，还有奖励机制也会影响算法的性能。

首先，由增强学习的基本概念直接定义出每个状态下所获的奖励g_pa(x)，

即当进入敌方的目标区域内时奖励为1，当被敌方进入我方目标区域内时奖励为-1，其余状态下奖励为0。但由于该函数的不连续性，直接使用它作为奖励函数会造成训练过程难以收敛，故使用g'(x)＝w_pg_pa(x)+(1-w_p)S(x)作为奖励函数，其中w_p是权重，本发明实施例中该值取0.7。

考虑到空战游戏中决策策略可以主要分为进攻与防守策略，策略优化算法可以以此为依据进行调整。本发明实施例提出自适应奖励机制，具体实现方式如下：

其中，ω＝θ^1-2r，r为训练过程中的统计胜率，θ特为超参数，用于控制对于不同情况下的奖励比例，本发明中θ＝3。

该自适应奖励机制的工作原理为，在训练初期胜率较小的时候，ω较大，此时奖励机制给予优势行为更大的奖励，即着重优化产生进攻行为的策略，而当后期胜率逐渐增大时，ω随之减小，此时奖励机制给予优势行为的奖励逐渐变小，此时着重优化产生躲避或防守行为的策略。

假设空战游戏中对手决策策略为三步搜索的Minimax算法，Minimax算法是基于有限步的搜索的博弈决策算法，该算法的原理不在本发明范围内，因此不做详细展开。

算法的具体流程如下：

输入：利用MiniMax算法初始化空间采样点集X，初始化目标函数J_approx(x)≈S(X)，初始化迭代次数：N

for k＝1:N do

X'＝f(X,u_b,π_r(X))

J_approx(x)≡φ(x)β

end for

输出：[J_approx(x)]

其中，

u_b为我方策略，π_r(X)为敌方策略。训练得到最优的值函数估计J_approx(x)后，可以得到一个该估计情况下的最优策略：

其中，u_p为我方策略，u_d为敌方策略，本发明实施例中为基于三步搜索的Minimax算法。

如图5所示，展示了通过ADP算法得到的值函数的图像。由于值函数是一个高维的函数，无法直接进行可视化，将两机其他状态固定，将敌机固定在原点位置移动我机，在移动过程中保持两机朝向一致，只分析位置对值函数的影响，下方深色区域表示我方占优，上方深色区域表示敌方占优，中间浅灰区域为均势情况。由图5可以看出，值函数的形状与经验预期是相符的，即在我方进入目标区域时值函数较大，反之，被敌方进入我方目标区域内时值函数较小。值函数峰值位置靠近原点位置，说明在两机靠近的区域内战术意义最大。相比于Minimax中的评价函数，虽然两者的基本形状相同，但Minimax中的评价函数的形状是由超参数控制的，而ADP是通过仿真数据学习到的，更具有实战价值。

ADP算法估计得到的是对真实值函数的近似，因此一定会存在一些偏差。实战中，使用在线Rollout的方式来增强ADP的表现，尽可能的消除偏差，即在第一步搜索遍历可能采取的所有情况，之后按照来仿真N步，再看此时哪个策略的评价值高，就采取哪个策略，在线Rollout的原理不在本发明的内容之内，因此不做展开。

通过本发明实施例使用的一对一空中格斗游戏平台测试，本发明实施例采用的实验条件如下：我方采用基于近似动态规划算法的蒙特卡洛博弈决策方法(在线Rollout优化)，敌方采用基于3步搜索的Minimax算法作为博弈决策方法。在敌我双方机型相同的情况下完成测试。我方对敌方的胜率约为70％。该结果也体现了基于近似动态规划算法的博弈决策方法的有效性。

根据本发明实施例提出的基于近似动态规划算法的博弈决策方法，为解决传统的动态规划方法会导致“维数灾难”的问题，提出近似动态规划方法，将传统的表格形式使用函数来近似，增强学习中的泛化和推广能力，从而在决策策略接近最优的前提下，保证决策的快速性。

其次参照附图描述根据本发明实施例提出的基于近似动态规划算法的博弈决策系统。

图6是本发明一个实施例的基于近似动态规划算法的博弈决策系统结构示意图。

如图6所示，该基于近似动态规划算法的博弈决策系统10包括：采集确定模块100、调整模块200和指导模块300。

其中，采集确定模块100，用于采集空中格斗游戏的游戏信息，并确定描述空中格斗过程的多维度特征向量，以作为近似动态规划算法的特征输入。调整模块200，用于根据预设的基于空中格斗游戏经验规则的自适应奖励机制，分阶段从进攻能力以及防守和躲避能力调整博弈算法。指导模块300，用于利用近似动态规划算法学习空中格斗游戏的价值函数，以在价值函数下指导格斗动作，输出博弈决策。

进一步地，在本发明的一个实施例中，多维度特征向量包括：双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。。

进一步地，在本发明的一个实施例中，自适应奖励机制为：

进一步地，在本发明的一个实施例中，博弈决策为：

根据本发明实施例提出的基于近似动态规划算法的博弈决策系统，为解决传统的动态规划方法会导致“维数灾难”的问题，提出近似动态规划方法，将传统的表格形式使用函数来近似，增强学习中的泛化和推广能力，从而在决策策略接近最优的前提下，保证决策的快速性。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。