CN110917622B - 基于近似动态规划算法的博弈决策方法及系统 - Google Patents

基于近似动态规划算法的博弈决策方法及系统 Download PDF

Info

Publication number
CN110917622B
CN110917622B CN201911142525.8A CN201911142525A CN110917622B CN 110917622 B CN110917622 B CN 110917622B CN 201911142525 A CN201911142525 A CN 201911142525A CN 110917622 B CN110917622 B CN 110917622B
Authority
CN
China
Prior art keywords
game
function
reward
fighting
dynamic programming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911142525.8A
Other languages
English (en)
Other versions
CN110917622A (zh
Inventor
芦维宁
杨君
梁斌
赵千川
马骁腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201911142525.8A priority Critical patent/CN110917622B/zh
Publication of CN110917622A publication Critical patent/CN110917622A/zh
Application granted granted Critical
Publication of CN110917622B publication Critical patent/CN110917622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • A63F13/56Computing the motion of game characters with respect to other game characters, game objects or elements of the game scene, e.g. for simulating the behaviour of a group of virtual soldiers or for path finding
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/75Enforcing rules, e.g. detecting foul play or generating lists of cheating players

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于近似动态规划算法的博弈决策方法及系统,其中,该方法包括以下步骤:根据空中格斗游戏的特点,确定多维度特征向量来描述空中格斗过程,并作为近似动态规划算法的特征输入;根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力两个方面提升博弈算法的性能;利用近似动态规划算法学习出空中格斗游戏的价值函数,在此价值函数下指导我方做出格斗动作。该博弈决策方法将传统的表格形式使用函数来近似,增强了增强学习中的泛化和推广能力,从而在决策策略接近最优的前提下,保证决策的快速性。

Description

基于近似动态规划算法的博弈决策方法及系统
技术领域
本发明涉及博弈决策技术领域,特别涉及一对一空战游戏环境下基于近似动态规划算法的博弈决策方法及系统。
背景技术
对抗性博弈决策问题目前是一类广泛受到关注的研究问题,其相关应用已经深入到诸如政治、军事、经济等社会各个领域。而随着人工智能技术的不断发展,机器博弈也在该领域的研究中发挥越来重要的作用,例如由DeepMind在2016年以及2017年推出的AlphaGo和AlphaGo Zero系统,在围棋类博弈游戏中成功战胜人类顶级高手玩家,其预示着机器博弈算法是解决该类问题的重要途径之一。
一对一空战游戏是一类典型的对抗性博弈决策类游戏,由于其游戏环境具有相对性和动态性,因此设计自主的空战决策方法需要同时兼顾准确性和快速性。从原理上来说,动态规划算法很适合解决该类问题,但实际问题中往往面临着具有大规模或是连续空间的状态和策略空间,使用传统的动态规划方法会导致“维数灾难”。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于近似动态规划算法的博弈决策方法,该方法在决策策略接近最优的前提下,保证决策的快速性。
本发明的另一个目的在于提出一种基于近似动态规划算法的博弈决策系统。
为达到上述目的,本发明一方面实施例提出了基于近似动态规划算法的博弈决策方法,包括以下步骤:采集空中格斗游戏的游戏信息,并确定描述空中格斗过程的多维度特征向量,以作为近似动态规划算法的特征输入;根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力调整博弈算法;以及利用所述近似动态规划算法学习空中格斗游戏的价值函数,以在所述价值函数下指导格斗动作,输出博弈决策。
本发明实施例的基于近似动态规划算法的博弈决策方法,为解决传统的动态规划方法会导致“维数灾难”的问题,提出近似动态规划方法,将传统的表格形式使用函数来近似,增强学习中的泛化和推广能力,从而在决策策略接近最优的前提下,保证决策的快速性。
另外,根据本发明上述实施例的基于近似动态规划算法的博弈决策方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述多维度特征向量包括:双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。
进一步地,在本发明的一个实施例中,所述自适应奖励机制为在构建所述价值函数的过程中,当初期对战胜率满足第一预设条件时,对于正向反馈将给与预设奖励,当对战胜率满足第二预设条件时,以预设缩小策略缩小正向反馈所获得的奖励。
进一步地,在本发明的一个实施例中,所述自适应奖励机制为:
Figure BDA0002281344200000021
其中,ω=θ1-2r,r为训练过程中的统计胜率,θ为超参数,用于控制对于不同情况下的奖励比例,g'(x)为奖励函数。
进一步地,在本发明的一个实施例中,所述博弈决策为:
Figure BDA0002281344200000022
其中,up为我方策略,ud为敌方策略,Japprox为初始化目标函数,g(x)为自适应奖励机制。
为达到上述目的,本发明另一方面实施例提出了基于近似动态规划算法的博弈决策系统,包括:采集确定模块,用于采集空中格斗游戏的游戏信息,并确定描述空中格斗过程的多维度特征向量,以作为近似动态规划算法的特征输入;调整模块,用于根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力调整博弈算法;指导模块,用于利用所述近似动态规划算法学习空中格斗游戏的价值函数,以在所述价值函数下指导格斗动作,输出博弈决策。
本发明实施例的基于近似动态规划算法的博弈决策系统,为解决传统的动态规划方法会导致“维数灾难”的问题,提出近似动态规划方法,将传统的表格形式使用函数来近似,增强学习中的泛化和推广能力,从而在决策策略接近最优的前提下,保证决策的快速性。
另外,根据本发明上述实施例的基于近似动态规划算法的博弈决策系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述多维度特征向量包括:双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。
进一步地,在本发明的一个实施例中,所述自适应奖励机制为在构建所述价值函数的过程中,当初期对战胜率满足第一预设条件时,对于正向反馈将给与预设奖励,当对战胜率满足第二预设条件时,以预设缩小策略缩小正向反馈所获得的奖励。
进一步地,在本发明的一个实施例中,所述自适应奖励机制为:
Figure BDA0002281344200000031
其中,ω=θ1-2r,r为训练过程中的统计胜率,θ为超参数,用于控制对于不同情况下的奖励比例,g'(x)为奖励函数。
进一步地,在本发明的一个实施例中,所述博弈决策为:
Figure BDA0002281344200000032
其中,up为我方策略,ud为敌方策略,Japprox为初始化目标函数,g(x)为自适应奖励机制。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于近似动态规划算法的博弈决策方法流程图;
图2为根据本发明提出一种基于近似动态规划算法的博弈模型构建流程图;
图3为根据本发明所用到的一对一空中格斗游戏对战平台中飞机格斗模型示意图;
图4为根据本发明中与敌我双方位置关系相关的变量定义示意图;
图5为根据本发明提出的博弈决策方法学习出的空中格斗游戏价值评价函数示意图;
图6为根据本发明一个实施例的基于近似动态规划算法的博弈决策系统结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于近似动态规划算法的博弈决策方法及系统,首先将参照附图描述根据本发明实施例提出的基于近似动态规划算法的博弈决策方法。
图1是本发明一个实施例的基于近似动态规划算法的博弈决策方法流程图。
如图1所示,该基于近似动态规划算法的博弈决策方法包括以下步骤:
在步骤S101中,采集空中格斗游戏的游戏信息,并确定描述空中格斗过程的多维度特征向量,以作为近似动态规划算法的特征输入。
进一步地,在本发明的一个实施例中,多维度特征向量包括:双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。
也就是说,根据空中格斗游戏的特点设计多维度特征向量,通过描述敌我双方的速度、朝向角、翻滚角,以及敌我双方的相对位姿关系等与空战态势相关的各项因素,实现刻画空中格斗游戏的演变过程,并作为近似动态规划算法的特征输入。
在步骤S102中,根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力调整博弈算法。
进一步地,在本发明的一个实施例中,自适应奖励机制为在构建价值函数的过程中,当初期对战胜率满足第一预设条件时,对于正向反馈将给与预设奖励,当对战胜率满足第二预设条件时,以预设缩小策略缩小正向反馈所获得的奖励。
也就是说,当构建价值函数的前期训练过程中,强化进攻能力将做作为主要的优化方向,当在胜率达到一定程度后,强化防守能力将作为主要的优化方向。
进一步地,在本发明的一个实施例中,自适应奖励机制为:
Figure BDA0002281344200000041
其中,ω=θ1-2r,r为训练过程中的统计胜率,θ为超参数,用于控制对于不同情况下的奖励比例,g'(x)为奖励函数。
具体地,自适应奖励机制的工作原理为:在训练初期胜率较小的时候,ω较大,此时奖励机制给予优势行为更大的奖励,即着重优化产生进攻行为的策略,而当后期胜率逐渐增大时,ω随之减小,此时奖励机制给予优势行为的奖励逐渐变小,此时着重优化产生躲避或防守行为的策略。
在步骤S103中,如图2所示,利用近似动态规划算法学习空中格斗游戏的价值函数,以在价值函数下指导格斗动作,输出博弈决策。
进一步地,在本发明的一个实施例中,博弈决策为:
Figure BDA0002281344200000051
其中,up为我方策略,ud为敌方策略,Japprox为初始化目标函数,g(x)为自适应奖励机制。
下面通过参考附图描述的示例性实施例,对本发明实施例做进一步解释,但不限于此。
本发明实施例采用的二维空战仿真平台包含飞机的动力学模型、格斗模型。在二维平面内,每架飞机的状态用一个五元组s=(x,y,v,θ,σ)来表示,各个变量的含义:
飞机位置(x,y):俯视视角下飞机的位置;
飞机速率v:飞机当前的飞行速率;
飞机偏航角θ:飞机当前的机头朝向;
机身翻滚角σ:飞机机身在轴线上偏离水平面的角度;
上述变量均存在各自的范围限制,与本发明实施例中采用的游戏仿真平台匹配,由于仿真平台的开发细节不属于本发明的内容,故在此不做展开。
如图3所示,每架飞机正前方有一个扇形攻击区,其长度为ratk,角度为θatk。每架飞机的正后方则有一个易受攻击的扇形死角,其长度为rdf,角度为θdf
如图4所示,分别为敌我双方质心距离r,方位AA,天线偏角ATA来描述,相对位置(r,AA,ATA)可以由两架飞机的位置计算得出。
两架飞机一对一格斗的情况。在二维平面内,每架飞机行动的最终的目标是:1)使敌机位于自身攻击区内;2)同时使自身位于敌机的死角内。同时满足上述两个条件,则可以认为飞机已经进入了可以攻击敌方而难以受到反击的优势状态。
动态规划方法基于贝尔曼方程求解值函数。以最短路径问题为例,假设机器人在一个4X4的棋盘上,每次只能选择向某一个方向移动一格,此时可能出现的状态和策略数都是离散的。定义奖励函数如下:
Figure BDA0002281344200000052
其中,x表示机器人的状态,二维数组,分别表示机器人位置的横纵坐标。
值函数J(x)用一张表格来表示,初始化J0(x)=0,然后使用贝尔曼公式更新值函数直到收敛。贝尔曼公式如下:
Jk+1(x)=maxu{γJk[f(x,u)]+g(x)}
其中,f为状态转移函数;u为采取的策略;γ为折扣因子,本发明实施例中取0.9。
当值函数收敛时,就得到了最佳的策略:
π*(x)=argmaxu{γJ*[f(x,u)]+g(x)}
如果将问题的定义扩展到连续的状态空间,此时传统的动态规划方法就不再适用了,需要引入近似值函数Japprox(x)=φ(x)β,式中φ(x)是状态x的特征函数,β是其参数。这样问题就由求解所有状态的评价值,变成求解最佳的值函数参数β。
通过迭代求解最佳参数β*的过程如下:随机采样一些状态记作X,初始化β0=0,估计此时采样点的值函数
Figure BDA0002281344200000061
其中X′表示采样点转移后的状态;由最小二乘方法修改此时的参数
Figure BDA0002281344200000062
其中Φ=φ(X);重复过程直到β收敛。以上即近似动态规划方法(approximate dynamicprogramming,ADP)的基本原理。
ADP算法效果很大程度上依赖于特征函数φ的设计。本发明实施例采用设计的特征以及其两两乘积作为其特征,即如果选择了三种特征A(x),B(x),C(x),则,
φ(x)=[A(x),B(x),C(x),A2(x),B2(x),C2(x),A(x)B(x),B(x)C(x),A(x)C(x)]
考虑敌我双方的速度、朝向角、翻滚角,以及敌我双方的相对位姿关系等与空战态势相关的各项因素,本发明实施例选用来刻画空战过程演进的特征包括:
Figure BDA0002281344200000063
Figure BDA0002281344200000071
其中,
Figure BDA0002281344200000072
Figure BDA0002281344200000073
除了特征之外,还有奖励机制也会影响算法的性能。
首先,由增强学习的基本概念直接定义出每个状态下所获的奖励gpa(x),
Figure BDA0002281344200000074
即当进入敌方的目标区域内时奖励为1,当被敌方进入我方目标区域内时奖励为-1,其余状态下奖励为0。但由于该函数的不连续性,直接使用它作为奖励函数会造成训练过程难以收敛,故使用g'(x)=wpgpa(x)+(1-wp)S(x)作为奖励函数,其中wp是权重,本发明实施例中该值取0.7。
考虑到空战游戏中决策策略可以主要分为进攻与防守策略,策略优化算法可以以此为依据进行调整。本发明实施例提出自适应奖励机制,具体实现方式如下:
Figure BDA0002281344200000081
其中,ω=θ1-2r,r为训练过程中的统计胜率,θ特为超参数,用于控制对于不同情况下的奖励比例,本发明中θ=3。
该自适应奖励机制的工作原理为,在训练初期胜率较小的时候,ω较大,此时奖励机制给予优势行为更大的奖励,即着重优化产生进攻行为的策略,而当后期胜率逐渐增大时,ω随之减小,此时奖励机制给予优势行为的奖励逐渐变小,此时着重优化产生躲避或防守行为的策略。
假设空战游戏中对手决策策略为三步搜索的Minimax算法,Minimax算法是基于有限步的搜索的博弈决策算法,该算法的原理不在本发明范围内,因此不做详细展开。
算法的具体流程如下:
输入:利用MiniMax算法初始化空间采样点集X,初始化目标函数Japprox(x)≈S(X),初始化迭代次数:N
for k=1:N do
X'=f(X,ubr(X))
Figure BDA0002281344200000082
Figure BDA0002281344200000083
Japprox(x)≡φ(x)β
end for
输出:[Japprox(x)]
其中,
Figure BDA0002281344200000084
ub为我方策略,πr(X)为敌方策略。训练得到最优的值函数估计Japprox(x)后,可以得到一个该估计情况下的最优策略:
Figure BDA0002281344200000085
其中,up为我方策略,ud为敌方策略,本发明实施例中为基于三步搜索的Minimax算法。
如图5所示,展示了通过ADP算法得到的值函数的图像。由于值函数是一个高维的函数,无法直接进行可视化,将两机其他状态固定,将敌机固定在原点位置移动我机,在移动过程中保持两机朝向一致,只分析位置对值函数的影响,下方深色区域表示我方占优,上方深色区域表示敌方占优,中间浅灰区域为均势情况。由图5可以看出,值函数的形状与经验预期是相符的,即在我方进入目标区域时值函数较大,反之,被敌方进入我方目标区域内时值函数较小。值函数峰值位置靠近原点位置,说明在两机靠近的区域内战术意义最大。相比于Minimax中的评价函数,虽然两者的基本形状相同,但Minimax中的评价函数的形状是由超参数控制的,而ADP是通过仿真数据学习到的,更具有实战价值。
ADP算法估计得到的是对真实值函数的近似,因此一定会存在一些偏差。实战中,使用在线Rollout的方式来增强ADP的表现,尽可能的消除偏差,即在第一步搜索遍历可能采取的所有情况,之后按照来仿真N步,再看此时哪个策略的评价值高,就采取哪个策略,在线Rollout的原理不在本发明的内容之内,因此不做展开。
通过本发明实施例使用的一对一空中格斗游戏平台测试,本发明实施例采用的实验条件如下:我方采用基于近似动态规划算法的蒙特卡洛博弈决策方法(在线Rollout优化),敌方采用基于3步搜索的Minimax算法作为博弈决策方法。在敌我双方机型相同的情况下完成测试。我方对敌方的胜率约为70%。该结果也体现了基于近似动态规划算法的博弈决策方法的有效性。
根据本发明实施例提出的基于近似动态规划算法的博弈决策方法,为解决传统的动态规划方法会导致“维数灾难”的问题,提出近似动态规划方法,将传统的表格形式使用函数来近似,增强学习中的泛化和推广能力,从而在决策策略接近最优的前提下,保证决策的快速性。
其次参照附图描述根据本发明实施例提出的基于近似动态规划算法的博弈决策系统。
图6是本发明一个实施例的基于近似动态规划算法的博弈决策系统结构示意图。
如图6所示,该基于近似动态规划算法的博弈决策系统10包括:采集确定模块100、调整模块200和指导模块300。
其中,采集确定模块100,用于采集空中格斗游戏的游戏信息,并确定描述空中格斗过程的多维度特征向量,以作为近似动态规划算法的特征输入。调整模块200,用于根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力调整博弈算法。指导模块300,用于利用近似动态规划算法学习空中格斗游戏的价值函数,以在价值函数下指导格斗动作,输出博弈决策。
进一步地,在本发明的一个实施例中,多维度特征向量包括:双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。。
进一步地,在本发明的一个实施例中,自适应奖励机制为在构建价值函数的过程中,当初期对战胜率满足第一预设条件时,对于正向反馈将给与预设奖励,当对战胜率满足第二预设条件时,以预设缩小策略缩小正向反馈所获得的奖励。
进一步地,在本发明的一个实施例中,自适应奖励机制为:
Figure BDA0002281344200000101
其中,ω=θ1-2r,r为训练过程中的统计胜率,θ为超参数,用于控制对于不同情况下的奖励比例,g'(x)为奖励函数。
进一步地,在本发明的一个实施例中,博弈决策为:
Figure BDA0002281344200000102
其中,up为我方策略,ud为敌方策略,Japprox为初始化目标函数,g(x)为自适应奖励机制。
根据本发明实施例提出的基于近似动态规划算法的博弈决策系统,为解决传统的动态规划方法会导致“维数灾难”的问题,提出近似动态规划方法,将传统的表格形式使用函数来近似,增强学习中的泛化和推广能力,从而在决策策略接近最优的前提下,保证决策的快速性。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (4)

1.一种基于近似动态规划算法的博弈决策方法,其特征在于,包括以下步骤:
采集空中格斗游戏的游戏信息,并确定描述空中格斗过程的多维度特征向量,以作为近似动态规划算法的特征输入;
根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力调整博弈算法;以及
利用所述近似动态规划算法学习空中格斗游戏的价值函数,以在所述价值函数下指导格斗动作,输出博弈决策;
所述自适应奖励机制为在构建所述价值函数的过程中,当初期对战胜率满足第一预设条件时,对于正向反馈将给与预设奖励,当对战胜率满足第二预设条件时,以预设缩小策略缩小正向反馈所获得的奖励;
所述自适应奖励机制为:
Figure FDA0003287832180000011
其中,ω=θ1-2r,r为训练过程中的统计胜率,θ为超参数,用于控制对于不同情况下的奖励比例,g'(x)为奖励函数;
所述博弈决策为:
Figure FDA0003287832180000012
其中,up为我方策略,ud为敌方策略,Japprox为初始化目标函数,g(x)为自适应奖励机制;
所述方法还包括,每架飞机正前方有一个扇形攻击区,其长度为ratk,角度为θatk;所述每架飞机的正后方有一个易受攻击的扇形死角,长度为rdf,角度为θdf
其中,敌我双方质心距离r,方位AA,天线偏角ATA,相对位置(r,AA,ATA)由两架飞机的位置计算得出;
两架飞机一对一格斗的情况;在二维平面内,每架飞机行动的目标是:1)使敌机位于自身攻击区内;2)同时使自身位于敌机的死角内,同时满足上述两个条件,认为飞机已经进入了可以攻击敌方而难以受到反击的优势状态;
其中,定义奖励函数如下:
Figure FDA0003287832180000021
其中,x表示机器人的状态,二维数组,分别表示机器人位置的横纵坐标;
值函数J(x)用一张表格来表示,初始化J0(x)=0,使用贝尔曼公式更新值函数直到收敛,所述贝尔曼公式如下:
Jk+1(x)=maxu{γJk[f(x,u)]+g(x)}
其中,f为状态转移函数;u为采取的策略;γ为折扣因子,取0.9;
当值函数收敛时,得到最佳的策略:
π*(x)=argmaxu{γJ*[f(x,u)]+g(x)}
引入近似值函数Japprox(x)=φ(x)β,式中φ(x)是状态x的特征函数,β是其参数;
通过迭代求解最佳参数β*的过程如下:随机采样一些状态记作X,初始化β0=0,估计此时采样点的值函数
Figure FDA0003287832180000022
其中X′表示采样点转移后的状态;由最小二乘方法修改此时的参数
Figure FDA0003287832180000023
其中Φ=φ(X);重复过程直到β收敛。
2.根据权利要求1所述的基于近似动态规划算法的博弈决策方法,其特征在于,所述多维度特征向量包括:双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。
3.一种基于近似动态规划算法的博弈决策系统,其特征在于,包括:
采集确定模块,用于采集空中格斗游戏的游戏信息,并确定描述空中格斗过程的多维度特征向量,以作为近似动态规划算法的特征输入;
调整模块,用于根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力调整博弈算法;以及
指导模块,用于利用所述近似动态规划算法学习空中格斗游戏的价值函数,以在所述价值函数下指导格斗动作,输出博弈决策;
所述自适应奖励机制为在构建所述价值函数的过程中,当初期对战胜率满足第一预设条件时,对于正向反馈将给与预设奖励,当对战胜率满足第二预设条件时,以预设缩小策略缩小正向反馈所获得的奖励;
所述自适应奖励机制为:
Figure FDA0003287832180000031
其中,ω=θ1-2r,r为训练过程中的统计胜率,θ为超参数,用于控制对于不同情况下的奖励比例,g'(x)为奖励函数;
所述博弈决策为:
Figure FDA0003287832180000032
其中,up为我方策略,ud为敌方策略,Japprox为初始化目标函数,g(x)为自适应奖励机制;
还包括,每架飞机正前方有一个扇形攻击区,其长度为ratk,角度为θatk;所述每架飞机的正后方有一个易受攻击的扇形死角,长度为rdf,角度为θdf
其中,敌我双方质心距离r,方位AA,天线偏角ATA,相对位置(r,AA,ATA)由两架飞机的位置计算得出;
两架飞机一对一格斗的情况;在二维平面内,每架飞机行动的目标是:1)使敌机位于自身攻击区内;2)同时使自身位于敌机的死角内,同时满足上述两个条件,认为飞机已经进入了可以攻击敌方而难以受到反击的优势状态;
其中,定义奖励函数如下:
Figure FDA0003287832180000041
其中,x表示机器人的状态,二维数组,分别表示机器人位置的横纵坐标;
值函数J(x)用一张表格来表示,初始化J0(x)=0,使用贝尔曼公式更新值函数直到收敛,所述贝尔曼公式如下:
Jk+1(x)=maxu{γJk[f(x,u)]+g(x)}
其中,f为状态转移函数;u为采取的策略;γ为折扣因子,取0.9;
当值函数收敛时,得到最佳的策略:
π*(x)=argmaxu{γJ*[f(x,u)]+g(x)}
引入近似值函数Japprox(x)=φ(x)β,式中φ(x)是状态x的特征函数,β是其参数;
通过迭代求解最佳参数β*的过程如下:随机采样一些状态记作X,初始化β0=0,估计此时采样点的值函数
Figure FDA0003287832180000042
其中X′表示采样点转移后的状态;由最小二乘方法修改此时的参数
Figure FDA0003287832180000043
其中Φ=φ(X);重复过程直到β收敛。
4.根据权利要求3所述的基于近似动态规划算法的博弈决策系统,其特征在于,所述多维度特征向量包括:双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。
CN201911142525.8A 2019-11-20 2019-11-20 基于近似动态规划算法的博弈决策方法及系统 Active CN110917622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911142525.8A CN110917622B (zh) 2019-11-20 2019-11-20 基于近似动态规划算法的博弈决策方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911142525.8A CN110917622B (zh) 2019-11-20 2019-11-20 基于近似动态规划算法的博弈决策方法及系统

Publications (2)

Publication Number Publication Date
CN110917622A CN110917622A (zh) 2020-03-27
CN110917622B true CN110917622B (zh) 2021-11-30

Family

ID=69851288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911142525.8A Active CN110917622B (zh) 2019-11-20 2019-11-20 基于近似动态规划算法的博弈决策方法及系统

Country Status (1)

Country Link
CN (1) CN110917622B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106647287A (zh) * 2017-02-20 2017-05-10 南京航空航天大学 一种基于自适应动态规划的输入受限微分对策制导方法
CN109085754A (zh) * 2018-07-25 2018-12-25 西北工业大学 一种基于神经网络的空间飞行器追逃博弈方法
CN109858111A (zh) * 2019-01-15 2019-06-07 天津大学 Rlv虚拟仿真平台设计及实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11004011B2 (en) * 2017-02-03 2021-05-11 Adobe Inc. Conservative learning algorithm for safe personalized recommendation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106647287A (zh) * 2017-02-20 2017-05-10 南京航空航天大学 一种基于自适应动态规划的输入受限微分对策制导方法
CN109085754A (zh) * 2018-07-25 2018-12-25 西北工业大学 一种基于神经网络的空间飞行器追逃博弈方法
CN109858111A (zh) * 2019-01-15 2019-06-07 天津大学 Rlv虚拟仿真平台设计及实现方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Real-time maneuvering decisions for autonomous air combat;Mcgrew J S;《Massachusetts Institute of Technology》;20081231;全文 *
基于近似动态规划与零和博弈的空战机动决策;梅丹等;《兵工自动化》;20170331;第36卷(第3期);第35-39页 *
改进近似动态规划法的攻击占位决策;姜龙亭等;《火力与指挥控制》;20190731;第44卷(第7期);第135-141页 *

Also Published As

Publication number Publication date
CN110917622A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
Yang et al. Maneuver decision of UAV in short-range air combat based on deep reinforcement learning
Jiandong et al. UAV cooperative air combat maneuver decision based on multi-agent reinforcement learning
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
Wang et al. Improving maneuver strategy in air combat by alternate freeze games with a deep reinforcement learning algorithm
CN112269396A (zh) 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法
CN114063644B (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN110928329A (zh) 一种基于深度q学习算法的多飞行器航迹规划方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN114460959A (zh) 一种基于多体博弈的无人机群协同自主决策方法及装置
CN113741525A (zh) 基于策略集合maddpg多无人机协同攻防对抗方法
Yu et al. Hawk and pigeon’s intelligence for UAV swarm dynamic combat game via competitive learning pigeon-inspired optimization
Chai et al. A hierarchical deep reinforcement learning framework for 6-DOF UCAV air-to-air combat
Kurniawan et al. An empirical study of reward structures for actor-critic reinforcement learning in air combat manoeuvring simulation
Gong et al. UAV cooperative air combat maneuvering confrontation based on multi-agent reinforcement learning
CN114638339A (zh) 基于深度强化学习的智能体任务分配方法
CN116858039A (zh) 一种高超声速飞行器博弈制导方法、系统、设备及介质
CN112799429A (zh) 基于强化学习的多弹协同攻击制导律设计方法
Duan et al. Autonomous maneuver decision for unmanned aerial vehicle via improved pigeon-inspired optimization
CN113159266B (zh) 基于麻雀搜索神经网络的空战机动决策方法
Liu et al. Optimization of large-scale UAV cluster confrontation game based on integrated evolution strategy
CN113741186A (zh) 一种基于近端策略优化的双机空战决策方法
CN110917622B (zh) 基于近似动态规划算法的博弈决策方法及系统
CN115061495A (zh) 一种基于鹰鸽博弈的无人机群组对抗自主控制方法
Chae et al. Tactics games for multiple UCAVs Within-Visual-Range air combat
CN116679742B (zh) 一种多六自由度飞行器协同作战决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant