CN111001161B - 一种基于二阶反向传播优先级的游戏策略获得方法 - Google Patents

一种基于二阶反向传播优先级的游戏策略获得方法 Download PDF

Info

Publication number
CN111001161B
CN111001161B CN201911351336.1A CN201911351336A CN111001161B CN 111001161 B CN111001161 B CN 111001161B CN 201911351336 A CN201911351336 A CN 201911351336A CN 111001161 B CN111001161 B CN 111001161B
Authority
CN
China
Prior art keywords
priority
sample data
sample
sequence
playback pool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911351336.1A
Other languages
English (en)
Other versions
CN111001161A (zh
Inventor
王红滨
原明旗
何鸣
张耘
王念滨
周连科
张毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201911351336.1A priority Critical patent/CN111001161B/zh
Publication of CN111001161A publication Critical patent/CN111001161A/zh
Application granted granted Critical
Publication of CN111001161B publication Critical patent/CN111001161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于二阶反向传播优先级的游戏策略获得方法,它属于智能化决策获取技术领域。本发明解决了在游戏策略的指挥决策过程中存在的数据利用率低以及策略质量低的问题。本发明方法结合了DPSCRM方法和BPTM方法,通过样本序列的累计奖赏值构建第一级奖赏值,可以获得高质量的策略;基于TD‑error构建优先级可以反向衰减传播的第二级优先级,可以提升数据利用率。本发明可以应用于游戏策略的获取。

Description

一种基于二阶反向传播优先级的游戏策略获得方法
技术领域
本发明属于智能化决策获取技术领域,具体涉及一种基于二阶反向传播优先级的游戏策略获得方法。
背景技术
随着计算机图形技术、网络技术和人机交互技术的发展,视频游戏的研究也进入到了一个全新的阶段。早期视频游戏的输入画面粗糙,游戏难度单一,不能给予游戏玩家较好的游戏体验。为了创造更加真实的游戏虚拟环境,增加游戏的可玩性和挑战性,以实现玩家与游戏智能体之间更加真实的交互,视频游戏的研究变得至关重要。
近年来,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域的研究热点,如何引导智能体通过自主学习,从而获得能够解决实际问题的策略系统始终是一个极具挑战性的问题。不同于需要标记的监督学习算法,强化学习(ReinforcementLearning,RL)本身并没有直接的监督信号来训练智能体的决策行为,因此,强化学习天生适用于解决上述问题。然而,由于传统强化学习算法缺乏合适的手段对高维的环境状态、动作以及智能体策略进行编码,长期以来仅能在较小问题空间上求得较好结果,一旦状态和动作维数变大,传统强化学习将会面临维数爆炸的问题。随着深度学习(Deep Learning,DL)的迅速发展,将具有对高维数据强大感知能力的深度神经网络与具有决策能力的强化学习算法相结合已经成为强化学习领域的一大发展趋势。DL和RL的巧妙结合使DRL具有先天的指挥决策优势,它可以直接将原始数据输入,不需要任何标签信息,深度学习会将原始数据进行提取,智能体Agent利用强化学习的决策能力从策略中选择最优的策略,进行完全智能化的决策。然而当前的深度强化学习算法在指挥决策的过程中仍然存在数据利用率低以及策略质量低等问题。
发明内容
本发明的目的是为解决在游戏策略的指挥决策过程中存在的数据利用率低以及策略质量低的问题,而提出了一种基于二阶反向传播优先级的游戏策略获得方法。
本发明为解决上述技术问题采取的技术方案是:一种基于二阶反向传播优先级的游戏策略获得方法,该方法包括以下步骤:
步骤一、初始化:当前值网络Q与目标值网络Q′的权重分别为θ与θ′,经验回放池E通过智能体Agent与环境交互存储样本序列,二级优先级
Figure BDA0002334739760000011
临时经验回放池
Figure BDA0002334739760000012
为空;并构建用于存储单个样本序列的经验回放池h;
步骤二、将当前状态Sm输入当前值网络Q,m=1,2,…,t;
利用探索利用策略选择Agent执行的动作Am,根据当前状态Sm和动作Am获得即时奖赏Rm和状态Sm+1;将样本数据<Sm;Am;Sm+1;Rm>存储到经验回放池h中,并赋予当前经验回放池中最大的优先级为
Figure BDA0002334739760000021
Figure BDA0002334739760000022
代表第m个样本数据的优先级;
步骤三、判断状态St是否达到中止状态,若状态St达到中止状态,将经验回放池h中样本数据组成的样本序列l1={<S1;A1;S2;R1>,<S2;A2;S3;R2>,…,<St;At;St+1;Rt>}保存到经验回放池E中,并清空经验回放池h,执行步骤十二;
步骤四、若状态St未达到中止状态,则判断是否满足t%K=0,其中:t%K=0表示t对K取余等于0,K为训练频率;
若不满足t%K=0,则执行步骤十和步骤十一;
若满足t%K=0,则计算出经验回放池E中包含的样本序列的数量M,并执行步骤五至步骤十一;
步骤五、分别计算出经验回放池E中每个样本序列的累计奖赏值,根据每个样本序列的累计奖赏值计算出每个样本序列的优先级;
步骤六、分别根据步骤五计算出的每个样本序列的优先级来计算每个样本序列被采样的概率;
步骤七、根据步骤六计算出的每个样本序列被采样的概率,对经验回放池E中的样本序列进行采样,将采样出来的样本序列放入临时经验回放池
Figure BDA0002334739760000023
中,得到临时经验回放池
Figure BDA0002334739760000024
中含有的样本数据的个数
Figure BDA0002334739760000025
步骤八、计算步骤七临时经验回放池
Figure BDA0002334739760000026
中每个样本数据的采样概率,根据每个样本数据的采样概率,从临时经验回放池
Figure BDA0002334739760000027
Figure BDA0002334739760000028
个样本数据中抽取出k个样本数据;
再计算每个抽取出的样本数据的采样重要性系数ωe以及TD-errorδe,根据TD-errorδe计算出每个抽取出的样本数据的优先级;
根据每个抽取出的样本数据在经验回放池
Figure BDA0002334739760000029
中的样本序列中的位置,进行反向更新优先级;
根据采样重要性系数ωe和TD-errorδe计算每个抽取出的样本数据的累计梯度;
步骤九、根据步骤八计算出的累计梯度更新当前值网络Q的权重θ;
步骤十、当t%L=0时,更新目标值网络Q′的权重为:当前值网络Q的当前权重;其中:L为目标值网络Q′的权重更新频率;
步骤十一、令Sm=Sm+1,重复执行步骤二至步骤十一,如此循环,直至达到设置的最大迭代次数时停止执行,获得训练好的当前值网络Q与目标值网络Q′;
步骤十二、本次指挥决策过程结束,将Sm设置初始状态进行下一次指挥决策过程。
本发明的有益效果是:本发明提出了一种基于二阶反向传播优先级的游戏策略获得方法,本发明方法的优势如下:
(1)通过基于累计奖赏值构建了二级优先级,提出DPSCRM方法,该方法与经典Prioritized DQN算法相比,在快速收敛的同时,可以获得高质量的策略;
(2)基于BPTM方法,可以实现优先级反向衰减传播,样本数据的优先级取优先级反向衰减传播的最大值,可以加速有效数据的训练,实验也得到验证,BPTM方法提升了数据的利用率;
(3)通过结合DPSCRM方法和BPTM方法提出了本发明方法,通过样本序列的累计奖赏值构建第一级奖赏值,旨在获得高质量的策略;基于TD-error构建优先级可以反向衰减传播的第二级优先级,旨在提升数据利用率。
附图说明
图1是本发明的一种基于二阶反向传播优先级的游戏策略获得方法的流程图;
图中:Q(s,a;θ)表示当前值网络参数为θ时,在s状态下执行动作a获得的奖赏值;
max(s′,a′;θ)表示目标值网络参数为θ时,在s′状态下所有可执行动作中最大的奖赏值,此时对应的动作为a′;
a=argmax(s,a;θ)代表当前值网络参数为θ,在s状态下所有可执行动作对应奖赏值最大的动作;
(s,a,r,s′)代表s、a、r和s′组成的样本数据,当前状态s输入当前值网络,利用ε-greedy策略选择Agent执行的动作a,根据当前状态s和动作a获得即时奖赏r和状态s′。
具体实施方式
具体实施方式一:如图1所示,本实施方式所述的一种基于二阶反向传播优先级的游戏策略获得方法,该方法包括以下步骤:
步骤一、初始化:当前值网络Q与目标值网络Q′的权重分别为θ与θ′,为了满足样本数据多样性并缩短训练时间,经验回放池E通过智能体Agent与环境交互存储样本序列,二级优先级
Figure BDA0002334739760000043
临时经验回放池
Figure BDA0002334739760000044
为空;并构建用于存储单个样本序列的经验回放池h;
步骤二、将当前状态Sm输入当前值网络Q,m=1,2,…,t;
利用探索利用策略选择Agent执行的动作Am,根据当前状态Sm和动作Am获得即时奖赏Rm和状态Sm+1;将样本数据<Sm;Am;Sm+1;Rm>存储到经验回放池h中,并赋予当前经验回放池中最大的优先级为
Figure BDA0002334739760000041
Figure BDA0002334739760000042
代表第m个样本数据的优先级;
对于状态Sm,利用探索利用策略ε-greedy选择Agent执行的动作Am,Am~πθ(Sm)。
步骤三、判断状态St是否达到中止状态(达到中止状态是指:t达到学习的终止时间步T时停止),若状态St达到中止状态,将经验回放池h中样本数据组成的样本序列l1={<S1;A1;S2;R1>,<S2;A2;S3;R2>,…,<St;At;St+1;Rt>}保存到经验回放池E中,并清空经验回放池h,执行步骤十二;
步骤四、若状态St未达到中止状态,则判断是否满足t%K=0,其中:t%K=0表示t对K取余等于0,K为训练频率;
若不满足t%K=0,则执行步骤十和步骤十一;
若满足t%K=0,则计算出经验回放池E中包含的样本序列的数量M,并执行步骤五至步骤十一;
步骤五、分别计算出经验回放池E中每个样本序列的累计奖赏值,根据每个样本序列的累计奖赏值计算出每个样本序列的优先级;
步骤六、分别根据步骤五计算出的每个样本序列的优先级来计算每个样本序列被采样的概率;
步骤七、根据步骤六计算出的每个样本序列被采样的概率,对经验回放池E中的样本序列进行采样,将采样出来的样本序列放入临时经验回放池
Figure BDA0002334739760000051
中,得到临时经验回放池
Figure BDA0002334739760000052
中含有的样本数据的个数
Figure BDA0002334739760000053
步骤八、计算步骤七临时经验回放池
Figure BDA0002334739760000054
中每个样本数据的采样概率,根据每个样本数据的采样概率,从临时经验回放池
Figure BDA0002334739760000055
Figure BDA0002334739760000056
个样本数据中抽取出k个样本数据;
再计算每个抽取出的样本数据的采样重要性系数ωe以及TD-errorδe,根据TD-errorδe计算出每个抽取出的样本数据的优先级;
根据每个抽取出的样本数据在经验回放池
Figure BDA0002334739760000057
中的样本序列中的位置,进行反向更新优先级;
根据采样重要性系数ωe和TD-errorδe计算每个抽取出的样本数据的累计梯度;
Δ←Δ+ωeδeθq(Se,Ae,θ)
步骤九、根据步骤八计算出的累计梯度更新当前值网络Q的权重θ;
步骤十、当t%L=0时,更新目标值网络Q′的权重为:当前值网络Q的当前权重;其中:L为目标值网络Q′的权重更新频率;
步骤十一、令Sm=Sm+1,重复执行步骤二至步骤十一,如此循环,直至达到设置的最大迭代次数时停止执行,获得训练好的当前值网络Q与目标值网络Q′;
步骤十二、本次指挥决策过程结束,将Sm设置初始状态进行下一次指挥决策过程。
步骤三中,若状态St达到中止状态,将经验回放池h中样本数据组成的样本序列l1={<S1;A1;S2;R1>,<S2;A2;S3;R2>,…,<St;At;St+1;Rt>}保存到经验回放池E中,并清空经验回放池h,执行步骤十二;否则,一直通过与环境交互,直到终止状态。
状态S为游戏中的游戏图像(游戏图像中的人物、环境、位置的变化都会引起状态S的变化),动作A在游戏中对应可以执行的各种操作,例如:上下左右移动、射击类游戏的发射子弹等操作。
通过实验的验证,本发明方法在游戏策略的指挥决策过程中与其它深度强化学习算法相比,本发明方法可以更快的获得更稳定、更高质量的策略。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤五的具体过程为:
经验回放池E中第j个样本序列lj的累计奖赏值Gj为:
Figure BDA0002334739760000061
其中:γ为折扣因子,T′为第j个样本序列lj中的样本数据总个数;
经验回放池E中第j个样本序列lj的优先级pj为:
pj=Gj
其中:ε为常数;ε的取值趋近于0。
具体实施方式三:本实施方式与具体实施方式二不同的是:所述步骤六的具体过程为:
第j个样本序列lj被采样的概率P(j)为:
Figure BDA0002334739760000062
其中:pk′代表第k′个样本序列lk′的优先级,M代表经验回放池E中样本序列的总个数,α代表比例系数。
具体实施方式四:本实施方式与具体实施方式三不同的是:所述计算步骤七临时经验回放池
Figure BDA0002334739760000063
中每个样本数据的采样概率,其具体过程为:
临时经验回放池
Figure BDA0002334739760000064
中第e个样本数据的采样概率
Figure BDA0002334739760000065
为:
Figure BDA0002334739760000066
其中:
Figure BDA00023347397600000610
为第e个样本数据的优先级,
Figure BDA0002334739760000067
Figure BDA0002334739760000068
为第n个样本数据的优先级,α为常数,α的取值为[0,1]。
本实施方式中,每个样本数据的优先级的计算方法是采用本领域的现有方法。
具体实施方式五:本实施方式与具体实施方式四不同的是:所述根据每个抽取出的样本数据在经验回放池
Figure BDA0002334739760000069
中的样本序列中的位置,进行反向更新优先级;其具体过程为:
对于抽取出的k个样本数据中的任意一个样本数据,若该样本数据是所在样本序列中的第i个样本数据,则该样本数据的优先级会向前以衰减的形式传播;
该样本数据所在样本序列中的第i-1个样本数据的优先级pi-1为:
pi-1=max{pi·ρ1,pi-1}
其中:pi为该样本数据的优先级(该样本数据是所在样本序列中的第i个样本数据),pi-1为第i-1个样本数据的原优先级,ρ为衰减因子;
该样本数据所在样本序列中的第i-2个样本数据的优先级pi-2为:
pi-2=max{pi·ρ2,pi-2}
其中:pi-2为第i-2个样本数据的原优先级,ρ为衰减因子;
且定义该样本数据的优先级向前传播的窗口容量W为:
Figure BDA0002334739760000071
同理,计算出窗口容量W内,该样本数据前面的其他样本数据的优先级。
如果抽取的k个样本数据中,有两个或两个以上的样本数据来源于同一个样本序列,那么按照抽取样本数据的先后顺序,分别利用样本数据进行优先级的向前传播,获得更新后的样本序列。
本发明基于反向优先级传播方法(Based on backward priority TransferMethod,BPTM)和序列累计奖赏的二阶优先级方法(Double Priority based onSequential Cumulative Reward Method,DPSCRM),BPTM方法实现了同一个episode中transaction的优先级反向传播,DPSCRM方法实现了基于序列的累计奖赏值创建的二阶优先级;
基于反向优先级传播方法(Based on backward priority Transfer Method,BPTM):
样本序列li={<S1;A1;S2;R1>,<S2;A2;S3;R2>,…,<Sn-1;An-1;Sn;Rn-1>}为经验回放池E中的一个样本序列,样本序列中样本数据优先级集合为p=(p1,p2,p3,…,pn-1),即:<Si;Ai;Si+1;Ri>样本数据的优先级为pi,如果Agent观察到一个新的样本数据<Sn;An;Sn+1;Rn>,首先计算新样本数据的优先级,公式为:
Figure BDA0002334739760000082
pn=|δ|+ε
其中,ε是一个极小的正数,目的是为了当样本数据的TD-error的值为0的时候,Agent能够以一个较小的概率对该样本数据进行采样,防止TD-error值为0的样本数据至始至终不会被Agent采样的情况发生,保证了采样数据的多样性。
样本序列中第i个样本数据<Si;Ai;Si+1;Ri>被采样的概率可以求得,为:
Figure BDA0002334739760000081
其中,指数α表示了优先级起作用的程度。假设Agent所在的样本序列为l={<S1;A1;S2;R1>,<S2;A2;S3;R2>,…,<Sn-1;An-1;Sn;Rn-1>},样本序列中样本数据优先级集合为p=(p1,p2,p3…pn-1),观察到的当前样本数据是样本序列中的第n个为<Sn;An;Sn+1;Rn>,当前样本数据的优先级为pi,在BPTM方法中,样本序列中第n个样本数据的优先级会向第n-1、n-2、n-3…以衰减的形式传播,第n-1样本数据会在传播优先级和原优先级中选择一个值较大的优先级作为第n-1样本数据的优先级,并且距离当前样本数据<Sn;An;Sn+1;Rn>的距离越远,pn的传播值越小,即:同一序列样本中,样本数据距离越远影响会逐渐减小。优先级传播计算公式如下所示:
pn-1=max{pn·ρ1,pn-1}
pn-2=max{pn·ρ2,pn-2}
其中,ρ是衰减因子,表示当前样本数据向之前样本数据传播优先级的影响。
在此,我们需要注意的是,优先级的传递是以指数的形式衰退的,由于优先级此时,是以概率的形式,范围在0-1,故随着向前的不断传递,我们所传递的优先级的值不断趋向于0,经过一些更新之后,衰减的优先级pn-k是可忽略的,若再进行计算将是非常的浪费计算资源的,由于计算的问题,导致收敛的速度非常慢。因此,定义一个窗口,窗口的容量W表示当前的优先级pn允许向前面的样本数据衰退传播的距离,超过这个距离衰退的传递将会停止。我们选择了1%作为的pn阈值,以便当衰减的优先级变得非常小的时候,停止衰退的传递。由此,我们可以基于ρ的值计算出窗口的大小,公式如下:
pn·ρW≤0.01pn
Figure BDA0002334739760000091
在提升样本数据利用率的同时,不会导致大量的计算。BPTM方法在抽取样本数据的基础上,对同一样本序列中当前样本数据之前的样本数据进行优先级反向衰减传播,该计算过程如表1所示:
表1
Figure BDA0002334739760000092
Figure BDA0002334739760000101
基于序列累计奖赏的二阶优先级方法(Double Priority based on SequentialCumulative Reward Method,DPSCRM):
在DPSCRM方法中,我们构建了二阶优先级。第一阶优先级是基于经验回放池中样本序列的累计奖赏值的,在进行采样的时候将以更大的概率选择累计奖赏值高的序列;第二阶优先级在被选择的序列中基于TD-error值进行采样训练Q网络。DPSCRM方法分别从序列的累计奖赏值的作用和深度神经网络误差梯度两个方面对样本数据进行采样,提升策略的学习速度。同时DPSCRM方法并没有放弃对累计奖赏值小的序列中的样本数据的采样,仅仅是这类样本数据被采样的概率相对较小,因此DPSCRM方法在采样过程中也保证了样本数据的多样性。
从累计奖赏值大的序列中进行样本数据的选择,可以增加含有有效动作样本数据的数量,从而能够加速算法的收敛、产生高质量的策略。在DPSCRM方法中,利用E={l1,l2,l3,…}表示Experience Replay Memory中存储样本数据,其中li表示Experience ReplayMemory中第i个序列样本;li={<S1 i;A1 i;S2 i;R1 i>,<S2 i;A2 i;S3 i;R2 i>,…},其中<Sk i;Ak i;Sk+1 i;Rk i>表示在序列li中的第k个样本数据,表示的意义是:Agent在不断试错的过程中,在Experience Replay Memory中产生了多个序列样本,每个序列样本都由多个四元组组成,其表示Agent与环境不断交互的过程中,状态Sk i下选择动作Ak i执行,环境状态转换为Sk i,同时Agent获得的即时奖赏值为Rk i。如果Agent处于状态St的时候,如果此时E中存在两个样本序列la、lb,两个序列中的样本数据<St;At a;St+1 a;Rt a>、<St;At b;St+1 b;Rt b>均可以被回放,根据动作值函数更新公式对<St;At a;St+1 a;Rt a>回放,动作值函数此刻将收敛到q*(St,At a)>q*(St,At b),同理,<St;At b;St+1 b;Rt b>的动作值函数将收敛到q*(St,At b)。
其中,动作值函数更新公式如下所示:
Figure BDA0002334739760000111
q(S,A)=E[St=s,At=a,π]
公式q(S,A)=E[St=s,At=a,π]表示智能体处于s状态,采用动作a,然后执行策略π可以获得的累计期望回报。通过公式
Figure BDA0002334739760000117
不断循环迭代,q(S,A)最终将收敛到q*(S,A),即获得最优动作值函数法。
若Agent在k时刻处于Sk状态,对样本数据<Sk;Ak;St;Rk>进行回放,此刻Agent将执行动作Ak使Agent所处的状态由Sk转移到状态St,更新动作值函数为:
Figure BDA0002334739760000112
我们要使q(Sk,Ak)可以更快的收敛,就需要
Figure BDA0002334739760000113
的值准确,若对于t时刻两个样本数据<St;At a;St+1 a;Rt a>、<St;At b;St+1 b;Rt b>对应的最优动作值函数满足:q*(St,At a)>q*(St,At b),那么上述公式
Figure BDA0002334739760000114
就可以改写成:
Figure BDA0002334739760000115
这表明回放序列中的样本数据<St;At a;St+1 a;Rt a>会使q(Sk,Ak)加速收敛。
在Priortized DQN中用于训练的损失函数为:
L(θ)=(y-q(s,a;θ))2
其中,y是目标网络的值,被称为目标值,公式为:
Figure BDA0002334739760000116
上式y值与传统监督学习使用的目标值是有所不同的,监督学习中的目标值在整个训练过程中是恒定不变的,而在Priortized DQN算法中目标值y是动态变化的,导致了算法训练过程中收敛速度过慢、训练过程不稳定的问题。而在DPSCRM方法中,进行了两次采样,第一次采样是基于累计奖赏值的,其目的是增加参与训练样本数据中有效动作的数量,保证了算法训练过程中目标值的稳定性;第二次采样是在第一次抽取样本序列的基础上进行,基于样本序列中每个样本数据的TD-error值执行采样操作,抽取的样本数据最终用于算法的训练,第二次采样的目的是加速动作值函数的收敛速度。
虽然累计奖赏值大的样本数据对算法训练有更大的促进作用,在DPSCRM方法中也保证了算法训练过程中样本数据的多样性。E中样本数据的采样概率是基于序列样本的累计奖赏值,累计奖赏值越大,样本序列被采样的概率将越大。假设E中存储了n个样本序列,E={l1,l2,l3,…,ln},样本序列li={<S1 a;A1 a;S2 a;R1 a>,<S2 a;A2 a;S2 a;R2 a>,…}为E中的第a个样本序列,序列中样本数据的数量为|la|,其中<Sj a;Aj a;Sj+1 a;Rj a>是样本序列la中的一个样本数据,则可以计算出样本序列la获得的累计奖赏值为:
Figure BDA0002334739760000121
则,第a个样本序列的优先级为:
Pi=Gi
公式中的ε是一个极小的正数,其目的在于保证所有的样本序列均可以被采样训练算法,避免某条样本序列在E中不会被使用,因为这不但会占据E中的存储空间,同时也会导致算法数据的过于单一,影响Agent训练出策略的质量。可以计算出样本序列la被采样的概率,公式为:
Figure BDA0002334739760000122
公式
Figure BDA0002334739760000123
中的α的值决定了优先级所占的比例,当α的值为0的时候,基于累计奖赏值的优先级采样将退化为经典DQN算法中的均匀采样。
基于每个样本序列概率值P(i)的大小对E中的样本序列进行采样,样本序列累计奖赏值越大,对应P(i)的值越大,被采样的概率越高;对于累计奖赏值小的样本序列同样也有机会被采样,甚至对于累计奖赏值为0的样本数据也有机会被采样。这就保证了DPSCRM方法,在累计奖赏值大的序列样本以更大的概率参与算法训练的同时,保证了样本数据的多样性。
通过对P(i)中的样本序列la以概率P(i)进行采样,获得了第一阶优先级样本序列,用E′={l1′,l2′,l3′,…,ln′}表示第一阶优先级样本序列的集合,则E′中样本数据的总数公式为:
Figure BDA0002334739760000131
设eu′=<Su′;Au′;Su+1′;Ru′>,其中u∈{1,2,3,…,N},则可以计算出eu′在算法训练过程中TD-error为:
Figure BDA0002334739760000132
可以求出E′中样本数据eu′的优先级为:
Pu′=|δu′|+ε
基于Pu′我们可以求解出E′中样本数据eu′被采样的概率:
Figure BDA0002334739760000133
通过公式
Figure BDA0002334739760000134
可在第一阶优先级的基础上完成第二阶优先级的构建,对于样本数据eu′以概率P(u)′对E′中存储的样本数据进行采样并进行训练,第二阶优先级的构建可以加速算法网络的收敛的速度。
DPSCRM方法首先以样本序列为基础构建经验池E,然后根据E中样本序列的累计奖赏值,样本序列的累计奖赏值与优先级成正比的关系,即:样本序列累计奖赏值越大,被采样的概率越大,构建出第一阶优先级;在对E中的样本序列进行采样后,存储在经验池E′,在E′中根据样本数据的TD-error的值构建二阶优先级,优先级的大小与TD-error的值成正比。第一阶优先级可以使Agent获取更多有效的动作,这与深度强化学习以获得累计奖赏为目的的思想是相同的,可以使Agent在训练的过程中获得高质量的策略;第二阶优先级基于TD-error值,从样本数据在迭代中加速的作用角度出发,可以加快算法训练过程中收敛的速度。DPSCRM方法的计算过程如表2所示:
表2
Figure BDA0002334739760000141
Figure BDA0002334739760000151
本发明方法是针对Priortized DQN算法经验回放池中优先级进行的改进,DPSCRM方法以样本序列的累计奖赏值为切入点,经验回放池E={l1,l2,l3,…},li表示经验回放池中第i个序列样本;li={<S1 i;A1 i;S2 i;R1 i>,<S2 i;A2 i;S3 i;R2 i>,…},其中<Sk i;Ak i;Sk+1 i;Rk i>表示在序列li中的第k个样本数据,根据E中样本序列li的累计奖赏值的分布情况构建第一阶优先级,目的训练出来的策略具有更大的累计奖赏值,这与深度强化学习的目标是一致的,有利于提升学习出的策略的质量。通过对E′={l1,l2,l3,…,ln}中的样本序列以概率P(i)进行采样,获得了第一阶优先级样本序列,用E′={l1,l2,l3,…,ln}表示第一阶优先级样本序列的集合,在E′中使用BPTM方法,BPTM方法首先会计算出当前样本数据的TD-error值,与Priortized DQN仅仅构建当前样本数据优先级不同的是,BPTM方法除了会构建当前样本数据的优先级,会将当前样本数据的优先级向同一个样本序列的前W个距离进行衰减传播,BPTM方法可以充分的利用经验回放池中的样本数据,极大的提升了样本的利用率。
本发明方法的计算过程如表3所示:
表3
Figure BDA0002334739760000161
Figure BDA0002334739760000171
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (4)

1.一种基于二阶反向传播优先级的游戏策略获得方法,其特征在于,该方法包括以下步骤:
步骤一、初始化:当前值网络Q与目标值网络Q′的权重分别为θ与θ′,经验回放池E通过智能体Agent与环境交互存储样本序列,二级优先级
Figure FDA0004076886630000011
临时经验回放池
Figure FDA0004076886630000012
为空;并构建用于存储单个样本序列的经验回放池h;
步骤二、将当前状态Sm输入当前值网络Q,m=1,2,…,t;
利用探索利用策略选择Agent执行的动作Am,根据当前状态Sm和动作Am获得即时奖赏Rm和状态Sm+1;将样本数据<Sm;Am;Sm+1;Rm>存储到经验回放池h中,并赋予当前经验回放池中最大的优先级为
Figure FDA0004076886630000013
Figure FDA0004076886630000014
代表第m个样本数据的优先级;
步骤三、判断状态St是否达到中止状态,若状态St达到中止状态,将经验回放池h中样本数据组成的样本序列l1={<S1;A1;S2;R1>,<S2;A2;S3;R2>,…,<St;At;St+1;Rt>}保存到经验回放池E中,并清空经验回放池h,执行步骤十二;
步骤四、若状态St未达到中止状态,则判断是否满足t%K=0,其中:t%K=0表示t对K取余等于0,K为训练频率;
若不满足t%K=0,则执行步骤十和步骤十一;
若满足t%K=0,则计算出经验回放池E中包含的样本序列的数量M,并执行步骤五至步骤十一;
步骤五、分别计算出经验回放池E中每个样本序列的累计奖赏值,根据每个样本序列的累计奖赏值计算出每个样本序列的优先级;
步骤六、分别根据步骤五计算出的每个样本序列的优先级来计算每个样本序列被采样的概率;
步骤七、根据步骤六计算出的每个样本序列被采样的概率,对经验回放池E中的样本序列进行采样,将采样出来的样本序列放入临时经验回放池
Figure FDA0004076886630000015
中,得到临时经验回放池
Figure FDA0004076886630000016
中含有的样本数据的个数
Figure FDA0004076886630000017
步骤八、计算步骤七临时经验回放池
Figure FDA0004076886630000018
中每个样本数据的采样概率,根据每个样本数据的采样概率,从临时经验回放池
Figure FDA0004076886630000019
Figure FDA00040768866300000110
个样本数据中抽取出k个样本数据;
再计算每个抽取出的样本数据的采样重要性系数ωe以及TD-errorδe,根据TD-errorδe计算出每个抽取出的样本数据的优先级;
根据每个抽取出的样本数据在经验回放池
Figure FDA0004076886630000021
中的样本序列中的位置,进行反向更新优先级;
所述根据每个抽取出的样本数据在经验回放池
Figure FDA0004076886630000022
中的样本序列中的位置,进行反向更新优先级;其具体过程为:
对于抽取出的k个样本数据中的任意一个样本数据,若该样本数据是所在样本序列中的第i个样本数据,则该样本数据的优先级会向前以衰减的形式传播;
该样本数据所在样本序列中的第i-1个样本数据的优先级pi-1为:
pi-1=max{pi·ρ1,pi-1}
其中:pi为该样本数据的优先级,pi-1为第i-1个样本数据的原优先级,ρ为衰减因子;
该样本数据所在样本序列中的第i-2个样本数据的优先级pi-2为:
pi-2=max{pi·ρ2,pi-2}
其中:pi-2为第i-2个样本数据的原优先级,ρ为衰减因子;
且定义该样本数据的优先级向前传播的窗口容量W为:
Figure FDA0004076886630000023
同理,计算出窗口容量W内,该样本数据前面的其他样本数据的优先级;
根据采样重要性系数ωe和TD-errorδe计算每个抽取出的样本数据的累计梯度;
步骤九、根据步骤八计算出的累计梯度更新当前值网络Q的权重θ;
步骤十、当t%L=0时,更新目标值网络Q′的权重为:当前值网络Q的当前权重;其中:L为目标值网络Q′的权重更新频率;
步骤十一、令Sm=Sm+1,重复执行步骤二至步骤十一,如此循环,直至达到设置的最大迭代次数时停止执行,获得训练好的当前值网络Q与目标值网络Q′;
步骤十二、本次指挥决策过程结束,将Sm设置初始状态进行下一次指挥决策过程。
2.根据权利要求1所述的一种基于二阶反向传播优先级的游戏策略获得方法,其特征在于,所述步骤五的具体过程为:
经验回放池E中第j个样本序列lj的累计奖赏值Gj为:
Figure FDA0004076886630000031
其中:γ为折扣因子,T′为第j个样本序列lj中的样本数据总个数;
经验回放池E中第j个样本序列lj的优先级pj为:
pj=Gj
其中:ε为常数。
3.根据权利要求2所述的一种基于二阶反向传播优先级的游戏策略获得方法,其特征在于,所述步骤六的具体过程为:
第j个样本序列lj被采样的概率P(j)为:
Figure FDA0004076886630000032
其中:pk′代表第k′个样本序列lk′的优先级,M代表经验回放池E中样本序列的总个数,α代表比例系数。
4.根据权利要求3所述的一种基于二阶反向传播优先级的游戏策略获得方法,其特征在于,所述计算步骤七临时经验回放池
Figure FDA0004076886630000033
中每个样本数据的采样概率,其具体过程为:
临时经验回放池
Figure FDA0004076886630000034
中第e个样本数据的采样概率
Figure FDA0004076886630000035
为:
Figure FDA0004076886630000036
其中:
Figure FDA0004076886630000037
为第e个样本数据的优先级,
Figure FDA0004076886630000038
Figure FDA0004076886630000039
为第n个样本数据的优先级,α为常数,α的取值为[0,1]。
CN201911351336.1A 2019-12-24 2019-12-24 一种基于二阶反向传播优先级的游戏策略获得方法 Active CN111001161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911351336.1A CN111001161B (zh) 2019-12-24 2019-12-24 一种基于二阶反向传播优先级的游戏策略获得方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911351336.1A CN111001161B (zh) 2019-12-24 2019-12-24 一种基于二阶反向传播优先级的游戏策略获得方法

Publications (2)

Publication Number Publication Date
CN111001161A CN111001161A (zh) 2020-04-14
CN111001161B true CN111001161B (zh) 2023-04-07

Family

ID=70116325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911351336.1A Active CN111001161B (zh) 2019-12-24 2019-12-24 一种基于二阶反向传播优先级的游戏策略获得方法

Country Status (1)

Country Link
CN (1) CN111001161B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11383104B2 (en) * 2020-06-27 2022-07-12 Uih America, Inc. Systems and methods for dose measurement in radiation therapy

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284812A (zh) * 2018-09-19 2019-01-29 哈尔滨理工大学 一种基于改进dqn的视频游戏模拟方法
CN110401964A (zh) * 2019-08-06 2019-11-01 北京邮电大学 一种面向用户为中心网络基于深度学习的功率控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018204004A1 (en) * 2018-06-06 2020-01-02 Canon Kabushiki Kaisha Method, system and apparatus for selecting frames of a video sequence

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284812A (zh) * 2018-09-19 2019-01-29 哈尔滨理工大学 一种基于改进dqn的视频游戏模拟方法
CN110401964A (zh) * 2019-08-06 2019-11-01 北京邮电大学 一种面向用户为中心网络基于深度学习的功率控制方法

Also Published As

Publication number Publication date
CN111001161A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN107300925B (zh) 基于改进鱼群算法的四旋翼无人机姿控参数整定方法
CN110141867B (zh) 一种游戏智能体训练方法及装置
CN110919659A (zh) 一种基于ddgpes的机器人控制方法
CN113952733A (zh) 一种多智能体自适应采样策略生成方法
CN112717415B (zh) 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法
CN113449458A (zh) 一种基于课程学习的多智能体深度确定性策略梯度方法
CN113962012A (zh) 无人机对抗策略优化方法及装置
CN110555517A (zh) 基于AlphaGo Zero改进的国际象棋博弈方法
CN111001161B (zh) 一种基于二阶反向传播优先级的游戏策略获得方法
CN113269322A (zh) 一种基于自适应超参数的深度强化学习改进方法
CN107330902A (zh) 基于Arnold变换的混沌遗传BP神经网络图像分割方法
CN113095488A (zh) 一种基于多智能体最大熵强化学习的合作博弈方法
CN112044076B (zh) 一种对象控制方法、装置及计算机可读存储介质
CN112633466A (zh) 一种面向困难探索环境的记忆保持课程学习方法
CN114065929A (zh) 一种深度强化学习模型的训练方法、装置及存储介质
CN111768028A (zh) 一种基于深度强化学习的gwlf模型参数调节方法
CN114839884A (zh) 一种基于深度强化学习的水下航行器底层控制方法及系统
CN115618716A (zh) 一种基于离散SAC算法的gazebo潜航器路径规划算法
CN116128060A (zh) 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
CN114613169A (zh) 一种基于双经验池dqn的交通信号灯控制方法
CN117010482A (zh) 一种基于双经验池优先采样和DuelingDQN实现的策略方法
CN115542912A (zh) 一种基于改进Q-learning算法的移动机器人路径规划方法
CN115660052A (zh) 一种融合后见之明思想的群体智能学习方法
CN116639124A (zh) 一种基于双层深度强化学习的自动驾驶车辆换道方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant