CN111001161B

CN111001161B - 一种基于二阶反向传播优先级的游戏策略获得方法

Info

Publication number: CN111001161B
Application number: CN201911351336.1A
Authority: CN
Inventors: 王红滨; 原明旗; 何鸣; 张耘; 王念滨; 周连科; 张毅
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-04-07
Anticipated expiration: 2039-12-24
Also published as: CN111001161A

Abstract

一种基于二阶反向传播优先级的游戏策略获得方法，它属于智能化决策获取技术领域。本发明解决了在游戏策略的指挥决策过程中存在的数据利用率低以及策略质量低的问题。本发明方法结合了DPSCRM方法和BPTM方法，通过样本序列的累计奖赏值构建第一级奖赏值，可以获得高质量的策略；基于TD‑error构建优先级可以反向衰减传播的第二级优先级，可以提升数据利用率。本发明可以应用于游戏策略的获取。

Description

一种基于二阶反向传播优先级的游戏策略获得方法

技术领域

本发明属于智能化决策获取技术领域，具体涉及一种基于二阶反向传播优先级的游戏策略获得方法。

背景技术

随着计算机图形技术、网络技术和人机交互技术的发展，视频游戏的研究也进入到了一个全新的阶段。早期视频游戏的输入画面粗糙，游戏难度单一，不能给予游戏玩家较好的游戏体验。为了创造更加真实的游戏虚拟环境，增加游戏的可玩性和挑战性，以实现玩家与游戏智能体之间更加真实的交互，视频游戏的研究变得至关重要。

近年来，深度强化学习(Deep Reinforcement Learning，DRL)已成为人工智能领域的研究热点，如何引导智能体通过自主学习，从而获得能够解决实际问题的策略系统始终是一个极具挑战性的问题。不同于需要标记的监督学习算法，强化学习(ReinforcementLearning，RL)本身并没有直接的监督信号来训练智能体的决策行为，因此，强化学习天生适用于解决上述问题。然而，由于传统强化学习算法缺乏合适的手段对高维的环境状态、动作以及智能体策略进行编码，长期以来仅能在较小问题空间上求得较好结果，一旦状态和动作维数变大，传统强化学习将会面临维数爆炸的问题。随着深度学习(Deep Learning，DL)的迅速发展，将具有对高维数据强大感知能力的深度神经网络与具有决策能力的强化学习算法相结合已经成为强化学习领域的一大发展趋势。DL和RL的巧妙结合使DRL具有先天的指挥决策优势，它可以直接将原始数据输入，不需要任何标签信息，深度学习会将原始数据进行提取，智能体Agent利用强化学习的决策能力从策略中选择最优的策略，进行完全智能化的决策。然而当前的深度强化学习算法在指挥决策的过程中仍然存在数据利用率低以及策略质量低等问题。

发明内容

本发明的目的是为解决在游戏策略的指挥决策过程中存在的数据利用率低以及策略质量低的问题，而提出了一种基于二阶反向传播优先级的游戏策略获得方法。

本发明为解决上述技术问题采取的技术方案是：一种基于二阶反向传播优先级的游戏策略获得方法，该方法包括以下步骤：

步骤一、初始化：当前值网络Q与目标值网络Q′的权重分别为θ与θ′，经验回放池E通过智能体Agent与环境交互存储样本序列，二级优先级

临时经验回放池

为空；并构建用于存储单个样本序列的经验回放池h；

步骤二、将当前状态S_m输入当前值网络Q，m＝1,2,…,t；

利用探索利用策略选择Agent执行的动作A_m，根据当前状态S_m和动作A_m获得即时奖赏R_m和状态S_m+1；将样本数据＜S_m；A_m；S_m+1；R_m＞存储到经验回放池h中，并赋予当前经验回放池中最大的优先级为

代表第m个样本数据的优先级；

步骤三、判断状态S_t是否达到中止状态，若状态S_t达到中止状态，将经验回放池h中样本数据组成的样本序列l₁＝{＜S₁；A₁；S₂；R₁＞,＜S₂；A₂；S₃；R₂＞,…,＜S_t；A_t；S_t+1；R_t＞}保存到经验回放池E中，并清空经验回放池h，执行步骤十二；

步骤四、若状态S_t未达到中止状态，则判断是否满足t％K＝0，其中：t％K＝0表示t对K取余等于0，K为训练频率；

若不满足t％K＝0，则执行步骤十和步骤十一；

若满足t％K＝0，则计算出经验回放池E中包含的样本序列的数量M，并执行步骤五至步骤十一；

步骤五、分别计算出经验回放池E中每个样本序列的累计奖赏值，根据每个样本序列的累计奖赏值计算出每个样本序列的优先级；

步骤六、分别根据步骤五计算出的每个样本序列的优先级来计算每个样本序列被采样的概率；

步骤七、根据步骤六计算出的每个样本序列被采样的概率，对经验回放池E中的样本序列进行采样，将采样出来的样本序列放入临时经验回放池

中，得到临时经验回放池

中含有的样本数据的个数

步骤八、计算步骤七临时经验回放池

中每个样本数据的采样概率，根据每个样本数据的采样概率，从临时经验回放池

的

个样本数据中抽取出k个样本数据；

再计算每个抽取出的样本数据的采样重要性系数ω_e以及TD-errorδ_e，根据TD-errorδ_e计算出每个抽取出的样本数据的优先级；

根据每个抽取出的样本数据在经验回放池

中的样本序列中的位置，进行反向更新优先级；

根据采样重要性系数ω_e和TD-errorδ_e计算每个抽取出的样本数据的累计梯度；

步骤九、根据步骤八计算出的累计梯度更新当前值网络Q的权重θ；

步骤十、当t％L＝0时，更新目标值网络Q′的权重为：当前值网络Q的当前权重；其中：L为目标值网络Q′的权重更新频率；

步骤十一、令S_m＝S_m+1，重复执行步骤二至步骤十一，如此循环，直至达到设置的最大迭代次数时停止执行，获得训练好的当前值网络Q与目标值网络Q′；

步骤十二、本次指挥决策过程结束，将S_m设置初始状态进行下一次指挥决策过程。

本发明的有益效果是：本发明提出了一种基于二阶反向传播优先级的游戏策略获得方法，本发明方法的优势如下：

(1)通过基于累计奖赏值构建了二级优先级，提出DPSCRM方法，该方法与经典Prioritized DQN算法相比，在快速收敛的同时，可以获得高质量的策略；

(2)基于BPTM方法，可以实现优先级反向衰减传播，样本数据的优先级取优先级反向衰减传播的最大值，可以加速有效数据的训练，实验也得到验证，BPTM方法提升了数据的利用率；

(3)通过结合DPSCRM方法和BPTM方法提出了本发明方法，通过样本序列的累计奖赏值构建第一级奖赏值，旨在获得高质量的策略；基于TD-error构建优先级可以反向衰减传播的第二级优先级，旨在提升数据利用率。

附图说明

图1是本发明的一种基于二阶反向传播优先级的游戏策略获得方法的流程图；

图中：Q(s,a；θ)表示当前值网络参数为θ时，在s状态下执行动作a获得的奖赏值；

max(s′,a′；θ^—)表示目标值网络参数为θ^—时，在s′状态下所有可执行动作中最大的奖赏值，此时对应的动作为a′；

a＝argmax(s,a；θ)代表当前值网络参数为θ，在s状态下所有可执行动作对应奖赏值最大的动作；

(s,a,r,s′)代表s、a、r和s′组成的样本数据，当前状态s输入当前值网络，利用ε-greedy策略选择Agent执行的动作a，根据当前状态s和动作a获得即时奖赏r和状态s′。

具体实施方式

具体实施方式一：如图1所示，本实施方式所述的一种基于二阶反向传播优先级的游戏策略获得方法，该方法包括以下步骤：

步骤一、初始化：当前值网络Q与目标值网络Q′的权重分别为θ与θ′，为了满足样本数据多样性并缩短训练时间，经验回放池E通过智能体Agent与环境交互存储样本序列，二级优先级

临时经验回放池

为空；并构建用于存储单个样本序列的经验回放池h；

步骤二、将当前状态S_m输入当前值网络Q，m＝1,2,…,t；

代表第m个样本数据的优先级；

对于状态S_m，利用探索利用策略ε-greedy选择Agent执行的动作A_m，A_m～π_θ(S_m)。

步骤三、判断状态S_t是否达到中止状态(达到中止状态是指：t达到学习的终止时间步T时停止)，若状态S_t达到中止状态，将经验回放池h中样本数据组成的样本序列l₁＝{＜S₁；A₁；S₂；R₁＞,＜S₂；A₂；S₃；R₂＞,…,＜S_t；A_t；S_t+1；R_t＞}保存到经验回放池E中，并清空经验回放池h，执行步骤十二；

若不满足t％K＝0，则执行步骤十和步骤十一；

中，得到临时经验回放池

中含有的样本数据的个数

步骤八、计算步骤七临时经验回放池

的

个样本数据中抽取出k个样本数据；

根据每个抽取出的样本数据在经验回放池

中的样本序列中的位置，进行反向更新优先级；

Δ←Δ+ω_eδ_e▽_θq(S_e,A_e,θ)

步骤三中，若状态S_t达到中止状态，将经验回放池h中样本数据组成的样本序列l₁＝{＜S₁；A₁；S₂；R₁＞,＜S₂；A₂；S₃；R₂＞,…,＜S_t；A_t；S_t+1；R_t＞}保存到经验回放池E中，并清空经验回放池h，执行步骤十二；否则，一直通过与环境交互，直到终止状态。

状态S为游戏中的游戏图像(游戏图像中的人物、环境、位置的变化都会引起状态S的变化)，动作A在游戏中对应可以执行的各种操作，例如：上下左右移动、射击类游戏的发射子弹等操作。

通过实验的验证，本发明方法在游戏策略的指挥决策过程中与其它深度强化学习算法相比，本发明方法可以更快的获得更稳定、更高质量的策略。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤五的具体过程为：

经验回放池E中第j个样本序列l_j的累计奖赏值G_j为：

其中：γ为折扣因子，T′为第j个样本序列l_j中的样本数据总个数；

经验回放池E中第j个样本序列l_j的优先级p_j为：

p_j＝G_j+ε

其中：ε为常数；ε的取值趋近于0。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述步骤六的具体过程为：

第j个样本序列l_j被采样的概率P(j)为：

其中：p_k′代表第k′个样本序列l_k′的优先级，M代表经验回放池E中样本序列的总个数，α代表比例系数。

具体实施方式四：本实施方式与具体实施方式三不同的是：所述计算步骤七临时经验回放池

中每个样本数据的采样概率，其具体过程为：

临时经验回放池

中第e个样本数据的采样概率

为：

其中：

为第e个样本数据的优先级，

为第n个样本数据的优先级，α为常数，α的取值为[0,1]。

本实施方式中，每个样本数据的优先级的计算方法是采用本领域的现有方法。

具体实施方式五：本实施方式与具体实施方式四不同的是：所述根据每个抽取出的样本数据在经验回放池

中的样本序列中的位置，进行反向更新优先级；其具体过程为：

对于抽取出的k个样本数据中的任意一个样本数据，若该样本数据是所在样本序列中的第i个样本数据，则该样本数据的优先级会向前以衰减的形式传播；

该样本数据所在样本序列中的第i-1个样本数据的优先级p_i-1为：

p_i-1＝max{p_i·ρ¹,p_i-1}

其中：p_i为该样本数据的优先级(该样本数据是所在样本序列中的第i个样本数据)，p_i-1为第i-1个样本数据的原优先级，ρ为衰减因子；

该样本数据所在样本序列中的第i-2个样本数据的优先级p_i-2为：

p_i-2＝max{p_i·ρ²,p_i-2}

其中：p_i-2为第i-2个样本数据的原优先级，ρ为衰减因子；

且定义该样本数据的优先级向前传播的窗口容量W为：

同理，计算出窗口容量W内，该样本数据前面的其他样本数据的优先级。

如果抽取的k个样本数据中，有两个或两个以上的样本数据来源于同一个样本序列，那么按照抽取样本数据的先后顺序，分别利用样本数据进行优先级的向前传播，获得更新后的样本序列。

本发明基于反向优先级传播方法(Based on backward priority TransferMethod，BPTM)和序列累计奖赏的二阶优先级方法(Double Priority based onSequential Cumulative Reward Method，DPSCRM)，BPTM方法实现了同一个episode中transaction的优先级反向传播，DPSCRM方法实现了基于序列的累计奖赏值创建的二阶优先级；

基于反向优先级传播方法(Based on backward priority Transfer Method，BPTM)：

样本序列l_i＝{＜S₁；A₁；S₂；R₁＞,＜S₂；A₂；S₃；R₂＞,…,＜S_n-1；A_n-1；S_n；R_n-1＞}为经验回放池E中的一个样本序列，样本序列中样本数据优先级集合为p＝(p₁,p₂,p₃,…,p_n-1)，即：＜S_i；A_i；S_i+1；R_i＞样本数据的优先级为p_i，如果Agent观察到一个新的样本数据＜S_n；A_n；S_n+1；R_n＞，首先计算新样本数据的优先级，公式为：

p_n＝|δ|+ε

其中，ε是一个极小的正数，目的是为了当样本数据的TD-error的值为0的时候，Agent能够以一个较小的概率对该样本数据进行采样，防止TD-error值为0的样本数据至始至终不会被Agent采样的情况发生，保证了采样数据的多样性。

样本序列中第i个样本数据<S_i；A_i；S_i+1；R_i>被采样的概率可以求得，为：

其中，指数α表示了优先级起作用的程度。假设Agent所在的样本序列为l＝{＜S₁；A₁；S₂；R₁＞,＜S₂；A₂；S₃；R₂＞,…,＜S_n-1；A_n-1；S_n；R_n-1＞}，样本序列中样本数据优先级集合为p＝(p₁,p₂,p₃…p_n-1)，观察到的当前样本数据是样本序列中的第n个为＜S_n；A_n；S_n+1；R_n＞，当前样本数据的优先级为p_i，在BPTM方法中，样本序列中第n个样本数据的优先级会向第n-1、n-2、n-3…以衰减的形式传播，第n-1样本数据会在传播优先级和原优先级中选择一个值较大的优先级作为第n-1样本数据的优先级，并且距离当前样本数据＜S_n；A_n；S_n+1；R_n＞的距离越远，p_n的传播值越小，即：同一序列样本中，样本数据距离越远影响会逐渐减小。优先级传播计算公式如下所示：

p_n-1＝max{p_n·ρ¹,p_n-1}

p_n-2＝max{p_n·ρ²,p_n-2}

…

其中，ρ是衰减因子，表示当前样本数据向之前样本数据传播优先级的影响。

在此，我们需要注意的是，优先级的传递是以指数的形式衰退的，由于优先级此时，是以概率的形式，范围在0-1，故随着向前的不断传递，我们所传递的优先级的值不断趋向于0，经过一些更新之后，衰减的优先级p_n-k是可忽略的，若再进行计算将是非常的浪费计算资源的，由于计算的问题，导致收敛的速度非常慢。因此，定义一个窗口，窗口的容量W表示当前的优先级p_n允许向前面的样本数据衰退传播的距离，超过这个距离衰退的传递将会停止。我们选择了1％作为的p_n阈值，以便当衰减的优先级变得非常小的时候，停止衰退的传递。由此，我们可以基于ρ的值计算出窗口的大小，公式如下：

p_n·ρ^W≤0.01p_n

在提升样本数据利用率的同时，不会导致大量的计算。BPTM方法在抽取样本数据的基础上，对同一样本序列中当前样本数据之前的样本数据进行优先级反向衰减传播，该计算过程如表1所示：

表1

基于序列累计奖赏的二阶优先级方法(Double Priority based on SequentialCumulative Reward Method，DPSCRM)：

在DPSCRM方法中，我们构建了二阶优先级。第一阶优先级是基于经验回放池中样本序列的累计奖赏值的，在进行采样的时候将以更大的概率选择累计奖赏值高的序列；第二阶优先级在被选择的序列中基于TD-error值进行采样训练Q网络。DPSCRM方法分别从序列的累计奖赏值的作用和深度神经网络误差梯度两个方面对样本数据进行采样，提升策略的学习速度。同时DPSCRM方法并没有放弃对累计奖赏值小的序列中的样本数据的采样，仅仅是这类样本数据被采样的概率相对较小，因此DPSCRM方法在采样过程中也保证了样本数据的多样性。

从累计奖赏值大的序列中进行样本数据的选择，可以增加含有有效动作样本数据的数量，从而能够加速算法的收敛、产生高质量的策略。在DPSCRM方法中，利用E＝{l₁,l₂,l₃,…}表示Experience Replay Memory中存储样本数据,其中l_i表示Experience ReplayMemory中第i个序列样本；l_i＝{＜S₁ ⁱ；A₁ ⁱ；S₂ ⁱ；R₁ ⁱ＞,＜S₂ ⁱ；A₂ ⁱ；S₃ ⁱ；R₂ ⁱ＞,…}，其中＜S_k ⁱ；A_k ⁱ；S_k+1 ⁱ；R_k ⁱ＞表示在序列l_i中的第k个样本数据，表示的意义是：Agent在不断试错的过程中，在Experience Replay Memory中产生了多个序列样本，每个序列样本都由多个四元组组成，其表示Agent与环境不断交互的过程中，状态S_k ⁱ下选择动作A_k ⁱ执行，环境状态转换为S_k ⁱ，同时Agent获得的即时奖赏值为R_k ⁱ。如果Agent处于状态S_t的时候，如果此时E中存在两个样本序列l_a、l_b，两个序列中的样本数据＜S_t；A_t ^a；S_t+1 ^a；R_t ^a＞、＜S_t；A_t ^b；S_t+1 ^b；R_t ^b＞均可以被回放，根据动作值函数更新公式对＜S_t；A_t ^a；S_t+1 ^a；R_t ^a＞回放，动作值函数此刻将收敛到q*(S_t,A_t ^a)＞q*(S_t,A_t ^b)，同理，＜S_t；A_t ^b；S_t+1 ^b；R_t ^b＞的动作值函数将收敛到q*(S_t,A_t ^b)。

其中，动作值函数更新公式如下所示：

q(S,A)＝E[S_t＝s,A_t＝a,π]

公式q(S,A)＝E[S_t＝s,A_t＝a,π]表示智能体处于s状态，采用动作a，然后执行策略π可以获得的累计期望回报。通过公式

不断循环迭代，q(S,A)最终将收敛到q*(S,A)，即获得最优动作值函数法。

若Agent在k时刻处于S_k状态，对样本数据＜S_k；A_k；S_t；R_k＞进行回放，此刻Agent将执行动作A_k使Agent所处的状态由S_k转移到状态S_t，更新动作值函数为：

我们要使q(S_k,A_k)可以更快的收敛，就需要

的值准确，若对于t时刻两个样本数据＜S_t；A_t ^a；S_t+1 ^a；R_t ^a＞、＜S_t；A_t ^b；S_t+1 ^b；R_t ^b＞对应的最优动作值函数满足：q*(S_t,A_t ^a)＞q*(S_t,A_t ^b)，那么上述公式

就可以改写成：

这表明回放序列中的样本数据＜S_t；A_t ^a；S_t+1 ^a；R_t ^a＞会使q(S_k,A_k)加速收敛。

在Priortized DQN中用于训练的损失函数为：

L(θ)＝(y-q(s,a；θ))²

其中，y是目标网络的值，被称为目标值，公式为：

上式y值与传统监督学习使用的目标值是有所不同的，监督学习中的目标值在整个训练过程中是恒定不变的，而在Priortized DQN算法中目标值y是动态变化的，导致了算法训练过程中收敛速度过慢、训练过程不稳定的问题。而在DPSCRM方法中，进行了两次采样，第一次采样是基于累计奖赏值的，其目的是增加参与训练样本数据中有效动作的数量，保证了算法训练过程中目标值的稳定性；第二次采样是在第一次抽取样本序列的基础上进行，基于样本序列中每个样本数据的TD-error值执行采样操作，抽取的样本数据最终用于算法的训练，第二次采样的目的是加速动作值函数的收敛速度。

虽然累计奖赏值大的样本数据对算法训练有更大的促进作用，在DPSCRM方法中也保证了算法训练过程中样本数据的多样性。E中样本数据的采样概率是基于序列样本的累计奖赏值，累计奖赏值越大，样本序列被采样的概率将越大。假设E中存储了n个样本序列，E＝{l₁,l₂,l₃,…,l_n}，样本序列l_i＝{＜S₁ ^a；A₁ ^a；S₂ ^a；R₁ ^a＞,＜S₂ ^a；A₂ ^a；S₂ ^a；R₂ ^a＞,…}为E中的第a个样本序列，序列中样本数据的数量为|l_a|，其中＜S_j ^a；A_j ^a；S_j+1 ^a；R_j ^a＞是样本序列l_a中的一个样本数据，则可以计算出样本序列l_a获得的累计奖赏值为：

则，第a个样本序列的优先级为：

P_i＝G_i+ε

公式中的ε是一个极小的正数，其目的在于保证所有的样本序列均可以被采样训练算法，避免某条样本序列在E中不会被使用，因为这不但会占据E中的存储空间，同时也会导致算法数据的过于单一，影响Agent训练出策略的质量。可以计算出样本序列l_a被采样的概率，公式为：

公式

中的α的值决定了优先级所占的比例，当α的值为0的时候，基于累计奖赏值的优先级采样将退化为经典DQN算法中的均匀采样。

基于每个样本序列概率值P(i)的大小对E中的样本序列进行采样，样本序列累计奖赏值越大，对应P(i)的值越大，被采样的概率越高；对于累计奖赏值小的样本序列同样也有机会被采样，甚至对于累计奖赏值为0的样本数据也有机会被采样。这就保证了DPSCRM方法，在累计奖赏值大的序列样本以更大的概率参与算法训练的同时，保证了样本数据的多样性。

通过对P(i)中的样本序列l_a以概率P(i)进行采样，获得了第一阶优先级样本序列，用E′＝{l₁′,l₂′,l₃′,…,l_n′}表示第一阶优先级样本序列的集合，则E′中样本数据的总数公式为：

设e_u′＝＜S_u′；A_u′；S_u+1′；R_u′＞，其中u∈{1,2,3,…,N}，则可以计算出e_u′在算法训练过程中TD-error为：

可以求出E′中样本数据e_u′的优先级为：

P_u′＝|δ_u′|+ε

基于P_u′我们可以求解出E′中样本数据e_u′被采样的概率：

通过公式

可在第一阶优先级的基础上完成第二阶优先级的构建，对于样本数据e_u′以概率P(u)′对E′中存储的样本数据进行采样并进行训练，第二阶优先级的构建可以加速算法网络的收敛的速度。

DPSCRM方法首先以样本序列为基础构建经验池E，然后根据E中样本序列的累计奖赏值，样本序列的累计奖赏值与优先级成正比的关系，即：样本序列累计奖赏值越大，被采样的概率越大，构建出第一阶优先级；在对E中的样本序列进行采样后，存储在经验池E′，在E′中根据样本数据的TD-error的值构建二阶优先级，优先级的大小与TD-error的值成正比。第一阶优先级可以使Agent获取更多有效的动作，这与深度强化学习以获得累计奖赏为目的的思想是相同的，可以使Agent在训练的过程中获得高质量的策略；第二阶优先级基于TD-error值，从样本数据在迭代中加速的作用角度出发，可以加快算法训练过程中收敛的速度。DPSCRM方法的计算过程如表2所示：

表2

本发明方法是针对Priortized DQN算法经验回放池中优先级进行的改进，DPSCRM方法以样本序列的累计奖赏值为切入点，经验回放池E＝{l₁,l₂,l₃,…}，l_i表示经验回放池中第i个序列样本；l_i＝{＜S₁ ⁱ；A₁ ⁱ；S₂ ⁱ；R₁ ⁱ＞,＜S₂ ⁱ；A₂ ⁱ；S₃ ⁱ；R₂ ⁱ＞,…}，其中＜S_k ⁱ；A_k ⁱ；S_k+1 ⁱ；R_k ⁱ＞表示在序列l_i中的第k个样本数据，根据E中样本序列l_i的累计奖赏值的分布情况构建第一阶优先级，目的训练出来的策略具有更大的累计奖赏值，这与深度强化学习的目标是一致的，有利于提升学习出的策略的质量。通过对E′＝{l₁,l₂,l₃,…,l_n}中的样本序列以概率P(i)进行采样，获得了第一阶优先级样本序列，用E′＝{l₁,l₂,l₃,…,l_n}表示第一阶优先级样本序列的集合，在E′中使用BPTM方法，BPTM方法首先会计算出当前样本数据的TD-error值，与Priortized DQN仅仅构建当前样本数据优先级不同的是，BPTM方法除了会构建当前样本数据的优先级，会将当前样本数据的优先级向同一个样本序列的前W个距离进行衰减传播，BPTM方法可以充分的利用经验回放池中的样本数据，极大的提升了样本的利用率。

本发明方法的计算过程如表3所示：

表3

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。