CN115174419B

CN115174419B - 截止时延约束下基于信息年龄的工业物联网调度方法

Info

Publication number: CN115174419B
Application number: CN202210771493.3A
Authority: CN
Inventors: 羊婧琪; 王恒; 吴涵平; 谢鑫; 王平
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2023-09-22
Anticipated expiration: 2042-06-30
Also published as: CN115174419A

Abstract

本发明涉及一种截止时延约束下基于信息年龄的工业物联网调度方法，属于工业网络技术领域。该方法针对周期数据和随机数据两种采样方式同时存在的工业物联网系统，保证周期性采样设备的截止时延满足约束的情况下，对随机采样设备的信息年龄进行优化。针对数据成功传输概率的先验知识已知的场景，采用基于时隙的李雅普诺夫漂移框架开发一个动态调度策略；针对数据成功传输概率的先验知识未知的场景，采用深度强化学习对未知环境进行探索并开发一种基于决斗深度Q网络的调度策略。本发明考虑截止时延对平均信息年龄优化，既实现了数据传输的确定性，又提高了网络信息传输的实时性。

Description

截止时延约束下基于信息年龄的工业物联网调度方法

技术领域

本发明属于工业网络技术领域，涉及一种截止时延约束下基于信息年龄的工业物联网调度方法。

背景技术

随着信息技术与操作技术的融合，工业物联网作为一种使能技术得到了广泛的部署。在工业物联网应用中，应用设备对数据的及时传输要求更为严格。例如，在智能工厂等实时工业场景中，监控中心需要及时地收到最新鲜的数据以执行更加精确地决策。为了有效地衡量数据的新鲜度，信息年龄(Age of Information,AoI)被提出作为度量数据新鲜度的指标，其描述的是目的地接收到的最新数据自其产生以来所经过的时间。

在工业物联网系统中，数据通常是以周期性或随机性的方式生成。周期性数据一般是具有严格时延约束的控制数据，在相同的时间间隔产生并发送，一旦数据传输时延超过截止时间，就会对工业生产造成严重危害。对于随机性数据，随机采样的传感数据需要尽早地交付，通常不考虑严格的截止时延约束。因此，如何同时在满足周期性数据截止时延约束的条件下优化随机性数据的平均信息年龄，使得网络能够保证确定性传输的同时，还能提高网络信息传输的实时性，成为一个重要的挑战。

发明内容

有鉴于此，本发明的目的在于提供一种截止时延约束下基于信息年龄的工业物联网调度方法，针对数据成功传输概率的先验知识已知和数据成功传输概率的先验知识未知的两种场景，提供基于李雅普诺夫框架的动态策略和基于决斗深度Q网络的调度策略，既能提高网络信息传输的可靠性，又能实现数据确定性地传输。

为达到上述目的，本发明提供如下技术方案：

一种截止时延约束下基于信息年龄的工业物联网调度方法，针对工业物联网系统中设备具有周期性采样和随机性采样两种方式，考虑到截止时延约束，保证周期性采样设备的截止时延满足约束的情况下，对随机性采样设备的信息年龄进行优化。该方法具体包括以下步骤：

S1：获取基于时隙的工业物联网系统的参数信息，计算周期性采样设备排队时延，根据随机采样设备信息年龄更新过程，得到随机性采样设备的平均信息年龄；

S2：构建截止时延约束下平均信息年龄的优化目标表达式；

S3：针对数据成功传输概率的先验知识已知和未知的两种场景，分别采用基于时隙的李雅普诺夫漂移框架的动态调度策略和基于决斗深度Q网络的调度策略；其中，

(1)针对数据成功传输概率的先验知识已知的场景，采用的基于时隙的李雅普诺夫漂移框架的动态调度策略包括：通过定义李雅普诺夫函数，构建相应的系统李雅普诺夫漂移表达式，随后通过对系统李雅普诺夫漂移上界的求取，获得当前时隙下调度策略。

(2)针对数据成功传输概率的先验知识未知的场景，采用的基于决斗深度Q网络的调度策略包括：通过构造目标决斗网络和在线决斗网络，输出状态价值函数和优势函数，根据获取的各时隙的截止时延、债务情况与信息年龄创建系统状态空间、动作空间和奖励函数，并初始化所有网络参数、所有状态、奖励值和步长数，根据网络输出执行调度动作，得到新状态和奖励值等相关参数的集合并存入经验存储中，从经验存储中随机采样一批经验集合计算损失函数，采用梯度下降法更新网络参数，通过迭代训练使损失函数最小化，从而得到先验知识未知场景的调度策略。

进一步，步骤S1中，得到随机性采样设备的平均信息年龄，具体包括以下步骤：

S11：设有N_p个周期性采样的设备和N_R个随机性采样的设备以及一个公共目的地组成的工业物联网系统；每个时隙只能调度一个数据进行交付，在噪声信道中，考虑数据成功传输的概率服从一个已知的固定概率p_k，其中k∈{1,2,...,N_p+N_R}；对于周期性采样设备i∈{1,2,…,N_p}，T_i为数据的采样周期，D_i为确定性截止时延约束；对于随机性采样设备j∈{N_p+1,N_p+2,…,N_p+N_R}，数据的采样服从伯努利分布，采样概率为g_i；v_k(t)∈{0,1}表示时隙t处每个设备的调度决策，v_k(t)＝1表示设备k在时隙t中被调度，u_k(t)∈{0,1}表示设备k的数据包的传递结果，u_k(t)＝1表示设备k的数据包成功发送到目的地；设备k的迭代传输期望表达式如下：

E[u_k(t)]＝p_kE[v_k(t)]

计算周期性采样设备i，缓冲区处的排队时延为：

其中，c_i(t)表示设备i是否采样，取值范围为{0,1}，c_i(t)＝0表示设备i没有在时隙t采样，c_i(t)＝1则表示设备i在时隙t采样；表示没有采样数据后的排队时延；

对于每个周期性采样设备，m_i(t)表示目的地在时隙t开始时已经接收周期性采样设备i的数据包的数量，表达式如下：

其中，表示目的地在截止时间D_i内成功接收到来自设备i的数据包；m_i(t)+1表示在满足条件下成功交付的数据包个数，如果没有满足约束条件或者数据没有完成交付的情况，在目的地处的数据包的数量保持不变；

对于随机性采样的设备，表示随机设备j在缓冲区的信息年龄，表达式如下：

其中，表示每经过一个时隙t，没有采样数据时，缓冲区处的信息年龄；若有新的采样数据，缓冲区处的信息年龄将重新累计，信息年龄越小代表数据越新，信息年龄越大代表数据越旧；

对于随机性采样设备目的地处的信息年龄为：

其中，表示随机性采样设备j成功传输到目的地时，目的地处的信息年龄；表示随机性采样设备j发送数据包到目的地失败时，目的地处的信息年龄；

S12：根据步骤S11中所建立的周期性采样设备以及随机性采样设备各状态更新过程，得到随机性采样设备的平均信息年龄J^π，表达式如下：

其中，π∈Π表示任意可行调度策略，L表示大小为L的时隙单元。

进一步，步骤S2中，构建的随机性采样设备的平均信息年龄的优化目标即是截止时延约束下最小化随机性采样设备的平均信息年龄，表达式如下：

其中，J^*表示截止时延约束下随机性采样设备的最小平均信息年龄；S_i表示周期性采样设备i在确定性传输要求下的最低比率。

进一步，步骤S3中，针对数据成功传输概率的先验知识已知的场景，采用的基于时隙的李雅普诺夫漂移框架的动态调度策略，具体包括以下步骤：

S311：对步骤S11中建立的周期性采样设备相关公式，计算数据包债务h_i(t)，即数据包到达目的地的理论数量与实际数量之差，表达式如下：

S312：根据步骤S311中的数据包债务表达式，得出其迭代公式为：

h_i(t+1)＝h_i(t)-u_i(t)+c_i(t)S_i

S313：定义二次李雅普诺夫函数表达式如下：

其中，Λ_t表示离散时间网络中单包队列长度的向量过程，V表示数据包债务数量的权重，L(Λ_t)表示任意非负数量值函数；

S314：通过最小化每个时隙的Δ(Λ_t)，使步骤S313中L(Λ_t)的值较小，即李雅普诺夫漂移Δ(Λ_t)的表达式如下：

Δ(Λ_t)＝E{L(Λ_t+1)-L(Λ_t)|Λ_t}

S315：根据步骤S313和步骤S314，推导出李雅普诺夫漂移上界，简化后，表达式如下：

其中，

Q_i(t)＝2h_i(t)p_iV，

S316：根据步骤S315的表达式，显示出J₁(t)和J₂(t)项与决策无关，使Q_j(t)+Q_i(t)的值最大的策略表示当前时隙下调度策略。

进一步，步骤S3中，针对数据成功传输概率的先验知识未知的场景，采用的基于决斗深度Q网络的调度策略中，具体包括以下步骤：

S321：创建系统状态空间、动作空间和奖励函数，具体包括以下步骤：

S3211：构造目标决斗网络和在线决斗网络，输出的Q值，表达式如下：

Q(s,b；β)＝V(s；β_V)+A(s,b；β_A)

其中，V(s)表示状态价值函数，A(s,b)表示优势函数，β_V和β_A分别表示独立的网络参数；

S3212：建立系统的状态空间为：

s(t)＝{q^s(t),a^s(t),a^d(t),h(t),pu(t)}

其中，q^s(t)表示所有周期性采样设备在时隙t的排队时延，a^s(t)表示所有随机采样设备在时隙t时缓冲区处的信息年龄，a^d(t)表示所有随机采样设备在时隙t时目的地的信息年龄，h(t)表示所有周期性采样设备在时隙t的债务，pu_k(t)∈{0,1}表示设备的可调度条件，pu_k(t)＝1表示设备k可被调度；

S3213：网络通过ε-greedy策略对环境进行探索，建立系统动作空间为：

其中，所有行为包括N_p+N_R+1个行为；

S3214：通过周期性采样设备的债务和随机性采样设备作为奖励函数r(t)，表达式如下：

其中，δ_i表示周期性采样设备债务惩罚的权重。

S322：更新在线决斗网络参数，具体包括以下步骤：

S3221：在线决斗深度Q网络通过每次选择输出值的动作b(t)，学习到新状态s(t+1)和奖励值r(t)等相关参数的集合并存入经验存储中，表示为：

(s(t),b(t),r(t),s(t+1))

S3222：随机采样经验存储中的参数集合，并通过目标决斗网络Q^-，计算目标值Q_ta，表达式如下：

其中，γ表示折扣因子，β^-表示目标决斗网络参数，β表示在线决斗深度Q网络参数；

S3223：通过得到的目标值Q_ta，计算损失函数，损失函数Q(β)表达式如下：

Q(β)＝(Q_ta-Q(s(t),b(t)；β))²

S3224：通过梯度下降法使损失函数最小化，以此更新在线深度Q决斗网络参数，每间隔U步后，将在线决斗网络参数更新到目标决斗网络。

本发明的有益效果在于：

(1)本发明考虑了周期性和随机性数据混合的工业物联网中，满足周期性数据截止时延约束的条件下优化随机性数据的平均信息年龄，使得网络能够保证确定性传输的同时，还能提高网络信息传输的实时性。

(2)本发明针对数据传输成功率的先验知识已知和未知两种场景进行了考虑，结合李雅普诺夫漂移理论和深度强化学习方法，分别提供了两种场景下对应的调度方法，满足了不同工业物联网场景下对信息传输确定性和及时性的需求。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所提供周期性采样设备和随机性采样设备供监控中心调度的网络示意图；

图2为本发明基于深度强化学习的训练示意图；

图3为本发明针对基于李雅普诺夫漂移框架的动态调度策略的流程图；

图4为本发明基于决斗深度Q网络的链路调度方法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图4，图1为周期性采样设备和随机性采样设备供监控中心调度的网络示意图，如图1所示，监控中心向多个周期性采样数据的设备和多个随机性采样数据的设备中选择设备进行调度，假设数据的传输占用一个时隙，并且每个时隙最多可以选择一台设备通过无线信道进行数据传输。若考虑到噪声信道，设备以概率p_k∈(0,1]通过噪声信道成功地向监控中心发送数据，其中k∈{1,2,...,N_p+N_R}。要求周期性采样设备的数据在截止时间内传送到监控中心，如果超过该期限，数据将会被丢弃。为了保证数据的确定性传输，设置一个约束条件即成功传输数据包的最低比率为S_i。v_k(t)∈{0,1}表示时隙t处每个设备的调度决策，v_k(t)＝1表示设备k在时隙t中被调度，u_k(t)∈{0,1}表示设备k的数据包的传递结果，u_k(t)＝1表示设备k的数据包成功发送到监控中心；

设备k的迭代传输期望表达式如下：

E[u_k(t)]＝p_kE[v_k(t)]

对于周期性采样设备i，缓冲区处的排队时延为：

其中，c_i(t)表示设备i是否采样。m_i(t)表示监控中心在时隙t开始时接收到的周期性采样设备的数据包的数量，表达式如下：

u_i(t)表示设备i是否被调度，m_i(t+1)表示设备i被调度，且监控中心在截止时间D_i内成功接收到来自设备i的数据包的数量。

对于随机性采样设备，需要考虑每个设备缓冲区处的信息年龄和到达监控中心之后的信息年龄，表示随机设备j在时隙t处的缓冲区中的信息年龄，表达式如下：

表示随机设备j在时隙t监控中心处的信息年龄，表达式如下：

随着时间范围增加到无穷大，最优的调度策略π^*∈Π下的随机性采样设备的最小化平均信息年龄，表达式如下：

本发明的目标是开发一个调度策略来最小化随机性采样设备的平均年龄，其需满足以下优化目标表达式：

其中，v_k表示每个设备在时隙t的调度决策；S_i表示周期性采样设备i在确定性传输要求下的最低比率(为了保证周期性采样设备的数据包在确定的时间内，实现一定数量的数据包到达监控中心)。

针对数据成功传输概率的先验知识已知和未知的场景，本发明分别提出了对应的基于时隙的李雅普诺夫漂移框架的动态调度方案和基于决斗深度Q网络的链路调度策略。

1)针对动态调度方法，通过最小化系统的李亚普诺夫漂移函数来获得基于时隙的李亚普诺夫策略，首先引入债务的概念，h_i(t)表示到达监控中心的数据包的理论数量和实际数量之间的差异，表达式如下：

其中，表示周期性采样设备i采样的数据包总数，为了表征与债务相关的等式，其递归表达式如下：

h_i(t+1)＝h_i(t)-u_i(t)+c_i(t)S_i (9)

考虑如下二次李雅普诺夫函数：

其中，Λ_t表示离散时间网络中单包队列长度的向量过程，V是一个大于零的常数，表示包债务数的权重。因此L(Λ_t)可以是任何非负的标量值函数，其李亚普诺夫漂移可以定义为：

Δ(Λ_t)＝E{L(Λ_t+1)-L(Λ_t)|Λ_t} (11)

根据式(10)和(11)可推出，李亚普诺夫漂移的上界表达式为：

其中，

Q_i(t)＝2h_i(t)p_iV， (15)

通过上式，可以看出J₁(t)和J₂(t)项与决策无关，使Q_j(t)+Q_i(t)的值最大的策略表示当前时隙下调度策略。

2)针对基于决斗深度Q网络的链路调度策略，应用于数据成功传输概率的先验知识未知的场景，通过深度强化学习到先验未知概率p_k，引入决斗深度Q网络，输出由状态值函数和优势函数组成的Q值，表达式如下：

Q(s,b；β)＝V(s；β_V)+A(s,b；β_A) (17)

建立系统的状态空间为：

s(t)＝{q^s(t),a^s(t),a^d(t),h(t),pu(t)} (18)

其中，q^s(t)表示所有周期性采样设备在时隙t的排队时延，a^s(t)表示所有随机采样设备在时隙t时，缓冲区处信息年龄，a^d(t)表示所有随机采样设备在时隙t时，目的地的信息年龄，h(t)表示所有周期性采样设备在时隙t的债务，pu_k(t)∈{0,1}表示设备的可调度条件，pu_k(t)＝1表示设备k可被调度。

网络通过ε-greedy策略对环境进行探索，建立系统动作空间为：

其中，所有行为包括N_p+N_R+1个行为。

通过周期性采样设备的债务和随机性采样设备作为奖励函数r(t)，表达式如下：

其中，δ_i表示周期性采样设备债务惩罚的权重。

在线决斗网络通过每次选择输出值的动作b(t)，学习到新状态s(t+1)和奖励值r(t)等相关参数集合并存入经验存储中，表示为：

(s(t),b(t),r(t),s(t+1)) (21)

随机采样在经验存储中的参数集合，并通过目标决斗网络Q^-，计算目标值Q_ta，表达式如下：

其中，γ表示折扣因子，β^-表示目标决斗网络参数，β表示在线决斗网络参数。

通过得到的目标值Q_ta，计算损失函数，损失函数Q(β)表示如下：

Q(β)＝(Q_ta-Q(s(t),b(t)；β))² (23)

通过梯度下降法使损失函数最小化，以此更新在线决斗网络参数，每间隔U步，将在线决斗网络参数更新到目标决斗网络。

图2为本发明基于深度强化学习的训练示意图。如图2所示，通过深度强化学习到先验未知概率p_k，引入决斗深度Q网络，建立系统状态空间、动作空间和奖励函数，通过在线决斗网络选择不同输出值的动作，得到新状态和奖励值，并将当前状态、当前动作、奖励函数以及新状态组成参数集合存入经验存储中，随机采样在经验存储中的参数集合，计算损失函数，通过梯度下降法让损失函数最小化，以此更新在线决斗网络参数，每间隔U步，将在线决斗网络参数更新到目标决斗网络中，通过更新后的目标决斗网络中的参数得到调度网络，进行链路调度。

图3为本发明针对基于李雅普诺夫漂移框架的动态调度策略的流程图，如图3所示，具体包括以下步骤：

V1：时隙调度过程开始。

V2：周期性采样设备和随机性采样设备混合调度获取系统的参数信息。

V3～V4：更新周期性采样设备排队时延，统计数据包的数量，以及分别更新随机性采样设备在缓冲区和监控中心的信息年龄。

V5：构建截止时延约束下基于平均信息年龄优化的表达式。

V6：根据信息年龄和债务表达式建立李雅普诺夫函数。

V7～V9：构建李雅普诺夫漂移表达式，最小化系统的李亚普诺夫漂移函数，即求取最大值Q_j(t)+Q_i(t)。

V10：生成当前时隙下的动态调度策略。

V11：时隙调度过程结束。

图4为本发明基于决斗深度Q网络的链路调度方法流程图，如图3所示，具体包括以下步骤：

V1：时隙调度过程开始。

V3～V4：构造目标决斗网络和在线决斗网络，输出状态价值函数和优势函数，根据获取的各时隙的截止时延、债务情况与信息年龄创建系统状态空间、动作空间和奖励函数；并初始化所有网络参数、所有状态、奖励值、步长数以及最大迭代次数。

V5～V6：更新周期性采样设备排队时延，统计数据包的数量，分别更新随机性采样设备在缓冲区和监控中心的信息年龄。

V7～V9：构建截止时延约束下基于平均信息年龄优化的表达式，从(0,1)区间随机生成一个小数χ与ε比较，如果χ＜ε，则随机选择一台设备进行调度，如果χ＞ε，则选择Q值最大的设备进行调度。

V10～V12：将当前状态、当前动作、奖励函数以及新状态组成参数集合存入经验存储中，随机采样在经验存储中的参数集合，计算损失函数。

V13～V14：通过梯度下降法让损失函数最小化，以此更新在线决斗网络参数，每间隔U步，将在线决斗网络参数更新到目标决斗网络中，判断是否达到最大迭代次数，如果否，则转入V3，如果是，则转入V15。

V15：通过更新后的目标决斗网络中的参数得到调度网络，进行链路调度。

V16：时隙调度过程结束。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种截止时延约束下基于信息年龄的工业物联网调度方法，其特征在于，该方法具体包括以下步骤：

S1：获取基于时隙的工业物联网系统的参数信息，计算周期性采样设备排队时延，根据随机性采样设备信息年龄更新过程，得到随机性采样设备的平均信息年龄；具体包括以下步骤：

E[u_k(t)]＝p_kE[v_k(t)]

计算周期性采样设备i，缓冲区处的排队时延为：

对于随机性采样设备目的地处的信息年龄为：

其中，表示随机性采样设备j成功传输到目的地时，目的地处的信息年龄；

表示随机性采样设备j发送数据包到目的地失败时，目的地处的信息年龄；

其中，π∈Π表示任意可行调度策略，L表示大小为L的时隙单元；

S2：构建随机性采样设备的平均信息年龄的优化目标即是截止时延约束下最小化随机性采样设备的平均信息年龄，表达式如下：

其中，J^*表示截止时延约束下随机性采样设备的最小平均信息年龄；S_i表示周期性采样设备i在确定性传输要求下的最低比率；

S3：针对数据成功传输概率的先验知识已知和未知的两种场景，分别采用基于时隙的李雅普诺夫漂移框架的动态调度策略和基于决斗深度Q网络的调度策略；

针对数据成功传输概率的先验知识已知的场景，采用的基于时隙的李雅普诺夫漂移框架的动态调度策略，包括：通过定义李雅普诺夫函数，构建相应的系统李雅普诺夫漂移表达式，随后通过对系统李雅普诺夫漂移上界的求取，获得当前时隙下调度策略；具体包括以下步骤：

h_i(t+1)＝h_i(t)-u_i(t)+c_i(t)S_i

S313：定义二次李雅普诺夫函数表达式如下：

S314：通过最小化每个时隙的Δ(Λ_t)，使步骤S313中L(Λ_t)的值小，即李雅普诺夫漂移Δ(Λ_t)的表达式如下：

Δ(Λ_t)＝E{L(Λ_t+1)-L(Λ_t)|Λ_t}

S315：根据步骤S313和步骤S314，推导出李雅普诺夫漂移上界，表达式如下：

其中，

Q_i(t)＝2h_i(t)p_iV，

S316：使Q_j(t)+Q_i(t)的值最大的策略表示当前时隙下调度策略；

针对数据成功传输概率的先验知识未知的场景，采用的基于决斗深度Q网络的调度策略，包括：通过构造目标决斗网络和在线决斗网络，输出状态价值函数和优势函数，根据获取的各时隙的截止时延、债务情况与信息年龄创建系统状态空间、动作空间和奖励函数，并初始化所有网络参数、所有状态、奖励值和步长数，根据网络输出执行调度动作，得到新状态和奖励值的集合并存入经验存储中，从经验存储中随机采样一批经验集合计算损失函数，采用梯度下降法更新网络参数，通过迭代训练使损失函数最小化，从而得到先验知识未知场景的调度策略；具体包括以下步骤：

S321：构造目标决斗网络和在线决斗网络，输出的Q值，表达式如下：

Q(s,b；β)＝V(s；β_V)+A(s,b；β_A)

S322：建立系统的状态空间为：

s(t)＝{q^s(t),a^s(t),a^d(t),h(t),pu(t)}

S323：网络通过ε-greedy策略对环境进行探索，建立系统动作空间为：

其中，所有行为包括N_p+N_R+1个行为；

S324：通过周期性采样设备的债务和随机性采样设备作为奖励函数r(t)，表达式如下：

其中，δ_i表示周期性采样设备债务惩罚的权重；

S325：在线决斗深度Q网络通过每次选择输出值的动作b(t)，学习到新状态s(t+1)和奖励值r(t)的集合并存入经验存储中，表示为：

(s(t),b(t),r(t),s(t+1))

S326：随机采样经验存储中的参数集合，并通过目标决斗网络Q^-，计算目标值Q_ta，表达式如下：

S327：通过得到的目标值Q_ta，计算损失函数，损失函数Q(β)表达式如下：

Q(β)＝(Q_ta-Q(s(t),b(t)；β))²

S328：通过梯度下降法使损失函数最小化，以此更新在线深度Q决斗网络参数，每间隔U步后，将在线决斗网络参数更新到目标决斗网络。