CN115643594A

CN115643594A - 多传感器多服务器工业物联网的信息年龄优化调度方法

Info

Publication number: CN115643594A
Application number: CN202211241536.3A
Authority: CN
Inventors: 王恒; 谢鑫; 王雨洁; 王平
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2023-01-24
Anticipated expiration: 2042-10-11
Also published as: WO2024077819A1; CN115643594B

Abstract

本发明涉及一种多传感器多服务器工业物联网的信息年龄优化调度方法，属于工业无线网络技术领域。该方法面向多传感器多服务器的工业物联网系统，通过选择每个时隙的链路调度组合来最小化系统的平均信息年龄，将链路调度、服务器选择和服务抢占的强耦合优化问题构造为马尔可夫决策过程，采用共享决策模块和多个网络分支改进的深度Q网络减少问题求解的状态空间和动作空间，并利用固定优势策略来加快训练速度，获得链路调度方法。本发明通过分支深度Q网络和固定优势策略，加快了调度方法的学习速度，保障了工业物联网数据交付的新鲜度。

Description

多传感器多服务器工业物联网的信息年龄优化调度方法

技术领域

本发明属于工业无线网络技术领域，涉及一种多传感器多服务器工业物联网的信息年龄优化调度方法。

背景技术

随着工业4.0时代的到来，实时工业物联网应用的普及对网络的实时保障技术提出了新的要求。尤其是工厂自动化、智能制造等工业物联网应用更依赖于新鲜数据的及时交付。为了有效地衡量新数据交付的时效性，信息年龄的概念被提出，定义为目的地最新接收到的数据自生成以来所经过的时间，专注于数据使用者对所接受数据新鲜度的要求。

在工业物联网系统中，多传感器多服务器是一种常见的系统架构，传感器可以任意选择一台服务器进行数据的传输和处理。然而，与多传感器单服务器的系统相比，多服务器场景中的调度问题更加复杂。首先，每个传感器和每个服务器可以进行互相配对以进行数据传输，可选的调度组合数量更多。其次，服务器必须在继续处理当前数据和调度新数据之间做出选择，进一步增加了调度组合的求解空间。最后，最优链路调度组合的确定需要满足链路冲突约束，使得策略的制定更加复杂。因此，如何在满足链路冲突约束的条件下，发明一种适用于多传感器多服务器工业物联网的信息年龄优化调度方法，使得系统数据平均信息年龄最小化，成为了一个重要的挑战。

发明内容

有鉴于此，本发明的目的在于提供一种适用于多传感器多服务器工业物联网的信息年龄优化调度方法，在多传感器多服务器的工业物联网系统模型中，构建网络交付数据的信息年龄更新模型，并将最小化网络平均信息年龄的优化问题表述为马尔科夫决策过程，进一步通过调度网络学习最优调度策略。本发明能减少深度强化学习方法表达的状态空间和动作空间并加快调度策略的学习速度，提高系统数据交付的及时性。

为达到上述目的，本发明提供如下技术方案：

一种多传感器多服务器工业物联网的信息年龄优化调度方法，通过选择每个时隙的链路调度组合来最小化系统的平均信息年龄，将链路调度、服务器选择和服务抢占的强耦合优化问题构造为马尔可夫决策过程，采用共享决策模块和多个网络分支改进的深度Q网络减少问题求解的状态空间和动作空间，并利用固定优势策略来加快训练速度获得链路调度方法。该方法具体包括以下步骤：

S1：获取多传感器多服务器工业物联网系统参数，构建系统信息年龄更新模型，构造学习最优调度策略的调度网络；

S2：构建最小化系统平均信息年龄的优化问题，并根据系统信息年龄更新模型建立系统的状态空间、动作空间和代价函数，从而将链路调度、服务器选择和服务抢占的强耦合优化问题转化为马尔科夫决策过程；

S3：在每个时隙系统进行更新时，调度网络采用固定优势策略生成优势动作探索空间，以及通过共享决策模块和多个网络分支改进的深度Q网络优化动作空间，减少调度网络输出的数量；

S4：调度网络在学习最优调度策略的过程中更新网络参数，在损失函数趋于稳定后，得到面向多传感器多服务器的链路调度方法。

进一步，步骤S1中，构建系统信息年龄更新模型具体包括以下步骤：

S11：设一个由M个传感器节点、N个服务器节点和一个目标节点(控制中心)组成的工业物联网系统，其中传感器节点采样的数据通过无线信道传输到服务器节点并进行处理，然后服务器节点通过有线连接交付数据至目标节点，m∈{1，2，…，M}和n∈{1，2，…，N}分别表示传感器节点和服务器节点的索引；系统交付数据是基于时隙的，一个时隙交付一个数据，且t∈{1，2，…，T}表示时隙的索引；在每个时隙开始时，最多能调度min{M，N}个数据通过正交通道进行无冲突的传输，传输成功后到达对应的服务器；信道噪声下传感器节点m向服务器节点n成功传递数据的概率为p_m，n∈(0，1]；由于链路冲突的存在，一个数据不能被多个服务器调度，一个服务器也不能在每个时隙调度多个数据；由于有线链路的数据传输速率远高于无线信道，因此从服务器节点到目标节点的传输时间可以忽略不计；

S12：每个传感器节点能存储一个数据，被采集数据的生成速率遵循λ_m∈(0，1]的伯努利分布；当有新数据产生时，缓存中的旧数据将被替换；每个服务器节点能缓存一个数据进行处理，并且允许服务被抢占，即服务器能优先处理新接收到的数据，丢弃当前的旧数据；有限正整数c_m，n表示服务器节点n完成传感器节点m的数据处理所需时隙；

S13：信息年龄为目标节点最新接收到的数据在生成以来所经过的时间；定义

表示在时隙t传感器节点m数据的信息年龄，设g_m(t)∈{0，1}表示传感器节点m在时隙t是否生成新数据，若生成则g_m(t)＝1，否则g_m(t)＝0；目标节点处信息年龄

的更新过程表示为：

S14：对于服务器节点，令

表示在时隙t传感器节点m交付给服务器节点n数据的信息年龄，并定义d_m，n(t)∈{0，1}表示服务器节点n在时隙t是否调度传感器节点m的数据，若当前时隙调度传感器节点m，则d_m，n(t)＝1，否则d_m，n(t)＝0；定义f_m，n(t)＝1表示当前服务器节点n成功接收到传感器节点m的数据，否则f_m，n(t)＝o；

的更新过程如下：

S15：在目标节点处数据的信息年龄受处理时间的影响，定义l_m，n(t)∈{0，1，…，c_m，n}表示服务器节点n处理传感器节点m数据所占用的时隙数；令i_m，n(t)∈{0，1}表示处理传感器节点数据的状态，其中i_m，n(t)＝1表示传感器节点m的数据被处理完成，i_m，n(t)＝0表示未处理完成；i_m，n(t)和l_m，n(t)的具体更新过程分别为：

S16：当传感器节点m的数据处理完成后，交付给目标节点；令

表示目标节点处来自传感器节点m数据的信息年龄，则

的更新过程表示为：

进一步，步骤S2中，构建最小化系统平均信息年龄的优化问题，具体包括以下步骤：

S201：在长期时间T→∞的条件下，通过目标节点的平均信息年龄来衡量网络的数据新鲜度，在任意可行策略π下，目标节点的期望平均信息年龄

可表示为：

其中，

表示系统初始系统状态信息年龄；

S202：为避免调度时链路之间的冲突，定义∏表示所有可行调度策略的集合，其中π∈∏；由此最小化系统平均信息年龄的优化问题可表述为：

满足于：

其中，π^*表示最优调度策略。

进一步，步骤S2中，建立系统的状态空间具体包括：系统的状态空间应该捕获网络中每个节点中数据的信息年龄，此外，还应考虑服务器处理的数据的索引。设v_n(t)＝{0，1，…，M}为服务器n在时隙t处理数据的索引，其中v_n(t)＝0表示在时隙t服务器n空闲；则系统状态空间s(t)表示为：

s(t)＝(a^s(t)，a^d(t)，v(t)，a^t(t)，l(t))

其中，

v(t)＝(v₁(t)，v₂(t)，…，v_N(t))，

进一步，步骤S2中，建立系统的动作空间具体包括：动作空间通过尺寸为M×N的矩阵ω(t)来表示，每行元素的和代表一个动作，每列元素的和都小于或等于1，其中索引为(m，n)的元素表示动作d_m，n(t)，由此得到：

令|ω|为动作空间的大小，则系统动作的数量为：

进一步，步骤S2中，建立系统的代价函数具体包括：针对优化目标，将执行一个动作后下一个时隙的信息年龄作为代价，代价函数c(t)定义为：

进一步，步骤S3中，具体包括以下步骤：

S31：调度网络采用固定优势策略生成优势动作探索空间，具体包括：在调度网络选择状态动作对进行学习时，利用固定优势策略减少探索过程中的低效状态动作对；当服务器节点n不参与调度时，将继续执行当前的计算任务，期望信息年龄减少与耗时之比可计算为：

当服务器节点n选择传感器节点m进行调度时，期望花费的时间为调度次数与完成计算任务所需的时间之和；期望信息年龄减少与时间消耗的比率为

由此，在时隙t服务器节点n的动作比率

为：

进一步定义每个动作ω(t)下的比率为

为：

在探索的过程中，建立由

的值最大的ρ个动作组成的导向状态空间W_ρ，其中ρ是设置探索范围的一个正整数超参。

S32：通过共享决策模块和多个网络分支优化动作空间，具体包括：为了降低由于大的动作空间而产生的复杂性，对深度Q网络结构进行改进，在网络中分别设置价值函数网络和优势函数网络，其中价值函数与状态有关而与动作无关，优势函数与状态和动作都有关；这两部分共享一个共同的学习模块，以价值函数网络输出和优势函数网络输出的线性组合作为网络的最终输出；价值函数网络根据动作的特点对高维动作进行分支，形成若干附加于共享模块之后的关联分支来评估每个子动作的Q值，然后由子动作组合形成调度动作，从而减少网络输出的数量。至此，改进后的深度Q网络的输出量可由

减少为N(M+1)+1。

进一步，步骤S4具体包括以下步骤：

S41：设置由在线网络和目标网络组成的调度网络，两种网络均是由共享决策模块和多个网络分支改进的深度Q网络组成；

S42：在线网络根据输入的系统状态和优势动作探索空间，获得由分支动作组成的动作组合ω(t)，执行动作后将经验存储至回放缓存；

S43：从缓存中随机抽取经验，通过目标网络计算每个分支的目标值，进而结合在线网络计算损失函数；具体步骤如下：

S431：对于每个子动作，在线网络从子动作的优势中减去分支中所有子动作的平均优势，然后将其与状态值结合起来，作为子动作的Q值；令u_n∈μ＝{0，1，…，M}表示服务器节点n的可行子动作，其中u_n＝0表示服务器节点不参与调度，u_n＝m表示服务器节点n调度传感器节点m；由此，在线网络中子动作u_n的Q值为：

其中，O(s，u_n|θ)为子动作的优势值，V(s|θ)为在线网络Q中状态值s的估计值，

为在线网络中分支n的任意可选子动作；

S432：对于每个分支，其目标值y_n为：

其中，c(t)为代价函数，γ为累计折扣因子，u′_n为目标网络中分支n的任意可选子动作，Q′_n(s(t+1)，u′_n|θ′_t)为状态s(t+1)和子动作u′_n下目标网络分支n的Q值；由于在线网络和目标网络的网络结构相同，Q′_n(s(t+1)，u′_n|θ′_t)值可以通过类似Q值的计算方式得到；定义损失函数为：

S44：根据梯度下降法更新网络参数以最小化损失函数，在损失函数的变化趋于稳定到达终止条件后，得到面向多传感器多服务器的调度方法。

本发明的有益效果在于：

(1)本发明联合考虑了链路调度、服务器选择和业务抢占等因素，对系统平均信息年龄进行了优化，保障了工业物联网系统数据交付的新鲜度。

(2)本发明采用共享决策模块和多个网络分支对深度Q网络进行改进，利用固定优势策略进行动作探索，在减少网络表征的状态空间和动作空间的同时，有效地提高了调度策略的学习速度，使得调度方法能够部署于大规模多传感器多服务器工业物联网系统。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所提供多传感器多服务器工业物联网结构示意图；

图2为本发明采用的共享决策模块和多个网络分支改进的深度Q网络示意图；

图3为本发明调度网络结构示意图；

图4为本发明基于信息年龄的工业物联网调度方法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图4，本发明针对多传感器多服务器的工业物联网系统，通过选择每个时隙的链路调度组合来最小化系统的平均信息年龄，将链路调度、服务器选择和服务抢占的强耦合优化问题构造为马尔可夫决策过程，采用共享决策模块和多个网络分支改进的深度Q网络减少问题求解的状态空间和动作空间，并利用固定优势策略来加快训练速度，发明一种基于深度强化学习的调度方法。

图1为多传感器多服务器工业物联网结构示意图。一个由M个传感器节点、N个服务器节点和一个目标节点(控制中心)组成的工业物联网系统，其中传感器节点采样的数据通过无线信道传输到服务器节点并进行处理，然后服务器节点通过有线连接交付数据至目标节点，m∈{1，2，…，M}和n∈{1，2，…，N}分别表示传感器节点和服务器节点的索引。系统交付数据是基于时隙的，一个时隙交付一个数据，且t∈{1，2，…，T}表示时隙的索引。在每个时隙开始时，最多可调度min{M，N}个数据通过正交通道进行无冲突的传输，传输成功后到达对应的服务器。信道噪声下传感器节点m向服务器节点n成功传递数据的概率为p_m，n∈(0，1]。由于链路冲突的存在，一个数据不能被多个服务器调度，一个服务器也不能在每个时隙调度多个数据。由于有线链路的数据传输速率远高于无线信道，因此从服务器节点到目标节点的传输时间可以忽略不计。

每个传感器节点可以存储一个数据，被采集数据的生成速率遵循λ_m∈(0，1]的伯努利分布。当有新数据产生时，缓存中的旧数据将被替换。每个服务器节点可以缓存一个数据进行处理，并且允许服务被抢占，即服务器可以优先处理新接收到的数据，丢弃当前的旧数据。有限正整数c_m，n表示服务器节点n完成传感器节点m的数据处理所需时隙。

图2为共享决策模块和多个网络分支改进的深度Q网络示意图。对于每个子动作，网络从子动作的优势中减去分支中所有子动作的平均优势，然后将其与状态值结合起来，作为子动作的Q值，最终输出动作组合w(t)。令u_n∈μ＝{0，1，…，M}表示服务器节点n的可行子动作，其中u_n＝0表示服务器节点不参与调度，u_n＝m表示服务器节点n调度传感器节点m。由此，在线网络中子动作u_n的Q值为：

其中，O(s，u_n|θ)为子动作的优势值，V(s|θ)为在线网络Q中状态值s的估计值。

图3为调度网络结构示意图，调度网络设置了在线网络和目标网络，都是由改进的Q网络组成。在线网络根据输入的系统状态获得由分支动作的组成的动作组合w(t)，执行动作后将经验存储至回放缓存，然后从缓存中随机抽取经验，通过目标网络计算每个分支的目标值，进而结合在线网络计算损失函数。

对于每个分支，其目标值y_n为：

由于在线网络和目标网络的网络结构相同，Q′_n(s(t+1)，u′_n|θ′_t)值可以通过类似Q值的计算方式得到。则损失函数定义为：

梯度下降法被用来更新网络参数以最小化损失函数。在损失函数的变化趋于稳定到达终止条件后，得到面向多传感器多服务器的调度方法。

图4为本发明基于信息年龄的工业物联网调度方法流程图，具体包括以下步骤：

V1～V4：获取工业物联网系统模型参数，构造学习最优调度策略的调度网络，确定网络的状态空间、动作空间以及代价函数。

V5～V9：目标节点通过信息年龄迭代模型进行更新数据，将当前时隙下的状态输入至调度网络，采用固定优势策略生成优势动作探索空间，执行动作并进行经验存储。

V10～V13：抽取经验片段计算各分支的目标值，获得损失函数，根据梯度下降法更新参数。

V14～V15：在损失函数稳定达到训练终止条件后，生成调度网络参数，工业物联网系统则根据训练完备的调度网络进行链路调度。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种多传感器多服务器工业物联网的信息年龄优化调度方法，其特征在于，该方法具体包括以下步骤：

2.根据权利要求1所述的信息年龄优化调度方法，其特征在于，步骤S1中，构建系统信息年龄更新模型具体包括以下步骤：

S11：设一个由M个传感器节点、N个服务器节点和一个目标节点组成的工业物联网系统，其中传感器节点采样的数据通过无线信道传输到服务器节点并进行处理，然后服务器节点通过有线连接交付数据至目标节点，m∈{1,2,…,M}和n∈{1,2,…,N}分别表示传感器节点和服务器节点的索引；系统交付数据是基于时隙的，一个时隙交付一个数据，且t∈{1,2,…,T}表示时隙的索引；在每个时隙开始时，最多能调度min{M,N}个数据通过正交通道进行无冲突的传输，传输成功后到达对应的服务器；信道噪声下传感器节点m向服务器节点n成功传递数据的概率为p_m,n∈(0,1]；一个数据不能被多个服务器调度，一个服务器也不能在每个时隙调度多个数据；从服务器节点到目标节点的传输时间忽略不计；

S12：每个传感器节点能存储一个数据，被采集数据的生成速率遵循λ_m∈(0,1]的伯努利分布；当有新数据产生时，缓存中的旧数据将被替换；每个服务器节点能缓存一个数据进行处理，并且允许服务被抢占，即服务器能优先处理新接收到的数据，丢弃当前的旧数据；有限正整数c_m,n表示服务器节点n完成传感器节点m的数据处理所需时隙；

表示在时隙t传感器节点m数据的信息年龄，设g_m(t)∈{0,1}表示传感器节点m在时隙t是否生成新数据，若生成则g_m(t)＝1，否则g_m(t)＝0；目标节点处信息年龄

的更新过程表示为：

S14：对于服务器节点，令

表示在时隙t传感器节点m交付给服务器节点n数据的信息年龄，并定义d_m,n(t)∈{0,1}表示服务器节点n在时隙t是否调度传感器节点m的数据，若当前时隙调度传感器节点m，则d_m,n(t)＝1，否则d_m,n(t)＝0；定义f_m,n(t)＝1表示当前服务器节点n成功接收到传感器节点m的数据，否则f_m,n(t)＝0；

的更新过程如下：

S15：在目标节点处数据的信息年龄受处理时间的影响，定义l_m,n(t)∈{0,1,…,c_m,n}表示服务器节点n处理传感器节点m数据所占用的时隙数；令i_m,n(t)∈{0,1}表示处理传感器节点数据的状态，其中i_m,n(t)＝1表示传感器节点m的数据被处理完成，i_m,n(t)＝0表示未处理完成；i_m,n(t)和l_m,n(t)的具体更新过程分别为：

S16：当传感器节点m的数据处理完成后，交付给目标节点；令

表示目标节点处来自传感器节点m数据的信息年龄，则

的更新过程表示为：

3.根据权利要求2所述的信息年龄优化调度方法，其特征在于，步骤S2中，构建最小化系统平均信息年龄的优化问题，具体包括以下步骤：

表示为：

其中，

表示系统初始系统状态信息年龄；

S202：为避免调度时链路之间的冲突，定义∏表示所有可行调度策略的集合，其中π∈∏；由此最小化系统平均信息年龄的优化问题表述为：

满足于：

其中，π^*表示最优调度策略。

4.根据权利要求3所述的信息年龄优化调度方法，其特征在于，步骤S2中，建立系统的状态空间具体包括：设v_n(t)＝{0,1,…,M}为服务器n在时隙t处理数据的索引，其中v_n(t)＝0表示在时隙t服务器n空闲；则系统状态空间s(t)表示为：

s(t)＝(a^s(t),a^d(t),v(t),a^r(t),l(t))

其中，

5.根据权利要求3所述的信息年龄优化调度方法，其特征在于，步骤S2中，建立系统的动作空间具体包括：动作空间通过尺寸为M×N的矩阵ω(t)来表示，每行元素的和代表一个动作，每列元素的和都小于或等于1，其中索引为(m,n)的元素表示动作d_m,n(t)，由此得到：

令|ω|为动作空间的大小，则系统动作的数量为：

6.根据权利要求3所述的信息年龄优化调度方法，其特征在于，步骤S2中，建立系统的代价函数c(t)定义为：

7.根据权利要求4所述的信息年龄优化调度方法，其特征在于，步骤S3中，调度网络采用固定优势策略生成优势动作探索空间，具体包括：在调度网络选择状态动作对进行学习时，利用固定优势策略减少探索过程中的低效状态动作对；当服务器节点n不参与调度时，将继续执行当前的计算任务，期望信息年龄减少与耗时之比计算为：

由此，在时隙t服务器节点n的动作比率

为：

进一步定义每个动作ω(t)下的比率为

为：

在探索的过程中，建立由

8.根据权利要求1或5所述的信息年龄优化调度方法，其特征在于，步骤S3中，通过共享决策模块和多个网络分支优化动作空间，具体包括：对深度Q网络结构进行改进，在网络中分别设置价值函数网络和优势函数网络，其中价值函数与状态有关而与动作无关，优势函数与状态和动作都有关；这两部分共享一个共同的学习模块，以价值函数网络输出和优势函数网络输出的线性组合作为网络的最终输出；价值函数网络根据动作的特点对高维动作进行分支，形成若干附加于共享模块之后的关联分支来评估每个子动作的Q值，然后由子动作组合形成调度动作，从而减少网络输出的数量。

9.根据权利要求1所述的信息年龄优化调度方法，其特征在于，步骤S4具体包括以下步骤：

S431：对于每个子动作，在线网络从子动作的优势中减去分支中所有子动作的平均优势，然后将其与状态值结合起来，作为子动作的Q值；令u_n∈μ＝{0,1,…,M}表示服务器节点n的可行子动作，其中u_n＝0表示服务器节点不参与调度，u_n＝m表示服务器节点n调度传感器节点m；由此，在线网络中子动作u_n的Q值为：

其中，O(s,u_n|θ)为子动作的优势值，V(s|θ)为在线网络Q中状态值s的估计值，

为在线网络中分支n的任意可选子动作；

S432：对于每个分支，其目标值y_n为：

其中，c(t)为代价函数，γ为累计折扣因子，u′_n为目标网络中分支n的任意可选子动作，Q′_n(s(t+1),u′_n|θ′_t)为状态s(t+1)和子动作u′_n下目标网络分支n的Q值；由于在线网络和目标网络的网络结构相同，Q′_n(s(t+1),u′_n|θ′_t)值通过类似Q值的计算方式得到；定义损失函数为：