CN116390125A

CN116390125A - 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法

Info

Publication number: CN116390125A
Application number: CN202310342081.2A
Authority: CN
Inventors: 胡晗; 朱兴武; 周福辉; 吴伟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-07-04

Abstract

本发明公开了一种基于DDPG‑D3QN的工业物联网云边协同卸载及资源分配方法，步骤如下：构建云边协同系统模型；计算系统模型的总时延和总能耗；确定和推导优化目标方程；根据优化目标方程，确定状态空间、动作空间和奖励函数；引入决斗双深度网络，构建DDPG‑D3QN混合决策强化学习网络；结合云边协同系统模型，优化DDPG‑D3QN混合决策强化学习网络参数；根据优化后的DDPG‑D3QN混合决策强化学习网络，得到最优的云边协同卸载和资源分配方案。本发明利用确定性策略梯度和决斗双深度网络来改进DDPG‑D3QN混合决策深度强化学习网络，极大提高了算法的稳定性和收敛速度，有效降低了云边协同系统的服务成本。

Description

一种基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法

技术领域

本发明属于无线通信技术领域，尤其涉及基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法。

背景技术

随着新兴物联网时代的加速到来以及5G无线技术的快速发展，MID(Mobile IoTDevices，移动物联网设备)对数据速率和体验质量的要求呈指数级增长。这给自身通信计算资源有限的MID带来了挑战。MEC(Mobile Edge Computing，移动边缘计算)被认为是一种关键技术。相比于集中式的云计算，MID可以将部分任务卸载到计算资源较高的MEC中进行处理，从而获得较高的计算效率、较低的服务时延和较少的能量消耗。尽管MEC服务器相比于物联网终端设备有较多的计算资源，但是它仍然遭受着资源限制的问题。因此，结合云计算的云边协同的计算架构被许多研究中应用于为MEC服务器提高计算能力和缓解计算负载。然而随着工业生产设备数量的增加，通信端的移动性不可预知，加大了云边协同卸载和系统资源分配的难度，也为移动终端管理、资源分配指标带来了挑战。

现有的云边协同卸载和资源分配的优化方案主要分为两类，基于传统优化理论的方法和基于智能算法的方法。传统优化方法，如基于凸优化理论的方法，通过多次迭代来最小化资源分配的成本。但是这些方法常需要经过复杂迭代，且只能得到近似最优解，很难获得最佳的长期策略。此外，还需要已知环境的统计信息，这些信息在实际云边协同系统中很难获取。

基于智能算法的方法，尤其是基于深度强化学习的方法因其可以解决未知环境统计信息下的动态决策问题而备受关注。Min.M等人在其发表的论文“Learning-BasedComputation Offloading for IoT Devices With Energy Harvesting”(IEEETransactions on Vehicular Technology.,vol.68,no.2,pp.1930–1941,2019)提出了一种基于深度Q学习的资源优化方案方案，以优化服务器选择和卸载率离散动作，但是这种方案无法处理连续动作。Chen Z等人在其发表的论文“Decentralized ComputationOffloading for Multi-User Mobile Edge Computing:ADeep Reinforcement LearningApproach”(EURASIP Journal on Wireless Communications and Networking.,vol.2020,no.1,pp.1–21,2020)中提出了一种基于深度确定性策略梯度的方案，以优化连续的本地执行和卸载的功率分配。然而，这些工作中采用的模型要么是离散动作空间，要么是连续动作空间，在多服务器多用户物联网网络中可能无法很好地执行任务计算卸载。事实上，在多服务器多用户物联网场景中，每个MID不仅要决定关联哪个MEC服务器然后进行部分卸载，还要决定如何分配计算和通信资源，其动作域通常包括混合动作，即离散和连续动作。Zhang J等人在其发表的论文“Dynamic computation offloading with energyharvesting devices:Ahybrid-decision-based deep reinforcement learningapproach”(IEEE Internet of Things Journal.,vol.69，no.10,pp.9303–9317,2020)中提出了一种混合DDPG-DQN解决方案被应用于解决MEC系统中的连续离散决策。然而，该方案中基于DQN改进的Critic架构经常存在过估计问题，从而导致稳定性差和收敛速度慢。因此，亟需开发新的混合决策强化学习方法来提高算法的稳定性和收敛速度，从而有效降低云边协同系统的服务成本。

发明内容

本发明所要解决的技术问题是：针对工业物联网云边协同卸载场景下的资源分配问题，提供了基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法，通过引入DDPG-D3QN混合决策深度强化学习，利用确定性策略梯度和决斗双深度Q网络来改进强化学习结构，获得节能且低时延的资源优化分配策略。

本发明为解决上述技术问题采用以下技术方案：

本发明提出的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法包括如下步骤：

S1、构建云边协同系统模型。

S2、根据步骤S1的模型计算系统的总时延和总能耗。

S3、以最小化时延和能耗为目标，确定和推导优化目标方程。

S4、根据优化目标方程，确定状态空间、动作空间和奖励函数。

S5、引入决斗双深度Q网络，构建DDPG-D3QN混合决策强化学习网络。

S6、结合云边协同系统，优化DDPG-D3QN混合决策强化学习网络参数。

S7、根据优化后的DDPG-D3QN混合决策强化学习网络获得优化的解，得到最优的云边协同卸载和资源分配方案。

进一步，步骤S1中，云边协同系统模型包括一个云服务器和M个MEC服务器。其中MEC服务器集记作M＝{1,2,...,M}，为N个资源受限的MID提供计算卸载服务；MID集记作N＝{1，2，...，N}。该模型采用时隙结构表示任务处理时间，每个时隙由一个长度为T_f符号的帧表示。

在时隙t的开始，每个MID会生成一个大小为D_n(t)的计算任务，对计算任务中的(1-α_n(t))D_n(t)部分进行本地处理，剩余的α_n(t)D_n(t)部分将卸载到所选的MEC服务器中进行处理，α_n(t)∈[0,1]表示MIDn在时隙t决定的卸载率。若MEC服务器提供的计算性能不足，MID把所选的MEC服务器作为中继节点，将计算任务转移到计算性能更高的云服务器上进行处理。

进一步，步骤S2中计算系统模型的总时延和总能耗的具体步骤如下：

S201、在时隙t中，MIDn对(1-α_n(t))D_n(t)比特的计算任务进行本地处理，此时的时延和能耗分别为：

其中，L_n表示处理一比特任务所需的CPU周期数，

表示MIDn的CPU周期频率，

表示MIDn分配的本地处理功率。

S202、在时隙t中，MIDn将剩余的计算任务卸载至MEC服务器m中，若所选的MEC服务器m与时隙t初始所选的服务器不同，造成的基站切换时延为：

其中，ψ表示发生一次基站切换的时间；m_n(t)∈M表示MIDn在时隙t中所选的MEC服务器；l_n(t)表示MIDn在时隙t初始所选的服务器；当条件Ω满足时，1_{Ω}为1，否则为0。

S203、在时隙t中，MIDn采用NOMA技术将剩余的计算任务卸载至MEC服务器m，使得当多个MID同时关联同一个基站进行计算任务的传输时，所有MIDs共享同一个上行信道进行传输。为了区分叠加信号，采用连续干扰消除解码，先对用户信道质量较好的进行解码，并从接受信号中分离出来，从而不会干扰到信道质量较差的用户。MIDn和MEC服务器m之间的传输速率为：

其中，B表示系统带宽，

表示MIDn的传输功率，σ²表示加性噪声功率，

表示MID n和MEC服务器m之间的信道增益，/>

表示其他MID的信号干扰。

S204、MIDn将α_n(t)D_n(t)比特计算任务传输给MEC服务器m的传输时延和能耗分别为：

S205、在时隙t中，MIDn在不同的服务器中处理卸载任务，所造成的时延不同，具体内容为：

(1)在MEC服务器m上处理卸载任务时，该服务器处理MIDn的α_n(t)D_n(t)比特卸载任务造成的时延为：

其中，y_n表示MEC服务器m分配给MIDn卸载任务的计算资源比例，f_m表示MEC服务器m的CPU周期频率。

(2)在云服务器上处理卸载任务时，所选的MEC服务器m将作为一个中继节点执行，MIDn通过MEC服务器m处理卸载任务造成的时延为：

其中，N_m,c(t)表示将计算任务通过MEC服务器m卸载给云服务器进行处理的MID集合，f_c表示云服务器的计算资源，

表示MEC服务器m和云服务器之间的传输速率。

S206、在时隙t中，MEC服务器m将处理结果下传到MIDn，其数据大小为

块长度为/>

下行链路的信噪比为/>

其中，/>

表示链路n的平均信噪比，/>

表示下行链路信道增益；MIDn解码错误概率为：

S207、通过结合切换时延、传输时延和处理时延，MID进行计算卸载的时延为：

S208、MIDn在时隙t的总延时和总能耗为：

进一步，步骤S3中，确定优化目标方程的具体步骤如下：

S301、在资源限制和QoS要求的约束下，通过优化任务卸载率、本地计资源、MID与MEC服务器或者云服务器关联和MEC服务器计算资源分配，以最小化处理时间、消耗能量的长期平均系统成本，具体内容为：

s.t.α_n(t)∈[0,1],n∈N,t∈T

y_n∈[0,1],n∈N

m_n(t)∈M

c_n,m(t)∈{0,1},n∈N,m∈M,t∈T

T_n(t)＜T^*,n∈N,t∈T

E_n(t)＜b_n(t)+e_n(t),n∈N,t∈T

其中，ω₁和ω₂是加权参数，用于权衡消耗的时间和能量；α_n(t)表示MIDn的任务卸载率；y_n表示MEC服务器m分配给MIDn卸载任务的计算资源比例；

表示MIDn分配的本地处理功率；/>

表示MIDn的最大处理功率；N表示MIDs集合；M表示MEC服务器集合；c_n,m(t)＝1表示MIDn将任务通过MEC服务器卸载到云服务器执行，否则表示MIDn在MEC服务器上执行；T^*表示最大时延限制；

表示下行链路的误码率；ε_DL ^*表示最大误码率限制；b_n(t)表示时隙t初始时MIDn的电池电量；e_n(t)表示在时隙t采集到的能量。

S302、由于MEC服务器上的计算资源分配只与MID的卸载决策相关，当MID做出卸载决策之后，服务器的计算资源分配的优化是独立的，因此，根据给定的卸载率α_n(t)和服务器选择x_n(t)，求解最优MEC资源分配问题，具体内容为：

y_n≥0,n∈N。

该问题是关于y_n的凸函数，其拉格朗日函数为：

其中，u_n和z均为拉格朗日乘子，y_n∈[0,1]，

最优解y_n ^*满足Karush-Kuhn-Tucker条件，因此可得到以下公式：

MEC服务器上计算资源的最优分配为：

S303、根据步骤S302中得到的MEC服务器计算资源最优分配，将原优化目标方程转换为以下内容：

s.t.α_n(t)∈[0,1],n∈N,t∈T

m_n(t)∈M

c_n,m(t)∈{0,1},n∈N,m∈M,t∈T

T_n(t)＜T^*,n∈N,t∈T

E_n(t)＜b_n(t)+e_n(t),n∈N,t∈T

进一步，步骤S4中，确定的状态空间、动作空间和奖励函数分别为：

(1)状态空间表示为：

其中，S_n(t)表示MIDn在时隙t时的状态，包括MIDn的计算任务大小D_n(t)、当前电池电量b_n(t)、收集到的能量e_n(t)、MIDn的初始关联基站l_n(t)、上行信道增益

和下行信道增益/>

表示所有MID状态的集合。

(2)动作空间分为连续动作空间

和离散动作空间x_n(t)；其中α_n(t)和/>

为连续值，分别表示MIDn的卸载率和本地执行功率；x_n(t)∈X＝{1,2,...,m,...2M}为离散值，表示MIDn对服务器的选择，其中m表示第m种服务器。

(3)奖励函数包括四个部分，第一部分是归一化的时延，第二部分是归一化的能耗，这两者都直接反映了所提出框架的计算卸载性能；第三部分是MID满足延迟限制和解码错误概率约束时计算任务处理成功的奖励，第四部分是MID计算任务时由于不能满足系统性能约束而被丢弃的惩罚；归一化的时延和能耗如下：

其中，T_Local、E_Local表示整个任务都在本地处理时的时延和能耗；在每个时隙内，当MID计算任务满足解码错误概率限制且其传输时延和处理时延满足任务时延条件约束时，则表示已成功处理MID计算任务，智能体将获得相应的奖励；若MID计算任务超过解码错误概率的限制，即MID的实际错误概率超过门限值，并且总处理时间不满足延迟约束，则认为计算任务处理超时，表示任务处理失败，智能体将受到相应的惩罚。

处理任务的奖励或惩罚如下：

其中，r_n,s(t)表示MIDn在时隙t中处理任务获得的奖励或惩罚，T_n(t)表示MID n在时隙t中的总处理时间，T^*表示总时延限制，

表示在时隙t中MIDn解码错误概率，/>

表示解码错误概率限制；

奖励函数具体内容如下：

其中，

为归一化时延，表示r_n,s(t)处理任务获得的奖励；/>

为归一化能耗，表示r_n,s(t)处理任务获得的惩罚；P_n(t)为计算任务丢包的惩罚。

进一步，步骤S5中，DDPG-D3QN混合决策强化学习网络是Actor-Critic架构的扩展，其中每个MID都有一个Actor网络，并共享一个具有公共信息的集中式Critic网络。Actor网络可根据观察到的状态决定连续动作，即任务卸载率和本地执行功率。集中式Critic网络由决斗Q网络和双深度Q网络组成，用于评估和更新Actor网络，并基于所有MID的状态和连续动作来确定离散动作，即MID与MEC服务器和云服务器的关联。

进一步，步骤S6中，优化DDPG-D3QN混合决策强化学习网络参数的具体步骤如下：

S601、训练回合ep初始化为0。

S602、ep回合中的时隙t初始化为0。

S603、初始化DDPG-D3QN混合决策强化学习网络的可训练参数。

S604、根据输入状态

每个MID利用自身的Actor网络遍历所有的离散动作，生成相应的连续动作集；/>

表示MIDn的Actor网络生成的连续动作集，其中u_n,m(t)表示MIDn在第m种离散动作下相应的连续动作，所有MID生成的连续动作集表示为/>

S605、根据输入状态

和所有MID生成的连续动作集/>

通过集中式Critic网络得到每个MID的Q值，为/>

根据动作价值函数获取最终的离散动作和连续动作，具体如下：

其中，Q_n(·)表示MIDn的动作价值函数，x_n(t)表示MIDn的离散动作，θ表示Critic网络的可训练参数，

表示MIDn在离散动作x_n(t)下的连续动作。

S606、执行所有MID的连续动作和离散动作，获得奖励r(t)和下一状态S(t+1)，将训练集

存储到经验池中。

S607、T为每个ep回合的总时隙数，若满足t＜T，则t＝t+1，并返回步骤S604，否则进入步骤S608。

S608、从经验池中随机抽取K个训练集，用当前Critic网络中的决斗Q网络估计每个MID的状态值函数

和动作优势函数/>

在最后一层进行聚合输出状态动作值函数：

所有MID的总状态动作价值函数如下：

其中，θ表示当前Critic网络中可训练参数。

S609、利用目标Critic网络基于双深度Q网络计算目标值，具体公式如下：

其中，Q_n(·|θ^-)表示目标Critic网络的动作价值函数，Q_n(·|θ)表示当前Critic网络的动作价值函数。

通过最小化损失函数来更新当前Critic网络，损失函数如下：

S610、通过计算策略梯度更新当前每个Actor网络，梯度更新的公式如下：

其中，μ_n表示MIDn当前Actor网络的策略函数，

表示MIDn动作价值函数的最大值。

S611、采用软更新方式更新目标Critic网络和目标Actor网络，具体公式如下：

θ^-←ηθ+(1-η)θ^-，β^-←ηβ+(1-η)β^-

其中，η表示更新系数，θ表示当前Critic网络参数，θ^-表示目标Critic网络参数，β表示当前Actor网络参数，β^-表示目标Actor网络参数。

S612、判断当前训练回合ep是否达到最大训练回合数，若是，则优化结束，否则赋值ep＝ep+1，并返回步骤S602，继续实行整套步骤流程。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明基于DDPG-D3QN混合决策强化学习的资源分配方法可同时提供连续和离散的动态决策，提高了在实际应用中的灵活性。且与传统强化学习方法相比，本方法有效地降低了云边协同系统的服务成本。

(2)本发明设计的DDPG-D3QN混合决策强化学习网络，提升了算法稳定性和收敛速度，为实际场景中的实时性需求提供了保障。

(3)本发明主要解决了当存在多MID设备、多基站、多MEC服务器以及单个云服务器的情况下，如何确定离散和连续决策共存的资源分配策略问题以及混合决策强化学习算法稳定性差和收敛速度慢问题。

附图说明

图1是本发明基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法的总体流程图。

图2是本发明的云边协同系统框架图。

图3是采用本发明的DDPG-D3QN混合决策强化学习网络的训练框架图。

图4是采用本发明和现有其他技术的训练收敛速度对比图。

图5是采用本发明和现有其他技术在不同平均任务大小下的时延和能耗对比。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。如图1所示，本发明基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法的总体流程图，具体步骤如下：

S1、构建云边协同系统模型，如图2所示，在本实施例中，构建的云边协同系统包含一个云服务器和3个MEC服务器，云服务器提供云计算，MEC服务器提供边缘计算服务。MEC服务器集记作M＝{1,2,3}，为16个资源受限的MID提供计算卸载服务。MID集记作N＝{1，2，...，16}，MID使用能量收集设备提供能量。系统采用时隙结构表示任务处理时间，每个时隙由一个帧长为600符号、每个符号5μs表示。在时隙t的开始，每个MID会生成一个大小为D_n(t)、单位为KBit的计算任务，然后将计算任务的(1-α_n(t))D_n(t)部分进行本地处理，将剩余的α_n(t)D_n(t)部分卸载到所选的MEC服务器进行处理，其中D_n(t)∈[1.5,4]，α_n(t)∈[0,1]表示MIDn在时隙t决定的卸载率。当MEC服务器提供的计算性能不足时，MID将所选的MEC服务器作为中继节点，将计算任务转移到计算性能更高的云服务器上进行处理。

S2、根据步骤S1的模型计算系统的总时延和总能耗，具体步骤如下：

其中，L_n＝800表示处理一比特任务所需的CPU周期数；

表示MIDn的CPU周期频率；/>

表示MID n分配的本地处理功率，其最大值为/>

其中，ψ＝1.5ms表示发生一次基站切换的时间；m_n(t)∈{1,2,3}表示MIDn在时隙t中所选的MEC服务器；l_n(t)∈{1,2,3}表示MIDn在时隙t初始所选的服务器；当条件Ω满足时，1_{Ω}为1，否则为0。

其中，B表示系统带宽，为5MHz；

表示MIDn的传输功率，/>

σ²表示加性噪声功率，σ²＝-114dBm；/>

表示MIDn和MEC服务器m之间的信道增益；

表示其他MID的信号干扰，其中/>

其中，y_n∈[0,1]表示MEC服务器m分配给MIDn卸载任务的计算资源比例；f_m表示MEC服务器m的CPU周期频率，f_m＝10GHz。

其中，N_m,c(t)表示将计算任务通过MEC服务器m卸载给云服务器进行处理的MID集合；f_c表示云服务器的计算资源，f_c＝100GHz；

表示MEC服务器m和云服务器之前的传输速率，/>

块长度为/>

下行链路的信噪比为/>

其中，/>

表示链路n的平均信噪比，/>

表示下行链路信道增益；MIDn解码错误概率为：

S208、MIDn在时隙t的总延时和总能耗为：

S3、以最小化时延和能耗为目标，确定和推导优化目标方程，具体步骤如下：

s.t.α_n(t)∈[0,1],n∈N,t∈T

y_n∈[0,1],n∈N

m_n(t)∈M

c_n,m(t)∈{0,1},n∈N,m∈M,t∈T

T_n(t)＜T^*,n∈N,t∈T

E_n(t)＜b_n(t)+e_n(t),n∈N,t∈T

其中，ω₁＝8和ω₂＝2是加权参数，用于权衡消耗的时间和能量；α_n(t)∈[0,1]表示MIDn的任务卸载率；y_n∈[0,1]表示MEC服务器m分配给MIDn卸载任务的计算资源比例；

表示MIDn分配的本地处理功率，其中最大功率/>

N＝{1，2，...，16}表示MIDs集合；M＝{1，2，3}表示MEC服务器集合；c_n,m(t)∈{0，1}是MID选择云服务决策，c_n,m(t)＝1表示MIDn将任务通过MEC服务器卸载到云服务器执行，否则表示MIDn在MEC服务器上执行；T^*＝3ms表示最大时延限制；/>

表示下行链路的误码率；ε_DL ^*＝10^-4表示最大误码率限制；b_n(t)表示时隙t初始时MIDn的电池电量；e_n(t)表示在时隙t采集到的能量。

S302、由于MEC服务器上的计算资源分配只与MID的卸载决策相关，当MID做出卸载决策之后，服务器的计算资源分配的优化是独立的，因此，根据给定的卸载率α_n(t)∈[0,1]和服务器选择x_n(t)∈M，求解最优MEC资源分配问题，具体内容为：

y_n≥0,n∈N。

该问题是关于y_n的凸函数，其拉格朗日函数为：

其中，u_n和z均为拉格朗日乘子，y_n∈[0,1]，

最优解/>

满足Karush-Kuhn-Tucker条件，因此可得到以下公式：

MEC服务器上计算资源的最优分配为：

s.t.α_n(t)∈[0,1],n∈N,t∈T

m_n(t)∈M

c_n,m(t)∈{0,1},n∈N,m∈M,t∈T

T_n(t)＜T^*,n∈N,t∈T

E_n(t)＜b_n(t)+e_n(t),n∈N,t∈T

S4、根据优化目标方程，确定状态空间、动作空间和奖励函数，分别为：

(1)状态空间表示为：

其中，S_n(t)表示MID n在时隙t时的状态，包括MID n的计算任务大小D_n(t)∈[1.5,4]、当前电池电量b_n(t)、收集到的能量e_n(t)、MIDn的初始关联基站l_n(t)∈{1,2,3}、上行信道增益

和下行信道增益

表示所有MID状态的集合。

(2)动作空间分为连续动作空间

和离散动作空间x_n(t)；其中α_n(t)和/>

为连续值，分别表示MIDn的卸载率和本地执行功率；x_n(t)∈X＝{1，2，...，m，...2M}为离散值，表示MIDn对服务器的选择，m表示第m种服务器。

处理任务的奖励或惩罚如下：

其中，r_n,s(t)表示MIDn在时隙t中处理任务获得的奖励或惩罚，T_n(t)表示MID n在时隙t中的总处理时间，T^*＝3ms表示总时延限制，

表示在时隙t中MIDn解码错误概率，

表示解码错误概率限制；

奖励函数具体内容如下：

/>

其中，

为归一化时延，表示r_n,s(t)处理任务获得的奖励；/>

S5、如图3所示，引入决斗双深度Q网络，构建DDPG-D3QN混合决策强化学习网络，该网络是Actor-Critic架构的扩展，其中每个MID都有一个Actor网络，并共享一个具有公共信息的集中式Critic网络。Actor网络根据观察到的状态决定其连续动作，即任务卸载率和本地执行功率。集中式Critic网络由决斗Q网络和双深度Q网络组成，用于评估和更新Actor网络，并基于所有MID的状态和连续动作来确定离散动作，即MID与MEC服务器和云服务器的关联。

S6、结合云边协同系统，优化DDPG-D3QN混合决策强化学习网络参数，具体步骤如下：

S601、训练回合ep初始化为0。

S602、ep回合中的时隙t初始化为0。

S603、初始化DDPG-D3QN混合决策强化学习网络的可训练参数。

S604、根据输入状态

表示MID n的Actor网络生成的连续动作集，其中u_n,m(t)表示MIDn在第m种离散动作下相应的连续动作，所有MID生成的连续动作集表示为/>

S605、根据输入状态

和所有MID生成的连续动作集/>

通过集中式Critic网络得到每个MID的Q值，为/>

表示MIDn在离散动作x_n(t)下的连续动作。

存储到经验池中。

和动作优势函数/>

在最后一层进行聚合输出状态动作值函数：/>

所有MID的总状态动作价值函数如下：

其中，θ表示当前Critic网络中可训练参数。

其中，Q_n(·|θ^-)表示目标Critic网络的动作价值函数，Q_n(·|θ^-)表示当前Critic网络的动作价值函数。

通过最小化损失函数来更新当前Critic网络，损失函数如下：

其中，μ_n表示MIDn当前Actor网络的策略函数，

表示MIDn动作价值函数的最大值。

θ^-←ηθ+(1-η)θ^-，β^-←ηβ+(1-η)β^-

图4是本发明的DDPG-D3QN强化学习算法与现有强化学习算法平均奖励方面的收敛性能对比图。图中的横坐标表示训练回合索引，纵坐标表示平均奖励。以正方形标示的折线表示本发明的DDPG-D3QN强化学习算法平均奖励曲线，以圆形标示的折线表示DDPG-DQN算法的平均奖励曲线，以正三角形标示的折线表示DQN算法的平均奖励曲线。

为了评估本发明中提出的基于云边协同系统中的DDPG-D3QN强化学习算法框架，首先将其与DDPG-DQN算法进行比较。对于每个智能体，将训练回合设置为1000，每个回合包含100个步。在每一步中，智能体都必须不断地做出决策，与环境进行交互，并基于环境反馈不断地更新网络模型。可以看出，本发明的DDPG-D3QN强化学习算法、DDPG-DQN算法和DQN算法的平均奖励随着训练次数的增加而不断上升，最终趋于收敛。这一趋势表明MID在没有任何先验知识的情况下仍然可以学习有效的策略。注意，本发明提出的DDPG-D3QN强化学习算法在380集后开始收敛，600集后逐渐趋于稳定，而DDPG-DQN算法在500集后开始收敛，900集后逐渐趋于稳定，结果表明，利用决斗双深度Q网络重新设计的Critic网络，所提出的算法具有较快的收敛速度和较好的稳定性能。而且，本发明提出的DDPG-D3QN强化学习算法的最终平均奖励高于DDPG-DQN，进一步验证了本发明强化学习算法的有效性。

图5的(a)和图5的(b)展示了不同算法下平均任务大小对平均延时和能耗的影响。图中横坐标表示平均任务大小，纵坐标表示平均时延和平均能耗。以菱形标示的折线表示本发明的DDPG-D3QN强化学习算法，以正三角标示的折线表示DDPG-DQN算法，以倒三角形标示的折线表示DQN算法。

当平均任务大小从1.5KBits变为4KBits时从DDPG-D3QN中学习策略的平均消耗时间增加48.41％，从DDPG-DQN学习策略的平均消耗能量增加89.13％。随着MID平均任务大小的增加，计算任务处理的延迟增加，同时需要更多的能量来满足其卸载性能，相应的能量消耗也随之增加。然而，与其他基准相比，本发明中提出的DDPG-D3QN强化学习算法保持了最低的时间和能量消耗。

综合上述仿真结果和分析，本发明所提出的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法，具有更好的稳定性和更快的收敛性。同时在不同的任务到达率下，平均系统服务成本明显降低。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法，其特征在于，包括如下步骤：

S1、构建云边协同系统模型；

S2、根据步骤S1的模型计算总时延和总能耗；

S3、以最小化时延和能耗为目标，确定和推导优化目标方程；

S4、根据优化目标方程，确定状态空间、动作空间和奖励函数；

S5、引入决斗双深度Q网络，构建DDPG-D3QN混合决策强化学习网络；

S6、结合云边协同系统，优化DDPG-D3QN混合决策强化学习网络参数；

S7、根据优化后的DDPG-D3QN混合决策强化学习网络，得到最优的云边协同卸载和资源分配方案。

2.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法，其特征在于，步骤S1中，云边协同系统模型包括一个云服务器和M个MEC服务器，MEC服务器集为N个资源受限的MID提供计算卸载服务；该模型系采用时隙结构表示任务处理时间；

在时隙t的开始，每个MID生成一个大小为D_n(t)的计算任务，对计算任务中的(1-α_n(t))D_n(t)部分进行本地处理，剩余的α_n(t)D_n(t)部分将卸载到所选的MEC服务器中进行处理，α_n(t)∈[0,1]表示MID n在时隙t决定的卸载率；若MEC服务器提供的计算性能不足，MID把所选的MEC服务器作为中继节点，将计算任务转移到计算性能更高的云服务器上进行处理。

3.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法，其特征在于，步骤S2中，计算系统模型的总时延和总能耗的具体步骤如下：

S201、在时隙t中，MID n对(1-α_n(t))D_n(t)比特的计算任务进行本地处理，此时的时延和能耗分别为：

其中，L_n表示处理一比特任务所需的CPU周期数，

表示MID n的CPU周期频率，/>

表示MID n分配的本地处理功率；

S202、在时隙t中，MID n将剩余的计算任务卸载至MEC服务器m中，若所选的MEC服务器m与时隙t初始所选的服务器不同，造成的基站切换时延为：

其中，ψ表示发生一次基站切换的时间；m_n(t)∈M表示MID n在时隙t中所选的MEC服务器；l_n(t)表示MID n在时隙t初始所选的服务器；当条件Ω满足时，1_{Ω}为1，否则为0；

S203、在时隙t中，MID n采用NOMA技术将剩余的计算任务卸载至MEC服务器m，采用连续干扰消除解码，MID n和MEC服务器m之间的传输速率为：

其中，B表示系统带宽，

表示MID n的传输功率，σ²表示加性噪声功率，/>

表示MID n和MEC服务器m之间的信道增益，/>

表示其他MID的信号干扰；

S204、MID n将α_n(t)D_n(t)比特计算任务传输给MEC服务器m的传输时延和能耗分别为：

S205、在时隙t中，MID n在不同的服务器中处理卸载任务时，所造成的时延分别为：

(1)在MEC服务器m上处理卸载任务时，该服务器处理MID n的卸载任务造成的时延为：

其中，y_n表示MEC服务器m分配给MID n卸载任务的计算资源比例，f_m表示MEC服务器m的CPU周期频率；

其中，Nm,c(t)表示将计算任务通过MEC服务器m卸载给云服务器进行处理的MID集合，f_c表示云服务器的计算资源，

表示MEC服务器m和云服务器之间的传输速率；

S206、在时隙t中，MEC服务器m将处理结果下传到MID n，其数据大小为

块长度为/>

下行链路的信噪比为/>

其中，/>

表示链路n的平均信噪比，/>

表示下行链路信道增益；MID n解码错误概率为：

S208、MID n在时隙t的总延时和总能耗为：

4.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法，其特征在于，步骤S3中，确定优化目标方程的具体步骤如下：

P1:

s.t.α_n(t)∈[0,1],n∈N,t∈T

y_n∈[0,1],n∈N

m_n(t)∈M

c_n,m(t)∈{0,1},n∈N,m∈M,t∈T

T_n(t)＜T^*,n∈N,t∈T

E_n(t)＜b_n(t)+e_n(t),n∈N,t∈T

其中，ω₁和ω₂是加权参数，用于权衡消耗的时间和能量；α_n(t)表示MID n的任务卸载率；y_n表示MEC服务器m分配给MID n卸载任务的计算资源比例；

表示MID n分配的本地处理功率；/>

表示MID n的最大处理功率；N表示MIDs集合；M表示MEC服务器集合；c_n,m(t)＝1表示MID n将任务通过MEC服务器卸载到云服务器执行，否则表示MID n在MEC服务器上执行；T^*表示最大时延限制；/>

表示下行链路的误码率；ε_DL ^*表示最大误码率限制；b_n(t)表示时隙t初始时MID n的电池电量；e_n(t)表示在时隙t采集到的能量；

S302、根据给定的卸载率α_n(t)和服务器选择x_n(t)，求解最优MEC资源分配问题，具体内容为：

P2:

y_n≥0,n∈N；

该问题是关于y_n的凸函数，其拉格朗日函数为：

其中，u_n和z均为拉格朗日乘子；y_n∈[0,1]，

最优解/>

满足Karush-Kuhn-Tucker条件，得到以下公式：

MEC服务器上计算资源的最优分配为：

S303、根据步骤S302中得到的MEC服务器计算资源最优分配，确定新的优化目标方程，具体内容为：

P3:

s.t.α_n(t)∈[0,1],n∈N,t∈T

m_n(t)∈M

c_n,m(t)∈{0,1},n∈N,m∈M,t∈T

T_n(t)＜T^*,n∈N,t∈T

E_n(t)＜b_n(t)+e_n(t),n∈N,t∈T

5.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法，其特征在于，步骤S4中，状态空间、动作空间和奖励函数分别为：

(1)状态空间表示为：

其中，S_n(t)表示MID n在时隙t时的状态，包括MID n的计算任务大小D_n(t)、当前电池电量b_n(t)、收集到的能量e_n(t)、MID n的初始关联基站l_n(t)、上行信道增益

和下行信道增益/>

表示所有MID状态的集合；

(2)动作空间分为连续动作空间

和离散动作空间x_n(t)；其中α_n(t)和/>

为连续值，分别表示MID n的卸载率和本地执行功率；x_n(t)∈X＝{1,2,...,m,...2M}为离散值，表示MID n对服务器的选择，其中m表示第m种服务器；

(3)奖励函数包括四个部分，第一部分是归一化的时延，第二部分是归一化的能耗，第三部分是MID满足延迟限制和解码错误概率约束时计算任务处理成功的奖励，第四部分是MID计算任务时由于不能满足系统性能约束而被丢弃的惩罚；归一化的时延和能耗如下：

其中，T_Local、E_Local表示整个任务进行本地处理时的时延和能耗；

处理任务的奖励或惩罚如下：

其中，r_n,s(t)表示MID n在时隙t中处理任务获得的奖励或惩罚，T_n(t)表示MID n在时隙t中的总处理时间，T^*表示总时延限制，

表示在时隙t中MID n解码错误概率，/>

表示解码错误概率限制；

奖励函数具体内容如下：

其中，

为归一化时延，表示r_n,s(t)处理任务获得的奖励；/>

6.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法，其特征在于，步骤S5中，DDPG-D3QN混合决策强化学习网络是Actor-Critic架构的扩展，其中每个MID都有一个Actor网络，并共享一个具有公共信息的集中式Critic网络；Actor网络根据观察到的状态决定任务卸载率和本地执行功率；集中式Critic网络由决斗Q网络和双深度Q网络组成，用于评估和更新Actor网络，并基于所有MID的状态和连续动作来确定MID与MEC服务器和云服务器的关联。

7.根据权利要求1所述的基于DDPG-D3QN的工业物联网云边协同卸载及资源分配方法，其特征在于，步骤S6中，优化DDPG-D3QN混合决策强化学习网络参数的具体步骤如下：

S601、训练回合ep初始化为0；

S602、ep回合中的时隙t初始化为0；

S603、初始化DDPG-D3QN混合决策强化学习网络的可训练参数；

S604、根据输入状态