CN115499876A

CN115499876A - Msde场景下基于dqn算法的计算卸载策略

Info

Publication number: CN115499876A
Application number: CN202211140139.7A
Authority: CN
Inventors: 丁凯; 谭文安
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-12-20

Abstract

本发明公开一种多传感器设备在未知领域探索场景下的基于深度Q网络算法的计算卸载研究。当类似于传感器的物联网(Internet of Things，IoT)设备在户外采集和分析信息时，经常会遇到能量不足或信息无法及时分析的情况。为了使传感器设备更加连续和高效地工作，我们将移动边缘计算(Mobile Edge Computing，MEC)应用于多传感器领域探索(Multi‑Sensor Domain Exploration，MSDE)场景。通过捕获设备的电池电量、分配任务的卸载率以及观察每个作业的延迟来选择计算卸载策略。致力于实现这一想法，我们将卸载过程描述为马尔可夫决策过程(Markov Decision Process，MDP)，引入动作和状态空间，并提出基于DQN的有效卸载策略。概算法具有较强的实用性和高效性，在一定程度上提高了服务质量，改善了设备的续航能力和计算效率。

Description

MSDE场景下基于DQN算法的计算卸载策略

技术领域

本发明涉及移动边缘计算领域，具体应用在多传感器设备探索未知领域场景下，是基于DQN算法的计算卸载方法。

背景技术

边缘计算技术作为5G时代最有前途的技术之一，是在靠近“物”或者数据源头的边缘网络处，通过对各种边缘异构信息的及时分析和处理，就近提供计算服务，在物理世界和信息世界之间架起了一座桥梁，丰富了人类的生活。通过宏观分配边缘设备或用户的任务比例，将任务卸载到就近的基站、无线接入点甚至是无线接入范围内的高效智能手机内，通过它们内置的MEC服务器，可以缓解边缘设备或用户计算能力不足或资源有限的困境。此外，计算卸载还可以降低设备的计算延迟，甚至可以有效保障物联网设备的安全。

随着人类需求的增加和各种新兴技术的兴起，作为MEC中的关键技术之一的计算卸载技术正在得到广泛的发展和应用。为了能使计算资源并不充足的用户或设备得到有效的改善，我们需要将计算力下沉至边缘网络，从而更贴近用户或设备，使得这些用户或设备避免了访问集中式云所带来的高时延，高能耗以及高风险。来自边缘设备或用户本地的任务可以通过无线信道或者P2P通信传输至附近含有MEC服务器的基站或者无线接入点处，避免了本地设备或用户过多的能源损耗。通过宏观调配边缘设备或用户的任务在本地和在MEC服务器身上的比例，从而保证了边缘设备或用户的能耗、时延和数据安全敏感的问题。

为了进一步扩大边缘计算网络的优势，以降低设备或用户能耗为目的，以减少是设备或用户时延为目的和以加强边缘计算网络数据安全性为目的的三种优化方式逐渐普遍化。2015年是边缘计算技术发展的一个重要分水岭，在此之前，边缘计算技术还处在原始积累时期，此后，随着物联网万物互联的理论映入世人眼帘，边缘计算技术也开始了蓬勃发展，不仅是学术上的众多图谱，边缘计算也开始应用于工业领域，ETSI也发报表了有关白皮书，更好的满足了边缘计算的发展与规范。此后的2018年，边缘计算技术也开始被大众所熟知，并且覆盖了计算机领域的各个方面。

作为网络边缘的设备或者用户，最关心的问题不外乎能源的可持续性以及处理数据是否高效。因此许多研究都将设备集群的总能耗或者设备集群的总时延作为优化的目标，但是，能耗与时延的综合代价却可以完美的覆盖这两个点。我们以设备集群的能耗与时延的综合代价为优化目标，在限制条件下最小化综合代价，最终达到优化服务质量的目标。

为了让优化的目标达到理想化的效果，我们摒弃了以粒子群算法为代表的启发式算法，取而代之是是优化后的深度强化学习算法中的DQN算法，传统的启发式算法虽然在比较直观简单，也能够在可接受范围内给出一个较优解，但是他不能够保证全局最优，并且是算法也并不稳定。因此，本文选择DQN算法作为优化目标函数的算法。

DQN算法是由Q-Learning算法进化演变而来的，Q-Learning算法是一种很实用强化学习算法，Q-Learning算法的核心是一张横纵坐标由动作和状态组成的Q表，Q表记录了当前状态下选择某个动作所对应的Q值，当状态到达状态s时，就可以利用ε-greedy算法选择Q值最高或随机选择的动作进行执行，进而到达下一状态s′。Q值的更新是利用贝尔曼方程来实现的。

Q(s，a)＝Q(s，a)+α(r+γmax(Q(s′，a′)-Q(s，a)))

不难看出，Q值是通过当前Q值与Q现实和Q估计的差值乘以学习率的和来更新的，值得注意的是，Q现实是通过下一时刻衰减的最大估计与当前时刻获得的奖励累加得到的。

随着环境变得越来越复杂，Q表的维度也将会呈现指数式增长，随之而来就会产生一个不可避免的问题，如何描述高纬度下的Q值，于是，我们通过用函数逼近的方式代替从Q表中查找Q值，通过神经网络计算出当前Q值。我们可以将状态和动作当作神经网络的输入，将Q值作为神经网络的输出，也可以将状态作为输入，将动作和对应的Q值作为输入，最终选择最大值的动作，这样就避免的灾难维度的问题。

此外，DQN算法还做出了有关双神经网络和经验池的改动，用于计算Q值的神经网络有两组，分别为目标网络和评估网络，目标网络有着跟评估网络一样的结构，与之不同的是两者的神经网络参数有所不同，目标网络滞后于评估网络并且会于在若干次迭代后使用评估网络的参数来更新。这是因为我们需要训练神经网络的参数使之更好的让动作朝着价更大的方向逼近，此外，目标网络和评估网络也可用于计算损失函数。

经验池是DQN算法中用于存储每次迭代中的[A_t，S_t，R_t，S_t+1]序列，并在迭代的过程中选出若干组Mini Batch进行训练，这样不仅能保证数据的高使用性，更能够打破数据之间的相关性，保证了数据之间的相互独立性，提高了收敛速度。

发明内容

如图1所示，本发明基于多传感器在未知领域进行数据探索的场景，构建出一个多传感器设备集群，一个含有MEC服务器的无线接入点的系统模型，将最小化设备集群的综合代价的问题转化为系统模型下的异构资源分配问题。本发明通过对有关本地设备CPU频率，卸载率组成的异质资源集进行分配，最终求出使得设备集群综合代价小的资源分配方式。值得注意的是，我们在资源分配的时候需要满足特定的强约束条件和弱约束条件。强约束条件指的是条件变量必须在限定范围内，一旦超过，即认定资源分配失败，需要重新分配。弱约束条件指的是条件变量可以超过限定范围，自然而然的，这样必定会带来差的服务质量。不管是强约束条件还是弱约束条件，一旦被打破，我们都必须赋予惩罚项，这将使得此次动作的奖励会降低，从而使得下次选择该动作的几率变低。

本发明设计的MSDE场景下基于DQN算法的计算卸载策略包括以下几个步骤。

步骤1：主备工作：构建好用马尔可夫决策过程中的状态空间，动作空间以及奖励函数。搭建用一个以状态空间为输入，动作空间为输出的神经网络组合，该组合由评估网络和目标网络组成。

步骤2：初始化工作：初始化模拟环境中的传感器数量，任务大小，CPU频率，初始化无线网络的信道模型以及MEC服务器的CPU频率。

步骤3：将由传感器设备的任务卸载率以及CPU频率组成的状态空间S＝{s_t|s_t＝[X_t，F_t]}引入神经网络中，经过神经网络的处理选出一个当前价值最高的动作空间A＝{a_t|a_t＝[Δx_t，Δf_t，flag，m]1≤m≤M}，并通过ε-greedy贪婪策略进一步选择最终的动作空间，

步骤4：环境获取到动作空间后到达下一时刻的状态，我们通过对此时环境的设备电池电量和计算时延进行评估，并最终计算出此时的整体代价。

步骤5：利用奖励函数评估此次状态下动作的价值，并将此次经历作为一次实验样本存入到经验池中。

步骤6：从经验池中选出一组Mini Batch用于计算神经网络的损失，进而更新评估网络参数θ。

步骤7：将下一时刻的状态和跟新后的参数θ传入神经网络，并且神经网络中的目标网络每经过若干次迭代会拷贝评估网络的参数。

步骤8：重复步骤3-7，并最终获得一个综合代价低的卸载策略。

附图说明

图1为MSDE场景下系统模型图

图2为基于DQN算法卸载流程框架图

具体实施方式

下面结合附图2，对本发明提供的MSDE场景下的基于DQN算法的计算卸载策略进行详细描述。

我们最终的目标是使得设备集群能耗和时延的综合代价最小，因此，我们将目标函数定义为：

其中λ是线性参数，可以根据当前设备集群的具体情况，调整线性比例，使权重倾向于目前更关注的一方。此外，当λ＝0或λ＝1时则表示为最小化能耗或最小化时延。

步骤1：初始化有关参数：用于探索的传感器设备的电池电量，CPU频率范围，设备的数量，用于发送至无线信道的发送功率和接收频率，MEC服务器的CPU频率等。

步骤2：初始化目标网络和评估网络，使得两者结构相同，参数不同，并初始化学习率α，衰减系数γ，贪婪策略参数ε，经验池的数量n等。

步骤3：确认马尔可夫决策过程，规划状态空间，动作空间以及奖励函数

状态空间被定义为：S＝{s_t|s_t＝[X_t，F_t]}，其中

分别t时刻的卸载率和本地CPU频率。

本文将动作空间定义为A＝{a_t|a_t＝[Δx_t，Δf_t，flag，m]1≤m≤M}，对于给定的t时刻动作a_t，有：

这里的Δx_t，Δf_t是卸载率和CPU频率的微调参数。flag是标志位，flag为1时表示卸载率和CPU频率朝着正方向发展，flag为0时表示朝着负方向发展。m表示当前动作的执行对象。

值得注意的是卸载率和CPU频率的微调参数并不是随意定义的，微调参数太大将会导致算法无法找到价值更高的动作，微调参数太小将会导致算法收敛速度缓慢。

当任意状态选择动作后，奖励函数会根据下一时刻的整体代价，时延和电池电量进行评估，并给出相应的奖励回报，具体的奖励函数可以表示为：

其中γ₁，γ₂是两个正数，并且γ₁＞γ₂。当i时隙的任意设备的能耗大于自身电池所支持的能耗或时延大于设备所能接受的时延时，奖励为-γ₁。否则，我们就重点关注整体代价的变化，如果代价值减少，即时奖励则为γ₂，否则为-γ₂。

至此，本文的卸载矩阵可以定义为：π＝[X₁，F_t，X₂，F₂，...X_t，F_t，...]，然后可以得到一个关于卸载矩阵π的长期预期的平均奖励。

其中η∈(0，1]是折扣因子，η^t表示越滞后的动作带来的回报越小。我们可以关注平均奖励，尝试找到最佳的卸载策略。

步骤4：填充经验池，初始化n组由设备集群CPU频率和卸载率组成的状态，并通过神经网络计算出该状态下最大值的动作，接着通过ε贪婪算法求解出最终的动作，并进入到下一时刻的状态，并对该状态下的电池电量和计算时延进行评估，并通过设计的奖励函数进行评价该状态下选取动作的价值，最后将由当前时刻状态，当前时刻动作，奖励值和下一时刻的状态组成的经验序列依次存入经验池中。

步骤5：再次初始化一组由设备集群CPU频率和卸载率组成的状态，并将该状态作为神经网络的输入。评估网络捕捉到输入后计算出当前动作对应的动作和动作值，并选取值最大的动作作为神经网络的输出。

步骤6：神经网络的输出并不是最终的动作，在神经网络之后还需要经过ε贪婪算法进行动作的再次选择，以概率ε选择当前动作，以概率1-ε进行随机选择动作。

步骤7：当前状态经过选择后的动作进入到下一时刻的状态，我们通过评估下一时刻的设备的剩余电量和时延判断此次动作是否为错误动作，并计算出综合代价。

步骤8：通过奖励函数评估此次动作的价值，对于违背强弱约束条件的动作赋予惩罚项，对于满足强弱约束条件的动作不予嘉奖，对于综合代价降低的动作赋予奖励。并将由当前时刻状态，当前时刻动作，奖励值和下一时刻的状态组成的经验序列代替存入经验池中。

步骤9：在经验池中选出一组Mini Batch进行计算神经网络的损失，进而更新评估网络参数θ。在经历若干次迭代后，目标网络会复制评估网络的参数，以保证两个网络的差异。

步骤10：将下一时刻的状态和跟新后的参数θ传入神经网络，进入下一时刻的迭代，重复步骤5-9。

此外，为了验证本算法的在MSDE场景下的性能，本发明将DQN算法与全本地(all-local)算法，全卸载(all-MEC)算法，随机算法和粒子群(PSO)算法进行了比较，分别在收敛速度和收敛性能上进行比较，有效地证实了MSDE场景下DQN算法的有效性和实用性。

以上所述仅代表本发明的主要实施方式，应当指出：在本发明的基本理论范围内，做出的任何微妙修改，同等代替，等价代换等，均应覆盖在本发明的权利保护范围之内。

Claims

1.MSDE场景下基于DQN算法的计算卸载方法，包括以下步骤

步骤3：将由传感器设备的任务卸载率以及CPU频率组成的状态空间S＝{s_t|s_t＝[X_t，F_t]}引入神经网络中，经过神经网络的处理选出一个当前价值最高的动作空间A＝{a_t|a_t＝[Δx_t，Δf_t，flag，m]1≤m≤M}，并通过ε-贪婪策略进一步选择最终的动作空间，

2.根据权利要求1中所述的MSDE场景下基于DQN算法的计算卸载方法，所描述的步骤1和步骤3，传感器设备会根据当前电池电量和计算能力等状态，选择其卸载到边缘服务器的比重。特别地，传感器设备下一时刻的状态仅仅取决于当前的动作和状态，因此，该卸载过程可以定义为一个MDP。

MDP用于描述时变环境，即状态空间和动作空间。在时隙为t＝1，2，...，∞时，本文定义状态空间为：S＝{s_t|s_t＝[X_t，F_t]}，其中

分别t时刻的卸载率和本地CPU频率。本文将动作空间定义为A＝{a_t|a_t＝[Δx_t，Δf_t，flag，m]1≤m≤M}，对于给定的t时刻动作a_t，有：

3.根据权利要求1中所述的MSDE场景下基于DQN算法的计算卸载方法，所描述的步骤2，我们需要构建出一个适用于MSDE场景的MEC网络。本发明考虑的MEC网络系统由多个用于探索未知场景的传感器设备组成的设备集群和一个MEC服务器组成，该系统分为三部分：(1)由多个不同传感器组成的设备集群负责任务的产生和分配，这些传感器产生的任务可以自行处理，也可以通过无线信道传输至MEC服务器进行处理；(2)由13个不同频率的信道组成的无线信道通过OFDMA进行通信，设备集群的任务可以通过无线信道进行卸载，MEC服务器处理的结果也可以通过无线信道反馈给设备集群；(3)一个有着高性能处理器，高缓存的MEC服务器将会高效处理来自无线信道传输过来的任务，并将任务结果返回给设备集群。值得注意的是，设备集群可以选择将任务全部卸载至边缘服务器，也可以选择部分卸载。

每个任务Q_m需要花费的时间可表示为

其中x_m表示卸载率，这决定了卸载到服务器的任务比重，f_m表示第m个设备的CPU频率。为了降低CPU的处理能耗，利用DVS技术降低CPU的电压以及工作频率，所以CPU的工作频率被限定在[f_min，f_max]之间。

我们用

表示为CPU的计算功耗模型，其中k表示与硬件芯片相关的系数。本地功耗模型则可以表示为

此外，每个设备存储了一定的电量，能维持一段时间的工作，但当设备本身的电量不足以维持本地计算时，就意味着要将任务卸载到服务器上或者放弃本次任务。每个设备的电池电量表示为B_m，可以维持的任务计算能耗大小表示为

其中V_m表示设备工作的工作电压，V_min≤V_m≤V_max。

当任务决定部分卸载到边缘服务器上时，就需要通过无线信道进行任务的发送和接受，本文采用的是频分双工模式，且上下行信道为平坦瑞利衰落信道。传感器设备与无线接入点之间的路径损耗可以建模为d^-v，其中d表示的是设备到无线接入点的距离，v表示的是路损系数。我们假设信道带宽为W，上下行信道的衰落系数表示为h，信道间的噪声为N，则信道传输速率可以表示为：

假设设备m需要卸载I_mx_m的数据量至边缘服务器，则信道传输数据量可以表示为αI_mx_m，其中α表示信道传输代价系数。所以信道中的传输时间就可以表示为：

同时，传感器设备用于发送任务的能耗可以表示为：

其中，β表示功放效率系数，

表示上行信道的发送功率。

此外，当任务被卸载至边缘服务器进行计算时，MEC服务器的计算时间可表示为：

当任务被部分卸载至MEC服务器进行处理时，此次任务的时延可以表示为

其中，

分别表示为上下行信道的传输时间。

此外，当传输至MEC服务器处理的时间大于在本地处理的时间时，传感器设备就会产生一个等待时间T_w，于此同时就会产生一个静态能耗。此次任务的总能耗可以表示为：

4.根据权利要求1中所述的MSDE场景下基于DQN算法的计算卸载方法，所描述的步骤4中，本发明需要对当前采取的动作空间对传感器设备集群产生的关于电池寿命和计算时延的影响做出评估，当此次动作是的任意一个传感器设备下一时时刻的电池寿命小于0时，我们就将此次动作评估为错误动作；或者该动作所产生的计算时延超过了某个传感器设备的时延阈值时，我们仍然将此次动作评估为错误动作，并且会在步骤5中产生相应的惩罚。

5.根据权利要求1中所述的MSDE场景下基于DQN算法的计算卸载方法，所描述的步骤5中，本发明会根据步骤4中的动作评估以及奖励函数来计算出此次动作的价值具体的计算方法如下所示：

其中γ₁，γ₂，γ₃均为正实数，且γ₁＞γ₂＞γ₃。γ₁，γ₂为步骤4中错误动作的惩罚值。

此外，我们还需要将此次的动作，状态，以及此次动作的价值和下一时刻的状态作为一次经验[A_t，S_t，R_t，S_t+1]存储在经验池中。

6.根据权利要求1中所述的MSDE场景下基于DQN算法的计算卸载方法，所描述的步骤6，7中，我们还需要通过对经验池中的价值判断动作的优劣性，进而对神经网络中的参数进行更新，从而使下一时刻的状态更好地朝着奖励值高的方向发展。本发明选择使用RMSProp作为优化器，每隔一段迭代时间就选择一组Mini Batch进行训练，进而更新神经网络的参数。在保证选择奖励值更高的动作的同时，让设备集群的综合代价更低。