CN113867934A

CN113867934A - 一种无人机协助的多节点任务卸载调度的方法

Info

Publication number: CN113867934A
Application number: CN202110918758.3A
Authority: CN
Inventors: 刘鹏; 何涵
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-12-31

Abstract

本发明公开了一种无人机协助的多节点任务卸载调度方法。本发明基于传统的无模型基于值函数更新的强化学习方法，针对无人机协助边缘计算场景下协助调度问题作了优化，在此基础上创新的提出了小学习目标、预奖励和大奖励敏感等方法。最终在无人机用户节点对时延敏感等的约束下，实现了无人机在有限的服务时间内通过策略选择飞行路径获取利益最大化的问题。本发明的方法不需要过多的先验知识，不需要深入了解每个用户节点的深入信息，符合隐私保护的需求，并且本发明在类似的应用场景有着较好的复用性，发明的实践价值较强。

Description

一种无人机协助的多节点任务卸载调度的方法

技术领域：

本发明属于边缘计算领域，具体涉及一种无人机协助巡回路径内多节点任务卸载调度的强化学习方法。

背景技术：

在一些不方便直接部署服务器并提供服务的边缘计算场景中，无人机因其灵活性和便捷性可以扮演重要的协调角色。由此，无人机辅助的移动边缘计算任务卸载调度应用应运而生。如何在无人机有限的服务时间内通过选择飞行路径及卸载策略从而获取最大利益成为了新的挑战。其中，用户节点之间的差异性问题和隐私保护问题都是目前难以解决的重难点。目前已有的解决方法包括动态规划方法、凸优化方法、李雅普诺夫稳定性方法、蚁群算法、粒子群算法等。这些方法在某一些特定的场景可能有不错的表现，但算法设计的复杂度问题、可扩展性以及数据隐私保护问题上仍然有较大的改善空间。

随着AI的发展，各种强化学习算法被证实在解决序决策问题上有着显著的优势，非常适合处理边缘计算场景中的复杂搜索空间的策略选择问题，且本身只需要较少的先验知识就可以给问题带来较优解，同时也符合隐私保护的要求。强化习大致分为两类：基于模型的强化学习和无模型的强化学习。由于数据安全越来越受到重视，想要获得多用户节点详细数据的相关先验知识是困难的，因此无模型的强化学习是更适合解决边缘计算下的任务卸载调度问题。基于模型的强化学习也可以细分为两大类，一种是策略优化方法，其不需要保持一个价值函数模型，而是直接搜索最优策略，往往采用一个参数化策略，通过更新这个参数来最大化期望回报。另一种则是基于值函数更新的强化学习方法，一般指的是Q-Learning算法，Q即为与当前状态和动作选择相关的一张历史经验记忆表，可以表示某一时刻的状态下采取动作能够获得收益的累积期望，Q-Learning算法通过构建出一个代表算法的智能体，将其置身于需要解决问题的马尔可夫模型中，通过搜索策略来选择是通过查询累积的学习经验来做出新的动作选择还是随机选择一个动作。智能体会记录下每次的学习成果，通过更新学习经验来影响下一次的选择，随着训练次数的增加，智能体通过学习经验做出的动作选择将越来越准确，直到近似于解决问题的最优解。由于策略优化方法在状态搜索空间过大、参数过多时计算量会很大，实现起来也会更复杂，因此本方法提出了基于值函数更新的一种无人机协助多节点任务卸载调度的强化学习方法。

发明内容：

本发明的目的是解决无人机在边缘计算场景中有限的服务时间和用户先验知识情况下的利益最大化问题。

所述边缘计算场景主要包括一个巡回路径、若干用户和边缘服务器，其中的用户节点有着不同的任务到达流，未被无人机收集的任务均会被滞留在用户节点本地，且用户任务对时延敏感，任务价值会随着时间衰减。为了让所有节点均能获得地面服务器的服务，在实现利益最大化的目标时要求所有参与卸载调度服务的用户节点至少有一次被无人机提供卸载服务的经历。为此本发明提出了一种无人机协助多节点任务卸载调度的强化学习方法，该方法只需要很少的先验知识和仅仅靠一些飞行过程中与环境的简单交互来获得学习经验，就可以得到最大化利益目标的策略卸载调度路径的近优解。

为了达到上述目的，本发明所采用的技术方案是：一种无人机协助多节点任务卸载调度的强化学习方法，其特征在于包含以下步骤：

步骤一、将无人机协助巡回路径上的地面边缘服务器和多个用户节点进行近距离收集和卸载任务的应用模型提炼关键特征构建马尔可夫模型。本发明构建的马尔可夫模型中，状态用S＝{loc,remtime，attri，flag}表示，其中loc表示无人机当前在巡回路径上的位置；remtime表示无人机提供服务的剩余时间；attri代表当前访问到的节点属性，本发明用0表示用户节点，1表示服务器节点；flag是用户节点服务标记向量，用来标记巡回路径上的多个用户节点是否被卸载处理过，每一行元素可以取值0、1，本发明用0表示当前任务未被卸载过，1表示当前任务已卸载处理过。马尔可夫模型的动作是智能体在环境的行为，实际决策中无人机会在不同状态根据ε-greedy策略做出相应动作。本发明中的马尔可夫模型的动作空间为巡回路径上所有的节点，包括用户节点和地面服务器节点；

步骤二、初始化强化学习方法的Q表，Q表的行属性为马尔可夫模型里的状态，列属性为马尔可夫模型里的动作。每一个状态动作对应Q表上的一个值，其大小为该状态动作对应的累积奖励期望。Q表里的初始值为标准归一化后的随机数，这些随机数均接近于0。设置强化学习方法的最大迭代周期、起始状态；

步骤三、本发明通过设置小学习目标的方式来完成所有用户节点均至少被服务过一次的约束条件。初始化起始状态的用户节点服务标记向量flag，将其全部置为0，即代表未被处理过。当无人机抵达服务器节点卸载任务时，卸载的任务所属的用户节点的flag对应的数将置为1，当flag向量全为1，小目标达成。强化学习方法会通过监视状态中的flag标记判断当前状态小目标是否完成。小目标的设定是为了鼓励强化学习方法的智能体积极的探索环境，找寻实现小目标的方法，但我们最终的目标是实现利益最大化的大目标，所有小目标的奖励设定不能影响大目标的奖励。本发明将完成小目标前智能体探索一个未被探索过的用户节点奖励置为1，其值远小于完成大目标后抵达同样节点的奖励。当智能体探索到已经探索过的用户节点时奖励为0，而当智能体抵达一个地面服务器节点时，会将收集的任务全部卸载给服务器并更新flag标记，如果小目标未完成则奖励为0，但会将实际获得的奖励累积存储起来，当完成小目标时，一次性赋予给智能体；

步骤四、本发明通过使用预奖励来避免奖励稀疏。当智能体完成小目标后，智能体会正常获得奖励，由于实际环境中，只有无人机抵达服务器卸载任务时，才可以获得任务包含的收益，而用户节点数远多于服务器节点数，这会导致智能体在大多数情况下，都处于0奖励的情况，也就是会有奖励稀疏的问题。为了提高强化学习方法训练的效率，本发明针对无人机协助边缘计算的卸载调度场景提出了一种预奖励的概念，将智能体只有在服务器才可以获得的稀疏奖励的很小一部分提前分配到了用户节点上。这种思想让无人机飞往一个用户节点执行任务收集工作时，允许环境提前给予该动作一个预奖励。该奖励的大小设定与将任务经过服务总时间延迟后卸载到服务器时获得的奖励大小相关。本发明将该预奖励大小通过实验经验设置为如下公式：

其中SF为缩小因子，

为无人机第t次从第n个用户节点收集到的总任务数；σⁿ表示价值衰减因子；valueⁿ表示第n个节点任务的初始价值；Total表示总时长；

之所以将任务经过总时长的价值衰减后再缩小SF倍是为了保证预奖励的大小要远小于其卸载到服务器时获得的实际奖励的大小，否则智能体将抛弃卸载到服务器的行为，这显然和最终目标背道而驰。即需满足如下约束公式：

其中

表示无人机飞往服务器节点时的奖励，由于我们在收集用户任务时给予了一个预奖励，为了保证整个模型中累积获得的奖励和能和最大任务剩余价值相等，我们对飞往服务器设置的奖励的基础上减去了预奖励部分。

此外，无人机在服务时间结束前可能仍有未卸载的用户任务，而这一部分任务在被收集时给予了奖励，因此这一步分奖励需要额外去掉，即无人机服务剩余时间为0时的最后一次决策的惩罚奖励为如下公式：

步骤五、本发明对ε-greedy策略进行了一定的改进，以此来保证在训练初期智能体会更倾向与非经验的搜索，而到了训练周期快结束时会更倾向于训练结果的收敛。在未改进的ε-greedy策略中，智能体的动作选择会根据抛出的0-1之间的随机数与ε值大小的比较选择倾向于探索性的动作和倾向于学习性的动作，也就是ε的值越大，智能体越倾向于探索新的动作。为了保证智能体在训练初期的探索性，ε-greedy策略中ε的值不宜过小，在训练初期最好接近于1，随着算法迭代周期数的增大，需要保证算法的收敛性，ε的值需要接近0，于是本发明通过负指数函数将迭代周期数映射到一个ε的值，公式表示如下所示：

ε＝e^-β*episode

其中β参数用来控制ε的增长速度，为保证随着迭代周期越来越靠近最大训练周期数算法能够收敛，β满足如下公式：

步骤六、无人机在各节点之间提供服务的过程对应这马尔可夫模型状态转移的过程，而马尔科夫模型每一次状态转移都会产生一个学习单元，包括智能体上一个状态、上一个状态选择的动作、环境给予该状态转移的奖励、当前状态。获取到一个学习单元后使用时间差分方法，完成无模型强化学习算法的单步更新。本发明借助了Q-Learning的更新公式来完成上述的单步更新过程，并保存到Q表中，更新公式如下：

其中，Q(s,a)代表当前Q表中状态s采取动作a的累积期望值；α、γ分别代表强化方法的学习率和奖励衰减因子；r是环境给当前状态转移的奖励；Q(s',a')代表下一个状态s'上最大的Q值；

步骤七、由于本发明解决的问题所处的环境中状态动作空间维度大，且受小学习目标的约束限制影响，在训练周期受限的情况下，普通的强化学习方法容易陷入局部最优解。因此本发明为强化学习方法的智能体增加了一个带有记忆能力的堆栈，它可以存储当前周期的学习路径。当智能体在某一个学习单元获得奖励时，智能体会比较当前遇到的奖励和之前遇到的最大的奖励的大小，如果更大的话，我们会从堆栈中回溯整条路径，对整条路经上的学习节点进行重新学习一遍。此举是为了让智能体能够在下一周期能够感知到偶然遇到的大奖励路径。我们没有一开始就让智能体对大奖励敏感，而是在完成小目标后才开始对接下来遇到的大奖励敏感，这样的目的是因为在搜索前期的主要目标是实现小目标，获得的奖励还不是真实奖励。大奖励敏感不只会对某一动作获得的即时大奖励敏感，也会对一整个训练周期下来获得的累积奖励也就是对我们的大目标完成获得的任务卸载累积剩余价值敏感，并同样对累积剩余价值更高的路径进行路径回溯，并重新学习整条路径；

步骤八、算法最大训练周期到达时停止训练，输出Q表的值，从开始状态出发使用贪婪策略选择当前状态的最大状态动作的Q值对应的动作作为无人机在实际应用场景中的动作选择，下一个状态重复上述操作直至到结束状态，最终将获取一个从开始状态到结束状态的动作序列，即为任务卸载调度的卸载调度策略。

本发明的有益效果：

本发明针对无人机协助多节点任务卸载调度场景的特性对原有Q-Learning算法进行了改进，创新地提出了小学习目标、预奖励和大奖励敏感等方法，在无人机用户节点对时延敏感等的约束下，实现了无人机在有限的服务时间内通过策略选择飞行路径获取利益最大化的目标。本发明的方法不需要过多的先验知识，不需要深入了解每个用户节点的深入信息，符合隐私保护的需求，并且本发明在类似的应用场景有着较好的复用性，发明的实践价值较强。

附图说明：

图1为本发明实施例所提供的马尔可夫模型示意图；

图2为本发明实施例所提供的强化学习方法流程。

具体实施方式：

为了让相关人员能够更清晰了解本发明的技术内容，将使用以下实施例详细介绍。

一种无人机协助多节点任务卸载调度的强化学习方法的实施实例包括以下步骤：

步骤1、初始化Q表，其行属性为包含环境特征的状态，包含当前智能体位置、无人机剩余服务时间、当前节点的属性以及用户节点服务标记向量这四个特征。列属性为不同的动作选择，动作选择为1到总节点数的自然数。Q表上每一个状态动作队的初值设置为(-0.1,0.1)之间的随机数；

步骤2、初始化最大周期数、强化学习参数、当前的最大目标奖励和最大学习单元奖励。设置当前的训练周期数为0；

步骤3、初始化智能体当前状态为起始状态，无人机位置位于巡回路径起点、剩余服务时间为无人机可提供服务的总时间、当前节点属性为0，用户节点服务标记向量全设为0；

步骤4、更新当前的贪婪策略参数ε＝e^-β*episode，初始化记忆栈，将学习单元记忆栈置为空；

步骤5、执行ε-greedy策略，获取一个随机数，如果该随机数小于ε，在所有节点中随机选择一个节点作为当前状态的动作选择，如果随机数大于ε，则查阅Q表当前状态对应的行选择其中最大Q值的动作，作为当前状态的动作选择；

步骤6、智能体执行动作从当前状态到下一个状态，如果动作选择是到达一个用户节点，无人机会从巡航高度下降到提供服务的高度，收集当前用户节点所有滞留的任务，此时判断小学习目标是否已经完成，如果未完成且没访问过该用户节点，则获得小目标未完成之前的探索小奖励1，如果已经访问过该用户节点，则没有奖励。如果小目标已完成，将获得当前用户节点上上传的任务的预奖励，其大小为任务生成时间到无人机服务结束时间的时延衰减后的价值再乘上一个缩小因子0.1。如果动作选择是到达一个服务器节点，无人机同样会从巡航高度下降到提供服务的高度，不同的是它会卸载所有已收集的任务，并把任务卸载后从环境中实际获得的奖励累积下来，接着将卸载过任务的用户节点的服务标记属性置为1。此时判断小学习目标是否已经完成，如果未完成，则给与奖励0，但如果状态中服务标记向量flag所有的值均为1，则小目标刚好在这次卸载任务中完成，会将之前任务卸载累积的实际奖励赋予给当前步的奖励。如果卸载任务之前小学习目标已完成，智能体会计算当前卸载的任务获得的奖励，同时剔除无人机抵达用户节点时给的预奖励大小，其差值为本次状态转移的单步奖励；

步骤7、确定本步状态转移的学习单元奖励后，更新下一步的状态，并使用Q-Learning的更新公式

更新Q表，其中α为学习率，α影响算法的收敛速度，当学习率α过大，收敛速度快但可能会导致模型过早的陷入局部最优解，过小的时候会收敛速度过慢。γ为奖励衰减系数，γ用来权衡后面的奖励对当前的即时奖励的影响，γ越大当前状态动作队的Q值大小越接近与大目标的值，而γ越小强化学习方法则越接近贪婪算法。最后将完整的学习单元压入学习单元记忆栈中；

步骤8、如果小目标已完成，判断步骤6获得的奖励的大小是否大于最大学习单元奖励，如果大于最大学习单元奖励，则依次弹出学习单元记忆栈，取出学习单元，重新使用Q-Learning的更新

更新一次Q表，并还原学习单元记忆栈；

步骤9、如果智能体没到结束状态，则一直重复步骤5、6、7、8直至无人机服务时间结束进入结束状态。如果智能体到达结束状态时，仍有未卸载的任务，会赋予智能体一个与所有任务预奖励的和同样大小的惩罚性奖励给智能体。计算当前周期从开始状态到结束状态累积的任务价值收益，如果大于当前最大目标奖励，则依次弹出学习单元记忆栈，取出学习单元，重新使用Q-Learning的更新公式

更新一次Q表；

步骤10、如果训练周期数没有到最大周期数，则重复步骤3、4、5、6、7、8、9直至到达最大训练周期数。如果到了最大训练周期，停止强化学习方法训练，输出Q表，根据贪婪算法，从起始状态出发，选择对应的Q表中最大Q值的动作，转移下一个状态后重复上述操作，直至结束状态。记录所有的动作选择获得一个卸载调度决策序列，将其作为解决无人机在边缘计算场景中有限的服务时间和用户先验知识情况下的利益最大化问题的解决方案输出结果。

应当知晓的是，本说明书未详细阐述的部分均属于现有技术。相关技术人员应该明白，上述实施例仅仅为了帮助阅读人员理解本发明的原理和实现方法，本发明所保护的范围不局限与这样的实施例。凡在本发明基础上做出的同等替换均在本发明权利的保护范围内。

Claims

1.一种无人机协助的多节点任务卸载调度的方法，其特征在于,该方法的实现过程如下：

步骤一、无人机沿巡回路径飞行，必要时下降高度近距离协助收集地面多个用户节点的数据并在边缘服务器进行任务卸载，对此应用场景构建了马尔可夫模型；

步骤二、初始化强化学习方法的Q表，Q表的行属性为马尔可夫模型里的状态，列属性为马尔可夫模型里的动作；每一个状态动作对应Q表上的一个状态动作值，其大小为该状态动作对应的累积奖励期望；Q表里的初始值为标准归一化后的随机数，这些随机数均接近于0；

步骤三、将应用场景里的限制条件设立成强化学习的小目标，把策略调度后获得的任务剩余价值尽可能大作为大目标，大目标必须在小目标之后实现；为强化学习的小目标设置了探索性小奖励，其作用是让智能体不受大目标的奖励影响，正常完成小目标；

步骤四、设置预奖励，预奖励是无人机向用户节点提供服务时，可以预先获得的一份奖励，主要是用来减少奖励稀疏带来的强化学习训练效率低的问题；

步骤五、强化学习方法一个训练周期开始时，智能体会从马尔可夫模型上的初始状态出发，根据改进的ε-greedy策略为智能体选择当前状态的下一步动作；

步骤六、智能体做出动作选择后会抵达下一个环境状态，环境状态会根据当前特征给予对应的奖励；

步骤七、在任务卸载调度算法的训练过程中，智能体会对状态转移中的单元奖励和累积奖励比较敏感；

步骤八、算法最大训练周期到达时停止训练，输出训练收敛的最大累积奖励，并根据Q表的值，从开始状态出发使用贪婪策略来获取一个从开始状态到结束状态的动作序列，即为多节点任务卸载调度的动作策略。

2.根据权利要求1所述的一种无人机协助的多节点任务卸载调度的方法，其特征在于步骤一构建的马尔可夫模型中，状态用S＝{loc,remtime,attri,flag}表示，其中loc表示无人机当前在巡回路径上的位置；remtime表示无人机提供服务的剩余时间；attri代表当前访问到的节点属性；flag是用户节点服务标记向量，用来标记巡回路径上的多个用户节点是否被卸载处理过；马尔可夫模型中，动作空间则为巡回路径上的多个节点的位置。

3.根据权利要求1或2所述的一种无人机协助的多节点任务卸载调度的方法，其特征在于步骤三中为了让智能体在与环境交互中获得的累积奖励满足大目标的要求，使用一个存储区间来记忆小目标完成路径上从环境中获得的真实奖励，当小目标完成时，智能体会一次性获得存储区间中累积的真实奖励；需要注意的是，当小目标未完成时，智能体获得的探索性小奖励，远小于完成小目标后实现大目标过程中获得的真实奖励。

4.根据权利要求3所述的一种无人机协助的多节点任务卸载调度的方法，其特征在于智能体在训练的过程中遇到用户节点时，会有两种奖励，分为实际环境交互奖励和预奖励；实际环境奖励只有无人机为服务器提供卸载服务时才能够获得一定量的标量奖励，而为用户节点提供任务收集服务获得的奖励为0。

5.根据权利要求4所述的一种无人机协助的多节点任务卸载调度的方法，其特征在于预奖励的大小设定为该任务卸载到服务器后应该获得的奖励的一小部分；所有未被卸载到服务器的任务获得的预奖励均会在结束状态赋予一个同等大小的惩罚奖励；

所述的预奖励设置如下：

其中SF为缩小因子，

为无人机第t次从第n个用户节点收集到的总任务数；σⁿ表示价值衰减因子；valueⁿ表示第n个节点任务的初始价值；Total表示总时长。

6.根据权利要求1或5所述的一种无人机协助的多节点任务卸载调度的方法，其特征在于其中改进后的ε-greedy策略中的ε的大小是与训练周期相关的负指数函数；ε-greedy策略在训练初期，智能体会更倾向与非经验的搜索，而到了训练周期结束时，智能体会更倾向于训练结果的收敛；改进的ε-greedy策略通过负指数函数将迭代周期数映射到ε上，公式表示如下所示：

ε＝e^-β*episode；

7.根据权利要求1或6所述的一种无人机协助的多节点任务卸载调度的方法，其特征在于步骤六实现从一个状态抵达另一个状态的过程，会产生一个状态转移的学习单元，该学习单元包括上一个状态特征值、选择的动作、获得的单元奖励、以及下一个状态；智能体会基于Q-Learning的更新公式进行学习并更新Q表；最终无人机服务时间执行结束会进入结束状态，Q表继承下去开始下一次的训练周期。

8.根据权利要求1或7所述的一种无人机协助的多节点任务卸载调度的方法，其特征在于智能体在每一次训练周期过程中会有一个学习单位栈、一个最大单元奖励和最大累积奖励，分别用来存储智能体本次训练周期内的所有学习单元、历史训练中遇到的最大学习单元奖励以及历史遇到的最大累积奖励；如果遇到更大的学习单元奖励，智能体会先复制学习单位栈，然后将栈内所有学习单元依次弹出，重新更新一次Q表；如果遇到更大的累积奖励，智能体也会将栈内所有学习单元依次弹出，重新更新一次Q表；每次新的训练开始时均会重置栈为空。

9.根据权利要求1或8所述的一种无人机协助巡回路径内多节点任务卸载调度的强化学习方法，其特征在于巡回路径上的用户节点和地面服务器节点位置均位于巡回路径上，而无人机能够选择顺时针或逆时针沿路径飞行；无人机的循环高度与任务收集和卸载的高度不在同一高度，无人机执行任务时需从巡航高度下降到执行服务的高度再提供服务；且用户节点产生的任务是均匀到达的，但不同任务的时间到达率不同，且产生的任务卸载速率以及计算产生的价值均不相同；未被处理的任务会堆积在用户本地，而任务价值在卸载之前对时间敏感，会随着时间流逝。

10.根据权利要求9所述的一种无人机协助巡回路径内多节点任务卸载调度的强化学习方法，其特征在于无人机在卸载调度过程中需要遵守以下限制：

a)无人机选择服务的节点必须是环境中已经注册需要服务的用户节点和服务器节点；

b)所有登记需要服务的节点都必须至少获得过一次卸载服务；

c)无人机的任务完成时间必须在限定的完成服务时间内，服务时间结束无人机停止服务。