CN110489218A

CN110489218A - 基于半马尔可夫决策过程的车载雾计算系统任务卸载方法

Info

Publication number: CN110489218A
Application number: CN201910681783.7A
Authority: CN
Inventors: 吴琼; 刘汉旭; 李正权; 葛红梅; 夏思洋; 武贵路; 刘洋; 李宝龙
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-22
Anticipated expiration: 2039-07-26
Also published as: CN110489218B

Abstract

本发明提供基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其可以根据任务卸载过程的实际情况全面的考虑各种时延，得到更符合实际情况的卸载策略，进而使系统获得更多的长期收益。其包括以下步骤：S1：基于半马尔可夫决策模型定义系统的状态集合；S2：定义系统的动作集合；S3：定义系统的奖励模型；S4：定义系统的转移概率；S5：求解车载雾计算系统中的最优卸载策略；其特征在于：步骤S3中，系统奖励可以表示为立即收益和开销的差值；立即收益的计算通过不同的时延进行，包括：通过本地处理任务需要的时延、请求车辆发送给计算单元的传输时延、系统将任务卸载给计算单元处理需要的时延。

Description

基于半马尔可夫决策过程的车载雾计算系统任务卸载方法

技术领域

本发明涉及车用无线通信技术领域，具体为基于半马尔可夫决策过程的车载雾计算系统任务卸载方法。

背景技术

自动驾驶、视频流、车载游戏等新兴车载应用的发展，使车辆控制过程中产生了大量计算复杂度高、时延敏感的任务。车载雾计算利用现代车辆丰富的计算资源和可靠的无线连接，成为了一种有效的解决方案。车载雾计算的核心是招募周围有空闲资源的车辆作为雾服务器。将任务从云/边缘服务器卸载到临近且密集分布的雾服务器，能够保障快速地在本地网络中处理计算任务，满足无人驾驶等任务的实时性的需求。

任务卸载是车载雾计算的核心技术，它通过车辆间合作共同处理计算任务，充分利用网络内车辆的计算资源以满足其中成员车辆的计算需求。针对于车载网络中的任务卸载，一个重要的衡量参数就是时延，车辆必须在一个安全时延允许的范围内进行数据传输并得到计算结果。现有技术中，计算求解最优卸载策略时，对于延时的考虑相对只侧重某一种时延、或者某一个过程中的时延，导致的结果是得出的卸载策略不够贴合实际情况，进而无法使系统获得更合理的收益。

发明内容

为了解决现有技术中对时延考虑种类不全面，导致卸载策略不够贴合实际的问题，本发明提供基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其可以根据任务卸载过程的实际情况全面的考虑各种时延，得到更符合实际情况的卸载策略，进而使系统获得更多的长期收益。

本发明的技术方案是这样的：基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其包括以下步骤：

S1：基于半马尔可夫决策模型定义系统的状态集合S，系统的状态集合表示如下：

S＝{s|s＝(M,n₁,…,n_N,e)}

其中，M表示当前系统中计算单元的总数目，n_i表示正在被i个计算单元处理的任务数量，e表示一种特定的事件；

S2：定义系统的动作集合A_c：

其中：在动作集合A_c中，-1表示没有采取任何动作，0表示当系统中计算资源缺乏时，系统拒绝卸载并丢掉该任务的决策，{A,D₁,…,D_i,…,D_N,F₊₁,F_-1}表示事件集合，N表示任务最多可以被N个计算单元处理，D_i表示被i个计算单元处理的任务离开系统，F₊₁和F_-1分别表示车辆到达和离开系统，A表示有一个任务到达系统；

S3：定义系统的奖励模型；

S4：定义系统的转移概率；

S5：求解车载雾计算系统中的最优卸载策略；

其特征在于：

步骤S3中，在状态s采取动作a的系统奖励可以表示为立即收益和开销的差值，表示如下：

R(s,a)＝I(s,a)-C(s,a)

其中，I(s,a)表示采取一个确定的动作后系统所获得的立即收益，C(s,a)表示采取动作后系统到达下一个状态的折扣后的系统期望开销；

在状态s下采取动作a的所述立即收益的表达如下

其中：

e表示一种特定的事件，D_i表示被i个计算单元处理的任务离开系统，ξ、η表示系统被惩罚，β是节省时延的单位价格；

T是本地处理任务需要的时延；

D_t(i)表示请求车辆发送给i个计算单元的传输时延；

D_p(i)表示系统将任务卸载给i个计算单元处理需要的时延。

其进一步特征在于：

步骤3中，所述请求车辆发送给i个计算单元的传输时延D_t(i)的表达式为：

D_t(i)＝i·E[D_i]；

E[D_i]表示在每个退避时隙中发送子任务给一个计算单元的平均时延，其表达式为：

E[D_i]＝E[N]·T_slot(i)；

E[N]表示成功传输子任务所需的平均时隙个数；

T_slot表示发送子任务给i个计算单元其中一个的平均时隙长度；

所述平均时隙长度T_slot(i)的表达式为：

T_slot(i)＝P_idle·slottime+P_c·T_c(i)+P_s·T_s(i)其中：

P_idle表示时隙空闲的概率，其表达式为：

P_idle＝(1-τ)^M；

P_s表示发送成功的概率，其表示式为：

P_s＝Mτ(1-τ)^M-1；

P_c表示遭遇碰撞的概率，其表达式为：

P_c＝1-P_idle-P_s；

T_c(i)表示第i个子任务遭遇碰撞的时长；

T_s(i)表示第i个子任务发送成功的时长；

slottime表示时隙的长度；

τ表示传输概率，其表达式为：

p表示碰撞概率，其表达式为：

p＝1-(1-τ)^M-1；

所述平均时隙个数E[N]表达式为：

E[N]＝E[N₁]+E[N₂]；

其中：

m表示数据包重传次数，

W表示最小竞争窗口；

步骤S3中，所述系统将任务卸载给i个计算单元处理需要的时延D_p(i)的表达式为：

u_t表示一个计算单元的服务速率；

步骤S3中，所述折扣后的系统期望开销C(s,a)表示为：

其中：

b(s,a)表示消耗速率，其表达式为：

σ(s,a)表示期望的服务速率；

α为折扣因子；

所述期望的服务速率σ(s,a)为系统中当前状态可能发生的所有时间的速率的和，表达式为：

其中：

λ_t(i)表示在动作i下的任务到达率，其表达式为：

μ_t表示任务服务速率；

λ_f、μ_f分别表示车辆的到达率、离开率；

表示在不同动作下的任务平均到达率，其表达式为：

p_i表示为任务被i个计算单元处理的概率，其表达式为：

步骤S4中，所述转移概率为P(s′|s,a)，其中s为当前状态，s′为下一个状态，其具体表达式为：

(1)s＝(M,n₁,...,n_N,A),a＝i，即请求达到并卸载给i个计算单元处理时：

(2)s＝(M,n₁,...,n_N,D_i),a＝-1，即分配给i辆车的请求离开时：

(3)s＝(M,n₁,...,n_N,F₊₁),a＝-1，即车辆到达时，

(4)s＝(M,n₁,...,n_N,F_-1),a＝-1，即车辆离开时：

步骤S5中，所述最优卸载策略的计算方法为，通过在值迭代算法，根据贝尔曼最优方程计算状态s在动作a下的最大值函数，第k+1次迭代的值函数计算如下：

其中：

表示归一化后的折扣因子，其表达式为：

表示归一化后的系统奖励，其表达式为：

表示归一化后的转移概率，其表达式为：

步骤S1中，M和n_i满足下面的条件：

本发明提供的基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，全面的考虑了车辆和任务变化特征以及卸载过程的传输时延和发送时延，建立基于半马尔可夫决策过程的任务卸载模型，然后分别定义状态、动作、奖励和转移概率，最后根据值函数迭代算法获得最优卸载方案；因为在动作集合中，考虑了所有可能发生的决策，即：系统根据事件的不同，分配不同的计算单元；在定义系统的奖励模型的时候，综合考虑了不同的状态：任务达到和离开系统、车辆到达和离开系统，以及了本地处理任务需要的时延、请求车辆发送给计算单元的传输时延、系统将任务卸载给计算单元处理需要的时延；在做出决策的时候，同时考虑动作、状态、系统资源状况，以及任务卸载过程中涉及到的各种时延，所以，本技术方案中对于任务卸载过程的描述更加完整，进而后续计算获得的卸载策略更加贴近现实状况，更具合理性。且本发明的技术方案，计算复杂度适中，系统模型简单合理。仿真结果表明，该方案在保证任务卸载时延的前提下，能获得更多的系统长期收益。

附图说明

图1为本发明的系统组成结构示意图；

图2为本发明状态转移示例图；

图3为μ_t取值为25时，本发明中卸载方案和基于贪婪算法的卸载方案的长期受益对比示例图；

图4为μ_t取值为50时，本发明中卸载方案和基于贪婪算法的卸载方案的长期受益对比示例图。

具体实施方式

本发明针对单向行驶的高速公路场景，其中车辆的到达和离开遵循泊松过程。一旦车辆加入到车载雾网络中，它的计算资源就被虚拟化添加到计算资源池中，以供车载雾系统调度分配。如图1所示，此时V1刚好有任务到达，并将卸载请求提交到车载雾系统，系统根据当前状态作出卸载决策，即分配V、V3和V4来协助处理V1的任务。作出决策后，系统状态进行更新，V2、V3和V4变成忙碌的计算单元。

本发明基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其包括以下步骤。

S＝{s|s＝(M,n₁,…,n_N,e)}

其中，M表示当前系统中计算单元的总数目，n_i表示正在被i个计算单元处理的任务数量，e表示一种特定的事件；并且，系统中忙碌的计算单元不能超过总的计算单元数目，即且M不能超过K，这里K表示系统支持的最大车辆数目。

S2：基于半马尔可夫决策过程，定义系统的动作集合A_c，动作集合里面记录所有可能发生的决策，即系统在不同的事件下分配多少个计算单元。动作从集合{-1,0,1,2,...,N}中选取。由于动作和状态两者相互关联，在状态s下采取动作a记录为a(s)。这里a(s)＝-1表示没有采取任何动作。a(s)＝0表示当系统中计算资源缺乏时，系统拒绝卸载并丢掉该任务的决策。a(s)＝i表示系统分配i个计算单元来处理任务。当系统中任务离开，车辆到达或离开时，不需要采取任何动作；当有任务到达，系统可能选择卸载给i个计算单元处理或者丢弃掉任务。事件和动作之间的关系表示如下：

其中：在动作集合A_c中，-1表示没有采取任何动作，0表示当系统中计算资源缺乏时，系统拒绝卸载并丢掉该任务的决策，{A,D₁,…,D_i,…,D_N,F₊₁,F_-1}表示事件集合，N表示任务最多可以被N个计算单元处理，D_i表示被i个计算单元处理的任务离开系统，F₊₁和F_-1分别表示车辆到达和离开系统，A表示有一个任务到达系统。

S3：定义系统的奖励模型；本发明综合考虑传输时延、处理时延、当前可用的计算资源以及车辆和任务的变化特征来衡量车载雾计算系统中任务卸载的奖励。当采取一个确定的动作，系统会获得一个立即收益I(s,a)，当采取动作后，系统需要经历一段时间到达下个状态，在这小段时间内系统的开销为R(s,a)。在状态s采取动作a的系统奖励可以表示为立即收益和开销的差值，表示如下：

R(s,a)＝I(s,a)-C(s,a)

立即收益的计算方式可划分为以下几种：

1.当a＝i,e＝A时：

当任务到达并且系统中计算资源充足时，系统将任务卸载给i个计算单元处理，这种情况下相对于本地处理，卸载给多个车辆处理更节省时延，从而给系统带来了收益。由于任务卸载的时延包括处理时延和传输时延，在这种情况下立即收益可表示为β·[T-D_t(i)-D_p(i)]，其中β是节省时延的单位价格，T是本地处理任务需要的时延，D_t(i)是请求车辆发送任务给i个计算单元所需要的时延，D_p(i)是任务被i个计算单元处理需要的时延；

2.当a＝0,e＝A时：

当任务到达并且系统中计算资源匮乏时，系统丢弃了该任务，这种情况下，请求车辆没有获取到任务中的信息，不能帮助车辆做出相应的驾驶决策。所以这个动作对系统来说是不利的，那么系统就需要被惩罚ξ；

3.当a＝-1,e∈{D₁,…,D_N,F₊₁}时：

当任务离开或车辆到达时，系统不需要采取任何动作，所以没有获得任何收益；

4.当a＝-1,e＝F_-1,时：

当车辆离开并且系统仍然剩余空闲的计算单元时，这种情况下，系统也没有任何收益；

5.当a＝-1,e＝F_-1,时：

当车辆离开并且系统中计算单元都全被占用时，即没有空闲的计算单元，此时任何一个车辆离开都会造成任务卸载中断，这对系统是不利的，因此要给予一个惩罚η。

综上所述，在状态s下采取动作a的立即收益的表达如下

其中：

T是本地处理任务需要的时延；

D_p(i)表示系统将任务卸载给i个计算单元处理需要的时延，其表达式为：

u_t表示一个计算单元的服务速率；

D_t(i)表示请求车辆发送给i个计算单元的传输时延，其表达式为：

D_t(i)＝i·E[D_i]；

E[D_i]＝E[N]·T_slot(i)；

E[N]表示成功传输子任务所需的平均时隙个数，其表达式为：

E[N]＝E[N₁]+E[N₂]；

其中：

m表示数据包重传次数，W表示最小竞争窗口；

T_slot表示发送子任务给i个计算单元其中一个的平均时隙长度,其表达式为：

T_slot(i)＝P_idle·slottime+P_c·T_c(i)+P_s·T_s(i)

其中：

P_idle表示时隙空闲的概率，其表达式为：P_idle＝(1-τ)M；

P_s表示发送成功的概率，其表示式为：P_s＝Mτ(1-τ)^M-1；

P_c表示遭遇碰撞的概率，其表达式为：P_c＝1-P_idle-P_s；

T_c(i)表示第i个子任务遭遇碰撞的时长；

T_s(i)表示第i个子任务发送成功的时长；

slottime表示时隙的长度；

τ表示传输概率，其表达式为：

p表示碰撞概率，其表达式为：

p＝1-(1-τ)^M-1；

折扣后的系统期望开销C(s,a)表示为：

其中：

b(s,a)表示消耗速率，其表达式为：

α为折扣因子；

σ(s,a)表示期望的服务速率，为系统中当前状态可能发生的所有时间的速率的和，其表达式为：

其中：

λ_t(i)表示在动作i下的任务到达率，其表达式为：

μ_t表示任务服务速率；

λ_f、μ_f分别表示车辆的到达率、离开率；

表示在不同动作下的任务平均到达率，其表达式为：

p_i表示为任务被i个计算单元处理的概率，其表达式为：

S4：定义系统的转移概率；参照说明书附图的图2，在半马尔可夫决策过程中，根据当前的状态s和动作a，分四种情况计算转移概率P(s'|s,a)。转移概率为P(s′|s,a)，其中s为当前状态，s′为下一个状态，其具体表达式为：

(2)s＝(M,n₁,...,n_N,D_i),a＝-1，即分配给i辆车的请求离开时：

(3)s＝(M,n₁,...,n_N,F₊₁),a＝-1，即车辆到达时，

(4)s＝(M,n₁,...,n_N,F_-1),a＝-1，即车辆离开时：

S5：求解车载雾计算系统中的最优卸载策略；最优卸载策略的计算方法为，通过在值迭代算法，根据贝尔曼最优方程计算状态s在动作a下的最大值函数，第k+1次迭代的值函数计算如下：

其中：

表示归一化后的折扣因子，其表达式为：

表示归一化后的系统奖励，其表达式为：

表示归一化后的转移概率，其表达式为：

由上，值迭代算法的伪代码如下所示：

其中，值迭代算法中的收敛误差为：

其中ψ表示一个大于0的数，可以根据迭代收敛情况取值。

参照说明书附图中的图2，示例中当前状态为(10,1,1,1,A)，当前发生的事件是任务到达，如果当前可能采取的动作为1、2或3，即，a＝1、a＝2、a＝3那么相应的下个状态及转移概率如图1所示。当采取动作1时，系统有6中转移情况，即(10,2,1,1,A)、(10,2,1,1,D₁)、(10,2,1,1,D₂)、(10,2,1,1,D₃)、(10,2,1,1,F₊₁)和(10,2,1,1,F_-1)，横线上值表示分别对应的转移概率。同理，当采取动作2、3时，状态同样有6种转移情况。图2中，每个可能的状态转移的转移概率通过分数表示，分子是单个事件的速率，分母是总的期望速率，两者比值表示转移概率；如，a＝1时，(10,2,1,1,A)情况发生的概率为10λ_t(1)/σ。

图3和图4表达了在不同的任务到达率下，本发明中卸载方案和基于贪婪算法的卸载方案，在性能方面的不同表现。其中，横坐标表示系统所支持的最大车辆数目，纵坐标表示系统获得的长期收益。

可以看出在当K取值在5～12间变化，图3中的任务到达率为25，图4中的任务到达率为50，本发明卸载方案的性能都是优于基于贪婪算法的卸载方案，也即是说，本发明方案较贪婪算法获得更多的长期收益。

Claims

1.基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其包括以下步骤：

S＝{s|s＝(M,n₁,…,n_N,e)}

S2：定义系统的动作集合A_c：

S3：定义系统的奖励模型；

S4：定义系统的转移概率；

S5：求解车载雾计算系统中的最优卸载策略；

其特征在于：

R(s,a)＝I(s,a)-C(s,a)

在状态s下采取动作a的所述立即收益的表达如下

其中：

T是本地处理任务需要的时延；

D_t(i)表示请求车辆发送给i个计算单元的传输时延；

D_p(i)表示系统将任务卸载给i个计算单元处理需要的时延。

2.根据权利要求1所述基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其特征在于：步骤3中，所述请求车辆发送给i个计算单元的传输时延D_t(i)的表达式为：

D_t(i)＝i·E[D_i]；

E[D_i]＝E[N]·T_slot(i)；

E[N]表示成功传输子任务所需的平均时隙个数；

T_slot表示发送子任务给i个计算单元其中一个的平均时隙长度。

3.根据权利要求2所述基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其特征在于：所述平均时隙长度T_slot(i)的表达式为：

T_slot(i)＝P_idle·slottime+P_c·T_c(i)+P_s·T_s(i)

其中：

P_idle表示时隙空闲的概率，其表达式为：

P_idle＝(1-τ)^M；

P_s表示发送成功的概率，其表示式为：

P_s＝Mτ(1-τ)^M-1；

P_c表示遭遇碰撞的概率，其表达式为：

P_c＝1-P_idle-P_s；

T_c(i)表示第i个子任务遭遇碰撞的时长；

T_s(i)表示第i个子任务发送成功的时长；

slottime表示时隙的长度；

τ表示传输概率，其表达式为：

p表示碰撞概率，其表达式为：

p＝1-(1-τ)^M-1。

4.根据权利要求3所述基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其特征在于：所述平均时隙个数E[N]表达式为：

E[N]＝E[N₁]+E[N₂]；

其中：

m表示数据包重传次数，

W表示最小竞争窗口。

5.根据权利要求4所述基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其特征在于：步骤S3中，所述系统将任务卸载给i个计算单元处理需要的时延D_p(i)的表达式为：

u_t表示一个计算单元的服务速率。

6.根据权利要求5所述基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其特征在于：步骤S3中，所述折扣后的系统期望开销C(s,a)表示为：

其中：

b(s,a)表示消耗速率，其表达式为：

σ(s,a)表示期望的服务速率；

α为折扣因子。

7.根据权利要求6所述基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其特征在于：所述期望的服务速率σ(s,a)为系统中当前状态可能发生的所有时间的速率的和，表达式为：

其中：

λ_t(i)表示在动作i下的任务到达率，其表达式为：

μ_t表示任务服务速率；

λ_f、μ_f分别表示车辆的到达率、离开率；

表示在不同动作下的任务平均到达率，其表达式为：

p_i表示为任务被i个计算单元处理的概率，其表达式为：

8.根据权利要求7所述基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其特征在于：步骤S4中，所述转移概率为P(s′|s,a)，其中s为当前状态，s′为下一个状态，其具体表达式为：(1)s＝(M,n₁,...,n_N,A),a＝i，即请求达到并卸载给i个计算单元处理时：

(2)s＝(M,n₁,...,n_N,D_i),a＝-1，即分配给i辆车的请求离开时：

(3)s＝(M,n₁,...,n_N,F₊₁),a＝-1，即车辆到达时，

(4)s＝(M,n₁,...,n_N,F_-1),a＝-1，即车辆离开时：

9.根据权利要求8所述基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其特征在于：步骤S5中，所述最优卸载策略的计算方法为，通过在值迭代算法，根据贝尔曼最优方程计算状态s在动作a下的最大值函数，第k+1次迭代的值函数计算如下：

其中：

表示归一化后的折扣因子，其表达式为：

表示归一化后的系统奖励，其表达式为：

表示归一化后的转移概率，其表达式为：

10.根据权利要求1所述基于半马尔可夫决策过程的车载雾计算系统任务卸载方法，其特征在于：步骤S1中，M和n_i满足下面的条件：