CN113382383A

CN113382383A - 一种基于策略梯度的公交车辆计算任务卸载方法

Info

Publication number: CN113382383A
Application number: CN202110654075.1A
Authority: CN
Inventors: 孔祥杰; 倪琦超; 段高辉; 侯明良; 夏锋
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-10

Abstract

一种基于策略梯度的公交车辆计算任务卸载方法，步骤如下：1)构建公交车辆网络的系统状态，包括公交车辆状态、车联网络通信信道增益的状态和边缘服务器可用的计算能力。2)确定公交车辆网络中的动作，包括边缘服务器为公交车辆分配的计算资源以及边缘服务器为公交车辆分配的信道状态组成。3)确定公交车辆网络中的回报函数，由瞬时通信速率和瞬时计算率组成。4)基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)来进行公交车辆网络系统资源分配。本发明综合考虑了公交车辆的移动性、边缘服务器计算资源的有限性、通信覆盖范围的局限性等因素，结合车载边缘计算，最小化公交车辆任务的处理时延，进而提高了任务卸载效率。

Description

一种基于策略梯度的公交车辆计算任务卸载方法

技术领域

本发明属于无线通讯技术和边缘计算领域，特别涉及一种车辆任务卸载技术。

背景技术

根据Gartner公司的数据，到2020年，路上的联网车辆将达到25亿辆，使得许多新的车载服务，比如自动驾驶能力，得以实现。在未来五年内，配备此功能的新车的比例将大幅增加，汽车联网在物联网(Internet ofThings,Io T)将占有重要地位。Gartner预测，2015年将有49亿相关产品投入使用，比2014年增长30％，到2020年将达到250亿。近年来，汽车行业正经历着关键性、巨大的变革，许多新型的车载应用和服务、以及观念被提出。例如：自动驾驶服务，安全驾驶和智能交通服务，交通和后勤数字化服务，智能导航，娱乐办公服务等。随着车联网规模的扩大和需求的不断升级，新的问题不断涌现，急需研究和解决。新兴的车载应用大多涉及到视频或图像处理技术，需要强大的数据处理能力。例如，未来的智能导航服务利用增强现实(Augmented Reality，AR)和实时视频流技术。在复杂的十字路口，这种服务能帮助司机提前做出驾驶选择，减轻司机的负担。在提供服务的过程中，需要不断处理周围车辆的传感器信息，数据量十分巨大，任务很难在车载系统上单独处理。

移动边缘计算(mobile edge computing，MEC)从移动云计算演化而来，由欧洲电信标准协会于2014年率先提出，通过将计算资源、网络控制功能、缓存数据部署在微基站和宏基站附近，大大减少数据来回处理时间和移动设备的能耗。在MEC系统中，由于移动设备自身计算能力有限，车辆或用户可以将将计算密集型任务卸载到网络边缘接入点，如基站、无线接入点等，由边缘服务器对任务进行处理，与移动云计算相比，这样做能大大减少数据往返的传输时间。车辆边缘计算(VEC)是指将新兴的移动边缘计算与传统的车辆网络进行结合，将通信、缓存和计算资源移动到接近车辆用户端。VEC有着近距离、超低时延、超高能效、超高可靠性等特点。

深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)是(Deep Q-learning,DQN)的扩展版本，可以扩展到连续动作的控制空间。它在DQN的基础上增加了一层策略网络，用于输出动作值。DDPG中所用到的神经网络，与Actor-Critic形式差不多，也需要有基于策略Policy的神经网络和基于价值Value的神经网络。但是为了体现DQN的思想,每种神经网络都需要再细分为两个。Policy Gradient这边，有估计网络和现实网络，估计网络用来输出实时的动作供actor在现实中实行，而现实网络则是用来更新价值网络系统的。在价值系统这边，也有现实网络和估计网络，他们都在输出这个状态的价值。但在输入端却有所不同，状态现实网络这边会拿着从动作现实网络来的动作加上状态的观测值加以分析，而状态估计网络则是拿着当时actor施加的动作当做输入。

发明内容

本发明要克服现有技术的上述缺点，提供基于策略梯度的公交车辆计算任务卸载方法。本发明综合考虑了公交车辆的移动性、边缘服务器计算资源的有限性、通信覆盖范围的局限性等因素，结合车载边缘计算，最小化公交车辆任务的处理时延，进而提高了任务卸载效率。

本发明的技术方案：

一种基于策略梯度的公交车辆计算任务卸载方法，步骤如下：

(1)构造公交车辆网络的环境状态，包括公交车辆状态、车联网络信道增益的状态和边缘服务器可用的计算能力，其中公交车辆状态包括公交车辆移动速度、公交车辆所处位置、所需卸载任务的大小。环境状态综合可以表示为：

s_t＝[D_i(t),Γ_k(t),F_k(t)] (1)

其中D_i(t)表示公交车辆状态，Γ_i(t)表示车联网络通信信道增益，F_i(t)表示边缘服务器可用的计算能力

(2)构造公交车辆网络中的系统动作。在时间段t内，公交车辆网络采取的动作可以由边缘服务器k为公交车辆分配的计算资源f_i,k(t)以及边缘服务器k为公交车辆分配的信道状态

组成，具体表示为：

(3)构造公交车辆网络中的奖励函数。公交车辆i在时间t上卸载计算任务的瞬时效率R_i,k(t)由通信速率

和瞬时计算率

组成，如下式：

整个公交车任务卸载和资源分配的联合优化问题就变为最大化t时刻所有公交车辆的瞬时效率之和。

(4)收集当前公交车辆网络的状态空间，然后将状态空间通过元组的形式发送到“演员网络”，最后“演员网络”依据当下的动作策略Ω选择当下的动作：

a_t＝Ω(t)＝μ(s_t,θ^μ)+N_t (4)

其中，θ^μ是“演员-在线”神经网络的参数，N_t是随机噪声，s_t是当前的状态，μ是神经网络模拟的当前在线策略。

(5)公交车辆网络的状态空间依据上述步骤4的动作进行更新，得到新的交车辆网络的状态空间s_t+1。公交车辆按照上述步骤4的动作进行计算卸载，与此同时边缘服务器为公交车辆分配相应的通信带宽和计算资源。

(6)根据公交车辆网络的动作空间以及状态空间计算t时间段的奖励R_t，“演员网络”将转换元组(s_t,a_t,R_t,s_t+1)储存于经验重放池中用来训练集更新“演员—在线”深度神经网络。

(7)“演员—目标”深度神经网络根据步骤5得到的新状态s_t+1，利用神经网络模拟目标动作a’_t：

a’_t＝μ’(s_t+1,θ^μ’)+N’_t (5)

其中N’_t是随机噪声，θ^μ’是“演员-目标”神经网络的参数，μ’是“演员-目标”神经网络模拟得到的目标在线策略。

(8)使用Q值来评估步骤4中的在线策略μ，来表示公交车辆网络在状态s_t下采取动作a_t，并且一直采用当前在线策略μ的情况下所得到的奖励期望值。公式如下：

Q^μ(a_t,s_t,θ^μ)＝E[r(a_t,s_t)+γQ^μ(s_t+1,μ(s_t+1,θ^Q),θ^μ)] (6)

其中，θ^Q为“评价-在线”神经网络的参数，γ为衰减系数，r(a_t,s_t)为奖励值计算R_t函数。“评价-在线”神经网络通过在经验重放池中取样带入Q^μ(a_t,s_t,θ^μ)训练神经网络来求出Q值。

(9)“评价-目标”神经网络通过计算目标值来对“评价-在线”神经网络进行训练以及参数更新，在这里目标值的计算方法如下：

y_t＝r(a_t,s_t)+γQ^μ’(s_t+1,μ’(s_t+1θ^μ’),θ^Q’) (7)

其中，Q^μ’使用“评价-目标”神经网络得到在状态s_t+1下使用策略μ’的Q值，γ为衰减系数，θ^Q’为“评价-目标”神经网络的参数。

(10)通过最小化均方差损失函数计算出最优的θ^Q值，其均方差损失函数定义如下：

其中，Q^μ指通过“评价-在线”神经网络得到在s_t状态下采取a_t动作并且一直使用策略μ时的Q值，N表示从经验重放池中采样的数量。

(11)基于上述步骤10中得到最优的θ^Q参数与从经验重放池中取出的训练数据，使用函数J(μ)来评价策略μ的表现，通过使J(μ)最大化来找最优策略；采用蒙特-卡洛法求解函数J(μ)策略梯度：

其中，N在这里表示训练数据的数量，

用来表示函数的梯度。

(12)通过软更新的办法使用“评价-在线”神经网络的参数与“演员-在线”神经网络的参数分别更新“评价-目标”神经网络的参数以及“演员-目标”神经网络的参数：

在这里τ作为更新系数。优化目标函数是公交车辆网络系统中奖励函数的累计值，累计值在网络训练时趋于收敛，那么得到优化目标函数的最优解，即作为最优的资源分配方案。

优选地，更新系数τ取值0.001。

本发明的优点是：1、可以为受资源约束的公交车应用程序提供高效的计算能力。2、可以为公交车辆提供合理的资源分配使卸载计算任务效率最高。3、可以对车辆、边缘计算节点和接入网络的车辆环境进行全面、精确、实时地评价。

附图说明

图1是本发明的公交车任务卸载总体框架。

图2是本发明的公交车任务卸载总体过程。

图3是本发明的总体流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，本发明根据公交车流量以及公交车轨迹网络将城市划分成若干个区域。每个区域内都包含一个计算资源丰富的中央基站(Central Base Station)，K个路基设备(RSU)，以及U辆公交车，用

和

分别表示路基设备和公交车辆的集合。在整个框架中，路基设备可以直接与公交车相互连接传输数据，也可以通过中继站(Relay station)与公交车、其他路基设备间相互连接传输数据，同时获取公交车辆任务卸载的全局信息。另外，公交车辆、路基设备、中继站都可以与中央基站直接相连。

如图1所示，本发明针对公交车辆的移动特性，将公交车辆的运动模拟为有固定路线和方向的离散跳跃，并且在一个时间段内公交车网络状态不变。公交车辆在路基设备的通信范围内通过一跳短程通信技术(DSRC)将任务上传到路基设备。路基设备通信范围以外的车辆可以将其任务上传到中央基站。在某一时间段内公交车辆与离其最近的路基设备相连，当最近的路基设备可用资源不能满足公交车辆请求时，公交车辆将把任务卸载给中央基站协调完成。当公交车辆进入或离开路基设备的无线覆盖范围时，根据当前边缘服务器和公交车辆的状态，中央基站将动态的控制路基设备的资源，来完成公交车辆卸载任务。本发明使用a_i,k(t)来表示公交车辆、中央基站和路基设备的连接关系，其中a_i,_k(t)＝1时表示在t时段公交车辆i与路基设备k相连，反之a_i,k(t)＝0时表示在t时段公交车辆i与中央基站相连，并且使用M_i,k表示在通信时间T_i内路基设备k与公交车辆i之间的通信次数。

通信模型：本发明设变量

表示车辆i和路基设备k之间无线链路的增益通道，

的值范围被离散并量化为L级，用

表示马尔科夫链的状态空间，当

大于等于

小于

时，取

等于γ₀；当

大于等于

小于

时，我们取

等于γ₁，见下式：

本发明用

表示在时间t下的信道增益

定义从一种状态g_s到另一种状态h_s转变的可能性

其中g_s和h_s是

的两种状态，他们都属于

因此就可以得到用于表示公交车辆i和路基设备k之间L×L通道状态的转换概率

本发明将正交频分多址(OFDMA)技术用于公交车车辆和路基设备之间的连接，时隙中瞬时数据传输速率计算公式如下：

在这里b_i,k(t)表示路基设备k到公交车辆i的正交分配带宽。设

表示区域内的全部可用带宽。变量p_i.k(t)表示公交车辆i的传输功率，σ²为高斯白噪声功率。

在时间t从公交车辆i到中央基站接收信号可以通过下式计算：

其中x表示公交车发送的信号，y表示中央基站接收的信号。上式中的y_i,0的第一部分是来自目标公交车辆的有效信号；第二部分是来自共享该信道其他公交车辆的干扰信号；第三部分是噪声。例如：现在有两辆公交车u_i，

如果

中央基站将

视为

的干扰，并在解码后取消u_i。当中央基站解码u_j时，没有干扰。也就是说，对于车辆i，干扰信号是一组具有较小的等效信道增益。本发明认为N个车辆按其信道增益的降序共享相同的信道：

车辆n的干扰信号可通过下式计算得到。

公交车辆与中央基站之间的数据传输速率如下：

最终得到车辆i的通信速率为：

计算模型：本发明将公交车上计算任务定义为i＝(d_i,c_i)，其中d_i是计算任务的数据大小，c_i是完成任务所需的CPU周期数。定义路基设备和中央基站k分配给公交车辆i的计算能力为f_i,k，f_i,k可被建模为随机变量，并分为N级；F_i,k(t)是在时间t即时计算能力，同样将该f_i,k作为有限状态马尔可夫链。及时计算能力F_i,k(t)的转换矩阵见下式：

可以通过以下方式计算边缘服务器k上的计算任务ξ_i执行时间：

Δ_i,k＝c_i/f_i,k (18)

可以通过以下方式获得计算速率(即每秒比特数)：

公交车辆i在路基设备k在时间t时的瞬时计算率为：

优化目标：本发明的优化目标是最大限度的提升公交车任务的处理效率，公交车在时间t上的瞬时效率

由通信速率

和瞬时计算率

组成，如下式：

因此，整个公交车任务卸载和资源分配的联合优化问题就变为最大化瞬间效率

如下：

其中B_s表示区域内公交车数量。

基于以上所提模型，本发明将公交车任务卸载以及资源分配问题表述成一个深度强化学习框架。如图2所示，首先所有的公交车辆都广播其位置信息，然后，公交车辆选择中央基站作为深度强化学习的代理，将卸载请求发送到中央基站。接着中央基站从边缘服务器和车辆收集状态，并且可以通过构建系统状态并选择最佳操作来执行任务调度和资源分配，并将任务分配发送给路基设备。最后，所有公交车辆将其卸载任务发送到相应的路基设备。

环境状态：公交车辆网络的系统状态包括公交车辆状态、车联网络通信信道增益的状态和边缘服务器可用的计算能力，其中公交车辆状态包括公交车辆移动速度、公交车辆所处位置、所需卸载任务的大小。环境状态综合可以表示为：

s_t＝[Di(t),Γ_k(t),F_k(t)] (1)

系统动作：在深度强化学习中，公交车辆网络中的动作决定边缘服务器与中央基站给公交车辆分配各项资源的数量，中央基站在收到不同的公交车辆请求后，调度不同的边缘服务器资源为公交车辆进行卸载任务的计算。在时间段t内，公交车辆系统的动作可以由边缘服务器k为公交车辆分配的计算资源f_i,k(t)以及边缘服务器k为公交车辆分配的信道状态

组成，具体表示为：

回报函数：本发明将最大化的提高处理公交车卸载任务效率，因此本文将系统通信效率和计算效率之和定为我们的回报函数，见下式：

基于以上所提框架，本发明基于深度确定性策略梯度算法(Deep DeterministicPolicy Gradient,DDPG)来进行公交车辆网络系统资源分配。该算法包含“演员网络”以及“评价网络”，每个公交车辆网络中包含在线深度神经网络(Online Network)和目标深度神经网络(Target Network)用来处理公交车辆网络的信息；该算法还包含一个经验重放池(Replay Memory)，用来储存训练数据，如图3所示该网络主要步骤如下所示：

步骤1：首先，收集目前公交车辆网络的状态空间，然后将状态空间通过元组的形式发送到“演员网络”，最后“演员网络”依据当下的动作策略Ω选择当下的动作：

a_t＝Ω(t)＝μ(s_t,θ^μ)+N_t (4)

步骤2：公交车辆网络的状态空间依据上述步骤1的动作进行更新，得到新的交车辆网络的状态空间s_t+1。公交车辆按照上述步骤1的动作进行计算卸载，与此同时边缘服务器为公交车辆分配相应的通信带宽和计算资源；并且根据公交车辆网络的动作空间以及状态空间计算t时间段的奖励R_t，“演员网络”将转换元组(s_t,a_t,R_t,s_t+1)储存于经验重放池中用来训练集更新“演员—在线”深度神经网络；与此同时“演员—目标”深度神经网络根据得到的新状态s_t+1，并且利用神经网络模拟目标动作a’_t：

a’_t＝μ’(s_t+1,θ^μ’)+N’_t (5)

步骤3：使用Q值来评估当前的在线策略μ，来表示公交车辆网络在状态s_t下采取动作a_t，并且一直采用当前在线策略μ的情况下所得到的奖励期望值。然后使用“评价网络”通过贝尔曼公式来计算Q值，公式如下：

Q^μ(a_t,s_t,θ^μ)＝E[r(a_t,s_t)+γQ^μ(s_t+1,μ(s_t+1,θ^Q),θ^μ)] (6)

其中，θ^Q为“评价-在线”神经网络的参数，γ为衰减系数，r(a_t,s_t)为奖励值计算R_t函数。“评价-在线”神经网络通过在经验重放池中取样带入Q^μ(a_t,s_t,θ^μ)训练神经网络来求出Q值。“评价-目标”神经网络通过计算目标值来对“评价-在线”神经网络进行训练以及参数更新，在这里目标值的计算方法如下：

y_t＝r(a_t,s_t)+γQ^μ’(s_t+1,μ’(s_t+1θ^μ’),θ^Q’) (7)

通过最小化均方差损失函数计算出最优的θ^Q值，其均方差损失函数定义如下：

步骤4：基于上述步骤3中得到最优的θ^Q参数与从经验重放池中取出的训练数据，使用函数J(μ)来评价策略μ的表现，通过使J(μ)最大化来找最优策略；采用蒙特-卡洛法求解函数J(μ)策略梯度：

其中，N在这里表示训练数据的数量，

用来表示函数的梯度。然后通过软更新的办法使用“评价-在线”神经网络的参数与“演员-在线”神经网络的参数分别更新“评价-目标”神经网络的参数以及“演员-目标”神经网络的参数：

在这里τ作为更新系数，通常它取值为0.001。优化目标函数是公交车辆网络系统中奖励函数的累计值，累计值在网络训练时趋于收敛，那么得到优化目标函数的最优解，即作为最优的资源分配方案。

通过上述实施例可以看出，本发明基于深度确定性策略梯度算法来进行公交车辆网络系统资源分配，综合考虑了公交车辆的移动性、边缘服务器计算资源的有限性、通信覆盖范围的局限性等，结合车载边缘计算，最小化公交车辆任务的处理延时，进而提高了任务卸载效率，更适用于有大量复杂计算和时延敏感任务要求的智能交通场景。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于策略梯度的公交车辆计算任务卸载方法，步骤如下：

(1)构造公交车辆网络的环境状态，包括公交车辆状态、车联网络信道增益的状态和边缘服务器可用的计算能力，其中公交车辆状态包括公交车辆移动速度、公交车辆所处位置、所需卸载任务的大小；环境状态综合可以表示为：

s_t＝[D_i(t)，Γ_k(t)，F_k(t)] (1)

其中D_i(t)表示公交车辆状态，Γ_i(t)表示车联网络信道增益，F_i(t)表示边缘服务器可用的计算能力；

(2)构造公交车辆网络中的系统动作；在时间段t内，公交车辆网络采取的动作可以由边缘服务器k为公交车辆分配的计算资源f_i，k(t)以及边缘服务器k为公交车辆分配的信道状态

组成，具体表示为：

(3)构造公交车辆网络中的奖励函数；公交车辆i在时间t上卸载计算任务的瞬时效率R_i，k(t)由通信速率

和瞬时计算率

组成，如下式：

整个公交车任务卸载和资源分配的联合优化问题就变为最大化t时刻所有公交车辆的瞬时效率之和；

a_t＝Ω(t)＝μ(s_t，θ^μ)+N_t (4)

其中，θ^μ是“演员-在线”神经网络的参数，N_t是随机噪声，s_t是当前的状态，μ是神经网络模拟的当前在线策略；

(5)公交车辆网络的状态空间依据上述步骤(4)的动作进行更新，得到新的交车辆网络的状态空间s_t+1；公交车辆按照上述步骤(4)的动作进行计算卸载，与此同时边缘服务器为公交车辆分配相应的通信带宽和计算资源；

(6)根据公交车辆网络的动作空间以及状态空间计算t时间段的奖励R_t，“演员网络”将转换元组(s_t，a_t，R_t，S_t+1)储存于经验重放池中用来训练集更新“演员-在线”深度神经网络；

(7)“演员-目标”深度神经网络根据步骤(5)得到的新状态s_t+1，利用神经网络模拟目标动作a’_t：

a’_t＝μ’(s_t+1，θ^μ’)+N’_t (5)

其中N’_t是随机噪声，θ^μ’是“演员-目标”神经网络的参数，μ’是“演员-目标”神经网络模拟得到的目标在线策略；

(8)使用Q值来评估步骤(4)中的在线策略μ，来表示公交车辆网络在状态s_t下采取动作a_t，并且一直采用当前在线策略μ的情况下所得到的奖励期望值；公式如下：

Q^μ(a_t，s_t，θ^μ)＝E[r(a_t，s_t)+γQ^μ(s_t+1，μ(s_t+1，θ^Q)，θ^μ)] (6)

其中，θ^Q为“评价-在线”神经网络的参数，γ为衰减系数，r(a_t，s_t)为奖励值计算R_t函数；“评价-在线”神经网络通过在经验重放池中取样带入Q^μ(a_t，s_t，θ^μ)训练神经网络来求出Q值；

y_t＝r(a_t，s_t)+γQ^μ’(s_t+1，μ’(s_t+1θ^μ’)，θ^Q’) (7)

其中，Q^μ’使用“评价-目标”神经网络得到在状态s_t+1下使用策略μ’的Q值，γ为衰减系数，θ^Q’为“评价-目标”神经网络的参数；

其中，Q^μ指通过“评价-在线”神经网络得到在s_t状态下采取a_t动作并且一直使用策略μ时的Q值，N表示从经验重放池中采样的数量；

(11)基于上述步骤(10)中得到最优的θ^Q参数与从经验重放池中取出的训练数据，使用函数J(μ)来评价策略μ的表现，通过使J(μ)最大化来找最优策略；采用蒙特-卡洛法求解函数J(μ)策略梯度：

其中，N在这里表示训练数据的数量，

用来表示函数的梯度；

在这里τ是更新系数；优化目标函数是公交车辆网络系统中奖励函数的累计值，累计值在网络训练时趋于收敛，那么得到优化目标函数的最优解，即作为最优的资源分配方案。

2.如权利要求1所述的一种基于策略梯度的公交车辆计算任务卸载方法，其特征在于：步骤(12)中更新系数τ取值为0.001。