CN113422795B

CN113422795B - 一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法

Info

Publication number: CN113422795B
Application number: CN202110488718.XA
Authority: CN
Inventors: 李致远; 徐丙磊; 彭二帅; 毕俊蕾
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2022-11-18
Anticipated expiration: 2041-05-06
Also published as: CN113422795A

Abstract

本发明公开了一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法，包括步骤：1.获取车辆任务可接入RSU的信息、车载任务的信息等；2.将车载任务边缘调度与资源分配决策方法转化为数学问题，进行数学建模；3.使用深度强化学习方法求解步骤2中的数学模型；4.将算法部署至软件定义的中央控制器。本发明充分考虑每个车载任务对边缘计算服务器负荷的影响、各个车载任务之间影响，在保证在规定时间内完成计算车载任务、保证各个边缘计算服务器的负载均衡的同时，使得边缘计算服务器提供商的利益最大化。

Description

一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法

技术领域

本发明属于车载移动边缘计算领域，是车载任务边缘调度与资源分配方法，小型基站(small-cell base stations)环境中。特别适合局域网内的小型基站负载均衡。

背景技术

车联网(Internet of Vehicles,loV)是一种新兴的技术，它通过网络将车辆设备连接起来，能够使车辆设备与其它计算设备合作。各种车辆应用如高精度导航、危险感知、自动驾驶等的不断发展，提高了车辆用户驾驶的便利性与安全性，但与此同时各个应用对车辆计算性能的要求越来越高。在这种情况下，传统的以云为中心的计算范式无法适应大量的计算任务。为了应对这一挑战，出现了一种新的计算范式：移动边缘计算(Mobile EdgeComputing,MEC)，它允许车辆将自身的车载任务移送至网络边缘进行计算。由于许多计算任务可以在数据源附近完成，所以可以分布式的平衡计算负载。

目前主流的平衡计算负载仅仅涉及到服务器与服务器之间的计算资源分配，并未考虑到单一服务器给每个车载任务计算资源的分配。这样便忽略了单个车载任务对整个负载均衡的影响。单个任务计算资源分配的受到车载任务自身对延迟的要求、计算此任务得到的收益、其它车载任务当前服务器的负荷、计算其它车载任务所得的收益以及对该服务器造成的负荷等。综合以上情况，需要提出一种车载任务边缘调度与资源分配决策方法，它能够应对车载任务的卸载情景并可考虑多种影响因素。

本发明主要研究通过软件定义网络(Software Defined Network，SDN)获取网络全局的状态感知数据，例如获取该区域中所有车载任务的数目、该区域中MEC服务器的负载状态，并再次基础上结合深度强化学习模型给出车载任务边缘调度与资源分配决策的建议。

发明内容

针对上述问题，本发明提出一种基于深度学习的软件定义车载任务边缘调度与资源分配决策方法，以解决计算车载任务而导致服务器负载不均衡的问题，该方法包括如下步骤：

步骤1，获取车辆接入的RSU的集合r、请求在RSU区域中的卸载的车辆的任务的相关信息、RSU对应的服务器负载；

步骤2，将车载任务边缘调度与资源分配决策方法转化为数学问题，进行数学建模；

步骤3，建立马尔可夫模型并求解(2)中的数学问题；

步骤4，将算法部署至SDN控制器。

进一步，步骤1中所述的信息包括：

①任务的计算时延约束定义为t＝{T₁,…,T_j,…,T_n}，其中，T_j表示第j个车载任务的延迟约束；

②将车载任务可能送入的边缘服务器集合定义为：ser＝{SER₁,…,SER_i,…SER_n}，其中SER_i表示第i台边缘服务器；

③服务器的CPU时钟周期定义为h＝{H₁,…H_i,...,H_n}，其中H_i表示SER_i的CPU时钟周期；

④当前需要处理的车载任务集合为q＝{Q₁,…,Q_j,…,Q_n}，其中Q_j表示第j个车载任务；

⑤车载任务j占用的CPU周期数为

其中i表示服务器SER_i，

m＝{m₁,…,m_i,…,m_n}，其中m_i表示服务器SER_i中所有任务的占用的CPU周期数集合，m则为所有服务器中任务所占CPU周期数的集合。

⑥服务器的CPU占用率定义为util＝{U₁,…,U_i,…,U_n}，其中U_i表示服务器SER_i的CPU占用率。

进一步，步骤2中将车载任务边缘调度与资源分配决策方法转化为数学问题的方法为：

步骤2.1，考虑到计算车载任务受当前CPU时钟周期与CPU占用率影响，定义计算车载任务所用时长为

步骤2.2，定义任务j之前共有n-1个车载任务送入同一个服务器i进行计算，则任务j的计算延迟为

任务j是第n个任务，则：

其中

表示任务j之前的任务x的计算延迟，任务x之前共有n-2个任务。

步骤2.3，根据步骤2.2，则任意服务器i中所有任务的计算延迟总和为：

其中，N_i表示服务器SER_i中所有任务的数量。

步骤2.4，根据步骤2.3，则所有服务器中的所有任务的计算延迟总和为：

其中，I表示所有服务器的总量。

步骤2.5，由于服务器利用率受到新达到的车载任务影响，需重新计算CPU利用率util＝util(m,z):

其中，ρ表示计算两个任务之间的时间间隔；z＝{z₁,…,z_j,…z_n}，z_j＝{1,0}，当z_j＝1时，表示任务j被服务器运算，当z_j＝0时表示任务j没有被服务器运算。

步骤2.6，计算RSU的热度标准差。RSU热度用来衡量涌入某个RSU的车载任务的计算量，RSU的热度标准差用来衡量各个RSU的负载均衡的程度，其计算方式如下：

其中，μ表示各个RSU的计算量的平均值。

步骤2.7，结合步骤2.4、步骤2.5、步骤2.6，将车载任务边缘调度与资源分配决策方法转化为求解下列式子

其中ξ为权重。

进一步，建立马尔可夫模型并求解式(7)中的数学问题。求解式(1)的关键在于寻找车载任务的最佳放置序列以及各个任务分配的最合理计算资源。其具体步骤为：

步骤3.1，建立马尔可夫状态空间S：

S＝{t,h,util} (8)

其中各个参数说明如下：

①t＝{T₁,…,T_j,…,T_n}，为车载任务q的计算延迟约束集合；

②h＝{H₁,…,H_i,…,H_n}，为节点中服务器ser的CPU周期；

③util＝{U₁,…,U_i,…,U_n}，为节点中服务器ser的CPU占用率；

步骤3.2，建立马尔可夫动作空间A：

A＝{a,orderQSer} (9)

其中各个参数说明如下：

①a为车载任务q在各个服务器中分配到的计算资源，a＝{a₀,…,a_y,…a_k}，其中

其中a₀表示没有被分配到计算资源，即车载任务没有被计算；

②orderQSer表示车载任务q在各个服务器中的放置顺序。其中orderQSer＝{qSER₁,…,qSER_x,…qSER_n}，qSER_x表示在SER_x中的车载任务集合，其中

表示车载任务Q_j在服务器SER_x中接收的任务中放置在第order的位置；

步骤3.3，建立马尔可夫奖励函数reward

reward＝ε(η)×base+κ×(t-(TRun(m,h,util)+D^n-1))+ξ×ε(S)/σ(m,μ) (10)

其中各个参数说明如下：

①ε(η)为阶跃函数

ε(η)＝1时表示车载任务被成功计算，ε(η)＝0表示车载任务没有被成功计算；

②base为常数，表示基础奖励。ε(η)×base表示当一个车载任务被成功计算后会获得基础奖励，失败则不会获得基础奖励；

③TRun(m,h,util)+D^n-1表示计算一个车载任务所造成的计算延迟；

④κ×(t-(TRun(m,h,util)+D^n-1))，其中κ为权重，t为该车载任务允许的最大计算延迟，则κ×(t-(TRun(m,h,util)+D^n-1))表示计算该车载任务节省的时间越多则获取到的奖励越多；相反的，如果计算该任务超出了规定的最大时长，则会受到惩罚，超出的时间越多，获得的惩罚越多；

⑤ε(S)是阶跃函数，

ξ为权重，则ξ×ε(S)/σ(m,μ)表示当所有车载任务计算完成后，则计算各个RSU的热度标准差(负载均衡的程度)，热度标准差越小则获取的奖励越多，否则获取的奖励越少。

步骤3.4，根据步骤3.3中的马尔可夫模型，使用DDQN算法求解式子(1)，得到车载任务边缘调度与资源分配的最优结果，具体步骤如下：

步骤3.4.1，建立当前Q网络、目标Q网络，这两个网络的说明如下：

①当前Q网络的网络参数为ω，ω也代指神经网络。ω用来根据当前的状态S选择动作A。动作A作用于当前状态S，生成状态S'和奖励R，奖励R由奖励函数reward获得；

②目标Q网络的网络参数为ω'，ω'也代指神经网络，用来评估当前状态的价值，并帮助当前Q网络ω的更新。

步骤3.4.2，训练当前Q网络、目标Q网络。具体步骤如下：

3.4.2.1，获得当前状态S及其特征向量φ(S)；

3.4.2.2，当前Q网络根据状态S生成动作A；

3.4.2.3，根据状态S和动作A计算奖励R，并获取下一状态S'并计算其特征向量φ(S')，将S'定义为当前状态；

3.4.2.4，将之前获取的{φ(S),A,R,φ(S')}存入经验回放池中；

3.4.2.5，计算当前Q网络的Q值；

3.4.2.6，更新当前Q网络参数ω，目标Q网络参数ω'；

3.4.2.7，如果当前状态S'是终止状态，则迭代完毕，否则转到步骤3.4.2.1。

步骤3.4.3，由训练好的当前Q网络获得车载任务边缘调度与资源分配决策的最优结果。

进一步，在实际应用中，步骤4将算法部署至SDN控制器的具体方法为：

DDQN算法训练完成后，保存当前Q网络并将其部署至SDN控制器。当有车载任务的计算要求时，由SDN控制器根据当前网络节点的相关信息，由部署好的当前Q网络得出车载任务边缘调度与资源分配决策的最优结果。

本发明的有益效果：

本发明可以根据不同车载任务的延迟要求，将车载任务按照一定的序列进行处理并分配相应的计算资源，这有助于降低车载任务的响应时间并提高计算资源的利用率。此外，在此过程中避免车载任务的不均匀分配，以免由车载任务激增而导致节点崩溃。

本发明将软件定义网络的集中控制与深度学习技术相结合，实现全网的智能优化与决策以解决车载任务在边缘计算系统中实时处理所遇到的关键技术难题，包括车载任务卸载失败、车载任务调度与资源分配不当引发系统负载不均衡及任务处理等待时间增长、车载任务回收失败等。

附图说明

图1车载任务边缘调度与资源分配决策流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，假设此时车辆j将车载任务Q_j发送至RSU，则根据本发明具体的实施方式如下：

(1)使用SDN控制器收集相关信息。各个局域网中边缘服务器的集合为ser、边缘服务器的时钟周期集合h、边缘服务器的CPU占用率集合util、需要处理的车载任务集合q、各个车载任务占用的CPU周期集合m；

(2)根据(1)中获取的数据，计算任务Q_j的计算延迟：

(3)SDN汇总其它车辆与边缘服务器的信息，计算所有服务器中的车载任务的计算延迟：

(4)SDN汇总边缘服务器的负载信息，将车载任务边缘调度与资源分配决策方法转化为求解下列数学公式：

(5)使用DDQN算法求解(4)中的数学问题。具体实施方式如下：

1.首先获得初始化状态，即当前车载任务和边缘服务器的相关信息。当前Q网络根据状态S生成动作A，动作A即每个任务分配到的计算资源。具体方法为A＝maxQ(φ(S),a,ω)，表示在当前状态S下，神经网络ω根据状态S的特征向量φ(S)在所有动作a中选出对应Q值最大的动作。

2.根据状态S与动作A计算奖励R，并产生新的状态S'。计算了当前车载任务后，等待计算的车载任务数量以及边缘服务器的各种状态均发生了变化，新的状态即为S'；

3.将之前获取的{φ(S),A,R,φ(S')}存入经验回放池中，经验回放池用来帮助训练目标Q网络；

4.使用公式

y＝R+Q′(φ(S′),max_a'Q(φ(S′j),a,ω),ω′)

计算当前Q值，其中max_a'Q(φ(S′),a,ω)表示使用神经网络ω选择动作a'，Q′(φ(S′),max_a'Q(φ(S′j),a,ω),ω′)表示使用神经网络ω′计算状态S'时动作

A'对应的Q值。

5.更新当前网络Q

ω←ω+(y-Q(φ(S),A,ω))

6.更新目标网络Q

ω'＝ω

目标网络Q定期被当前网络Q覆盖，即为目标网络Q的更新方式；

检查当前状态S'是否为结束状态，如果是结束状态，则迭代完毕，否则跳转至1。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法，其特征在于，包括如下步骤：

所述步骤2中进行数学建模的方法包括如下：

其计算方法为：

表示任务j的计算延迟，任务j是第n个任务，则：

其中

表示任务j之前的任务x的计算延迟，任务x之前共有n-1个任务；

其中，N_i表示服务器SER_i中所有任务的数量；

其中，I表示所有服务器的总量；

其中，ρ表示计算两个任务之间的时间间隔；z＝{z₁,…,z_j,…z_n}，z_j＝{1,0}，当z_j＝1时，表示任务j被服务器运算，当z_j＝0时表示任务j没有被服务器运算；

步骤2.6，计算RSU的热度标准差；RSU热度用来衡量涌入某个RSU的车载任务的计算量，RSU的热度标准差用来衡量各个RSU的负载均衡的程度，其计算方式如下：

其中，μ表示各个RSU的计算量的平均值；

步骤2.7，结合步骤2.4、步骤2.5、步骤2.6，将车载任务边缘调度与资源分配决策转化为求解下列式(7)

其中ξ为权重；

步骤3，建立马尔可夫模型并求解步骤2中的数学模型；

建立马尔可夫模型求解式(1)的具体步骤包括如下：

步骤3.1，建立马尔可夫状态空间S：

S＝{t,h,util} (8)

其中各个参数说明如下：

①t＝{T₁,…,T_j,…,T_n}，为车载任务q的计算延迟约束集合；

②h＝{H₁,…,H_i,…,H_n}，为节点中服务器ser的CPU周期；

③util＝{U₁,…,U_i,…,U_n}，为节点中服务器ser的CPU占用率；

步骤3.2，建立马尔可夫动作空间A：

A＝{a,orderQSer} (9)

其中各个参数说明如下：

①a为车载任务q在各个服务器中分配到的计算资源，a＝{a₀,…,a_y,…a_k}，其中a_y-1＜a_y,

②orderQSer表示车载任务q在各个服务器中的放置顺序，其中orderQSer＝{qSER₁,…,qSER_x,…qSER_n}，qSER_i表示在SER_x中的车载任务集合，其中

步骤3.3，建立马尔可夫奖励函数

reward＝ε(η)×base+κ×(t-(TRun(m,h,util)+D^n-1))+ξ×ε(S)/σ(m,μ) (10)

其中各个参数说明如下：

①ε(η)为阶跃函数

其中，ε(η)＝1时表示车载任务被成功计算，ε(η)＝0表示车载任务没有被成功计算；

②base为常数，表示基础奖励，ε(η)×base表示当一个车载任务被成功计算后会获得基础奖励，失败则不会获得基础奖励；

⑤ε(S)是阶跃函数：

ξ为权重，则ξ×ε(S)/σ(m,μ)表示当所有车载任务计算完成后，则计算各个RSU的热度标准差，热度标准差越小则获取的奖励越多，否则获取的奖励越少；

步骤3.4，根据上述步骤建立的马尔可夫模型，使用DDQN算法求解式子(1)，得到车载任务边缘调度与资源分配的最优结果；

所述步骤3.4的具体过程如下：

步骤3.4.1，建立当前Q网络，目标Q网络，这两个网络的说明如下：

①当前Q网络的网络参数为ω，ω也代指神经网络，ω用来根据当前的状态S选择动作A，动作A作用与当前状态S，生成状态S'和奖励R，奖励R由奖励函数reward获得；

②目标Q网络的网络参数为ω'，ω'也代指神经网络，用来评估当前状态的价值，并帮助前Q网络ω的更新；

步骤3.4.2，训练当前Q网络，目标Q网络；

步骤3.4.3，由训练好的当前Q网络得出车载任务边缘调度与资源分配决策的最优结果；

所述步骤3.4.2的具体过程如下：

3.4.2.1，获得当前状态S及其特征向量φ(S)；

3.4.2.2，当前Q网络根据状态S生成动作A；

3.4.2.4，将之前获取的{φ(S),A,R,φ(S')}存入经验回放池中；

3.4.2.5，计算当前Q网络的Q值；

3.4.2.6，更新当前Q网络参数ω，目标Q网络参数ω'；

2.根据权利要求1所述的一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法，其特征在于，所述步骤1中的相关信息包括：

①任务的计算时延约束定义为t＝{T₁,…,T_j,…,T_n}；

②将车载任务可能送入的边缘服务器集合定义为ser＝{SER₁,…,SER_i,…SER_n}；

③服务器的CPU时钟周期定义为h＝{H₁,…,H_n}，其中H_i表示SER_i的CPU时钟周期；

④当前需要处理的车载任务集合为q＝{Q₁,…,Q_j,…,Q_n}

⑤车载任务j占用的CPU周期数为M_ji，其中i表示服务器SER_i，

m＝{m₁,…,m_i,…,m_n}；

3.根据权利要求1所述的一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法，其特征在于，所述步骤3中，建立马尔可夫模型求解式(7)的关键在于寻找车载任务的最佳放置序列以及各个任务分配的最合理计算资源。

4.根据权利要求1所述的一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法，其特征在于，还包括步骤4，将所述训练好的当前Q网络部署至SDN控制器。

5.根据权利要求4所述的一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法，其特征在于，在应用时，当有车载任务的计算要求时，由SDN控制器根据当前网络节点的各种信息，由部署的当前Q网络得出车载任务边缘调度与资源分配决策的最优结果。