CN110213796A

CN110213796A - 一种车联网中的智能资源分配方法

Info

Publication number: CN110213796A
Application number: CN201910448363.4A
Authority: CN
Inventors: 宁兆龙; 张凯源; 王小洁; 董沛然; 孙守铭
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-09-06
Anticipated expiration: 2039-05-28
Also published as: CN110213796B

Abstract

本发明公开了一种车联网中的智能资源分配方法，将人工智能算法应用于解决车辆网中的资源分配问题，从而最大化网络运营商的收益。具体地，建立基站——路边节点联合车辆边缘计算和缓存资源调度框架为车辆分配请求的资源；结合运营商收入和用户体验质量建立网络运营商收益函数评估资源分配问题，建立联合优化问题最大化网络运营商收益；通过深度强化学习求解上述联合优化问题，得到智能化的任务调度和资源分配方案，并将得到的方案布置在智能化控制系统中，对车辆请求和服务器资源进行智能化的调度和安排。本发明的车联网中的智能资源分配方法能够在考虑用户体验的同时，最大化网络运营商收益，为人工智能在实际化应用提供了一个新的思路和角度。

Description

一种车联网中的智能资源分配方法

技术领域

本发明属于车辆交通领域，具体涉及一种车联网中的智能资源分配方法，尤其涉及到一种基站——路边节点联合车辆边缘计算和缓存资源调度框架和人工智能算法相结合的方法，对车辆所需资源进行智能化调度和相关资源分配。

背景技术

随着5G时代的到来，智能交通系统在当今社会发挥着至关重要的作用，通过向用户提供高质量的服务最大化提升终端设备使用者的生活质量。物联网技术和无线通讯技术的飞速发展使得智能车联网走进了人们的日常生活，为车辆驾驶员提供了更舒适的驾驶体验，更高质量的流服务以及更精确的车辆线路规划服务。然而随着车辆数目和车辆产生数据的日益增加，服务运营商迫切地需要提升车联网系统的QoS和用户的QoE以便于吸引更多的用户。移动边缘计算(Mobile Edge Computing，MEC)技术让有限的资源能够合理地分配给请求资源的用户，从而满足用户任务的时延限制，减少网络中的能源消耗。现有的一些资源分配方案大多忽略了车联网中车辆的移动性和资源请求的时变性，使得这些方案在现实使用中存在一定局限。因此需要研究人员提出一种结合车辆状态和任务动态信息的实用性高，时变性强的资源分配方案，从而保证车联网中用户任务的高质量完成，并且提高网络运营商的服务收益。

发明内容

本发明的目的是针对于现有研究实用性差，时变性弱的不足，结合MEC技术和人工智能算法，提出一种车联网中智能缓存资源分配方案。本发明基于现有的无线通信技术，为智能交通系统提出了一种基站——路边节点联合车辆边缘计算和缓存资源调度框架，其包含了装备MEC服务器的基站和几个路边节点为车辆用户提供内容缓存和计算分载服务。在此框架的基础上，网络运营商调度服务器资源满足车辆用户的内容下载请求和计算需求，将资源分配问题公式化形成联合优化问题来最大化网络运营商收益。最后，建立智能化控制系统利用人工智能算法高效地解决联合优化问题，从而完成车辆任务分配和服务器资源调度。本发明首次使用新颖的联合服务框架和人工智能算法相结合的方法，实用、高效地解决了智能缓存资源分配问题，从而最大化网络运营商收益，为车联网的发展和人工智能的实际应用提供了一个良好的范例。

本发明的技术方案：

一种车联网中的智能资源分配方法，其包括以下步骤：

步骤1：建立基站——路边节点联合车辆边缘计算和缓存资源调度框架，所述框架包含移动的车辆、装备有智能边缘服务器的一个基站和多个路边节点，所述框架具有车辆——服务器通信模型、车辆——服务器计算模型和车辆——服务器缓存模型，其中：

所述车辆——服务器通信模型：

当车辆行驶在路边节点的覆盖范围内时，车辆可以和路边节点的服务器之间建立稳定的信道进行数据传输，设T_i ^j为车辆i在路边节点的服务器j的覆盖范围内停留的时间，在此时间内车辆环境和传输参数不变，车辆需要同时进行计算任务的分载和请求资源的下载，车辆和服务器之间信道的带宽包括计算所需带宽和缓存下载带宽，即其中是时间段t内车辆计算所需带宽，是时间段t内车辆下载所需资源占用的带宽，当车辆用户需要下载或者上传数据，服务器会给连接安排正交频分复用信道，基于香农理论，车辆i和路边节点的服务器j之间的数据传输速率为：

其中是服务器j为车辆i分配的频谱带宽，为服务器j和车辆i之间在时间段t的信噪比；

所述车辆——服务器计算模型：

车辆向网络运营商发送计算任务请求，网络运营商决定分配服务器空闲计算资源给车辆以保证车辆能够在其可接受时延范围内完成计算，基站可以覆盖到智能交通系统内的任一车辆，基站和离车辆最近的路边节点将采用合作的方式对任务进行共同计算，设车辆i在时间段t内完成计算任务大小为t的长度表示为|t|，其中在路边节点上计算，在基站上计算；计算任务所需的CPU周期为计算任务大小为t时间段路边节点和基站分别为车辆i分配的CPU资源f_ij(t)、f_i0(t)分别为：

为了保证计算任务的分载，运营商需要分配足够的带宽保证计算任务的上传，则路边节点和基站分别为车辆i分配的用于计算任务的带宽分别为：

表示服务器j与车辆i之间在时间段t内用于传输计算任务的信道的信噪比，表示基站与车辆i之间在时间段t内用于传输计算任务的信道的信噪比；

所述车辆——服务器缓存模型：

车辆需要下载任务包括两部分相关信息，请求下载内容的总大小c_i和请求下载内容的流行程度p_i；设车辆i在时间段t内请求下载内容大小为t的长度表示为|t|，其中在路边节点上下载，在基站上下载；则t时间段路边节点和基站分别为车辆i分配的缓存资源g_ij(t)、g_i0(t)分别为：

则路边节点和基站分别为车辆i分配的用于下载缓存任务的带宽分别为：

表示服务器j与车辆i之间在时间段t内用于传输下载缓存的信道的信噪比，表示基站与车辆i之间在时间段t内用于传输下载缓存的信道的信噪比；并且当车辆接到了所有的内容片段，车辆可以将这些片段组合成其所需的下载内容；并且因为缓存内容大小有限，同一个服务器不能缓存全部车辆所需下载的内容；

步骤2：基于步骤1)中的建立的框架，实例化联合优化目标优化函数，作为所述智能资源分配方法的基础；

2.1)综合网络运营商对于计算服务和缓存服务的收入以及用户的QoE质量建立运营商收益函数，所述运营商收益函数包括：服务收入、计算任务开销、缓存任务开销、用户QoE惩罚，其中：

所述服务收入为网络运营商向服务请求用户收取的费用，设用户每需要完成1GB的计算任务需要向运营商支付α，完成1GB的下载任务需要支付β，则在时间段t中的服务收入为：

其中V是经过智能交通系统的车辆集合，M是智能交通系统中的服务器集合，包括基站的服务器和路边节点的服务器；

所述计算任务开销为网络运营商完成车辆用户计算任务的开销，其包括通信开销和CPU计算开销，所述通信开销包括请求数据传输信道带宽的开销和车辆接入服务器虚拟网络的信道开销，时间段t内的总计算任务开销为：

其中δ_R和δ₀分别为路边节点(RSU)和基站的带宽开销，ν_R和ν₀分别为RSU和基站接入虚拟网络的开销，η_R和η₀表示RSU和基站完成一个CPU周期的能量消耗，ω_R和ω₀表示RSU和基站的计算资源消耗；

时间段t内的缓存任务开销包括通信开销和缓存开销，其中通信开销的计算方法与所述计算任务开销中的通信开销相同，缓存开销为使用服务器缓存所需支付的开销，时间段t内的总缓存任务开销为：

其中和分别表示RSU和基站的缓存开销；

用户QoE惩罚涉及智能交通系统对用户的服务体验评价，用户QoE惩罚：

其中σ^ca和σ^cp分别是请求任务和计算任务的惩罚系数，T_i为车辆i通过智能交通系统覆盖区域的时间；如果当前的资源分配方案不能够在车辆离开前完成计算或下载缓存任务，惩罚项σ(i,T_i)将是负数；反之，惩罚项σ(i,T_i)将等于0；

综合上述四项，运营商收益P_MNO为：

2.2)联合考虑计算分载、边缘缓存和带宽资源分配，目标优化函数为：

P:

s.t.

其中，B_j、F_j、G_j分别表示服务器j的带宽、计算资源和缓存资源大小；

C1、C3和C5是对分配给车辆用户的带宽、计算资源和缓存资源大小分别进行限制；

C2、C4和C6保证了分配给车辆用户的带宽、计算资源和缓存资源总和不能超过服务器所能提供的最大值；

C7保证了服务器为车辆i提供的缓存资源不能超过车辆的需要；

C8保证了服务器为车辆i提供的计算资源不能超过车辆的计算需要；

步骤3：在智能交通系统中具有智能化控制系统，该智能化控制系统接收车辆和服务器的状态作为当前的环境信息，包括车辆的移动信息、车辆计算任务和内容下载的相关信息以及服务器可用资源的相关信息；在得到上述环境信息后，形成深度强化学习中的三要素：状态、动作和奖励，其中：

所述状态为车辆和服务器的状态：在时间段t内的智能交通系统的状态空间为s_t＝{D_i(t),F_j(t),G_j(t),B_j(t)}，其中D_i(t)为车辆用户的状态集合，包括车辆的移动速度、车辆的所在位置、下载内容的流行程度、所需下载内容的大小、所需计算内容的大小、请求缓存资源大小、请求计算资源大小、计算任务所需的CPU周期数；F_j(t)、G_j(t)和B_j(t)分别为服务器的可用计算资源、可用缓存资源和可用带宽；

所述动作决定一个服务器为车辆分配资源以及为车辆分配资源的量，智能化控制系统接收到不同的请求后派遣不同的服务器资源给车辆用户进行任务的计算和内容的下载，在时间段t内智能交通系统的动作空间为a_t＝{f_ij(t),g_ij(t),b_ij(t)}，其中f_ij(t)、g_ij(t)和b_ij(t)分别表示服务器j为车辆i分配的计算资源、缓存资源和带宽的大小，f_ij(t)、g_ij(t)和b_ij(t)都是连续变量从而保证智能交通系统中的资源准确分配；

基于当前的状态和智能化控制系统采取的动作，智能化控制系统将会获得一个奖励值，所述奖励值与目标优化函数相关，采用P(t)＝R_rev(t)-C_ca(t)-C_cp(t)作为智能交通系统的奖励函数，目标优化函数是奖励函数的累计值；

步骤4：基于步骤3)得到的状态空间、动作空间和奖励函数，进行基于深度强化学习算法的智能任务安排和资源调度，深度强化学习算法为DDPG算法，其中包含“演员”网络和“评价”网络，每一个网络中包含在线深度神经网络和目标深度神经网络，深度强化学习算法还包含经验重放池，用于储存训练数据，进行该深度强化学习算法的深度强化学习智能体布置在智能化控制系统中，控制着智能交通系统中所有的服务器和车辆，以决定每个时间段的动作并将此动作发送给车辆和对应的服务器；

4.1)智能化控制系统将收集得到的状态空间以元组的形式发送给“演员”网络，“演员”网络根据当前的动作策略Ω选择出当前的动作：

a_t＝Ω(t)＝μ(s_t,θ^μ)+N_t

其中μ为由卷积神经网络模拟出的当前在线策略，N_t为随机噪声，θ^μ为“演员-在线”深度神经网络的参数；

4.2)状态空间根据步骤4.1)产生的动作进行更新得到新的状态s_t+1，车辆将计算任务分载，将缓存任务从服务器上部分下载，同时服务器分配计算、缓存资源以及带宽给车辆；根据状态空间和动作空间计算t时间段的奖励值R_t，“演员”网络将转换元组储存在经验重放池中做训练集更新“演员-在线”深度神经网络；同时“演员-目标”深度神经网络根据得到的新的状态s_t+1，利用卷积神经网络模拟出目标动作a_t′：

a′_t＝μ′(s_t+1,θ^μ′)+N_t

其中μ′为由“演员-目标”深度神经网络模拟出的目标在线策略，N_t为随机噪声，θ^μ′为“演员-目标”深度神经网络的参数；

4.3)采用Q值评估当前在线策略μ，以表示在状态s_t下，采取动作a_t且一直采取当前在线策略μ的情况下所获得的奖励期望值；利用“评价”网络通过贝尔曼等式计算Q值，公式如下：

Q^μ(s_t,a_t,θ^μ)＝E[r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1,θ^Q),θ^μ)]

其中r(s_t,a_t)为计算奖励值R_t的函数，γ为衰减系数，θ^Q为“评价-在线”深度神经网络的参数；

“评价-在线”深度神经网络通过在经验重放池中取样带入Q^μ(s_t,a_t,θ^μ)训练卷积神经网络从而求出Q值；

“评价-目标”深度神经网络计算目标值来对“评价-在线”深度神经网络进行训练和参数更新，目标值的计算方法如下：

y_t＝r(s_t,a_t)+γQ^μ′(s_t+1,μ′(s_t+1,θ^μ′),θ^Q′)

其中γ为衰减系数，θ^Q′表示“评价-目标”深度神经网络的参数，Q^μ′表示利用“评价-目标”深度神经网络求解在状态s_t+1下采用策略μ′情况下的Q值；

通过最小化均方差损失函数的方法计算出最优的θ^Q值，其均方差损失函数定义如下：

其中N表示从经验重放池中取样的数量，Q^μ表示利用“评价-在线”深度神经网络求解在状态s_t下采取动作a_t且一直采取策略μ的情况下的Q值；

4.4)基于步骤4.3)中求解的最优θ^Q值以及从经验重放池中取出的训练数据，采用函数J(μ)来衡量策略μ的表现，通过最大化J(μ)来寻找最优策略；采用蒙特-卡洛法求解函数J(μ)策略梯度：

其中表示函数的梯度，N表示训练数据的数量；

利用软更新的方法使用“评价-在线”深度神经网络的参数和“演员-在线”深度神经网络的参数分别更新“评价-目标”深度神经网络的参数和“演员-目标”深度神经网络的参数：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

其中τ更新系数，取0.001；

4.5)目标优化函数是智能化控制系统中的奖励函数的累计值，累计值在进行网络训练时收敛，则得到目标优化函数的最优解，即最优的任务安排和计算资源方案以最大化运营商收益；

步骤5：在得到步骤4)中的最优解后，智能化控制系统向车辆和服务器发送信号，进行相应的计算分载和缓存下载，并将得到的累计值作为运营商的最大收益。

本发明的效果和益处是：本发明提供的车联网中的智能资源分配方法能够在考虑用户体验的同时，最大化网络运营商收益，为人工智能在实际化应用提供了一个新的思路和角度。

附图说明

图1为基于移动边缘计算的、具有边缘缓存和计算分载能力的智能交通系统的车辆网络架构。

图2为基于人工智能算法的联合优化计算资源和缓存资源分配的智能交通系统架构。

图3为不同资源分配方案的收敛表现情况以及网络运营商收益情况对比。

图4为不同资源分配方案在车辆行驶速度不同时的网络运营商收益情况对比。

图5为不同资源分配方案在车辆数目不同时的网络运营商收益情况对比。

图6为不同资源分配方案在计算任务收费不同时的网络运营商收益情况对比。

图7为不同资源分配方案在缓存任务收费不同时的网络运营商收益情况对比。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

图1为基于移动边缘计算的、具有边缘缓存和计算分载能力的智能交通系统的车辆网络架构。图2为基于人工智能算法的联合优化计算资源和缓存资源分配的智能交通系统架构。参见图1和图2，在本实施例中提供一种车联网中智能缓存资源分配方法，步骤如下：

步骤1：建立基站——路边节点联合车辆边缘计算和缓存资源调度框架：

基站——路边节点联合车辆边缘计算和缓存资源调度框架中包含移动的车辆、装备有智能边缘服务器(具备和车辆传输数据和执行计算任务能力)的一个基站和多个路边节点。框架中的基站可以覆盖智能交通系统中的所有车辆，根据当前无线技术的发展，车辆可以和多个服务器建立稳定的通信信道，因此基站可以联合离车辆最近的路边节点共同为车辆提供相应的内容缓存和任务计算服务。并且MEC服务器和车辆之间数据传输采用全双工信道，即不同的车辆可以同时从同一个服务器下载内容和上传任务。路边节点之间采用有线连接进行数据传输，即拥有稳定的数据传输速度。所有的计算任务和缓存任务可以划分成任意片段在不同服务器上分载和并行执行，当服务器完成所有任务片段意味着请求任务被成功执行，否则被认为是部分执行。车辆联合边缘计算和缓存资源调度框架如图1所示，其中的通信模型、计算模型和缓存模型分别为：

车辆——服务器通信模型：

其中是服务器j为车辆i分配的频谱带宽，为服务器j和车辆i之间在时间段t的信噪比。

车辆——服务器计算模型：

表示服务器j与车辆i之间在时间段t内用于传输计算任务的信道的信噪比，表示基站与车辆i之间在时间段t内用于传输计算任务的信道的信噪比。

车辆——服务器缓存模型：

表示服务器j与车辆i之间在时间段t内用于传输下载缓存的信道的信噪比，表示基站与车辆i之间在时间段t内用于传输下载缓存的信道的信噪比；并且当车辆接到了所有的内容片段，车辆可以将这些片段组合成其所需的下载内容；并且因为缓存内容大小有限，同一个服务器不能缓存全部车辆所需下载的内容。

步骤2：基于步骤1)中的建立的框架，本发明中将资源分配问题建立成一个联合优化问题来最大化运营商收益，实例化联合优化目标优化函数作为智能资源分配方法的基础；为了更合理、全面的衡量运营商收益，本发明综合网络运营商对于计算服务和缓存服务的收入以及用户的QoE质量建立收益函数。运营商收益函数主要由四个部分组成：服务收入、计算任务开销、缓存任务开销和用户QoE惩罚。

服务收入为网络运营商向服务请求用户收取的费用，设用户每需要完成1GB的计算任务需要向运营商支付α，完成1GB的下载任务需要支付β，则在时间段t中的服务收入为：

其中V是经过智能交通系统的车辆集合，M是智能交通系统中的服务器集合，包括基站的服务器和路边节点的服务器。

计算任务开销为网络运营商完成车辆用户计算任务的开销，其包括通信开销和CPU计算开销，通信开销包括请求数据传输信道带宽的开销和车辆接入服务器虚拟网络的信道开销，时间段t内的总计算任务开销为：

其中δ_R和δ₀分别为路边节点(RSU)和基站的带宽开销，ν_R和ν₀分别为RSU和基站接入虚拟网络的开销，η_R和η₀表示RSU和基站完成一个CPU周期的能量消耗，ω_R和ω₀表示RSU和基站的计算资源消耗。

时间段t内的缓存任务开销包括通信开销和缓存开销，其中通信开销的计算方法与计算任务开销中的通信开销相同，缓存开销为使用服务器缓存所需支付的开销，时间段t内的总缓存任务开销为：

其中和分别表示RSU和基站的缓存开销。

用户QoE惩罚是考虑到智能交通系统对用户的服务体验评价，如果当车辆用户离开智能交通系统的控制区域时系统未完成他所请求的任务，那么智能交通系统会给用户造成一定的损失，因此本发明为运营商收益函数添加惩罚项：

其中σ^ca和σ^cp分别是请求任务和计算任务的惩罚系数，T_i为车辆i通过智能交通系统覆盖区域的时间；如果当前的资源分配方案不能够在车辆离开前完成计算或下载缓存任务，惩罚项σ(i,T_i)将是负数；反之，惩罚项σ(i,T_i)将等于0。

综合上述四项，运营商收益P_MNO为：

综合分析，上述定义的运营商收益评价函数是全面、合理的，网络运营商向用户收取费用基于他们不同的任务请求；同时，网络运营商需要支付各种资源的使用费用，比如网络、电能和信道等。

联合考虑计算分载、边缘缓存和带宽分配，本发明的优化目标函数可以表示为：

P:

s.t.

其中，B_j、F_j、G_j分别表示服务器j的带宽、计算资源和缓存资源大小；C1、C3和C5是对分配给车辆用户的带宽、计算资源和缓存资源大小分别进行限制；C2、C4和C6保证了分配给车辆用户的带宽、计算资源和缓存资源总和不能超过服务器所能提供的最大值；C7保证了服务器为车辆i提供的缓存资源不能超过车辆的需要；C8保证了服务器为车辆i提供的计算资源不能超过车辆的计算需要；通过求解上述优化函数的最优解，可得到最优的任务安排和资源分配方案。

步骤3：在智能交通系统中设立一个智能化控制系统来处理车辆的计算任务和内容缓存请求，当接受到车辆的请求后，由智能化控制系统进行方案的制定并将方案的具体实施信号传给车辆和对应的服务器。在智能化控制系统中，本发明采用基于深度强化学习的人工智能算法，对步骤2)中的优化函数进行求解，并得到最优的方案。

智能化控制系统首先接收车辆和服务器的状态作为当前的环境信息，包括车辆的移动信息(速度和所在位置，速度为了确定在智能交通系统中的停留时间；位置决定车辆最近的路边节点进行任务执行)，车辆计算任务和内容下载的相关信息以及服务器可用资源的相关信息。在得到环境信息后，利用人工智能算法学习当前环境的特征并制定出一个最优的方案来引导车辆进行计算任务分载和下载内容边缘缓存。同时，智能化控制系统决定不同的服务器分配多少计算资源、缓存资源和带宽给不同的车辆以满足他们各种不同的请求。最终，服务器完成车辆的不同请求为用户提供高质量的服务。

本发明使用人工智能算法中的一个重点分支：深度强化学习算法，并利用上述收集到的信息形成深度强化学习中的三要素：状态，动作和奖励。

状态为车辆和服务器的状态：在时间段t内的智能交通系统的状态空间为s_t＝{D_i(t),F_j(t),G_j(t),B_j(t)}，其中D_i(t)为车辆用户的状态集合，包括车辆的移动速度、车辆的所在位置、下载内容的流行程度、所需下载内容的大小、所需计算内容的大小、请求缓存资源大小、请求计算资源大小、计算任务所需的CPU周期数；F_j(t)、G_j(t)和B_j(t)分别为服务器的可用计算资源、可用缓存资源和可用带宽。

动作决定一个服务器为车辆分配资源以及为车辆分配资源的量，智能化控制系统接收到不同的请求后派遣不同的服务器资源给车辆用户进行任务的计算和内容的下载，在时间段t内智能交通系统的动作空间为a_t＝{f_ij(t),g_ij(t),b_ij(t)}，其中f_ij(t)、g_ij(t)和b_ij(t)分别表示服务器j为车辆i分配的计算资源、缓存资源和带宽的大小，f_ij(t)、g_ij(t)和b_ij(t)都是连续变量从而保证智能交通系统中的资源准确分配。

基于当前的状态和智能化控制系统采取的动作，智能化控制系统将会获得一个奖励值，奖励值与目标优化函数相关，采用P(t)＝R_rev(t)-C_ca(t)-C_cp(t)作为智能交通系统的奖励函数，目标优化函数是奖励函数的累计值。

步骤4：基于步骤3)得到的状态空间、动作空间和奖励函数，进行基于深度强化学习算法的智能任务安排和资源调度，深度强化学习算法为DDPG算法，其中包含“演员”网络和“评价”网络，每一个网络中包含在线深度神经网络和目标深度神经网络，深度强化学习算法还包含经验重放池，用于储存训练数据，算法的具体架构如图2所示。深度强化学习智能体布置在智能化控制系统中，控制着车辆网中所有的服务器和车辆，决定着每个时间段的动作并将此动作发送给车辆和对应的服务器。

进行该深度强化学习算法的深度强化学习智能体布置在智能化控制系统中，控制着智能交通系统中所有的服务器和车辆，以决定每个时间段的动作并将此动作发送给车辆和对应的服务器。

4.1)智能化控制系统将收集得到的状态空间以元组(Tuples)的形式发送给“演员”网络，“演员”网络根据当前的动作策略Ω选择出当前的动作：

a_t＝Ω(t)＝μ(s_t,θ^μ)+N_t

其中μ为由卷积神经网络模拟出的当前在线策略，N_t为随机噪声，θ^μ为“演员-在线”深度神经网络的参数。

4.2)状态空间根据步骤4.1)产生的动作进行更新得到新的状态s_t+1，车辆将计算任务分载，将缓存任务从服务器上部分下载，同时服务器分配计算、缓存资源以及带宽给车辆；根据状态空间和动作空间计算t时间段的奖励值R_t，“演员”网络将转换元组储存在经验重放池中做训练集更新“演员-在线”深度神经网络；同时“演员-目标”深度神经网络根据得到的新的状态s_t+1，利用卷积神经网络模拟出目标动作a′_t：

a′_t＝μ′(s_t+1,θ^μ′)+N_t

其中μ′为由“演员-目标”深度神经网络模拟出的目标在线策略，N_t为随机噪声，θ^μ′为“演员-目标”深度神经网络的参数。

Q^μ(s_t,a_t,θ^μ)＝E[r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1,θ^Q),θ^μ)]

其中r(s_t,a_t)为计算奖励值R_t的函数，与P(t)＝R_rev(t)-C_ca(t)-C_cp(t)相同，由此计算出当前的奖励值R_t；γ为衰减系数，θ^μ为“演员-在线”深度神经网络的参数，θ^Q为“评价-在线”深度神经网络的参数；

y_t＝r(s_t,a_t)+γQ^μ′(s_t+1,μ′(s_t+1,θ^μ′),θ^Q′)

其中γ为衰减系数，θ^μ′表示“演员-目标”深度神经网络的参数，θ^Q′表示“评价-目标”深度神经网络的参数，Q^μ′表示利用“评价-目标”深度神经网络求解在状态s_t+1下采用策略μ′情况下的Q值；

其中N表示从经验重放池中取样的数量，θ^Q为“评价-在线”深度神经网络的参数，Q^μ表示利用“评价-在线”深度神经网络求解在状态s_t下采取动作a_t且一直采取策略μ的情况下的Q值。

4.4)基于步骤4.3)中求解的最优θ^Q值以及从经验重放池中取出的训练数据，采用函数J(μ)来衡量一个策略μ的表现，通过最大化J(μ)来寻找最优策略；采用蒙特-卡洛法求解函数J(μ)策略梯度：

其中表示函数的梯度，N表示训练数据的数量。

最后，利用软更新的方法使用“评价-在线”深度神经网络的参数和“演员-在线”深度神经网络的参数分别更新“评价-目标”深度神经网络的参数和“演员-目标”深度神经网络的参数：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

其中τ更新系数，通常取0.001。

4.5)目标优化函数是智能化控制系统中的奖励函数的累计值，累计值在进行网络训练时收敛，则得到目标优化函数的最优解，即最优的任务安排和计算资源方案以最大化运营商收益。

图3为不同资源分配方案的收敛表现情况以及网络运营商收益情况对比。参见图3，本发明提出的方法相对于非联合资源分配方案、单独计算分载方案以及单独边缘缓存方案，会使运营商获得更大的收益。

图4为不同资源分配方案在车辆行驶速度不同时的网络运营商收益情况对比。参见图4，随着车辆行驶速度的增加，各个方案都使运营商收益都下降，相对去其他的方法，本发明所提出的方法可将运营商收益最大化。

图5为不同资源分配方案在车辆数目不同时的网络运营商收益情况对比。参见图5，随着智能交通系统中车辆数目的增加各个方案的运营商收益都下降，相对于其他方法，本发明所提出的方法可将运营商收益最大化；计算任务收费和缓存任务收费的提高使得各个方案下的运营商收益都有所提高。

图6为不同资源分配方案在计算任务收费不同时的网络运营商收益情况对比。图7为不同资源分配方案在缓存任务收费不同时的网络运营商收益情况对比。由图6和图7可以看出，本发明提出的资源分配方案将获得最大的运营商收益。

综上所述，本发明提供的车联网中的智能资源分配方法，将人工智能算法应用于解决车辆网中的资源分配问题，从而最大化网络运营商的收益。本发明的实验结果验证了提出的车联网中的智能资源分配方法能够在考虑用户体验的同时，最大化网络运营商收益，为人工智能在实际化应用提供了一个新的思路和角度。

以上示例性实施方式所呈现的描述仅用以说明本发明的技术方案，并不想要成为毫无遗漏的，也不想要把本发明限制为所描述的精确形式。显然，本领域的普通技术人员根据上述教导做出很多改变和变化都是可能的。选择示例性实施方式并进行描述是为了解释本发明的特定原理及其实际应用，从而使得本领域的其它技术人员便于理解、实现并利用本发明的各种示例性实施方式及其各种选择形式和修改形式。本发明的保护范围意在由所附权利要求书及其等效形式所限定。

Claims

1.一种车联网中的智能资源分配方法，其特征在于，包括以下步骤：

步骤1：建立基站——路边节点联合车辆边缘计算和缓存资源调度框架，所述框架包含移动的车辆、装备有智能边缘服务器的基站和多个路边节点，所述框架具有车辆——服务器通信模型、车辆——服务器计算模型和车辆——服务器缓存模型，其中：

所述车辆——服务器通信模型：

当车辆行驶在路边节点的覆盖范围内时，车辆和路边节点的服务器之间建立稳定的信道进行数据传输，设T_i ^j为车辆i在路边节点的服务器j的覆盖范围内停留的时间，在此时间内车辆环境和传输参数不变，车辆需要同时进行计算任务的分载和请求资源的下载，车辆和服务器之间信道的带宽包括计算所需带宽和缓存下载带宽，即其中是时间段t内车辆计算所需带宽，是时间段t内车辆下载所需资源占用的带宽，当车辆用户需要下载或者上传数据，服务器会给连接安排正交频分复用信道，基于香农理论，车辆i和路边节点的服务器j之间的数据传输速率为：

其中，是服务器j为车辆i分配的频谱带宽，为服务器j和车辆i之间在时间段t的信噪比；

所述车辆——服务器计算模型：

车辆向网络运营商发送计算任务请求，网络运营商决定分配服务器空闲计算资源给车辆以保证车辆能够在其可接受时延范围内完成计算，基站可覆盖到智能交通系统内的任一车辆，基站和离车辆最近的路边节点将采用合作的方式对任务进行共同计算，设车辆i在时间段t内完成计算任务大小为t的长度表示为|t|，其中在路边节点上计算，在基站上计算；计算任务所需的CPU周期为计算任务大小为t时间段路边节点和基站分别为车辆i分配的CPU资源f_ij(t)、f_i0(t)分别为：

所述车辆——服务器缓存模型：

表示服务器j与车辆i之间在时间段t内用于传输下载缓存的信道的信噪比，表示基站与车辆i之间在时间段t内用于传输下载缓存的信道的信噪比；并且当车辆接到了所有的内容片段，车辆可将这些片段组合成其所需的下载内容；并且因为缓存内容大小有限，同一个服务器不能缓存全部车辆所需下载的内容；

所述服务收入为网络运营商向服务请求用户收取的费用，设用户每需要完成1GB的计算任务需要向网络运营商支付α，完成1GB的下载任务需要向网络运营商支付β，则在时间段t中的服务收入为：

其中δ_R和δ₀分别为路边节点和基站的带宽开销，ν_R和ν₀分别为路边节点和基站接入虚拟网络的开销，η_R和η₀表示路边节点和基站完成一个CPU周期的能量消耗，ω_R和ω₀表示路边节点和基站的计算资源消耗；

其中和分别表示路边节点和基站的缓存开销；

综合上述四项，运营商收益P_MNO为：

基于当前的状态和智能化控制系统采取的动作，智能化控制系统将获得一个奖励值，所述奖励值与目标优化函数相关，采用P(t)＝R_rev(t)-C_ca(t)-C_cp(t)作为智能交通系统的奖励函数，目标优化函数是奖励函数的累计值；

a_t＝Ω(t)＝μ(s_t,θ^μ)+N_t

4.2)状态空间根据步骤4.1)产生的动作进行更新得到新的状态s_t+1，车辆将计算任务分载，将缓存任务从服务器上部分下载，同时服务器分配计算、缓存资源以及带宽给车辆；根据状态空间和动作空间计算t时间段的奖励值R_t，“演员”网络将转换元组储存在经验重放池中做训练集更新“演员-在线”深度神经网络；

同时“演员-目标”深度神经网络根据得到的新的状态s_t+1，利用卷积神经网络模拟出目标动作a′_t：

a′_t＝μ′(s_t+1,θ^μ′)+N_t

4.3)采用Q值评估当前在线策略μ，以表示在状态s_t下，采取动作a_t且一直采取当前在线策略μ的情况下所获得的奖励期望值，利用“评价”网络通过贝尔曼等式计算Q值，公式如下：

Q^μ(s_t,a_t,θ^μ)＝E[r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1,θ^Q),θ^μ)]

y_t＝r(s_t,a_t)+γQ^μ′(s_t+1,μ′(s_t+1,θ^μ′),θ^Q′)

其中▽表示函数的梯度，N表示训练数据的数量；

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ←τθ^μ+(1-τ)θ^μ′

其中τ更新系数，取0.001；