CN114826454A

CN114826454A - 一种mec辅助的车联网通信系统中智能资源管理方法

Info

Publication number: CN114826454A
Application number: CN202210447583.7A
Authority: CN
Inventors: 王保云; 范军
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-07-29
Anticipated expiration: 2042-04-25
Also published as: CN114826454B

Abstract

本发明公开了一种MEC辅助的车联网通信系统中智能资源管理方法，采用正交频分复用将频谱资源转换成在不同子载波上相互独立的频谱子带，设计多个V2I链路的信道复用以及频谱子带分配策略从而最小化系统的时间成本。采用多智能体强化学习算法，首先结合系统的状态空间，动作空间以及奖励函数将问题建模为一个马尔科夫决策过程其次搭建多智能体强化学习算法路径框架，最后进行训练获得最优的系统资源分配策略，实现了对通信系统的资源管理，降低车联网系统的整体时延。与传统算法相比，该算法能够获得联合优化的解，同时可以适用于快速变化的信道环境，显著提升了车辆与基站之间的信息传输速率和系统资源利用率，降低了通信系统的任务执行时延。

Description

一种MEC辅助的车联网通信系统中智能资源管理方法

技术领域

本发明涉及一种基于MEC辅助的车联网通信系统中智能资源管理技术，属于通信技术领域。

背景技术

随着社会的发展与科技的进步,机动车保有量正在呈爆炸式增长。日益增长的汽车数量对交通、环境及人身健康等方面问题带来了巨大的挑战。一方面,人们对于行车安全、通行效率、驾驶体验等方面的要求越来越高；另一方面,管理者对于自动化交通管理、交通控制、拥塞疏导、环境保护等方面的需求越来越大。如何在车联网中解决上述问题成为了整个社会高度关注的研究内容。以边缘计算为主的云计算技术的发展,则为车联网实时性以及架构和资源管理等问题提供了更灵活有效的解决思路。如何利用边缘计算技术构建面向车联网应用与典型场景业务需求的架构,以及如何在架构中合理高效地管理车云资源,为车辆用户提供低时延高可靠的服务,是车联网相关研究的关键所在。

由于通信系统中有限的资源，与之对应的在交通系统中车辆用户的大量增加，针对未来的智能驾驶乃至无人驾驶场景中，车辆用户与路边单元以及边缘云之间的交互愈加频繁，高效的管理有限的系统资源从而最小化系统的时延显得尤为重要。

考虑到车辆的移动性，车辆用户与边缘云以及路边单元之间的信道状态是时刻变化的，因此利用普通的数学方法对问题进行求解并不能满足时刻变化的信道环境对系统整体性能的影响，可以将分布式的强化学习的方法引入车联网设计智能的系统资源管理方法高效的利用系统中的频谱资源与计算资源，将车辆用户与基站的关联模式，云计算中心计算资源的分配策略以及系统频谱子带分配联合优化进一步提升通信系统各方面的性能，因此，针对系统频谱资源和计算资源有限的情况下，研究系统资源的分配策略是很有必要的。

Sun W,

E G,

F等人在文献“Radio resource management forD2D-based V2V communication”中提出的SOLEN算法只能应用于缓慢变化的信道衰落，无法应用于车联网场景中快速变化的信道环境并且不具有自适应学习的能力。

发明内容

本发明的目的是针对MEC辅助的车联网多用户通信应用场景，为了能使无人驾驶能够得以实现，本发明提供了一种在城市道路中的车联网场景下一种高效的智能资源分配方法，OFDM可将频选信道转化成在不同子载波上的平坦信道。几个连续的子载波分到一个频谱子带中，并假定在一个子带内的衰落近似，不同子带间则独立将系统频带资源划分为若干个互不相干的频谱子带，通过频带的频谱分割以及任务卸载决策显著的提升系统的资源利用率，另外提供了一种基于深度强化学习MARL算法的联合优化方法。

本发明所述的一种MEC辅助的车联网通信系统中智能资源管理方法，包括以下步骤：

步骤1：在所述系统中建立通信模型，考虑到在多用户的车联网通信系统中可能存在多种干扰以及各个车辆用户都有较为敏感的低时延要求，通过对系统资源的合理分配，对车辆用户与路边单元之间的信道，车辆用户与宏基站单元之间的信道进行建模，以系统的平均时延作为优化目标，求解最优的系统资源分配策略。

步骤2：根据各自的信道增益，确定车辆用户到宏基站的信号传输时间，宏基站到车辆用户的信号传输时间，路边单元到车辆用户的信号传输时间以及任务的运算处理时间，获得系统任务执行时延优化问题。

步骤3：根据用户频谱子带数量约束，宏基站计算资源大小约束，车辆用户与基站的关联情况约束和车辆用户的传输时延，建立深度强化学习模型。

步骤4：使用马尔科夫决策过程刻画深度强化学习模型。

步骤5：利用MARL算法优化强化学习模型。根据优化后的强化学习模型求解优化问题。

进一步的，在步骤1中，车辆用户在任务周期内持续的产生计算任务，根据车辆用户与宏基站之间的信道增益以及车辆用户与路边单元之间的信道增益，智能的决策车辆用户与基站的关联方式，由于车辆用户在环境中是不断移动的引起车辆用户与宏基站之间信道增益以及车辆用户与路边单元之间信道增益的不断变化从而使得车辆用户与基站的关联情况也在不断变化。

步骤1-1中，所述车辆用户的频带选择情况矩阵表达式：

其中

为车辆用户i对s号频谱子带的使用情况，0代表未使用s号频谱子带，1代表使用。

在步骤1-2中，所述车辆用户与基站的关联情况矩阵表达式：

其中

为车辆用户i与k号基站的情况，0代表未关联k号基站，1代表关联。

进一步的，步骤2中，车辆与基站的关联情况可以分为两种分别是车辆与有计算能力的宏基站相关联或者车辆与路边单元相关联。第一种车辆与宏基站相关联的情况下车辆用户通过蜂窝网将任务上传给宏基站，路边单元通过光纤将任务上传给宏基站，宏基站收集来的任务综合处理处理后通过蜂窝网发送给车辆用户，第二种车辆与路边单元相关联的情况下路边单元通过蜂窝网将任务传输给车辆用户，车辆用户根据接收到的数据与自身采集的数据利用自身的运算能力处理。根据各自的信道增益，确定车辆用户到宏基站的信号传输时间，宏基站到车辆用户的信号传输时间，路边单元到车辆用户的信号传输时间以及任务的运算处理时间，获得系统所有车辆用户的任务传输和处理时延优化问题。

在步骤2-1-1中，车辆用户与宏基站相关联的模式下，车辆用户上行链路信道传输速率为：

其中f₀代表频谱子带的带宽大小，

表示车辆用户到宏基站上行链路信道的信噪比，对应的上行链路的传输时间为：

在步骤2-1-2中，车辆用户与宏基站相关联的模式下，宏基站将处理后的任务发送给车辆的下行链路的传输速率为：

其中SNR表示宏基站到车辆用户下行链路信道的信噪比。

对应的下行链路传输所耗费的时间为：

上行链路与下行链路传输所耗费的总时间为：

在步骤2-2中，车辆用户与宏基站相关联的模式下，宏基站计算处理任务所耗费的时间为：

其中D_i为车辆用户产生的任务量大小，Q_k为路边单元产生的任务量大小，F_i为处理单位比特任务所需的CPU周期数，

为宏基站的总计算能力大小，f_i ^co为分配给车辆用户的计算资源比例。

在步骤2-3中，车辆用户与路边单元相关联的模式下，路边单元到车辆用户下行链路信道传输速率为：

其中f₀代表频谱子带的带宽大小，

表示路边单元到车辆用户下行链路信道的信噪比，对应的下行链路的传输时间为：

在步骤2-4中，车辆用户与路边单元相关联的模式下，车辆用户计算处理任务所耗费的时间为：

为车辆用户的计算能力大小。

系统的时间成本分为两部分分别是任务的传输时间与任务的处理运算时间，因此车辆用户所消耗的时间成本可以表示为：

进一步的，步骤3中，通过调整系统频谱子带分配，宏基站计算资源分配以及车辆与基站的关联模式来最小化系统的平均时延，该优化问题可以表述为：

s.t C1:1≤|x_i|≤S,

C2:

C3:

C4:f_i ^co∈[0,1],

C5:

C6:

其中S代表频谱子带数目，f_i ^co表示宏基站分配给车辆i的计算能力所占的比例，单位为Hz。

进一步的，步骤4中，利用MARL算法优化强化学习模型，建立深度强化学习的马尔科夫决策过程包括：

步骤4-1、状态空间S：状态由第t时间步的路边单元产生的任务量，车辆用户产生的任务量，频谱子带选择矩阵，宏基站的计算资源分配情况，车辆用户与基站的关联模式矩阵以及信道增益矩阵决定。在仿真过程中发现训练的迭代次数与探索率也能在一定程度上影响强化学习的过程，因此将训练的迭代次数与探索率也加入到状态空间中。

步骤4-2、动作空间A：动作空间由频谱子带选择矩阵，车辆用户与基站的关联模式矩阵，以及宏基站的计算资源分配情况构成。

步骤4-3、即时奖励R：为了防止agent相互竞争，我们对所有的agent使用一个系统级的奖励从而使其为网络的整体性能而演进，因此我们设置奖励函数为：

状态作用值函数Q_π(s^(t),a^(t))表示在给定策略π，状态s^(t)下采取动作a^(t)而获得的累计奖励期望。Q学习不依赖环境的先验知识，只需要不断的对Q(s^(t),a^(t))迭代到最优值Q^*(s^(t),a^(t))，就能获得最优策略π^*。通过Q学习算法可搜索最优策略π^*，在最优策略π^*下定义的Q值更新函数为：

其中χ∈(0,1]为折扣因子，r^(t+1)(s^(t)＝s,a^(t),π＝π^*)为在t时刻状态s^(t)，动作a^(t)和最优策略π^*下得到的即时奖励r^(t+1)，s′为系统在(t+1)时刻的状态，a′为车辆用户在(t+1)时刻的动作，

是采取动作a从状态S过渡到下一个状态S′的状态转移概率。

进一步的，步骤5中，利用MARL算法优化强化学习模型。根据优化后的强化学习模型求解优化问题，其步骤为：

(1)训练回合数ep初始化为0；

(2)训练回合数ep中的时间步t初始化为0；

(3)根据观测网络获得输入状态S，根据预测网络输出动作A并获取即时奖励R，同事转换到下一状态S′，获取训练集(S,A,R,S′)；

(4)将训练集(S,A,R,S′)存储到经验回放记忆库D中；

(5)利用采样网络从经验回访池D中随机采样一小批W数量大小的样本构成数据集，发送给Q-learning训练网络负责训练；

(6)根据当前Q网络参数定期的更新目标Q网络的参数ω′＝ω；

(7)判断是否满足t<T,T为ep回合中的总时间步，若满足则返回(3)，若不满足则进入(8)；

(8)判断是否满足ep<EP,EP为总的回合数，若满足则进入(2)，若不满足则训练结束，得到优化之后的强化学习框架。

本发明所述的有益效果为：(1)本发明提出了一种MEC辅助的车联网通信系统中智能资源管理方法，基于多代理RL的车辆网络分布式资源共享方案，该方案利用有限的频谱子带资源，实现了车辆网络的资源共享。(2)针对多智能体RL问题，提出了一种基于指纹的独立Q学习方法，并将其与DQN和经验回放相结合。(3)该方法分为集中式训练阶段和分布式实现阶段。我们证明，通过这种机制，所提出的资源共享方案可以有效地鼓励各通信链路之间的合作，从而提高系统级性能，尽管决策是在每个V2V发送器上本地执行的。(4)与现有方法相比，以最小化系统的总体平均时延为目标，所提出的方法可以显著地提升系统的资源利用率，从而最小化系统的平均时延。

附图说明

图1为本发明的系统模型图；

图2位本发明的MARL算法智能体与环境交互框架图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施实例并结合附图，对本发明作进一步详细的说明。

本发明所述的一种MEC辅助的车联网通信系统中智能资源管理方法，其特征包括以下步骤：

步骤4：使用马尔科夫决策过程刻画深度强化学习模型。

步骤1-1中，所述车辆用户的频带选择情况矩阵表达式：

其中

在步骤1-2中，所述车辆用户与基站的关联情况矩阵表达式：

其中

进一步的，步骤2中，车辆与基站的关联情况可以分为两种分别是车辆与宏基站关联以及车辆于路边单元相关联。第一种车辆与宏基站相关联的情况下车辆用户通过蜂窝网上传任务路边单元通过光纤上传任务给宏基站，宏基站将任务处理后通过蜂窝网发送给车辆用户，第二种车辆于路边单元相关联的情况下路边单元通过蜂窝网上传任务给车辆用户，车辆用户根据路边单元采集的数据与自身采集的数据利用自身的运算能力处理。根据各自的信道增益，确定车辆用户到宏基站的信号传输时间，宏基站到车辆用户的信号传输时间，路边单元到车辆用户的信号传输时间以及任务的运算处理时间，获得系统所有车辆用户的任务传输和处理时延优化问题。

其中f₀代表频谱子带的带宽大小，

其中SNR表示宏基站到车辆用户下行链路信道的信噪比。

对应的下行链路传输所耗费的时间为：

上行链路与下行链路传输所耗费的总时间为：

其中D_i为车辆用户产生的任务量大小，Q_k为路边单元产生的任务量大小，F为处理单位比特任务所需的CPU周期数，

其中f₀代表频谱子带的带宽大小，

为车辆用户的计算能力大小。

进一步的，步骤3中，通过调整系统通信频谱子带的分配，宏基站计算资源的分配策略以及处于不同时刻的车辆用户与基站的关联模式来最小化系统的平均时延，该优化问题可以表述为：

s.t C1:1≤|x_i|≤S,

C2:

C3:

C4:f_i ^co∈[0,1],

C5:

C6:

是采取动作a从状态S过渡到下一个状态S′的状态转移概率。

(1)训练回合数ep初始化为0；

(2)训练回合数ep中的时间步t初始化为0；

(4)将训练集(S,A,R,S′)存储到经验回放记忆库D中；

(6)根据当前Q网络参数定期的更新目标Q网络的参数ω′＝ω；

(8)判断是否满足ep<EP,EP为总的回合数，若满足则进入(2)，若不满足则训练结束，即得到优化之后的强化学习框架。

利用MARL算法训练的深度强化学习模型，输入车联网系统的状态S，深度强化学习模型根据状态学习训练得出最优动作A，可得到优化问题的最优解，并在深度神经网络动作中输出。

本发明提出了MEC辅助的车联网通信系统中智能资源管理方法，采用基于多智能体强化学习的资源分配算法，智能体使用一个共同的奖励从而使其为网络整体性能而演进，协调各个车辆调整其资源分配策略，使整体的性能最佳，与基于单智能体的强化学习算法和随机分配算法相比，本算法考虑了多个车辆之间的相互合作，提高了系统资源利用率，能够达到更低的时延要求。

Claims

1.一种MEC辅助的车联网通信系统中智能资源管理方法，其特征包括以下步骤：

步骤1：在所述系统中建立通信模型，对车辆用户与路边单元之间的信道，车辆用户与宏基站单元之间的信道进行建模，以系统的任务执行时延作为优化目标，求解最优的系统资源分配策略；

步骤2：根据各自的信道增益，确定车辆用户到宏基站的信号传输时间，宏基站到车辆用户的信号回传时间，路边单元到车辆用户的信号传输时间以及任务的运算处理时间，获得系统任务执行时延优化问题；

步骤3：根据用户频谱子带数量约束，宏基站计算资源大小约束，车辆用户与基站的关联情况约束，以最小化系统任务执行时延为目标，建立深度强化学习模型；

步骤4：使用马尔科夫决策过程刻画深度强化学习模型；

步骤5：利用MARL算法优化强化学习模型；根据优化后的强化学习模型求解优化问题。

2.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法，其特征在于，所述宏基站有计算能力能够协同车辆进行数据运算，路边单元没有计算能力只能将收集的数据发送给宏基站或车辆进行处理，所述车辆用户同一时刻只能选择与宏基站相关联或者与路边单元相关联。

3.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法，其特征在于，所述信道之间相互独立没有干扰，多个V2I链路可以占用相同的信道，实现信道复用。

4.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法，其特征在于，所述车辆用户根据信道环境的变化自主选择关联模式，以达到最小化任务执行时延的目标。

5.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法，其特征在于，所述的步骤2中车辆用户与宏基站相关联的关联模式下，即车辆用户将任务上传至宏基站处理，任务的传输时间和处理时间进行如下定义：

车辆用户与宏基站相关联的模式下，车辆用户上行链路信道传输速率为：

其中f₀代表频谱子带的带宽大小，

车辆用户与宏基站相关联的模式下，宏基站将处理后的任务发送给车辆的下行链路的传输速率为：

其中SNR表示宏基站到车辆用户下行链路信道的信噪比。

对应的下行链路传输所耗费的时间为：

上行链路与下行链路传输所耗费的总时间为：

宏基站计算处理任务所耗费的时间为：

为宏基站的计算能力大小，f_i ^co为分配给车辆用户的计算资源比例。

6.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法，其特征在于，所述的步骤2中车辆用户与路边单元相关联的关联模式下，即车辆用户将任务在本地处理，任务的传输时间和处理时间进行如下定义：

车辆用户与路边单元相关联模式下，由于路边单元没有任务计算能力，路边单元将收集到的数据传输给车辆用户进行处理，路边单元到车辆用户下行链路信道传输速率为：

其中f₀代表频谱子带的带宽大小，

车辆用户计算处理任务所耗费的时间为：

为车辆用户的计算能力大小。

系统的时间成本分为两部分分别是任务的传输时间与任务的处理运算时间，因此车辆用户所消耗的时间成本为：

7.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法，其特征在于，在所述步骤2中，通过调整系统频谱子带分配，宏基站计算资源分配以及车辆与基站的关联模式来最小化系统的平均时延，该优化问题可以表述为：

8.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法，其特征在于，所述步骤3中建立的深度强化学习框架马尔科夫决策过程为：

(1)状态空间S：状态由第t时间步的路边单元产生的任务量，车辆用户产生的任务量，频谱子带选择矩阵，宏基站的计算资源分配情况，车辆用户与基站的关联模式矩阵以及信道增益矩阵决定；并将训练的迭代次数与探索率加入到状态空间中；

(2)动作空间A：动作空间由频谱子带选择矩阵，车辆用户与基站的关联模式矩阵，以及宏基站的计算资源分配情况构成；

(3)即时奖励R：设置奖励函数为：

状态作用值函数Q_π(s^(t),a^(t))表示在给定策略π，状态s^(t)下采取动作a^(t)而获得的累计奖励期望；通过Q学习算法搜索最优策略π^*，在最优策略π^*下定义的Q值更新函数为：

是采取动作a从状态S过渡到下一个状态S′的状态转移概率。

9.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法，其特征在于，步骤5中所述的强化学习模型具体包括以下步骤：

(1)训练回合数ep初始化为0；

(2)训练回合数ep中的时间步t初始化为0；

(3)根据观测网络获得输入状态S，根据预测网络输出动作A并获取即时奖励R，同时转换到下一状态S′，获取训练集(S,A,R,S′)；

(4)将训练集(S,A,R,S′)存储到经验回放记忆库D中；

(6)根据当前Q网络参数定期的更新目标Q网络的参数ω′＝ω；