CN114826454A - 一种mec辅助的车联网通信系统中智能资源管理方法 - Google Patents

一种mec辅助的车联网通信系统中智能资源管理方法 Download PDF

Info

Publication number
CN114826454A
CN114826454A CN202210447583.7A CN202210447583A CN114826454A CN 114826454 A CN114826454 A CN 114826454A CN 202210447583 A CN202210447583 A CN 202210447583A CN 114826454 A CN114826454 A CN 114826454A
Authority
CN
China
Prior art keywords
base station
vehicle user
vehicle
task
macro base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210447583.7A
Other languages
English (en)
Other versions
CN114826454B (zh
Inventor
王保云
范军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210447583.7A priority Critical patent/CN114826454B/zh
Publication of CN114826454A publication Critical patent/CN114826454A/zh
Application granted granted Critical
Publication of CN114826454B publication Critical patent/CN114826454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • H04B17/3911Fading models or fading generators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Electromagnetism (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种MEC辅助的车联网通信系统中智能资源管理方法,采用正交频分复用将频谱资源转换成在不同子载波上相互独立的频谱子带,设计多个V2I链路的信道复用以及频谱子带分配策略从而最小化系统的时间成本。采用多智能体强化学习算法,首先结合系统的状态空间,动作空间以及奖励函数将问题建模为一个马尔科夫决策过程其次搭建多智能体强化学习算法路径框架,最后进行训练获得最优的系统资源分配策略,实现了对通信系统的资源管理,降低车联网系统的整体时延。与传统算法相比,该算法能够获得联合优化的解,同时可以适用于快速变化的信道环境,显著提升了车辆与基站之间的信息传输速率和系统资源利用率,降低了通信系统的任务执行时延。

Description

一种MEC辅助的车联网通信系统中智能资源管理方法
技术领域
本发明涉及一种基于MEC辅助的车联网通信系统中智能资源管理技术,属于通信技术领域。
背景技术
随着社会的发展与科技的进步,机动车保有量正在呈爆炸式增长。日益增长的汽车数量对交通、环境及人身健康等方面问题带来了巨大的挑战。一方面,人们对于行车安全、通行效率、驾驶体验等方面的要求越来越高;另一方面,管理者对于自动化交通管理、交通控制、拥塞疏导、环境保护等方面的需求越来越大。如何在车联网中解决上述问题成为了整个社会高度关注的研究内容。以边缘计算为主的云计算技术的发展,则为车联网实时性以及架构和资源管理等问题提供了更灵活有效的解决思路。如何利用边缘计算技术构建面向车联网应用与典型场景业务需求的架构,以及如何在架构中合理高效地管理车云资源,为车辆用户提供低时延高可靠的服务,是车联网相关研究的关键所在。
由于通信系统中有限的资源,与之对应的在交通系统中车辆用户的大量增加,针对未来的智能驾驶乃至无人驾驶场景中,车辆用户与路边单元以及边缘云之间的交互愈加频繁,高效的管理有限的系统资源从而最小化系统的时延显得尤为重要。
考虑到车辆的移动性,车辆用户与边缘云以及路边单元之间的信道状态是时刻变化的,因此利用普通的数学方法对问题进行求解并不能满足时刻变化的信道环境对系统整体性能的影响,可以将分布式的强化学习的方法引入车联网设计智能的系统资源管理方法高效的利用系统中的频谱资源与计算资源,将车辆用户与基站的关联模式,云计算中心计算资源的分配策略以及系统频谱子带分配联合优化进一步提升通信系统各方面的性能,因此,针对系统频谱资源和计算资源有限的情况下,研究系统资源的分配策略是很有必要的。
Sun W,
Figure BDA0003613851470000011
E G,
Figure BDA0003613851470000012
F等人在文献“Radio resource management forD2D-based V2V communication”中提出的SOLEN算法只能应用于缓慢变化的信道衰落,无法应用于车联网场景中快速变化的信道环境并且不具有自适应学习的能力。
发明内容
本发明的目的是针对MEC辅助的车联网多用户通信应用场景,为了能使无人驾驶能够得以实现,本发明提供了一种在城市道路中的车联网场景下一种高效的智能资源分配方法,OFDM可将频选信道转化成在不同子载波上的平坦信道。几个连续的子载波分到一个频谱子带中,并假定在一个子带内的衰落近似,不同子带间则独立将系统频带资源划分为若干个互不相干的频谱子带,通过频带的频谱分割以及任务卸载决策显著的提升系统的资源利用率,另外提供了一种基于深度强化学习MARL算法的联合优化方法。
本发明所述的一种MEC辅助的车联网通信系统中智能资源管理方法,包括以下步骤:
步骤1:在所述系统中建立通信模型,考虑到在多用户的车联网通信系统中可能存在多种干扰以及各个车辆用户都有较为敏感的低时延要求,通过对系统资源的合理分配,对车辆用户与路边单元之间的信道,车辆用户与宏基站单元之间的信道进行建模,以系统的平均时延作为优化目标,求解最优的系统资源分配策略。
步骤2:根据各自的信道增益,确定车辆用户到宏基站的信号传输时间,宏基站到车辆用户的信号传输时间,路边单元到车辆用户的信号传输时间以及任务的运算处理时间,获得系统任务执行时延优化问题。
步骤3:根据用户频谱子带数量约束,宏基站计算资源大小约束,车辆用户与基站的关联情况约束和车辆用户的传输时延,建立深度强化学习模型。
步骤4:使用马尔科夫决策过程刻画深度强化学习模型。
步骤5:利用MARL算法优化强化学习模型。根据优化后的强化学习模型求解优化问题。
进一步的,在步骤1中,车辆用户在任务周期内持续的产生计算任务,根据车辆用户与宏基站之间的信道增益以及车辆用户与路边单元之间的信道增益,智能的决策车辆用户与基站的关联方式,由于车辆用户在环境中是不断移动的引起车辆用户与宏基站之间信道增益以及车辆用户与路边单元之间信道增益的不断变化从而使得车辆用户与基站的关联情况也在不断变化。
步骤1-1中,所述车辆用户的频带选择情况矩阵表达式:
Figure BDA0003613851470000031
其中
Figure BDA0003613851470000032
为车辆用户i对s号频谱子带的使用情况,0代表未使用s号频谱子带,1代表使用。
在步骤1-2中,所述车辆用户与基站的关联情况矩阵表达式:
Figure BDA0003613851470000033
其中
Figure BDA0003613851470000034
为车辆用户i与k号基站的情况,0代表未关联k号基站,1代表关联。
进一步的,步骤2中,车辆与基站的关联情况可以分为两种分别是车辆与有计算能力的宏基站相关联或者车辆与路边单元相关联。第一种车辆与宏基站相关联的情况下车辆用户通过蜂窝网将任务上传给宏基站,路边单元通过光纤将任务上传给宏基站,宏基站收集来的任务综合处理处理后通过蜂窝网发送给车辆用户,第二种车辆与路边单元相关联的情况下路边单元通过蜂窝网将任务传输给车辆用户,车辆用户根据接收到的数据与自身采集的数据利用自身的运算能力处理。根据各自的信道增益,确定车辆用户到宏基站的信号传输时间,宏基站到车辆用户的信号传输时间,路边单元到车辆用户的信号传输时间以及任务的运算处理时间,获得系统所有车辆用户的任务传输和处理时延优化问题。
在步骤2-1-1中,车辆用户与宏基站相关联的模式下,车辆用户上行链路信道传输速率为:
Figure BDA0003613851470000041
其中f0代表频谱子带的带宽大小,
Figure BDA0003613851470000042
表示车辆用户到宏基站上行链路信道的信噪比,对应的上行链路的传输时间为:
Figure BDA0003613851470000043
在步骤2-1-2中,车辆用户与宏基站相关联的模式下,宏基站将处理后的任务发送给车辆的下行链路的传输速率为:
Figure BDA0003613851470000044
其中SNR表示宏基站到车辆用户下行链路信道的信噪比。
Figure BDA0003613851470000045
对应的下行链路传输所耗费的时间为:
Figure BDA0003613851470000046
上行链路与下行链路传输所耗费的总时间为:
Figure BDA0003613851470000047
在步骤2-2中,车辆用户与宏基站相关联的模式下,宏基站计算处理任务所耗费的时间为:
Figure BDA0003613851470000048
其中Di为车辆用户产生的任务量大小,Qk为路边单元产生的任务量大小,Fi为处理单位比特任务所需的CPU周期数,
Figure BDA0003613851470000049
为宏基站的总计算能力大小,fi co为分配给车辆用户的计算资源比例。
在步骤2-3中,车辆用户与路边单元相关联的模式下,路边单元到车辆用户下行链路信道传输速率为:
Figure BDA00036138514700000410
其中f0代表频谱子带的带宽大小,
Figure BDA0003613851470000051
表示路边单元到车辆用户下行链路信道的信噪比,对应的下行链路的传输时间为:
Figure BDA0003613851470000052
在步骤2-4中,车辆用户与路边单元相关联的模式下,车辆用户计算处理任务所耗费的时间为:
Figure BDA0003613851470000053
其中Di为车辆用户产生的任务量大小,Qk为路边单元产生的任务量大小,Fi为处理单位比特任务所需的CPU周期数,
Figure BDA0003613851470000054
为车辆用户的计算能力大小。
系统的时间成本分为两部分分别是任务的传输时间与任务的处理运算时间,因此车辆用户所消耗的时间成本可以表示为:
Figure BDA0003613851470000055
进一步的,步骤3中,通过调整系统频谱子带分配,宏基站计算资源分配以及车辆与基站的关联模式来最小化系统的平均时延,该优化问题可以表述为:
Figure BDA0003613851470000056
s.t C1:1≤|xi|≤S,
Figure BDA0003613851470000057
C2:
Figure BDA0003613851470000058
C3:
Figure BDA0003613851470000059
C4:fi co∈[0,1],
Figure BDA00036138514700000510
C5:
Figure BDA00036138514700000511
C6:
Figure BDA00036138514700000512
其中S代表频谱子带数目,fi co表示宏基站分配给车辆i的计算能力所占的比例,单位为Hz。
进一步的,步骤4中,利用MARL算法优化强化学习模型,建立深度强化学习的马尔科夫决策过程包括:
步骤4-1、状态空间S:状态由第t时间步的路边单元产生的任务量,车辆用户产生的任务量,频谱子带选择矩阵,宏基站的计算资源分配情况,车辆用户与基站的关联模式矩阵以及信道增益矩阵决定。在仿真过程中发现训练的迭代次数与探索率也能在一定程度上影响强化学习的过程,因此将训练的迭代次数与探索率也加入到状态空间中。
步骤4-2、动作空间A:动作空间由频谱子带选择矩阵,车辆用户与基站的关联模式矩阵,以及宏基站的计算资源分配情况构成。
步骤4-3、即时奖励R:为了防止agent相互竞争,我们对所有的agent使用一个系统级的奖励从而使其为网络的整体性能而演进,因此我们设置奖励函数为:
Figure BDA0003613851470000061
状态作用值函数Qπ(s(t),a(t))表示在给定策略π,状态s(t)下采取动作a(t)而获得的累计奖励期望。Q学习不依赖环境的先验知识,只需要不断的对Q(s(t),a(t))迭代到最优值Q*(s(t),a(t)),就能获得最优策略π*。通过Q学习算法可搜索最优策略π*,在最优策略π*下定义的Q值更新函数为:
Figure BDA0003613851470000062
其中χ∈(0,1]为折扣因子,r(t+1)(s(t)=s,a(t),π=π*)为在t时刻状态s(t),动作a(t)和最优策略π*下得到的即时奖励r(t+1),s′为系统在(t+1)时刻的状态,a′为车辆用户在(t+1)时刻的动作,
Figure BDA0003613851470000063
是采取动作a从状态S过渡到下一个状态S′的状态转移概率。
进一步的,步骤5中,利用MARL算法优化强化学习模型。根据优化后的强化学习模型求解优化问题,其步骤为:
(1)训练回合数ep初始化为0;
(2)训练回合数ep中的时间步t初始化为0;
(3)根据观测网络获得输入状态S,根据预测网络输出动作A并获取即时奖励R,同事转换到下一状态S′,获取训练集(S,A,R,S′);
(4)将训练集(S,A,R,S′)存储到经验回放记忆库D中;
(5)利用采样网络从经验回访池D中随机采样一小批W数量大小的样本构成数据集,发送给Q-learning训练网络负责训练;
(6)根据当前Q网络参数定期的更新目标Q网络的参数ω′=ω;
(7)判断是否满足t<T,T为ep回合中的总时间步,若满足则返回(3),若不满足则进入(8);
(8)判断是否满足ep<EP,EP为总的回合数,若满足则进入(2),若不满足则训练结束,得到优化之后的强化学习框架。
本发明所述的有益效果为:(1)本发明提出了一种MEC辅助的车联网通信系统中智能资源管理方法,基于多代理RL的车辆网络分布式资源共享方案,该方案利用有限的频谱子带资源,实现了车辆网络的资源共享。(2)针对多智能体RL问题,提出了一种基于指纹的独立Q学习方法,并将其与DQN和经验回放相结合。(3)该方法分为集中式训练阶段和分布式实现阶段。我们证明,通过这种机制,所提出的资源共享方案可以有效地鼓励各通信链路之间的合作,从而提高系统级性能,尽管决策是在每个V2V发送器上本地执行的。(4)与现有方法相比,以最小化系统的总体平均时延为目标,所提出的方法可以显著地提升系统的资源利用率,从而最小化系统的平均时延。
附图说明
图1为本发明的系统模型图;
图2位本发明的MARL算法智能体与环境交互框架图。
具体实施方式
为了使本发明的内容更容易被清楚地理解,下面根据具体实施实例并结合附图,对本发明作进一步详细的说明。
本发明的目的是针对MEC辅助的车联网多用户通信应用场景,为了能使无人驾驶能够得以实现,本发明提供了一种在城市道路中的车联网场景下一种高效的智能资源分配方法,OFDM可将频选信道转化成在不同子载波上的平坦信道。几个连续的子载波分到一个频谱子带中,并假定在一个子带内的衰落近似,不同子带间则独立将系统频带资源划分为若干个互不相干的频谱子带,通过频带的频谱分割以及任务卸载决策显著的提升系统的资源利用率,另外提供了一种基于深度强化学习MARL算法的联合优化方法。
本发明所述的一种MEC辅助的车联网通信系统中智能资源管理方法,其特征包括以下步骤:
步骤1:在所述系统中建立通信模型,考虑到在多用户的车联网通信系统中可能存在多种干扰以及各个车辆用户都有较为敏感的低时延要求,通过对系统资源的合理分配,对车辆用户与路边单元之间的信道,车辆用户与宏基站单元之间的信道进行建模,以系统的平均时延作为优化目标,求解最优的系统资源分配策略。
步骤2:根据各自的信道增益,确定车辆用户到宏基站的信号传输时间,宏基站到车辆用户的信号传输时间,路边单元到车辆用户的信号传输时间以及任务的运算处理时间,获得系统任务执行时延优化问题。
步骤3:根据用户频谱子带数量约束,宏基站计算资源大小约束,车辆用户与基站的关联情况约束和车辆用户的传输时延,建立深度强化学习模型。
步骤4:使用马尔科夫决策过程刻画深度强化学习模型。
步骤5:利用MARL算法优化强化学习模型。根据优化后的强化学习模型求解优化问题。
进一步的,在步骤1中,车辆用户在任务周期内持续的产生计算任务,根据车辆用户与宏基站之间的信道增益以及车辆用户与路边单元之间的信道增益,智能的决策车辆用户与基站的关联方式,由于车辆用户在环境中是不断移动的引起车辆用户与宏基站之间信道增益以及车辆用户与路边单元之间信道增益的不断变化从而使得车辆用户与基站的关联情况也在不断变化。
步骤1-1中,所述车辆用户的频带选择情况矩阵表达式:
Figure BDA0003613851470000081
其中
Figure BDA0003613851470000091
为车辆用户i对s号频谱子带的使用情况,0代表未使用s号频谱子带,1代表使用。
在步骤1-2中,所述车辆用户与基站的关联情况矩阵表达式:
Figure BDA0003613851470000092
其中
Figure BDA0003613851470000093
为车辆用户i与k号基站的情况,0代表未关联k号基站,1代表关联。
进一步的,步骤2中,车辆与基站的关联情况可以分为两种分别是车辆与宏基站关联以及车辆于路边单元相关联。第一种车辆与宏基站相关联的情况下车辆用户通过蜂窝网上传任务路边单元通过光纤上传任务给宏基站,宏基站将任务处理后通过蜂窝网发送给车辆用户,第二种车辆于路边单元相关联的情况下路边单元通过蜂窝网上传任务给车辆用户,车辆用户根据路边单元采集的数据与自身采集的数据利用自身的运算能力处理。根据各自的信道增益,确定车辆用户到宏基站的信号传输时间,宏基站到车辆用户的信号传输时间,路边单元到车辆用户的信号传输时间以及任务的运算处理时间,获得系统所有车辆用户的任务传输和处理时延优化问题。
在步骤2-1-1中,车辆用户与宏基站相关联的模式下,车辆用户上行链路信道传输速率为:
Figure BDA0003613851470000094
其中f0代表频谱子带的带宽大小,
Figure BDA0003613851470000095
表示车辆用户到宏基站上行链路信道的信噪比,对应的上行链路的传输时间为:
Figure BDA0003613851470000096
在步骤2-1-2中,车辆用户与宏基站相关联的模式下,宏基站将处理后的任务发送给车辆的下行链路的传输速率为:
Figure BDA0003613851470000101
其中SNR表示宏基站到车辆用户下行链路信道的信噪比。
Figure BDA0003613851470000102
对应的下行链路传输所耗费的时间为:
Figure BDA0003613851470000103
上行链路与下行链路传输所耗费的总时间为:
Figure BDA0003613851470000104
在步骤2-2中,车辆用户与宏基站相关联的模式下,宏基站计算处理任务所耗费的时间为:
Figure BDA0003613851470000105
其中Di为车辆用户产生的任务量大小,Qk为路边单元产生的任务量大小,F为处理单位比特任务所需的CPU周期数,
Figure BDA0003613851470000106
为宏基站的总计算能力大小,fi co为分配给车辆用户的计算资源比例。
在步骤2-3中,车辆用户与路边单元相关联的模式下,路边单元到车辆用户下行链路信道传输速率为:
Figure BDA0003613851470000107
其中f0代表频谱子带的带宽大小,
Figure BDA0003613851470000108
表示路边单元到车辆用户下行链路信道的信噪比,对应的下行链路的传输时间为:
Figure BDA0003613851470000109
在步骤2-4中,车辆用户与路边单元相关联的模式下,车辆用户计算处理任务所耗费的时间为:
Figure BDA0003613851470000111
其中Di为车辆用户产生的任务量大小,Qk为路边单元产生的任务量大小,Fi为处理单位比特任务所需的CPU周期数,
Figure BDA0003613851470000112
为车辆用户的计算能力大小。
系统的时间成本分为两部分分别是任务的传输时间与任务的处理运算时间,因此车辆用户所消耗的时间成本可以表示为:
Figure BDA0003613851470000113
进一步的,步骤3中,通过调整系统通信频谱子带的分配,宏基站计算资源的分配策略以及处于不同时刻的车辆用户与基站的关联模式来最小化系统的平均时延,该优化问题可以表述为:
Figure BDA0003613851470000114
s.t C1:1≤|xi|≤S,
Figure BDA0003613851470000115
C2:
Figure BDA0003613851470000116
C3:
Figure BDA0003613851470000117
C4:fi co∈[0,1],
Figure BDA0003613851470000118
C5:
Figure BDA0003613851470000119
C6:
Figure BDA00036138514700001110
其中S代表频谱子带数目,fi co表示宏基站分配给车辆i的计算能力所占的比例,单位为Hz。
进一步的,步骤4中,利用MARL算法优化强化学习模型,建立深度强化学习的马尔科夫决策过程包括:
步骤4-1、状态空间S:状态由第t时间步的路边单元产生的任务量,车辆用户产生的任务量,频谱子带选择矩阵,宏基站的计算资源分配情况,车辆用户与基站的关联模式矩阵以及信道增益矩阵决定。在仿真过程中发现训练的迭代次数与探索率也能在一定程度上影响强化学习的过程,因此将训练的迭代次数与探索率也加入到状态空间中。
步骤4-2、动作空间A:动作空间由频谱子带选择矩阵,车辆用户与基站的关联模式矩阵,以及宏基站的计算资源分配情况构成。
步骤4-3、即时奖励R:为了防止agent相互竞争,我们对所有的agent使用一个系统级的奖励从而使其为网络的整体性能而演进,因此我们设置奖励函数为:
Figure BDA0003613851470000121
状态作用值函数Qπ(s(t),a(t))表示在给定策略π,状态s(t)下采取动作a(t)而获得的累计奖励期望。Q学习不依赖环境的先验知识,只需要不断的对Q(s(t),a(t))迭代到最优值Q*(s(t),a(t)),就能获得最优策略π*。通过Q学习算法可搜索最优策略π*,在最优策略π*下定义的Q值更新函数为:
Figure BDA0003613851470000122
其中χ∈(0,1]为折扣因子,r(t+1)(s(t)=s,a(t),π=π*)为在t时刻状态s(t),动作a(t)和最优策略π*下得到的即时奖励r(t+1),s′为系统在(t+1)时刻的状态,a′为车辆用户在(t+1)时刻的动作,
Figure BDA0003613851470000123
是采取动作a从状态S过渡到下一个状态S′的状态转移概率。
进一步的,步骤5中,利用MARL算法优化强化学习模型。根据优化后的强化学习模型求解优化问题,其步骤为:
(1)训练回合数ep初始化为0;
(2)训练回合数ep中的时间步t初始化为0;
(3)根据观测网络获得输入状态S,根据预测网络输出动作A并获取即时奖励R,同事转换到下一状态S′,获取训练集(S,A,R,S′);
(4)将训练集(S,A,R,S′)存储到经验回放记忆库D中;
(5)利用采样网络从经验回访池D中随机采样一小批W数量大小的样本构成数据集,发送给Q-learning训练网络负责训练;
(6)根据当前Q网络参数定期的更新目标Q网络的参数ω′=ω;
(7)判断是否满足t<T,T为ep回合中的总时间步,若满足则返回(3),若不满足则进入(8);
(8)判断是否满足ep<EP,EP为总的回合数,若满足则进入(2),若不满足则训练结束,即得到优化之后的强化学习框架。
利用MARL算法训练的深度强化学习模型,输入车联网系统的状态S,深度强化学习模型根据状态学习训练得出最优动作A,可得到优化问题的最优解,并在深度神经网络动作中输出。
本发明提出了MEC辅助的车联网通信系统中智能资源管理方法,采用基于多智能体强化学习的资源分配算法,智能体使用一个共同的奖励从而使其为网络整体性能而演进,协调各个车辆调整其资源分配策略,使整体的性能最佳,与基于单智能体的强化学习算法和随机分配算法相比,本算法考虑了多个车辆之间的相互合作,提高了系统资源利用率,能够达到更低的时延要求。

Claims (9)

1.一种MEC辅助的车联网通信系统中智能资源管理方法,其特征包括以下步骤:
步骤1:在所述系统中建立通信模型,对车辆用户与路边单元之间的信道,车辆用户与宏基站单元之间的信道进行建模,以系统的任务执行时延作为优化目标,求解最优的系统资源分配策略;
步骤2:根据各自的信道增益,确定车辆用户到宏基站的信号传输时间,宏基站到车辆用户的信号回传时间,路边单元到车辆用户的信号传输时间以及任务的运算处理时间,获得系统任务执行时延优化问题;
步骤3:根据用户频谱子带数量约束,宏基站计算资源大小约束,车辆用户与基站的关联情况约束,以最小化系统任务执行时延为目标,建立深度强化学习模型;
步骤4:使用马尔科夫决策过程刻画深度强化学习模型;
步骤5:利用MARL算法优化强化学习模型;根据优化后的强化学习模型求解优化问题。
2.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法,其特征在于,所述宏基站有计算能力能够协同车辆进行数据运算,路边单元没有计算能力只能将收集的数据发送给宏基站或车辆进行处理,所述车辆用户同一时刻只能选择与宏基站相关联或者与路边单元相关联。
3.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法,其特征在于,所述信道之间相互独立没有干扰,多个V2I链路可以占用相同的信道,实现信道复用。
4.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法,其特征在于,所述车辆用户根据信道环境的变化自主选择关联模式,以达到最小化任务执行时延的目标。
5.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法,其特征在于,所述的步骤2中车辆用户与宏基站相关联的关联模式下,即车辆用户将任务上传至宏基站处理,任务的传输时间和处理时间进行如下定义:
车辆用户与宏基站相关联的模式下,车辆用户上行链路信道传输速率为:
Figure FDA0003613851460000011
其中f0代表频谱子带的带宽大小,
Figure FDA0003613851460000021
表示车辆用户到宏基站上行链路信道的信噪比,对应的上行链路的传输时间为:
Figure FDA0003613851460000022
车辆用户与宏基站相关联的模式下,宏基站将处理后的任务发送给车辆的下行链路的传输速率为:
Figure FDA0003613851460000023
其中SNR表示宏基站到车辆用户下行链路信道的信噪比。
Figure FDA0003613851460000024
对应的下行链路传输所耗费的时间为:
Figure FDA0003613851460000025
上行链路与下行链路传输所耗费的总时间为:
Figure FDA0003613851460000026
宏基站计算处理任务所耗费的时间为:
Figure FDA0003613851460000027
其中Di为车辆用户产生的任务量大小,Qk为路边单元产生的任务量大小,Fi为处理单位比特任务所需的CPU周期数,
Figure FDA0003613851460000028
为宏基站的计算能力大小,fi co为分配给车辆用户的计算资源比例。
6.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法,其特征在于,所述的步骤2中车辆用户与路边单元相关联的关联模式下,即车辆用户将任务在本地处理,任务的传输时间和处理时间进行如下定义:
车辆用户与路边单元相关联模式下,由于路边单元没有任务计算能力,路边单元将收集到的数据传输给车辆用户进行处理,路边单元到车辆用户下行链路信道传输速率为:
Figure FDA0003613851460000029
其中f0代表频谱子带的带宽大小,
Figure FDA0003613851460000031
表示路边单元到车辆用户下行链路信道的信噪比,对应的下行链路的传输时间为:
Figure FDA0003613851460000032
车辆用户计算处理任务所耗费的时间为:
Figure FDA0003613851460000033
其中Di为车辆用户产生的任务量大小,Qk为路边单元产生的任务量大小,Fi为处理单位比特任务所需的CPU周期数,
Figure FDA0003613851460000034
为车辆用户的计算能力大小。
系统的时间成本分为两部分分别是任务的传输时间与任务的处理运算时间,因此车辆用户所消耗的时间成本为:
Figure FDA0003613851460000035
7.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法,其特征在于,在所述步骤2中,通过调整系统频谱子带分配,宏基站计算资源分配以及车辆与基站的关联模式来最小化系统的平均时延,该优化问题可以表述为:
Figure FDA0003613851460000036
Figure FDA0003613851460000037
Figure FDA0003613851460000038
Figure FDA0003613851460000039
Figure FDA00036138514600000310
Figure FDA00036138514600000311
Figure FDA00036138514600000312
其中S代表频谱子带数目,fi co表示宏基站分配给车辆i的计算能力所占的比例,单位为Hz。
8.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法,其特征在于,所述步骤3中建立的深度强化学习框架马尔科夫决策过程为:
(1)状态空间S:状态由第t时间步的路边单元产生的任务量,车辆用户产生的任务量,频谱子带选择矩阵,宏基站的计算资源分配情况,车辆用户与基站的关联模式矩阵以及信道增益矩阵决定;并将训练的迭代次数与探索率加入到状态空间中;
(2)动作空间A:动作空间由频谱子带选择矩阵,车辆用户与基站的关联模式矩阵,以及宏基站的计算资源分配情况构成;
(3)即时奖励R:设置奖励函数为:
Figure FDA0003613851460000041
状态作用值函数Qπ(s(t),a(t))表示在给定策略π,状态s(t)下采取动作a(t)而获得的累计奖励期望;通过Q学习算法搜索最优策略π*,在最优策略π*下定义的Q值更新函数为:
Figure FDA0003613851460000042
其中χ∈(0,1]为折扣因子,r(t+1)(s(t)=s,a(t),π=π*)为在t时刻状态s(t),动作a(t)和最优策略π*下得到的即时奖励r(t+1),s′为系统在(t+1)时刻的状态,a′为车辆用户在(t+1)时刻的动作,
Figure FDA0003613851460000043
是采取动作a从状态S过渡到下一个状态S′的状态转移概率。
9.根据权利要求1所述的MEC辅助的车联网通信系统中智能资源管理方法,其特征在于,步骤5中所述的强化学习模型具体包括以下步骤:
(1)训练回合数ep初始化为0;
(2)训练回合数ep中的时间步t初始化为0;
(3)根据观测网络获得输入状态S,根据预测网络输出动作A并获取即时奖励R,同时转换到下一状态S′,获取训练集(S,A,R,S′);
(4)将训练集(S,A,R,S′)存储到经验回放记忆库D中;
(5)利用采样网络从经验回访池D中随机采样一小批W数量大小的样本构成数据集,发送给Q-learning训练网络负责训练;
(6)根据当前Q网络参数定期的更新目标Q网络的参数ω′=ω;
(7)判断是否满足t<T,T为ep回合中的总时间步,若满足则返回(3),若不满足则进入(8);
(8)判断是否满足ep<EP,EP为总的回合数,若满足则进入(2),若不满足则训练结束,得到优化之后的强化学习框架。
CN202210447583.7A 2022-04-25 2022-04-25 一种mec辅助的车联网通信系统中智能资源管理方法 Active CN114826454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210447583.7A CN114826454B (zh) 2022-04-25 2022-04-25 一种mec辅助的车联网通信系统中智能资源管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210447583.7A CN114826454B (zh) 2022-04-25 2022-04-25 一种mec辅助的车联网通信系统中智能资源管理方法

Publications (2)

Publication Number Publication Date
CN114826454A true CN114826454A (zh) 2022-07-29
CN114826454B CN114826454B (zh) 2023-10-13

Family

ID=82508416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210447583.7A Active CN114826454B (zh) 2022-04-25 2022-04-25 一种mec辅助的车联网通信系统中智能资源管理方法

Country Status (1)

Country Link
CN (1) CN114826454B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665867A (zh) * 2022-09-28 2023-01-31 广东省新一代通信与网络创新研究院 一种车联网的频谱管理方法及系统
CN116193405A (zh) * 2023-03-03 2023-05-30 中南大学 基于dona框架的异构v2x网络数据传输方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180046961A1 (en) * 2016-08-09 2018-02-15 Conduent Business Services, Llc Method and system for dispatching of vehicles in a public transportation network
CN113296845A (zh) * 2021-06-03 2021-08-24 南京邮电大学 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法
CN113613207A (zh) * 2020-06-12 2021-11-05 南京理工大学 一种基于多智能体强化学习的车联网频谱共享方法
US20210406065A1 (en) * 2020-06-25 2021-12-30 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for improving scheduling of task offloading within a vehicle

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180046961A1 (en) * 2016-08-09 2018-02-15 Conduent Business Services, Llc Method and system for dispatching of vehicles in a public transportation network
CN113613207A (zh) * 2020-06-12 2021-11-05 南京理工大学 一种基于多智能体强化学习的车联网频谱共享方法
US20210406065A1 (en) * 2020-06-25 2021-12-30 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for improving scheduling of task offloading within a vehicle
CN113296845A (zh) * 2021-06-03 2021-08-24 南京邮电大学 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665867A (zh) * 2022-09-28 2023-01-31 广东省新一代通信与网络创新研究院 一种车联网的频谱管理方法及系统
CN115665867B (zh) * 2022-09-28 2023-09-01 广东省新一代通信与网络创新研究院 一种车联网的频谱管理方法及系统
CN116193405A (zh) * 2023-03-03 2023-05-30 中南大学 基于dona框架的异构v2x网络数据传输方法
CN116193405B (zh) * 2023-03-03 2023-10-27 中南大学 基于dona框架的异构v2x网络数据传输方法

Also Published As

Publication number Publication date
CN114826454B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
Liu et al. Deep reinforcement learning based dynamic channel allocation algorithm in multibeam satellite systems
Liu et al. Deep reinforcement learning for offloading and resource allocation in vehicle edge computing and networks
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN109639377B (zh) 基于深度强化学习的频谱资源管理方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN114826454B (zh) 一种mec辅助的车联网通信系统中智能资源管理方法
CN109474980A (zh) 一种基于深度增强学习的无线网络资源分配方法
CN114143346A (zh) 一种车联网任务卸载和服务缓存的联合优化方法及系统
CN114885426B (zh) 一种基于联邦学习和深度q网络的5g车联网资源分配方法
CN113573363B (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN116456493A (zh) 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
CN115278708B (zh) 一种面向联邦学习的移动边缘计算资源管理方法
Yaqub et al. Multi-objective resource optimization for hierarchical mobile edge computing
CN116390125A (zh) 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法
CN115866787A (zh) 融合终端直传通信和多接入边缘计算的网络资源分配方法
CN114615744A (zh) 一种知识迁移强化学习网络切片通感算资源协同优化方法
Chen et al. iPAS: A deep Monte Carlo Tree Search-based intelligent pilot-power allocation scheme for massive MIMO system
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN113038583A (zh) 适用于超密集网络的小区间下行链路干扰控制方法、装置和系统
Ren et al. Joint spectrum allocation and power control in vehicular communications based on dueling double DQN
CN115914230A (zh) 一种自适应移动边缘计算卸载和资源分配方法
CN115915454A (zh) Swipt辅助的下行资源分配方法及装置
CN112953666A (zh) 认知无线网络中基于信道质量的频谱预测切换方法
Wang et al. Latency optimization of task offloading in NOMA‐MEC systems
Mary et al. Reinforcement learning for physical layer communications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant