CN112995950A - 一种车联网中基于深度强化学习的资源联合分配方法 - Google Patents

一种车联网中基于深度强化学习的资源联合分配方法 Download PDF

Info

Publication number
CN112995950A
CN112995950A CN202110174006.0A CN202110174006A CN112995950A CN 112995950 A CN112995950 A CN 112995950A CN 202110174006 A CN202110174006 A CN 202110174006A CN 112995950 A CN112995950 A CN 112995950A
Authority
CN
China
Prior art keywords
vehicle node
base station
vehicle
video
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110174006.0A
Other languages
English (en)
Other versions
CN112995950B (zh
Inventor
胡斌杰
黄铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110174006.0A priority Critical patent/CN112995950B/zh
Publication of CN112995950A publication Critical patent/CN112995950A/zh
Application granted granted Critical
Publication of CN112995950B publication Critical patent/CN112995950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/562Brokering proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种车联网中基于深度强化学习的资源联合分配方法,步骤包括:S1、构建包括车对基础设施通信和基础设施对数据中心通信的车联网通信场景;S2、基站收集通信小区基础设施能够分配给车辆节点的资源状态信息,作为深度强化学习网络DQN的输入状态;S3、车辆节点与基础设施的连接状态作为输出动作;S4、以最大化通信小区内车辆节点请求任务的总吞吐量为目标,建立最优化模型;S5、设计DQN奖励函数和网络结构,训练DQN;S6、根据车辆节点的输入状态,DQN输出Q值最大的动作作为车辆节点的通信、计算和缓存资源分配策略。本发明以更小的复杂度对车辆网中通信、计算和缓存资源联合分配问题进行求解。

Description

一种车联网中基于深度强化学习的资源联合分配方法
技术领域
本发明涉及车联网资源分配技术领域,具体涉及一种车联网中基于深度强化学习的资源联合分配方法。
背景技术
随着车联网技术的不断迭代更新,通信、计算和缓存等领域技术也不断得到改善。根据给定的车联网场景需求,如何有效地结合通信、计算和缓存技术获得问题的最优解,已经成为了学术界的研究热点。
在网络通信方面,SDN(Software-defined Networking,软件定义网络)将控制平面和数据平面分离,可通过集中式软件定义控制器对网络进行编程。NFV(NetworkFunction Virtualization,网络功能虚拟化)将网络资源虚拟化和隔离,使得网络资源能被多个用户灵活调度和共享。SDN和NFV技术的运用能极大提高车联网管理的效率和灵活性。
在计算方面,云计算、雾计算和边缘计算的发展对车联网具有深远的影响。然而,云端仍距车辆终端设备较远,难以满足低时延应用的需求。MEC(Mobile Edge Computing,移动边缘计算)将算力资源直接部署到车辆终端附近,这能够明显提高计算型和时延敏感型任务的服务质量。
在缓存方面,网络缓存作为ICN(Information-centric Networking,信息中心化网络)的关键技术之一,它能有效减少网络中重复内容的传输。研究表明,通过将内容(如视频、歌曲等)缓存于网络边缘节点(如基站、路侧单元等),能够大大减少流量负载、访问延迟和网络成本。
在现有技术中,车联网通信、计算和缓存技术往往是被分离开来研究的,主要原因是三者联合研究的复杂度极高,难以用数学方法推理出低复杂度的最优解方案。而对于一些场景(如车辆请求视频等),通信、计算和缓存技术的联合能够极大地增强车联网的性能。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种车联网中基于深度强化学习的资源联合分配方法。在本发明中采用DQN(Deep Q Network,深度Q值网络)算法,考虑了通信、计算和缓存资源的联合分配,通过DQN来拟合Q表,从而对车辆请求视频内容的连接请求做决策。本发明在降低算法复杂度的同时,也以最大化通信小区内车辆节点请求任务的总吞吐量为目标,做出了最优化决策。
本发明的目的可以通过采取如下技术方案达到:
一种车联网中基于深度强化学习的资源联合分配方法,所述的资源联合分配方法包括以下步骤:
S1、构建一个包括车对基础设施通信和基础设施对数据中心通信的车联网通信场景,该车联网通信场景中每个基站均配置一个边缘计算服务器和缓存服务器,每个基站配置有限的频谱资源,该车联网通信场景中利用NFV和SDN技术对物理资源进行虚拟化,并根据车辆节点的时空分布为边缘计算服务器和缓存服务器配置有限的物理资源,最终由SDN集中控制物理资源的联合分配,其中,所述物理资源包括计算资源和缓存资源,SDN表示软件定义网络,NFV表示网络功能虚拟化,车联网通信场景中基于ICN技术进行内容的存储和检索,车辆具备V2I通信能力,其中,ICN表示信息中心化网络,V2I表示车辆到基础设施;
S2、针对每一车辆节点,基站收集通信小区内基础设施能够分配给车辆节点的通信、计算和缓存资源信息,包括基站到车辆的下行速率、基站频谱资源的占用率、边缘计算服务器分配给车辆的算力、边缘计算服务器算力资源的占用率、车辆节点请求的视频内容大小和视频内容编号,作为深度强化学习网络的输入状态,其中,深度强化学习网络简称为DQN;
S3、获取车辆节点与基础设施的连接状态,包括车辆节点与基站的连接、车辆节点与边缘计算服务器的连接,作为DQN的输出动作,其中,车辆节点与缓存服务器的连接通过规则控制;
S4、以最大化通信小区内车辆节点请求任务的总吞吐量为目标,结合约束条件,建立最优化问题模型;
S5、根据最优化问题模型,设计DQN奖励函数和DQN神经网络结构;
S6、通过步骤S5中设计得到的DQN神经网络提取输入状态的特征,拟合Q表的状态动作函数,得到各种输入状态下输出动作的Q值,并结合奖励函数训练和更新神经网络;
S7、利用训练好的DQN,根据车辆节点的输入状态,输出相应的动作Q值序列,将Q值最大的动作作为车辆节点的通信、计算和缓存资源分配策略。
进一步地,所述的步骤S1过程如下:
S1.1、建立车辆节点与基站的通信模型,其中无线信道服从有限状态马尔可夫过程,具体如下:
车辆节点集合为
Figure BDA0002939910150000031
基站集合为
Figure BDA0002939910150000032
车辆节点u接收到基站k信噪比为γu,k,将信噪比离散为集合
Figure BDA0002939910150000033
Figure BDA0002939910150000034
车辆节点u在时隙t接收到基站k的信噪比的状态转移概率矩阵为
Figure BDA0002939910150000035
表达式为:
Figure BDA0002939910150000036
上式中,Di表示当前时隙信噪比,Dj表示下一时隙信噪比,
Figure BDA0002939910150000037
表示信噪比由Di转变为Dj的状态转移概率;
车辆节点u与基站k的下行速率为
Figure BDA0002939910150000038
根据香农公式可得:
Figure BDA0002939910150000041
上式中,bu,k表示基站k分配给车辆节点u的带宽,γu,k表示基站k到车辆节点u的信噪比;
基站k的下行速率上限为Gk,满足以下条件:
Figure BDA0002939910150000042
上式中,
Figure BDA0002939910150000043
表示在时隙t车辆节点u与基站k的连接状态,取值为1或者0,当取值为1表示建立连接,当取值为0表示未建立连接;
在时隙t基站k的下行速率使用占比为
Figure BDA0002939910150000044
表达式为:
Figure BDA0002939910150000045
车辆节点u请求格式为w的视频内容v,其大小为
Figure BDA0002939910150000046
则车辆节点u向基站k请求视频(v,w)的下行传输时延为:
Figure BDA0002939910150000047
如果车辆节点u请求的视频(v,w)不存在于本地通信小区的缓存服务器,并且也不能通过边缘计算服务器进行格式转换得到,那么基站k将通过数据中心请求视频(v,w),则数据中心到基站k的下行时延为
Figure BDA0002939910150000048
表达式为:
Figure BDA0002939910150000049
上式中,
Figure BDA00029399101500000410
为数据中心到基站k的下行传输速率;
车辆节点u与基站k的连接需要满足以下条件:
Figure BDA00029399101500000411
上式中,ρu,k为车辆节点u驶出基站k通信范围需走的距离,ωu为车辆节点u的行驶速率,λ为常量;
S1.2、建立视频任务卸载到边缘计算服务器的计算模型,其中边缘计算服务器的算力分配服从有限状态马尔可夫过程,具体如下:
边缘计算服务器集合为
Figure BDA0002939910150000051
边缘计算服务器m分配给车辆节点u的算力为fu,m,将算力值离散为集合
Figure BDA0002939910150000052
边缘计算服务器m在时隙t分配给车辆节点u的算力的状态转移概率矩阵为
Figure BDA0002939910150000053
表达式为:
Figure BDA0002939910150000054
上式中,Ei表示当前时隙算力,Ej表示下一时隙算力,
Figure BDA0002939910150000055
表示算力由Ei转变为Ej的状态转移概率;
根据车辆节点的时空分布,利用SDN技术为边缘计算服务器配置有限的计算资源,边缘计算服务器m的计算资源上限为Fm,满足以下条件:
Figure BDA0002939910150000056
上式中,
Figure BDA0002939910150000057
表示在时隙t车辆节点u与边缘计算服务器m的连接状态,取值为1或者0,当取值为1表示建立连接,当取值为0表示未建立连接;
边缘计算服务器m的算力使用占比为
Figure BDA0002939910150000058
表达式为:
Figure BDA0002939910150000059
Figure BDA00029399101500000510
表示车辆节点u请求的视频(v,w)是否需要在边缘计算服务器m进行格式转换,取值为1或者0,当
Figure BDA00029399101500000511
时,表示需要进行格式转换,当
Figure BDA00029399101500000512
时,表示不需要进行格式转换;
车辆节点u请求的视频任务
Figure BDA0002939910150000061
卸载到边缘计算服务器m的计算时延为
Figure BDA0002939910150000062
表达式为:
Figure BDA0002939910150000063
上式中,β为常数,表示计算每Mb所需的CPU周期数;
S1.3、建立视频任务存储到缓存服务器的缓存模型,具体如下:
基于ICN技术存储和检索视频内容,缓存服务器集合为
Figure BDA0002939910150000064
{1,…,c,…,C},缓存服务器c中的视频内容集合为Vc={v1,v2,…,vQ},缓存服务器c中的视频格式集合为Wc={w1,w2,…,wQ},Q表示缓存服务器中缓存的视频数量;
缓存服务器c中的视频列表根据视频请求受欢迎程度每隔时间Tc更新一次,根据车辆节点的时空分布,利用SDN技术为缓存服务器配置有限的缓存资源,缓存服务器c的缓存资源上限为Hc,满足以下条件:
Figure BDA0002939910150000065
Figure BDA0002939910150000066
表示在时隙t车辆节点u与缓存服务器c的连接状态,取值为1或者0,当取值为1表示建立连接,当取值为0表示未建立连接;
Figure BDA0002939910150000067
表示车辆节点u请求的视频(v,w)是否缓存于缓存服务器c,取值为1或者0,当
Figure BDA0002939910150000068
时,表示车辆节点u请求的视频(v,w)缓存于缓存服务器c,当
Figure BDA0002939910150000069
时,表示车辆节点u请求的视频(v,w)没有缓存于缓存服务器c。
进一步地,所述的步骤S2过程如下:
利用步骤S1中定义的资源状态信息,构建DQN的输入状态Su(t),表示车辆节点u在时隙t的信息状态,表示方式如下:
Figure BDA0002939910150000071
其中,
Figure BDA0002939910150000072
表示基站k在时隙t能分配给车辆节点u的下行速率,
Figure BDA0002939910150000073
表示基站k在时隙t的下行速率使用占比,fu,m(t)表示边缘计算服务器m在时隙t能分配给车辆节点u的算力,
Figure BDA0002939910150000074
表示边缘计算服务器m在时隙t的算力使用占比,
Figure BDA0002939910150000075
表示缓存服务器在时隙t是否缓存有车辆节点u请求的视频(v,w),
Figure BDA0002939910150000076
表示车辆节点u在时隙t请求的视频大小,vu(t)表示车辆节点u在时隙t请求的视频内容编号。
进一步地,所述的步骤S3过程如下:
S3.1、通过DQN预测车辆节点与基站和边缘计算服务器的连接行为:
车辆节点与基站和边缘计算服务器的在时隙t的连接状态作为DQN的输出动作au(t),表达方式如下:
Figure BDA0002939910150000077
其中,
Figure BDA0002939910150000078
表示车辆节点u在时隙t与通信小区所有基站的连接行为向量,
Figure BDA0002939910150000079
表示车辆节点u在时隙t与通信小区所有边缘计算服务器的连接行为向量;
S3.2、通过规则决定车辆节点与缓存服务器的连接行为:
缓存有视频(v,w)的缓存集合为J(v,w)={c|v∈Vc,w∈Wc,c∈C},缓存有视频内容(v)的缓存集合为J(v)={c|v∈Vc,c∈C},则车辆节点选择连接到某一个缓存服务器的规则如下:
Figure BDA0002939910150000081
上式中,min()表示取集合的最小值,
Figure BDA0002939910150000082
表示空集,k表示车辆节点接入的基站编号,此时车辆节点u与选中的缓存服务器c的值
Figure BDA0002939910150000083
进一步地,所述的步骤S4过程如下:
车辆节点u在时隙t请求视频(v,w)的时延为
Figure BDA0002939910150000084
表达式如下:
Figure BDA0002939910150000085
上式中,等号右侧第一项表示车辆节点u请求的视频(v,w)存在于缓存服务器c中,视频直接通过基站回传的时延;第二项表示车辆节点u请求的视频(v,w)需要先经过边缘计算服务器进行转码,然后再通过基站回传的时延;第三项表示车辆节点u请求的视频内容不存在于缓存服务器中,则基站向数据中心请求相应视频,然后再通过基站回传的时延;
车辆节点u在时隙t请求视频(v,w)的吞吐率为
Figure BDA0002939910150000086
表达式如下:
Figure BDA0002939910150000087
车辆节点u在时间T内请求的视频内容集合为
Figure BDA0002939910150000088
车辆节点u在时间T内请求的视频格式集合为
Figure BDA0002939910150000089
P表示请求的视频数量,车辆节点u在时间T内请求任务的总吞吐量为Ωu,表达式如下:
Figure BDA0002939910150000091
最大化通信小区内所有车辆节点请求任务的总吞吐量,目标函数如下:
Figure BDA0002939910150000092
C1:
Figure BDA0002939910150000093
C2:
Figure BDA0002939910150000094
C3:
Figure BDA0002939910150000095
C4:
Figure BDA0002939910150000096
C5:
Figure BDA0002939910150000097
C6:
Figure BDA0002939910150000098
C7:
Figure BDA0002939910150000099
C8:
Figure BDA00029399101500000910
C9:
Figure BDA00029399101500000911
C10:
Figure BDA00029399101500000912
上述约束条件中,C1表示每一基站频谱资源的约束条件,C2表示每一边缘计算服务器算力资源的约束条件,C3表示每一车辆节点在每个时隙最多只能连接到一个基站,C4表示每一车辆节点在每个时隙最多只能连接到一个边缘计算服务器,C5表示每一车辆节点在每个时隙最多只能连接到一个缓存服务器,C6表示车辆与基站的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C7表示车辆与边缘计算服务器的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C8表示车辆与缓存服务器的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C9表示缓存服务器是否缓存有请求的视频(v,w),C10表示请求的视频(v,w)是否需要通过边缘计算服务器进行转码。
进一步地,所述的步骤S5过程如下:
S5.1、设计DQN奖励函数如下:
Figure BDA0002939910150000101
表示车辆节点u在时隙t接入基站k时,是否因为基站k的资源限制导致未能连接成功,值为1表示连接成功,值为0表示连接失败;
Figure BDA0002939910150000102
表示车辆节点u在时隙t接入边缘计算服务器m时,是否因为边缘计算服务器m的资源限制导致未能连接成功,值为1表示连接成功,值为0表示连接失败;
车辆节点u在时隙t的奖励函数为ru(t),表达式如下:
Figure BDA0002939910150000103
上式中,
Figure BDA0002939910150000104
表示车辆节点成功接入基站的奖励,
Figure BDA0002939910150000105
表示车辆节点未成功接入基站的奖励,值0.2表示接入边缘计算服务器对应奖励的权重,
Figure BDA0002939910150000106
表示车辆节点成功接入边缘计算服务器的奖励,
Figure BDA0002939910150000107
表示车辆节点未成功接入边缘计算服务器的奖励;
S5.2、设计DQN网络结构,其中,DQN的网络输入的维度为[1,H,W],其中,1表示通道数,H表示高,W表示宽,先通过5层卷积层逐步提取输入状态的特征,然后经过通道注意力模块来对特征通道进行加权,之后用两个全连接层分别对加权后的输出做特征选择,最后作相加融合得到各个输出动作的Q值。
进一步地,所述的步骤S6中DQN神经网络的训练和更新过程如下:
S6.1、初始化策略网络、目标网络权重和ε-greedy动作选择策略参数;
S6.2、初始化系统环境,得到系统状态s(t);
S6.3、策略网络根据系统状态作推理,并依据动作选择策略选择动作a(t);
S6.4、动作作用于环境,得到系统奖励r(t),并转移到下一状态s(t+1);
S6.5、将当前状态转移对[s(t),a(t),r(t),s(t+1)]存于经验回放池;
S6.6、从经验池抽取样本对策略网络进行训练,并更新目标网络权重。
本发明相对于现有技术具有如下的优点及效果:
1)本发明通过通信、计算和缓存资源的联合分配,结合NFV、SDN和ICN技术,物理资源被虚拟化且能够被切片以及独立分配,灵活且高效;
2)本发明通过DQN算法对通信、计算和缓存资源联合分配作优化,针对最大化通信小区内车辆节点请求任务总吞吐量的优化问题,在较低复杂度下获得了车联网系统的次优解;
3)本发明根据车联网通信场景数据的特点,定义了DQN的输入状态信息,并设计有效的神经网络结构来提取输入状态的特征信息,模型的鲁棒性好;
4)本发明考虑车辆节点的移动性,设定车辆节点接入基站的通信条件,从而保证车辆节点接收每个任务的完整性。
附图说明
图1是本发明实施例中公开的一种车联网中基于深度强化学习的资源联合分配方法的流程图;
图2是本发明实施例中车联网通信场景示意图;
图3是本发明实施例中DQN的网络结构图;
图4是本发明实施例中不同方案在不同车辆节点数时的吞吐量对比图;
图5是本发明实施例中不同车辆节点数在不同平均内容大小时的吞吐量对比图;
图6是本发明实施例中不同优化算法在不同车辆节点数时的吞吐量对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示为本发明中车联网中基于深度强化学习的资源联合分配方法的流程图,运用DQN算法作为优化算法,最大化通信小区内车辆节点请求视频任务的总吞吐量,具体步骤包括:
S1、构建一个包括车对基础设施通信和基础设施对数据中心通信的车联网通信场景,该车联网通信场景中每个基站均配置一个边缘计算服务器和缓存服务器,每个基站配置有限的频谱资源,该车联网通信场景中利用NFV和SDN技术对物理资源进行虚拟化,并根据车辆节点的时空分布为边缘计算服务器和缓存服务器配置有限的物理资源,最终由SDN集中控制物理资源的联合分配,其中,所述物理资源包括计算资源和缓存资源,SDN表示软件定义网络,NFV表示网络功能虚拟化,车联网通信场景中基于ICN技术进行内容的存储和检索,车辆具备V2I通信能力,其中,ICN表示信息中心化网络,V2I表示车辆到基础设施;
如图2所示为本发明车联网通信场景示意图,场景中每个基站均配置一个边缘计算服务器和缓存服务器,同时,基站、边缘计算服务器和缓存服务器配备有限的资源。数据中心与基站间通过有线连接通信,基站与基站间也通过有线连接通信,基站与车辆节点间则通过无线连接通信。车辆节点向基站请求视频任务,若请求的视频内容缓存于缓存服务器中且视频格式一致,则直接将视频内容回传给车辆节点;若格式不一致,则先通过MEC转码,然后再将视频内容回传;若请求的视频内容和格式都不存在于缓存服务器,则向数据中心请求并回传。本实施例优化的目标为最大化通信小区内车辆节点请求任务的总吞吐量,运用DQN算法来优化和实现通信、计算和缓存资源的联合分配。车联网通信场景的建模具体步骤包括:
S1.1、建立车辆节点与基站的通信模型,其中无线信道服从有限状态马尔可夫过程,具体方法如下:
车辆节点集合为
Figure BDA0002939910150000131
基站集合为
Figure BDA0002939910150000132
车辆节点u接收到基站k信噪比为γu,k,将信噪比离散为集合
Figure BDA0002939910150000133
Figure BDA0002939910150000134
车辆节点u在时隙t接收到基站k的信噪比的状态转移概率矩阵为
Figure BDA0002939910150000135
表达式为:
Figure BDA0002939910150000136
上式中,Di表示当前时隙信噪比,Dj表示下一时隙信噪比,
Figure BDA0002939910150000137
表示信噪比由Di转变为Dj的状态转移概率。
车辆节点u与基站k的下行速率为
Figure BDA0002939910150000138
根据香农公式可得:
Figure BDA0002939910150000139
上式中,bu,k表示基站k分配给车辆节点u的带宽,γu,k表示基站k到车辆节点u的信噪比。
基站k的下行速率上限为Gk,满足以下条件:
Figure BDA00029399101500001310
上式中,
Figure BDA00029399101500001311
表示在时隙t车辆节点u与基站k的连接状态,取值为1或者0,当取值为1表示建立连接,当取值为0表示未建立连接;
在时隙t基站k的下行速率使用占比为
Figure BDA00029399101500001312
表达式为:
Figure BDA0002939910150000141
车辆节点u请求格式为w的视频内容v,其大小为
Figure BDA0002939910150000142
则车辆节点u向基站k请求视频(v,w)的下行传输时延为:
Figure BDA0002939910150000143
基站与基站间的通信为有线光纤通信,因为光纤的通信速率高,其通信时延远小于基站到车辆节点的下行时延,在此忽略基站间的通信时延。
如果车辆节点u请求的视频(v,w)不存在于本地通信小区的缓存服务器,并且也不能通过边缘计算服务器进行格式转换得到,那么基站k将通过数据中心请求视频(v,w),则数据中心到基站k的下行时延为
Figure BDA0002939910150000144
表达式为:
Figure BDA0002939910150000145
上式中,
Figure BDA0002939910150000146
为数据中心到基站k的下行传输速率。
车辆节点u与基站k的连接需要满足以下条件:
Figure BDA0002939910150000147
上式中,ρu,k为车辆节点u驶出基站k通信范围需走的距离,ωu为车辆节点u的行驶速率,λ为常量,取值为1.2。
S1.2、建立视频任务卸载到边缘计算服务器的计算模型,其中边缘计算服务器的算力分配服从有限状态马尔可夫过程,具体方法如下:
边缘计算服务器集合为
Figure BDA0002939910150000148
边缘计算服务器m分配给车辆节点u的算力为fu,m,将算力值离散为集合
Figure BDA0002939910150000149
边缘计算服务器m在时隙t分配给车辆节点u的算力的状态转移概率矩阵为
Figure BDA00029399101500001410
表达式为:
Figure BDA00029399101500001411
上式中,Ei表示当前时隙算力,Ej表示下一时隙算力,
Figure BDA0002939910150000151
表示算力由Ei转变为Ej的状态转移概率。
根据车辆节点的时空分布,利用SDN技术为边缘计算服务器配置好有限的计算资源,边缘计算服务器m的计算资源上限为Fm,满足以下条件:
Figure BDA0002939910150000152
上式中,
Figure BDA0002939910150000153
表示在时隙t车辆节点u与边缘计算服务器m的连接状态,取值为1或者0,当取值为1表示建立连接,当取值为0表示未建立连接。
边缘计算服务器m的算力使用占比为
Figure BDA0002939910150000154
表达式为:
Figure BDA0002939910150000155
Figure BDA0002939910150000156
表示车辆节点u请求的视频(v,w)是否需要在边缘计算服务器m进行格式转换,取值为1或者0,当
Figure BDA0002939910150000157
时,表示需要进行格式转换,当
Figure BDA0002939910150000158
时,表示不需要进行格式转换。
车辆节点u请求的视频任务
Figure BDA0002939910150000159
卸载到边缘计算服务器m的计算时延为
Figure BDA00029399101500001510
表达式为:
Figure BDA00029399101500001511
上式中,β为常数,表示计算每Mb所需的CPU周期数。
S1.3、建立视频任务存储到缓存服务器的缓存模型,具体方法如下:
视频内容的存储和检索基于ICN技术,视频内容的检索时延远小于传输时延,因此忽略视频内容的检索时延。
缓存服务器集合为
Figure BDA00029399101500001512
缓存服务器c中的视频内容集合为Vc={v1,v2,…,vQ},缓存服务器c中的视频格式集合为Wc={w1,w2,…,wQ},Q表示缓存服务器中缓存的视频数量。
缓存服务器c中的视频列表根据视频请求受欢迎程度每隔时间Tc更新一次,根据车辆节点的时空分布,利用SDN技术为缓存服务器配置有限的缓存资源,缓存服务器c的缓存资源上限为Hc,满足以下条件:
Figure BDA0002939910150000161
Figure BDA0002939910150000162
表示在时隙t车辆节点u与缓存服务器c的连接状态,取值为1或者0,当取值为1表示建立连接,当取值为0表示未建立连接。
Figure BDA0002939910150000163
表示车辆节点u请求的视频(v,w)是否缓存于缓存服务器c,取值为1或者0,当
Figure BDA0002939910150000164
时,表示车辆节点u请求的视频(v,w)缓存于缓存服务器c,当
Figure BDA0002939910150000165
时,表示车辆节点u请求的视频(v,w)没有缓存于缓存服务器c。
S2、针对每一车辆节点,基站收集通信小区内基础设施能够分配给车辆节点的通信、计算和缓存资源,作为深度强化学习网络DQN的输入状态;
利用步骤S1中定义的资源状态信息,构建深度强化学习网络DQN的输入状态Su(t),表示车辆节点u在时隙t的信息状态,表示方式如下:
Figure BDA0002939910150000166
其中,
Figure BDA0002939910150000167
表示基站k在时隙t能分配给车辆节点u的下行速率,
Figure BDA0002939910150000168
表示基站k在时隙t的下行速率使用占比,fu,m(t)表示边缘计算服务器m在时隙t能分配给车辆节点u的算力,
Figure BDA0002939910150000169
表示边缘计算服务器m在时隙t的算力使用占比,
Figure BDA00029399101500001610
表示缓存服务器在时隙t是否缓存有车辆节点u请求的视频(v,w),
Figure BDA0002939910150000171
表示车辆节点u在时隙t请求的视频大小,vu(t)表示车辆节点u在时隙t请求的视频内容编号。
S3、车辆节点与基础设施的连接状态作为输出动作,具体步骤如下:
S3.1、通过DQN预测车辆节点与基站和边缘计算服务器的连接行为:
车辆节点与基站和边缘计算服务器的在时隙t的连接状态作为DQN的输出动作au(t),表达方式如下:
Figure BDA0002939910150000172
其中,
Figure BDA0002939910150000173
表示车辆节点u在时隙t与通信小区所有基站的连接行为向量,
Figure BDA0002939910150000174
表示车辆节点u在时隙t与通信小区所有边缘计算服务器的连接行为向量。
S3.2、通过规则决定车辆节点与缓存服务器的连接行为:
请求的视频内容若存在于缓存服务器或者需要通过边缘计算服务器转码再回传,此时的请求时延一般比从数据中心请求对应视频内容的时延要小得多。因此,先通过规则在通信小区内寻找缓存有视频(v,w)的缓存服务器,再让车辆节点与其连接,将会增加缓存内容的命中率,从而减小车辆节点的请求时延。
缓存有视频(v,w)的缓存集合为J(v,w)={c|v∈Vc,w∈Wc,c∈C},缓存有视频内容(v)的缓存集合为J(v)={c|v∈Vc,c∈C},则车辆节点选择连接到某一个缓存服务器的规则如下:
Figure BDA0002939910150000175
上式中,min()表示取集合的最小值,
Figure BDA0002939910150000176
表示空集,k表示车辆节点接入的基站编号,此时车辆节点u与选中的缓存服务器c的值
Figure BDA0002939910150000177
S4、以最大化通信小区内车辆节点请求任务的总吞吐量为目标,结合约束条件,建立最优化问题模型;
车辆节点u在时隙t请求视频(v,w)的时延为
Figure BDA0002939910150000178
表达式如下:
Figure BDA0002939910150000181
上式中,等号右侧第一项表示车辆节点u请求的视频(v,w)存在于缓存服务器c中,视频直接通过基站回传的时延;第二项表示车辆节点u请求的视频(v,w)需要先经过边缘计算服务器进行转码,然后再通过基站回传的时延;第三项表示车辆节点u请求的视频内容不存在于缓存服务器中,则基站向数据中心请求相应视频,然后再通过基站回传的时延。
车辆节点u在时隙t请求视频(v,w)的吞吐率为
Figure BDA0002939910150000182
表达式如下:
Figure BDA0002939910150000183
车辆节点u在时间T内请求的视频内容集合为
Figure BDA0002939910150000184
车辆节点u在时间T内请求的视频格式集合为
Figure BDA0002939910150000185
P表示请求的视频数量,车辆节点u在时间T内请求任务的总吞吐量为Ωu,表达式如下:
Figure BDA0002939910150000186
最大化通信小区内所有车辆节点请求任务的总吞吐量,目标函数如下:
Figure BDA0002939910150000187
C1:
Figure BDA0002939910150000188
C2:
Figure BDA0002939910150000189
C3:
Figure BDA00029399101500001810
C4:
Figure BDA00029399101500001811
C5:
Figure BDA0002939910150000191
C6:
Figure BDA0002939910150000192
C7:
Figure BDA0002939910150000193
C8:
Figure BDA0002939910150000194
C9:
Figure BDA0002939910150000195
C10:
Figure BDA0002939910150000196
上述约束条件中,C1表示每一基站频谱资源的约束条件,C2表示每一边缘计算服务器算力资源的约束条件,C3表示每一车辆节点在每个时隙最多只能连接到一个基站,C4表示每一车辆节点在每个时隙最多只能连接到一个边缘计算服务器,C5表示每一车辆节点在每个时隙最多只能连接到一个缓存服务器,C6表示车辆与基站的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C7表示车辆与边缘计算服务器的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C8表示车辆与缓存服务器的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C9表示缓存服务器是否缓存有请求的视频(v,w),C10表示请求的视频(v,w)是否需要通过边缘计算服务器进行转码。
S5、根据最优化问题模型,设计DQN奖励函数和网络结构,具体步骤如下:
S5.1、设计DQN奖励函数,过程如下:
Figure BDA0002939910150000197
表示车辆节点u在时隙t接入基站k时,是否因为基站k的资源限制导致未能连接成功,取值为0或者1,当取值为1表示连接成功,当取值为0表示连接失败。
Figure BDA0002939910150000198
表示车辆节点u在时隙t接入边缘计算服务器m时,是否因为边缘计算服务器m的资源限制导致未能连接成功,取值为0或者1,当取值为1表示连接成功,当取值为0表示连接失败。
车辆节点u在时隙t的奖励函数为ru(t),表达式如下:
Figure BDA0002939910150000201
上式中,
Figure BDA0002939910150000202
表示车辆节点成功接入基站的奖励,
Figure BDA0002939910150000203
表示车辆节点未成功接入基站的奖励,值0.2表示接入边缘计算服务器对应奖励的权重,
Figure BDA0002939910150000204
表示车辆节点成功接入边缘计算服务器的奖励,
Figure BDA0002939910150000205
表示车辆节点未成功接入边缘计算服务器的奖励。
S5.2、设计DQN网络结构:
在状态空间和动作空间均很大时,基于Q表查询值迭代强化学习算法将会及其消耗内存和及其耗时,本发明采用神经网络结构来拟合Q表的状态动作函数,从而降低算法的复杂度。如图3所示为DQN的网络结构图,网络输入的维度为[1,H,W],其中,1表示通道数,H表示高,W表示宽,本实施例中H=7,W=5。结构图中,先通过5层卷积层逐步提取输入状态的特征,然后经过通道注意力模块来对特征通道进行加权,之后用两个全连接层分别对加权后的输出做特征选择,最后作相加融合得到各个输出动作的Q值。本实施例的具体车联网通信场景仿真参数如表1所示。
表1.车联网通信场景仿真参数表
Figure BDA0002939910150000206
Figure BDA0002939910150000211
S6、通过神经网络提取输入状态的特征,拟合各种输入状态下输出动作的Q值,并结合奖励函数训练和更新神经网络,DQN训练具体流程如下:
S6.1、初始化策略网络、目标网络权重和ε-greedy动作选择策略参数;
S6.2、初始化系统环境,得到系统状态s(t);
S6.3、策略网络根据系统状态作推理,并依据动作选择策略选择动作a(t);
S6.4、动作作用于环境,得到系统奖励r(t),并转移到下一状态s(t+1);
S6.5、将当前状态转移对[s(t),a(t),r(t),s(t+1)]存于经验回放池;
S6.6、从经验池抽取样本对策略网络进行训练,并更新目标网络权重。
S7、利用训练好的DQN,根据车辆节点的输入状态,输出相应的动作Q值序列,将Q值最大的动作作为车辆节点的通信、计算和缓存资源分配策略;其中,车辆节点与基站和边缘计算服务器的连接行为由DQN进行预测;车辆节点与缓存服务器的连接行为由公式(15)的规则决定。
图4为本实施例中不同方案在不同车辆节点数时的吞吐量比较,四种方案均采用DQN算法作优化,仿真的车辆节点数为20,系统工作时间为15秒,仿真时隙大小为0.15秒。方案“Proposed DRL-based scheme”考虑虚拟化、缓存和边缘计算,方案“Proposed schemew.o.virtualization”不考虑虚拟化,方案“Proposed scheme w.o.virtualization”不考虑虚拟化,方案“Proposed scheme w.o.edge caching”不考虑缓存,方案“Proposedscheme w.o.MEC offloading”不考虑边缘计算。其中虚拟化是指车辆节点在同一时隙可以连接不同基站的边缘计算服务器和缓存服务器,若不考虑虚拟化,车辆节点在连接基站后,其只能使用该基站配置的算力资源和缓存资源。由于存在资源的约束,各方案的吞吐量都在车辆节点数为35左右时达到饱和状态。从仿真曲线可看出,方案“Proposed DRL-basedscheme”在不同车辆节点数时的吞吐量均优于其他方案,说明考虑虚拟化,即资源能够被切片并独立分配,能够使系统资源分配更加灵活和高效。
图5为本实施例中不同车辆节点数在不同平均内容大小时的吞吐量,均采用“Proposed DRL-based scheme”方案,系统工作时间为15秒,仿真时隙大小为0.15秒。从仿真曲线可以看出,随着车辆节点每个时隙请求平均内容大小的不断增大,各曲线的吞吐量趋势均是先上升后下降。因为车辆节点在每个时隙只能请求一次视频内容,平均内容大小过小会导致传输时整体时隙利用率过低,所以会造成吞吐量过小。因为通信、计算和缓存资源存在上限,平均内容大小过大则会导致系统资源的利用率不高,从而造成吞吐量下降。
图6为实施例中不同优化算法在不同车辆节点数时的吞吐量比较,三种算法分别为“Random scheme”、“Greedy scheme”和“Proposed DRL-based scheme”,均考虑虚拟化、缓存和边缘计算。从仿真曲线可以看出,本发明提出的“Proposed DRL-based scheme”算法在不同车辆节点数时的吞吐量均大于另外两种算法。在系统吞吐量未达到饱和状态前,“Greedy scheme”算法的吞吐量大于“Greedy scheme”算法的吞吐量,原因是系统资源此时还比较富余,“Greedy scheme”算法每次取系统分配资源的最大值时,小概率会触发因资源达到上限而分配失败的情况,因而吞吐量会优于“Random scheme”。当系统吞吐量达到饱和状态时,“Greedy scheme”算法则会大概率触发资源达到上限这一条件,导致车辆节点在该时隙接入失败,从而造成其饱和状态时的吞吐量较小。本发明提出的“Proposed DRL-basedscheme”算法通过学习输入状态的特征,可以根据输入状态做出更加合理的决策,从而提高系统的吞吐量。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的资源联合分配方法包括以下步骤:
S1、构建一个包括车对基础设施通信和基础设施对数据中心通信的车联网通信场景,该车联网通信场景中每个基站均配置一个边缘计算服务器和缓存服务器,每个基站配置有限的频谱资源,该车联网通信场景中利用NFV和SDN技术对物理资源进行虚拟化,并根据车辆节点的时空分布为边缘计算服务器和缓存服务器配置有限的物理资源,最终由SDN集中控制物理资源的联合分配,其中,所述物理资源包括计算资源和缓存资源,SDN表示软件定义网络,NFV表示网络功能虚拟化,车联网通信场景中基于ICN技术进行内容的存储和检索,车辆具备V2I通信能力,其中,ICN表示信息中心化网络,V2I表示车辆到基础设施;
S2、针对每一车辆节点,基站收集通信小区内基础设施能够分配给车辆节点的通信、计算和缓存资源信息,包括基站到车辆的下行速率、基站频谱资源的占用率、边缘计算服务器分配给车辆的算力、边缘计算服务器算力资源的占用率、车辆节点请求的视频内容大小和视频内容编号,作为深度强化学习网络的输入状态,其中,深度强化学习网络简称为DQN;
S3、获取车辆节点与基础设施的连接状态,包括车辆节点与基站的连接、车辆节点与边缘计算服务器的连接,作为DQN的输出动作,其中,车辆节点与缓存服务器的连接通过规则控制;
S4、以最大化通信小区内车辆节点请求任务的总吞吐量为目标,结合约束条件,建立最优化问题模型;
S5、根据最优化问题模型,设计DQN奖励函数和DQN神经网络结构;
S6、通过步骤S5中设计得到的DQN神经网络提取输入状态的特征,拟合Q表的状态动作函数,得到各种输入状态下输出动作的Q值,并结合奖励函数训练和更新神经网络;
S7、利用训练好的DQN,根据车辆节点的输入状态,输出相应的动作Q值序列,将Q值最大的动作作为车辆节点的通信、计算和缓存资源分配策略。
2.根据权利要求1所述的一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的步骤S1过程如下:
S1.1、建立车辆节点与基站的通信模型,其中无线信道服从有限状态马尔可夫过程,具体如下:
车辆节点集合为
Figure FDA0002939910140000021
基站集合为
Figure FDA0002939910140000022
车辆节点u接收到基站k信噪比为γu,k,将信噪比离散为集合
Figure FDA0002939910140000023
Figure FDA0002939910140000024
车辆节点u在时隙t接收到基站k的信噪比的状态转移概率矩阵为
Figure FDA0002939910140000025
表达式为:
Figure FDA0002939910140000026
上式中,Di表示当前时隙信噪比,Dj表示下一时隙信噪比,
Figure FDA0002939910140000027
表示信噪比由Di转变为Dj的状态转移概率;
车辆节点u与基站k的下行速率为
Figure FDA0002939910140000028
根据香农公式可得:
Figure FDA0002939910140000029
上式中,bu,k表示基站k分配给车辆节点u的带宽,γu,k表示基站k到车辆节点u的信噪比;
基站k的下行速率上限为Gk,满足以下条件:
Figure FDA0002939910140000031
上式中,
Figure FDA0002939910140000032
表示在时隙t车辆节点u与基站k的连接状态,取值为1或者0,当取值为1表示建立连接,当取值为0表示未建立连接;
在时隙t基站k的下行速率使用占比为
Figure FDA0002939910140000033
表达式为:
Figure FDA0002939910140000034
车辆节点u请求格式为w的视频内容v,其大小为
Figure FDA0002939910140000035
则车辆节点u向基站k请求视频(v,w)的下行传输时延为:
Figure FDA0002939910140000036
如果车辆节点u请求的视频(v,w)不存在于本地通信小区的缓存服务器,并且也不能通过边缘计算服务器进行格式转换得到,那么基站k将通过数据中心请求视频(v,w),则数据中心到基站k的下行时延为
Figure FDA0002939910140000037
表达式为:
Figure FDA0002939910140000038
上式中,
Figure FDA0002939910140000039
为数据中心到基站k的下行传输速率;
车辆节点u与基站k的连接需要满足以下条件:
Figure FDA00029399101400000310
上式中,ρu,k为车辆节点u驶出基站k通信范围需走的距离,ωu为车辆节点u的行驶速率,λ为常量;
S1.2、建立视频任务卸载到边缘计算服务器的计算模型,其中边缘计算服务器的算力分配服从有限状态马尔可夫过程,具体如下:
边缘计算服务器集合为
Figure FDA0002939910140000041
边缘计算服务器m分配给车辆节点u的算力为fu,m,将算力值离散为集合
Figure FDA0002939910140000042
边缘计算服务器m在时隙t分配给车辆节点u的算力的状态转移概率矩阵为
Figure FDA0002939910140000043
表达式为:
Figure FDA0002939910140000044
上式中,Ei表示当前时隙算力,Ej表示下一时隙算力,
Figure FDA0002939910140000045
表示算力由Ei转变为Ej的状态转移概率;
根据车辆节点的时空分布,利用SDN技术为边缘计算服务器配置有限的计算资源,边缘计算服务器m的计算资源上限为Fm,满足以下条件:
Figure FDA0002939910140000046
上式中,
Figure FDA0002939910140000047
表示在时隙t车辆节点u与边缘计算服务器m的连接状态,取值为1或者0,当取值为1表示建立连接,当取值为0表示未建立连接;
边缘计算服务器m的算力使用占比为
Figure FDA0002939910140000048
表达式为:
Figure FDA0002939910140000049
Figure FDA00029399101400000410
表示车辆节点u请求的视频(v,w)是否需要在边缘计算服务器m进行格式转换,取值为1或者0,当
Figure FDA00029399101400000411
时,表示需要进行格式转换,当
Figure FDA00029399101400000412
时,表示不需要进行格式转换;
车辆节点u请求的视频任务
Figure FDA00029399101400000413
卸载到边缘计算服务器m的计算时延为
Figure FDA00029399101400000414
表达式为:
Figure FDA00029399101400000415
上式中,β为常数,表示计算每Mb所需的CPU周期数;
S1.3、建立视频任务存储到缓存服务器的缓存模型,具体如下:
基于ICN技术存储和检索视频内容,缓存服务器集合为
Figure FDA0002939910140000051
Figure FDA0002939910140000052
缓存服务器c中的视频内容集合为Vc={v1,v2,…,vQ},缓存服务器c中的视频格式集合为Wc={w1,w2,…,wQ},Q表示缓存服务器中缓存的视频数量;
缓存服务器c中的视频列表根据视频请求受欢迎程度每隔时间Tc更新一次,根据车辆节点的时空分布,利用SDN技术为缓存服务器配置有限的缓存资源,缓存服务器c的缓存资源上限为Hc,满足以下条件:
Figure FDA0002939910140000053
Figure FDA0002939910140000054
表示在时隙t车辆节点u与缓存服务器c的连接状态,取值为1或者0,当取值为1表示建立连接,当取值为0表示未建立连接;
Figure FDA0002939910140000055
表示车辆节点u请求的视频(v,w)是否缓存于缓存服务器c,取值为1或者0,当
Figure FDA0002939910140000056
时,表示车辆节点u请求的视频(v,w)缓存于缓存服务器c,当
Figure FDA0002939910140000057
时,表示车辆节点u请求的视频(v,w)没有缓存于缓存服务器c。
3.根据权利要求1所述的一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的步骤S2过程如下:
利用步骤S1中定义的资源状态信息,构建DQN的输入状态Su(t),表示车辆节点u在时隙t的信息状态,表示方式如下:
Figure FDA0002939910140000061
其中,
Figure FDA0002939910140000062
表示基站k在时隙t能分配给车辆节点u的下行速率,
Figure FDA0002939910140000063
表示基站k在时隙t的下行速率使用占比,fu,m(t)表示边缘计算服务器m在时隙t能分配给车辆节点u的算力,
Figure FDA0002939910140000064
表示边缘计算服务器m在时隙t的算力使用占比,
Figure FDA0002939910140000065
表示缓存服务器在时隙t是否缓存有车辆节点u请求的视频(v,w),
Figure FDA0002939910140000066
表示车辆节点u在时隙t请求的视频大小,vu(t)表示车辆节点u在时隙t请求的视频内容编号。
4.根据权利要求1所述的一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的步骤S3过程如下:
S3.1、通过DQN预测车辆节点与基站和边缘计算服务器的连接行为:
车辆节点与基站和边缘计算服务器的在时隙t的连接状态作为DQN的输出动作au(t),表达方式如下:
Figure FDA0002939910140000067
其中,
Figure FDA0002939910140000068
表示车辆节点u在时隙t与通信小区所有基站的连接行为向量,
Figure FDA0002939910140000069
表示车辆节点u在时隙t与通信小区所有边缘计算服务器的连接行为向量;
S3.2、通过规则决定车辆节点与缓存服务器的连接行为:
缓存有视频(v,w)的缓存集合为J(v,w)={c|v∈Vc,w∈Wc,c∈C},缓存有视频内容(v)的缓存集合为J(v)={c|v∈Vc,c∈C},则车辆节点选择连接到某一个缓存服务器的规则如下:
Figure FDA0002939910140000071
上式中,min()表示取集合的最小值,
Figure FDA0002939910140000072
表示空集,k表示车辆节点接入的基站编号,此时车辆节点u与选中的缓存服务器c的值
Figure FDA0002939910140000073
5.根据权利要求2所述的一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的步骤S4过程如下:
车辆节点u在时隙t请求视频(v,w)的时延为
Figure FDA0002939910140000074
表达式如下:
Figure FDA0002939910140000075
上式中,等号右侧第一项表示车辆节点u请求的视频(v,w)存在于缓存服务器c中,视频直接通过基站回传的时延;第二项表示车辆节点u请求的视频(v,w)需要先经过边缘计算服务器进行转码,然后再通过基站回传的时延;第三项表示车辆节点u请求的视频内容不存在于缓存服务器中,则基站向数据中心请求相应视频,然后再通过基站回传的时延;
车辆节点u在时隙t请求视频(v,w)的吞吐率为
Figure FDA0002939910140000076
表达式如下:
Figure FDA0002939910140000077
车辆节点u在时间T内请求的视频内容集合为
Figure FDA0002939910140000078
车辆节点u在时间T内请求的视频格式集合为
Figure FDA0002939910140000079
P表示请求的视频数量,车辆节点u在时间T内请求任务的总吞吐量为Ωu,表达式如下:
Figure FDA0002939910140000081
最大化通信小区内所有车辆节点请求任务的总吞吐量,目标函数如下:
Figure FDA0002939910140000082
C1:
Figure FDA0002939910140000083
C2:
Figure FDA0002939910140000084
C3:
Figure FDA0002939910140000085
C4:
Figure FDA0002939910140000086
C5:
Figure FDA0002939910140000087
C6:
Figure FDA0002939910140000088
C7:
Figure FDA0002939910140000089
C8:
Figure FDA00029399101400000810
C9:
Figure FDA00029399101400000811
C10:
Figure FDA00029399101400000812
上述约束条件中,C1表示每一基站频谱资源的约束条件,C2表示每一边缘计算服务器算力资源的约束条件,C3表示每一车辆节点在每个时隙最多只能连接到一个基站,C4表示每一车辆节点在每个时隙最多只能连接到一个边缘计算服务器,C5表示每一车辆节点在每个时隙最多只能连接到一个缓存服务器,C6表示车辆与基站的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C7表示车辆与边缘计算服务器的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C8表示车辆与缓存服务器的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C9表示缓存服务器是否缓存有请求的视频(v,w),C10表示请求的视频(v,w)是否需要通过边缘计算服务器进行转码。
6.根据权利要求5所述的一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的步骤S5过程如下:
S5.1、设计DQN奖励函数如下:
Figure FDA0002939910140000091
表示车辆节点u在时隙t接入基站k时,是否因为基站k的资源限制导致未能连接成功,值为1表示连接成功,值为0表示连接失败;
Figure FDA0002939910140000092
表示车辆节点u在时隙t接入边缘计算服务器m时,是否因为边缘计算服务器m的资源限制导致未能连接成功,值为1表示连接成功,值为0表示连接失败;
车辆节点u在时隙t的奖励函数为ru(t),表达式如下:
Figure FDA0002939910140000093
上式中,
Figure FDA0002939910140000094
表示车辆节点成功接入基站的奖励,
Figure FDA0002939910140000095
表示车辆节点未成功接入基站的奖励,值0.2表示接入边缘计算服务器对应奖励的权重,
Figure FDA0002939910140000096
表示车辆节点成功接入边缘计算服务器的奖励,
Figure FDA0002939910140000097
表示车辆节点未成功接入边缘计算服务器的奖励;
S5.2、设计DQN网络结构,其中,DQN的网络输入的维度为[1,H,W],其中,1表示通道数,H表示高,W表示宽,先通过5层卷积层逐步提取输入状态的特征,然后经过通道注意力模块来对特征通道进行加权,之后用两个全连接层分别对加权后的输出做特征选择,最后作相加融合得到各个输出动作的Q值。
7.根据权利要求1所述的一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的步骤S6中DQN神经网络的训练和更新过程如下:
S6.1、初始化策略网络、目标网络权重和ε-greedy动作选择策略参数;
S6.2、初始化系统环境,得到系统状态s(t);
S6.3、策略网络根据系统状态作推理,并依据动作选择策略选择动作a(t);
S6.4、动作作用于环境,得到系统奖励r(t),并转移到下一状态s(t+1);
S6.5、将当前状态转移对[s(t),a(t),r(t),s(t+1)]存于经验回放池;
S6.6、从经验池抽取样本对策略网络进行训练,并更新目标网络权重。
CN202110174006.0A 2021-02-07 2021-02-07 一种车联网中基于深度强化学习的资源联合分配方法 Active CN112995950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110174006.0A CN112995950B (zh) 2021-02-07 2021-02-07 一种车联网中基于深度强化学习的资源联合分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110174006.0A CN112995950B (zh) 2021-02-07 2021-02-07 一种车联网中基于深度强化学习的资源联合分配方法

Publications (2)

Publication Number Publication Date
CN112995950A true CN112995950A (zh) 2021-06-18
CN112995950B CN112995950B (zh) 2022-03-29

Family

ID=76347796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110174006.0A Active CN112995950B (zh) 2021-02-07 2021-02-07 一种车联网中基于深度强化学习的资源联合分配方法

Country Status (1)

Country Link
CN (1) CN112995950B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113596138A (zh) * 2021-07-26 2021-11-02 东北大学 一种基于深度强化学习的异构信息中心网络缓存分配方法
CN113709701A (zh) * 2021-08-27 2021-11-26 西安电子科技大学 一种毫米波车联网联合波束分配和中继选择方法
CN113726463A (zh) * 2021-08-23 2021-11-30 山东交通学院 一种基于有限状态马尔科夫的宽带无线信道建模方法
CN113762512A (zh) * 2021-11-10 2021-12-07 北京航空航天大学杭州创新研究院 分布式模型训练方法、系统及相关装置
CN113992706A (zh) * 2021-09-09 2022-01-28 北京信息科技大学 车联网场景下请求内容放置的方法、装置及电子设备
CN114374949A (zh) * 2021-12-31 2022-04-19 东莞理工学院 一种车联网中基于信息新鲜度优化的功率控制机制
CN114531669A (zh) * 2022-01-14 2022-05-24 山东师范大学 一种基于车辆边缘计算的任务卸载方法及系统
CN114666807A (zh) * 2022-05-26 2022-06-24 车路通科技(成都)有限公司 V2x检测模型及构建方法、检测方法、系统、终端及介质
CN115499882A (zh) * 2022-11-16 2022-12-20 之江实验室 边缘节点频谱与计算资源联合分配方法、装置和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
US20200104184A1 (en) * 2018-09-27 2020-04-02 Intel Corporation Accelerated resource allocation techniques
CN111132074A (zh) * 2019-12-26 2020-05-08 华南理工大学 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
CN111314889A (zh) * 2020-02-26 2020-06-19 华南理工大学 车联网中基于移动边缘计算的任务卸载与资源分配方法
CN111565420A (zh) * 2020-04-07 2020-08-21 大连理工大学 一种移动区块链中智能资源分配方法
CN112261674A (zh) * 2020-09-30 2021-01-22 北京邮电大学 一种基于移动边缘计算及区块链协同赋能的物联网场景的性能优化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200104184A1 (en) * 2018-09-27 2020-04-02 Intel Corporation Accelerated resource allocation techniques
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN111132074A (zh) * 2019-12-26 2020-05-08 华南理工大学 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
CN111314889A (zh) * 2020-02-26 2020-06-19 华南理工大学 车联网中基于移动边缘计算的任务卸载与资源分配方法
CN111565420A (zh) * 2020-04-07 2020-08-21 大连理工大学 一种移动区块链中智能资源分配方法
CN112261674A (zh) * 2020-09-30 2021-01-22 北京邮电大学 一种基于移动边缘计算及区块链协同赋能的物联网场景的性能优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵海涛等: "基于DQN的车载边缘网络任务分发卸载算法", 《通信学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113596138A (zh) * 2021-07-26 2021-11-02 东北大学 一种基于深度强化学习的异构信息中心网络缓存分配方法
CN113726463A (zh) * 2021-08-23 2021-11-30 山东交通学院 一种基于有限状态马尔科夫的宽带无线信道建模方法
CN113726463B (zh) * 2021-08-23 2023-11-17 山东交通学院 一种基于有限状态马尔科夫的宽带无线信道建模方法
CN113709701A (zh) * 2021-08-27 2021-11-26 西安电子科技大学 一种毫米波车联网联合波束分配和中继选择方法
CN113709701B (zh) * 2021-08-27 2022-06-17 西安电子科技大学 毫米波车联网联合波束分配和中继选择方法、系统及设备
CN113992706B (zh) * 2021-09-09 2023-05-23 北京信息科技大学 车联网场景下请求内容放置的方法、装置及电子设备
CN113992706A (zh) * 2021-09-09 2022-01-28 北京信息科技大学 车联网场景下请求内容放置的方法、装置及电子设备
CN113762512A (zh) * 2021-11-10 2021-12-07 北京航空航天大学杭州创新研究院 分布式模型训练方法、系统及相关装置
CN114374949A (zh) * 2021-12-31 2022-04-19 东莞理工学院 一种车联网中基于信息新鲜度优化的功率控制机制
CN114531669A (zh) * 2022-01-14 2022-05-24 山东师范大学 一种基于车辆边缘计算的任务卸载方法及系统
CN114531669B (zh) * 2022-01-14 2024-06-07 山东师范大学 一种基于车辆边缘计算的任务卸载方法及系统
CN114666807A (zh) * 2022-05-26 2022-06-24 车路通科技(成都)有限公司 V2x检测模型及构建方法、检测方法、系统、终端及介质
CN115499882A (zh) * 2022-11-16 2022-12-20 之江实验室 边缘节点频谱与计算资源联合分配方法、装置和存储介质

Also Published As

Publication number Publication date
CN112995950B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN112995950B (zh) 一种车联网中基于深度强化学习的资源联合分配方法
CN112020103B (zh) 一种移动边缘云中的内容缓存部署方法
CN112218337B (zh) 一种移动边缘计算中的缓存策略决策方法
CN113507503B (zh) 一种具有负载均衡的车联网资源分配方法
Mehrabi et al. A survey on mobility management for MEC-enabled systems
Zheng et al. 5G network-oriented hierarchical distributed cloud computing system resource optimization scheduling and allocation
CN115297171A (zh) 一种蜂窝车联网分级决策的边缘计算卸载方法及系统
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
CN114863683B (zh) 基于多目标优化的异构车联网边缘计算卸载调度方法
CN110913239B (zh) 一种精细化的移动边缘计算的视频缓存更新方法
CN113206796A (zh) 一种转算存一体化协同系统及方法
CN113993168B (zh) 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
Ouyang Task offloading algorithm of vehicle edge computing environment based on Dueling-DQN
CN113672819B (zh) 一种基于推荐感知和协作边缘缓存的内容请求处理系统
CN112911614B (zh) 基于动态请求d2d网络中的协作编码缓存方法
Li et al. Collaborative optimization of edge-cloud computation offloading in internet of vehicles
CN113766540B (zh) 低时延的网络内容传输方法、装置、电子设备及介质
CN113709853B (zh) 面向云边协同的网络内容传输方法、装置及存储介质
CN112261628B (zh) 一种应用于d2d设备的内容边缘缓存架构方法
CN113315806B (zh) 一种面向云网融合的多接入边缘计算架构
WO2022217503A1 (zh) 一种面向云网融合的多接入边缘计算架构
CN115065683A (zh) 基于车辆聚类的车辆边缘网络任务分配卸载方法
CN114245422A (zh) 一种基于簇内智能共享的边缘主动缓存方法
CN115002138A (zh) 一种基于终端无人机巡航视频数据的边缘缓存方法
CN108429919B (zh) 多速率视频在无线网络中的缓存和传输优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant