CN112995950A - 一种车联网中基于深度强化学习的资源联合分配方法 - Google Patents
一种车联网中基于深度强化学习的资源联合分配方法 Download PDFInfo
- Publication number
- CN112995950A CN112995950A CN202110174006.0A CN202110174006A CN112995950A CN 112995950 A CN112995950 A CN 112995950A CN 202110174006 A CN202110174006 A CN 202110174006A CN 112995950 A CN112995950 A CN 112995950A
- Authority
- CN
- China
- Prior art keywords
- vehicle node
- base station
- vehicle
- video
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/44—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/562—Brokering proxy services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种车联网中基于深度强化学习的资源联合分配方法,步骤包括:S1、构建包括车对基础设施通信和基础设施对数据中心通信的车联网通信场景;S2、基站收集通信小区基础设施能够分配给车辆节点的资源状态信息,作为深度强化学习网络DQN的输入状态;S3、车辆节点与基础设施的连接状态作为输出动作;S4、以最大化通信小区内车辆节点请求任务的总吞吐量为目标,建立最优化模型;S5、设计DQN奖励函数和网络结构,训练DQN;S6、根据车辆节点的输入状态,DQN输出Q值最大的动作作为车辆节点的通信、计算和缓存资源分配策略。本发明以更小的复杂度对车辆网中通信、计算和缓存资源联合分配问题进行求解。
Description
技术领域
本发明涉及车联网资源分配技术领域,具体涉及一种车联网中基于深度强化学习的资源联合分配方法。
背景技术
随着车联网技术的不断迭代更新,通信、计算和缓存等领域技术也不断得到改善。根据给定的车联网场景需求,如何有效地结合通信、计算和缓存技术获得问题的最优解,已经成为了学术界的研究热点。
在网络通信方面,SDN(Software-defined Networking,软件定义网络)将控制平面和数据平面分离,可通过集中式软件定义控制器对网络进行编程。NFV(NetworkFunction Virtualization,网络功能虚拟化)将网络资源虚拟化和隔离,使得网络资源能被多个用户灵活调度和共享。SDN和NFV技术的运用能极大提高车联网管理的效率和灵活性。
在计算方面,云计算、雾计算和边缘计算的发展对车联网具有深远的影响。然而,云端仍距车辆终端设备较远,难以满足低时延应用的需求。MEC(Mobile Edge Computing,移动边缘计算)将算力资源直接部署到车辆终端附近,这能够明显提高计算型和时延敏感型任务的服务质量。
在缓存方面,网络缓存作为ICN(Information-centric Networking,信息中心化网络)的关键技术之一,它能有效减少网络中重复内容的传输。研究表明,通过将内容(如视频、歌曲等)缓存于网络边缘节点(如基站、路侧单元等),能够大大减少流量负载、访问延迟和网络成本。
在现有技术中,车联网通信、计算和缓存技术往往是被分离开来研究的,主要原因是三者联合研究的复杂度极高,难以用数学方法推理出低复杂度的最优解方案。而对于一些场景(如车辆请求视频等),通信、计算和缓存技术的联合能够极大地增强车联网的性能。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种车联网中基于深度强化学习的资源联合分配方法。在本发明中采用DQN(Deep Q Network,深度Q值网络)算法,考虑了通信、计算和缓存资源的联合分配,通过DQN来拟合Q表,从而对车辆请求视频内容的连接请求做决策。本发明在降低算法复杂度的同时,也以最大化通信小区内车辆节点请求任务的总吞吐量为目标,做出了最优化决策。
本发明的目的可以通过采取如下技术方案达到:
一种车联网中基于深度强化学习的资源联合分配方法,所述的资源联合分配方法包括以下步骤:
S1、构建一个包括车对基础设施通信和基础设施对数据中心通信的车联网通信场景,该车联网通信场景中每个基站均配置一个边缘计算服务器和缓存服务器,每个基站配置有限的频谱资源,该车联网通信场景中利用NFV和SDN技术对物理资源进行虚拟化,并根据车辆节点的时空分布为边缘计算服务器和缓存服务器配置有限的物理资源,最终由SDN集中控制物理资源的联合分配,其中,所述物理资源包括计算资源和缓存资源,SDN表示软件定义网络,NFV表示网络功能虚拟化,车联网通信场景中基于ICN技术进行内容的存储和检索,车辆具备V2I通信能力,其中,ICN表示信息中心化网络,V2I表示车辆到基础设施;
S2、针对每一车辆节点,基站收集通信小区内基础设施能够分配给车辆节点的通信、计算和缓存资源信息,包括基站到车辆的下行速率、基站频谱资源的占用率、边缘计算服务器分配给车辆的算力、边缘计算服务器算力资源的占用率、车辆节点请求的视频内容大小和视频内容编号,作为深度强化学习网络的输入状态,其中,深度强化学习网络简称为DQN;
S3、获取车辆节点与基础设施的连接状态,包括车辆节点与基站的连接、车辆节点与边缘计算服务器的连接,作为DQN的输出动作,其中,车辆节点与缓存服务器的连接通过规则控制;
S4、以最大化通信小区内车辆节点请求任务的总吞吐量为目标,结合约束条件,建立最优化问题模型;
S5、根据最优化问题模型,设计DQN奖励函数和DQN神经网络结构;
S6、通过步骤S5中设计得到的DQN神经网络提取输入状态的特征,拟合Q表的状态动作函数,得到各种输入状态下输出动作的Q值,并结合奖励函数训练和更新神经网络;
S7、利用训练好的DQN,根据车辆节点的输入状态,输出相应的动作Q值序列,将Q值最大的动作作为车辆节点的通信、计算和缓存资源分配策略。
进一步地,所述的步骤S1过程如下:
S1.1、建立车辆节点与基站的通信模型,其中无线信道服从有限状态马尔可夫过程,具体如下:
上式中,bu,k表示基站k分配给车辆节点u的带宽,γu,k表示基站k到车辆节点u的信噪比;
基站k的下行速率上限为Gk,满足以下条件:
车辆节点u与基站k的连接需要满足以下条件:
上式中,ρu,k为车辆节点u驶出基站k通信范围需走的距离,ωu为车辆节点u的行驶速率,λ为常量;
S1.2、建立视频任务卸载到边缘计算服务器的计算模型,其中边缘计算服务器的算力分配服从有限状态马尔可夫过程,具体如下:
根据车辆节点的时空分布,利用SDN技术为边缘计算服务器配置有限的计算资源,边缘计算服务器m的计算资源上限为Fm,满足以下条件:
上式中,β为常数,表示计算每Mb所需的CPU周期数;
S1.3、建立视频任务存储到缓存服务器的缓存模型,具体如下:
基于ICN技术存储和检索视频内容,缓存服务器集合为{1,…,c,…,C},缓存服务器c中的视频内容集合为Vc={v1,v2,…,vQ},缓存服务器c中的视频格式集合为Wc={w1,w2,…,wQ},Q表示缓存服务器中缓存的视频数量;
缓存服务器c中的视频列表根据视频请求受欢迎程度每隔时间Tc更新一次,根据车辆节点的时空分布,利用SDN技术为缓存服务器配置有限的缓存资源,缓存服务器c的缓存资源上限为Hc,满足以下条件:
用表示车辆节点u请求的视频(v,w)是否缓存于缓存服务器c,取值为1或者0,当时,表示车辆节点u请求的视频(v,w)缓存于缓存服务器c,当时,表示车辆节点u请求的视频(v,w)没有缓存于缓存服务器c。
进一步地,所述的步骤S2过程如下:
利用步骤S1中定义的资源状态信息,构建DQN的输入状态Su(t),表示车辆节点u在时隙t的信息状态,表示方式如下:
其中,表示基站k在时隙t能分配给车辆节点u的下行速率,表示基站k在时隙t的下行速率使用占比,fu,m(t)表示边缘计算服务器m在时隙t能分配给车辆节点u的算力,表示边缘计算服务器m在时隙t的算力使用占比,表示缓存服务器在时隙t是否缓存有车辆节点u请求的视频(v,w),表示车辆节点u在时隙t请求的视频大小,vu(t)表示车辆节点u在时隙t请求的视频内容编号。
进一步地,所述的步骤S3过程如下:
S3.1、通过DQN预测车辆节点与基站和边缘计算服务器的连接行为:
车辆节点与基站和边缘计算服务器的在时隙t的连接状态作为DQN的输出动作au(t),表达方式如下:
S3.2、通过规则决定车辆节点与缓存服务器的连接行为:
缓存有视频(v,w)的缓存集合为J(v,w)={c|v∈Vc,w∈Wc,c∈C},缓存有视频内容(v)的缓存集合为J(v)={c|v∈Vc,c∈C},则车辆节点选择连接到某一个缓存服务器的规则如下:
进一步地,所述的步骤S4过程如下:
上式中,等号右侧第一项表示车辆节点u请求的视频(v,w)存在于缓存服务器c中,视频直接通过基站回传的时延;第二项表示车辆节点u请求的视频(v,w)需要先经过边缘计算服务器进行转码,然后再通过基站回传的时延;第三项表示车辆节点u请求的视频内容不存在于缓存服务器中,则基站向数据中心请求相应视频,然后再通过基站回传的时延;
最大化通信小区内所有车辆节点请求任务的总吞吐量,目标函数如下:
上述约束条件中,C1表示每一基站频谱资源的约束条件,C2表示每一边缘计算服务器算力资源的约束条件,C3表示每一车辆节点在每个时隙最多只能连接到一个基站,C4表示每一车辆节点在每个时隙最多只能连接到一个边缘计算服务器,C5表示每一车辆节点在每个时隙最多只能连接到一个缓存服务器,C6表示车辆与基站的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C7表示车辆与边缘计算服务器的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C8表示车辆与缓存服务器的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C9表示缓存服务器是否缓存有请求的视频(v,w),C10表示请求的视频(v,w)是否需要通过边缘计算服务器进行转码。
进一步地,所述的步骤S5过程如下:
S5.1、设计DQN奖励函数如下:
车辆节点u在时隙t的奖励函数为ru(t),表达式如下:
上式中,表示车辆节点成功接入基站的奖励,表示车辆节点未成功接入基站的奖励,值0.2表示接入边缘计算服务器对应奖励的权重,表示车辆节点成功接入边缘计算服务器的奖励,表示车辆节点未成功接入边缘计算服务器的奖励;
S5.2、设计DQN网络结构,其中,DQN的网络输入的维度为[1,H,W],其中,1表示通道数,H表示高,W表示宽,先通过5层卷积层逐步提取输入状态的特征,然后经过通道注意力模块来对特征通道进行加权,之后用两个全连接层分别对加权后的输出做特征选择,最后作相加融合得到各个输出动作的Q值。
进一步地,所述的步骤S6中DQN神经网络的训练和更新过程如下:
S6.1、初始化策略网络、目标网络权重和ε-greedy动作选择策略参数;
S6.2、初始化系统环境,得到系统状态s(t);
S6.3、策略网络根据系统状态作推理,并依据动作选择策略选择动作a(t);
S6.4、动作作用于环境,得到系统奖励r(t),并转移到下一状态s(t+1);
S6.5、将当前状态转移对[s(t),a(t),r(t),s(t+1)]存于经验回放池;
S6.6、从经验池抽取样本对策略网络进行训练,并更新目标网络权重。
本发明相对于现有技术具有如下的优点及效果:
1)本发明通过通信、计算和缓存资源的联合分配,结合NFV、SDN和ICN技术,物理资源被虚拟化且能够被切片以及独立分配,灵活且高效;
2)本发明通过DQN算法对通信、计算和缓存资源联合分配作优化,针对最大化通信小区内车辆节点请求任务总吞吐量的优化问题,在较低复杂度下获得了车联网系统的次优解;
3)本发明根据车联网通信场景数据的特点,定义了DQN的输入状态信息,并设计有效的神经网络结构来提取输入状态的特征信息,模型的鲁棒性好;
4)本发明考虑车辆节点的移动性,设定车辆节点接入基站的通信条件,从而保证车辆节点接收每个任务的完整性。
附图说明
图1是本发明实施例中公开的一种车联网中基于深度强化学习的资源联合分配方法的流程图;
图2是本发明实施例中车联网通信场景示意图;
图3是本发明实施例中DQN的网络结构图;
图4是本发明实施例中不同方案在不同车辆节点数时的吞吐量对比图;
图5是本发明实施例中不同车辆节点数在不同平均内容大小时的吞吐量对比图;
图6是本发明实施例中不同优化算法在不同车辆节点数时的吞吐量对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示为本发明中车联网中基于深度强化学习的资源联合分配方法的流程图,运用DQN算法作为优化算法,最大化通信小区内车辆节点请求视频任务的总吞吐量,具体步骤包括:
S1、构建一个包括车对基础设施通信和基础设施对数据中心通信的车联网通信场景,该车联网通信场景中每个基站均配置一个边缘计算服务器和缓存服务器,每个基站配置有限的频谱资源,该车联网通信场景中利用NFV和SDN技术对物理资源进行虚拟化,并根据车辆节点的时空分布为边缘计算服务器和缓存服务器配置有限的物理资源,最终由SDN集中控制物理资源的联合分配,其中,所述物理资源包括计算资源和缓存资源,SDN表示软件定义网络,NFV表示网络功能虚拟化,车联网通信场景中基于ICN技术进行内容的存储和检索,车辆具备V2I通信能力,其中,ICN表示信息中心化网络,V2I表示车辆到基础设施;
如图2所示为本发明车联网通信场景示意图,场景中每个基站均配置一个边缘计算服务器和缓存服务器,同时,基站、边缘计算服务器和缓存服务器配备有限的资源。数据中心与基站间通过有线连接通信,基站与基站间也通过有线连接通信,基站与车辆节点间则通过无线连接通信。车辆节点向基站请求视频任务,若请求的视频内容缓存于缓存服务器中且视频格式一致,则直接将视频内容回传给车辆节点;若格式不一致,则先通过MEC转码,然后再将视频内容回传;若请求的视频内容和格式都不存在于缓存服务器,则向数据中心请求并回传。本实施例优化的目标为最大化通信小区内车辆节点请求任务的总吞吐量,运用DQN算法来优化和实现通信、计算和缓存资源的联合分配。车联网通信场景的建模具体步骤包括:
S1.1、建立车辆节点与基站的通信模型,其中无线信道服从有限状态马尔可夫过程,具体方法如下:
上式中,bu,k表示基站k分配给车辆节点u的带宽,γu,k表示基站k到车辆节点u的信噪比。
基站k的下行速率上限为Gk,满足以下条件:
基站与基站间的通信为有线光纤通信,因为光纤的通信速率高,其通信时延远小于基站到车辆节点的下行时延,在此忽略基站间的通信时延。
车辆节点u与基站k的连接需要满足以下条件:
上式中,ρu,k为车辆节点u驶出基站k通信范围需走的距离,ωu为车辆节点u的行驶速率,λ为常量,取值为1.2。
S1.2、建立视频任务卸载到边缘计算服务器的计算模型,其中边缘计算服务器的算力分配服从有限状态马尔可夫过程,具体方法如下:
根据车辆节点的时空分布,利用SDN技术为边缘计算服务器配置好有限的计算资源,边缘计算服务器m的计算资源上限为Fm,满足以下条件:
上式中,β为常数,表示计算每Mb所需的CPU周期数。
S1.3、建立视频任务存储到缓存服务器的缓存模型,具体方法如下:
视频内容的存储和检索基于ICN技术,视频内容的检索时延远小于传输时延,因此忽略视频内容的检索时延。
缓存服务器c中的视频列表根据视频请求受欢迎程度每隔时间Tc更新一次,根据车辆节点的时空分布,利用SDN技术为缓存服务器配置有限的缓存资源,缓存服务器c的缓存资源上限为Hc,满足以下条件:
用表示车辆节点u请求的视频(v,w)是否缓存于缓存服务器c,取值为1或者0,当时,表示车辆节点u请求的视频(v,w)缓存于缓存服务器c,当时,表示车辆节点u请求的视频(v,w)没有缓存于缓存服务器c。
S2、针对每一车辆节点,基站收集通信小区内基础设施能够分配给车辆节点的通信、计算和缓存资源,作为深度强化学习网络DQN的输入状态;
利用步骤S1中定义的资源状态信息,构建深度强化学习网络DQN的输入状态Su(t),表示车辆节点u在时隙t的信息状态,表示方式如下:
其中,表示基站k在时隙t能分配给车辆节点u的下行速率,表示基站k在时隙t的下行速率使用占比,fu,m(t)表示边缘计算服务器m在时隙t能分配给车辆节点u的算力,表示边缘计算服务器m在时隙t的算力使用占比,表示缓存服务器在时隙t是否缓存有车辆节点u请求的视频(v,w),表示车辆节点u在时隙t请求的视频大小,vu(t)表示车辆节点u在时隙t请求的视频内容编号。
S3、车辆节点与基础设施的连接状态作为输出动作,具体步骤如下:
S3.1、通过DQN预测车辆节点与基站和边缘计算服务器的连接行为:
车辆节点与基站和边缘计算服务器的在时隙t的连接状态作为DQN的输出动作au(t),表达方式如下:
S3.2、通过规则决定车辆节点与缓存服务器的连接行为:
请求的视频内容若存在于缓存服务器或者需要通过边缘计算服务器转码再回传,此时的请求时延一般比从数据中心请求对应视频内容的时延要小得多。因此,先通过规则在通信小区内寻找缓存有视频(v,w)的缓存服务器,再让车辆节点与其连接,将会增加缓存内容的命中率,从而减小车辆节点的请求时延。
缓存有视频(v,w)的缓存集合为J(v,w)={c|v∈Vc,w∈Wc,c∈C},缓存有视频内容(v)的缓存集合为J(v)={c|v∈Vc,c∈C},则车辆节点选择连接到某一个缓存服务器的规则如下:
S4、以最大化通信小区内车辆节点请求任务的总吞吐量为目标,结合约束条件,建立最优化问题模型;
上式中,等号右侧第一项表示车辆节点u请求的视频(v,w)存在于缓存服务器c中,视频直接通过基站回传的时延;第二项表示车辆节点u请求的视频(v,w)需要先经过边缘计算服务器进行转码,然后再通过基站回传的时延;第三项表示车辆节点u请求的视频内容不存在于缓存服务器中,则基站向数据中心请求相应视频,然后再通过基站回传的时延。
最大化通信小区内所有车辆节点请求任务的总吞吐量,目标函数如下:
上述约束条件中,C1表示每一基站频谱资源的约束条件,C2表示每一边缘计算服务器算力资源的约束条件,C3表示每一车辆节点在每个时隙最多只能连接到一个基站,C4表示每一车辆节点在每个时隙最多只能连接到一个边缘计算服务器,C5表示每一车辆节点在每个时隙最多只能连接到一个缓存服务器,C6表示车辆与基站的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C7表示车辆与边缘计算服务器的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C8表示车辆与缓存服务器的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C9表示缓存服务器是否缓存有请求的视频(v,w),C10表示请求的视频(v,w)是否需要通过边缘计算服务器进行转码。
S5、根据最优化问题模型,设计DQN奖励函数和网络结构,具体步骤如下:
S5.1、设计DQN奖励函数,过程如下:
车辆节点u在时隙t的奖励函数为ru(t),表达式如下:
上式中,表示车辆节点成功接入基站的奖励,表示车辆节点未成功接入基站的奖励,值0.2表示接入边缘计算服务器对应奖励的权重,表示车辆节点成功接入边缘计算服务器的奖励,表示车辆节点未成功接入边缘计算服务器的奖励。
S5.2、设计DQN网络结构:
在状态空间和动作空间均很大时,基于Q表查询值迭代强化学习算法将会及其消耗内存和及其耗时,本发明采用神经网络结构来拟合Q表的状态动作函数,从而降低算法的复杂度。如图3所示为DQN的网络结构图,网络输入的维度为[1,H,W],其中,1表示通道数,H表示高,W表示宽,本实施例中H=7,W=5。结构图中,先通过5层卷积层逐步提取输入状态的特征,然后经过通道注意力模块来对特征通道进行加权,之后用两个全连接层分别对加权后的输出做特征选择,最后作相加融合得到各个输出动作的Q值。本实施例的具体车联网通信场景仿真参数如表1所示。
表1.车联网通信场景仿真参数表
S6、通过神经网络提取输入状态的特征,拟合各种输入状态下输出动作的Q值,并结合奖励函数训练和更新神经网络,DQN训练具体流程如下:
S6.1、初始化策略网络、目标网络权重和ε-greedy动作选择策略参数;
S6.2、初始化系统环境,得到系统状态s(t);
S6.3、策略网络根据系统状态作推理,并依据动作选择策略选择动作a(t);
S6.4、动作作用于环境,得到系统奖励r(t),并转移到下一状态s(t+1);
S6.5、将当前状态转移对[s(t),a(t),r(t),s(t+1)]存于经验回放池;
S6.6、从经验池抽取样本对策略网络进行训练,并更新目标网络权重。
S7、利用训练好的DQN,根据车辆节点的输入状态,输出相应的动作Q值序列,将Q值最大的动作作为车辆节点的通信、计算和缓存资源分配策略;其中,车辆节点与基站和边缘计算服务器的连接行为由DQN进行预测;车辆节点与缓存服务器的连接行为由公式(15)的规则决定。
图4为本实施例中不同方案在不同车辆节点数时的吞吐量比较,四种方案均采用DQN算法作优化,仿真的车辆节点数为20,系统工作时间为15秒,仿真时隙大小为0.15秒。方案“Proposed DRL-based scheme”考虑虚拟化、缓存和边缘计算,方案“Proposed schemew.o.virtualization”不考虑虚拟化,方案“Proposed scheme w.o.virtualization”不考虑虚拟化,方案“Proposed scheme w.o.edge caching”不考虑缓存,方案“Proposedscheme w.o.MEC offloading”不考虑边缘计算。其中虚拟化是指车辆节点在同一时隙可以连接不同基站的边缘计算服务器和缓存服务器,若不考虑虚拟化,车辆节点在连接基站后,其只能使用该基站配置的算力资源和缓存资源。由于存在资源的约束,各方案的吞吐量都在车辆节点数为35左右时达到饱和状态。从仿真曲线可看出,方案“Proposed DRL-basedscheme”在不同车辆节点数时的吞吐量均优于其他方案,说明考虑虚拟化,即资源能够被切片并独立分配,能够使系统资源分配更加灵活和高效。
图5为本实施例中不同车辆节点数在不同平均内容大小时的吞吐量,均采用“Proposed DRL-based scheme”方案,系统工作时间为15秒,仿真时隙大小为0.15秒。从仿真曲线可以看出,随着车辆节点每个时隙请求平均内容大小的不断增大,各曲线的吞吐量趋势均是先上升后下降。因为车辆节点在每个时隙只能请求一次视频内容,平均内容大小过小会导致传输时整体时隙利用率过低,所以会造成吞吐量过小。因为通信、计算和缓存资源存在上限,平均内容大小过大则会导致系统资源的利用率不高,从而造成吞吐量下降。
图6为实施例中不同优化算法在不同车辆节点数时的吞吐量比较,三种算法分别为“Random scheme”、“Greedy scheme”和“Proposed DRL-based scheme”,均考虑虚拟化、缓存和边缘计算。从仿真曲线可以看出,本发明提出的“Proposed DRL-based scheme”算法在不同车辆节点数时的吞吐量均大于另外两种算法。在系统吞吐量未达到饱和状态前,“Greedy scheme”算法的吞吐量大于“Greedy scheme”算法的吞吐量,原因是系统资源此时还比较富余,“Greedy scheme”算法每次取系统分配资源的最大值时,小概率会触发因资源达到上限而分配失败的情况,因而吞吐量会优于“Random scheme”。当系统吞吐量达到饱和状态时,“Greedy scheme”算法则会大概率触发资源达到上限这一条件,导致车辆节点在该时隙接入失败,从而造成其饱和状态时的吞吐量较小。本发明提出的“Proposed DRL-basedscheme”算法通过学习输入状态的特征,可以根据输入状态做出更加合理的决策,从而提高系统的吞吐量。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的资源联合分配方法包括以下步骤:
S1、构建一个包括车对基础设施通信和基础设施对数据中心通信的车联网通信场景,该车联网通信场景中每个基站均配置一个边缘计算服务器和缓存服务器,每个基站配置有限的频谱资源,该车联网通信场景中利用NFV和SDN技术对物理资源进行虚拟化,并根据车辆节点的时空分布为边缘计算服务器和缓存服务器配置有限的物理资源,最终由SDN集中控制物理资源的联合分配,其中,所述物理资源包括计算资源和缓存资源,SDN表示软件定义网络,NFV表示网络功能虚拟化,车联网通信场景中基于ICN技术进行内容的存储和检索,车辆具备V2I通信能力,其中,ICN表示信息中心化网络,V2I表示车辆到基础设施;
S2、针对每一车辆节点,基站收集通信小区内基础设施能够分配给车辆节点的通信、计算和缓存资源信息,包括基站到车辆的下行速率、基站频谱资源的占用率、边缘计算服务器分配给车辆的算力、边缘计算服务器算力资源的占用率、车辆节点请求的视频内容大小和视频内容编号,作为深度强化学习网络的输入状态,其中,深度强化学习网络简称为DQN;
S3、获取车辆节点与基础设施的连接状态,包括车辆节点与基站的连接、车辆节点与边缘计算服务器的连接,作为DQN的输出动作,其中,车辆节点与缓存服务器的连接通过规则控制;
S4、以最大化通信小区内车辆节点请求任务的总吞吐量为目标,结合约束条件,建立最优化问题模型;
S5、根据最优化问题模型,设计DQN奖励函数和DQN神经网络结构;
S6、通过步骤S5中设计得到的DQN神经网络提取输入状态的特征,拟合Q表的状态动作函数,得到各种输入状态下输出动作的Q值,并结合奖励函数训练和更新神经网络;
S7、利用训练好的DQN,根据车辆节点的输入状态,输出相应的动作Q值序列,将Q值最大的动作作为车辆节点的通信、计算和缓存资源分配策略。
2.根据权利要求1所述的一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的步骤S1过程如下:
S1.1、建立车辆节点与基站的通信模型,其中无线信道服从有限状态马尔可夫过程,具体如下:
上式中,bu,k表示基站k分配给车辆节点u的带宽,γu,k表示基站k到车辆节点u的信噪比;
基站k的下行速率上限为Gk,满足以下条件:
车辆节点u与基站k的连接需要满足以下条件:
上式中,ρu,k为车辆节点u驶出基站k通信范围需走的距离,ωu为车辆节点u的行驶速率,λ为常量;
S1.2、建立视频任务卸载到边缘计算服务器的计算模型,其中边缘计算服务器的算力分配服从有限状态马尔可夫过程,具体如下:
根据车辆节点的时空分布,利用SDN技术为边缘计算服务器配置有限的计算资源,边缘计算服务器m的计算资源上限为Fm,满足以下条件:
上式中,β为常数,表示计算每Mb所需的CPU周期数;
S1.3、建立视频任务存储到缓存服务器的缓存模型,具体如下:
基于ICN技术存储和检索视频内容,缓存服务器集合为 缓存服务器c中的视频内容集合为Vc={v1,v2,…,vQ},缓存服务器c中的视频格式集合为Wc={w1,w2,…,wQ},Q表示缓存服务器中缓存的视频数量;
缓存服务器c中的视频列表根据视频请求受欢迎程度每隔时间Tc更新一次,根据车辆节点的时空分布,利用SDN技术为缓存服务器配置有限的缓存资源,缓存服务器c的缓存资源上限为Hc,满足以下条件:
4.根据权利要求1所述的一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的步骤S3过程如下:
S3.1、通过DQN预测车辆节点与基站和边缘计算服务器的连接行为:
车辆节点与基站和边缘计算服务器的在时隙t的连接状态作为DQN的输出动作au(t),表达方式如下:
S3.2、通过规则决定车辆节点与缓存服务器的连接行为:
缓存有视频(v,w)的缓存集合为J(v,w)={c|v∈Vc,w∈Wc,c∈C},缓存有视频内容(v)的缓存集合为J(v)={c|v∈Vc,c∈C},则车辆节点选择连接到某一个缓存服务器的规则如下:
5.根据权利要求2所述的一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的步骤S4过程如下:
上式中,等号右侧第一项表示车辆节点u请求的视频(v,w)存在于缓存服务器c中,视频直接通过基站回传的时延;第二项表示车辆节点u请求的视频(v,w)需要先经过边缘计算服务器进行转码,然后再通过基站回传的时延;第三项表示车辆节点u请求的视频内容不存在于缓存服务器中,则基站向数据中心请求相应视频,然后再通过基站回传的时延;
最大化通信小区内所有车辆节点请求任务的总吞吐量,目标函数如下:
上述约束条件中,C1表示每一基站频谱资源的约束条件,C2表示每一边缘计算服务器算力资源的约束条件,C3表示每一车辆节点在每个时隙最多只能连接到一个基站,C4表示每一车辆节点在每个时隙最多只能连接到一个边缘计算服务器,C5表示每一车辆节点在每个时隙最多只能连接到一个缓存服务器,C6表示车辆与基站的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C7表示车辆与边缘计算服务器的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C8表示车辆与缓存服务器的连接行为,取值为0或1,当取值为1表示连接,当取值为0表示未连接,C9表示缓存服务器是否缓存有请求的视频(v,w),C10表示请求的视频(v,w)是否需要通过边缘计算服务器进行转码。
6.根据权利要求5所述的一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的步骤S5过程如下:
S5.1、设计DQN奖励函数如下:
车辆节点u在时隙t的奖励函数为ru(t),表达式如下:
上式中,表示车辆节点成功接入基站的奖励,表示车辆节点未成功接入基站的奖励,值0.2表示接入边缘计算服务器对应奖励的权重,表示车辆节点成功接入边缘计算服务器的奖励,表示车辆节点未成功接入边缘计算服务器的奖励;
S5.2、设计DQN网络结构,其中,DQN的网络输入的维度为[1,H,W],其中,1表示通道数,H表示高,W表示宽,先通过5层卷积层逐步提取输入状态的特征,然后经过通道注意力模块来对特征通道进行加权,之后用两个全连接层分别对加权后的输出做特征选择,最后作相加融合得到各个输出动作的Q值。
7.根据权利要求1所述的一种车联网中基于深度强化学习的资源联合分配方法,其特征在于,所述的步骤S6中DQN神经网络的训练和更新过程如下:
S6.1、初始化策略网络、目标网络权重和ε-greedy动作选择策略参数;
S6.2、初始化系统环境,得到系统状态s(t);
S6.3、策略网络根据系统状态作推理,并依据动作选择策略选择动作a(t);
S6.4、动作作用于环境,得到系统奖励r(t),并转移到下一状态s(t+1);
S6.5、将当前状态转移对[s(t),a(t),r(t),s(t+1)]存于经验回放池;
S6.6、从经验池抽取样本对策略网络进行训练,并更新目标网络权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110174006.0A CN112995950B (zh) | 2021-02-07 | 2021-02-07 | 一种车联网中基于深度强化学习的资源联合分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110174006.0A CN112995950B (zh) | 2021-02-07 | 2021-02-07 | 一种车联网中基于深度强化学习的资源联合分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112995950A true CN112995950A (zh) | 2021-06-18 |
CN112995950B CN112995950B (zh) | 2022-03-29 |
Family
ID=76347796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110174006.0A Active CN112995950B (zh) | 2021-02-07 | 2021-02-07 | 一种车联网中基于深度强化学习的资源联合分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112995950B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113596138A (zh) * | 2021-07-26 | 2021-11-02 | 东北大学 | 一种基于深度强化学习的异构信息中心网络缓存分配方法 |
CN113709701A (zh) * | 2021-08-27 | 2021-11-26 | 西安电子科技大学 | 一种毫米波车联网联合波束分配和中继选择方法 |
CN113726463A (zh) * | 2021-08-23 | 2021-11-30 | 山东交通学院 | 一种基于有限状态马尔科夫的宽带无线信道建模方法 |
CN113762512A (zh) * | 2021-11-10 | 2021-12-07 | 北京航空航天大学杭州创新研究院 | 分布式模型训练方法、系统及相关装置 |
CN113992706A (zh) * | 2021-09-09 | 2022-01-28 | 北京信息科技大学 | 车联网场景下请求内容放置的方法、装置及电子设备 |
CN114374949A (zh) * | 2021-12-31 | 2022-04-19 | 东莞理工学院 | 一种车联网中基于信息新鲜度优化的功率控制机制 |
CN114531669A (zh) * | 2022-01-14 | 2022-05-24 | 山东师范大学 | 一种基于车辆边缘计算的任务卸载方法及系统 |
CN114666807A (zh) * | 2022-05-26 | 2022-06-24 | 车路通科技(成都)有限公司 | V2x检测模型及构建方法、检测方法、系统、终端及介质 |
CN115499882A (zh) * | 2022-11-16 | 2022-12-20 | 之江实验室 | 边缘节点频谱与计算资源联合分配方法、装置和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110312231A (zh) * | 2019-06-28 | 2019-10-08 | 重庆邮电大学 | 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法 |
US20200104184A1 (en) * | 2018-09-27 | 2020-04-02 | Intel Corporation | Accelerated resource allocation techniques |
CN111132074A (zh) * | 2019-12-26 | 2020-05-08 | 华南理工大学 | 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法 |
CN111314889A (zh) * | 2020-02-26 | 2020-06-19 | 华南理工大学 | 车联网中基于移动边缘计算的任务卸载与资源分配方法 |
CN111565420A (zh) * | 2020-04-07 | 2020-08-21 | 大连理工大学 | 一种移动区块链中智能资源分配方法 |
CN112261674A (zh) * | 2020-09-30 | 2021-01-22 | 北京邮电大学 | 一种基于移动边缘计算及区块链协同赋能的物联网场景的性能优化方法 |
-
2021
- 2021-02-07 CN CN202110174006.0A patent/CN112995950B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200104184A1 (en) * | 2018-09-27 | 2020-04-02 | Intel Corporation | Accelerated resource allocation techniques |
CN110312231A (zh) * | 2019-06-28 | 2019-10-08 | 重庆邮电大学 | 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法 |
CN111132074A (zh) * | 2019-12-26 | 2020-05-08 | 华南理工大学 | 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法 |
CN111314889A (zh) * | 2020-02-26 | 2020-06-19 | 华南理工大学 | 车联网中基于移动边缘计算的任务卸载与资源分配方法 |
CN111565420A (zh) * | 2020-04-07 | 2020-08-21 | 大连理工大学 | 一种移动区块链中智能资源分配方法 |
CN112261674A (zh) * | 2020-09-30 | 2021-01-22 | 北京邮电大学 | 一种基于移动边缘计算及区块链协同赋能的物联网场景的性能优化方法 |
Non-Patent Citations (1)
Title |
---|
赵海涛等: "基于DQN的车载边缘网络任务分发卸载算法", 《通信学报》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113596138A (zh) * | 2021-07-26 | 2021-11-02 | 东北大学 | 一种基于深度强化学习的异构信息中心网络缓存分配方法 |
CN113726463A (zh) * | 2021-08-23 | 2021-11-30 | 山东交通学院 | 一种基于有限状态马尔科夫的宽带无线信道建模方法 |
CN113726463B (zh) * | 2021-08-23 | 2023-11-17 | 山东交通学院 | 一种基于有限状态马尔科夫的宽带无线信道建模方法 |
CN113709701A (zh) * | 2021-08-27 | 2021-11-26 | 西安电子科技大学 | 一种毫米波车联网联合波束分配和中继选择方法 |
CN113709701B (zh) * | 2021-08-27 | 2022-06-17 | 西安电子科技大学 | 毫米波车联网联合波束分配和中继选择方法、系统及设备 |
CN113992706B (zh) * | 2021-09-09 | 2023-05-23 | 北京信息科技大学 | 车联网场景下请求内容放置的方法、装置及电子设备 |
CN113992706A (zh) * | 2021-09-09 | 2022-01-28 | 北京信息科技大学 | 车联网场景下请求内容放置的方法、装置及电子设备 |
CN113762512A (zh) * | 2021-11-10 | 2021-12-07 | 北京航空航天大学杭州创新研究院 | 分布式模型训练方法、系统及相关装置 |
CN114374949A (zh) * | 2021-12-31 | 2022-04-19 | 东莞理工学院 | 一种车联网中基于信息新鲜度优化的功率控制机制 |
CN114531669A (zh) * | 2022-01-14 | 2022-05-24 | 山东师范大学 | 一种基于车辆边缘计算的任务卸载方法及系统 |
CN114531669B (zh) * | 2022-01-14 | 2024-06-07 | 山东师范大学 | 一种基于车辆边缘计算的任务卸载方法及系统 |
CN114666807A (zh) * | 2022-05-26 | 2022-06-24 | 车路通科技(成都)有限公司 | V2x检测模型及构建方法、检测方法、系统、终端及介质 |
CN115499882A (zh) * | 2022-11-16 | 2022-12-20 | 之江实验室 | 边缘节点频谱与计算资源联合分配方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112995950B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112995950B (zh) | 一种车联网中基于深度强化学习的资源联合分配方法 | |
CN112020103B (zh) | 一种移动边缘云中的内容缓存部署方法 | |
CN112218337B (zh) | 一种移动边缘计算中的缓存策略决策方法 | |
CN113507503B (zh) | 一种具有负载均衡的车联网资源分配方法 | |
Mehrabi et al. | A survey on mobility management for MEC-enabled systems | |
Zheng et al. | 5G network-oriented hierarchical distributed cloud computing system resource optimization scheduling and allocation | |
CN115297171A (zh) | 一种蜂窝车联网分级决策的边缘计算卸载方法及系统 | |
CN116321307A (zh) | 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法 | |
CN114863683B (zh) | 基于多目标优化的异构车联网边缘计算卸载调度方法 | |
CN110913239B (zh) | 一种精细化的移动边缘计算的视频缓存更新方法 | |
CN113206796A (zh) | 一种转算存一体化协同系统及方法 | |
CN113993168B (zh) | 一种雾无线接入网中基于多智能体强化学习的协作缓存方法 | |
Ouyang | Task offloading algorithm of vehicle edge computing environment based on Dueling-DQN | |
CN113672819B (zh) | 一种基于推荐感知和协作边缘缓存的内容请求处理系统 | |
CN112911614B (zh) | 基于动态请求d2d网络中的协作编码缓存方法 | |
Li et al. | Collaborative optimization of edge-cloud computation offloading in internet of vehicles | |
CN113766540B (zh) | 低时延的网络内容传输方法、装置、电子设备及介质 | |
CN113709853B (zh) | 面向云边协同的网络内容传输方法、装置及存储介质 | |
CN112261628B (zh) | 一种应用于d2d设备的内容边缘缓存架构方法 | |
CN113315806B (zh) | 一种面向云网融合的多接入边缘计算架构 | |
WO2022217503A1 (zh) | 一种面向云网融合的多接入边缘计算架构 | |
CN115065683A (zh) | 基于车辆聚类的车辆边缘网络任务分配卸载方法 | |
CN114245422A (zh) | 一种基于簇内智能共享的边缘主动缓存方法 | |
CN115002138A (zh) | 一种基于终端无人机巡航视频数据的边缘缓存方法 | |
CN108429919B (zh) | 多速率视频在无线网络中的缓存和传输优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |