CN116132952A - 一种基于深度强化学习的车联网区分优先级频谱分配方法 - Google Patents

一种基于深度强化学习的车联网区分优先级频谱分配方法 Download PDF

Info

Publication number
CN116132952A
CN116132952A CN202310139585.4A CN202310139585A CN116132952A CN 116132952 A CN116132952 A CN 116132952A CN 202310139585 A CN202310139585 A CN 202310139585A CN 116132952 A CN116132952 A CN 116132952A
Authority
CN
China
Prior art keywords
link
data
field
vehicle
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310139585.4A
Other languages
English (en)
Inventor
官铮
蔡玉
王宇阳
王增文
杨志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN202310139585.4A priority Critical patent/CN116132952A/zh
Publication of CN116132952A publication Critical patent/CN116132952A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的车联网区分优先级频谱分配方法,包括以下步骤:步骤S1、基站广播信标帧beacon,发送链路分配信息;步骤S2、车辆接收信标帧beacon,并根据信标帧的内容选择向基站传输车辆状态信息序列
Figure DDA0004087091850000011
或向基站发送请求发送帧RTS;步骤S3、基站接收车辆传输的数据,判断车辆传输状态;步骤S4、基站利用深度强化学习对收到的车辆状态信息序列
Figure DDA0004087091850000012
进行频谱分配;并根据链路优先级更新深度强化学习的奖励和链路状态信息。本发明解决了现有技术中V2V链路无法区分实现优先级频谱分配的问题。

Description

一种基于深度强化学习的车联网区分优先级频谱分配方法
技术领域
本发明属于信息技术领域,涉及一种基于深度强化学习的车联网区分优先级频谱分配方法。
背景技术
车联网是智慧出行的主要组成部分,是智慧城市中信息通信技术(InformationCommunication Technology,ICT)的主要来源。车联网具有离散性及动态的拓扑结构,其中各个节点可以独立加入和脱离,并且可以在不需要现有基础设施的情况下构建。车辆可以通过具有传感和通信能力的车载单元(On board Unit,OBU)与感知范围内的其他车辆通过无线网络进行连接并传递各种信息,此外,车辆还可以与路边基础设施建立无线连接来收发各种信息。由于车联网具有高移动性和动态拓扑结构,所以通常利用D2D通信的无线接入技术(radio access technologies,RAT)进行车联网的信息传输。
在美国,直接短程通信(Direct Short-Range Communication,DSRC)被电气与电子工程师协会(Institute ofElectrical and Electronics Engineers,IEEE)标准化为车载环境中的无线接入(Wireless Access in Vehicular Environment,WAVE)。在DSRC中,当一辆车想要向另一辆相邻的车发送消息时,该消息被传递到媒体访问控制(Medium AccessControl,MAC)层。这一层负责保证数据传输过程。它决定节点何时可以发送、接收或在该过程中保持静默。DSRC MAC层基于IEEE 802.11p标准,该标准采用具有冲突避免的载波侦听多路访问(Carrier Sense MultipleAccess with Collision Avoidance,CSMA/CA)的增强型分布式协调功能机制。
在车联网的频谱信息分配问题的研究过程中,利用基站BS对车辆观测数据进行汇总和压缩,然后将压缩后的信息反馈给基站,在基站上进行强化学习过程,以提高网络中的频谱共享决策性能;使用频谱数据库来指导频谱资源的合理分配,频谱数据库对车联网用户的保护边界依照车联网用户的实时位置进行调整,实现了空闲频谱的合理利用。但在现实生活中,道路上随处可见特殊车辆,如警车、救护车、消防车等,这些特殊车辆具有更高的信息通信质量要求,应在资源配置中给予更高保障。而现有技术中均是公平竞争频谱资源,无法实现频谱的优先分配。针对这些需要优先分配频谱的特殊车辆,本发明基于强化学习首先提出了一种多业务V2X(Vehicle to Everything)场景中紧急业务V2V链路的区分优先级频谱资源共享机制。该机制中引入了链接优先机制,通过强化学习(ReinforcementLearning,RL)的奖励设计,优先级高的链接可以获得更好的信息交互环境。为进一步提升系统整体性能,减少系统计算复杂度,后续利用二值化反馈量化对数据进行进一步压缩并利用分布式长短期记忆(Long Short-TermMemory,LSTM)网络对每条V2V链路观测到的数据进行预测以减少总体网络负担,提升系统总体性能。
发明内容
为实现上述目的,本发明提供一种基于深度强化学习的车联网区分优先级频谱分配方法,解决了现有技术中V2V链路无法区分实现优先级频谱分配的问题。
本发明所采用的技术方案是,一种基于深度强化学习的车联网区分优先级频谱分配方法,包括以下步骤:
步骤S1、基站广播信标帧beacon,发送链路分配信息;
步骤S2、车辆接收信标帧beacon,并根据信标帧的内容选择向基站传输车辆状态信息序列
Figure BDA0004087091680000023
或向基站发送请求发送帧RTS;
步骤S3、基站接收车辆传输的数据,判断车辆传输状态;
步骤S4、基站利用深度强化学习对收到的车辆状态信息序列
Figure BDA0004087091680000022
进行频谱分配;并根据链路优先级更新深度强化学习的奖励和链路状态信息。
进一步地,所述信标帧beacon用于基站周期广播beacon,传输频谱分配信息,包括Frame Control、Src、Dest、Beacon Interval、Channel、FCS字段;其中,Frame Control字段为控制字段,Frame Control字段中的Typeb3b2=00,Frame Control字段中Subtype部分b7b6b5b4=1000;Src字段,标明发送者地址;Dest字段,标明接收者地址;Beacon Interval标注周期间隔;Channel字段,标注分配的链路Cha0~Cha3,Cha0~Cha3中标明链路信息,用于V2V链路配置信息;FCS字段为16bit的ITU-TCRC校验位;
所述请求发送帧RTS:用于车辆向基站发送接入请求,包括Frame Control、Src、Dest、Serv_type、state、FCS字段,Frame Control字段为控制字段,Frame Control字段中Type b3b2=01,Frame Control字段中Subtype部分b7b6b5b4=1011;Src字段,标明发送者地址;Dest字段,标明接收者地址;Serv_type字段,用于区分V2V链路和V2I链路;State字段,用于存储用户状态信息;FCS字段为16bit的ITU-TCRC校验位。
进一步地,所述步骤S2中,车辆接收信标帧beacon后,解析数据包,若分配有链路,则等待帧间间隔之后,通过数据帧Data传输车辆状态信息序列
Figure BDA0004087091680000021
若没有分配链路,则向基站发送请求发送帧RTS,请求分配链路。
进一步地,所述车辆状态信息序列
Figure BDA0004087091680000031
的获取步骤为:
将当前车辆状态信息oj输入至DNN网络,利用DNN网络进行数据压缩得到yj;DNN网络的输出yj经过二值化反馈函数处理得到fj={fj,k},将完成二值化处理的车辆状态信息fj输入分布式LSTM网络,经过分布式LSTM网络预处理得到
Figure BDA0004087091680000032
序列;其中,
Figure BDA0004087091680000033
指第j条V2V链路的第k个反馈元素,Nj表示第j条V2V链路学习的反馈数;
其中,当前车辆状态信息oj包括发射功率
Figure BDA0004087091680000034
来自其他链路的合计干扰功率Ij、当前V2V链路到所有V2I链路的交叉信道增益Hj,B和当前信道功率增益Hj,具体表示为
Figure BDA0004087091680000035
进一步地,所述DNN网络的隐藏层数为3,三个隐藏层的神经元数目分别设置为16、32和16,每一个隐藏层之后使用校正线性单元激活函数,输出层的激活函数设置为线性函数。
进一步地,所述步骤S3中车辆传输状态的判断方法为:
若数据帧Data的字段Last=0xFF,表示数据传输完成,即将释放当前V2V链路,若Last=0x00,表示数据传输未完成,需继续占用V2V链路。
进一步地,所述步骤S4中频谱分配通过深度强化学习网络DQN实现,具体为:
步骤S31、将基站所接收到的周围车辆环境信息作为强化学习RL中的状态信息S,表示为S={f1,...fj,...,fn},其中,fj表示第j条V2V链路的二值化状态信息,n表示V2V链路数量,j=1…n;
步骤S32、确定每条V2V链路的频谱分配方案A,其中A={ρ12,...,ρj},
Figure BDA0004087091680000036
表示频谱分配方案,ρj[i]为二进制频带分配指示变量,ρj[i]取值为1时表示占用该链路,取值为0时表示不占用。
进一步地,所述深度强化学习网络DQN的隐藏层数设定为3,三个隐藏层的神经元数目分别设置为1200,800和600,使用校正线性单元激活函数,输出层的激活函数设置为线性函数;采用RMSProp优化器更新网络参数,学习率为0.001,损失函数设置为Huber损失,整个神经网络训练时的探索率ε设置为从1到0.01线性衰退;每个训练集的步数T设置为1000,DQN网络的更新频率设置为500步;训练时的折扣率γ设置为0.05。经验记忆单元的大小设置为1×106,小样本数据大小设置为512。
进一步地,所述步骤S4中深度强化学习的奖励表示为:
Figure BDA0004087091680000041
其中λc表示V2I链路权重,λd表示V2V链路权重,λf表示优先级链路受干扰权重,
Figure BDA0004087091680000042
表示第i条V2I链路的传输功率,
Figure BDA0004087091680000043
表示第j条V2V链路的传输功率,I1表示优先级链路接收到的总干扰。
进一步地,所述数据帧Data:用于车辆间的数据传输,包括Frame Control、Src、Dest、Dsn、Last、Data、FCS字段;Frame Control字段为控制字段,Frame Control字段中Type b3b2=10,Frame Control字段中Subtype部分b7b6b5b4=0000;Src字段,标明发送者地址;Dest字段,标明接收者地址;Dsn字段,标明当前数据序号;Last字段,标明当前数据包是否为缓冲区中最后一个数据,其中,Last=0xFF表示是,Last=0x00表示缓冲区中还有剩余数据;Data字段,用于存储车辆间传输的数据信息;FCS字段为16bit的ITU-TCRC校验位。
本发明的有益效果是
1.解决了蜂窝用户(Cellular Users,CU)和设备到设备(Device to Device,D2D)用户共存的车辆网络中,频谱的动态分配问题。
2.通过构建加权和奖励函数,实现了V2I链路和V2V链路之间的速率、干扰的动态自适应。
3.实现了基于优先级的频谱分配。
4.引入二值化反馈量化对数据进行更进一步的压缩处理。
5.利用分布式LSTM网络对基站BS的输入数据进行预测减少了系统计算复杂度,提升了总体性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的包含有DNN网络和DQN网络的车联网频谱分配系统示意图。
图2是本发明实施例的帧格式构成示意图。
图3是本发明实施例的Frame Control字段格式示意图。
图4是本发明实施例的Frame Control字段中Type和Subtype部分的赋值示意图。
图5是本发明实施例的车辆控制方法流程图。
图6是本发明实施例的基站控制方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于深度强化学习的车联网区分优先级频谱分配方法,引入了链接优先机制,通过强化学习的奖励设计,优先级高的链接可以获得更好的信息交互环境。为进一步提升系统整体性能,减少系统计算复杂度,后续利用二值化反馈量化对数据进行进一步压缩并利用分布式LSTM网络对每条V2V链路观测到的数据进行预测以减少总体网络负担,提升系统总体性能。具体的,本发明包括以下5大部分:
1.定义帧格式
如图2所示,本实施例提供的帧格式共有三种:请求发送帧(RTS)、数据帧(Data)、信标帧(Beacon);三类帧结构中的Frame Control字段定义与IEEE802.11相同,参见图3~图4,其中使用Type和Subtype字段标明信息包类型。FCS字段为16bit的ITU-T CRC校验位;
请求发送帧RTS:用于车辆向基站发送接入请求,包括Frame Control、Src、Dest、Serv_type、state、FCS字段。Frame Control字段为控制字段,2字节,其中Type b3b2=01,Subtype部分b7b6b5b4=1011;Src字段,2字节,标明发送者地址;Dest字段,2字节,标明接收者地址;Serv_type字段,1字节,用于区分V2V链路和V2I链路;State字段,2字节,用于存储用户状态信息;FCS字段为16bit的ITU-TCRC校验位。
数据帧Data:用于车辆间的数据传输,包括Frame Control、Src、Dest、Dsn、Last、Data、FCS字段。Frame Control字段,2字节,其中Type b3b2=10,Subtype部分b7b6b5b4=0000;Src、Dest、FCS字段定义与RTS中相同;Dsn字段,1字节,标明当前数据序号;Last字段,1字节,标明当前数据包是否为缓冲区中最后一个数据,其中,Last=0xFF表示是,Last=0x00表示缓冲区中还有剩余数据;Data字段,2字节,用于存储车辆间传输的数据信息。
信标帧Beacon:用于基站周期广播beacon,传输频谱分配信息,包括FrameControl、Src、Dest、Beacon Interval、Channel、FCS字段。Frame Control字段,2字节,其中Type b3b2=00,Subtype部分b7b6b5b4=1000;Src、Dest、FCS字段定义与RTS中相同;Beacon Interval标注周期间隔;Channel字段,1个字节,标注分配的链路Cha0~Cha3,Cha0~Cha3标明链路信息,用于V2V链路配置信息。
2.接入控制策略
基于IEEE802.11分布式协调机制(Distributed Coordination Function,DCF)是节点共享无线信道进行数据传输的基本接入方式,它把CSMA/CA(Carrier Sense MultipleAccess with Collision Avoidance)技术和确认(ACK)技术结合起来,采用二进制指数回退策略来避免冲撞。DCF是基于竞争机制,提供分布式接入,多个分布式无线节点抢同一资源。
在基站(BS)对数据进行处理的过程中,广播beacon,发送链路分配信息;车辆接收到beacon中所含链路分配信息,按照链路分配传输数据;基站判断车辆的传输状态,若数据帧Last=0xFF,表示数据传输完成,可释放当前V2V链路;若Last=0x00,表示数据传输未完成,继续占用V2V链路;更新链路信息和奖励R。
在车辆传输数据的过程中,车辆状态初始化,生成车辆状态信息序列;当接收到基站广播的beacon,解析数据包,若分配有链路,则等待帧间间隔之后,传输数据;若没有分配链路,则向基站发送RTS帧,请求分配链路。
参见图6,基站控制方法为:
步骤1:发送信标帧beacon;
步骤2:接收数据,判断车辆传输状态;若数据帧的Last=0xFF,表示数据传输完成,即将释放当前V2V链路,若Last=0x00,表示数据传输未完成,需继续占用V2V链路;
步骤3:更新奖励和链路状态信息;
步骤4:基站根据深度强化学习网络(Deep Q-learning Network,DQN)进行链路分配;等待beacon周期结束,返回步骤1。
参见图5,车辆控制方法为:
步骤1:状态初始化,生成车辆状态信息序列
Figure BDA0004087091680000061
步骤2:接收beacon;
步骤3:若分配有链路,则等待帧间间隔之后,传输车辆状态信息序列
Figure BDA0004087091680000062
否则向基站发送请求发送帧RTS帧请求链路分配;
步骤4:数据传输完毕,返回步骤1。
3.利用深度神经网络(DNN)压缩车辆状态信息
将车辆状态信息输入至DNN网络中进行压缩。DNN网络的隐藏层数设定为3,三个隐藏层的神经元数目分别设置为16、32和16,每一个隐藏层之后使用校正线性单元(RELU)激活函数,输出层的激活函数设置为线性函数。
车辆状态信息包括发射功率
Figure BDA0004087091680000071
来自其他链路的合计干扰功率Ij、当前V2V链路到所有V2I链路的交叉信道增益Hj,B和当前信道功率增益Hj,则当前车辆状态信息表示为:
Figure BDA0004087091680000072
将车辆状态信息oj输入至DNN网络,利用DNN网络进行数据压缩得到yj
4.对DNN网络的输出yj进行二值化及分布式LSTM预测
在本发明中,二值化反馈函数表示为:
F(x)=f(tanh(W0x+b0))
其中,W0和b0分别表示线性权值和偏差。DNN网络的输出yj经过二值化反馈函数处理得到fj={fj,k},其中,fj表示完成二值化处理的车辆状态信息,
Figure BDA0004087091680000073
指的是第j条V2V链路的第k个反馈元素,其中Nj表示第j条V2V链路学习的反馈数,本实施例中反馈数设置为3。
将完成二值化处理的车辆状态信息fj输入分布式LSTM网络,分布式LSTM网络即分别对每一条V2V链路的车辆状态信息fj进行LSTM预处理,经过分布式LSTM网络预测得到
Figure BDA0004087091680000074
序列,发送给位于基站BS的DQN网络,作为频谱分配算法的状态输入。分布式LSTM网络的隐藏层的神经元数目设置为512,以Sigmoid的形式做反向传播。
5.利用DQN网络进行训练
DQN网络使用强化学习对所有V2V链路的频谱分配做出最优决策。DQN网络的隐藏层数设定为3,三个隐藏层的神经元数目分别设置为1200,800和600,使用校正线性单元(RELU)激活函数,输出层的激活函数设置为线性函数。此外,采用RMSProp优化器更新网络参数,学习率为0.001,损失函数设置为Huber损失,整个神经网络训练时的探索率ε设置为从1到0.01线性衰退。每个训练集的步数T设置为1000,DQN网络的更新频率设置为500步。训练时的折扣率γ设置为0.05。经验记忆单元的大小设置为1×106,小样本数据大小设置为512。
在本发明中,将基站BS作为RL(强化学习)中的智能体(Agent),Agent通过采取行动与其周围环境进行交互,然后观察到来自环境的相应的数字奖励。Agent的目标是找到最优行动,从而使预期的回报之和最大化。RL中的状态信息S表示为BS所感知到的周围车辆环境信息,即DNN网络的输出,表示为:
S={f1,...fj,...,fn}
其中,fj表示第j(j=1…n)条V2V链路的二值化状态信息,n表示V2V链路数量,在本实施例中共有4条V2V链路,即n=4。BS的动作是确定每条V2V链路的频谱分配方案。因此这里将动作定义为:
A={ρ12,...,ρj}
其中,
Figure BDA0004087091680000081
表示频谱分配方案,ρj[i]为二进制频带分配指示变量,取值为1时表示占用该链路,取值为0时表示不占用
在本实施例中,假设第一条V2V链路为优先级链路,此时RL的奖励可以设计如下:
Figure BDA0004087091680000082
其中λc表示V2I链路权重,λd表示V2V链路权重,λf表示优先级链路受干扰权重,
Figure BDA0004087091680000083
表示第i条V2I链路的传输功率,
Figure BDA0004087091680000084
表示第j条V2V链路的传输功率,I1表示优先级链路接收到的总干扰。
在每个时间步t∈{1,2,…,T},每条V2V链路采用其观测值
Figure BDA0004087091680000085
作为DNN的输入,以获得其反馈
Figure BDA0004087091680000086
然后将其发送到BS。之后,BS将
Figure BDA0004087091680000087
作为DQN的输入以生成判决结果at,并向所有V2V广播at。最后,每条V2V链路根据判决结果at选择各自的频谱。
实施例
本实施例所示为在车联网中利用强化学习进行频谱资源分配。在该实施例中,参见图1,有一个基站BS和四辆车,其中有一辆车为消防车,将消防车对应的V2V链路设置为优先级链路,DQN网络的训练次数设置为2000次。本实施例开始,基站根据DQN网络进行链路分配,广播beacon,判断车辆的传输状态,根据车辆的传输状态,判断是否释放V2V链路,最后更新奖励和链路状态信息。车辆在开始生成状态信息序列,当基站开始广播beacon时,接收beacon,若此前分配有链路,则传输信息,若未分配链路,则发送RTS帧,请求链路分配。具体控制流程如下所示:
1、基站在开始阶段,根据车辆生成的状态信息序列,利用DQN网络分配链路信息;
2、基站广播beacon;
3、车辆接收beacon,四辆车分别根据链路分配信息,进行数据传输;
上述流程反复循环2000次之后,DQN模型训练完成,车辆根据决策结果,选择最优的链路分配。
表1本发明和现有技术的相关对比数据
Figure BDA0004087091680000091
表1中列出了本发明所提出的方案与其余三种方案的性能比较。三种方案分别是对每条链路公平考虑的分布式LSTM网络未加优先级的频谱分配算法(DNL-Decision)、集中式LSTM网络频谱分配算法(CL-Decision)和随机频谱分配方案。在这三种方案中CL-Decision考虑了优先级链路,由于DNL-Decision方案和随机频谱分配方案对于各条V2V链路的考虑是平等的,并没有区分优先链路,所以将所有V2V链路的平均速率作为优先级链路的速率。在本发明中,高优先级链路接收到的平均总干扰小于普通链路,即优先级链路具有更好的信息传输环境,体现了优先级的优势。普通链路平均接收总干扰略低于DNL-Decision方案、CL-Decision方案,优于随机方案。此外,V2V链路平均速率和V2I链路平均速率较其余四种方案均有提升。综上所述,本发明提出的方案明显具有优先级优势,性能优于DNL-Decision方案、CL-Decision方案和随机频谱分配方案。这表明本发明所提出的方案更适合现实生活中业务需求迫切的车联网环境。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于,包括以下步骤:
步骤S1、基站广播信标帧beacon,发送链路分配信息;
步骤S2、车辆接收信标帧beacon,并根据信标帧的内容选择向基站传输车辆状态信息序列
Figure FDA0004087091610000011
或向基站发送请求发送帧RTS;
步骤S3、基站接收车辆传输的数据,判断车辆传输状态;
步骤S4、基站利用深度强化学习对收到的车辆状态信息序列
Figure FDA0004087091610000012
进行频谱分配;并根据链路优先级更新深度强化学习的奖励和链路状态信息。
2.根据权利要求1所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于,所述信标帧beacon用于基站周期广播beacon,传输频谱分配信息,包括FrameControl、Src、Dest、Beacon Interval、Channel、FCS字段;其中,Frame Control字段为控制字段,Frame Control字段中的Type b3b2=00,Frame Control字段中Subtype部分b7b6b5b4=1000;Src字段,标明发送者地址;Dest字段,标明接收者地址;Beacon Interval标注周期间隔;Channel字段,标注分配的链路Cha0~Cha3,Cha0~Cha3中标明链路信息,用于V2V链路配置信息;FCS字段为16bit的ITU-TCRC校验位;
所述请求发送帧RTS:用于车辆向基站发送接入请求,包括Frame Control、Src、Dest、Serv_type、state、FCS字段,Frame Control字段为控制字段,Frame Control字段中Typeb3b2=01,Frame Control字段中Subtype部分b7b6b5b4=1011;Src字段,标明发送者地址;Dest字段,标明接收者地址;Serv_type字段,用于区分V2V链路和V2I链路;State字段,用于存储用户状态信息;FCS字段为16bit的ITU-TCRC校验位。
3.根据权利要求1所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于,所述步骤S2中,车辆接收信标帧beacon后,解析数据包,若分配有链路,则等待帧间间隔之后,通过数据帧Data传输车辆状态信息序列
Figure FDA0004087091610000013
若没有分配链路,则向基站发送请求发送帧RTS,请求分配链路。
4.根据权利要求1或3所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于,所述车辆状态信息序列
Figure FDA0004087091610000014
的获取步骤为:
将当前车辆状态信息oj输入至DNN网络,利用DNN网络进行数据压缩得到yj;DNN网络的输出yj经过二值化反馈函数处理得到fj={fj,k},将完成二值化处理的车辆状态信息fj输入分布式LSTM网络,经过分布式LSTM网络预处理得到
Figure FDA0004087091610000015
序列;其中,fj,k,
Figure FDA0004087091610000021
指第j条V2V链路的第k个反馈元素,Nj表示第j条V2V链路学习的反馈数;
其中,当前车辆状态信息oj包括发射功率
Figure FDA0004087091610000022
来自其他链路的合计干扰功率Ij、当前V2V链路到所有V2I链路的交叉信道增益Hj,B和当前信道功率增益Hj,具体表示为
Figure FDA0004087091610000023
5.根据权利要求4所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于:
所述DNN网络的隐藏层数为3,三个隐藏层的神经元数目分别设置为16、32和16,每一个隐藏层之后使用校正线性单元激活函数,输出层的激活函数设置为线性函数。
6.根据权利要求1所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于,所述步骤S3中车辆传输状态的判断方法为:
若数据帧Data的字段Last=0xFF,表示数据传输完成,即将释放当前V2V链路,若Last=0x00,表示数据传输未完成,需继续占用V2V链路。
7.根据权利要求1所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于,所述步骤S4中频谱分配通过深度强化学习网络DQN实现,具体为:
步骤S31、将基站所接收到的周围车辆环境信息作为强化学习RL中的状态信息S,表示为S={f1,...fj,...,fn},其中,fj表示第j条V2V链路的二值化状态信息,n表示V2V链路数量,j=1…n;
步骤S32、确定每条V2V链路的频谱分配方案A,其中A={ρ12,...,ρj},ρj={ρj[i]},
Figure FDA0004087091610000024
表示频谱分配方案,ρj[i]为二进制频带分配指示变量,ρj[i]取值为1时表示占用该链路,取值为0时表示不占用。
8.根据权利要求7所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于,所述深度强化学习网络DQN的隐藏层数设定为3,三个隐藏层的神经元数目分别设置为1200,800和600,使用校正线性单元激活函数,输出层的激活函数设置为线性函数;采用RMSProp优化器更新网络参数,学习率为0.001,损失函数设置为Huber损失,整个神经网络训练时的探索率ε设置为从1到0.01线性衰退;每个训练集的步数T设置为1000,DQN网络的更新频率设置为500步;训练时的折扣率γ设置为0.05,经验记忆单元的大小设置为1×106,小样本数据大小设置为512。
9.根据权利要求1、7、8任一项所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于,所述步骤S4中深度强化学习的奖励表示为:
Figure FDA0004087091610000031
其中λc表示V2I链路权重,λd表示V2V链路权重,λf表示优先级链路受干扰权重,
Figure FDA0004087091610000032
表示第i条V2I链路的传输功率,
Figure FDA0004087091610000033
表示第j条V2V链路的传输功率,I1表示优先级链路接收到的总干扰。
10.根据权利要求3所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于:
所述数据帧Data:用于车辆间的数据传输,包括Frame Control、Src、Dest、Dsn、Last、Data、FCS字段;Frame Control字段为控制字段,Frame Control字段中Type b3b2=10,Frame Control字段中Subtype部分b7b6b5b4=0000;Src字段,标明发送者地址;Dest字段,标明接收者地址;Dsn字段,标明当前数据序号;Last字段,标明当前数据包是否为缓冲区中最后一个数据,其中,Last=0xFF表示是,Last=0x00表示缓冲区中还有剩余数据;Data字段,用于存储车辆间传输的数据信息;FCS字段为16bit的ITU-TCRC校验位。
CN202310139585.4A 2023-02-20 2023-02-20 一种基于深度强化学习的车联网区分优先级频谱分配方法 Pending CN116132952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310139585.4A CN116132952A (zh) 2023-02-20 2023-02-20 一种基于深度强化学习的车联网区分优先级频谱分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310139585.4A CN116132952A (zh) 2023-02-20 2023-02-20 一种基于深度强化学习的车联网区分优先级频谱分配方法

Publications (1)

Publication Number Publication Date
CN116132952A true CN116132952A (zh) 2023-05-16

Family

ID=86308039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310139585.4A Pending CN116132952A (zh) 2023-02-20 2023-02-20 一种基于深度强化学习的车联网区分优先级频谱分配方法

Country Status (1)

Country Link
CN (1) CN116132952A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117939474A (zh) * 2024-03-21 2024-04-26 江苏海平面数据科技有限公司 基于车联网大数据的通讯终端检测系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117939474A (zh) * 2024-03-21 2024-04-26 江苏海平面数据科技有限公司 基于车联网大数据的通讯终端检测系统和方法

Similar Documents

Publication Publication Date Title
Nguyen et al. A survey on adaptive multi-channel MAC protocols in VANETs using Markov models
CN108631968A (zh) 一种数据反馈资源的确定方法及装置
Niyato et al. Optimal channel access management with QoS support for cognitive vehicular networks
CN107580340A (zh) 一种v2x网络中的资源调度方法
CN102244683B (zh) 一种提高车联网应用中混合业务服务质量的方法
CN113194440B (zh) 车联网中传输资源的抢占方法
Bazzi et al. Beaconing from connected vehicles: IEEE 802.11 p vs. LTE-V2V
Hussain et al. An efficient channel access scheme for vehicular ad hoc networks
CN110058928B (zh) 异构车联网中基于鞅理论的计算任务分配方法
CN109905921B (zh) 一种多信道环境下车联网v2r/v2v协作数据传输调度方法
Nguyen et al. Joint offloading and IEEE 802.11 p-based contention control in vehicular edge computing
CN106171025A (zh) 一种车联网传输资源调度方法及装置
CN106060944A (zh) 车联网中多信道mac协议与tdma结合的方法
CN107094321B (zh) 一种基于多智能体q学习的车载通信mac层信道接入方法
Togou et al. Performance analysis and enhancement of wave for v2v non-safety applications
CN116132952A (zh) 一种基于深度强化学习的车联网区分优先级频谱分配方法
WO2020168900A1 (zh) 用于侧行链路通信的调度方法、终端装置以及网络装置
Srivastava et al. A cross layer based cooperative broadcast protocol for multichannel VANET
Choi et al. Joint optimization of message transmissions with adaptive selection of CCH interval in VANETs
Yang et al. Priority-based hybrid MAC protocol for VANET with UAV-enabled roadside units
Lim et al. Improving VANET performance with heuristic and adaptive fuzzy logic scheme
CN112866947A (zh) 一种车联网中分布式资源调度方法
Ouni et al. Enhanced EDCA with deterministic transmission collision resolution for real-time communication in vehicular ad hoc networks
CN107360593A (zh) 选择信息传输资源的方法及系统
Jin et al. A Deep Reinforcement Learning-based Two-dimensional Resource Allocation Technique for V2I communications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination