CN116132952A - 一种基于深度强化学习的车联网区分优先级频谱分配方法 - Google Patents
一种基于深度强化学习的车联网区分优先级频谱分配方法 Download PDFInfo
- Publication number
- CN116132952A CN116132952A CN202310139585.4A CN202310139585A CN116132952A CN 116132952 A CN116132952 A CN 116132952A CN 202310139585 A CN202310139585 A CN 202310139585A CN 116132952 A CN116132952 A CN 116132952A
- Authority
- CN
- China
- Prior art keywords
- link
- data
- field
- vehicle
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/46—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0453—Resources in frequency domain, e.g. a carrier in FDMA
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
Description
技术领域
本发明属于信息技术领域,涉及一种基于深度强化学习的车联网区分优先级频谱分配方法。
背景技术
车联网是智慧出行的主要组成部分,是智慧城市中信息通信技术(InformationCommunication Technology,ICT)的主要来源。车联网具有离散性及动态的拓扑结构,其中各个节点可以独立加入和脱离,并且可以在不需要现有基础设施的情况下构建。车辆可以通过具有传感和通信能力的车载单元(On board Unit,OBU)与感知范围内的其他车辆通过无线网络进行连接并传递各种信息,此外,车辆还可以与路边基础设施建立无线连接来收发各种信息。由于车联网具有高移动性和动态拓扑结构,所以通常利用D2D通信的无线接入技术(radio access technologies,RAT)进行车联网的信息传输。
在美国,直接短程通信(Direct Short-Range Communication,DSRC)被电气与电子工程师协会(Institute ofElectrical and Electronics Engineers,IEEE)标准化为车载环境中的无线接入(Wireless Access in Vehicular Environment,WAVE)。在DSRC中,当一辆车想要向另一辆相邻的车发送消息时,该消息被传递到媒体访问控制(Medium AccessControl,MAC)层。这一层负责保证数据传输过程。它决定节点何时可以发送、接收或在该过程中保持静默。DSRC MAC层基于IEEE 802.11p标准,该标准采用具有冲突避免的载波侦听多路访问(Carrier Sense MultipleAccess with Collision Avoidance,CSMA/CA)的增强型分布式协调功能机制。
在车联网的频谱信息分配问题的研究过程中,利用基站BS对车辆观测数据进行汇总和压缩,然后将压缩后的信息反馈给基站,在基站上进行强化学习过程,以提高网络中的频谱共享决策性能;使用频谱数据库来指导频谱资源的合理分配,频谱数据库对车联网用户的保护边界依照车联网用户的实时位置进行调整,实现了空闲频谱的合理利用。但在现实生活中,道路上随处可见特殊车辆,如警车、救护车、消防车等,这些特殊车辆具有更高的信息通信质量要求,应在资源配置中给予更高保障。而现有技术中均是公平竞争频谱资源,无法实现频谱的优先分配。针对这些需要优先分配频谱的特殊车辆,本发明基于强化学习首先提出了一种多业务V2X(Vehicle to Everything)场景中紧急业务V2V链路的区分优先级频谱资源共享机制。该机制中引入了链接优先机制,通过强化学习(ReinforcementLearning,RL)的奖励设计,优先级高的链接可以获得更好的信息交互环境。为进一步提升系统整体性能,减少系统计算复杂度,后续利用二值化反馈量化对数据进行进一步压缩并利用分布式长短期记忆(Long Short-TermMemory,LSTM)网络对每条V2V链路观测到的数据进行预测以减少总体网络负担,提升系统总体性能。
发明内容
为实现上述目的,本发明提供一种基于深度强化学习的车联网区分优先级频谱分配方法,解决了现有技术中V2V链路无法区分实现优先级频谱分配的问题。
本发明所采用的技术方案是,一种基于深度强化学习的车联网区分优先级频谱分配方法,包括以下步骤:
步骤S1、基站广播信标帧beacon,发送链路分配信息;
步骤S3、基站接收车辆传输的数据,判断车辆传输状态;
进一步地,所述信标帧beacon用于基站周期广播beacon,传输频谱分配信息,包括Frame Control、Src、Dest、Beacon Interval、Channel、FCS字段;其中,Frame Control字段为控制字段,Frame Control字段中的Typeb3b2=00,Frame Control字段中Subtype部分b7b6b5b4=1000;Src字段,标明发送者地址;Dest字段,标明接收者地址;Beacon Interval标注周期间隔;Channel字段,标注分配的链路Cha0~Cha3,Cha0~Cha3中标明链路信息,用于V2V链路配置信息;FCS字段为16bit的ITU-TCRC校验位;
所述请求发送帧RTS:用于车辆向基站发送接入请求,包括Frame Control、Src、Dest、Serv_type、state、FCS字段,Frame Control字段为控制字段,Frame Control字段中Type b3b2=01,Frame Control字段中Subtype部分b7b6b5b4=1011;Src字段,标明发送者地址;Dest字段,标明接收者地址;Serv_type字段,用于区分V2V链路和V2I链路;State字段,用于存储用户状态信息;FCS字段为16bit的ITU-TCRC校验位。
进一步地,所述步骤S2中,车辆接收信标帧beacon后,解析数据包,若分配有链路,则等待帧间间隔之后,通过数据帧Data传输车辆状态信息序列若没有分配链路,则向基站发送请求发送帧RTS,请求分配链路。
将当前车辆状态信息oj输入至DNN网络,利用DNN网络进行数据压缩得到yj;DNN网络的输出yj经过二值化反馈函数处理得到fj={fj,k},将完成二值化处理的车辆状态信息fj输入分布式LSTM网络,经过分布式LSTM网络预处理得到序列;其中,指第j条V2V链路的第k个反馈元素,Nj表示第j条V2V链路学习的反馈数;
进一步地,所述DNN网络的隐藏层数为3,三个隐藏层的神经元数目分别设置为16、32和16,每一个隐藏层之后使用校正线性单元激活函数,输出层的激活函数设置为线性函数。
进一步地,所述步骤S3中车辆传输状态的判断方法为:
若数据帧Data的字段Last=0xFF,表示数据传输完成,即将释放当前V2V链路,若Last=0x00,表示数据传输未完成,需继续占用V2V链路。
进一步地,所述步骤S4中频谱分配通过深度强化学习网络DQN实现,具体为:
步骤S31、将基站所接收到的周围车辆环境信息作为强化学习RL中的状态信息S,表示为S={f1,...fj,...,fn},其中,fj表示第j条V2V链路的二值化状态信息,n表示V2V链路数量,j=1…n;
进一步地,所述深度强化学习网络DQN的隐藏层数设定为3,三个隐藏层的神经元数目分别设置为1200,800和600,使用校正线性单元激活函数,输出层的激活函数设置为线性函数;采用RMSProp优化器更新网络参数,学习率为0.001,损失函数设置为Huber损失,整个神经网络训练时的探索率ε设置为从1到0.01线性衰退;每个训练集的步数T设置为1000,DQN网络的更新频率设置为500步;训练时的折扣率γ设置为0.05。经验记忆单元的大小设置为1×106,小样本数据大小设置为512。
进一步地,所述步骤S4中深度强化学习的奖励表示为:
进一步地,所述数据帧Data:用于车辆间的数据传输,包括Frame Control、Src、Dest、Dsn、Last、Data、FCS字段;Frame Control字段为控制字段,Frame Control字段中Type b3b2=10,Frame Control字段中Subtype部分b7b6b5b4=0000;Src字段,标明发送者地址;Dest字段,标明接收者地址;Dsn字段,标明当前数据序号;Last字段,标明当前数据包是否为缓冲区中最后一个数据,其中,Last=0xFF表示是,Last=0x00表示缓冲区中还有剩余数据;Data字段,用于存储车辆间传输的数据信息;FCS字段为16bit的ITU-TCRC校验位。
本发明的有益效果是
1.解决了蜂窝用户(Cellular Users,CU)和设备到设备(Device to Device,D2D)用户共存的车辆网络中,频谱的动态分配问题。
2.通过构建加权和奖励函数,实现了V2I链路和V2V链路之间的速率、干扰的动态自适应。
3.实现了基于优先级的频谱分配。
4.引入二值化反馈量化对数据进行更进一步的压缩处理。
5.利用分布式LSTM网络对基站BS的输入数据进行预测减少了系统计算复杂度,提升了总体性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的包含有DNN网络和DQN网络的车联网频谱分配系统示意图。
图2是本发明实施例的帧格式构成示意图。
图3是本发明实施例的Frame Control字段格式示意图。
图4是本发明实施例的Frame Control字段中Type和Subtype部分的赋值示意图。
图5是本发明实施例的车辆控制方法流程图。
图6是本发明实施例的基站控制方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于深度强化学习的车联网区分优先级频谱分配方法,引入了链接优先机制,通过强化学习的奖励设计,优先级高的链接可以获得更好的信息交互环境。为进一步提升系统整体性能,减少系统计算复杂度,后续利用二值化反馈量化对数据进行进一步压缩并利用分布式LSTM网络对每条V2V链路观测到的数据进行预测以减少总体网络负担,提升系统总体性能。具体的,本发明包括以下5大部分:
1.定义帧格式
如图2所示,本实施例提供的帧格式共有三种:请求发送帧(RTS)、数据帧(Data)、信标帧(Beacon);三类帧结构中的Frame Control字段定义与IEEE802.11相同,参见图3~图4,其中使用Type和Subtype字段标明信息包类型。FCS字段为16bit的ITU-T CRC校验位;
请求发送帧RTS:用于车辆向基站发送接入请求,包括Frame Control、Src、Dest、Serv_type、state、FCS字段。Frame Control字段为控制字段,2字节,其中Type b3b2=01,Subtype部分b7b6b5b4=1011;Src字段,2字节,标明发送者地址;Dest字段,2字节,标明接收者地址;Serv_type字段,1字节,用于区分V2V链路和V2I链路;State字段,2字节,用于存储用户状态信息;FCS字段为16bit的ITU-TCRC校验位。
数据帧Data:用于车辆间的数据传输,包括Frame Control、Src、Dest、Dsn、Last、Data、FCS字段。Frame Control字段,2字节,其中Type b3b2=10,Subtype部分b7b6b5b4=0000;Src、Dest、FCS字段定义与RTS中相同;Dsn字段,1字节,标明当前数据序号;Last字段,1字节,标明当前数据包是否为缓冲区中最后一个数据,其中,Last=0xFF表示是,Last=0x00表示缓冲区中还有剩余数据;Data字段,2字节,用于存储车辆间传输的数据信息。
信标帧Beacon:用于基站周期广播beacon,传输频谱分配信息,包括FrameControl、Src、Dest、Beacon Interval、Channel、FCS字段。Frame Control字段,2字节,其中Type b3b2=00,Subtype部分b7b6b5b4=1000;Src、Dest、FCS字段定义与RTS中相同;Beacon Interval标注周期间隔;Channel字段,1个字节,标注分配的链路Cha0~Cha3,Cha0~Cha3标明链路信息,用于V2V链路配置信息。
2.接入控制策略
基于IEEE802.11分布式协调机制(Distributed Coordination Function,DCF)是节点共享无线信道进行数据传输的基本接入方式,它把CSMA/CA(Carrier Sense MultipleAccess with Collision Avoidance)技术和确认(ACK)技术结合起来,采用二进制指数回退策略来避免冲撞。DCF是基于竞争机制,提供分布式接入,多个分布式无线节点抢同一资源。
在基站(BS)对数据进行处理的过程中,广播beacon,发送链路分配信息;车辆接收到beacon中所含链路分配信息,按照链路分配传输数据;基站判断车辆的传输状态,若数据帧Last=0xFF,表示数据传输完成,可释放当前V2V链路;若Last=0x00,表示数据传输未完成,继续占用V2V链路;更新链路信息和奖励R。
在车辆传输数据的过程中,车辆状态初始化,生成车辆状态信息序列;当接收到基站广播的beacon,解析数据包,若分配有链路,则等待帧间间隔之后,传输数据;若没有分配链路,则向基站发送RTS帧,请求分配链路。
参见图6,基站控制方法为:
步骤1:发送信标帧beacon;
步骤2:接收数据,判断车辆传输状态;若数据帧的Last=0xFF,表示数据传输完成,即将释放当前V2V链路,若Last=0x00,表示数据传输未完成,需继续占用V2V链路;
步骤3:更新奖励和链路状态信息;
步骤4:基站根据深度强化学习网络(Deep Q-learning Network,DQN)进行链路分配;等待beacon周期结束,返回步骤1。
参见图5,车辆控制方法为:
步骤2:接收beacon;
步骤4:数据传输完毕,返回步骤1。
3.利用深度神经网络(DNN)压缩车辆状态信息
将车辆状态信息输入至DNN网络中进行压缩。DNN网络的隐藏层数设定为3,三个隐藏层的神经元数目分别设置为16、32和16,每一个隐藏层之后使用校正线性单元(RELU)激活函数,输出层的激活函数设置为线性函数。
将车辆状态信息oj输入至DNN网络,利用DNN网络进行数据压缩得到yj。
4.对DNN网络的输出yj进行二值化及分布式LSTM预测
在本发明中,二值化反馈函数表示为:
F(x)=f(tanh(W0x+b0))
其中,W0和b0分别表示线性权值和偏差。DNN网络的输出yj经过二值化反馈函数处理得到fj={fj,k},其中,fj表示完成二值化处理的车辆状态信息,指的是第j条V2V链路的第k个反馈元素,其中Nj表示第j条V2V链路学习的反馈数,本实施例中反馈数设置为3。
将完成二值化处理的车辆状态信息fj输入分布式LSTM网络,分布式LSTM网络即分别对每一条V2V链路的车辆状态信息fj进行LSTM预处理,经过分布式LSTM网络预测得到序列,发送给位于基站BS的DQN网络,作为频谱分配算法的状态输入。分布式LSTM网络的隐藏层的神经元数目设置为512,以Sigmoid的形式做反向传播。
5.利用DQN网络进行训练
DQN网络使用强化学习对所有V2V链路的频谱分配做出最优决策。DQN网络的隐藏层数设定为3,三个隐藏层的神经元数目分别设置为1200,800和600,使用校正线性单元(RELU)激活函数,输出层的激活函数设置为线性函数。此外,采用RMSProp优化器更新网络参数,学习率为0.001,损失函数设置为Huber损失,整个神经网络训练时的探索率ε设置为从1到0.01线性衰退。每个训练集的步数T设置为1000,DQN网络的更新频率设置为500步。训练时的折扣率γ设置为0.05。经验记忆单元的大小设置为1×106,小样本数据大小设置为512。
在本发明中,将基站BS作为RL(强化学习)中的智能体(Agent),Agent通过采取行动与其周围环境进行交互,然后观察到来自环境的相应的数字奖励。Agent的目标是找到最优行动,从而使预期的回报之和最大化。RL中的状态信息S表示为BS所感知到的周围车辆环境信息,即DNN网络的输出,表示为:
S={f1,...fj,...,fn}
其中,fj表示第j(j=1…n)条V2V链路的二值化状态信息,n表示V2V链路数量,在本实施例中共有4条V2V链路,即n=4。BS的动作是确定每条V2V链路的频谱分配方案。因此这里将动作定义为:
A={ρ1,ρ2,...,ρj}
在本实施例中,假设第一条V2V链路为优先级链路,此时RL的奖励可以设计如下:
在每个时间步t∈{1,2,…,T},每条V2V链路采用其观测值作为DNN的输入,以获得其反馈然后将其发送到BS。之后,BS将作为DQN的输入以生成判决结果at,并向所有V2V广播at。最后,每条V2V链路根据判决结果at选择各自的频谱。
实施例
本实施例所示为在车联网中利用强化学习进行频谱资源分配。在该实施例中,参见图1,有一个基站BS和四辆车,其中有一辆车为消防车,将消防车对应的V2V链路设置为优先级链路,DQN网络的训练次数设置为2000次。本实施例开始,基站根据DQN网络进行链路分配,广播beacon,判断车辆的传输状态,根据车辆的传输状态,判断是否释放V2V链路,最后更新奖励和链路状态信息。车辆在开始生成状态信息序列,当基站开始广播beacon时,接收beacon,若此前分配有链路,则传输信息,若未分配链路,则发送RTS帧,请求链路分配。具体控制流程如下所示:
1、基站在开始阶段,根据车辆生成的状态信息序列,利用DQN网络分配链路信息;
2、基站广播beacon;
3、车辆接收beacon,四辆车分别根据链路分配信息,进行数据传输;
上述流程反复循环2000次之后,DQN模型训练完成,车辆根据决策结果,选择最优的链路分配。
表1本发明和现有技术的相关对比数据
表1中列出了本发明所提出的方案与其余三种方案的性能比较。三种方案分别是对每条链路公平考虑的分布式LSTM网络未加优先级的频谱分配算法(DNL-Decision)、集中式LSTM网络频谱分配算法(CL-Decision)和随机频谱分配方案。在这三种方案中CL-Decision考虑了优先级链路,由于DNL-Decision方案和随机频谱分配方案对于各条V2V链路的考虑是平等的,并没有区分优先链路,所以将所有V2V链路的平均速率作为优先级链路的速率。在本发明中,高优先级链路接收到的平均总干扰小于普通链路,即优先级链路具有更好的信息传输环境,体现了优先级的优势。普通链路平均接收总干扰略低于DNL-Decision方案、CL-Decision方案,优于随机方案。此外,V2V链路平均速率和V2I链路平均速率较其余四种方案均有提升。综上所述,本发明提出的方案明显具有优先级优势,性能优于DNL-Decision方案、CL-Decision方案和随机频谱分配方案。这表明本发明所提出的方案更适合现实生活中业务需求迫切的车联网环境。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
2.根据权利要求1所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于,所述信标帧beacon用于基站周期广播beacon,传输频谱分配信息,包括FrameControl、Src、Dest、Beacon Interval、Channel、FCS字段;其中,Frame Control字段为控制字段,Frame Control字段中的Type b3b2=00,Frame Control字段中Subtype部分b7b6b5b4=1000;Src字段,标明发送者地址;Dest字段,标明接收者地址;Beacon Interval标注周期间隔;Channel字段,标注分配的链路Cha0~Cha3,Cha0~Cha3中标明链路信息,用于V2V链路配置信息;FCS字段为16bit的ITU-TCRC校验位;
所述请求发送帧RTS:用于车辆向基站发送接入请求,包括Frame Control、Src、Dest、Serv_type、state、FCS字段,Frame Control字段为控制字段,Frame Control字段中Typeb3b2=01,Frame Control字段中Subtype部分b7b6b5b4=1011;Src字段,标明发送者地址;Dest字段,标明接收者地址;Serv_type字段,用于区分V2V链路和V2I链路;State字段,用于存储用户状态信息;FCS字段为16bit的ITU-TCRC校验位。
将当前车辆状态信息oj输入至DNN网络,利用DNN网络进行数据压缩得到yj;DNN网络的输出yj经过二值化反馈函数处理得到fj={fj,k},将完成二值化处理的车辆状态信息fj输入分布式LSTM网络,经过分布式LSTM网络预处理得到序列;其中,fj,k,指第j条V2V链路的第k个反馈元素,Nj表示第j条V2V链路学习的反馈数;
5.根据权利要求4所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于:
所述DNN网络的隐藏层数为3,三个隐藏层的神经元数目分别设置为16、32和16,每一个隐藏层之后使用校正线性单元激活函数,输出层的激活函数设置为线性函数。
6.根据权利要求1所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于,所述步骤S3中车辆传输状态的判断方法为:
若数据帧Data的字段Last=0xFF,表示数据传输完成,即将释放当前V2V链路,若Last=0x00,表示数据传输未完成,需继续占用V2V链路。
8.根据权利要求7所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于,所述深度强化学习网络DQN的隐藏层数设定为3,三个隐藏层的神经元数目分别设置为1200,800和600,使用校正线性单元激活函数,输出层的激活函数设置为线性函数;采用RMSProp优化器更新网络参数,学习率为0.001,损失函数设置为Huber损失,整个神经网络训练时的探索率ε设置为从1到0.01线性衰退;每个训练集的步数T设置为1000,DQN网络的更新频率设置为500步;训练时的折扣率γ设置为0.05,经验记忆单元的大小设置为1×106,小样本数据大小设置为512。
10.根据权利要求3所述的一种基于深度强化学习的车联网区分优先级频谱分配方法,其特征在于:
所述数据帧Data:用于车辆间的数据传输,包括Frame Control、Src、Dest、Dsn、Last、Data、FCS字段;Frame Control字段为控制字段,Frame Control字段中Type b3b2=10,Frame Control字段中Subtype部分b7b6b5b4=0000;Src字段,标明发送者地址;Dest字段,标明接收者地址;Dsn字段,标明当前数据序号;Last字段,标明当前数据包是否为缓冲区中最后一个数据,其中,Last=0xFF表示是,Last=0x00表示缓冲区中还有剩余数据;Data字段,用于存储车辆间传输的数据信息;FCS字段为16bit的ITU-TCRC校验位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310139585.4A CN116132952A (zh) | 2023-02-20 | 2023-02-20 | 一种基于深度强化学习的车联网区分优先级频谱分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310139585.4A CN116132952A (zh) | 2023-02-20 | 2023-02-20 | 一种基于深度强化学习的车联网区分优先级频谱分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116132952A true CN116132952A (zh) | 2023-05-16 |
Family
ID=86308039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310139585.4A Pending CN116132952A (zh) | 2023-02-20 | 2023-02-20 | 一种基于深度强化学习的车联网区分优先级频谱分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116132952A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117939474A (zh) * | 2024-03-21 | 2024-04-26 | 江苏海平面数据科技有限公司 | 基于车联网大数据的通讯终端检测系统和方法 |
-
2023
- 2023-02-20 CN CN202310139585.4A patent/CN116132952A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117939474A (zh) * | 2024-03-21 | 2024-04-26 | 江苏海平面数据科技有限公司 | 基于车联网大数据的通讯终端检测系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | A survey on adaptive multi-channel MAC protocols in VANETs using Markov models | |
CN108631968A (zh) | 一种数据反馈资源的确定方法及装置 | |
Niyato et al. | Optimal channel access management with QoS support for cognitive vehicular networks | |
CN107580340A (zh) | 一种v2x网络中的资源调度方法 | |
CN102244683B (zh) | 一种提高车联网应用中混合业务服务质量的方法 | |
CN113194440B (zh) | 车联网中传输资源的抢占方法 | |
Bazzi et al. | Beaconing from connected vehicles: IEEE 802.11 p vs. LTE-V2V | |
Hussain et al. | An efficient channel access scheme for vehicular ad hoc networks | |
CN110058928B (zh) | 异构车联网中基于鞅理论的计算任务分配方法 | |
CN109905921B (zh) | 一种多信道环境下车联网v2r/v2v协作数据传输调度方法 | |
Nguyen et al. | Joint offloading and IEEE 802.11 p-based contention control in vehicular edge computing | |
CN106171025A (zh) | 一种车联网传输资源调度方法及装置 | |
CN106060944A (zh) | 车联网中多信道mac协议与tdma结合的方法 | |
CN107094321B (zh) | 一种基于多智能体q学习的车载通信mac层信道接入方法 | |
Togou et al. | Performance analysis and enhancement of wave for v2v non-safety applications | |
CN116132952A (zh) | 一种基于深度强化学习的车联网区分优先级频谱分配方法 | |
WO2020168900A1 (zh) | 用于侧行链路通信的调度方法、终端装置以及网络装置 | |
Srivastava et al. | A cross layer based cooperative broadcast protocol for multichannel VANET | |
Choi et al. | Joint optimization of message transmissions with adaptive selection of CCH interval in VANETs | |
Yang et al. | Priority-based hybrid MAC protocol for VANET with UAV-enabled roadside units | |
Lim et al. | Improving VANET performance with heuristic and adaptive fuzzy logic scheme | |
CN112866947A (zh) | 一种车联网中分布式资源调度方法 | |
Ouni et al. | Enhanced EDCA with deterministic transmission collision resolution for real-time communication in vehicular ad hoc networks | |
CN107360593A (zh) | 选择信息传输资源的方法及系统 | |
Jin et al. | A Deep Reinforcement Learning-based Two-dimensional Resource Allocation Technique for V2I communications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |