CN116132952A

CN116132952A - 一种基于深度强化学习的车联网区分优先级频谱分配方法

Info

Publication number: CN116132952A
Application number: CN202310139585.4A
Authority: CN
Inventors: 官铮; 蔡玉; 王宇阳; 王增文; 杨志军
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-05-16

Abstract

本发明公开了一种基于深度强化学习的车联网区分优先级频谱分配方法，包括以下步骤：步骤S1、基站广播信标帧beacon，发送链路分配信息；步骤S2、车辆接收信标帧beacon，并根据信标帧的内容选择向基站传输车辆状态信息序列

或向基站发送请求发送帧RTS；步骤S3、基站接收车辆传输的数据，判断车辆传输状态；步骤S4、基站利用深度强化学习对收到的车辆状态信息序列

进行频谱分配；并根据链路优先级更新深度强化学习的奖励和链路状态信息。本发明解决了现有技术中V2V链路无法区分实现优先级频谱分配的问题。

Description

一种基于深度强化学习的车联网区分优先级频谱分配方法

技术领域

本发明属于信息技术领域，涉及一种基于深度强化学习的车联网区分优先级频谱分配方法。

背景技术

车联网是智慧出行的主要组成部分，是智慧城市中信息通信技术(InformationCommunication Technology，ICT)的主要来源。车联网具有离散性及动态的拓扑结构，其中各个节点可以独立加入和脱离，并且可以在不需要现有基础设施的情况下构建。车辆可以通过具有传感和通信能力的车载单元(On board Unit,OBU)与感知范围内的其他车辆通过无线网络进行连接并传递各种信息，此外，车辆还可以与路边基础设施建立无线连接来收发各种信息。由于车联网具有高移动性和动态拓扑结构，所以通常利用D2D通信的无线接入技术(radio access technologies,RAT)进行车联网的信息传输。

在美国，直接短程通信(Direct Short-Range Communication，DSRC)被电气与电子工程师协会(Institute ofElectrical and Electronics Engineers,IEEE)标准化为车载环境中的无线接入(Wireless Access in Vehicular Environment,WAVE)。在DSRC中，当一辆车想要向另一辆相邻的车发送消息时，该消息被传递到媒体访问控制(Medium AccessControl,MAC)层。这一层负责保证数据传输过程。它决定节点何时可以发送、接收或在该过程中保持静默。DSRC MAC层基于IEEE 802.11p标准，该标准采用具有冲突避免的载波侦听多路访问(Carrier Sense MultipleAccess with Collision Avoidance,CSMA/CA)的增强型分布式协调功能机制。

在车联网的频谱信息分配问题的研究过程中，利用基站BS对车辆观测数据进行汇总和压缩，然后将压缩后的信息反馈给基站，在基站上进行强化学习过程，以提高网络中的频谱共享决策性能；使用频谱数据库来指导频谱资源的合理分配，频谱数据库对车联网用户的保护边界依照车联网用户的实时位置进行调整，实现了空闲频谱的合理利用。但在现实生活中，道路上随处可见特殊车辆，如警车、救护车、消防车等，这些特殊车辆具有更高的信息通信质量要求，应在资源配置中给予更高保障。而现有技术中均是公平竞争频谱资源，无法实现频谱的优先分配。针对这些需要优先分配频谱的特殊车辆，本发明基于强化学习首先提出了一种多业务V2X(Vehicle to Everything)场景中紧急业务V2V链路的区分优先级频谱资源共享机制。该机制中引入了链接优先机制，通过强化学习(ReinforcementLearning,RL)的奖励设计，优先级高的链接可以获得更好的信息交互环境。为进一步提升系统整体性能，减少系统计算复杂度，后续利用二值化反馈量化对数据进行进一步压缩并利用分布式长短期记忆(Long Short-TermMemory，LSTM)网络对每条V2V链路观测到的数据进行预测以减少总体网络负担，提升系统总体性能。

发明内容

为实现上述目的，本发明提供一种基于深度强化学习的车联网区分优先级频谱分配方法，解决了现有技术中V2V链路无法区分实现优先级频谱分配的问题。

本发明所采用的技术方案是，一种基于深度强化学习的车联网区分优先级频谱分配方法，包括以下步骤：

步骤S1、基站广播信标帧beacon，发送链路分配信息；

步骤S2、车辆接收信标帧beacon，并根据信标帧的内容选择向基站传输车辆状态信息序列

或向基站发送请求发送帧RTS；

步骤S3、基站接收车辆传输的数据，判断车辆传输状态；

步骤S4、基站利用深度强化学习对收到的车辆状态信息序列

进行频谱分配；并根据链路优先级更新深度强化学习的奖励和链路状态信息。

进一步地，所述信标帧beacon用于基站周期广播beacon，传输频谱分配信息，包括Frame Control、Src、Dest、Beacon Interval、Channel、FCS字段；其中，Frame Control字段为控制字段，Frame Control字段中的Typeb3b2＝00，Frame Control字段中Subtype部分b7b6b5b4＝1000；Src字段，标明发送者地址；Dest字段，标明接收者地址；Beacon Interval标注周期间隔；Channel字段，标注分配的链路Cha0～Cha3，Cha0～Cha3中标明链路信息，用于V2V链路配置信息；FCS字段为16bit的ITU-TCRC校验位；

所述请求发送帧RTS：用于车辆向基站发送接入请求，包括Frame Control、Src、Dest、Serv_type、state、FCS字段，Frame Control字段为控制字段，Frame Control字段中Type b₃b₂＝01，Frame Control字段中Subtype部分b₇b₆b₅b₄＝1011；Src字段，标明发送者地址；Dest字段，标明接收者地址；Serv_type字段，用于区分V2V链路和V2I链路；State字段，用于存储用户状态信息；FCS字段为16bit的ITU-TCRC校验位。

进一步地，所述步骤S2中，车辆接收信标帧beacon后，解析数据包，若分配有链路，则等待帧间间隔之后，通过数据帧Data传输车辆状态信息序列

若没有分配链路，则向基站发送请求发送帧RTS，请求分配链路。

进一步地，所述车辆状态信息序列

的获取步骤为：

将当前车辆状态信息o_j输入至DNN网络，利用DNN网络进行数据压缩得到y_j；DNN网络的输出y_j经过二值化反馈函数处理得到f_j＝{f_j,k}，将完成二值化处理的车辆状态信息f_j输入分布式LSTM网络，经过分布式LSTM网络预处理得到

序列；其中，

指第j条V2V链路的第k个反馈元素，N_j表示第j条V2V链路学习的反馈数；

其中，当前车辆状态信息o_j包括发射功率

来自其他链路的合计干扰功率I_j、当前V2V链路到所有V2I链路的交叉信道增益H_j,B和当前信道功率增益H_j，具体表示为

进一步地，所述DNN网络的隐藏层数为3，三个隐藏层的神经元数目分别设置为16、32和16，每一个隐藏层之后使用校正线性单元激活函数，输出层的激活函数设置为线性函数。

进一步地，所述步骤S3中车辆传输状态的判断方法为：

若数据帧Data的字段Last＝0xFF，表示数据传输完成，即将释放当前V2V链路，若Last＝0x00，表示数据传输未完成，需继续占用V2V链路。

进一步地，所述步骤S4中频谱分配通过深度强化学习网络DQN实现，具体为：

步骤S31、将基站所接收到的周围车辆环境信息作为强化学习RL中的状态信息S，表示为S＝{f₁,...f_j,...,f_n}，其中，f_j表示第j条V2V链路的二值化状态信息，n表示V2V链路数量，j＝1…n；

步骤S32、确定每条V2V链路的频谱分配方案A，其中A＝{ρ₁,ρ₂,...,ρ_j}，

表示频谱分配方案，ρ_j[i]为二进制频带分配指示变量，ρ_j[i]取值为1时表示占用该链路，取值为0时表示不占用。

进一步地，所述深度强化学习网络DQN的隐藏层数设定为3，三个隐藏层的神经元数目分别设置为1200，800和600，使用校正线性单元激活函数，输出层的激活函数设置为线性函数；采用RMSProp优化器更新网络参数，学习率为0.001，损失函数设置为Huber损失，整个神经网络训练时的探索率ε设置为从1到0.01线性衰退；每个训练集的步数T设置为1000，DQN网络的更新频率设置为500步；训练时的折扣率γ设置为0.05。经验记忆单元的大小设置为1×10⁶，小样本数据大小设置为512。

进一步地，所述步骤S4中深度强化学习的奖励表示为：

其中λ_c表示V2I链路权重，λ_d表示V2V链路权重，λ_f表示优先级链路受干扰权重，

表示第i条V2I链路的传输功率，

表示第j条V2V链路的传输功率，I₁表示优先级链路接收到的总干扰。

进一步地，所述数据帧Data：用于车辆间的数据传输，包括Frame Control、Src、Dest、Dsn、Last、Data、FCS字段；Frame Control字段为控制字段，Frame Control字段中Type b₃b₂＝10，Frame Control字段中Subtype部分b₇b₆b₅b₄＝0000；Src字段，标明发送者地址；Dest字段，标明接收者地址；Dsn字段，标明当前数据序号；Last字段，标明当前数据包是否为缓冲区中最后一个数据，其中，Last＝0xFF表示是，Last＝0x00表示缓冲区中还有剩余数据；Data字段，用于存储车辆间传输的数据信息；FCS字段为16bit的ITU-TCRC校验位。

本发明的有益效果是

1.解决了蜂窝用户(Cellular Users,CU)和设备到设备(Device to Device，D2D)用户共存的车辆网络中，频谱的动态分配问题。

2.通过构建加权和奖励函数，实现了V2I链路和V2V链路之间的速率、干扰的动态自适应。

3.实现了基于优先级的频谱分配。

4.引入二值化反馈量化对数据进行更进一步的压缩处理。

5.利用分布式LSTM网络对基站BS的输入数据进行预测减少了系统计算复杂度，提升了总体性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的包含有DNN网络和DQN网络的车联网频谱分配系统示意图。

图2是本发明实施例的帧格式构成示意图。

图3是本发明实施例的Frame Control字段格式示意图。

图4是本发明实施例的Frame Control字段中Type和Subtype部分的赋值示意图。

图5是本发明实施例的车辆控制方法流程图。

图6是本发明实施例的基站控制方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于深度强化学习的车联网区分优先级频谱分配方法，引入了链接优先机制，通过强化学习的奖励设计，优先级高的链接可以获得更好的信息交互环境。为进一步提升系统整体性能，减少系统计算复杂度，后续利用二值化反馈量化对数据进行进一步压缩并利用分布式LSTM网络对每条V2V链路观测到的数据进行预测以减少总体网络负担，提升系统总体性能。具体的，本发明包括以下5大部分：

1.定义帧格式

如图2所示，本实施例提供的帧格式共有三种：请求发送帧(RTS)、数据帧(Data)、信标帧(Beacon)；三类帧结构中的Frame Control字段定义与IEEE802.11相同，参见图3～图4，其中使用Type和Subtype字段标明信息包类型。FCS字段为16bit的ITU-T CRC校验位；

请求发送帧RTS：用于车辆向基站发送接入请求，包括Frame Control、Src、Dest、Serv_type、state、FCS字段。Frame Control字段为控制字段，2字节,其中Type b₃b₂＝01，Subtype部分b₇b₆b₅b₄＝1011；Src字段，2字节，标明发送者地址；Dest字段，2字节，标明接收者地址；Serv_type字段，1字节，用于区分V2V链路和V2I链路；State字段，2字节，用于存储用户状态信息；FCS字段为16bit的ITU-TCRC校验位。

数据帧Data：用于车辆间的数据传输，包括Frame Control、Src、Dest、Dsn、Last、Data、FCS字段。Frame Control字段，2字节，其中Type b₃b₂＝10，Subtype部分b₇b₆b₅b₄＝0000；Src、Dest、FCS字段定义与RTS中相同；Dsn字段，1字节，标明当前数据序号；Last字段，1字节，标明当前数据包是否为缓冲区中最后一个数据，其中，Last＝0xFF表示是，Last＝0x00表示缓冲区中还有剩余数据；Data字段，2字节，用于存储车辆间传输的数据信息。

信标帧Beacon：用于基站周期广播beacon，传输频谱分配信息，包括FrameControl、Src、Dest、Beacon Interval、Channel、FCS字段。Frame Control字段，2字节，其中Type b3b2＝00，Subtype部分b7b6b5b4＝1000；Src、Dest、FCS字段定义与RTS中相同；Beacon Interval标注周期间隔；Channel字段，1个字节，标注分配的链路Cha0～Cha3，Cha0～Cha3标明链路信息，用于V2V链路配置信息。

2.接入控制策略

基于IEEE802.11分布式协调机制(Distributed Coordination Function,DCF)是节点共享无线信道进行数据传输的基本接入方式，它把CSMA/CA(Carrier Sense MultipleAccess with Collision Avoidance)技术和确认(ACK)技术结合起来，采用二进制指数回退策略来避免冲撞。DCF是基于竞争机制，提供分布式接入，多个分布式无线节点抢同一资源。

在基站(BS)对数据进行处理的过程中，广播beacon，发送链路分配信息；车辆接收到beacon中所含链路分配信息，按照链路分配传输数据；基站判断车辆的传输状态，若数据帧Last＝0xFF，表示数据传输完成，可释放当前V2V链路；若Last＝0x00，表示数据传输未完成，继续占用V2V链路；更新链路信息和奖励R。

在车辆传输数据的过程中，车辆状态初始化，生成车辆状态信息序列；当接收到基站广播的beacon，解析数据包，若分配有链路，则等待帧间间隔之后，传输数据；若没有分配链路，则向基站发送RTS帧，请求分配链路。

参见图6，基站控制方法为：

步骤1：发送信标帧beacon；

步骤2：接收数据，判断车辆传输状态；若数据帧的Last＝0xFF，表示数据传输完成，即将释放当前V2V链路，若Last＝0x00，表示数据传输未完成，需继续占用V2V链路；

步骤3：更新奖励和链路状态信息；

步骤4：基站根据深度强化学习网络(Deep Q-learning Network,DQN)进行链路分配；等待beacon周期结束，返回步骤1。

参见图5，车辆控制方法为：

步骤1：状态初始化，生成车辆状态信息序列

步骤2：接收beacon；

步骤3：若分配有链路，则等待帧间间隔之后，传输车辆状态信息序列

否则向基站发送请求发送帧RTS帧请求链路分配；

步骤4：数据传输完毕，返回步骤1。

3.利用深度神经网络(DNN)压缩车辆状态信息

将车辆状态信息输入至DNN网络中进行压缩。DNN网络的隐藏层数设定为3，三个隐藏层的神经元数目分别设置为16、32和16，每一个隐藏层之后使用校正线性单元(RELU)激活函数，输出层的激活函数设置为线性函数。

车辆状态信息包括发射功率

来自其他链路的合计干扰功率I_j、当前V2V链路到所有V2I链路的交叉信道增益H_j,B和当前信道功率增益H_j，则当前车辆状态信息表示为：

将车辆状态信息o_j输入至DNN网络，利用DNN网络进行数据压缩得到y_j。

4.对DNN网络的输出y_j进行二值化及分布式LSTM预测

在本发明中，二值化反馈函数表示为：

F(x)＝f(tanh(W₀x+b₀))

其中，W₀和b₀分别表示线性权值和偏差。DNN网络的输出y_j经过二值化反馈函数处理得到f_j＝{f_j,k}，其中，f_j表示完成二值化处理的车辆状态信息，

指的是第j条V2V链路的第k个反馈元素，其中N_j表示第j条V2V链路学习的反馈数，本实施例中反馈数设置为3。

将完成二值化处理的车辆状态信息f_j输入分布式LSTM网络，分布式LSTM网络即分别对每一条V2V链路的车辆状态信息f_j进行LSTM预处理，经过分布式LSTM网络预测得到

序列，发送给位于基站BS的DQN网络，作为频谱分配算法的状态输入。分布式LSTM网络的隐藏层的神经元数目设置为512，以Sigmoid的形式做反向传播。

5.利用DQN网络进行训练

DQN网络使用强化学习对所有V2V链路的频谱分配做出最优决策。DQN网络的隐藏层数设定为3，三个隐藏层的神经元数目分别设置为1200，800和600，使用校正线性单元(RELU)激活函数，输出层的激活函数设置为线性函数。此外，采用RMSProp优化器更新网络参数，学习率为0.001，损失函数设置为Huber损失，整个神经网络训练时的探索率ε设置为从1到0.01线性衰退。每个训练集的步数T设置为1000，DQN网络的更新频率设置为500步。训练时的折扣率γ设置为0.05。经验记忆单元的大小设置为1×10⁶，小样本数据大小设置为512。

在本发明中，将基站BS作为RL(强化学习)中的智能体(Agent)，Agent通过采取行动与其周围环境进行交互，然后观察到来自环境的相应的数字奖励。Agent的目标是找到最优行动，从而使预期的回报之和最大化。RL中的状态信息S表示为BS所感知到的周围车辆环境信息，即DNN网络的输出，表示为：

S＝{f₁,...f_j,...,f_n}

其中，f_j表示第j(j＝1…n)条V2V链路的二值化状态信息，n表示V2V链路数量，在本实施例中共有4条V2V链路，即n＝4。BS的动作是确定每条V2V链路的频谱分配方案。因此这里将动作定义为：

A＝{ρ₁,ρ₂,...,ρ_j}

其中，

表示频谱分配方案，ρ_j[i]为二进制频带分配指示变量，取值为1时表示占用该链路，取值为0时表示不占用

在本实施例中，假设第一条V2V链路为优先级链路，此时RL的奖励可以设计如下:

表示第i条V2I链路的传输功率，

在每个时间步t∈{1,2,…,T}，每条V2V链路采用其观测值

作为DNN的输入，以获得其反馈

然后将其发送到BS。之后，BS将

作为DQN的输入以生成判决结果a_t，并向所有V2V广播a_t。最后，每条V2V链路根据判决结果a_t选择各自的频谱。

实施例

本实施例所示为在车联网中利用强化学习进行频谱资源分配。在该实施例中，参见图1，有一个基站BS和四辆车，其中有一辆车为消防车，将消防车对应的V2V链路设置为优先级链路，DQN网络的训练次数设置为2000次。本实施例开始，基站根据DQN网络进行链路分配，广播beacon，判断车辆的传输状态，根据车辆的传输状态，判断是否释放V2V链路，最后更新奖励和链路状态信息。车辆在开始生成状态信息序列，当基站开始广播beacon时，接收beacon，若此前分配有链路，则传输信息，若未分配链路，则发送RTS帧，请求链路分配。具体控制流程如下所示：

1、基站在开始阶段，根据车辆生成的状态信息序列，利用DQN网络分配链路信息；

2、基站广播beacon；

3、车辆接收beacon，四辆车分别根据链路分配信息，进行数据传输；

上述流程反复循环2000次之后，DQN模型训练完成，车辆根据决策结果，选择最优的链路分配。

表1本发明和现有技术的相关对比数据

表1中列出了本发明所提出的方案与其余三种方案的性能比较。三种方案分别是对每条链路公平考虑的分布式LSTM网络未加优先级的频谱分配算法(DNL-Decision)、集中式LSTM网络频谱分配算法(CL-Decision)和随机频谱分配方案。在这三种方案中CL-Decision考虑了优先级链路，由于DNL-Decision方案和随机频谱分配方案对于各条V2V链路的考虑是平等的，并没有区分优先链路，所以将所有V2V链路的平均速率作为优先级链路的速率。在本发明中，高优先级链路接收到的平均总干扰小于普通链路，即优先级链路具有更好的信息传输环境，体现了优先级的优势。普通链路平均接收总干扰略低于DNL-Decision方案、CL-Decision方案，优于随机方案。此外，V2V链路平均速率和V2I链路平均速率较其余四种方案均有提升。综上所述，本发明提出的方案明显具有优先级优势，性能优于DNL-Decision方案、CL-Decision方案和随机频谱分配方案。这表明本发明所提出的方案更适合现实生活中业务需求迫切的车联网环境。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于深度强化学习的车联网区分优先级频谱分配方法，其特征在于，包括以下步骤：

步骤S1、基站广播信标帧beacon，发送链路分配信息；

或向基站发送请求发送帧RTS；

步骤S3、基站接收车辆传输的数据，判断车辆传输状态；

步骤S4、基站利用深度强化学习对收到的车辆状态信息序列

2.根据权利要求1所述的一种基于深度强化学习的车联网区分优先级频谱分配方法，其特征在于，所述信标帧beacon用于基站周期广播beacon，传输频谱分配信息，包括FrameControl、Src、Dest、Beacon Interval、Channel、FCS字段；其中，Frame Control字段为控制字段，Frame Control字段中的Type b3b2＝00，Frame Control字段中Subtype部分b7b6b5b4＝1000；Src字段，标明发送者地址；Dest字段，标明接收者地址；Beacon Interval标注周期间隔；Channel字段，标注分配的链路Cha0～Cha3，Cha0～Cha3中标明链路信息，用于V2V链路配置信息；FCS字段为16bit的ITU-TCRC校验位；

所述请求发送帧RTS：用于车辆向基站发送接入请求，包括Frame Control、Src、Dest、Serv_type、state、FCS字段，Frame Control字段为控制字段，Frame Control字段中Typeb₃b₂＝01，Frame Control字段中Subtype部分b₇b₆b₅b₄＝1011；Src字段，标明发送者地址；Dest字段，标明接收者地址；Serv_type字段，用于区分V2V链路和V2I链路；State字段，用于存储用户状态信息；FCS字段为16bit的ITU-TCRC校验位。

3.根据权利要求1所述的一种基于深度强化学习的车联网区分优先级频谱分配方法，其特征在于，所述步骤S2中，车辆接收信标帧beacon后，解析数据包，若分配有链路，则等待帧间间隔之后，通过数据帧Data传输车辆状态信息序列

4.根据权利要求1或3所述的一种基于深度强化学习的车联网区分优先级频谱分配方法，其特征在于，所述车辆状态信息序列

的获取步骤为：

序列；其中，f_j,k,

其中，当前车辆状态信息o_j包括发射功率

5.根据权利要求4所述的一种基于深度强化学习的车联网区分优先级频谱分配方法，其特征在于：

所述DNN网络的隐藏层数为3，三个隐藏层的神经元数目分别设置为16、32和16，每一个隐藏层之后使用校正线性单元激活函数，输出层的激活函数设置为线性函数。

6.根据权利要求1所述的一种基于深度强化学习的车联网区分优先级频谱分配方法，其特征在于，所述步骤S3中车辆传输状态的判断方法为：

7.根据权利要求1所述的一种基于深度强化学习的车联网区分优先级频谱分配方法，其特征在于，所述步骤S4中频谱分配通过深度强化学习网络DQN实现，具体为：

步骤S32、确定每条V2V链路的频谱分配方案A，其中A＝{ρ₁,ρ₂,...,ρ_j}，ρ_j＝{ρ_j[i]},

8.根据权利要求7所述的一种基于深度强化学习的车联网区分优先级频谱分配方法，其特征在于，所述深度强化学习网络DQN的隐藏层数设定为3，三个隐藏层的神经元数目分别设置为1200，800和600，使用校正线性单元激活函数，输出层的激活函数设置为线性函数；采用RMSProp优化器更新网络参数，学习率为0.001，损失函数设置为Huber损失，整个神经网络训练时的探索率ε设置为从1到0.01线性衰退；每个训练集的步数T设置为1000，DQN网络的更新频率设置为500步；训练时的折扣率γ设置为0.05，经验记忆单元的大小设置为1×10⁶，小样本数据大小设置为512。

9.根据权利要求1、7、8任一项所述的一种基于深度强化学习的车联网区分优先级频谱分配方法，其特征在于，所述步骤S4中深度强化学习的奖励表示为：

表示第i条V2I链路的传输功率，

10.根据权利要求3所述的一种基于深度强化学习的车联网区分优先级频谱分配方法，其特征在于：

所述数据帧Data：用于车辆间的数据传输，包括Frame Control、Src、Dest、Dsn、Last、Data、FCS字段；Frame Control字段为控制字段，Frame Control字段中Type b₃b₂＝10，Frame Control字段中Subtype部分b₇b₆b₅b₄＝0000；Src字段，标明发送者地址；Dest字段，标明接收者地址；Dsn字段，标明当前数据序号；Last字段，标明当前数据包是否为缓冲区中最后一个数据，其中，Last＝0xFF表示是，Last＝0x00表示缓冲区中还有剩余数据；Data字段，用于存储车辆间传输的数据信息；FCS字段为16bit的ITU-TCRC校验位。