CN115134779A

CN115134779A - 一种基于信息年龄感知的车联网资源分配方法

Info

Publication number: CN115134779A
Application number: CN202210744844.1A
Authority: CN
Inventors: 王怀平; 宋晓勤; 宋铁成; 卫宇坤; 徐博文
Original assignee: Shenzhen Institute Of Southeast University
Current assignee: Shenzhen Institute Of Southeast University
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-30

Abstract

本发明提出一种基于信息年龄感知的车联网资源分配方法，运用DDQN的V2V无线通信资源分配算法将信息年龄纳入主要优化目标，使得V2V链路能够通过选择合适的子信道和传输功率，实现对高可靠性和低延迟、高信息新鲜度的Qos需求。本发明仿真结果表明基于DDQN资源分配算法不会被数量庞大的负载数据影响传输成功率，有很高的可靠性。同时，DDQN的资源分配算法在信息新鲜度方面能够实现更好的效果，并且在车辆分配的传输功率低的环境下提高信息新鲜度和吞吐量的效果更加明显。

Description

一种基于信息年龄感知的车联网资源分配方法

技术领域

本发明涉及一种车联网资源分配技术，更具体地说，是一种基于信息年龄(Age ofInformation)约束和深度强化学习(Deep Reinforcement Learning)的车联网资源分配方法。

背景技术

近年来，随着万物互联和人工智能的不断发展，车联网(Internet of Vehicles，IoV)这个概念被不断提及。车联网不止是仅仅将车和车(Vehicle to Vehicle，V2V)连接在一起，还把车和行人(Vehicle to Pedestrian，V2P)、车和路(Vehicle to Road，V2R)、车和基础设施(Vehicle to Infrastructure，V2I)，例如基站以及路测单元等基础设施、甚至车和网络(Vehicle to Network，V2N)以及车和云(Vehicle to Cloud，V2C)都连接在了一起。车联网通过智能感知周围环境，借助新一代信息和通信技术处理并传输实时环境信息，实现车、人、路全方位网络信息连接，可以有效地解决复杂交通形式的问题，是汽车智能化的重要支撑，对于构建交通新业态，提高交通效率和安全具有重要意义。

车联网通信通常需要在一定范围内的车辆中传播一些如合作信息和环境信息等相关的关键信息。因此，V2V通信对可靠性和即时性有着严格的要求。例如，欧盟的METIS项目就需要小于5ms的端到端之间的延迟和99.999％的传输可靠性。然而高动态不确定环境下的车联网中，作为网络节点汽车的高移动性导致了信道不断的迅速变化，导致无法获取对应于各链路的子信道的瞬时状态信息，进而难以及时的做出相应的资源分配决策。

在传统的车联网资源分配中，车内网只是一个局域网。如果想让车辆的内部信息传输出来，需要通过汽车的中央控制系统让驾驶员得到车辆的情况，或者将手机和车通过蓝牙或者WI-FI相互连接来将数据传输出来。然而随着无线通信技术的快速推进和智能终端的大范围普及，当前的车联网数据处理量大，通信环境高动态、不确定，同时车联网用户(Vehicle Users，VUEs)对信息的可靠性和新鲜度以及时延有了更高的要求。传统的集中式资源分配方法无论在传输速率，还是在即时性，可靠性，数据量支撑等方面都是远远不够的。因此如何找到一种高效的资源分配方法来满足车联网用户对高可靠性、高信息新鲜度和低时延的QoS需求是车联网研究领域的重要课题。

研究表明，将机器学习算法应用在车联网中可以使车联网资源分配效率得到大幅提升，因为机器学习算法中包含了多层计算模型，能够通过训练掌握巨大又抽象的数据量，并做出更多由数据驱动的决策，可以从非结构化源中解决许多传统上被认为是困难的问题，以提高车辆网络的性能。针对车联网应用对信息新鲜度即信息时效性十分敏感，研究学者提出信息年龄这一概念用来描述采集数据的时效性或新鲜度。因此，本发明提出一种信息年龄感知的车联网资源分配方法，运用DDQN(Double Deep Q-Network)的V2V无线通信资源分配算法将信息年龄纳入主要优化目标，使得V2V链路能够通过选择合适的子信道和传输功率，实现对高可靠性和低延迟、高信息新鲜度的Qos需求。

发明内容

发明目的：针对现有技术无法满足当下车联网用户的高Qos要求的问题，提出一种基于信息年龄感知的车联网分布式资源分配方法，主要考虑V2V通信的资源分配，通过运用将信息年龄纳入主要优化目标的DDQN算法为V2V链路找到最优的子信道和传输功率，让车联网用户在出行中能拥有更好的体验。

技术方案：在C-V2X协议栈下，以合理高效的资源分配达到系统的能量分配、频谱效率最大化和信息年龄最小的目的。为提高资源分配效率，采用分布式的资源分配方法，不需要中央控制器集中调度信道状态信息，将每条V2V链路视为智能体，并且基于各个时刻信道状态信息和干扰信息等信息来选择合适的信道和发射功率。通过建立基于信息年龄感知的深度强化学习模型，利用DDQN算法对V2V链路进行训练与测试，从而选择合适的信道和传输功率。完成上述发明通过以下技术方案实现：一种基于信息年龄感知的车联网资源分配方法，包括步骤如下：

(1)，V2V通信采用设备到设备的D2D通信策略，进行与行车安全密切相关的数据传输，需要保证相对较低的信息年龄以及时延和较高可靠性的安全信息传递；

(2)，采用能够以在单次传输中实现1毫秒的空中往返时间，可靠性至少为99.999％的超可靠和低延迟通信切片URLLC；

(3)，构建基于信息年龄约束的车联网资源分配系统模型；

(4)，V2V链路感知获取信道信息G_l[m]，V2V链路受到的干扰I_l[m]，剩余负载D_l，信息年龄T_l；

(5)，采用分布式的资源分配方法，在信息年龄约束下，通过深度强化学习实现合理高效的资源分配，以达到系统频谱分配和能量效率最大化的目标；

(6)，利用DDQN算法对基于信息年龄感知的车联网资源分配技术进行训练；

(7)，在执行阶段，V2V链路根据智能感知获取当前状态S_t，利用训练好的DDQN车联网资源分配算法得到最优V2V链路传输功率和子信道a_t＝{P_l ^v，ρ_l[m]}；

进一步的，所述步骤(3)包括如下具体步骤：

(3a)，构建系统模型，假设有L对VUEs，用集合ι＝{1，2，...，L}表示；信道的带宽是D，将其分成M个带宽是D₀的子信道，子信道用集合M＝{1，2，...，M}表示，采用非正交多址(Non-Orthgonal Multiple Access，NOMA)接入，而NOMA的子信道传输依然采用正交频分复用技术，即子信道相互之间是正交的，互不干扰，但是同一个一个子信道可以被多个VUEs占用，他们之间采用非正交传输，在接收端采用串行干扰消除(Successive InterferenceCancellation，SIC)技术根据VUEs不同的信号功率，按照一定的顺序进行干扰消除，进行正确的解调，从而实现区分用户的效果；

(3b)，同一个子信道上的V2V链路的干扰功率的总和是：

ρ_l[m]∈{0，1}，∑_m∈Mρ_l[m]＝1，

ρ_l[m]表示第l对V2V链路选择的子信道，当ρ_l[m]＝1的时候则表示V2V链路使用了第m个子信道，相应的ρ_l[m]＝0的时候则表示V2V链路没有使用第m个子信道。同理，ρ_l′[m]表示第l′对V2V链路选择的子信道。

表示第l′条V2V链路对第l条V2V链路的干扰增益；

(3c)，第L条V2V链路的信号与干扰和噪声之和的比，即信干躁比(Signal toInterference plus Noise Ratio，SINR)是：

P_l ^v是第l条V2V链路上的传输功率，g_l是第l条V2V链路的VUEs的信道增益，σ²表示噪声功率；

(3d)，资源分配的主要的目标是满足V2V通信中的高可靠性和低时延需求。对可靠性的要求用不等式表示为：

SINR^v[l]＞SINR_TH 表达式3

其中SINR_TH表示和第l条V2V链路上的用户相对应的SIC接收机的信干噪比阈值；

(3e)，对于信息年龄用T_l(x)＝W_l(x)+μ_l(x)公式来表示，W_l(x)表示第l个VUEs的数据包在缓存时等待被服务的时间，而μ_l(x)则表示这个数据包的传输时间。

将对信息年龄的需求定义成不等式：P{T_l(x)＞t_max}≤δ，l∈ι，t_max是表示数据包在传输的过程中可以容忍的最大信息年龄的参数，而δ则是表示最大违反概率，这个不等式表明了对信息年龄的要求：VUEs的数据包需要在一定的时间里面传输成功，从而保证了信息的新鲜度；

(3f)，根据香农定理，将V2V链路的信道容量即第m个子信道中可以传输的最大信息速率用如下公式表示：

基于此可以将基于URLLC切片的V2V资源分配对高可靠性和高信息新鲜度、低时延的优化问题抽象成在保证链路信息数据在成功传输和信息年龄不超出设定阈值的情况下(高可靠性、高信息新鲜度)，最大化信道的传输速率(低时延)，这样的话可以基于此建立如下的相关的的目标函数：

以及对应的约束条件：

其中，目标函数max Y是最大化所有V2V链路总的传输速率，约束条件C1是对可靠性的Qos需求，C2是对信息时效性的Qos需求，C3，C4表明l条V2V链路被分配了m个子信道，每条V2V链路选择且只能选择一个子信道，C5表明传输功率在可以达到的最大传输功率范围内。

进一步的，所述步骤(5)包括如下具体步骤：

(5a)，在深度强化学习算法中将状态信息设置成：

S_t＝{D_l，T_l，{Gl[m]}_m∈M，{I_l[m]}_m∈M} 表达式7

其中D_l表示V2V链路的剩余负载，T_l表示V2V链路的信息年龄，G_l[m]表示V2V链路的信道信息，I_l[m]表示V2V链路受到的干扰；

(5b)，将动作空间设置成：

a_t＝{P_lv，ρ_l[m]} 表达式8

按照系统模型中所讲，P_l ^v表示第l条V2V链路上的传输功率。ρ_l[m]∈{0，1}，

m∈M。当ρ_l[m]＝1的时候则表示第l条V2V链路使用了第m个子信道。基于实际情况考虑，将传输功率P_l ^v设置成四个等级，分别是[-100，5，10，23]dBm。动作空间可以理解成是智能体根据感应的状态，选择一定的策略做出动作，他的动作有4×M个组合(M表示子信道的个数)；

(5c)，将奖励函数设置成：

其中

是V2V链路的传输速率，可侧面反映出时延，传输速率越大，时延越小，λ_c是其所占权值。ε_l定义成奖励因子，λ_ε是其所占权值。

奖励函数表示在所有的数据成功传输以及信息年龄在所设置阈值之内这个前提下，V2V链路的总传输速率和总信息年龄负数之和的平均。奖励函数越大说明选择的策略越好即在保证传输成功率的情况下，选择使传输速率很高和信息年龄很小的传输功率和子信道。

进一步的，所述步骤(6)包括如下具体步骤：

(6a)，对预测网络Q(s，a，θ_i)中的参数θ_i和目标网络

中的参数

进行随机初始化操作，清空经验回放的集合D；

(6b)，启动环境模拟器，对当前环境状态s进行初始化；

(6c)，将s作为Q网络中的输入状态，得到Q网络的所有动作对应的Q值输出。用贪婪策略在当前输出Q值中选择对应的动作a。对环境执行动作a，得到更新后的状态s′和奖励r。将(s，a，r，s′)四元组存入经验池D；

(6d)，令s＝s′，从经验池D中采样一批(m＝50)经验四元组，放入深度神经网络中计算当前的目标函数值：

其中，γ∈[0，1]，是折扣因子，Y_j表示第j条子信道的目标Q值，r_j表示第j条子信道的奖励函数。

(6e)，设置损失函数：

通过梯度反向传播来更新Q网络的所有参数，每隔C步，对目标Q网络的参数进行更新赋值

如果s′是终止状态，那当前迭代完毕，否则转到步骤(6c)。

有益效果：本发明提出的一种基于信息年龄感知的车联网资源分配方法，采用深度强化学习技术DDQN，将V2V无线通信中对高可靠性、信息新鲜度、低时延的优化问题抽象成在保证链路信息数据成功传输(高可靠性)和低信息年龄(高信息新鲜度)的情况下，最大化信道的传输速率(低时延)的问题，并且针对改进之后的深度强化学习算法进行适当的状态空间，动作空间，奖励函数的设置，将传输成功率、信息年龄、传输速率纳入优化。

实验结果表明基于信息年龄感知的V2V无线通信资源分配算法成功地将信息年龄等多因素纳入优化，V2V链路的总传输速率、传输成功率以及信息新鲜度得到了很大的提升，能源利用率也更高。在庞大的数据包负载和噪声功率以及车辆数量的影响下，传输成功率和传输速率受到的影响几乎可以忽略不计。

综上所述，在保证资源分配合理时，本发明提出的一种基于信息年龄感知的车联网资源分配方法在最大化系统能量和效率方面是优越的

附图说明

图1为本发明实施例提供的DDQN的算法模型；

图2为本发明实施例提供的DDQN算法下V2V链路传输成功率与负载数据包数量关系的仿真结果图；

图3为本发明实施例提供的DDQN算法下V2V链路信息年龄与车辆分配的传输功率关系的仿真结果图。

具体实施方式

本发明的核心思想在于：利用深度强化学习技术DDQN将V2V无线通信中对传输成功率、信息年龄、传输速率纳入优化。采用分布式的资源分配方法，将每条V2V链路视为智能体，智能体根据当前状态，利用已经训练好的模型，选出最优的子信道和传输功率。

下面对本发明做进一步详细描述。

步骤(1)，V2V通信采用设备到设备的D2D通信策略，进行与行车安全密切相关的数据传输，需要保证相对较低的信息年龄以及时延和较高可靠性的安全信息传递；

步骤(2)，采用能够以在单次传输中实现1毫秒的空中往返时间，可靠性至少为99.999％的超可靠和低延迟通信切片URLLC；

步骤(3)，构建基于信息年龄约束的车联网资源分配系统模型；

包括如下步骤：

(3b)，同一个子信道上的V2V链路的干扰功率的总和是：

ρ_l[m]∈{0，1}，∑_m∈Mρ_l[m]＝1，

表示第l′条V2V链路对第l条V2V链路的干扰增益；

(3d)，资源分配的主要的目标是解决V2V通信中的高可靠性和低时延需求。对可靠性的要求用不等式表示为：

SINR^v[l]＞SINR_TH 表达式3

以及对应的约束条件：

其中，目标函数max Y是最大化所有V2V链路总的传输速率，约束条件C1是对可靠性的Qos需求，C2是对信息时效性的Qos需求，C3，C4表明l条V2V链路被分配了m个子信道，第l条V2V链路使用第m个子信道，C5表明传输功率在可以达到的最大传输功率范围内。

步骤(4)，V2V链路感知获取信道信息G_l[m]，V2V链路受到的干扰I_l[m]，剩余负载D_l，信息年龄T_l；

步骤(5)，采用分布式的资源分配方法，在信息年龄约束下，通过深度强化学习实现合理高效的资源分配，以达到系统频谱分配和能量效率最大化的目标；

包括如下步骤：

(5a)，在深度强化学习算法中将状态信息设置成：

S_t＝{D_l，T_l，{G_l[m]}_m∈M，{I_l[m]}_m∈M} 表达式7

(5b)，将动作空间设置成：

a_t＝{P_l ^v，ρ_l[m]} 表达式8

其中P_l ^v表示第l条V2V链路上的传输功率，ρ_l[m]表示V2V链路选择的子信道。基于实际情况考虑，将传输功率P_l ^v设置成四个等级，分别是[-100，5，10，23]dBm。动作空间可以理解成是智能体根据感应的状态，选择一定的策略，做出动作，他的动作有4×M个组合(M表示子信道的数目)；

(5c)，将奖励函数设置成：

是V2V链路的传输速率，可侧面反映出时延，λ_c是所占权值。加号右边的ε_l定义成奖励因子，λ_ε是其所占权值。

从而奖励函数的意义就明了了：表示在所有的数据成功传输以及信息年龄在所设置阈值之内这个前提下，V2V链路的总传输速率和总信息年龄负数之和的平均。奖励函数越大说明选择的策略越好。即选择了能够在保证传输成功率的情况下，让传输速率很高和信息年龄很小的传输功率和子信道。

步骤(6)，利用DDQN算法对基于信息年龄感知的车联网资源分配技术进行训练；

包括如下步骤：

(6a)，对预测网络Q(s，a，θ_i)中的参数θ_i和目标网络

中的参数

进行随机初始化操作，清空经验回放的集合D；

(6b)，启动环境模拟器，对当前环境状态s进行初始化；

(6e)，设置损失函数：

如果s′是终止状态，那当前迭代完毕，否则转到步骤(6c)。

步骤(7)，在执行阶段，V2V链路根据智能感知获取当前状态S_t，利用训练好的DDQN车联网资源分配算法得到最优V2V链路传输功率和子信道a_t＝{P_l ^v，ρ_l[m]}。

在图1中，描述了DDQN的算法模型，对V2V链路的状态和行动进行大量训练，以获得最优的子信道和传输功率。

在图2中，描述了DDQN算法下V2V链路传输成功率与负载数据包数量关系的仿真结果，可以看出基于DDQN的资源分配算法在相同的负载数据包情况下，传输成功率比DPRA算法和基准线随机资源分配算法要高。说明基于DDQN的资源分配算法不会被数量庞大的负载数据影响传输成功率，有很高的可靠性。

在图3中，描述了DDQN算法下V2V链路信息年龄与车辆分配的传输功率关系的仿真结果，基于DDQN的V2V链路资源分配算法对应的V2V链路的信息年龄在车辆分配的传输功率区间[2，18]内比DPRA算法和基准线随机资源分配算法更低。说明基于DDQN的资源分配算法在信息新鲜度方面能够实现更好的效果，并且在车辆分配的传输功率低的环境下提高信息新鲜度和吞吐量的效果更加明显。

根据对本发明的说明，本领域的技术人员应该不难看出，本发明基于信息年龄感知的车联网资源分配方法可以使车联网资源分配中传输功率的选择、信息新鲜度、时延问题有一定程度的改善。

本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于信息年龄感知的车联网资源分配方法，其特征在于，包括步骤如下：

(1)V2V通信采用设备到设备的D2D通信策略，进行与行车安全密切相关的数据传输，需要保证相对较低的信息年龄以及时延和较高可靠性的安全信息传递；

(2)采用能够以在单次传输中实现1毫秒的空中往返时间，可靠性至少为99.999％的超可靠和低延迟通信切片URLLC；

(3)构建基于信息年龄约束的车联网资源分配系统模型；

(4)V2V链路感知获取信道信息G_l[m]，V2V链路受到的干扰I_l[m]，剩余负载D_l，信息年龄T_l；

(5)采用分布式的资源分配方法，在信息年龄约束下，通过深度强化学习实现合理高效的资源分配，以达到系统频谱分配和能量效率最大化的目标；

(6)利用DDQN算法对基于信息年龄感知的车联网资源分配技术进行训练；

(7)在执行阶段，V2V链路根据智能感知获取当前状态S_t，利用训练好的DDQN车联网资源分配算法得到最优V2V链路传输功率和子信道a_t＝{P_l ^v，ρ_l[m]}；

进一步的，所述步骤(3)包括如下具体步骤：

(3a)构建系统模型，假设有L对VUEs，用集合ι＝{1，2，...，L}表示；信道的带宽是D，将其分成M个带宽是D₀的子信道，子信道用集合M＝{1，2，...，M}表示；

(3b)同一个子信道上的V2V链路的干扰功率的总和是：

ρ_l[m]∈{0，1}，

ρ_l[m]表示第l对V2V链路选择的子信道，当ρ_l[m]＝1的时候则表示V2V链路使用了第m个子信道，相应的ρ_l[m]＝0的时候则表示V2V链路没有使用第m个子信道，同理，ρ_l′[m]表示第l′对V2V链路选择的子信道，

表示第l′条V2V链路对第l条V2V链路的干扰增益；

(3c)第L条V2V链路的信号与干扰和噪声之和的比，即信干躁比(Signal toInterference plus Noise Ratio，SINR)是：

(3d)资源分配的主要的目标是解决V2V通信中的高可靠性和低时延需求，对可靠性的要求用不等式表示为：

SINR^v[l]＞SINR_TH

(3e)对于信息年龄用T_l(x)＝W_l(x)+μ_l(x)公式来表示，W_l(x)表示第l个VUEs的数据包在缓存时等待被服务的时间，而μ_l(x)则表示这个数据包的传输时间；

(3f)根据香农定理，将V2V链路的信道容量即第m个子信道中可以传输的最大信息速率用如下公式表示：

以及对应的约束条件：

C5：P_l ^v≤P_max

其中，目标函数max Y是最大化所有V2V链路总的传输速率，约束条件C1是对可靠性的Qos需求，C2是对信息时效性的Qos需求，C3，C4表明l条V2V链路被分配了m个子信道，每条V2V链路选择且只能选择一个子信道，C5表明传输功率在可以达到的最大传输功率范围内；

进一步的，所述步骤(5)包括如下具体步骤：

(5a)在深度强化学习算法中将状态信息设置成：

S_t＝{D_l，T_l，{G_l[m]}_m∈M，{I_l[m]}_m∈M}

其中，D_l表示V2V链路的剩余负载，T_l表示V2V链路的信息年龄，G_l[m]表示V2V链路的信道信息，I_l[m]表示V2V链路受到的干扰；

(5b)将动作空间设置成：

a_t＝{P_l ^v，ρ_l[m]}

其中P_l ^v表示第l条V2V链路上的传输功率。ρ_l[m]∈{0，1}，

m∈M。当ρ_l[m]＝1的时候则表示第l条V2V链路使用了第m个子信道，基于实际情况考虑将传输功率P_l ^v设置成四个等级，分别是[-100，5，10，23]dBm，动作空间可以理解成是智能体根据感应的状态，选择一定的策略做出动作，他的动作有4×M个组合(M表示子信道的个数)；

(5c)奖励函数设置成：

其中，

是V2V链路的传输速率，可侧面反映出时延，传输速率越大，时延越小，λ_c是其所占权值；ε_l定义成奖励因子，λ_ε是其所占权值；

奖励函数r表示数据成功传输以及信息年龄在所设置阈值之内的前提下，V2V链路的总传输速率和总信息年龄负数之和的平均，奖励函数越大说明选择的策略越好即选择了能够在保证传输成功率的情况下，选择使传输速率很高和信息年龄很小的传输功率和子信道；

进一步的，所述步骤(6)包括如下具体步骤：

(6a)对预测网络Q(s，a，θ_i)中的参数θ_i和目标网络

中的参数

进行随机初始化操作，清空经验回放的集合D；

(6b)启动环境模拟器，对当前环境状态s进行初始化；将s作为Q网络中的输入状态，得到Q网络的所有动作对应的Q值输出，用ε贪婪策略在当前输出Q值中选择对应的动作a，对环境执行动作a得到更新后的状态s′和奖励r，将(s，a，r，s′)四元组存入经验池D；

(6c)令s＝s′，从经验池D中采样一批(m＝50)经验四元组，放入深度神经网络中计算当前的目标函数值：

其中，γ∈[0，1]，是折扣因子，Y_j表示第j条子信道的目标Q值，r_j表示第j条子信道的奖励函数；

(6d)设置损失函数：

如果s′是终止状态，那当前迭代完毕，否则转到步骤(6c)。