CN116582860A

CN116582860A - 一种基于信息年龄约束的链路资源分配方法

Info

Publication number: CN116582860A
Application number: CN202310512256.XA
Authority: CN
Inventors: 刘宇; 宋晓勤; 赵晗珂; 赵晨辰; 陈思祺; 卫宇坤
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-08-11

Abstract

本发明公开了一种基于信息年龄约束的链路资源分配方法。在传统的车联网模式不能满足要求时，采用设备到设备(Device to Device，D2D)通信的用户彼此之间直接通信或通过蜂窝通信进行集中式控制并能够实现两种通信模式的随时切换。该方法考虑到车辆行驶过程中的资源动态变化情况，在车联网中采用基于DDQN执行多智能体强化学习架构，将V2V链路的总传输速率和总信息年龄负数之和作为奖励函数中的变化量，实现链路资源的优化分配，以满足V2V用户对安全性以及对信息新鲜度和可靠性的服务质量要求。

Description

一种基于信息年龄约束的链路资源分配方法

技术领域

本发明涉及一种V2V链路技术，尤其涉及一种V2V链路中计算资源调度方法，更具体地说，涉及一种信息年龄约束的链路资源分配方法。

背景技术

随着5G无线通信技术的演进和智能终端的大范围普及而带来的无线网络通信容量的爆炸式增长，车联网用户有了更加的迫切及明确的需求，传统的车联网模式无论在传输速率，还是在即时性，可靠性，数据量支撑等方面都是远远不够的。采用设备到设备(Device to Device，D2D)通信的用户彼此之间既可以进行直接通信，也可以通过蜂窝通信进行集中式控制，并且能够实现两种通信模式的随时切换。在一定程度上弥补了基站通信的短板，能够让一定距离内的用户之间直接进行无线通信，降低了用户对服务基站日渐增长的负荷。通常，车联网通信需要在一定范围内的车辆中传播一些如合作信息和环境信息等相关的关键信息。因此，V2V通信对可靠性和即时性有着严格的要求。然而高动态不确定环境下的车联网中，网络节点的高移动性导致了信道不断的迅速变化，从而无法获取对应于各链路的子信道的瞬时状态信息，进而难以及时的做出相应的资源分配决策。为了应对这一挑战，提出了许多资源分配策略，传统的车联网资源分配算法无法满足车联网用户(Vehicle Users，V-UEs)对高可靠性、高信息新鲜度和低时延的服务质量(Qualify ofService，QoS)需求。因此为了满足车联网用户对服务质量的高要求，需要找到更加行之有效的车联网资源分配算法。

深度强化学习是一种机器学习算法，它将深度学习和强化学习结合起来，利用了深度学习的感知能力与强化学习的决策能力，采用神经网络作为函数逼近器，可以很好地将车联网高维状态空间中的决策问题解决。其中，深度双Q网络(Double Deep Q Network，DDQN)是深度强化学习中一种实现高维数据学习控制策略的新方法。DDQN使用两个网络，在线网络和目标网络，分别用于智能体动作的选择以及动作价值函数的估计，可以有效解决深度Q网络(Deep Q Network，DQN)中过估计的问题，从而使训练过程更快更可靠。

本发明提出的一种基于信息年龄约束的链路资源分配方法，采用深度学习和强化学习结合起来的学习算法，并将V2V链路作为智能体，以最大化链路传输速率和最小化信息年龄为优化目标，可以满足V2V用户对安全性以及对信息新鲜度和可靠性的服务质量要求。

发明内容

发明的目：针对现有技术存在的上述问题，提出一种基于多智能体DDQN架构和信息年龄约束链路资源分配方法，在最小化信息年龄的基础上，尽可能地提高链路传输速率。

技术方案：针对高动态不确定环境下车路协同资源分配的场景，以最大化链路传输速率和最小化信息年龄为目的。为降低系统时延同时提升系统可靠性，采用车联网资源分配技术进行传输，车辆通过车与路边设施(vehicle to infrastructure，V2I)链路将任务卸载到路侧单元相连的移动边缘计算服务器计算，通过车与车(vehicle to vehicle，V2V)链路将任务卸载到云计算中心计算，V2I和V2V链路通过5G切片技术接入不同切片互不干扰。将V2V链路视为智能体，使用分布式D2D通信方案，基于本地环境信息来选择传输功率和传输信道，通过建立深度强化学习模型，利用深度双Q学习算法(Double Deep Q-Learning Network，DDQN)优化深度强化学习模型。根据优化后的DDQN模型，得到每辆车决定的传输功率和信道。完成上述发明通过以下技术方案实现：一种基于信息年龄约束的链路资源分配方法，包括步骤如下：

步骤1：在C-V2X网络下的车联网系统模型，由云计算中心、核心网和网络接入边缘组成。其中网络接入边缘由与基站、路侧计算单元(Road Side Unit，RSU)相连的移动边缘计算(Mobile Edge Computing，MEC)服务器与车辆组成，通过核心网与云计算中心连接；

步骤2：建立包括L对V2V用户，M个等带宽子信道的网络切片模型和计算模型，进而建立资源分配模型；

步骤3：每辆车获取V2V链路状态、计算资源占用情况以及任务信息；

步骤4：根据各车辆获取到的环境状态信息，对车辆V2V链路以降低系统时延和提升通信可靠新为目标建立深度强化学习模型；

步骤5：基于DDQN训练深度强化学习模型；

步骤6：在执行阶段，各V2V链路根据本地观察获得当前状态，利用训练好的深度强化模型得到车辆的传输功率和传输信道；

进一步的，所述步骤2包括如下具体步骤：

步骤2-1：建立V2V通信的网络切片模型，系统包括L对VUEs(V2V用户)，用集合ι＝{1，2，...，L}表示；信道的带宽是D，将其分成M个带宽是D₀的子信道，子信道用集合表示，采用非正交多址(Non-Orthgonal Multiple Access，NOMA)接入，而NOMA的子信道传输依然采用正交频分复用技术，即子信道相互之间是正交的，互不干扰，但是同一个子信道可以被多个VUEs占用，他们之间采用非正交传输，在接收端采用串行干扰消除(Successive Interference Cancellation，SIC)技术根据VUEs不同的信号功率，按照一定的顺序进行干扰消除，进行正确的解调，从而实现区分用户的效果。

步骤2-2：第L条V2V链路的信号与干扰和噪声之和的比，即信干噪比(Signal toInterference plus Noise Ratio，SINR)表示为：

其中是第l条V2V链路上的传输功率，g_L是第l条V2V链路的VUEs的信道增益，其中包括相关通信车辆之间的路径损耗值、快速衰落以及阴影衰落，σ²是在同一子信道上V2V链路受到的噪声的总和，G_d是在同一个子信道上的V2V链路的干扰功率的总和，可表示为：

其中ρ_l[m]∈{0，1}，表示V2V链路选择的子信道，当ρ_l[m]＝1的时候则表示V2V链路使用了第m个子信道，相应的ρ_l[m]＝0的时候则表示V2V链路没有使用第m个子信道，/>表示第l′条V2V链路对第l条V2V链路的干扰增益。

步骤2-3：建立计算模型，信息年龄可表示为：

T_l(x)＝W_l(x)+μ_l(x) (表达式3)

其中W_l(x)表示第l个VUEs的数据包在缓存时等待被服务的时间，而μ_l(x)则表示这个数据包的传输时间。

V2V链路的信道容量，即第m个子信道中可以传输的最大信息速率可表示为：

步骤2-4：综上，可以建立如下的目标函数：

以及相应的约束条件：

其中，目标函数maxY是最大化所有V2V链路总的传输速率，约束条件C1是对可靠性的Qos需求，SINR_TH表示和第l条V2V链路上的用户相对应的SIC接收机的信干噪比阈值，C2是对信息时效性的Qos需求，tr_max是表示数据包在传输的过程中可以容忍的最大信息年龄的参数，而δ则是表示最大违反概率，C3，C4表明l条V2V链路被分配了m个子信道，第l条V2V链路使用第m个子信道，C5表明传输功率在可以达到的最大传输功率P_max范围内。

进一步的，所述步骤4包括如下具体步骤：

步骤4-1：将适用于当前车联网环境的C-V2X协议基于垂直功能不同进行不同网络切片的划分，对特征不同的V2V链路和V2I链路划分不同的网络切片，然后主要研究对V2V链路的资源分配。

步骤4-2：状态空间S包括V2V链路的剩余负载、信息年龄、信道信息和受到的干扰，即

其中D_l表示V2V链路的剩余负载，T_l表示V2V链路的信息年龄，G_l[m]表示V2V链路的信道信息，I_l[m]表示V2V链路受到的干扰。

步骤4-3：动作空间A包括某一条V2V链路上的传输功率以及其选择的子信道，表示为：

按照系统模型中所讲，表示第l条V2V链路上的传输功率，ρ_l[m]表示V2V链路选择的子信道。

在此模型中，基于实际情况考虑，将传输功率设置成四个等级，分别是[-100，5，10，23]dBm。动作空间可以理解成是智能体根据感应的状态，选择一定的策略，做出动作，他的动作有4×M个组合(M根据上文所述表示子信道的个数)。

步骤4-4：奖励函数包括V2V链路的总传输速率和总信息年龄负数之和的平均，表示为：

公式中的在系统模型设置中已经说过，它是V2V链路的传输速率，可侧面反映出时延。λ_c是所占权值而加号右边的ε_l定义成奖励因子。λ_ε是其所占所占权值。

从而奖励函数的意义就明了了：表示在所有的数据成功传输以及信息年龄在所设置阈值之内这个前提下，V2V链路的总传输速率和总信息年龄负数之和的平均。奖励函数越大说明选择的策略越好。即选择了能够在保证传输成功率的情况下，让传输速率很高和信息年龄很小的传输功率和子信道。

步骤4-5：将状态作为Q网络的输入，其中D_l表示V2V链路的剩余负载，T_l表示V2V链路的信息年龄，G_l[m]表示V2V链路的信道信息，I_l[m]表示V2V链路受到的干扰，根据∈-贪婪策略在当前输出Q值中选择对应的动作a，对环境执行选择的动作a，得到更新后的状态s′和奖励r；

步骤4-6：将经验四元组(s，a，r，s′)存入经验池D，并转向下一个状态s′；

步骤4-7：从经验池D中采样选取出一批(m＝50)经验四元组(s，a，r，s′)构成数据集；

步骤4-8：计算目标Q值：

其中γ为折扣率，表示在普通Q网络中让状态s′能够取到最大Q值的动作a′，θ_i和/>分别为在线网络和目标网络的参数，这两个深度神经网络除了各层的权重、偏置等参数不一样以外，结构完全一样，但在线网络用于评估贪心策略，且不断更新θ_i，而目标网络用于估算价值，每隔一段时间才会更新/>

步骤4-9：设置损失函数：

其中Y_j为步骤4-8中计算的目标Q值；

步骤4-10：通过梯度反向传播来更新Q网络的所有参数θ_i，每隔C步，对目标Q网络的参数进行更新赋值

进一步，所述步骤5包括如下具体步骤：

步骤5-1：对Q(s，a，θ_i)中的参数θ和中的参数/>进行随机初始化操作，清空经验回放的集合D；

步骤5-2：对智能体采用的策略进行随机初始化操作；

步骤5-3：使用环境模拟器模拟车辆环境和车辆进行交互，并且对环境状态信息进行初始化操作，初始化s；

步骤5-4：将s作为Q网络中的第一个输入状态，得到Q网络的所有动作对应的Q值输出。用∈-贪婪策略在当前输出Q值中选择对应的动作a；

步骤5-5：对环境执行选择的动作a，获取即使的奖励r，同时转到一下状态s′，从而获得训练数据(s，a，r，s′)；

步骤5-6：将训练数据(s，a，r，s′)存入经验池回放池D中；

步骤5-7：每个智能体从经验回放池中随机采样m个训练数据(s，a，r，s′)构成数据集D，输入预测网络；

步骤5-8：每个智能体通过预测网络和目标网络计算出损失值，采用小批量梯度下降策略，通过神经网络的反向传播来更新智能体预测网络的参数；

步骤5-9：训练次数达到目标网络更新间隔，根据预测网络参数更新目标网络参数θi；

步骤5-10：判断s′是否为终止状态，若不是，进入步骤5-3，否则，优化结束，得到优化后的深度强化学习模型。

进一步的，所述步骤6包括如下具体步骤：

步骤6-1：对每一条V2V链路获取其实时的状态信息s；

步骤6-2：每一条V2V链路利用训练好的深度强化学习模型，输入状态信息s；

步骤6-3：输出最优动作策略，即每一条V2V链路得到的最优传输功率和传输信道。

有益效果：本发明提出的一种基于信息年龄约束的链路资源分配方法，采用深度学习和强化学习结合起来的学习算法，并将V2V链路作为智能体，以最大化链路传输速率和最小化信息年龄为优化目标，可以满足V2V用户对安全性以及对信息新鲜度和可靠性的服务质量要求。

综上所述，在高动态不确定环境下车路协同资源分配的场景下，本发明提出的一种基于信息年龄约束的链路资源分配方法在降低系统时延同时提升系统可靠性方面是优越的。

附图说明

图1是本发明实施例提供的一种基于信息年龄约束的链路资源分配方法的算法框架图；

图2是本发明实施例提供的系统模型示意图；

图3是本发明实施例提供的强化学习模型中状态空间、动作空间和奖励函数三者之间的关系示意图；

图4是本发明实施例提供的链路总传输速率-负载数据包数量仿真结果图；

图5是本发明实施例提供的链路总传输速率-噪声功率仿真结果图；

图6是本发明实施例提供的链路总传输速率-车辆数量仿真结果图；

具体实施方式

本发明的核心思想在于：针对高动态不确定环境下车路协同资源分配的场景，采用车联网资源分配技术进行传输，V2I链路和V2V链路通过5G切片技术接入不同切片互不干扰。将V2V链路视为智能体，使用分布式D2D通信方案，基于本地环境信息来选择传输功率和传输信道，通过建立深度强化学习模型，利用深度双Q学习算法优化深度强化学习模型。根据优化后的DDQN模型，得到每辆车决定的传输功率和信道，达到降低系统时延同时提升系统可靠性的目的。

下面对本发明做进一步详细描述：

步骤2：建立包括L对V2V用户，M个等带宽子信道的网络切片模型和计算模型，进而建立资源分配模型，具体为：

步骤2-2：第L条V2V链路的信号与干扰和噪声之和的比，即信干躁比(Signal toInterference plus Noise Ratio，SINR)表示为

其中是第l条V2V链路上的传输功率，g_L是第l条V2V链路的VUEs的信道增益，其中包括相关通信车辆之间的路径损耗值、快速衰落以及阴影衰落，σ²是在同一子信道上V2V链路受到的噪声的总和，G_d是在同一个子信道上的V2V链路的干扰功率的总和。

步骤2-3：建立计算模型，信息年龄可表示为：

T_l(x)＝W_l(x)+μ_l(x) (表达式3)

其中W_l(x)表示第l个VUEs的数据包在缓存时等待被服务的时间，而μ_l(x)则表示这个数据包的传输时问。

步骤2-4：综上，可以建立如下的目标函数：

以及相应的约束条件：

其中，目标函数maxY是最大化所有V2V链路总的传输速率，约束条件C1是对可靠性的Qos需求，SINR_TH表示和第l条V2V链路上的用户相对应的SIC接收机的信干噪比阈值，C2是对信息时效性的Qos需求，t_max是表示数据包在传输的过程中可以容忍的最大信息年龄的参数，而δ则是表示最大违反概率，C3，C4表明l条V2V链路被分配了m个子信道，第l条V2V链路使用第m个子信道，C5表明传输功率在可以达到的最大传输功率P_max范围内。

步骤4：根据各车辆获取到的环境状态信息，对车辆V2V链路以降低系统时延和提升通信可靠新为目标建立深度强化学习模型，包括如下具体步骤：

步骤4-8：计算目标Q值：

步骤4-9：设置损失函数：

其中Y_j为步骤4-8中计算的目标Q值；

步骤5：基于DDQN训练深度强化学习模型，具体包括如下步骤：

步骤5-2：对智能体采用的策略进行随机初始化操作；

步骤5-4：将s作为Q网络中的第一个输入状态，得到Q网络的所有动作对应的Q值输出，用∈-贪婪策略在当前输出Q值中选择对应的动作a；

步骤5-6：将训练数据(s，a，r，s′)存入经验池回放池D中；

步骤5-9：训练次数达到目标网络更新间隔，根据预测网络参数更新目标网络参数θ_i；

步骤5-10：判断s′是否为终止状态，若不是，进入步骤5-3，否则，优化结束，得到优化后的深度强化学习模型；

步骤6：在执行阶段，各V2V链路根据本地观察获得当前状态，利用训练好的深度强化模型得到车辆的传输功率和传输信道，具体包括如下步骤：

步骤6-1：对每一条V2V链路获取其实时的状态信息s；

为了验证优化算法的有效性，采用具体的系统模型，即3GPP TR 36.885文档报告中的曼哈顿交通模型(Manhattan Mobility Model)，基于Python中的Keras库进行仿真。仿真结果如附图4、图5和图6所示，下面对仿真结果进行详细说明。

图4对比分析了不同方法在不同负载数据包数量情况下的性能，表明了采用的基于DDQN的资源分配算法对应的V2V链路总传输速率在负载数据包数量(乘1060bytes)区间[0，700]内比DPRA算法和基准线随机资源分配算法都要更高，平均传输速率分别高出了14.60％和70.62％，并且随着负载数据包的数量增加，DDQN的优势越发的明显。这证明了基于DDQN的资源分配算法不会被数量庞大的负载数据影响传输速率，有很高的可靠性，能够保证如视频、音乐等大容量数据的传输和VUEs对车载视频会议、各种多媒体服务、高精度地图下载的需求。

图5对比分析了不同方法在不同噪声功率情况下的性能，表明了采用的基于DDQN资源分配算法对应的V2V链路总传输速率在噪声功率区间[-115，-75]内比DPRA算法和基准线随机资源分配算法都要更高，平均传输速率分别高出了42.93％和55.15％，并且随着噪声功率的不断增加，DDQN的优势更加明显。这证明了基于DDQN的资源分配算法不会被噪声功率的增大影响传输速率。

图6对比分析了不同方法在不同车辆数量情况下的性能，表明了采用基于DDQN的资源分配算法对应的V2V链路的总传输速率在车辆数量区间[20，100]内比DPRA算法和基准线随机资源分配算法都要更高，平均传输速率分别高出了28.84％和76.98％，并且随着车辆数量增加，DDQN的优势越明显。这证明了基于DDQN的资源分配算法的总传输速率不会因为车辆即车联网中的网络结点的数目的增大而影响。

最后，对说明书中的附图1-附图3进行详细说明。

在图1中，描述了本发明提出的方法的框架图，采用2个Q网络，利用在线Q网络生成贪心策略并将训练数据放入经验复用池，再从中抽取小批量样本，利用目标Q网络计算价值，从而更新网络参数θ_t。

在图2中，描述了本发明采用的系统模型图，及网络切片如何在由路侧单元、高速列车、车站和车辆等组成的C-V2X网络的不同层(如物理层、无线接入网络层、核心网络层)上实现。

在图3中，描述了强化学习中状态空间S、动作空间A和奖励函数R之间的关系，智能体获取当前环境状态Z_t后，结合自身观测状态作为当前状态S_t，根据特定的策略π选取动作A_t，将动作施加到环境后，得到下一个观测状态及奖励R_t+1。

根据对本发明的说明，本领域的技术人员应该不难看出，本发明提出的基于信息年龄约束的链路资源分配方法，可以有效降低系统时延，在复杂度和性能之间取得了很好的平衡。

本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于信息年龄约束的链路资源分配方法，其特征在于，具体包括以下步骤：

步骤1：在C-V2X网络下的车联网系统模型，由云计算中心、核心网和网络接入边缘组成；其中网络接入边缘由与基站、路侧计算单元(Road Side Unit，RSU)相连的移动边缘计算(Mobile Edge Computing，MEC)服务器与车辆组成，通过核心网与云计算中心连接；

步骤5：基于DDQN训练深度强化学习模型；

进一步的，所述步骤2包括如下具体步骤：

步骤2-1：建立V2V通信的网络切片模型，系统包括L对VUEs(V2V用户)，用集合l＝{1，2，...，L}表示；信道的带宽是D，将其分成M个带宽是D₀的子信道，子信道用集合表示，采用非正交多址(Non-Orthgonal Multiple Access，NOMA)接入，而NOMA的子信道传输依然采用正交频分复用技术，即子信道相互之间是正交的，互不干扰，但是同一个子信道可以被多个VUEs占用，他们之间采用非正交传输，在接收端采用串行干扰消除(Successive Interference Cancellation，SIC)技术根据VUEs不同的信号功率，按照一定的顺序进行干扰消除，进行正确的解调，从而实现区分用户的效果；

其中ρ_l[m]∈{0，1)，表示V2V链路选择的子信道，当ρ_l[m]＝1的时候则表示V2V链路使用了第m个子信道，相应的ρ_l[m]＝0的时候则表示V2V链路没有使用第m个子信道，/>表示第l′条V2V链路对第l条V2V链路的干扰增益；

步骤2-3：建立计算模型，信息年龄可表示为：

T_l(x)＝W_l(x)+μ_l(x) (表达式3)

其中W_l(x)表示第l个VUEs的数据包在缓存时等待被服务的时间，而μ_l(x)则表示这个数据包的传输时间；

步骤2-4：综上，可以建立如下的目标函数：

以及相应的约束条件：

其中，目标函数maxY是最大化所有V2V链路总的传输速率，约束条件C1是对可靠性的Qos需求，SINR_TH表示和第l条V2V链路上的用户相对应的SIC接收机的信干噪比阈值，C2是对信息时效性的Qos需求，t_max是表示数据包在传输的过程中可以容忍的最大信息年龄的参数，而δ则是表示最大违反概率，C3，C4表明l条V2V链路被分配了m个子信道，第l条V2V链路使用第m个子信道，C5表明传输功率在可以达到的最大传输功率P_max范围内；

进一步的，所述步骤4包括如下具体步骤：

步骤4-1：将适用于当前车联网环境的C-V2X协议基于垂直功能不同进行不同网络切片的划分，对特征不同的V2V链路和V2I链路划分不同的网络切片，然后主要研究对V2V链路的资源分配；

其中D_l表示V2V链路的剩余负载，T_l表示V2V链路的信息年龄，G_l[m]表示V2V链路的信道信息，I_l[m]表示V2V链路受到的干扰；

按照系统模型中所讲，表示第l条V2V链路上的传输功率，ρ_l[m]表示V2V链路选择的子信道；

在此模型中，基于实际情况考虑，将传输功率设置成四个等级，分别是[-100，5，10，23]dBm；动作空间可以理解成是智能体根据感应的状态，选择一定的策略，做出动作，他的动作有4×M个组合(M根据上文所述表示子信道的个数)；

公式中的在系统模型设置中已经说过，它是V2V链路的传输速率，可侧面反映出时延；λ_c是所占权值而加号右边的ε_l定义成奖励因子，λ_ε是其所占所占权值；

从而奖励函数的意义就明了了：表示在所有的数据成功传输以及信息年龄在所设置阈值之内这个前提下，V2V链路的总传输速率和总信息年龄负数之和的平均；奖励函数越大说明选择的策略越好，即选择了能够在保证传输成功率的情况下，让传输速率很高和信息年龄很小的传输功率和子信道；

步骤4-8：计算目标Q值：

步骤4-9：设置损失函数：

其中Y_j为步骤4-8中计算的目标Q值；

进一步，所述步骤5包括如下具体步骤：

步骤5-1：对Q（a，a，θ_i)中的参数θ和中的参数/>进行随机初始化操作，清空经验回放的集合D；

步骤5-2：对智能体采用的策略进行随机初始化操作；

步骤5-6：将训练数据(s，a，r，s′)存入经验池回放池D中；

进一步的，所述步骤6包括如下具体步骤：

步骤6-1：对每一条V2V链路获取其实时的状态信息s；