CN112954651B

CN112954651B - 一种基于深度强化学习的低时延高可靠性v2v资源分配方法

Info

Publication number: CN112954651B
Application number: CN202110273591.XA
Authority: CN
Inventors: 缪娟娟; 宋晓勤; 王书墨; 张昕婷; 雷磊
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-04-08
Anticipated expiration: 2041-03-12
Also published as: CN112954651A

Abstract

本发明提出的一种基于深度强化学习的低时延高可靠性资源分配方法，考虑了处于基站覆盖范围外的NR‑V2X侧链资源分配，其中车辆根据自己观测到的信息以及在训练阶段得到的Q网络调度5G网络中供V2V用户使用的URLLC切片资源。为了最大化V2V通信的能量效率，并且保证通信的可靠性以及时延要求，提出了一种使用集中式训练、分布式执行的深度强化学习架构，借助DDQN学习方法训练出满足上述要求的模型。将资源分配问题中目标和约束的建模都转化为深度强化学习中收益的设计，可以有效解决V2V用户信道分配和功率选择的联合优化问题，可以在一系列连续动作空间的优化中表现稳定。

Description

一种基于深度强化学习的低时延高可靠性V2V资源分配方法

技术领域

本发明涉及一种车联网技术，尤其涉及一种车联网的资源分配方法，更具体地说，涉及一种基于深度强化学习的低时延高可靠性车间(Vehicle-to-vehicle，V2V)通信资源分配方法。

背景技术

车联网(Vehicle-to-everything，V2X)是物联网(Internet of Things，IoT)在智能交通系统(Intelligent Transportation System，ITS)领域中的典型应用，它是指基于Intranet、Internet和移动车载网络而形成的无处不在的智能车网络。车联网根据约定的通信协议和数据交互标准共享和交换数据。它通过对行人、路边设施、车辆、网络和云之间的实时感知和协作，实现了智能交通管理和服务，例如改善了道路安全，增强了路况感知并减少了交通拥堵。

深度强化学习是机器学习算法中的一种，它结合了深度学习的感知能力和强化学习的决策能力，无需像传统的最优化方法一样对优化目标作出假设或为了降低复杂度做次优化处理，采用函数逼近的方法，可以很好地解决复杂高维状态空间中的决策问题。目前，研究表明强化学习能够在不确定条件下高效制定决策。它提供了一种具有理论支撑的、健壮的方法，用以处理环境的动态性，并在不确定条件下做出一系列决策。因此，深度强化学习可以应付无线网络中越来越多样的服务需求、越来越复杂的变量以及移动环境下由于快速变化的信道状态导致的资源分配的巨大不确定性，例如，信道状态信息的不精确导致的性能损失。

通信量的与日俱增和通信速率需求的大幅提升给NR-V2X中的V2V资源分配带来了挑战。同时，人们对车联网的高可靠性和低延时需求更是增加了V2V资源分配的难度，尤其是在安全性要求高的场景(例如：自动驾驶)。这些挑战吸引了很多研究者对V2X的资源分配展开研究。有文献提出一种针对车载自组网(Vehicular Ad hoc Networks，VANET)的基于C-V2X技术的新型V2V资源分配方案，通过延迟减少的加权总和来最小化总等待时间，它可以通过适度提高车速来提高延迟性能，但会导致高速车辆的延迟增加；有文献提出一种动态车辆资源匹配算法以最大化活动C-V2X用户的数量，从而减少了C-V2X用户与VANET用户在未许可频段中的冲突。上述所有工作都没有考虑到车联网中信道状态的快速变化特性。因此，很多研究人员提出了使用强化学习来应对车辆位置以及信道状态信息的高速变化。有文献提出一种在C-V2X中，即，V2V与V2I共享频谱资源，使用深度强化学习训练出使V2I链路总速率最大，同时保证V2V的包传输成功率的DDQN模型。有文献提出一种在保证V2V链路时延约束的条件下，最小化它对V2I链路的干扰的深度强化学习训练方法，采用完全去中心化的架构，将每辆车当作一个智能体，单独感知，同时邻居也会共享自己的子信道选择信息。上述所有工作都没有考虑到V2V通信带来的能量消耗。同时，由于采用集中式强化学习架构的资源分配方案需要将车辆信息上报给中央控制器，因此传输开销较大，且随着网络规模的增大而急剧增加，导致该方法无法扩展到大型网络；而在采用完全去中心化强化学习架构的资源分配方案中，每个智能体只能观测到与自己相关得部分信息，从而使得训练出来的模型不准确。因此，本发明提出一种基于集中式训练分布式执行深度强化学习架构的资源分配方法，并以能效最大化和通信时延约束作为收益设计的注重点。

发明内容

发明目的：针对现有技术存在的上述问题，提出一种基于深度强化学习的低时延高可靠V2V资源分配方法，该方法能该方法能在V2V链路对V2I链路没有干扰的情况下，保证通信时延达到安全要求的同时，使系统总能效尽可能高。

技术方案：在考虑V2V通信传输时延和可靠性的情况下，以合理高效的资源分配达到V2V通信系统能效最大化的目的。处于基站覆盖范围之外的车辆之间，为了进行数据的传输，比如与行车安全相关的数据，使用5G网络中URLLC切片相应的资源块以满足时延要求。同时，为了适应车联网中快速变化的信道状态信息，使用深度强化学习先在线下训练出满足要求的模型，再将模型交给车辆进行线上的分布式执行。其中，模型的训练要以最大化V2V能效为目标，同时保证低时延和高可靠性需求。为了找到最佳的策略，需要进行观测值和动作空间的设定、收益的设计以及学习算法的选择。完成上述发明通过以下技术方案实现：一种基于深度强化学习的V2V资源分配方法，包括步骤如下：

(1)，考虑未被基站覆盖的区域，车与车之间(V2V)为了传输与行车安全有关的数据，使用URLLC切片资源块；

(2)，训练阶段，车辆将本地观测信息，如信道增益、干扰信息、剩余V2V链路负载大小以及各自剩余的时间告诉计算单元，V2V智能体k的观测信息定义如下：

(3)，基站使用DDQN线下训练出每辆车V2V通信的资源分配模型，资源分配目标为最大化V2V链路传输速率的同时，保证每条链路的时延和每条链路的中断概率不超过门限值；

(4)，执行阶段，车辆根据本地观测信息使用各自训练好的Q网络进行子信道分配和功率等级的选择。

进一步的，所述步骤(3)包括如下具体步骤：

(3a)，将每辆车看作一个智能体，设置最大训练回合数E，以及每个回合中的时间步S；

(3b)，初始化当前回合episode以及当前步数为0，随机初始化每个智能体的Q网络；

(3c)，根据目前的观测值

以及ε贪心算法选择一个动作，动作维度为N*M，表示N个功率等级和M个可选子信道；

(3d)，将动作施加到环境中去，得到下一个观测状态以及收益，收益计算如下：

(3e)，更新信道的小尺度衰落信息；

(3f)，将当前观测状态、动作、收益以及下一个观测状态作为一个样本储存在经验复用池中；

(3g)，当经验复用池中积累了一定量的样本之后，开始学习；

(3h)，从经验复用池中随机抽取小批量的样本(s_t，a_t，r_t，s_t+1)，计算Q估计：

(3i)，通过最小化平方误差来训练Q网络：

L_t(θ)＝(y_t-Q(s_t，a_t；θ))²

(3i)，使用随机梯度下降算法更新网络参数θ。

进一步的，所述步骤(4)包括如下具体步骤：

(4a)，每辆车将本地观测值作为模型的输入；

(4b)，根据训练好的DDQN选择使动作价值最大的动作；

(4c)，使用选择的功率等级和子信道传输数据。

有益效果：本发明提出的一种基于深度强化学习的低时延高可靠性资源分配方法，考虑了处于基站覆盖范围外的NR-V2X侧链资源分配，其中车辆根据自己观测到的信息以及在训练阶段得到的Q网络调度V2V用户使用的URLLC切片资源。为了最大化V2V通信的能量效率，并且保证通信的可靠性以及时延要求，提出了一种使用集中式训练、分布式执行的深度强化学习架构，借助DDQN学习方法训练出满足上述要求的模型。将资源分配问题中目标和约束的建模都转化为深度强化学习中收益的设计，可以有效解决V2V用户信道分配和功率选择的联合优化问题，可以在一系列连续动作空间的优化中表现稳定。

综上所述，在保证资源分配合理，低能耗以及计算复杂度低的情况下，本发明提出的一种基于深度强化学习的资源分配方法在最大化系统能效方面是优越的。

附图说明

图1为基于深度强化学习的资源分配算法流程图；

图2为V2V资源分配系统模型；

图3为V2V资源分配中DDQN的训练流程；

图4为V2V通信中使用多智能体强化学习时的智能体与环境的交互过程；

具体实施方式

本发明的核心思想在于：为了使处于基站覆盖范围之外的车辆之间的通信能够满足时延要求的同时最大化能量效率，提出一种基于深度强化学习的低时延高可靠V2V资源分配方法。

下面对本发明做进一步详细描述。

步骤(1)，考虑未被基站覆盖的区域，车与车之间(V2V)为了传输与行车安全有关的数据，使用URLLC切片资源块进行通信；

步骤(2)，训练阶段，每一步，V2V智能体将当前的本地观测信息告诉计算单元。真实的环境状态包括全局信道状态以及所有智能体的行为，这些信息都是单个智能体不可知的。每个V2V智能体只能获取自己能够得到的部分信息，即观测信息，V2V智能体k的观测信息定义如下：

O(S_t，k)＝{I_k，h_k，g_k′k，B_k，T_k} 表达式1

其中，S_t表示当前环境状态，k为车辆(智能体)编号，I_k表示V2V_k接收端受到的总干扰功率，h_k表示V2V_k之间的信道增益，g_k′k表示其他V2V链路发射端到V2V_k接收端的信道增益，B_k表示V2V_k的剩余负载大小，T_k表示V2V_k的剩余时间，即时延门限与当前传输时间之差。e，ε分别表示训练迭代次数和ε贪心策略中的随机动作选择概率，由于e和ε会对智能体的动作选择产生影响，所以也将其作为智能体的观测信息，与车辆对环境的观测信息合并为

步骤(3)，基站使用DDQN线下训练出每辆车V2V通信的资源分配模型，资源分配目标为最大化

V2V链路传输速率的同时，保证每条链路的时延和每条链路的中断概率不超过门限值，包括步骤如下：

(3c)，在经验回访池收集到足够的样本前，根据目前的观测值

通过初始Q网络得到动作价值函数，并采取ε贪心策略选择一个动作，ε贪心策略为设定选择使Q值最大的动作的概率为ε，随机选择一个动作的概率为1-ε。

无线通信资源分配包括子信道分配以及发送功率控制，假设一个信道通过OFDM技术被分为M个正交子信道，V2V智能体可以从中选择一个或多个子信道进行数据传输。对于第k个V2V链路，其在t时刻选择信道信息为：

或1，

表示第m个子信道未被第k条V2V链路使用，

表示第m个子信道被第k条V2V链路使用。

同时，为了学习的方便以及实际的电路限制，将发送功率分为不同的等级，V2V智能体从中选择一个功率发送信号。动作维度为N*M，表示N个功率等级和M个可选子信道，例如，按照3GPP关于5G的标准，在采用FDD模式下，功率最大值设为23dBm，最小值设为-100dBm，表示V2V之间无传输。

其中，R_t+1表示在第t步的收益，R_k为V2V_k智能体当前的速率，表示为：

其中，W表示子信道宽度，M_k表示V2V_k选择的子信道集合，γ_k，m为V2V_k在子信道m上的信干噪比，表示为：

P_k，m为V2V_k在子信道m上的发射功率，h_k，m为V2V_k在子信道m上的信道增益，σ²为加性高斯白噪声功率，P_k′，m为其他V2V智能体在子信道m上的发射功率，g_k′k，m为其他V2V智能体的发射端到V2V_k智能体接收端的信道增益。

P_k(t)为V2V_k智能体的总能耗，表示为：

其中，

为传输电路所消耗的固定功率。

T₀为最大可容忍延迟，T_k为到目前为止V2V_k智能体传输数据所用的时间，λ_c和λ_p为两个非负权重，用于权衡两个目标函数。

强化学习的目的是找到一个最优策略，即状态到动作选择的最佳映射使得从任何初始状态开始的期望回报最大，期望回报用G_t表示：

其中，γ为折扣因子，R_t+k+1为第t+k步的收益。

(3e)，更新信道的小尺度衰落信息。小尺度衰落信息每一步更新一次，大尺度衰落信息每一幕更新一次；

(3f)，将当前观测状态、动作、收益以及下一个观测状态作为一个样本

储存在经验复用池中，经验复用池的存在降低了样本之间的相关性，避免了算法在一段时间内朝着同一个方向做梯度下降，从而使得神将网络的训练陷入一个局部的最优解中；

(3g)，当经验复用池中积累了一定量的样本之后，开始学习。在深度强化学习中，每个V2V智能体都有一个相应的DQN，它以观测值作为输入，输出动作价值函数。为了训练出DQN，我们需要多次幕迭代，并且在每一幕中的每一步V2V智能体要采用ε贪心策略探索状态-动作空间。

(3h)，在每一幕中，我们要从经验复用池中随机抽取小批量的样本

用于计算Q估计。为了解决DQN中可能存在的过估计情况，我们采用DDQN将选择和评估分开，使用在线网络来评估贪心策略，使用目标网络来估算其价值。Q估计由下式计算得出：

其中，θ_t和

分别表示在线网络和目标网络的参数，即权重集合。目标网络与在线网络结构相同，只是在线网络不停地更新参数，用来进行神将网络的训练，计算Q估计；而目标网络则冻结参数，每隔一段时间更新一次，使得

计算Q现实。在一段时间内，目标Q值是保持不变的，这在一定程度上降低了当前Q值和目标Q值之间的相关性，提升了算法的稳定性。

(3i)，通过最小化平方和误差来训练Q网络，损失函数定义如下：

L_t(θ)＝∑_D(y_t-Q(Z_t，A_t；θ))² 表达式10

其中，y_t是迭代t的目标，也就是Q估计，D表示抽取的样本集合。

(3j)，为了得到使损失函数最小的DQN，我们使用随机梯度下降算法更新网络参数θ，更新公式如下：

其中，α为迭代步长。

步骤(4)，执行阶段，V2V智能体根据本地观测信息使用各自训练好的Q网络进行子信道分配和功率等级的选择，包括如下步骤：

(4a)，每个V2V智能体将本地观测值作为Q网络的输入；

(4b)，训练好的Q网络输出动作价值，每个智能体选择使动作价值最大的动作；

(4c)，V2V智能体使用选择的功率等级和子信道传输数据。

最后，对说明书中的附图进行详细说明。

在图1中，描述了一种采用深度强化学习DDQN的5G车联网V2V资源分配方法的流程。V2V通信使用5G网络中URLLC切片相应的资源块，利用DDQN优化深度强化学习模型获得最优的V2V用户信道分配和发射功率联合优化策略。

在图2中，描述了无基站覆盖区域的V2V用户资源分配模型。集中式训练阶段，采用线下训练模式，由路边单元训练出每个智能体相关的DQN，再将DQN告诉给各个智能体，而分布式执行为线上模式，在智能体侧进行。

在图3中，描述了V2V资源分配中DDQN的训练流程。在集中式训练部分，DDQN采用两个神经网络，即在线网络和目标网络，其中在线网络不停地更新参数，用来进行神经网络的训练，计算Q估计。而目标网络则冻结参数，每隔8个幕更新一次，用来计算Q现实。使用目标网络来估计目标方程中maxQ(s′，a′)的动作最大值，然后用这个估计出来的动作来选择在线网络中的Q(s′)。同时，每个智能体的经验被存储在经验复用池中以供之后的学习过程从中抽取样本进行学习。在分布式执行部分，每个智能体感知环境信息，根据训练得到的策略选择动作，动作执行后获得收益并转移到下一状态。

在图4中，描述了V2V通信中使用多智能体强化学习时的智能体与环境的交互过程。V2V用户作为智能体感知当前环境状态、选择一个动作，然后获得相应的收益并进入下一个状态。

根据对本发明的说明，本领域的技术人员应该不难看出，本发明的基于深度强化学习的V2V资源分配算法可以在提高系统能效的同时保证通信时延达到安全要求。

本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.车联网中一种基于深度强化学习的低时延高可靠性V2V资源分配方法，其特征在于，包括步骤如下：

(2)，训练阶段，车辆将本地观测信息，即信道增益、干扰信息、剩余V2V负载大小以及各自剩余的时间告诉计算单元，第k个智能体V2V_k在t时刻的观测信息定义如下：

其中，I_k表示V2V_k接收端受到的总干扰功率，h_k表示V2V_k之间的信道增益，g_k′k表示其他V2V链路发射端到V2V_k接收端的信道增益，B_k表示V2V_k的剩余负载大小，T_k表示V2V_k的剩余时间，即时延门限与当前传输时间之差，e，ε分别表示训练迭代次数和ε贪心策略中的随机动作选择概率；

(3)，基站使用DDQN线下训练出每辆车V2V通信的资源分配模型，资源分配目标为最大化V2V链路传输速率的同时，保证每条链路的时延和每条链路的中断概率不超过门限值，具体包括：

(3a)，将每辆车看作一个智能体，对于每个智能体执行下面的操作；

(3b)，随机初始化每个智能体的Q网络；

(3c)，根据目前的观测值