CN115551065A

CN115551065A - 一种基于多智能体深度强化学习的车联网资源分配方法

Info

Publication number: CN115551065A
Application number: CN202211503787.4A
Authority: CN
Inventors: 纪宇昕
Original assignee: NANJING DELTO TECHNOLOGY CO LTD
Current assignee: NANJING DELTO TECHNOLOGY CO LTD
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2022-12-30

Abstract

本发明提出了一种基于多智能体深度强化学习的车联网资源分配方法，该方法将C‑V2X架构下车联网的数据传输链路分为用于安全数据传输的V2V链路和用于娱乐数据传输的V2I链路；并以每个V2V链路作为一个智能体，训练基于多智能体深度强化学习的车联网资源分配模型；所述车联网资源分配模型基于Dueling DQN和Double DQN的D3QN混合架构，针对C‑V2X架构下侧链接口和蜂窝接口的通信，以最大化周期性安全数据传输成功率和娱乐带宽容量为优化目标进行资源分配，可以有效解决车辆频谱分配和功率选择的联合资源分配问题，提供高可靠、低时延和大带宽的车辆资源分配方案。

Description

一种基于多智能体深度强化学习的车联网资源分配方法

技术领域

本发明涉及车联网技术领域，具体涉及一种基于多智能体深度强化学习的车联网资源分配方法。

背景技术

信息技术的进步推动了社会的快速发展。作为物联网（Internet of Thing，IoT）与智能交通（Intelligent Transportation）的结合产物，车辆已成为现代社会交通的重要组成部分。但是，目前的车联网资源分配方案通常需要收集较为完整的通信信道状态数据以构建资源分配模型，而车辆的高移动性与城市内环境的复杂性导致车辆无线信道的快速变化，使得资源分配模型收集的该类信道状态数据不准确，进而导致资源分配模型性能损失。另一方面，随着智能驾驶等行业的出现和对实际应用的迫切需求，用户提出了越来越多样化的娱乐要求，需要更大的带宽，而现有的资源分配模型鲜少考虑这一需求，因此难以满足用户的要求。

发明内容

发明目的：为克服现有技术的缺陷，本公开提出一种基于多智能体深度强化学习的车联网资源分配方法，该方法能够使得处于城市内基站覆盖范围内的车联网可以提供可靠、低时延的安全数据传输服务以及大带宽的娱乐服务。

技术方案：为实现上述技术效果，本发明提出以下技术方案：

一种基于多智能体深度强化学习的车联网资源分配方法，该方法包括步骤：

（1）将C-V2X架构下车联网的数据传输链路分为用于安全数据传输的V2V链路和用于娱乐数据传输的V2I链路；

（2）训练基于多智能体深度强化学习的车联网资源分配模型；所述车联网资源分配模型中，每个V2V链路作为一个智能体，所述智能体对周围环境和链路的观测数据集合作为状态空间，所述智能体能够选择的频谱子带和发射功率的所有组合作为动作空间，奖励值函数为以最大化V2V链路安全数据传输成功率和所有V2I链路的信道总容量为目的的目标函数；

（3）车辆在行驶途中，将相应智能体对周围环境和链路的观测数据输入所述车联网资源分配模型，根据所述车联网资源分配模型输出的Q值选取当前状态对应的奖励值最大的动作，得到最优的频谱子带和功率组合。

作为本公开实施例所述车联网资源分配方法的一种可选实施方式，所述状态空间表示为：

其中，

表示第n条V2V链路的信道增益，

表示第m个V2I频谱子带上第

个V2V发射机到第n个接收机之间的干扰信道，

表示第n个V2V链路到第m个V2I链路的干扰功率，

表示第m个V2I频谱子带上从第m个V2I发射机到第n个V2V接收机的干扰信道，

代表第n条V2V链路下剩余传输数据的大小，

表示剩余传输限制时间，

是使用相同频谱子带的所有V2V链路和相应的V2I链路的干扰总功率增益，

，

，

，

表示V2V链路的总数，

表示V2I链路的总数。

作为本公开实施例所述车联网资源分配方法的一种可选实施方式，所述奖励值函数的构建方法为：

1）将安全数据传输过程分成传输未完毕和传输完毕两种情况来构建第一子目标奖励函数；

传输未完毕状态下的第一子目标奖励函数表达式为：

其中，

表示第n个V2V链路中每个时隙t的奖励值，

是一个控制值范围的常数，使得在传输未完毕状态下，相应代理会根据当前传输速度获得奖励；

表示频谱分配判断因子，

表示第n个V2V链路使用第m个V2I链路的频谱来传递数据，

表示第n个V2V链路未启用第m个V2I链路的频谱；

表示第m条V2V链路在时隙t的信道容量；

传输完毕后，第一子目标奖励函数为一个常数奖励值

；

2）对于最大化所有V2I链路的信道总容量的目的，将每个时隙

内所有车辆和基站之间的V2I链路容量作为第二子目标奖励函数，表达示为：

其中，

表示时隙t下第m条V2I链路的信道容量；

3）基于第一子目标函数和第二子目标奖励函数构建奖励值函数：

其中，

表示在时隙

下的奖励值，

是训练时用于平衡V2I和V2V的加权参数，

和

是与通信链接数相关的常数。

作为本公开实施例所述车联网资源分配方法的一种可选实施方式，所述车联网资源分配模型采用D3QN网络结构。

作为本公开实施例所述车联网资源分配方法的一种可选实施方式，所述车联网资源分配模型的训练方法包括步骤：

S1、为所述智能体构建记忆池；确定传输阈值T，对于所述传输时间阈值T内的每一个时间步，所述记忆池分别存储训练所需的状态空间数据、动作空间数据、奖励值以及根据动作选择策略选择不同动作带来的状态空间变化数据；

S2、当所述记忆池内所存储的数据超过预设数量阈值时，所述智能体从自己的记忆池中取出小批量的样本并经过白归一化后输入所述车联网资源分配模型，所述车联网资源分配模型基于最小平方误差来学习所述样本，并使用随机梯度下降的方法更新网络参数；重复训练D次，直至满足预设的收敛条件。

作为本公开实施例所述车联网资源分配方法的一种可选实施方式，所述记忆池中，还引入了低维指纹，以消除采样数据的年龄问题并平滑拟合结果。

具体的，所述低维指纹为训练回合数

和贪婪参数

，引入低维指纹后的记忆池表示为：

其中，

表示记忆池，

表示状态空间数据，

表示动作空间数据，

表示奖励值函数，

表示智能体根据动作选择策略选择不同动作带来的状态空间变化数据。

有益效果：与现有技术相比，本公开实施方式所提出的车联网资源分配方法考虑到城市环境下处于基站覆盖范围内的C-V2X侧链（PC5）和蜂窝（Uu）接口的资源分配特点，将PC5接口代表的V2V链路对应周期性安全数据的传输服务，将Uu接口代表的V2I链路对应娱乐数据传输交互服务，结合Dueling DQN和Double DQN的架构搭建车联网资源分配模型，并以最大化侧链接口代表的车辆间周期性安全数据传输完成率和以蜂窝接口为代表的车辆与周围基站间的娱乐数据传输通道容量为目标训练该模型，有效解决车辆频谱分配和功率选择的联合资源分配问题。此外，本公开实施例在车联网资源分配模型的训练中引入软更新以及低维指纹技术，提高训练网络的精确度。

附图说明

图1为本公开实施例涉及的C-V2X架构下基于多智能体深度强化学习的车联网资源分配模型的训练流程图；

图2为本公开实施例示意性给出的一种C-V2X架构下车联网资源分配环境示意图；

图3为本公开实施例示意性给出的一种C-V2X架构下侧链（PC5）接口和蜂窝（Uu）接口的模型图；

图4为本公开实施例涉及的D3QN网络结构示意图。

具体实施方式

下面将结合附图和具体实施例对本发明作更进一步的说明。但应当理解的是，本发明可以以各种形式实施，以下在附图中出示并且在下文中描述的一些示例性和非限制性实施例，并不意图将本发明限制于所说明的具体实施例。

本公开实施例旨在针对目前处于城市内基站覆盖范围内的车联网无法提供高可靠、低时延的安全数据传输服务以及大带宽的娱乐服务的问题，提出了一种基于多智能体深度强化学习的车联网资源分配方法。

蜂窝车联网可以通过合理改造现有的基站的方式将基础设施集成进去。此外，在终端部署方面，可以延用以往的生态环境，使得部署成本最优。有鉴于此，本公开实施例首先构建了蜂窝车联网（Cellular Vehicle-to-Everything，C-V2X）结构，考虑到当前频谱资源的短缺，采用了C-V2X架构下的V2V链路和V2I链路共享频谱的方式，其中V2I链路以正交的方式占据此区域对应的频谱。

请参考图3，图3示意性地给出了C-V2X架构下侧链（PC5）接口和蜂窝（Uu）接口的模型图，基于该接口模型，本公开实施例将C-V2X架构下车联网的无线通信业务拆分为两种类型，一类是PC5接口代表的V2V链路，对应周期性安全数据的传输服务，该服务需要低时延、高可靠性的技术支持；另一类是Uu接口代表的V2I链路，对应娱乐数据传输交互服务，该服务对时延不敏感、确保大带宽容量即可，构建好的C-V2X架构下车联网资源分配环境如图2所示，为描述图2所示分配环境，本公开实施例构建了一个城市局部环境下多个车辆与单基站的系统模型，包括不同链路间的连接模型、噪声因子的生成、安全数据传输量的定义、延迟阈值的设定以及剩余时间的计算。

在所述城市局部环境下多个车辆与单基站的系统模型中，我们假设环境中包含有M条V2I链路和N条V2V链路。则在同一个相干时间内，第m条V2I频谱子带上第n条V2V链路的信干噪比（SINR）表示为：

其中，

表示第m个V2I链路在相应频谱子带上发射机的功率；

表示第m条V2I链路上的信道增益；

表示当前环境下的噪声功率；

表示频谱分配判断因子，

表示第n个V2V链路使用第m个V2I链路的频谱来传递数据，

表示第n个V2V链路未启用第m个V2I链路的频谱；

表示第n个V2V链路在相应频谱子带上发射机的功率；

表示第n个V2V链路到第m个V2I链路的干扰功率；

，

，M表示V2I链路的总数，N表示V2V链路的总数。

同理，第n条V2V链路在第m条V2I频谱子带上的信干噪比（SINR）表示为：

其中，

表示第n条V2V链路的信道增益；

是使用相同频谱子带的所有V2V链路和相应的V2I链路的干扰总功率增益；

表示第m个频谱子带上从第m个V2I发射机到第n个V2V接收机的干扰信道；

表示频谱分配判断因子，

表示第

个V2V链路使用第m个V2I链路的频谱来传递数据，

表示第

个V2V链路未启用第m个V2I链路的频谱；

表示第

个V2V链路在相应频谱子带上发射机的功率；

表示第m个频谱子带上第

个V2V发射机到第n个接收机之间的干扰信道，

。

由此可以根据香农定理得到V2I链路的信道容量和V2V链路的信道容量：

其中，

表示第m条V2I链路的信道容量，

表示第m条V2V链路的信道容量，

表示信道带宽，单位为赫兹（Hz），

表示第m条V2I频谱子带上第n条V2V链路的信干噪比，

表示第n条V2V链路在第m条V2I频谱子带上的信干噪比。

接着，我们将V2V链路的周期性安全数据传输问题转化为以下约束条件：

其中，

表示给定时限阈值，

表示第n条V2V链路下剩余传输数据的大小，

表示剩余传输时间。如果在给定时限阈值内传输完成，则代表该次传输成功。

将V2I链路的娱乐带宽容量转化为：

其代表所有V2I链路的信道容量之和，值越大即代表当前总娱乐带宽条件良好，能更多的满足用户相应的需求。

基于城市局部环境下多个车辆与单基站的系统模型，我们可以构建基于多智能体深度强化学习的车联网资源分配模型。本公开实施例将每个V2V链路视为一个智能体，并为每个智能体构建记忆池，也就是训练数据集，记忆池中存储有智能体的状态空间、动作空间、奖励值以及根据动作选择策略选择不同动作带来的状态空间变化数据。之后利用深度学期网络进行从记忆池内小规模抽样并对抽取的数据归一化后进行训练；利用软更新和随机梯度下降方法更新网络。

请参考图1，图1示意性地给出了C-V2X架构下基于多智能体深度强化学习的车联网资源分配模型的训练流程，该流程可以分为以下步骤：

步骤S1：确定时限阈值

，对于时限阈值

内的每一个时间步，记忆池分别存储训练所需的数据，即状态空间数据、动作空间数据、奖励值以及根据动作选择策略选择不同动作带来的状态空间变化数据。

S11：本公开实施例中，将智能体在当前时间步内对周围环境和链路的观测数据集合作为状态空间，表示为：

其中，

表示第n条V2V链路的信道增益，

表示第m个V2I频谱子带上第

个V2V发射机到第n个接收机之间的干扰信道，

表示第n个V2V链路到第m个V2I链路的干扰功率，

代表第n条V2V链路下剩余传输数据的大小，

表示剩余传输限制时间，

，

，

，N表示V2V链路的总数，M表示V2I链路的总数。

S12：本公开实施例中，将智能体可以选择的频谱子带和发射功率的每一个组合作为一个可选动作，构建成动作空间，该动作空间可用矩阵

表示，矩阵的行与列分别代表不同的频谱子带和发射功率的组合。矩阵

的表达式为：

其中，

表示选择结果，

表示选择频谱子带

和发射功率

，

表示不选择频谱子带

和发射功率

；

，

，

表示智能体能够选择的发射功率的总数，

表示智能体能够选择的频谱子带的总数。

S13：基于以上对城市局部环境下多个车辆与单基站的系统模型的描述可知，车辆网内的资源分配问题可以变相转化为两个对应指标：其一是保证V2V链路传输的成功率问题；其二是最大化所有V2I链路的信道总容量。本公开实施例解决的最终目标是使车辆具有高安全信息传输完成率的同时，确保一定程度的娱乐带宽。因此最直接的奖励条件也是以上两个要素。然而，如果仅仅以最终主线目标驱动代理，则往往会导致奖励问题稀疏，这意味着很难在培训的早期阶段形成本地知识，也很难提供本地指导，从而导致盲目探索；在训练的后期，只能提供片面的指导，这使得样本效率低甚至无法收敛，并导致学习困难。

综上，本公开实施例利用辅助奖励函数中的子目标奖励进行细化。即根据促进最终目标实现过程中的贡献大小，分别给予适当的奖励或惩罚。

将安全数据传输过程分成传输未完毕和传输完毕两种情况来构建第一子目标奖励函数；

第一种情况是传输还未完毕状态，将第一子目标奖励函数的表达式为：

其中，

表示第n个V2V链路中每个时隙t的奖励值，

表示第m条V2V链路在时隙t的信道容量。

第二种情况即传输完毕状态，此时这个代理会被给予一个最终的常数奖励值

。

对于最大化所有V2I链路的信道总容量的指标，我们将每个时隙

其中，

表示不同时隙

下第m条V2I链路的信道容量。

因此，最终构建而成的奖励值函数如下：

其中，

表示在时隙

下的奖励值，

是训练时用于平衡V2I和V2V的加权参数，

和

是与通信链接数相关的常数。

S14：记录由于采取动作所造成的周围环境和链路的变化数据

。

优选的，我们还可以在智能体的记忆池中引入低维指纹，通过记录该智能体的训练回合数

和贪婪参数

来消除采样数据的年龄问题并平滑拟合结果，同时更好地反映训练过程中其他代理策略的变化。此时，记忆池可以表示为：

其中，

表示记忆池，

表示状态空间数据，

表示动作空间数据，

表示奖励值函数，

表示所述智能体根据动作选择策略选择不同动作带来的状态空间变化数据。

步骤S2：当记忆池内所存储的数据超过预设数量阈值时，进入神经网络训练阶段，首先每个智能体从自己的记忆池中取出小批量的样本，经过白归一化后（即将数据根据类型进行放缩），训练网络利用最小平方误差来学习，并使用随机梯度下降的方法更新训练网络参数。

请参考图4，本公开实施例中，采用D3QN网络作为训练网络，D3QN网络包括一个主DQN网络和一个用于计算信号控制策略目标Q值的目标网络，通过使目标网络进行低频率学习，使它输出的信号控制策略的目标Q值波动较小，从而避免信号控制策略训练过程的网络震荡。

为了平滑更新，更新目标网络时使用软更新方式，即：

其中

表示训练网络参数，

表示目标网络参数，

是软更新权重因子，为一个常数。

训练完成后，每个车辆在运行时将自身对周围环境和链路的观测数据输入训练好的车联网资源分配模型，基于车联网资源分配模型输出的Q值从动作空间中选取当前状态对应的奖励值最大的动作，得到最优的频谱子带和功率选择组合。

应当理解的是，在技术上可行的情况下，以下针对不同实施例所列举的技术特征可以相互组合，从而形成本发明范围内的另外的实施例。此外，本发明所述的特定示例和实施例是非限制性的，并且可以对以上所阐述的结构、步骤、顺序做出相应修改而不脱离本发明的保护范围。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多智能体深度强化学习的车联网资源分配方法，其特征在于包括步骤：

2.根据权利要求1所述的车联网资源分配方法，其特征在于，所述状态空间表示为：

其中，

表示第n条V2V链路的信道增益，

表示第m个V2I频谱子带上第

个V2V发射机到第n个接收机之间的干扰信道，

表示第n个V2V链路到第m个V2I链路的干扰功率，

代表第n条V2V链路下剩余传输数据的大小，

表示剩余传输限制时间，

，

，

，

表示V2V链路的总数，

表示V2I链路的总数。

3.根据权利要求2所述的车联网资源分配方法，其特征在于，所述奖励值函数的构建方法为：

传输未完毕状态下的第一子目标奖励函数表达式为：

其中，

表示第n个V2V链路中每个时隙t的奖励值，

表示频谱分配判断因子，

表示第n个V2V链路使用第m个V2I链路的频谱来传递数据，

表示第n个V2V链路未启用第m个V2I链路的频谱；

表示第m条V2V链路在时隙t的信道容量；

传输完毕后，第一子目标奖励函数为一个常数奖励值

；

2）基于最大化所有V2I链路的信道总容量的目的，将每个时隙t内所有车辆和基站之间的V2I链路容量作为第二子目标奖励函数，表达示为：

其中，

表示时隙t下第m条V2I链路的信道容量；

3）基于所述第一子目标函数和所述第二子目标奖励函数构建所述奖励值函数的表达式：

其中，

表示在时隙

下的奖励值，

是训练时用于平衡V2I和V2V的加权参数，

和

是与通信链接数相关的常数。

4.根据权利要求1至3任意一项所述的车联网资源分配方法，其特征在于，所述车联网资源分配模型采用D3QN网络结构。

5.根据权利要求3所述的车联网资源分配方法，其特征在于，所述车联网资源分配模型的训练方法包括步骤：

S1、为所述智能体构建记忆池；确定传输阈值T，对于所述传输时间阈值

内的每一个时间步，所述记忆池分别存储训练所需的状态空间数据、动作空间数据、奖励值以及根据动作选择策略选择不同动作带来的状态空间变化数据；

6.根据权利要求5所述的车联网资源分配方法，其特征在于，所述记忆池中，还引入了低维指纹，以消除采样数据的年龄问题并平滑拟合结果。

7.根据权利要求6所述的车联网资源分配方法，其特征在于，所述低维指纹为训练回合数

和贪婪参数

，引入所述低维指纹后，所述记忆池表示为：

其中，

表示记忆池，

表示状态空间数据，

表示动作空间数据，

表示奖励值函数，