CN115551065A - 一种基于多智能体深度强化学习的车联网资源分配方法 - Google Patents

一种基于多智能体深度强化学习的车联网资源分配方法 Download PDF

Info

Publication number
CN115551065A
CN115551065A CN202211503787.4A CN202211503787A CN115551065A CN 115551065 A CN115551065 A CN 115551065A CN 202211503787 A CN202211503787 A CN 202211503787A CN 115551065 A CN115551065 A CN 115551065A
Authority
CN
China
Prior art keywords
link
resource allocation
internet
data
transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211503787.4A
Other languages
English (en)
Inventor
纪宇昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING DELTO TECHNOLOGY CO LTD
Original Assignee
NANJING DELTO TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING DELTO TECHNOLOGY CO LTD filed Critical NANJING DELTO TECHNOLOGY CO LTD
Priority to CN202211503787.4A priority Critical patent/CN115551065A/zh
Publication of CN115551065A publication Critical patent/CN115551065A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/242TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account path loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/243TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出了一种基于多智能体深度强化学习的车联网资源分配方法,该方法将C‑V2X架构下车联网的数据传输链路分为用于安全数据传输的V2V链路和用于娱乐数据传输的V2I链路;并以每个V2V链路作为一个智能体,训练基于多智能体深度强化学习的车联网资源分配模型;所述车联网资源分配模型基于Dueling DQN和Double DQN的D3QN混合架构,针对C‑V2X架构下侧链接口和蜂窝接口的通信,以最大化周期性安全数据传输成功率和娱乐带宽容量为优化目标进行资源分配,可以有效解决车辆频谱分配和功率选择的联合资源分配问题,提供高可靠、低时延和大带宽的车辆资源分配方案。

Description

一种基于多智能体深度强化学习的车联网资源分配方法
技术领域
本发明涉及车联网技术领域,具体涉及一种基于多智能体深度强化学习的车联网资源分配方法。
背景技术
信息技术的进步推动了社会的快速发展。作为物联网(Internet of Thing,IoT)与智能交通(Intelligent Transportation)的结合产物,车辆已成为现代社会交通的重要组成部分。但是,目前的车联网资源分配方案通常需要收集较为完整的通信信道状态数据以构建资源分配模型,而车辆的高移动性与城市内环境的复杂性导致车辆无线信道的快速变化,使得资源分配模型收集的该类信道状态数据不准确,进而导致资源分配模型性能损失。另一方面,随着智能驾驶等行业的出现和对实际应用的迫切需求,用户提出了越来越多样化的娱乐要求,需要更大的带宽,而现有的资源分配模型鲜少考虑这一需求,因此难以满足用户的要求。
发明内容
发明目的:为克服现有技术的缺陷,本公开提出一种基于多智能体深度强化学习的车联网资源分配方法,该方法能够使得处于城市内基站覆盖范围内的车联网可以提供可靠、低时延的安全数据传输服务以及大带宽的娱乐服务。
技术方案:为实现上述技术效果,本发明提出以下技术方案:
一种基于多智能体深度强化学习的车联网资源分配方法,该方法包括步骤:
(1)将C-V2X架构下车联网的数据传输链路分为用于安全数据传输的V2V链路和用于娱乐数据传输的V2I链路;
(2)训练基于多智能体深度强化学习的车联网资源分配模型;所述车联网资源分配模型中,每个V2V链路作为一个智能体,所述智能体对周围环境和链路的观测数据集合作为状态空间,所述智能体能够选择的频谱子带和发射功率的所有组合作为动作空间,奖励值函数为以最大化V2V链路安全数据传输成功率和所有V2I链路的信道总容量为目的的目标函数;
(3)车辆在行驶途中,将相应智能体对周围环境和链路的观测数据输入所述车联网资源分配模型,根据所述车联网资源分配模型输出的Q值选取当前状态对应的奖励值最大的动作,得到最优的频谱子带和功率组合。
作为本公开实施例所述车联网资源分配方法的一种可选实施方式,所述状态空间表示为:
Figure 578484DEST_PATH_IMAGE001
其中,
Figure 981784DEST_PATH_IMAGE002
表示第n条V2V链路的信道增益,
Figure 975147DEST_PATH_IMAGE003
表示第m个V2I频谱子带上第
Figure 463898DEST_PATH_IMAGE004
个V2V发射机到第n个接收机之间的干扰信道,
Figure 325543DEST_PATH_IMAGE005
表示第n个V2V链路到第m个V2I链路的干扰功率,
Figure 583349DEST_PATH_IMAGE006
表示第m个V2I频谱子带上从第m个V2I发射机到第n个V2V接收机的干扰信道,
Figure 482035DEST_PATH_IMAGE007
代表第n条V2V链路下剩余传输数据的大小,
Figure 458081DEST_PATH_IMAGE008
表示剩余传输限制时间,
Figure 998784DEST_PATH_IMAGE009
是使用相同频谱子带的所有V2V链路和相应的V2I链路的干扰总功率增益,
Figure 235730DEST_PATH_IMAGE010
Figure 570897DEST_PATH_IMAGE011
Figure 768660DEST_PATH_IMAGE012
Figure 847474DEST_PATH_IMAGE013
表示V2V链路的总数,
Figure 938927DEST_PATH_IMAGE014
表示V2I链路的总数。
作为本公开实施例所述车联网资源分配方法的一种可选实施方式,所述奖励值函数的构建方法为:
1)将安全数据传输过程分成传输未完毕和传输完毕两种情况来构建第一子目标奖励函数;
传输未完毕状态下的第一子目标奖励函数表达式为:
Figure 710574DEST_PATH_IMAGE015
其中,
Figure 395633DEST_PATH_IMAGE016
表示第n个V2V链路中每个时隙t的奖励值,
Figure 12559DEST_PATH_IMAGE017
是一个控制值范围的常数,使得在传输未完毕状态下,相应代理会根据当前传输速度获得奖励;
Figure 99464DEST_PATH_IMAGE018
表示频谱分配判断因子,
Figure 901067DEST_PATH_IMAGE019
表示第n个V2V链路使用第m个V2I链路的频谱来传递数据,
Figure 339001DEST_PATH_IMAGE020
表示第n个V2V链路未启用第m个V2I链路的频谱;
Figure 759619DEST_PATH_IMAGE021
表示第m条V2V链路在时隙t的信道容量;
传输完毕后,第一子目标奖励函数为一个常数奖励值
Figure 701030DEST_PATH_IMAGE022
2)对于最大化所有V2I链路的信道总容量的目的,将每个时隙
Figure 548900DEST_PATH_IMAGE023
内所有车辆和基站之间的V2I链路容量作为第二子目标奖励函数,表达示为:
Figure 474131DEST_PATH_IMAGE024
其中,
Figure 566282DEST_PATH_IMAGE025
表示时隙t下第m条V2I链路的信道容量;
3)基于第一子目标函数和第二子目标奖励函数构建奖励值函数:
Figure 627779DEST_PATH_IMAGE026
其中,
Figure 380972DEST_PATH_IMAGE027
表示在时隙
Figure 527919DEST_PATH_IMAGE028
下的奖励值,
Figure 555918DEST_PATH_IMAGE029
是训练时用于平衡V2I和V2V的加权参数,
Figure 596555DEST_PATH_IMAGE030
Figure 786228DEST_PATH_IMAGE031
是与通信链接数相关的常数。
作为本公开实施例所述车联网资源分配方法的一种可选实施方式,所述车联网资源分配模型采用D3QN网络结构。
作为本公开实施例所述车联网资源分配方法的一种可选实施方式,所述车联网资源分配模型的训练方法包括步骤:
S1、为所述智能体构建记忆池;确定传输阈值T,对于所述传输时间阈值T内的每一个时间步,所述记忆池分别存储训练所需的状态空间数据、动作空间数据、奖励值以及根据动作选择策略选择不同动作带来的状态空间变化数据;
S2、当所述记忆池内所存储的数据超过预设数量阈值时,所述智能体从自己的记忆池中取出小批量的样本并经过白归一化后输入所述车联网资源分配模型,所述车联网资源分配模型基于最小平方误差来学习所述样本,并使用随机梯度下降的方法更新网络参数;重复训练D次,直至满足预设的收敛条件。
作为本公开实施例所述车联网资源分配方法的一种可选实施方式,所述记忆池中,还引入了低维指纹,以消除采样数据的年龄问题并平滑拟合结果。
具体的,所述低维指纹为训练回合数
Figure 154893DEST_PATH_IMAGE032
和贪婪参数
Figure 721003DEST_PATH_IMAGE033
,引入低维指纹后的记忆池表示为:
Figure 757092DEST_PATH_IMAGE034
其中,
Figure 242300DEST_PATH_IMAGE035
表示记忆池,
Figure 98261DEST_PATH_IMAGE036
表示状态空间数据,
Figure 202483DEST_PATH_IMAGE037
表示动作空间数据,
Figure 358658DEST_PATH_IMAGE038
表示奖励值函数,
Figure 890133DEST_PATH_IMAGE039
表示智能体根据动作选择策略选择不同动作带来的状态空间变化数据。
有益效果:与现有技术相比,本公开实施方式所提出的车联网资源分配方法考虑到城市环境下处于基站覆盖范围内的C-V2X侧链(PC5)和蜂窝(Uu)接口的资源分配特点,将PC5接口代表的V2V链路对应周期性安全数据的传输服务,将Uu接口代表的V2I链路对应娱乐数据传输交互服务,结合Dueling DQN和Double DQN的架构搭建车联网资源分配模型,并以最大化侧链接口代表的车辆间周期性安全数据传输完成率和以蜂窝接口为代表的车辆与周围基站间的娱乐数据传输通道容量为目标训练该模型,有效解决车辆频谱分配和功率选择的联合资源分配问题。此外,本公开实施例在车联网资源分配模型的训练中引入软更新以及低维指纹技术,提高训练网络的精确度。
附图说明
图1为本公开实施例涉及的C-V2X架构下基于多智能体深度强化学习的车联网资源分配模型的训练流程图;
图2为本公开实施例示意性给出的一种C-V2X架构下车联网资源分配环境示意图;
图3为本公开实施例示意性给出的一种C-V2X架构下侧链(PC5)接口和蜂窝(Uu)接口的模型图;
图4为本公开实施例涉及的D3QN网络结构示意图。
具体实施方式
下面将结合附图和具体实施例对本发明作更进一步的说明。但应当理解的是,本发明可以以各种形式实施,以下在附图中出示并且在下文中描述的一些示例性和非限制性实施例,并不意图将本发明限制于所说明的具体实施例。
本公开实施例旨在针对目前处于城市内基站覆盖范围内的车联网无法提供高可靠、低时延的安全数据传输服务以及大带宽的娱乐服务的问题,提出了一种基于多智能体深度强化学习的车联网资源分配方法。
蜂窝车联网可以通过合理改造现有的基站的方式将基础设施集成进去。此外,在终端部署方面,可以延用以往的生态环境,使得部署成本最优。有鉴于此,本公开实施例首先构建了蜂窝车联网(Cellular Vehicle-to-Everything,C-V2X)结构,考虑到当前频谱资源的短缺,采用了C-V2X架构下的V2V链路和V2I链路共享频谱的方式,其中V2I链路以正交的方式占据此区域对应的频谱。
请参考图3,图3示意性地给出了C-V2X架构下侧链(PC5)接口和蜂窝(Uu)接口的模型图,基于该接口模型,本公开实施例将C-V2X架构下车联网的无线通信业务拆分为两种类型,一类是PC5接口代表的V2V链路,对应周期性安全数据的传输服务,该服务需要低时延、高可靠性的技术支持;另一类是Uu接口代表的V2I链路,对应娱乐数据传输交互服务,该服务对时延不敏感、确保大带宽容量即可,构建好的C-V2X架构下车联网资源分配环境如图2所示,为描述图2所示分配环境,本公开实施例构建了一个城市局部环境下多个车辆与单基站的系统模型,包括不同链路间的连接模型、噪声因子的生成、安全数据传输量的定义、延迟阈值的设定以及剩余时间的计算。
在所述城市局部环境下多个车辆与单基站的系统模型中,我们假设环境中包含有M条V2I链路和N条V2V链路。则在同一个相干时间内,第m条V2I频谱子带上第n条V2V链路的信干噪比(SINR)表示为:
Figure 358024DEST_PATH_IMAGE040
其中,
Figure 358DEST_PATH_IMAGE041
表示第m个V2I链路在相应频谱子带上发射机的功率;
Figure 11039DEST_PATH_IMAGE042
表示第m条V2I链路上的信道增益;
Figure 713416DEST_PATH_IMAGE043
表示当前环境下的噪声功率;
Figure 543968DEST_PATH_IMAGE044
表示频谱分配判断因子,
Figure 114627DEST_PATH_IMAGE045
表示第n个V2V链路使用第m个V2I链路的频谱来传递数据,
Figure 979815DEST_PATH_IMAGE046
表示第n个V2V链路未启用第m个V2I链路的频谱;
Figure 853093DEST_PATH_IMAGE047
表示第n个V2V链路在相应频谱子带上发射机的功率;
Figure 170942DEST_PATH_IMAGE048
表示第n个V2V链路到第m个V2I链路的干扰功率;
Figure 420658DEST_PATH_IMAGE049
Figure 999407DEST_PATH_IMAGE050
M表示V2I链路的总数,N表示V2V链路的总数。
同理,第n条V2V链路在第m条V2I频谱子带上的信干噪比(SINR)表示为:
Figure 309165DEST_PATH_IMAGE051
Figure 114310DEST_PATH_IMAGE052
其中,
Figure 902138DEST_PATH_IMAGE053
表示第n条V2V链路的信道增益;
Figure 476338DEST_PATH_IMAGE054
是使用相同频谱子带的所有V2V链路和相应的V2I链路的干扰总功率增益;
Figure 956998DEST_PATH_IMAGE055
表示第m个频谱子带上从第m个V2I发射机到第n个V2V接收机的干扰信道;
Figure 374073DEST_PATH_IMAGE056
表示频谱分配判断因子,
Figure 700012DEST_PATH_IMAGE057
表示第
Figure 128720DEST_PATH_IMAGE058
个V2V链路使用第m个V2I链路的频谱来传递数据,
Figure 45860DEST_PATH_IMAGE059
表示第
Figure 560018DEST_PATH_IMAGE058
个V2V链路未启用第m个V2I链路的频谱;
Figure 814282DEST_PATH_IMAGE060
表示第
Figure 363075DEST_PATH_IMAGE058
个V2V链路在相应频谱子带上发射机的功率;
Figure 185537DEST_PATH_IMAGE061
表示第m个频谱子带上第
Figure 186991DEST_PATH_IMAGE058
个V2V发射机到第n个接收机之间的干扰信道,
Figure 120312DEST_PATH_IMAGE062
由此可以根据香农定理得到V2I链路的信道容量和V2V链路的信道容量:
Figure 651175DEST_PATH_IMAGE063
Figure 378960DEST_PATH_IMAGE064
其中,
Figure 133289DEST_PATH_IMAGE065
表示第m条V2I链路的信道容量,
Figure 604722DEST_PATH_IMAGE066
表示第m条V2V链路的信道容量,
Figure 862528DEST_PATH_IMAGE067
表示信道带宽,单位为赫兹(Hz),
Figure 292372DEST_PATH_IMAGE068
表示第m条V2I频谱子带上第n条V2V链路的信干噪比,
Figure 393052DEST_PATH_IMAGE069
表示第n条V2V链路在第m条V2I频谱子带上的信干噪比。
接着,我们将V2V链路的周期性安全数据传输问题转化为以下约束条件:
Figure 402596DEST_PATH_IMAGE070
其中,
Figure 780488DEST_PATH_IMAGE071
表示给定时限阈值,
Figure 115655DEST_PATH_IMAGE072
表示第n条V2V链路下剩余传输数据的大小,
Figure 578997DEST_PATH_IMAGE073
表示剩余传输时间。如果在给定时限阈值内传输完成,则代表该次传输成功。
将V2I链路的娱乐带宽容量转化为:
Figure 516866DEST_PATH_IMAGE074
其代表所有V2I链路的信道容量之和,值越大即代表当前总娱乐带宽条件良好,能更多的满足用户相应的需求。
基于城市局部环境下多个车辆与单基站的系统模型,我们可以构建基于多智能体深度强化学习的车联网资源分配模型。本公开实施例将每个V2V链路视为一个智能体,并为每个智能体构建记忆池,也就是训练数据集,记忆池中存储有智能体的状态空间、动作空间、奖励值以及根据动作选择策略选择不同动作带来的状态空间变化数据。之后利用深度学期网络进行从记忆池内小规模抽样并对抽取的数据归一化后进行训练;利用软更新和随机梯度下降方法更新网络。
请参考图1,图1示意性地给出了C-V2X架构下基于多智能体深度强化学习的车联网资源分配模型的训练流程,该流程可以分为以下步骤:
步骤S1:确定时限阈值
Figure 749264DEST_PATH_IMAGE075
,对于时限阈值
Figure 255332DEST_PATH_IMAGE075
内的每一个时间步,记忆池分别存储训练所需的数据,即状态空间数据、动作空间数据、奖励值以及根据动作选择策略选择不同动作带来的状态空间变化数据。
S11:本公开实施例中,将智能体在当前时间步内对周围环境和链路的观测数据集合作为状态空间,表示为:
Figure 205970DEST_PATH_IMAGE076
其中,
Figure 822896DEST_PATH_IMAGE077
表示第n条V2V链路的信道增益,
Figure 34435DEST_PATH_IMAGE078
表示第m个V2I频谱子带上第
Figure 711404DEST_PATH_IMAGE079
个V2V发射机到第n个接收机之间的干扰信道,
Figure 149339DEST_PATH_IMAGE080
表示第n个V2V链路到第m个V2I链路的干扰功率,
Figure 304376DEST_PATH_IMAGE081
表示第m个V2I频谱子带上从第m个V2I发射机到第n个V2V接收机的干扰信道,
Figure 511367DEST_PATH_IMAGE082
代表第n条V2V链路下剩余传输数据的大小,
Figure 483871DEST_PATH_IMAGE083
表示剩余传输限制时间,
Figure 409102DEST_PATH_IMAGE084
是使用相同频谱子带的所有V2V链路和相应的V2I链路的干扰总功率增益,
Figure 367830DEST_PATH_IMAGE085
Figure 163748DEST_PATH_IMAGE086
Figure 182520DEST_PATH_IMAGE087
N表示V2V链路的总数,M表示V2I链路的总数。
S12:本公开实施例中,将智能体可以选择的频谱子带和发射功率的每一个组合作为一个可选动作,构建成动作空间,该动作空间可用矩阵
Figure 595046DEST_PATH_IMAGE088
表示,矩阵的行与列分别代表不同的频谱子带和发射功率的组合。矩阵
Figure 482100DEST_PATH_IMAGE088
的表达式为:
Figure 398103DEST_PATH_IMAGE089
其中,
Figure 322197DEST_PATH_IMAGE090
表示选择结果,
Figure 956441DEST_PATH_IMAGE091
表示选择频谱子带
Figure 522551DEST_PATH_IMAGE092
和发射功率
Figure 683274DEST_PATH_IMAGE093
Figure 778269DEST_PATH_IMAGE094
表示不选择频谱子带
Figure 899809DEST_PATH_IMAGE092
和发射功率
Figure 269610DEST_PATH_IMAGE093
Figure 894627DEST_PATH_IMAGE095
Figure 550736DEST_PATH_IMAGE096
Figure 893992DEST_PATH_IMAGE097
表示智能体能够选择的发射功率的总数,
Figure 67485DEST_PATH_IMAGE098
表示智能体能够选择的频谱子带的总数。
S13:基于以上对城市局部环境下多个车辆与单基站的系统模型的描述可知,车辆网内的资源分配问题可以变相转化为两个对应指标:其一是保证V2V链路传输的成功率问题;其二是最大化所有V2I链路的信道总容量。本公开实施例解决的最终目标是使车辆具有高安全信息传输完成率的同时,确保一定程度的娱乐带宽。因此最直接的奖励条件也是以上两个要素。然而,如果仅仅以最终主线目标驱动代理,则往往会导致奖励问题稀疏,这意味着很难在培训的早期阶段形成本地知识,也很难提供本地指导,从而导致盲目探索;在训练的后期,只能提供片面的指导,这使得样本效率低甚至无法收敛,并导致学习困难。
综上,本公开实施例利用辅助奖励函数中的子目标奖励进行细化。即根据促进最终目标实现过程中的贡献大小,分别给予适当的奖励或惩罚。
将安全数据传输过程分成传输未完毕和传输完毕两种情况来构建第一子目标奖励函数;
第一种情况是传输还未完毕状态,将第一子目标奖励函数的表达式为:
Figure 467221DEST_PATH_IMAGE100
其中,
Figure 178825DEST_PATH_IMAGE101
表示第n个V2V链路中每个时隙t的奖励值,
Figure 778433DEST_PATH_IMAGE102
是一个控制值范围的常数,使得在传输未完毕状态下,相应代理会根据当前传输速度获得奖励;
Figure 651711DEST_PATH_IMAGE103
表示第m条V2V链路在时隙t的信道容量。
第二种情况即传输完毕状态,此时这个代理会被给予一个最终的常数奖励值
Figure 969560DEST_PATH_IMAGE104
对于最大化所有V2I链路的信道总容量的指标,我们将每个时隙
Figure 219276DEST_PATH_IMAGE105
内所有车辆和基站之间的V2I链路容量作为第二子目标奖励函数,表达示为:
Figure 63604DEST_PATH_IMAGE106
其中,
Figure 107783DEST_PATH_IMAGE107
表示不同时隙
Figure 912928DEST_PATH_IMAGE108
下第m条V2I链路的信道容量。
因此,最终构建而成的奖励值函数如下:
Figure 966335DEST_PATH_IMAGE109
其中,
Figure 540536DEST_PATH_IMAGE110
表示在时隙
Figure 880250DEST_PATH_IMAGE111
下的奖励值,
Figure 907112DEST_PATH_IMAGE112
是训练时用于平衡V2I和V2V的加权参数,
Figure 498631DEST_PATH_IMAGE113
Figure 192917DEST_PATH_IMAGE114
是与通信链接数相关的常数。
S14:记录由于采取动作所造成的周围环境和链路的变化数据
Figure 578899DEST_PATH_IMAGE115
优选的,我们还可以在智能体的记忆池中引入低维指纹,通过记录该智能体的训练回合数
Figure 483270DEST_PATH_IMAGE116
和贪婪参数
Figure 612900DEST_PATH_IMAGE117
来消除采样数据的年龄问题并平滑拟合结果,同时更好地反映训练过程中其他代理策略的变化。此时,记忆池可以表示为:
Figure 161693DEST_PATH_IMAGE118
其中,
Figure 984156DEST_PATH_IMAGE119
表示记忆池,
Figure 985610DEST_PATH_IMAGE120
表示状态空间数据,
Figure 43564DEST_PATH_IMAGE121
表示动作空间数据,
Figure 446864DEST_PATH_IMAGE122
表示奖励值函数,
Figure 440228DEST_PATH_IMAGE123
表示所述智能体根据动作选择策略选择不同动作带来的状态空间变化数据。
步骤S2:当记忆池内所存储的数据超过预设数量阈值时,进入神经网络训练阶段,首先每个智能体从自己的记忆池中取出小批量的样本,经过白归一化后(即将数据根据类型进行放缩),训练网络利用最小平方误差来学习,并使用随机梯度下降的方法更新训练网络参数。
请参考图4,本公开实施例中,采用D3QN网络作为训练网络,D3QN网络包括一个主DQN网络和一个用于计算信号控制策略目标Q值的目标网络,通过使目标网络进行低频率学习,使它输出的信号控制策略的目标Q值波动较小,从而避免信号控制策略训练过程的网络震荡。
为了平滑更新,更新目标网络时使用软更新方式,即:
Figure 928978DEST_PATH_IMAGE124
其中
Figure 400410DEST_PATH_IMAGE125
表示训练网络参数,
Figure 782850DEST_PATH_IMAGE126
表示目标网络参数,
Figure 212695DEST_PATH_IMAGE127
是软更新权重因子,为一个常数。
训练完成后,每个车辆在运行时将自身对周围环境和链路的观测数据输入训练好的车联网资源分配模型,基于车联网资源分配模型输出的Q值从动作空间中选取当前状态对应的奖励值最大的动作,得到最优的频谱子带和功率选择组合。
应当理解的是,在技术上可行的情况下,以下针对不同实施例所列举的技术特征可以相互组合,从而形成本发明范围内的另外的实施例。此外,本发明所述的特定示例和实施例是非限制性的,并且可以对以上所阐述的结构、步骤、顺序做出相应修改而不脱离本发明的保护范围。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于多智能体深度强化学习的车联网资源分配方法,其特征在于包括步骤:
(1)将C-V2X架构下车联网的数据传输链路分为用于安全数据传输的V2V链路和用于娱乐数据传输的V2I链路;
(2)训练基于多智能体深度强化学习的车联网资源分配模型;所述车联网资源分配模型中,每个V2V链路作为一个智能体,所述智能体对周围环境和链路的观测数据集合作为状态空间,所述智能体能够选择的频谱子带和发射功率的所有组合作为动作空间,奖励值函数为以最大化V2V链路安全数据传输成功率和所有V2I链路的信道总容量为目的的目标函数;
(3)车辆在行驶途中,将相应智能体对周围环境和链路的观测数据输入所述车联网资源分配模型,根据所述车联网资源分配模型输出的Q值选取当前状态对应的奖励值最大的动作,得到最优的频谱子带和功率组合。
2.根据权利要求1所述的车联网资源分配方法,其特征在于,所述状态空间表示为:
Figure 822286DEST_PATH_IMAGE001
其中,
Figure 831830DEST_PATH_IMAGE002
表示第n条V2V链路的信道增益,
Figure 209722DEST_PATH_IMAGE003
表示第m个V2I频谱子带上第
Figure 403943DEST_PATH_IMAGE004
个V2V发射机到第n个接收机之间的干扰信道,
Figure 867285DEST_PATH_IMAGE005
表示第n个V2V链路到第m个V2I链路的干扰功率,
Figure 680520DEST_PATH_IMAGE006
表示第m个V2I频谱子带上从第m个V2I发射机到第n个V2V接收机的干扰信道,
Figure 178498DEST_PATH_IMAGE007
代表第n条V2V链路下剩余传输数据的大小,
Figure 418986DEST_PATH_IMAGE008
表示剩余传输限制时间,
Figure 494258DEST_PATH_IMAGE009
是使用相同频谱子带的所有V2V链路和相应的V2I链路的干扰总功率增益,
Figure 111185DEST_PATH_IMAGE010
Figure 198089DEST_PATH_IMAGE011
Figure 875058DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
表示V2V链路的总数,
Figure 906468DEST_PATH_IMAGE014
表示V2I链路的总数。
3.根据权利要求2所述的车联网资源分配方法,其特征在于,所述奖励值函数的构建方法为:
1)将安全数据传输过程分成传输未完毕和传输完毕两种情况来构建第一子目标奖励函数;
传输未完毕状态下的第一子目标奖励函数表达式为:
Figure DEST_PATH_IMAGE015
其中,
Figure 795927DEST_PATH_IMAGE016
表示第n个V2V链路中每个时隙t的奖励值,
Figure 127551DEST_PATH_IMAGE017
是一个控制值范围的常数,使得在传输未完毕状态下,相应代理会根据当前传输速度获得奖励;
Figure 975421DEST_PATH_IMAGE018
表示频谱分配判断因子,
Figure 635073DEST_PATH_IMAGE019
表示第n个V2V链路使用第m个V2I链路的频谱来传递数据,
Figure 593801DEST_PATH_IMAGE020
表示第n个V2V链路未启用第m个V2I链路的频谱;
Figure 655298DEST_PATH_IMAGE021
表示第m条V2V链路在时隙t的信道容量;
传输完毕后,第一子目标奖励函数为一个常数奖励值
Figure 939649DEST_PATH_IMAGE022
2)基于最大化所有V2I链路的信道总容量的目的,将每个时隙t内所有车辆和基站之间的V2I链路容量作为第二子目标奖励函数,表达示为:
Figure 211231DEST_PATH_IMAGE023
其中,
Figure 708071DEST_PATH_IMAGE024
表示时隙t下第m条V2I链路的信道容量;
3)基于所述第一子目标函数和所述第二子目标奖励函数构建所述奖励值函数的表达式:
Figure 624074DEST_PATH_IMAGE025
其中,
Figure 813747DEST_PATH_IMAGE026
表示在时隙
Figure 713570DEST_PATH_IMAGE027
下的奖励值,
Figure 138735DEST_PATH_IMAGE028
是训练时用于平衡V2I和V2V的加权参数,
Figure 909245DEST_PATH_IMAGE029
Figure 269819DEST_PATH_IMAGE030
是与通信链接数相关的常数。
4.根据权利要求1至3任意一项所述的车联网资源分配方法,其特征在于,所述车联网资源分配模型采用D3QN网络结构。
5.根据权利要求3所述的车联网资源分配方法,其特征在于,所述车联网资源分配模型的训练方法包括步骤:
S1、为所述智能体构建记忆池;确定传输阈值T,对于所述传输时间阈值
Figure 391359DEST_PATH_IMAGE031
内的每一个时间步,所述记忆池分别存储训练所需的状态空间数据、动作空间数据、奖励值以及根据动作选择策略选择不同动作带来的状态空间变化数据;
S2、当所述记忆池内所存储的数据超过预设数量阈值时,所述智能体从自己的记忆池中取出小批量的样本并经过白归一化后输入所述车联网资源分配模型,所述车联网资源分配模型基于最小平方误差来学习所述样本,并使用随机梯度下降的方法更新网络参数;重复训练D次,直至满足预设的收敛条件。
6.根据权利要求5所述的车联网资源分配方法,其特征在于,所述记忆池中,还引入了低维指纹,以消除采样数据的年龄问题并平滑拟合结果。
7.根据权利要求6所述的车联网资源分配方法,其特征在于,所述低维指纹为训练回合数
Figure 495581DEST_PATH_IMAGE032
和贪婪参数
Figure 513740DEST_PATH_IMAGE033
,引入所述低维指纹后,所述记忆池表示为:
Figure 45216DEST_PATH_IMAGE034
其中,
Figure 388473DEST_PATH_IMAGE035
表示记忆池,
Figure 561965DEST_PATH_IMAGE036
表示状态空间数据,
Figure DEST_PATH_IMAGE037
表示动作空间数据,
Figure 166122DEST_PATH_IMAGE038
表示奖励值函数,
Figure DEST_PATH_IMAGE039
表示智能体根据动作选择策略选择不同动作带来的状态空间变化数据。
CN202211503787.4A 2022-11-29 2022-11-29 一种基于多智能体深度强化学习的车联网资源分配方法 Pending CN115551065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211503787.4A CN115551065A (zh) 2022-11-29 2022-11-29 一种基于多智能体深度强化学习的车联网资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211503787.4A CN115551065A (zh) 2022-11-29 2022-11-29 一种基于多智能体深度强化学习的车联网资源分配方法

Publications (1)

Publication Number Publication Date
CN115551065A true CN115551065A (zh) 2022-12-30

Family

ID=84721812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211503787.4A Pending CN115551065A (zh) 2022-11-29 2022-11-29 一种基于多智能体深度强化学习的车联网资源分配方法

Country Status (1)

Country Link
CN (1) CN115551065A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117545094A (zh) * 2024-01-09 2024-02-09 大连海事大学 面向分级异构认知无线传感网络的动态频谱资源分配方法
CN117979430A (zh) * 2024-03-29 2024-05-03 厦门大学 一种基于v2v链路隐私安全的c-v2x系统资源分配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112153744A (zh) * 2020-09-25 2020-12-29 哈尔滨工业大学 一种icv网络中物理层安全资源分配方法
CN114885426A (zh) * 2022-05-05 2022-08-09 南京航空航天大学 一种基于联邦学习和深度q网络的5g车联网资源分配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112153744A (zh) * 2020-09-25 2020-12-29 哈尔滨工业大学 一种icv网络中物理层安全资源分配方法
CN114885426A (zh) * 2022-05-05 2022-08-09 南京航空航天大学 一种基于联邦学习和深度q网络的5g车联网资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方维维等: "基于多智能体深度强化学习的车联网通信资源分配优化", 《北京交通大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117545094A (zh) * 2024-01-09 2024-02-09 大连海事大学 面向分级异构认知无线传感网络的动态频谱资源分配方法
CN117545094B (zh) * 2024-01-09 2024-03-26 大连海事大学 面向分级异构认知无线传感网络的动态频谱资源分配方法
CN117979430A (zh) * 2024-03-29 2024-05-03 厦门大学 一种基于v2v链路隐私安全的c-v2x系统资源分配方法

Similar Documents

Publication Publication Date Title
CN115551065A (zh) 一种基于多智能体深度强化学习的车联网资源分配方法
CN111970733B (zh) 超密集网络中基于深度强化学习的协作式边缘缓存算法
CN112954651B (zh) 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
CN114389678B (zh) 一种基于决策性能评估的多波束卫星资源分配方法
CN112383922B (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
CN110267338A (zh) 一种d2d通信中联合资源分配和功率控制方法
CN110784882B (zh) 一种基于强化学习的能量采集d2d通信资源分配方法
CN109348484B (zh) 一种多用户短波通信网络模型及信道探测方法
CN109819422B (zh) 一种基于Stackelberg博弈的异构车联网多模通信方法
CN113438315B (zh) 基于双网络深度强化学习的物联网信息新鲜度优化方法
CN105792218A (zh) 具有射频能量收集能力的认知无线电网络的优化方法
CN115134779A (zh) 一种基于信息年龄感知的车联网资源分配方法
CN112153744B (zh) 一种icv网络中物理层安全资源分配方法
CN109661034B (zh) 一种无线供能通信网络中的天线选择和资源分配方法
CN114885426A (zh) 一种基于联邦学习和深度q网络的5g车联网资源分配方法
CN110602666B (zh) 一种窄带物联网终端设备的通信方法及装置
CN114826454A (zh) 一种mec辅助的车联网通信系统中智能资源管理方法
CN112367638A (zh) 城市轨道交通车车通信智能频谱选择方法
CN112738849B (zh) 应用于多跳环境反向散射无线网络的负载均衡调控方法
CN114630299B (zh) 一种基于深度强化学习的信息年龄可感知资源分配方法
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN113890653B (zh) 面向多用户利益的多智能体强化学习功率分配方法
CN109413617B (zh) 一种基于小蜂窝辅助的车联网传输方法
CN115915454A (zh) Swipt辅助的下行资源分配方法及装置
Tashman et al. Performance Optimization of Energy-Harvesting Underlay Cognitive Radio Networks Using Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221230