CN112954651B - 一种基于深度强化学习的低时延高可靠性v2v资源分配方法 - Google Patents

一种基于深度强化学习的低时延高可靠性v2v资源分配方法 Download PDF

Info

Publication number
CN112954651B
CN112954651B CN202110273591.XA CN202110273591A CN112954651B CN 112954651 B CN112954651 B CN 112954651B CN 202110273591 A CN202110273591 A CN 202110273591A CN 112954651 B CN112954651 B CN 112954651B
Authority
CN
China
Prior art keywords
agent
action
resource allocation
network
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110273591.XA
Other languages
English (en)
Other versions
CN112954651A (zh
Inventor
缪娟娟
宋晓勤
王书墨
张昕婷
雷磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110273591.XA priority Critical patent/CN112954651B/zh
Publication of CN112954651A publication Critical patent/CN112954651A/zh
Application granted granted Critical
Publication of CN112954651B publication Critical patent/CN112954651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出的一种基于深度强化学习的低时延高可靠性资源分配方法,考虑了处于基站覆盖范围外的NR‑V2X侧链资源分配,其中车辆根据自己观测到的信息以及在训练阶段得到的Q网络调度5G网络中供V2V用户使用的URLLC切片资源。为了最大化V2V通信的能量效率,并且保证通信的可靠性以及时延要求,提出了一种使用集中式训练、分布式执行的深度强化学习架构,借助DDQN学习方法训练出满足上述要求的模型。将资源分配问题中目标和约束的建模都转化为深度强化学习中收益的设计,可以有效解决V2V用户信道分配和功率选择的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。

Description

一种基于深度强化学习的低时延高可靠性V2V资源分配方法
技术领域
本发明涉及一种车联网技术,尤其涉及一种车联网的资源分配方法,更具体地说,涉及一种基于深度强化学习的低时延高可靠性车间(Vehicle-to-vehicle,V2V)通信资源分配方法。
背景技术
车联网(Vehicle-to-everything,V2X)是物联网(Internet of Things,IoT)在智能交通系统(Intelligent Transportation System,ITS)领域中的典型应用,它是指基于Intranet、Internet和移动车载网络而形成的无处不在的智能车网络。车联网根据约定的通信协议和数据交互标准共享和交换数据。它通过对行人、路边设施、车辆、网络和云之间的实时感知和协作,实现了智能交通管理和服务,例如改善了道路安全,增强了路况感知并减少了交通拥堵。
深度强化学习是机器学习算法中的一种,它结合了深度学习的感知能力和强化学习的决策能力,无需像传统的最优化方法一样对优化目标作出假设或为了降低复杂度做次优化处理,采用函数逼近的方法,可以很好地解决复杂高维状态空间中的决策问题。目前,研究表明强化学习能够在不确定条件下高效制定决策。它提供了一种具有理论支撑的、健壮的方法,用以处理环境的动态性,并在不确定条件下做出一系列决策。因此,深度强化学习可以应付无线网络中越来越多样的服务需求、越来越复杂的变量以及移动环境下由于快速变化的信道状态导致的资源分配的巨大不确定性,例如,信道状态信息的不精确导致的性能损失。
通信量的与日俱增和通信速率需求的大幅提升给NR-V2X中的V2V资源分配带来了挑战。同时,人们对车联网的高可靠性和低延时需求更是增加了V2V资源分配的难度,尤其是在安全性要求高的场景(例如:自动驾驶)。这些挑战吸引了很多研究者对V2X的资源分配展开研究。有文献提出一种针对车载自组网(Vehicular Ad hoc Networks,VANET)的基于C-V2X技术的新型V2V资源分配方案,通过延迟减少的加权总和来最小化总等待时间,它可以通过适度提高车速来提高延迟性能,但会导致高速车辆的延迟增加;有文献提出一种动态车辆资源匹配算法以最大化活动C-V2X用户的数量,从而减少了C-V2X用户与VANET用户在未许可频段中的冲突。上述所有工作都没有考虑到车联网中信道状态的快速变化特性。因此,很多研究人员提出了使用强化学习来应对车辆位置以及信道状态信息的高速变化。有文献提出一种在C-V2X中,即,V2V与V2I共享频谱资源,使用深度强化学习训练出使V2I链路总速率最大,同时保证V2V的包传输成功率的DDQN模型。有文献提出一种在保证V2V链路时延约束的条件下,最小化它对V2I链路的干扰的深度强化学习训练方法,采用完全去中心化的架构,将每辆车当作一个智能体,单独感知,同时邻居也会共享自己的子信道选择信息。上述所有工作都没有考虑到V2V通信带来的能量消耗。同时,由于采用集中式强化学习架构的资源分配方案需要将车辆信息上报给中央控制器,因此传输开销较大,且随着网络规模的增大而急剧增加,导致该方法无法扩展到大型网络;而在采用完全去中心化强化学习架构的资源分配方案中,每个智能体只能观测到与自己相关得部分信息,从而使得训练出来的模型不准确。因此,本发明提出一种基于集中式训练分布式执行深度强化学习架构的资源分配方法,并以能效最大化和通信时延约束作为收益设计的注重点。
发明内容
发明目的:针对现有技术存在的上述问题,提出一种基于深度强化学习的低时延高可靠V2V资源分配方法,该方法能该方法能在V2V链路对V2I链路没有干扰的情况下,保证通信时延达到安全要求的同时,使系统总能效尽可能高。
技术方案:在考虑V2V通信传输时延和可靠性的情况下,以合理高效的资源分配达到V2V通信系统能效最大化的目的。处于基站覆盖范围之外的车辆之间,为了进行数据的传输,比如与行车安全相关的数据,使用5G网络中URLLC切片相应的资源块以满足时延要求。同时,为了适应车联网中快速变化的信道状态信息,使用深度强化学习先在线下训练出满足要求的模型,再将模型交给车辆进行线上的分布式执行。其中,模型的训练要以最大化V2V能效为目标,同时保证低时延和高可靠性需求。为了找到最佳的策略,需要进行观测值和动作空间的设定、收益的设计以及学习算法的选择。完成上述发明通过以下技术方案实现:一种基于深度强化学习的V2V资源分配方法,包括步骤如下:
(1),考虑未被基站覆盖的区域,车与车之间(V2V)为了传输与行车安全有关的数据,使用URLLC切片资源块;
(2),训练阶段,车辆将本地观测信息,如信道增益、干扰信息、剩余V2V链路负载大小以及各自剩余的时间告诉计算单元,V2V智能体k的观测信息定义如下:
Figure BSA0000234973170000021
(3),基站使用DDQN线下训练出每辆车V2V通信的资源分配模型,资源分配目标为最大化V2V链路传输速率的同时,保证每条链路的时延和每条链路的中断概率不超过门限值;
(4),执行阶段,车辆根据本地观测信息使用各自训练好的Q网络进行子信道分配和功率等级的选择。
进一步的,所述步骤(3)包括如下具体步骤:
(3a),将每辆车看作一个智能体,设置最大训练回合数E,以及每个回合中的时间步S;
(3b),初始化当前回合episode以及当前步数为0,随机初始化每个智能体的Q网络;
(3c),根据目前的观测值
Figure BSA0000234973170000022
以及ε贪心算法选择一个动作,动作维度为N*M,表示N个功率等级和M个可选子信道;
(3d),将动作施加到环境中去,得到下一个观测状态以及收益,收益计算如下:
Figure BSA0000234973170000031
(3e),更新信道的小尺度衰落信息;
(3f),将当前观测状态、动作、收益以及下一个观测状态作为一个样本储存在经验复用池中;
(3g),当经验复用池中积累了一定量的样本之后,开始学习;
(3h),从经验复用池中随机抽取小批量的样本(st,at,rt,st+1),计算Q估计:
Figure BSA0000234973170000032
(3i),通过最小化平方误差来训练Q网络:
Lt(θ)=(yt-Q(st,at;θ))2
(3i),使用随机梯度下降算法更新网络参数θ。
进一步的,所述步骤(4)包括如下具体步骤:
(4a),每辆车将本地观测值作为模型的输入;
(4b),根据训练好的DDQN选择使动作价值最大的动作;
(4c),使用选择的功率等级和子信道传输数据。
有益效果:本发明提出的一种基于深度强化学习的低时延高可靠性资源分配方法,考虑了处于基站覆盖范围外的NR-V2X侧链资源分配,其中车辆根据自己观测到的信息以及在训练阶段得到的Q网络调度V2V用户使用的URLLC切片资源。为了最大化V2V通信的能量效率,并且保证通信的可靠性以及时延要求,提出了一种使用集中式训练、分布式执行的深度强化学习架构,借助DDQN学习方法训练出满足上述要求的模型。将资源分配问题中目标和约束的建模都转化为深度强化学习中收益的设计,可以有效解决V2V用户信道分配和功率选择的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。
综上所述,在保证资源分配合理,低能耗以及计算复杂度低的情况下,本发明提出的一种基于深度强化学习的资源分配方法在最大化系统能效方面是优越的。
附图说明
图1为基于深度强化学习的资源分配算法流程图;
图2为V2V资源分配系统模型;
图3为V2V资源分配中DDQN的训练流程;
图4为V2V通信中使用多智能体强化学习时的智能体与环境的交互过程;
具体实施方式
本发明的核心思想在于:为了使处于基站覆盖范围之外的车辆之间的通信能够满足时延要求的同时最大化能量效率,提出一种基于深度强化学习的低时延高可靠V2V资源分配方法。
下面对本发明做进一步详细描述。
步骤(1),考虑未被基站覆盖的区域,车与车之间(V2V)为了传输与行车安全有关的数据,使用URLLC切片资源块进行通信;
步骤(2),训练阶段,每一步,V2V智能体将当前的本地观测信息告诉计算单元。真实的环境状态包括全局信道状态以及所有智能体的行为,这些信息都是单个智能体不可知的。每个V2V智能体只能获取自己能够得到的部分信息,即观测信息,V2V智能体k的观测信息定义如下:
O(St,k)={Ik,hk,gk′k,Bk,Tk} 表达式1
Figure BSA0000234973170000041
其中,St表示当前环境状态,k为车辆(智能体)编号,Ik表示V2Vk接收端受到的总干扰功率,hk表示V2Vk之间的信道增益,gk′k表示其他V2V链路发射端到V2Vk接收端的信道增益,Bk表示V2Vk的剩余负载大小,Tk表示V2Vk的剩余时间,即时延门限与当前传输时间之差。e,ε分别表示训练迭代次数和ε贪心策略中的随机动作选择概率,由于e和ε会对智能体的动作选择产生影响,所以也将其作为智能体的观测信息,与车辆对环境的观测信息合并为
Figure BSA0000234973170000042
步骤(3),基站使用DDQN线下训练出每辆车V2V通信的资源分配模型,资源分配目标为最大化
V2V链路传输速率的同时,保证每条链路的时延和每条链路的中断概率不超过门限值,包括步骤如下:
(3a),将每辆车看作一个智能体,设置最大训练回合数E,以及每个回合中的时间步S;
(3b),初始化当前回合episode以及当前步数为0,随机初始化每个智能体的Q网络;
(3c),在经验回访池收集到足够的样本前,根据目前的观测值
Figure BSA0000234973170000043
通过初始Q网络得到动作价值函数,并采取ε贪心策略选择一个动作,ε贪心策略为设定选择使Q值最大的动作的概率为ε,随机选择一个动作的概率为1-ε。
无线通信资源分配包括子信道分配以及发送功率控制,假设一个信道通过OFDM技术被分为M个正交子信道,V2V智能体可以从中选择一个或多个子信道进行数据传输。对于第k个V2V链路,其在t时刻选择信道信息为:
Figure BSA0000234973170000044
Figure BSA0000234973170000045
或1,
Figure BSA0000234973170000047
表示第m个子信道未被第k条V2V链路使用,
Figure BSA0000234973170000048
表示第m个子信道被第k条V2V链路使用。
同时,为了学习的方便以及实际的电路限制,将发送功率分为不同的等级,V2V智能体从中选择一个功率发送信号。动作维度为N*M,表示N个功率等级和M个可选子信道,例如,按照3GPP关于5G的标准,在采用FDD模式下,功率最大值设为23dBm,最小值设为-100dBm,表示V2V之间无传输。
(3d),将动作施加到环境中去,得到下一个观测状态以及收益,收益计算如下:
Figure BSA0000234973170000049
其中,Rt+1表示在第t步的收益,Rk为V2Vk智能体当前的速率,表示为:
Figure BSA0000234973170000051
其中,W表示子信道宽度,Mk表示V2Vk选择的子信道集合,γk,m为V2Vk在子信道m上的信干噪比,表示为:
Figure BSA0000234973170000052
Pk,m为V2Vk在子信道m上的发射功率,hk,m为V2Vk在子信道m上的信道增益,σ2为加性高斯白噪声功率,Pk′,m为其他V2V智能体在子信道m上的发射功率,gk′k,m为其他V2V智能体的发射端到V2Vk智能体接收端的信道增益。
Pk(t)为V2Vk智能体的总能耗,表示为:
Figure BSA0000234973170000053
其中,
Figure BSA0000234973170000054
为传输电路所消耗的固定功率。
T0为最大可容忍延迟,Tk为到目前为止V2Vk智能体传输数据所用的时间,λc和λp为两个非负权重,用于权衡两个目标函数。
强化学习的目的是找到一个最优策略,即状态到动作选择的最佳映射使得从任何初始状态开始的期望回报最大,期望回报用Gt表示:
Figure BSA0000234973170000055
其中,γ为折扣因子,Rt+k+1为第t+k步的收益。
(3e),更新信道的小尺度衰落信息。小尺度衰落信息每一步更新一次,大尺度衰落信息每一幕更新一次;
(3f),将当前观测状态、动作、收益以及下一个观测状态作为一个样本
Figure BSA0000234973170000056
储存在经验复用池中,经验复用池的存在降低了样本之间的相关性,避免了算法在一段时间内朝着同一个方向做梯度下降,从而使得神将网络的训练陷入一个局部的最优解中;
(3g),当经验复用池中积累了一定量的样本之后,开始学习。在深度强化学习中,每个V2V智能体都有一个相应的DQN,它以观测值作为输入,输出动作价值函数。为了训练出DQN,我们需要多次幕迭代,并且在每一幕中的每一步V2V智能体要采用ε贪心策略探索状态-动作空间。
(3h),在每一幕中,我们要从经验复用池中随机抽取小批量的样本
Figure BSA0000234973170000057
用于计算Q估计。为了解决DQN中可能存在的过估计情况,我们采用DDQN将选择和评估分开,使用在线网络来评估贪心策略,使用目标网络来估算其价值。Q估计由下式计算得出:
Figure BSA0000234973170000058
其中,θt
Figure BSA0000234973170000059
分别表示在线网络和目标网络的参数,即权重集合。目标网络与在线网络结构相同,只是在线网络不停地更新参数,用来进行神将网络的训练,计算Q估计;而目标网络则冻结参数,每隔一段时间更新一次,使得
Figure BSA0000234973170000061
计算Q现实。在一段时间内,目标Q值是保持不变的,这在一定程度上降低了当前Q值和目标Q值之间的相关性,提升了算法的稳定性。
(3i),通过最小化平方和误差来训练Q网络,损失函数定义如下:
Lt(θ)=∑D(yt-Q(Zt,At;θ))2 表达式10
其中,yt是迭代t的目标,也就是Q估计,D表示抽取的样本集合。
(3j),为了得到使损失函数最小的DQN,我们使用随机梯度下降算法更新网络参数θ,更新公式如下:
Figure BSA0000234973170000062
其中,α为迭代步长。
步骤(4),执行阶段,V2V智能体根据本地观测信息使用各自训练好的Q网络进行子信道分配和功率等级的选择,包括如下步骤:
(4a),每个V2V智能体将本地观测值作为Q网络的输入;
(4b),训练好的Q网络输出动作价值,每个智能体选择使动作价值最大的动作;
(4c),V2V智能体使用选择的功率等级和子信道传输数据。
最后,对说明书中的附图进行详细说明。
在图1中,描述了一种采用深度强化学习DDQN的5G车联网V2V资源分配方法的流程。V2V通信使用5G网络中URLLC切片相应的资源块,利用DDQN优化深度强化学习模型获得最优的V2V用户信道分配和发射功率联合优化策略。
在图2中,描述了无基站覆盖区域的V2V用户资源分配模型。集中式训练阶段,采用线下训练模式,由路边单元训练出每个智能体相关的DQN,再将DQN告诉给各个智能体,而分布式执行为线上模式,在智能体侧进行。
在图3中,描述了V2V资源分配中DDQN的训练流程。在集中式训练部分,DDQN采用两个神经网络,即在线网络和目标网络,其中在线网络不停地更新参数,用来进行神经网络的训练,计算Q估计。而目标网络则冻结参数,每隔8个幕更新一次,用来计算Q现实。使用目标网络来估计目标方程中maxQ(s′,a′)的动作最大值,然后用这个估计出来的动作来选择在线网络中的Q(s′)。同时,每个智能体的经验被存储在经验复用池中以供之后的学习过程从中抽取样本进行学习。在分布式执行部分,每个智能体感知环境信息,根据训练得到的策略选择动作,动作执行后获得收益并转移到下一状态。
在图4中,描述了V2V通信中使用多智能体强化学习时的智能体与环境的交互过程。V2V用户作为智能体感知当前环境状态、选择一个动作,然后获得相应的收益并进入下一个状态。
根据对本发明的说明,本领域的技术人员应该不难看出,本发明的基于深度强化学习的V2V资源分配算法可以在提高系统能效的同时保证通信时延达到安全要求。
本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (1)

1.车联网中一种基于深度强化学习的低时延高可靠性V2V资源分配方法,其特征在于,包括步骤如下:
(1),考虑未被基站覆盖的区域,车与车之间(V2V)为了传输与行车安全有关的数据,使用URLLC切片资源块;
(2),训练阶段,车辆将本地观测信息,即信道增益、干扰信息、剩余V2V负载大小以及各自剩余的时间告诉计算单元,第k个智能体V2Vk在t时刻的观测信息定义如下:
Figure FSB0000198150450000011
其中,Ik表示V2Vk接收端受到的总干扰功率,hk表示V2Vk之间的信道增益,gk′k表示其他V2V链路发射端到V2Vk接收端的信道增益,Bk表示V2Vk的剩余负载大小,Tk表示V2Vk的剩余时间,即时延门限与当前传输时间之差,e,ε分别表示训练迭代次数和ε贪心策略中的随机动作选择概率;
(3),基站使用DDQN线下训练出每辆车V2V通信的资源分配模型,资源分配目标为最大化V2V链路传输速率的同时,保证每条链路的时延和每条链路的中断概率不超过门限值,具体包括:
(3a),将每辆车看作一个智能体,对于每个智能体执行下面的操作;
(3b),随机初始化每个智能体的Q网络;
(3c),根据目前的观测值
Figure FSB0000198150450000012
以及ε贪心算法选择一个动作,动作维度为N×M,表示N个功率等级和M个可选子信道;
(3d),将动作施加到环境中去,得到下一个观测状态以及收益,收益计算如下:
Figure FSB0000198150450000013
其中,Rt+1表示在第t步的收益,Rk为V2Vk智能体当前的速率,Pk(t)为V2Vk智能体的总能耗,T0为最大可容忍延迟,Tk为到目前为止V2Vk智能体传输数据所用的时间,λc和λp为两个非负权重;
(3e),更新信道的小尺度衰落信息;
(3f),将当前观测状态、动作、收益以及下一个观测状态作为一个样本储存在经验复用池中;
(3g),当经验复用池中积累了一定量的样本之后,开始学习;
(3h),从经验复用池中随机抽取小批量的样本,计算Q估计:
Figure FSB0000198150450000014
其中,γ表示折扣因子,st+1表示智能体在t+1时刻观测到的状态,a′表示下一步动作,
Figure FSB0000198150450000015
为目标网络的参数;
(3i),通过最小化平方误差来训练Q网络:
Lt(θ)=(yt-Q(st,at;θ))2
(3j),使用随机梯度下降算法更新网络参数θ;
(4),执行阶段,车辆根据本地观测信息使用训练好的网络进行子信道分配和功率等级的选择,具体包括:
(4a),每辆车将本地观测值作为模型的输入;
(4b),根据训练好的DDQN选择使动作价值最大的动作;
(4c),使用选择的功率等级和子信道传输数据。
CN202110273591.XA 2021-03-12 2021-03-12 一种基于深度强化学习的低时延高可靠性v2v资源分配方法 Active CN112954651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110273591.XA CN112954651B (zh) 2021-03-12 2021-03-12 一种基于深度强化学习的低时延高可靠性v2v资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110273591.XA CN112954651B (zh) 2021-03-12 2021-03-12 一种基于深度强化学习的低时延高可靠性v2v资源分配方法

Publications (2)

Publication Number Publication Date
CN112954651A CN112954651A (zh) 2021-06-11
CN112954651B true CN112954651B (zh) 2022-04-08

Family

ID=76229745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110273591.XA Active CN112954651B (zh) 2021-03-12 2021-03-12 一种基于深度强化学习的低时延高可靠性v2v资源分配方法

Country Status (1)

Country Link
CN (1) CN112954651B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113613301B (zh) * 2021-08-04 2022-05-13 北京航空航天大学 一种基于dqn的空天地一体化网络智能切换方法
CN113709882B (zh) * 2021-08-24 2023-10-17 吉林大学 一种基于图论和强化学习的车联网通信资源分配方法
CN114500220B (zh) * 2021-08-26 2024-04-12 苏州楚亦捷科技有限公司 一种无基站定位系统的自治通信流程
CN114257988B (zh) * 2021-11-22 2024-05-03 西安电子科技大学 超可靠车联网中面向不完美csi的资源分配方法及系统
CN114245344B (zh) * 2021-11-25 2024-06-14 西安电子科技大学 一种车联网不确定信道状态信息鲁棒功率控制方法及系统
CN114726743A (zh) * 2022-03-04 2022-07-08 重庆邮电大学 一种基于联邦强化学习的服务功能链部署方法
CN114885426B (zh) * 2022-05-05 2024-04-16 南京航空航天大学 一种基于联邦学习和深度q网络的5g车联网资源分配方法
CN114641041B (zh) * 2022-05-18 2022-09-13 之江实验室 一种面向边缘智能的车联网切片方法及装置
CN115811788B (zh) * 2022-11-23 2023-07-18 齐齐哈尔大学 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
CN110213796A (zh) * 2019-05-28 2019-09-06 大连理工大学 一种车联网中的智能资源分配方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN111629352A (zh) * 2020-05-19 2020-09-04 南京航空航天大学 一种5G蜂窝网中基于Underlay模式的V2X资源分配方法
CN112153744A (zh) * 2020-09-25 2020-12-29 哈尔滨工业大学 一种icv网络中物理层安全资源分配方法
WO2021045225A2 (en) * 2019-09-06 2021-03-11 Nec Corporation Method and apparatus

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10845815B2 (en) * 2018-07-27 2020-11-24 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
CN110267338B (zh) * 2019-07-08 2020-05-22 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
CN110753319B (zh) * 2019-10-12 2022-10-18 山东师范大学 异构车联网中面向异质业务的分布式资源分配方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
CN110213796A (zh) * 2019-05-28 2019-09-06 大连理工大学 一种车联网中的智能资源分配方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
WO2021045225A2 (en) * 2019-09-06 2021-03-11 Nec Corporation Method and apparatus
CN111629352A (zh) * 2020-05-19 2020-09-04 南京航空航天大学 一种5G蜂窝网中基于Underlay模式的V2X资源分配方法
CN112153744A (zh) * 2020-09-25 2020-12-29 哈尔滨工业大学 一种icv网络中物理层安全资源分配方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Reinforcement Learning Method for Joint Mode Selection and Power Adaptation in the V2V Communication Network in 5G;Di Zhao等;《IEEE Transactions on Cognitive Communications and Networking》;20200324;全文 *
Maximum-Throughput Sidelink Resource;SONG XIAOQIN等;《IEEE Access》;20200430;全文 *
基于深度强化学习的无线网络资源分配算法;李孜恒等;《通信技术》;20200810(第08期);全文 *
高效可靠的车联网无线传输及协作通信机制研究;梅杰;《工程科技Ⅱ辑》;20190815;全文 *

Also Published As

Publication number Publication date
CN112954651A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112954651B (zh) 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
CN112995951B (zh) 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法
Atallah et al. Deep reinforcement learning-based scheduling for roadside communication networks
Chen et al. Deep-learning-based intelligent intervehicle distance control for 6G-enabled cooperative autonomous driving
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN108990016B (zh) 一种多车协同的计算任务卸载与传输方法
CN113543074B (zh) 一种基于车路云协同的联合计算迁移和资源分配方法
CN111970733A (zh) 超密集网络中基于深度强化学习的协作式边缘缓存算法
CN111132074B (zh) 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
CN115134779A (zh) 一种基于信息年龄感知的车联网资源分配方法
Roshdi et al. Deep reinforcement learning based congestion control for V2X communication
Nguyen et al. Efficient reinforcement learning-based transmission control for mitigating channel congestion in 5G V2X sidelink
Pervej et al. Dynamic power allocation and virtual cell formation for Throughput-Optimal vehicular edge networks in highway transportation
CN114024639B (zh) 一种无线多跳网络中分布式信道分配方法
Ouyang Task offloading algorithm of vehicle edge computing environment based on Dueling-DQN
Bhadauria et al. QoS based deep reinforcement learning for V2X resource allocation
CN110505604B (zh) 一种d2d通信系统接入频谱的方法
CN116668995A (zh) 基于深度强化学习的车联网动态信标广播方法及系统
Waqas et al. A novel duplex deep reinforcement learning based RRM framework for next-generation V2X communication networks
CN113316156B (zh) 免授权频段上的一种智能共存方法
Ren et al. Joint spectrum allocation and power control in vehicular communications based on dueling double DQN
Urmonov et al. Multi-agent deep reinforcement learning for enhancement of distributed resource allocation in vehicular network
CN115052262A (zh) 一种基于势博弈的车联网计算卸载与功率优化方法
Şahin et al. Scheduling out-of-coverage vehicular communications using reinforcement learning
Farzanullah et al. Platoon Leader Selection, User Association and Resource Allocation on a C-V2X based highway: A Reinforcement Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant