CN113709701B - 毫米波车联网联合波束分配和中继选择方法、系统及设备 - Google Patents

毫米波车联网联合波束分配和中继选择方法、系统及设备 Download PDF

Info

Publication number
CN113709701B
CN113709701B CN202110997198.5A CN202110997198A CN113709701B CN 113709701 B CN113709701 B CN 113709701B CN 202110997198 A CN202110997198 A CN 202110997198A CN 113709701 B CN113709701 B CN 113709701B
Authority
CN
China
Prior art keywords
vehicle
base station
relay
information
millimeter wave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110997198.5A
Other languages
English (en)
Other versions
CN113709701A (zh
Inventor
俱莹
陈宇超
王浩宇
裴庆祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110997198.5A priority Critical patent/CN113709701B/zh
Publication of CN113709701A publication Critical patent/CN113709701A/zh
Application granted granted Critical
Publication of CN113709701B publication Critical patent/CN113709701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/22Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/046Wireless resource allocation based on the type of the allocated resource the resource being in the space domain, e.g. beams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于毫米波车联网通信技术领域,公开了一种毫米波车联网联合波束分配和中继选择方法,所述毫米波车联网联合波束分配和中继选择方法包括:构建单基站的毫米波车联网通信场景;对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;获取当前时刻的状态信息,作为深度强化学习的状态输入;为目标车辆选择直连传输链路或中继传输链路;设计奖励机制和神经网络的结构;提取当前状态的输入特征,得到各种输入状态下不同动作的Q值,训练和更新神经网络参数;将Q值最大的动作作为当前状态下目标车辆的链路选择、波束分配和中继车辆的策略。本发明能够使得毫米波基站对复杂环境有着很强的适应能力,并且其性能明显优于基准方案。

Description

毫米波车联网联合波束分配和中继选择方法、系统及设备
技术领域
本发明属于毫米波车联网通信技术领域,尤其涉及一种毫米波车联网联合波束分配和中继选择方法。
背景技术
目前,新兴的毫米波通信和V2X(Vehicle-t-everything)通信技术为车联网和智能交通提供了各种数据传输服务。毫米波较小的波长能够集成大量天线支持超高的数据传输速率,并且通过特定的天线调制为信号发射方向提供更多的复用增益和波束形成增益。由于毫米波信号传输过程存在严重的路径损耗和阻塞效应,使得基站在为车辆提供服务的时候,其系统性能和覆盖范围受到严重的影响,而毫米波通信系统的中继方案能有效扩大通信覆盖范围和克服阻塞效应。当基站向超出范围和被障碍物阻挡的车辆用户发射信号时,可以利用空闲的中继节点将信号转发给目标用户,因此通过选择合适的中继节点能够有效地提高目标用户的信噪比。
然而当前的车联网中继方案主要集中在微波频段,无法适用于车联网毫米波的通信场景,并且考虑的多数为车联网全向广播的场景,使得在多用户通信场景下会产生严重的干扰。实际车联网场景中由于随机阻塞出现和车辆高速移动的特性,基站需要在不断地进行波束切换来为用户提供稳定的、高质量的数据传输服务。然而现有的波束选择方案无法有效地对抗随机阻塞带来的性能衰减。
现有的技术中,中继方案和波束方案往往被分离开来研究,并且主要考虑单用户的场景或多用户静态场景,这是由于将两种方案联合研究的复杂度高和车联网场景的动态性,无法用数学方法推理出低复杂度的最优解方案。而在实际的场景中,将中继方案和波束方案有机地结合起来能够有效地对抗阻塞效应和大幅度提升系统的性能。
在实际的车联网多用户服务场景中,多个用户可能会竞争同一优质波束资源或中继资源,这将导致中继选择和波束分配的竞争博弈问题。同时在性能优化时,也存在系统整体性能的提升和个体车辆的服务质量间的权衡问题。
因此,如何将中继选择和波束选择有机地联合起来,使得在有效对抗实际场景中的阻塞效应的同时,利用波束形成为发射信号提供更多的复用增益和波束增益;如何适应车联网中动态场景的快速变化和解决多用户通信的问题,并且满足车联网动态场景中快速决策的需求是毫米波车联网通信技术发展亟待解决的问题。
而近年来,各类具有较强计算和拟合能力的深度学习算法被应用到具体的通信场景中,可以有效解决系统优化过程中的随机性、动态性和复杂性带来的挑战。因此,亟需一种毫米波车联网联合波束分配和中继选择方法。
通过上述分析,现有技术存在的问题及缺陷为:
(1)由于毫米波信号传输过程存在严重的路径损耗和阻塞效应,使得基站在为车辆提供服务的时候,其系统性能和覆盖范围受到严重的影响。
(2)当前车联网中继方案主要集中在微波频段,无法适用于车联网毫米波的通信场景,并且考虑的多数为车联网全向广播的场景,使得在多用户通信场景下会产生严重的干扰。
(3)现有的波束选择方案无法有效地对抗随机阻塞带来的性能衰减;现有的技术中,由于将中继方案和波束方案联合研究的复杂度高和车联网场景的动态性,无法用数学方法推理出低复杂度的最优解方案。
解决以上问题及缺陷的难度为:在实际的车联网场景中,由于随机阻塞的出现和车辆高速移动的特性,使得在进行建模和分析时,无法用数学方法表征车联网场景的动态性和推理出低复杂度的最优方案。受到静态环境的限制,传统方案的决策时间较长,无法满足车联网动态场景中快速有效决策的需求。在多用户场景中,多个用户可能会竞争同一优质波束资源或中继资源,将导致中继选择和波束分配的竞争博弈问题;同时在性能优化时,也存在系统整体性能的提升和个体车辆的服务质量间的权衡问题。
解决以上问题及缺陷的意义为:本发明提出了一种基于深度强化学习的联合波束分配和终极选择方法,能够突破静态环境的限制,克服由于随机阻塞的出现和车辆的高速移动性带来的性能衰减,满足车联网动态场景中快速有效决策的需求。在通信数据量不断增长的现状下,本发明在保证每个用户的通信质量的同时,显著提升系统的总能效,使之能适用于动态车联网场景中的毫米波通信系统和大容量通信场景,满足了日新月异的车联网通信技术的发展需求。
发明内容
针对现有技术存在的问题,本发明提供了一种毫米波车联网联合波束分配和中继选择方法,尤其涉及一种基于深度强化学习的毫米波车联网联合波束分配和中继选择方法、系统、设备。
本发明是这样实现的,一种毫米波车联网联合波束分配和中继选择方法,所述毫米波车联网联合波束分配和中继选择方法包括以下步骤:
步骤一,构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;为本发明搭建了动态车联网场景,以便于后续的建模和分析。
步骤二,针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;为本发明后续进行的联合波束分配和中继选择奠定了基础。
步骤三,基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;为本发明后续进行快速决策奠定了基础。
步骤四,基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;当前状态的动作为传输链路、波束分配和中继车辆的组合方案;该步骤为模型的训练奠定了基础。
步骤五,根据步骤二构建的模型和策略,设计奖励机制和神经网络的结构;该步骤为模型的收敛性和收敛时间提供了保证。
步骤六,利用步骤五的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据ε-greedy策略选择当前状态下的动作,并结合步骤五的奖励机制训练和更新神经网络参数;为本发明模型训练的核心步骤。
步骤七,基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择,波束分配和中继车辆的策略。为本发明的方案验证和分析。
进一步,步骤一中,所述构建单基站的毫米波车联网通信场景,包括:
(1)利用排队论对车辆的到达过程进行建模,车辆到达的时间间隔t服从负指数分数,概率密度函数如下所示:
Figure GDA0003600502040000041
(2)在某个时隙,道路上有Nv辆车在行驶,其中有
Figure GDA0003600502040000042
辆需要提供服务的目标车辆;基站拥有一个正交波束的有限集合B={Bk,k=1,2,...,NB},同时选择
Figure GDA0003600502040000043
个波束为多个用户提供数据传输服务,其中
Figure GDA0003600502040000044
并且每个波束只能为一个用户提供服务。
(3)考虑临时性随机阻塞和永久性阻塞对系统性能的影响,且当毫米波基站不能为目标车辆提供可靠的直连链路传输时,选择空闲车辆作为中继节点,实现信息转发的过程。
进一步,步骤二中,所述针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模,包括:
(1)在城市场景中,采用路径损耗模型来近似毫米波信号在传输过程中的路径损耗L(Ti,Rj):
L(Ti,Rj)=μ1 log10 fc2log10 d3D3
其中,fc为载波频率;d3D为发射端和接收端的欧几里得距离;μi是路径损耗参数,与不同通信场景有关。
(2)发射端和接收端间的信道增益为gTR,包括下行链路信道增益gTR,1和中继转发信道增益gTR,2
gTR=LTRαTR
其中,αTR为阻塞的穿透系数,包括两种阻塞影响:永久性阻塞和随机阻塞。
(3)利用二维扇区模型来模拟毫米波基站的天线方向图,基站和车辆的的天线增益GB(θ)和Gb(θ):
Figure GDA0003600502040000051
Figure GDA0003600502040000052
其中,θB和θb分别为基站波束的主瓣宽度和车辆波束的主瓣宽度。
(4)利用放大转发AF的中继策略降低车辆的计算复杂度,保证信息传输的超低实验;其中,所述AF放大增益为βR为:
Figure GDA0003600502040000053
其中,PtR为中继车辆的发射功率,PrR为中继车辆的接收功率。
(5)目标车辆
Figure GDA0003600502040000054
通过直连链路传输ξ1或中继传输链路ξ2接收到的信干噪比SINR分别为:ξ1和ξ2;考虑两种类型的干扰:基站下行链路传输过程和其他目标车辆的中继转发过程,每种干扰包括波束的主瓣干扰和旁瓣干扰;
Figure GDA0003600502040000055
Figure GDA0003600502040000056
其中,PtB为基站的发射功率,
Figure GDA0003600502040000057
为信道噪声功率;I1和I2分别为目标车辆通过直连链路和中继转发链路传输时所受到的干扰:
Figure GDA0003600502040000061
Figure GDA0003600502040000062
其中,ρB,k为基站波束选择的二进制指示器,当ρB,k=1时表明第k个波束为目标车辆v*服务,ρB,k=0则表明不服务;ρI,i为二进制的干扰指示器,ρI,i=1 表明目标车辆v*收到其他中继车辆的传输过程的干扰。
(6)经过不同传输链路得到的信道容量为:
C1=Wlog(1+ξ1)
C2=Wlog(1+ξ2);
其中,W为频谱带宽,进而得到目标车辆
Figure GDA0003600502040000063
的信道容量为:
Figure GDA0003600502040000064
其中,ρl为二进制的链路指示器;ρl=1表明基站为目标车辆
Figure GDA0003600502040000065
选择直连传输链路,ρl=0则表明基站为目标车辆选择中继传输链路。
(7)目标车辆服务所需的容量门限为γ,满足以下条件:
Figure GDA0003600502040000066
进而得到系统的传输概率为:
Figure GDA0003600502040000067
(8)最大化所有目标车辆的总容量的同时保证每个目标车辆的通信质量和可靠性,目标函数为:
Figure GDA0003600502040000068
Subject to:
Figure GDA0003600502040000069
Figure GDA00036005020400000610
Figure GDA00036005020400000611
其中,C1表明一个目标车辆被一个波束所服务,C2表明一个波束只能服务一辆目标车辆,并且基站只能同时为
Figure GDA0003600502040000071
辆车提供服务;C3表明每个目标车辆的服务质量均需大于容量门限阈值。
进一步,步骤三中,所述目标车辆和潜在中继车辆的信息,包括车辆速度、位置坐标、当前状态和容量阈值;所述波束信息,包括波束分配信息、波束宽度、波束角度和波束覆盖区域;所述阻塞信息,包括阻塞分布信息、阻塞覆盖区域和阻塞穿透系数。
进一步,步骤四中,所述基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路,包括:
(1)动作空间采用一个三维坐标系来表示,x轴代表链路的选择,y轴代表潜在中继的选择,z轴代表可选波束的选择;设潜在中继的车辆为NR,得到动作空间的维度为2×NR×NB,其中2表明基站可以为目标车辆选择直连链路传输或中继链路传输。
(2)采用ε-greedy策略来权衡训练过程和利用过程;在t时刻,基站以1-∈的概率选择让Q函数最大的动作,以∈的概率从状态空间A中选择一个动作。
进一步,步骤五中,所述根据构建的模型和策略,设计奖励机制和神经网络的结构,包括:
(1)根据目标车辆的容量值的大小将奖励划分为Nω个档位。
(2)当基站作出一个不好的动作,导致波束或中继车辆冲突的动作时,目标车辆的容量值为0,故设置容量奖励{rc,i}为一个负值;当目标车辆的容量值没有满足阈值条件约束时,将容量奖励{rc,i}设置为0,进而得到基站处在不同的状态{St}下获得的返回奖励{rt}。
进一步,步骤六中,所述利用DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据ε-greedy策略选择当前状态下的动作,并结合奖励机制训练和更新神经网络参数,包括:
(1)初始化环境信息和Q网络参数,生成车辆运行数据。
(2)在每个训练回合,更新并获取当前车辆位置和环境状态,重置中继选择和波束分配策略。
(3)根据当前的状态信息和贪心算法为目标车辆选择一个动作,即链路选择,波束分配和中继车辆的组合方案,并更新环境的信息。
(4)获得所有目标车辆的动作组合方案,进而获得与容量相关的奖励值rc,i和返回的奖励值{rt}。
(5)将t时刻状态,动作,奖励和下一状态作为一个样本存储进经验池中。
(6)当经验池样本数足够多时,开始学习;从经验池中随机抽取小批量样本(st,at,rt,st+1),进行网络参数的训练,并更新目标网络权重。
本发明的另一目的在于提供一种应用所述毫米波车联网联合波束分配和中继选择方法的毫米波车联网联合波束分配和中继选择系统,所述毫米波车联网联合波束分配和中继选择系统包括:
通信场景构建模块,用于构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;
模型构建模块,用于针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;
状态信息获取模块,用于基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;
传输链路选择模块,用于基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;其中,所述当前状态的动作为传输链路、波束分配和中继车辆的组合方案;
结构设计模块,用于根据模型构建模块构建的模型和策略,设计奖励机制和神经网络的结构;
更新模块,用于利用结构设计模块的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据ε-greedy策略选择当前状态下的动作,结合结构设计模块的奖励机制训练和更新神经网络参数;
策略确定模块,用于通过基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择、波束分配和中继车辆的策略。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;
基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;当前状态的动作为传输链路、波束分配和中继车辆的组合方案;根据构建的模型和策略,设计奖励机制和神经网络的结构;利用DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据ε-greedy 策略选择当前状态下的动作,并结合奖励机制训练和更新神经网络参数;
基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择,波束分配和中继车辆的策略。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述毫米波车联网联合波束分配和中继选择系统。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的毫米波车联网联合波束分配和中继选择方法,能够突破静态车联网分析场景的限制,克服了动态场景中由于障碍物阻塞和车辆的高速移动带来的性能衰减,满足动态车联网通信场景中的快速有效决策的需求。在通信数据量不断增长的现状下,本发明在保证每个用户的通信质量的同时,显著提升系统的总能效,使之能适用于动态车联网场景中的毫米波通信系统和大容量通信场景,填补了车联网通信技术的空白,满足了日新月异的车联网通信技术的发展需求,推动了车联网行业的发展和落地应用。本发明首先将联合优化问题建模为顺序决策问题,并利用深度Q学习方法进行求解;其次,在联合方案的设计中引入了信道容量的阈值限制,保证了各目标车辆的服务质量,避免了不合理的优化;最后,本发明利用排队论对车辆的动态过程进行了建模,以解决道路上永久性和随机阻塞的问题,使之更加接近实际场景。该方法能够使得毫米波基站对复杂环境有着很强的适应能力,能够迅速找到一个合理高效的策略,并且其性能优于基准方案。
本发明研究了毫米波车辆下多用户服务问题,通过联合设计,提出了一个基于DRL的JoBARS策略,能够帮助毫米波基站仅根据当前的交通模式快速做出最优决策,以最大化系统整体的通信能力。模型中,本发明考虑了车辆的高速移动特性,波束分配和中继选择过程中的竞争博弈,个体用户的通信需求和系统整体性能的冲突,以及多用户通信场景下的干扰等问题。并且模型的仿真结果表明,本发明提出的方法能显著地提升包括系统总容量,个体车辆用户容量,服务连接概率等方面的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的毫米波车联网联合波束分配和中继选择方法的流程图。
图2是本发明实施例提供的毫米波车联网联合波束分配和中继选择方法的原理图。
图3是本发明实施例提供的毫米波车联网联合波束分配和中继选择系统的结构框图;
图中:1、通信场景构建模块;2、模型构建模块;3、状态信息获取模块; 4、传输链路选择模块;5、结构设计模块;6、更新模块;7、策略确定模块。
图4是本发明实施例提供的车联网毫米波多用户通信场景示意图。
图5是本发明实施例提供的DQN网络示意图。
图6是本发明实施例提供的不同方案在不同的交通图案下的系统性能和各车辆性能对比示意图。
图7是本发明实施例提供的不同方案在不同容量阈值限制下的平均连接概率示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种毫米波车联网联合波束分配和中继选择方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的毫米波车联网联合波束分配和中继选择方法包括以下步骤:
S101,构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;
S102,针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;
S103,基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;
S104,基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;当前状态的动作为传输链路、波束分配和中继车辆的组合方案;
S105,根据S102构建的模型和策略,设计奖励机制和神经网络的结构;
S106,利用S105的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据ε-greedy策略选择当前状态下的动作,并结合S105的奖励机制训练和更新神经网络参数;
S107,基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择,波束分配和中继车辆的策略。
本发明实施例提供的毫米波车联网联合波束分配和中继选择方法的原理图如图2所示。
如图3所示,本发明实施例提供的毫米波车联网联合波束分配和中继选择系统包括:
通信场景构建模块1,用于构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;
模型构建模块2,用于针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;
状态信息获取模块3,用于通过基站利用与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;
传输链路选择模块4,用于基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;其中,所述当前状态的动作为传输链路、波束分配和中继车辆的组合方案;
结构设计模块5,用于根据模型构建模块构建的模型和策略,设计奖励机制和神经网络的结构;
更新模块6,用于利用结构设计模块的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各输入状态下不同动作的Q值,根据ε-greedy策略选择当前状态下的动作,结合结构设计模块的奖励机制训练和更新神经网络参数;
策略确定模块7,用于通过基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择、波束分配和中继车辆的策略。
下面结合具体实施例对本发明的技术方案作进一步描述。
本发明针对现有研究技术的不足,提出了一种基于深度强化学习的联合波束分配和中继选择方法,该方法能够克服由于障碍物阻塞和车辆的高速移动带来的性能衰减,并且在保证每个服务用户的通信的同时,提高系统的总能效。首先将联合优化问题建模为顺序决策问题,并利用深度Q学习方法进行求解。其次,本发明在联合方案的设计中引入了信道容量的阈值限制,保证了各目标车辆的服务质量,避免了不合理的优化。最后,本发明利用排队论对车辆的动态过程进行了建模,以解决道路上永久性和随机阻塞的问题,使之更加接近实际场景。该方法能够使得毫米波基站对复杂环境有着很强的适应能力,能够迅速找到一个合理高效的策略,并且其性能优于基准方案。
本发明所采用技术方案包括以下步骤:
S1、构建一个单基站的毫米波车联网通信场景,基站需要同时为一个双向多车道上的多个车辆用户提供数据传输服务。
S2、针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模。
S3、基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息(包括车辆速度、位置坐标、当前状态、容量阈值),波束信息(包括波束分配信息,波束宽度,波束角度,波束覆盖区域) 和阻塞信息(包括阻塞分布信息,阻塞覆盖区域,阻塞穿透系数),作为深度强化学习的状态输入。其中深度强化学习采用DQN算法。
S4、基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路。当前状态的动作为传输链路、波束分配和中继车辆的组合方案。
S5、根据S2中构建的模型和策略,设计奖励机制和神经网络的结构。
S6、利用S5中的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据ε-greedy策略选择当前状态下的动作,并结合S5中的奖励机制训练和更新神经网络参数。
S7、基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择,波束分配和中继车辆的策略。
本发明的车联网毫米波多用户通信场景示意图如图4所示。
进一步的,所述S1步骤过程如下:
S1.1、利用排队论对车辆的到达过程进行建模,车辆到达的时间间隔t服从车辆到达率为λ的负指数分布,其概率密度函数如下所示:
Figure GDA0003600502040000141
S1.2、在某个时隙,道路上有Nv辆车在行驶,其中有
Figure GDA0003600502040000142
辆需要提供服务的目标车辆。基站拥有一个正交波束的有限集合B={Bk,k=1,2,...,NB},能够同时选择
Figure GDA0003600502040000143
个波束为多个用户提供数据传输服务(其中
Figure GDA0003600502040000144
),并且每个波束只能为一个用户提供服务。
S1.3、考虑临时性随机阻塞和永久性阻塞对系统性能的影响,以更好地逼近实际的复杂的通信环境。并且当毫米波基站不能为目标车辆提供可靠的直连链路传输时,可以选择空闲车辆作为中继节点,实现信息转发的过程。
进一步的,所述S2步骤过程如下:
S2.1、在城市场景中,采用路径损耗模型来近似毫米波信号在传输过程中的路径损耗L(Ti,Rj)。
L(Ti,Rj)=μ1 log10 fc2 log10 d3D3
其中fc为载波频率;d3D为发射端和接收端的欧几里得距离;μi是路径损耗参数,与不同通信场景有关。
S2.2、发射端和接收端间的信道增益为gTR(分为下行链路信道增益gTR,1和中继转发信道增益gTR,2)。
gTR=LTRαTR
其中αTR为阻塞的穿透系数,考虑两种阻塞的影响:永久性阻塞(比如建筑物)和随机阻塞(比如:大型公交车的暂时阻挡)。
S2.3、利用二维扇区模型来模拟毫米波基站的天线方向图,基站和车辆的的天线增益GB(θ)和Gb(θ)。
Figure GDA0003600502040000151
Figure GDA0003600502040000152
其中θB和θb分别为基站波束的主瓣宽度和车辆波束的主瓣宽度。
S2.4、利用放大转发(AF)的中继策略降低车辆的计算复杂度,保证信息传输的超低实验。AF放大增益为βR为:
Figure GDA0003600502040000153
其中,PtR为中继车辆的发射功率,PrR为中继车辆的接收功率。
S2.5目标车辆
Figure GDA0003600502040000154
通过直连链路传输ξ1或中继传输链路ξ2接收到的信干噪比(SINR)分别为:ξ1和ξ2。并且考虑两种类型的干扰:基站下行链路传输过程和其他目标车辆的中继转发过程,每种干扰包括波束的主瓣干扰和旁瓣干扰。
Figure GDA0003600502040000155
Figure GDA0003600502040000156
其中PtB为基站的发射功率,
Figure GDA0003600502040000157
为信道噪声功率。I1和I2分别为目标车辆通过直连链路和中继转发链路传输时所受到的干扰。
Figure GDA0003600502040000158
Figure GDA0003600502040000159
其中ρB,k为基站波束选择的二进制指示器,当ρB,k=1时表明第k个波束为目标车辆v*服务,ρB,k=0则表明不服务。ρI,i为二进制的干扰指示器,ρI,i=1表明目标车辆v*收到其他中继车辆的传输过程的干扰。
S2.6、经过不同传输链路得到的信道容量为:
C1=Wlog(1+ξ1)
C2=Wlog(1+ξ2)
其中W为频谱带宽。进而可以得到目标车辆
Figure GDA0003600502040000161
的信道容量为:
Figure GDA0003600502040000162
其中ρl为二进制的链路指示器。ρl=1表明基站为目标车辆
Figure GDA0003600502040000163
选择了直连传输链路,ρl=0则表明基站为目标车辆选择了中继传输链路。
S2.7、目标车辆服务所需的容量门限为γ,满足以下条件:
Figure GDA0003600502040000164
进而可以得到系统的传输概率为:
Figure GDA0003600502040000165
S2.8、最大化所有目标车辆的总容量的同时保证每个目标车辆的通信质量和可靠性,目标函数为:
Figure GDA0003600502040000166
Subject to:
Figure GDA0003600502040000167
Figure GDA0003600502040000168
Figure GDA0003600502040000169
其中,C1表明一个目标车辆被一个波束所服务,C2表明一个波束只能服务一辆目标车辆,并且基站只能同时为
Figure GDA00036005020400001610
辆车提供服务。C3表明每个目标车辆的服务质量都需要大于容量门限阈值。
进一步的,所述S4步骤过程如下:
S4.1、动作空间采用一个三维坐标系来表示,x轴代表链路的选择,y轴代表潜在中继的选择,z轴代表可选波束的选择。设潜在中继的车辆为NR,可以得到动作空间的维度为2×NR×NB,其中2表明基站可以为目标车辆选择直连链路传输或中继链路传输。
S4.2、采用ε-greedy策略来权衡训练过程和利用过程。在t时刻,基站以1-∈的概率选择让Q函数最大的动作,以∈的概率从状态空间A中选择一个动作。
进一步的,所述S5步骤过程如下:
S5.1、根据目标车辆的容量值的大小将奖励划分为Nω个档位。
S5.2、当基站作出一个不好的动作,导致波束或中继车辆冲突的动作时,目标车辆的容量值为0,因此设置其容量奖励{rc,i}为一个负值。而当目标车辆的容量值没有满足阈值条件约束时,将容量奖励{rc,i}设置为0。进而可以得到基站处在不同的状态{St}下获得的返回奖励{rt}。
进一步的,所述S6步骤中的神经网络训练过程如下:
S6.1初始化环境信息和Q网络参数,生成车辆运行数据。
S6.2在每个训练回合,更新并获取当前车辆位置和环境状态,重置中继选择和波束分配策略。
S6.3、根据当前的状态信息和贪心算法为目标车辆选择一个动作,即链路选择,波束分配和中继车辆的组合方案,并更新环境的信息。
S6.4、获得所有目标车辆的动作组合方案,进而获得与容量相关的奖励值rc,i和返回的奖励值{rt}。
S6.5、将t时刻状态,动作,奖励和下一状态作为一个样本存储进经验池中。
S6.6、当经验池样本数足够多时,开始学习。从经验池中随机抽取小批量样本(st,at,rt,st+1),进行网络参数的训练,并更新目标网络权重。
本发明DQN网络示意图如图5所示。
图6为本发明不同方案在不同的交通图案下的系统性能和各车辆性能对比示意图。其中永久性阻塞的穿透系数为0.3,临时性阻塞的穿透系数为0.8。通过随机生成15种不同的交通模式和环境条件,对比分析了4辆随机服务车辆在不同方案下的系统总容量性能。最大容量方案为通过遍历所有波束和中继车辆的可用组合,选择实现最大总容量的最优策略,JoBARS策略为本发明所提出的方案,随机中继策略为随机在所有可选波束和中继车辆组合中选择一个组合,直连传输策略为基站根据现请求先服务的原则,依照目标车辆的位置分配特定的波束。显然,JoBARS策略的性能远优于随机中继策略和直连传输策略,并且该方案与最大容量方案非常接近,说明了该方案的有效性和鲁棒性。另一方面,图中通过随机选取若干交通图案来进行性能对比,相比于最大容量策略需要耗费大量时间遍历所有的可能性,基于DRL的JoBARS策略能够快速地适应车联网环境时变的特性,说明了该方案的高效性。
直连传输方案的曲线表明了在直线传输路径存在严重的阻塞的情况下,性能将急剧下降(如第1个交通图案)。而即使直连传输没有被阻塞,JoBARS策略的传输性能也优于直连传输策略(如第2个交通图案)。同时,图中还使用两个子图分别描述了在15个随机交通图案下每个目标车辆的性能。可以看出, JoBARS策略在作出使所有车辆的总容量最大化的决策时,不会过多的牺牲每辆车的性能,而最大容量方案优势会牺牲掉部分车辆的服务质量以使系统总容量达到最大(如第6个交通图案)。
图7为本发明不同方案在不同容量阈值限制下的平均连接概率。通过给每个车辆设立不同的服务传输质量要求,分析四种方案在不同传输容量阈值下的性能。从图中可以看出,随着容量阈值的不断增加,随机中继方案和直连传输方案的平均连接概率先缓慢下降后急剧下降,而JoBARS策略和最大容量策略的平均连接概率先保持不变后缓慢下降。当容量阈值小于12Gbps时,JoBARS 策略也能为所有服务车辆提供稳定的通信过程,平均中断概率性能优于最大容量方案。并且及时在高速率的业务中,JoBARS方案也能实现接近最大容量方案的稳定通信。正如前文所示,这是因为JoBARS的目标是在最大化总容量的同时保证每辆车的通信质量,而最大容量方案值关注于总容量的最大化,因此在一些交通图案下会牺牲部分车辆的服务质量。
本发明对于现有技术具有的优点及效果:本发明研究了毫米波车辆下多用户服务问题,通过联合设计,提出了一个基于DRL的JoBARS策略,能够帮助毫米波基站仅根据当前的交通模式快速做出最优决策,以最大化系统整体的通信能力。模型中,本发明考虑了车辆的高速移动特性,波束分配和中继选择过程中的竞争博弈,个体用户的通信需求和系统整体性能的冲突,以及多用户通信场景下的干扰等问题。并且模型的仿真结果表明,本发明提出的方法能显著地提升包括系统总容量,个体车辆用户容量,服务连接概率等方面的性能。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种毫米波车联网联合波束分配和中继选择方法,其特征在于,所述毫米波车联网联合波束分配和中继选择方法包括以下步骤:
步骤一,构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;
步骤二,针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;
步骤三,基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用深度Q网络DQN算法;
步骤四,基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;当前状态的动作为传输链路、波束分配和中继车辆的组合方案;
步骤五,根据步骤二构建的模型和策略,设计奖励机制和神经网络的结构;
步骤六,利用步骤五的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据ε-greedy策略选择当前状态下的动作,并结合步骤五的奖励机制训练和更新神经网络参数;
步骤七,基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择,波束分配和中继车辆的策略;
步骤一中,所述构建单基站的毫米波车联网通信场景,包括:
(1)利用排队论对车辆的到达过程进行建模,车辆到达的时间间隔t服从负指数分数,概率密度函数如下所示:
Figure FDA0003619238090000011
(2)在某个时隙,道路上有Nv辆车在行驶,其中有
Figure FDA0003619238090000012
辆需要提供服务的目标车辆;基站拥有一个正交波束的有限集合B={Bk,k=1,2,...,NB},同时选择
Figure FDA0003619238090000021
个波束为多个用户提供数据传输服务,其中
Figure FDA0003619238090000022
并且每个波束只能为一个用户提供服务;
(3)临时性随机阻塞和永久性阻塞对系统性能的影响,且当毫米波基站不能为目标车辆提供可靠的直连链路传输时,选择空闲车辆作为中继节点,实现信息转发的过程。
2.如权利要求1所述毫米波车联网联合波束分配和中继选择方法,其特征在于,步骤二中,所述针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模,包括:
(1)在城市场景中,采用路径损耗模型来近似毫米波信号在传输过程中的路径损耗LTR
LTR=μ1log10fc2log10d3D3
其中,fc为载波频率;T为发射端;R为接收端;d3D为发射端和接收端的欧几里得距离;μ1,μ2,μ3是路径损耗参数,与不同通信场景有关;
(2)发射端和接收端间的信道增益为gTR,包括下行链路信道增益gTR,1和中继转发信道增益gTR,2
gTR=LTRαTR
其中,αTR为阻塞的穿透系数,包括两种阻塞影响:永久性阻塞和随机阻塞;LTR为发射端与接收端间的路径损耗;
(3)利用二维扇区模型模拟毫米波基站的天线方向图,基站和车辆的的天线增益GB(θ)和Gb(θ):
Figure FDA0003619238090000023
Figure FDA0003619238090000024
其中,θ为发射/接收信号的天线角度;θB和θb分别为基站波束的主瓣宽度和车辆波束的主瓣宽度;MB,mB分别为基站波束的主瓣增益和旁瓣增益;Mb和mb分别为车辆波束的主瓣增益和旁瓣增益;
(4)利用放大转发AF的中继策略降低车辆的计算复杂度,保证信息传输的超低时延;其中,所述AF放大增益为βR为:
Figure FDA0003619238090000031
其中,PtR为中继车辆的发射功率,PrR为中继车辆的接收功率;
(5)目标车辆v*通过直连链路传输或中继传输链路接收到的信干噪比SINR分别为:ξ1和ξ2;两种类型的干扰:基站下行链路传输过程和其他目标车辆的中继转发过程,每种干扰包括波束的主瓣干扰和旁瓣干扰;
Figure FDA0003619238090000032
Figure FDA0003619238090000033
其中,PtB为基站的发射功率,
Figure FDA0003619238090000034
为直连链路信道噪声功率;
Figure FDA0003619238090000035
为中继链路信道噪声功率;I1和I2分别为目标车辆通过直连链路和中继转发链路传输时所受到的干扰:
Figure FDA0003619238090000036
Figure FDA0003619238090000037
其中,ρB,k为基站波束选择的二进制指示器,当ρB,k=1时表明第k个波束为目标车辆v*服务,ρB,k=0则表明不服务;ρI,i为二进制的干扰指示器,ρI,i=1表明目标车辆v*收到其他中继车辆的传输过程的干扰;
(6)经过不同传输链路得到的信道容量为:
C1=Wlog(1+ξ1)
C2=Wlog(1+ξ2);
其中,W为频谱带宽,进而得到目标车辆v*的信道容量为:
Figure FDA0003619238090000041
其中,ρl为二进制的链路指示器;ρl=1表明基站为目标车辆v*选择直连传输链路,ρl=0则表明基站为目标车辆选择中继传输链路;
(7)目标车辆服务所需的容量门限为γ,满足以下条件:
Figure FDA0003619238090000042
进而得到系统的传输概率为:
Figure FDA0003619238090000043
(8)最大化所有目标车辆的总容量的同时保证每个目标车辆的通信质量和可靠性,目标函数为:
Figure FDA0003619238090000044
Subject to:
Figure FDA0003619238090000045
Figure FDA0003619238090000046
Figure FDA0003619238090000047
其中,C1表明一个目标车辆被一个波束所服务,C2表明一个波束只能服务一辆目标车辆,并且基站只能同时为
Figure FDA0003619238090000048
辆车提供服务;C3表明每个目标车辆的服务质量均需大于容量门限阈值。
3.如权利要求1所述毫米波车联网联合波束分配和中继选择方法,其特征在于,步骤三中,所述目标车辆和潜在中继车辆的信息,包括车辆速度、位置坐标、当前状态和容量阈值;所述波束信息,包括波束分配信息、波束宽度、波束角度和波束覆盖区域;所述阻塞信息,包括阻塞分布信息、阻塞覆盖区域和阻塞穿透系数。
4.如权利要求1所述毫米波车联网联合波束分配和中继选择方法,其特征在于,步骤四中,所述基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路,包括:
(1)动作空间采用一个三维坐标系来表示,x轴代表链路的选择,y轴代表潜在中继的选择,z轴代表可选波束的选择;设潜在中继的车辆为NR,得到动作空间的维度为2×NR×NB,其中2表明基站可以为目标车辆选择直连链路传输或中继链路传输;
(2)采用ε-greedy策略来权衡训练过程和利用过程;在t时刻,基站以1-∈的概率选择让Q函数最大的动作,以∈的概率从状态空间A中选择一个动作。
5.如权利要求1所述毫米波车联网联合波束分配和中继选择方法,其特征在于,步骤五中,所述根据构建的模型和策略,设计奖励机制和神经网络的结构,包括:
(1)根据目标车辆的容量值的大小将奖励划分为Nω个档位;
(2)当基站作出导致波束或中继车辆冲突的动作时,目标车辆的容量值为0,故设置容量奖励{rc,i}为一个负值;当目标车辆的容量值没有满足阈值条件约束时,将容量奖励{rc,i}设置为0,进而得到基站处在不同的状态{St}下获得的返回奖励{rt}。
6.如权利要求1所述毫米波车联网联合波束分配和中继选择方法,其特征在于,步骤六中,所述利用DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据ε-greedy策略选择当前状态下的动作,并结合奖励机制训练和更新神经网络参数,包括:
(1)初始化环境信息和Q网络参数,生成车辆运行数据;
(2)在每个训练回合,更新并获取当前车辆位置和环境状态,重置中继选择和波束分配策略;
(3)根据当前的状态信息和贪心算法为目标车辆选择一个动作,即链路选择,波束分配和中继车辆的组合方案,并更新环境的信息;
(4)获得所有目标车辆的动作组合方案,进而获得与容量相关的奖励值rc,i和返回的奖励值{rt};
(5)将t时刻状态,动作,奖励和下一状态作为一个样本存储进经验池中;
(6)当经验池样本数足够多时,开始学习;从经验池中随机抽取小批量样本(st,at,rt,st+1),进行网络参数的训练,并更新目标网络权重。
7.一种实施权利要求1~6任意一项所述毫米波车联网联合波束分配和中继选择方法的毫米波车联网联合波束分配和中继选择系统,其特征在于,所述毫米波车联网联合波束分配和中继选择系统包括:
通信场景构建模块,用于构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;
模型构建模块,用于针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;
状态信息获取模块,用于基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;
传输链路选择模块,用于基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;其中,所述当前状态的动作为传输链路、波束分配和中继车辆的组合方案;
结构设计模块,用于根据模型构建模块构建的模型和策略,设计奖励机制和神经网络的结构;
更新模块,用于利用结构设计模块的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据ε-greedy策略选择当前状态下的动作,结合结构设计模块的奖励机制训练和更新神经网络参数;
策略确定模块,用于通过基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择、波束分配和中继车辆的策略;
所述构建单基站的毫米波车联网通信场景,包括:
(1)利用排队论对车辆的到达过程进行建模,车辆到达的时间间隔t服从负指数分数,概率密度函数如下所示:
Figure FDA0003619238090000071
(2)在某个时隙,道路上有Nv辆车在行驶,其中有
Figure FDA0003619238090000072
辆需要提供服务的目标车辆;基站拥有一个正交波束的有限集合B={Bk,k=1,2,...,NB},同时选择
Figure FDA0003619238090000073
个波束为多个用户提供数据传输服务,其中
Figure FDA0003619238090000074
并且每个波束只能为一个用户提供服务;
(3)临时性随机阻塞和永久性阻塞对系统性能的影响,且当毫米波基站不能为目标车辆提供可靠的直连链路传输时,选择空闲车辆作为中继节点,实现信息转发的过程。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DqN算法;
基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;当前状态的动作为传输链路、波束分配和中继车辆的组合方案;根据构建的模型和策略,设计奖励机制和神经网络的结构;利用DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据ε-greedy策略选择当前状态下的动作,并结合奖励机制训练和更新神经网络参数;
基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择,波束分配和中继车辆的策略;
所述构建单基站的毫米波车联网通信场景,包括:
(1)利用排队论对车辆的到达过程进行建模,车辆到达的时间间隔t服从负指数分数,概率密度函数如下所示:
Figure FDA0003619238090000081
(2)在某个时隙,道路上有Nv辆车在行驶,其中有
Figure FDA0003619238090000082
辆需要提供服务的目标车辆;基站拥有一个正交波束的有限集合B={Bk,k=1,2,...,NB},同时选择
Figure FDA0003619238090000083
个波束为多个用户提供数据传输服务,其中
Figure FDA0003619238090000084
并且每个波束只能为一个用户提供服务;
(3)临时性随机阻塞和永久性阻塞对系统性能的影响,且当毫米波基站不能为目标车辆提供可靠的直连链路传输时,选择空闲车辆作为中继节点,实现信息转发的过程。
9.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述毫米波车联网联合波束分配和中继选择系统。
CN202110997198.5A 2021-08-27 2021-08-27 毫米波车联网联合波束分配和中继选择方法、系统及设备 Active CN113709701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110997198.5A CN113709701B (zh) 2021-08-27 2021-08-27 毫米波车联网联合波束分配和中继选择方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110997198.5A CN113709701B (zh) 2021-08-27 2021-08-27 毫米波车联网联合波束分配和中继选择方法、系统及设备

Publications (2)

Publication Number Publication Date
CN113709701A CN113709701A (zh) 2021-11-26
CN113709701B true CN113709701B (zh) 2022-06-17

Family

ID=78656133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110997198.5A Active CN113709701B (zh) 2021-08-27 2021-08-27 毫米波车联网联合波束分配和中继选择方法、系统及设备

Country Status (1)

Country Link
CN (1) CN113709701B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114362888B (zh) * 2022-01-24 2024-01-19 厦门大学 一种提升无线通信下行链路传输性能的方法
CN114845332A (zh) * 2022-05-05 2022-08-02 东南大学 基于视觉信息融合的毫米波通信链路阻塞预测方法
CN115580879A (zh) * 2022-09-07 2023-01-06 重庆邮电大学 一种基于联邦强化学习的毫米波网络波束管理方法
CN116193528B (zh) * 2022-11-11 2023-09-05 深圳市摩尔环宇通信技术有限公司 一种毫米波通信方法及相关存储介质和程序产品
CN115866559B (zh) * 2022-11-25 2024-04-30 西安电子科技大学 一种非正交多址接入辅助的车联网低能耗安全卸载方法
CN116866824B (zh) * 2023-01-09 2024-04-02 广东世炬网络科技有限公司 毫米波中继设备组网的连接控制方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109803344A (zh) * 2018-12-28 2019-05-24 北京邮电大学 一种无人机网络拓扑及路由联合构建方法
CN110636523A (zh) * 2019-09-20 2019-12-31 中南大学 一种基于q学习的毫米波移动回程链路能量效率稳定方案
CN110995858A (zh) * 2019-12-17 2020-04-10 大连理工大学 一种基于深度q网络的边缘网络请求调度决策方法
CN111431646A (zh) * 2020-03-31 2020-07-17 北京邮电大学 一种毫米波系统中的动态资源分配方法
CN111885671A (zh) * 2020-07-17 2020-11-03 燕山大学 一种基于深度强化学习的水下联合中继选择和功率分配方法
WO2021058583A1 (en) * 2019-09-25 2021-04-01 Deepmind Technologies Limited Training action selection neural networks using q-learning combined with look ahead search
CN112995950A (zh) * 2021-02-07 2021-06-18 华南理工大学 一种车联网中基于深度强化学习的资源联合分配方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10505616B1 (en) * 2018-06-01 2019-12-10 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network
CN110784852B (zh) * 2019-10-15 2021-03-02 中国科学院自动化研究所 基于在线链路持续时间预测的v2v路由选择方法
CN112910534B (zh) * 2021-01-18 2022-07-05 广州大学 基于数据驱动的中继选择方法、系统、装置及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109803344A (zh) * 2018-12-28 2019-05-24 北京邮电大学 一种无人机网络拓扑及路由联合构建方法
CN110636523A (zh) * 2019-09-20 2019-12-31 中南大学 一种基于q学习的毫米波移动回程链路能量效率稳定方案
WO2021058583A1 (en) * 2019-09-25 2021-04-01 Deepmind Technologies Limited Training action selection neural networks using q-learning combined with look ahead search
CN110995858A (zh) * 2019-12-17 2020-04-10 大连理工大学 一种基于深度q网络的边缘网络请求调度决策方法
CN111431646A (zh) * 2020-03-31 2020-07-17 北京邮电大学 一种毫米波系统中的动态资源分配方法
CN111885671A (zh) * 2020-07-17 2020-11-03 燕山大学 一种基于深度强化学习的水下联合中继选择和功率分配方法
CN112995950A (zh) * 2021-02-07 2021-06-18 华南理工大学 一种车联网中基于深度强化学习的资源联合分配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Deep Reinforcement Learning Based D2D Relay Selection and Power Level Allocation in mmWave Vehicular Networks;H. Zhang;S. Chong;X. Zhang;N. Lin;《IEEE Wireless Communications Letters》;20200331;全文 *
Q-Learning Based Predictive Relay Selection for Optimal Relay Beamforming;A. Dimas;K. Diamantaras;A. P. Petropulu;《ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20200508;全文 *
潘安劼.毫米波Massive MIMO系统中的波束分配算法研究.《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(2018年第11期)》.2018, *

Also Published As

Publication number Publication date
CN113709701A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN113709701B (zh) 毫米波车联网联合波束分配和中继选择方法、系统及设备
CN112616189B (zh) 一种静态和动态相结合的毫米波波束资源分配与优化方法
CN109068391B (zh) 基于边缘计算和Actor-Critic算法的车联网通信优化算法
Qiao et al. Proactive caching for mobile video streaming in millimeter wave 5G networks
CN110753319B (zh) 异构车联网中面向异质业务的分布式资源分配方法及系统
CN110769514B (zh) 一种异构蜂窝网络d2d通信资源分配方法及系统
CN114142907B (zh) 一种通信终端设备的信道筛选优化方法及系统
Fan et al. Traffic-aware relay vehicle selection in millimeter-wave vehicle-to-vehicle communication
CN110519020B (zh) 无人系统网络智能跨层数据传输方法及系统
CN114205791A (zh) 一种基于深度q学习的社交感知d2d协同缓存方法
CN114867030B (zh) 双时间尺度智能无线接入网切片方法
CN116744311B (zh) 基于per-ddqn的用户组频谱接入方法
CN113207127B (zh) 一种noma系统中基于分层深度强化学习的动态频谱接入方法
Ju et al. Deep reinforcement learning based joint beam allocation and relay selection in mmWave vehicular networks
CN111083708A (zh) 一种基于干扰感知多图的v2v通信异质频谱分配方法
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN114302497A (zh) 一种应用于非授权毫米波段异构网络共存的调度方法
Ju et al. DRL-based beam allocation in relay-aided multi-user mmWave vehicular networks
CN110381562A (zh) 基于双层松耦合最优停止的无线分布式协同网络接入方法
CN117460034A (zh) 一种智能反射面中继辅助的车联网功率分配和用户调度方法、系统、设备及介质
CN116634450A (zh) 一种基于强化学习的动态空地异构网络用户关联增强方法
CN116506918A (zh) 一种基于缓存区预测的中继选择方法
CN116505998A (zh) 基于深度强化学习的多波束卫星通信资源分配系统及方法
CN114615640A (zh) 基于中继激励机制的车联网协作通信方法、系统及终端
CN115765826A (zh) 一种面向按需服务的无人机网络拓扑重构方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant