CN112153744A - 一种icv网络中物理层安全资源分配方法 - Google Patents

一种icv网络中物理层安全资源分配方法 Download PDF

Info

Publication number
CN112153744A
CN112153744A CN202011027229.6A CN202011027229A CN112153744A CN 112153744 A CN112153744 A CN 112153744A CN 202011027229 A CN202011027229 A CN 202011027229A CN 112153744 A CN112153744 A CN 112153744A
Authority
CN
China
Prior art keywords
link
agent
network
time
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011027229.6A
Other languages
English (en)
Other versions
CN112153744B (zh
Inventor
陈晓华
李瑞恩
罗雪文
林庆丰
于启月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202011027229.6A priority Critical patent/CN112153744B/zh
Publication of CN112153744A publication Critical patent/CN112153744A/zh
Application granted granted Critical
Publication of CN112153744B publication Critical patent/CN112153744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/543Allocation or scheduling criteria for wireless resources based on quality criteria based on requested quality, e.g. QoS

Abstract

一种ICV网络中物理层安全资源分配方法,解决了现有分配方式不能优化V2V时延的问题,属于无线通信技术领域。本发明包括:S1、每个V2V链路中的发送车辆为一个智能体,智能体采用深度强化学习网络实现,包括训练后的目标网络和实时网络,目标网络用于对实时网络的参数进行更新;S2、每个智能体得到环境的局部观测,包括合法、干扰和窃听信道的信息、发送载荷、时延限制、目标网络的训练迭代次数和探索利用概率;S3、每个智能体根据局部观测利用实时网络输出动作,该动作包括发送信号占用的频带和发射功率;S4、所有智能体的目标网络从环境收到同一个奖励,环境进入到下一时刻的全局状态,转入S2,奖励包括系统保密容量和时延限制。

Description

一种ICV网络中物理层安全资源分配方法
技术领域
本发明涉及一种ICV(Intelligent Connected Vehicle,智能网联车)网络中基于强化学习的资源分配方法,属于无线通信技术领域。
背景技术
近些年来,通信技术迅速发展,5G第一阶段已经在3GPP R15中被冻结,其中,包括V2X(Vehicle to Everything,车与外界的信息交换)在内的车联网技术成为5G的研究重点,车联网成为5G的主要应用场景之一。中国采用基于LTE和5G的V2X通信技术在近些年成为智能交通系统的主要技术,V2V(Vehicle-to-Vehicle,车-车通信)技术具有更广泛的通信范围,更低的延迟和更高的传输速率,能够适应各种应用场景。
V2X包括V2I(Vehicle-to-Infrastructure,车-基础设施通信)和V2V等,其中车辆到基站的V2I链路主要传递高速率的娱乐、视频等业务,车辆到车辆的V2V链路主要传递低速率低时延的道路、车辆、交通等信息。由于频谱资源的稀缺,允许V2V链路复用V2I链路的频谱资源,可以大幅提高频谱效率。但是会不可避免地引入同频干扰,导致V2V链路和原始V2I链路系统容量的下降,所以有效的无线资源管理方式能够减小由于资源复用带来的负面效果。另外,V2V通信安全是V2V通信中的关键研究领域,传统的方法是在物理层的上层进行加密或鉴权等,这些方法需要占用车辆或BS(Base Station,基站)自身的计算资源,而其加密能力的强弱依赖于其计算能力的强弱,同时随着攻击者计算能力的增强,加密算法极易被破解。近些年来,物理层安全成为通信安全的一个热门研究领域,相比于传统的加密或鉴权技术,能带来额外的保密性能。物理层安全技术利用无线通信的物理层特性提供一种额外的安全保护方案,同时不需要占用大量计算资源,能够在提高系统保密能力的同时减轻用户计算负担。
从资源分配角度看,频谱资源是有限的。在4G的OFDM(Orthogonal FrequencyDivision Multiple,正交频分复用)系统中,V2V链路与V2I链路利用underlay(复用授权频段的频率资源)的方式复用子载波,这使子载波的分配变得更加复杂,而由于子载波的复用,不同类型用户之间的同频干扰使得问题的分析难以简化,也会使用户的系统容量下降。同时,不合理的子载波分配方式也会降低用户的保密容量,造成频谱资源浪费,降低通信系统的保密性能。目前的V2V无线资源分配问题,主要是建立优化模型,采用优化算法来求解。集中式的资源分配需要基站收集信息计算决策后再通知给各个车辆用户,会产生较大的时延。同时,很多问题难以建立确定的数学模型,如时延优化,以及优化问题通常是非凸的,难以求得解析解。传统的资源分配方式没有优化V2V时延,会影响需要极低时延的V2V通信性能。因此,有效的资源分配方式会更好地满足V2V时延要求并极大地提高系统保密性能。
发明内容
针对现有资源分配方式不能优化V2V时延的问题,本发明提供一种ICV网络中物理层安全资源分配方法。
本发明的一种ICV网络中物理层安全资源分配方法,所述方法包括如下步骤:
S1、每个V2V链路中的发送车辆为一个智能体,所述智能体采用深度强化学习网络实现,包括训练后的目标网络和实时网络,目标网络用于对实时网络的参数进行更新;
S2、在时刻t,每个智能体得到环境的局部观测
Figure BDA0002702480260000021
环境的全局状态为St,第k个智能体的局部观测
Figure BDA0002702480260000022
是全局状态St的子集;
其中,
Figure BDA0002702480260000023
包括可观测的合法信道、干扰信道和窃听信道的信息、第k个智能体需要发送的载荷、时延限制、目标网络的训练迭代次数e和探索利用概率ε;
S3、每个智能体根据
Figure BDA0002702480260000024
利用实时网络输出动作
Figure BDA0002702480260000025
所有的智能体的动作构成联合动作At
其中,
Figure BDA0002702480260000026
包括发送信号占用的频带和发射功率;
S4、所有的智能体的目标网络从环境收到同一个奖励Rt,环境进入到下一时刻的全局状态St+1,转入S2;
其中,
Figure BDA0002702480260000027
λV2I和λV2V分别为V2I链路奖励因子和V2V链路奖励因子;
Figure BDA0002702480260000028
表示在t时刻第m个V2I链路的保密容量,M表示V2I链路的数量;
V2V链路传输时延对应的奖励为Lk[t],
Figure BDA0002702480260000029
X是一个常量,X大于V2V链路最大保密速率,控制变量ρk[m]的取值为1或0,ρk[m]=1表示第k个V2V链路使用了第m个子频带,ρk[m]=0表示第k个V2V链路没有使用第m个子频带,
Figure BDA0002702480260000031
表示在t时刻第k个V2V链路的保密容量,K表示V2V链路的数量。
作为优选,所述局部观测:
Figure BDA0002702480260000032
其中,Tk表示剩余传输时间,Ik[m]表示全频段的干扰,gk[m]表示第k个V2V链路本身的信道增益,gk',k[m]表示来自其他V2V链路的干扰信道,k'≠k,gk,B[m]表示V2V链路发送车辆到基站的信道增益,
Figure BDA0002702480260000033
表示来自其他V2I链路发送车辆的干扰信道,gk,e[m]表示窃听者窃听第k个V2V链路的窃听信道增益,gm,e[m]表示窃听者窃听第m个V2I链路的窃听信道增益。
作为优选,所述每个智能体有N×M个动作,N表示V2V链路发射功率离散化后的等级数量。
作为优选,所述步骤一中,对智能体训练的方法包括:
S11:初始化环境;
S12:随机初始化智能体的实时网络的参数θk,初始化目标网络的参数θk-,θk-=θk
S13:更新车辆位置和大尺度衰落,重置Bk和Tk,Tk表示剩余传输时间;
S14:每个智能体计算局部观测
Figure BDA0002702480260000034
S15:每个智能体以概率为1-ε选择
Figure BDA0002702480260000035
或以概率ε随机选择动作;
Figure BDA0002702480260000036
为目标网络输出动作的Q值;a表示任意一个动作;
S16:所有智能体的动作组成联合动作At,根据联合动作At计算奖励Rt
S17:更新车辆信道的小尺度衰落,小尺度衰落服从瑞利分布;
S18:每个智能体计算下一时刻的局部观测
Figure BDA0002702480260000037
S19:将经验
Figure BDA0002702480260000038
Rt,
Figure BDA0002702480260000039
存储到记忆库中;
S110:循环执行S14至S19,直到
Figure BDA00027024802600000310
次,转入步骤11,T表示训练阶段跨越V2V链路有效载荷的时延限制,Δt表示小尺度衰落的信道相关时间;
S111:从记忆库中随机采样设定批量样本
Figure BDA0002702480260000041
Rt,
Figure BDA0002702480260000042
S112:根据损失函数反向传递误差更新实时网络的参数θk
Figure BDA0002702480260000043
st表示设定批量样本中时刻t的状态,at表示设定批量样本中时刻t选择的动作,D表示从记忆库中抽样的设定批量样本,γ表示奖励折扣因子;
步骤13:循环执行S13至S112,每N轮更新一次智能体的目标网络参数θk-=θk
作为优选,所述S3包括:
S31:每个智能体的实时网络加载训练完成的参数θk
S32:每个智能体进行信道检测和干扰计算,得到自身的局部观测值
Figure BDA0002702480260000044
S33:每个智能体根据局部观测,选择发送频带和发射功率;
S34:在车辆的行驶过程中,循环执行S32和S33。
作为优选,所述S11包括:
S111:根据泊松分布随机产生K个V2V链路的车辆对和K个V2I链路的车辆及1个窃听车辆;
S112:根据随机产生的车辆,计算车辆的大尺度衰落,包括路径损耗和阴影衰落,阴影衰落为Log-Normal分布;
S113:计算车辆的小尺度衰落,服从瑞利衰落;
S114:计算得到可观测的合法信道、干扰信道和窃听信道。
本发明的有益效果:本发明解决了V2V通信中资源分配、提高系统物理层安全保密容量的问题,建立了基于Mode 4的分布式资源分配模型,根据提出的多智能体强化学习算法在优化V2V时延的同时优化V2I系统保密容量,实现了车辆的自动频谱接入和功率控制。本发明的资源分配方法,在完成训练之后,网络部署和在线执行容易实现。仅当环境特征发生重大变化时,才需要更新所有智能体训练好的DQN(Deep Q-Network,深度强化学习网络)。
附图说明
图1为单蜂窝网络系统模型图。其中存在位置随机分布的K个V2V链路和M个V2I链路,同时存在一个窃听者
图2为ICV网络中物理层安全资源分配系统模型;
图3为智能体模型;
图4为动作空间的示意图;
图5为智能体的训练算法流程图;
图6为系统性能指标随传输载荷B变化曲线,T=100ms,V2V链路数=4,V2I链路数=4,其中图6(a)表示传输完成率变化的情况,图6(b)表示V2I系统保密速率的情况;
图7为系统性能指标随时间限制T变化曲线,B=8192bytes,V2V链路数=4,V2I链路数=4,其中图7(a)表示传输完成率变化的情况,图7(b)表示V2I系统保密速率变化的情况;
图8为剩余传输载荷变化图,B=4096bytes,T=40ms,V2V链路数=4,V2I链路数=4,其中图8(a)表示多智能体强化学习算法的剩余传输载荷变化图,图8(b)表示随机资源分配的剩余传输载荷变化图;
图9为单episode内V2V速率变化图,B=4096bytes,T=40ms,V2V链路数=4,V2I链路数=4,图9(a)多智能体强化学习算法的单episode内V2V速率变化图,图9(b)表示随机资源分配的单episode内V2V速率变化图;
图10为V2V链路传输完成时间累积分布函数,T=40ms。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本实施方式提供一种V2V链路复用V2I链路的资源块时基于多智能体强化学习的分布式无线资源分配方法以满足V2V链路的时延要求和尽可能最大化V2I链路的保密容量。V2I链路分为上行链路和下行链路,由于基站的抗干扰能力更强,因此采用V2V链路复用V2I上行链路频谱资源的方案。图1为蜂窝网络内V2V链路与V2I链路共存的系统模型图。在图1中,存在K个V2V链路(在本实施方式中,仅考虑V2V链路的发送端,这里的V2V链路主要考虑发送端车辆用户)和M个V2I链路,V2V链路复用V2I链路的无线资源。同时存在一个窃听者(Eve)窃听车辆用户的保密信息,并且车辆用户已知窃听者的具体位置信息。
Mode 4是V2X架构中定义的分布式资源分配方式,车辆可以从资源池中自主地选择频谱并调整功率进行通信,不需要中心设备进行统一调度,极大降低了车辆通信的时延。本实施方式进一步假设M个V2I链路已经预分配好正交分频子带,并以固定的发射功率发射,第m个V2I链路占用第m个子带。利用正交频分复用(OFDM)技术将频率选择无线信道转换为不同子载波上的多个并行平坦信道。几个连续的子载波被分组以形成一个频谱子带,本实施方式假设一个子带内的信道衰落大致相同,并且在不同的子带之间信道衰落是独立的。
图1中,在一个相干时间段内,第m个子带(由第m个V2I链路占用)上的第k个V2V链路的信道功率增益gk[m]可以表示为:
gk[m]=αkhk[m] (1)
其中,hk[m]是频率相关的小尺度衰落功率分量,并假设小尺度衰落是0均值单位协方差服从瑞利分布,αk是载波独立的大尺度衰落,包括路径损耗和阴影衰落。
第k'个V2V发送者到第k个V2V接收者在第m个子频带上的干扰信道增益为gk'k[m],第k个V2V发送者到基站BS的信道在第m个子频带上的信道增益为gk,B[m],第m个V2I发送者到基站BS在第m个子频带上的信道增益为
Figure BDA0002702480260000061
第m个V2I发送者到第k个V2V接收者在第m个子频带上的信道增益为
Figure BDA0002702480260000062
第k个V2V发送者到窃听者Eve在第m个子频带上的信道增益为gk,e[m],第m个V2I发送者到窃听者Eve在第m个子频带上的信道增益为
Figure BDA0002702480260000063
则第m个V2I链路的信干噪比和第k个V2V链路的信干噪比为:
Figure BDA0002702480260000064
Figure BDA0002702480260000065
其中,
Figure BDA0002702480260000066
Figure BDA0002702480260000071
第m个V2I发送者和第k个V2V发送者在窃听者Eve处的信干噪比可以表示为:
Figure BDA0002702480260000072
Figure BDA0002702480260000073
其中,
Figure BDA0002702480260000074
Figure BDA0002702480260000075
分别是在基站BS,V2V链路接收机和窃听者Eve处的噪声功率。ρk[m]是频谱分配因子,ρk[m]=1表示第k个V2V链路使用了第m个子频带,ρk[m]=0则表示没有使用第m个子频带。
假设每个V2V链路只使用1个子频带,因此
Figure BDA0002702480260000076
则第m个V2I链路的保密容量和第k个V2V链路的保密容量可以表示为:
Figure BDA0002702480260000077
Figure BDA0002702480260000078
其中,[x]+=max{0,x}。
V2V链路传播的信息数据量较小,主要负责低速率的私密业务,而V2I链路主要负责娱乐业务,所以系统优化目标首先使V2V链路的时延尽可能小,同时尽量最大化V2I链路系统容量
Figure BDA0002702480260000079
但是,由于时延优化问题难以用数学模型表示,本实施方式使用多智能体强化学习技术,将时延当作奖励的一部分,解决传统优化算法中时延优化难以建模的问题。
假设V2V链路要求在Tk时间限制内发送Bk比特的信息,以满足车辆通信的最低时延要求,这个问题可以等价转化为:
Figure BDA00027024802600000710
其中ΔT是信道相关时间,Bk是周期性的V2V载荷,Tk是时间限制,
Figure BDA00027024802600000711
是在不同相关时隙的V2V链路信道容量。
本发明的资源分配模型就可以设计为如下:为每个V2V链路进行资源块选择和功率控制,即通过控制变量ρk[m],k∈{1,…,K},m∈{1,…,M}和
Figure BDA0002702480260000081
Figure BDA0002702480260000082
从而满足式(10)的时延限制同时尽可能最大化
Figure BDA0002702480260000083
Figure BDA0002702480260000084
表示第k个V2V发送者在第m个频带的发射功率;
本实施方式不同于采用深度多智能体强化学习的资源分配方式,不同于传统的优化算法。ICV网络中物理层安全资源分配系统模型如图2所示,在基于Mode 4的分布式资源分配中,每一个V2V链路的发送车辆被看作一个智能体,每个智能体自动感知周边局部环境,并进行频谱选择和功率控制。尽管每个智能体与其他智能体的关系可能是竞争博弈,但从系统整体角度看,本实施方式将其转换为一个全合作博弈,通过所有智能体共享同一个奖励,从而实现系统的最优资源分配,但是每个智能体未必达到自己的最优解。
在分布式资源分配条件中,每个V2V链路的发送车辆被当做是一个智能体,每个智能体要根据自身对环境的局部观测来进行资源分配,即频谱选择和功率控制。数学上,该问题可以建模为一个马尔可夫决策过程。在时刻t,环境的全局状态为St,每一个V2V智能体只能得到环境的局部观测值,这个局部观测值是环境全局状态的子集,第k个智能体的局部观测可以表示为
Figure BDA0002702480260000085
是状态St和智能体编号k的函数。每一个智能体根据
Figure BDA0002702480260000086
采取动作
Figure BDA0002702480260000087
所有的智能体采取的动作构成联合动作At,然后所有的智能体收到同一个奖励Rt,环境进入到下一个状态St+1,每个智能体收到下一个局部观测
Figure BDA0002702480260000088
本实施方式的ICV网络中物理层安全资源分配方法,包括:
步骤1、每个V2V链路中的发送车辆为一个智能体,所述智能体采用深度强化学习网络实现,包括训练后的目标网络和实时网络,目标网络用于对实时网络的参数进行更新;
步骤2、在时刻t,每个智能体得到环境的局部观测
Figure BDA0002702480260000089
环境的全局状态为St,第k个智能体的局部观测
Figure BDA00027024802600000810
是全局状态St的子集;
其中,
Figure BDA00027024802600000811
包括可观测的合法信道、干扰信道和窃听信道的信息、第k个智能体需要发送的载荷、时延限制、目标网络的训练迭代次数e和探索利用概率ε;
步骤3、每个智能体根据
Figure BDA00027024802600000812
利用实时网络输出动作
Figure BDA00027024802600000813
所有的智能体的动作构成联合动作At
其中,
Figure BDA00027024802600000814
包括发送信号占用的频带和发射功率;
步骤S4、所有的智能体的目标网络从环境收到同一个奖励Rt,环境进入到下一时刻的全局状态St+1,转入步骤2;
其中,
Figure BDA0002702480260000091
Figure BDA0002702480260000092
状态和观测空间:
真实的环境状态St是全局信息,包含所有的信道条件和所有智能体的动作,但智能体不能获得St的全部信息。第k个V2V智能体的局部观测空间,应该包括以下信息:第k个V2V链路本身的信道增益
Figure BDA0002702480260000093
来自其他V2V链路的干扰信道
Figure BDA0002702480260000094
V2V发送者到BS的信道增益
Figure BDA0002702480260000095
以及来自其他V2I发送者的干扰信道
Figure BDA0002702480260000096
这些信道条件除了gk,B[m],都可以被第k个智能体(V2V链路)中的接收者在每个时隙t的开始精确测出,并通过无延迟反馈(Delay-Free Feedback)将这些信息发送给发送者。第k个智能体到BS的信道gk,B[m]可以在BS处测得,并且在每个时隙t广播给所有的车辆,只产生较小的额外开销(Overhead)。第k个智能体的局部观测还包括全频段的干扰
Figure BDA0002702480260000097
这些干扰被V2V接收者精确测得,如公式(6)。
除此之外,第k个V2V智能体的局部观测还应包括V2V链路传输的剩余V2V载荷(Payload)Bk,以及剩余传输时间Tk。假设窃听者的位置已知,并且已知窃听信道的分布,可以得到窃听信道的信道状态信息gk,e[m]和gm,e[m],因此,第k个智能体的观测空间为
Figure BDA0002702480260000098
其中,
Figure BDA0002702480260000099
独立Q学习是多智能体强化学习最流行的算法之一,每一个智能体把其他的智能体看作环境的一部分,根据自己的局部观测分布式采取动作。然而深度Q学习(Deep QLearning)和独立Q学习的结合却面临新的挑战,由于环境和智能体的动作相关,每个智能体都面临着非稳定环境。在DQN中,经验回放不仅帮助稳定网络的训练,而且通过重复随机利用经验提高了抽样有效性,避免了样本之间相关性给训练带来的影响。但在多智能体强化学习中,独立Q学习引入的不稳定性意味着智能体记忆库中数据的动态性不再反应其正在学习的状态。为了避免这个问题,深度多智能体强化学习的先前工作把经验回放的使用限制在近期的缓冲区中或者完全禁用经验回放,但是效果并不好。因此,经验回放与独立Q学习的不兼容性成为将深度多智能体强化学习扩展到复杂任务中的关键绊脚石。为了解决这个问题,可以采取基于指纹的方法,即每个智能体可以追踪或者计算出其他智能体的决策,从而使环境稳定,这也意味着可以通过评估其他智能体增加局部观测空间来避免不稳定性。但是把其他智能体的动作值函数即其它网络的参数全当做该智能体输入是不现实的,因为每个智能体的决策包含一个高维的DQN。取而代之的是,构造一个低维度指纹图来追踪其他智能体的决策。更进一步的研究揭露了每一个智能体的决策和训练迭代次数e以及探索利用概率ε高度相关。因此,本申请每个智能体的局部观测为
Figure BDA0002702480260000101
本实施方式智能体模型如图3所示。
动作空间:
系统资源分配就是对所有的智能体即V2V链路进行资源块选择和功率控制,在Mode4的分布式资源分配中,每个智能体根据局部观测选择动作
Figure BDA0002702480260000102
所有的智能体采取的动作构成联合动作At。假设一共有M个资源块,V2V发射功率可以离散化,设为4个等级,例如[23,10,3,-100]dBm,其中-100dBm可以看作零功率。这样每一个智能体有4×M个动作,即动作空间的维度是4×M。同时,意味着每一个网络的输出层为4×M。本实施方式的动作空间如图4所示。
奖励设置:
奖励主要分为两部分:系统保密容量和时延限制。传统的优化算法在一些具体问题上难以建立准确的数学模型,或者这些问题是NP-hard的,很难求得最优解,强化学习的优势之一就是可以把难以建模的指标使用奖励函数来实现。在过去的文献中,保密容量的传统优化研究主要优化指标是系统保密容量或者保密中断概率,鲜有优化时延的研究。本申请设计了多智能体强化学习的奖励,在保证V2V传输时延的同时最大化V2I系统保密容量。因此奖励函数主要包含两部分,一部分是V2V传输时延,另一部分是V2I系统保密容量
Figure BDA0002702480260000111
V2V链路主要传递低速率的保密信息,如车辆情况、交通情况、预警信息等。V2V部分的奖励可以设计为
Figure BDA0002702480260000112
其中X是一个常量,大于V2V链路最大保密速率。当V2V信息没有传递完时,奖励为
Figure BDA0002702480260000113
当信息传递完时,获得更高的奖励X,即在规定的时延内传递可以获得更高的奖励,从而实现对时延的约束。X设置为多少可以获得最好的奖励需要在仿真中尝试获得,需要大于V2V链路最大保密速率,但不应该太大,应该同时兼顾优化目标和学习效率。本申请的综合奖励设置为
Figure BDA0002702480260000114
其中λV2I和λV2V分别为V2I链路奖励因子和V2V链路奖励因子。
本实施方式针对智能体采取集中式学习、分布式实施的方式。在训练阶段,所有的V2V链路中的智能体共享同一个奖励,每个智能体根据自己的局部观测采取动作,多个智能体的动作组成联合动作At,之后,环境返回一个系统奖励到每个智能体,智能体根据奖励来调节自身的网络参数。
每一个训练阶段跨越V2V有效载荷的时延限制T。每个阶段的开始随机初始化环境,包括初始化车辆位置信息、V2I链路的资源块占用信息、信道信息、传输功率等,每隔t时间间隔,更新信道,智能体采取动作并收到奖励。
(1)训练阶段。
本实施方式使用深度强化学习网络来实现,每个V2V链路作为一个智能体构建一个DQN网络,用来模拟动作值函数Q(s,a)。起始阶段,初始化环境,随机产生车辆和信道,建立两个网络,一个是现实网络,一个是目标网络,起始参数随机设置,且两个网络参数相同。在每一阶段开始时,更新车辆位置和大尺度衰落,车辆位置每100ms更新一次。每一个智能体有一个独立的DQN网络,输入即时的局部观测
Figure BDA0002702480260000115
然后输出所有动作的Q值。在所有的智能体采取动作之后,系统环境发生变化,产生一个全局奖励Rt,每个智能体观测到新的局部观测值,智能体将经验
Figure BDA0002702480260000116
存储在记忆库中。在每次训练时,都会从记忆库中均匀采样小批量的经验,使用随机梯度下降的方法来更新网络参数,使损失函数式最小
Figure BDA0002702480260000121
其中,st表示设定批量样本中时刻t的状态,at表示设定批量样本中时刻t选择的动作,D表示从记忆库中抽样的设定批量样本,γ表示奖励折扣因子;θ-是目标网络(TargetNetwork)的参数,它们每隔C步复制现实网络的参数更新。经验回放通过对记忆库中的经验进行重复采样来提高采样效率,并在连续更新中打破相关性,从而稳定学习。
如图5所示,智能体训练阶段具体步骤如下:
步骤11:初始化环境,步骤11又可以分为:
步骤11.1:根据泊松分布随机产生K个V2V车辆对和K个V2I车辆及1个窃听车辆。
步骤11.2:根据随机产生的车辆,计算车辆的大尺度衰落,包括路径损耗和阴影衰落,阴影衰落为Log-Normal分布。
步骤11.3:计算车辆的小尺度衰落,服从瑞利衰落。
步骤11.4:计算得到合法信道、干扰信道和窃听信道。
步骤12:随机初始化第k个V2V发送车辆动作值函数Q的参数θk,初始化目标动作值函数
Figure BDA0002702480260000122
的参数θk-=θk
步骤13:更新车辆位置和大尺度衰落,重置Bk和Tk,具体可以分为:
步骤13.1:根据泊松分布随机产生合法车辆的位置和窃听车辆的位置。
步骤13.2:根据车辆位置更新所有信道的大尺度衰落,包括路径损耗和阴影衰落。
步骤14:每个V2V发送车辆计算局部观测值,包括窃听信道的信息以及迭代次数e和探索利用率ε
Figure BDA0002702480260000123
步骤15:每个V2V发送者以概率1-ε选择
Figure BDA0002702480260000124
以概率ε随机选择动作,动作具体为发送信号占用的频带和发射功率。
步骤16:所有V2V发送者的动作组成联合动作At,代表所有车辆选择的发送频带和发射功率,根据动作计算奖励
Figure BDA0002702480260000125
步骤17:每1ms更新车辆信道的小尺度衰落,小尺度衰落服从瑞瑞利分布。
步骤18:每个智能体计算新的局部观测
Figure BDA0002702480260000126
步骤19:将经验
Figure BDA0002702480260000127
存储到记忆库中。
步骤110:循环执行步骤14至步骤19直到
Figure BDA0002702480260000131
次,即为1轮(episode)。
步骤111:从记忆库中随机采样小批量样本
Figure BDA0002702480260000132
步骤112:根据损失函数反向传递误差更新实时网络参数
Figure BDA0002702480260000133
步骤113:循环执行步骤13至112。每4轮(episode)更新一次V2V发送车辆的目标网络参数θk-=θk
(2)本实施方式的步骤3为分布实施阶段
在实施阶段(即测试阶段),每个智能体评估局部信道,获得局部观测值
Figure BDA0002702480260000134
其中e和ε设置为训练阶段的最后值。所有智能体根据训练好的DQN选择自己的动作,并根据选择的资源库和功率开始传输信息。计算密集型训练过程可以在不同的信道条件和网络拓扑变化下离线训练很多次,而网络部署和在线执行很容易实现。仅当环境特征发生重大变化(例如,每周一次甚至一个月一次)时,才需要更新所有智能体训练好的DQN,具体取决于环境动态和网络性能要求。具体步骤如下:
步骤31:对每个V2V发送车辆加载训练完成的DQN参数θk
步骤32:每个智能体进行信道检测和干扰计算,得到自身的局部观测值
Figure BDA0002702480260000135
具体可以分为:
步骤32.1:V2V链路的接收车辆进行信道检测和干扰计算,并通过无延迟反馈发送给V2V链路发送车辆。
步骤32.2:V2V链路的发送车辆,根据可检测到的局部信道和干扰,计算局部观测值
Figure BDA0002702480260000136
步骤33:每个V2V发送车辆根据局部观测,选择发送频带和发射功率,具体可以分为:
步骤33.1:第k个V2V发送车辆在自身的网络中输入局部观测
Figure BDA0002702480260000137
输出各动作对应的Q值。
步骤33.2:根据
Figure BDA0002702480260000138
选择动作,选择发送频带和发射功率。
步骤34:在车辆的行驶过程中,循环执行步骤32和步骤33,具体可分为:
步骤34.1:每1ms更新车辆小尺度衰落,服从瑞利分布。
步骤34.2:每100ms更新车辆位置和大尺度衰落,车辆位置为实时位置,大尺度衰落通过信道检测获得。
步骤34.3:执行步骤32和步骤33。
仿真结果如图6、7、8和9所示。图6是时延T=100ms,V2V链路数等于4,V2I链路数等于4时,限定时间内传输完成率和V2I系统保密速率随传输载荷B变化的曲线。从6(a)中可以看出,当传输载荷较小时,传输完成率在99%以上,随着传输载荷的增加,传输完成率逐渐降低,但仍保持在97%以上。从6(b)可以看出随着传输载荷的增加,V2I系统保密速率逐渐降低,这是由于系统需要尽可能完成V2V传输时延的要求,降低了V2I系统性能。图7是传输载荷B=8192bytes,V2V链路数=4,V2I链路数=4时,限定时间内传输完成率和V2I系统保密速率随传输时延限制T变化的曲线。从图中可以看出,当时延要求不高时,传输完成率可达99%,随着时延限制逐渐从100ms降低到60ms,传输完成率逐渐降低,60ms以下时传输完成率大幅降低,说明在B=8192bytes时,60ms是个临界点。V2I速率也随着时延从100ms降低到20ms时而逐渐降低,在20ms时随机资源分配的V2I系统保密速率高于多智能体,这是因为多智能体算法尽可能完成V2V传输,而舍弃了V2I保密性能,这和我们奖励中V2V奖励和V2I奖励的因子有关。图8是在B=4096bytes,T=40ms,V2V链路数=4,V2I链路数=4的条件下,每条V2V链路的剩余传输载荷随时间的变化。从8(a)可以看出,系统优先传输V2V链路1,V2V链路1传输完成后,V2V链路3和V2V链路4逐步传输完成,最后V2V链路4传输完成。而8(b)的随机资源分配中,V2V链路的传递没有任何规律,当V2V链路1和3传输完成后,V2V链路2和V2V链路4依旧缓慢传输,最终V2V链路4没有完成传输。图9是图8的条件下,每条V2V链路的V2V保密速率随时间的变化。从9(a)可以看出,在传输刚开始的时候,V2V链路1的保密速率维持一个较高的水平,V2V链路1传输完成后,V2V链路3和V2V链路4的保密速率较高,最后才以较高的保密速率传输V2V链路4。而9(b)的随机资源分配完全随机,没有任何规律。图10是T=40ms时,传输载荷B=2048bytes和B=4096bytes条件下,V2V链路完成传输的累计分布函数,测试轮数为300。从图10中可以看出,传输载荷较小B=2048bytes时,传输完成所需时间要明显小于载荷较大B=4096bytes时。当B=2048bytes时,V2V链路在40ms内完成传输的概率可达98%以上,当B=4096bytes,V2V链路在40ms内完成传输的概率也可达90%。可见智能体之间的差异很小,多智能体算法具有公平性,大多能在一定时间限制内完成传输任务。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims (6)

1.一种ICV网络中物理层安全资源分配方法,其特征在于,所述方法包括如下步骤:
S1、每个V2V链路中的发送车辆为一个智能体,所述智能体采用深度强化学习网络实现,包括训练后的目标网络和实时网络,目标网络用于对实时网络的参数进行更新;
S2、在时刻t,每个智能体得到环境的局部观测
Figure FDA0002702480250000011
环境的全局状态为St,第k个智能体的局部观测
Figure FDA0002702480250000012
是全局状态St的子集;
其中,
Figure FDA0002702480250000013
包括可观测的合法信道、干扰信道和窃听信道的信息、第k个智能体需要发送的载荷、时延限制、目标网络的训练迭代次数e和探索利用概率ε;
S3、每个智能体根据
Figure FDA0002702480250000014
利用实时网络输出动作
Figure FDA0002702480250000015
所有的智能体的动作构成联合动作At
其中,
Figure FDA0002702480250000016
包括发送信号占用的频带和发射功率;
S4、所有的智能体的目标网络从环境收到同一个奖励Rt,环境进入到下一时刻的全局状态St+1,转入S2;
其中,
Figure FDA0002702480250000017
λV2I和λV2V分别为V2I链路奖励因子和V2V链路奖励因子;
Figure FDA0002702480250000018
表示在t时刻第m个V2I链路的保密容量,M表示V2I链路的数量;
V2V链路传输时延对应的奖励为Lk[t],
Figure FDA0002702480250000019
X是一个常量,X大于V2V链路最大保密速率,控制变量ρk[m]的取值为1或0,ρk[m]=1表示第k个V2V链路使用了第m个子频带,ρk[m]=0表示第k个V2V链路没有使用第m个子频带,
Figure FDA00027024802500000110
表示在t时刻第k个V2V链路的保密容量,K表示V2V链路的数量。
2.根据权利要求1所述的ICV网络中物理层安全资源分配方法,其特征在于,所述局部观测:
Figure FDA00027024802500000111
其中,Tk表示剩余传输时间,Ik[m]表示全频段的干扰,gk[m]表示第k个V2V链路本身的信道增益,gk',k[m]表示来自其他V2V链路的干扰信道,k'≠k,gk,B[m]表示V2V链路发送车辆到基站的信道增益,
Figure FDA00027024802500000112
表示来自其他V2I链路发送车辆的干扰信道,gk,e[m]表示窃听者窃听第k个V2V链路的窃听信道增益,gm,e[m]表示窃听者窃听第m个V2I链路的窃听信道增益。
3.根据权利要求2所述的ICV网络中物理层安全资源分配方法,其特征在于,所述每个智能体有N×M个动作,N表示V2V链路发射功率离散化后的等级数量。
4.根据权利要求3所述的ICV网络中物理层安全资源分配方法,其特征在于,所述步骤一中,对智能体训练的方法包括:
S11:初始化环境;
S12:随机初始化智能体的实时网络的参数θk,初始化目标网络的参数θk-,θk-=θk
S13:更新车辆位置和大尺度衰落,重置Bk和Tk,Tk表示剩余传输时间;
S14:每个智能体计算局部观测
Figure FDA0002702480250000021
S15:每个智能体以概率为1-ε选择
Figure FDA0002702480250000022
或以概率ε随机选择动作;
Figure FDA0002702480250000023
为目标网络输出动作的Q值;a表示任意一个动作;
S16:所有智能体的动作组成联合动作At,根据联合动作At计算奖励Rt
S17:更新车辆信道的小尺度衰落,小尺度衰落服从瑞利分布;
S18:每个智能体计算下一时刻的局部观测
Figure FDA0002702480250000024
S19:将经验
Figure FDA0002702480250000025
Rt,
Figure FDA0002702480250000026
存储到记忆库中;
S110:循环执行S14至S19,直到
Figure FDA0002702480250000027
次,转入步骤11,T表示训练阶段跨越V2V链路有效载荷的时延限制,Δt表示小尺度衰落的信道相关时间;
S111:从记忆库中随机采样设定批量样本
Figure FDA0002702480250000028
Rt,
Figure FDA0002702480250000029
S112:根据损失函数反向传递误差更新实时网络的参数θk
Figure FDA00027024802500000210
st表示设定批量样本中时刻t的状态,at表示设定批量样本中时刻t选择的动作,D表示从记忆库中抽样的设定批量样本,γ表示奖励折扣因子;
步骤13:循环执行S13至S112,每N轮更新一次智能体的目标网络参数θk-=θk
5.根据权利要求4所述的ICV网络中物理层安全资源分配方法,其特征在于,所述S3包括:
S31:每个智能体的实时网络加载训练完成的参数θk
S32:每个智能体进行信道检测和干扰计算,得到自身的局部观测值
Figure FDA0002702480250000031
S33:每个智能体根据局部观测,选择发送频带和发射功率;
S34:在车辆的行驶过程中,循环执行S32和S33。
6.根据权利要求3所述的ICV网络中物理层安全资源分配方法,其特征在于,所述S11包括:
S111:根据泊松分布随机产生K个V2V链路的车辆对和K个V2I链路的车辆及1个窃听车辆;
S112:根据随机产生的车辆,计算车辆的大尺度衰落,包括路径损耗和阴影衰落,阴影衰落为Log-Normal分布;
S113:计算车辆的小尺度衰落,服从瑞利衰落;
S114:计算得到可观测的合法信道、干扰信道和窃听信道。
CN202011027229.6A 2020-09-25 2020-09-25 一种icv网络中物理层安全资源分配方法 Active CN112153744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011027229.6A CN112153744B (zh) 2020-09-25 2020-09-25 一种icv网络中物理层安全资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011027229.6A CN112153744B (zh) 2020-09-25 2020-09-25 一种icv网络中物理层安全资源分配方法

Publications (2)

Publication Number Publication Date
CN112153744A true CN112153744A (zh) 2020-12-29
CN112153744B CN112153744B (zh) 2022-08-02

Family

ID=73897454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011027229.6A Active CN112153744B (zh) 2020-09-25 2020-09-25 一种icv网络中物理层安全资源分配方法

Country Status (1)

Country Link
CN (1) CN112153744B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367638A (zh) * 2021-01-12 2021-02-12 华东交通大学 城市轨道交通车车通信智能频谱选择方法
CN112954651A (zh) * 2021-03-12 2021-06-11 南京航空航天大学 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
CN115551065A (zh) * 2022-11-29 2022-12-30 南京鼎尔特科技有限公司 一种基于多智能体深度强化学习的车联网资源分配方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180213499A1 (en) * 2015-07-09 2018-07-26 Lg Electronics Inc. Synchronization method of user equipment in wireless communication system and user equipment using method
CN109714421A (zh) * 2018-12-28 2019-05-03 国汽(北京)智能网联汽车研究院有限公司 基于车路协同的智能网联汽车运行系统
CN109996215A (zh) * 2019-03-31 2019-07-09 南京信息工程大学 一种车载自组网络环境下基于秘密共享的多路径通信方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
CN111328133A (zh) * 2018-12-17 2020-06-23 上海大学 基于深度神经网络的v2x资源分配方法
CN111372219A (zh) * 2020-02-19 2020-07-03 重庆邮电大学 一种车联网链路选择和资源分配方法
WO2020176022A1 (en) * 2019-02-27 2020-09-03 Telefonaktiebolaget Lm Ericsson (Publ) Methods providing control signaling and related wireless devices and network nodes

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180213499A1 (en) * 2015-07-09 2018-07-26 Lg Electronics Inc. Synchronization method of user equipment in wireless communication system and user equipment using method
CN111328133A (zh) * 2018-12-17 2020-06-23 上海大学 基于深度神经网络的v2x资源分配方法
CN109714421A (zh) * 2018-12-28 2019-05-03 国汽(北京)智能网联汽车研究院有限公司 基于车路协同的智能网联汽车运行系统
WO2020176022A1 (en) * 2019-02-27 2020-09-03 Telefonaktiebolaget Lm Ericsson (Publ) Methods providing control signaling and related wireless devices and network nodes
CN109996215A (zh) * 2019-03-31 2019-07-09 南京信息工程大学 一种车载自组网络环境下基于秘密共享的多路径通信方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
CN111372219A (zh) * 2020-02-19 2020-07-03 重庆邮电大学 一种车联网链路选择和资源分配方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BASEM M. ELHALAWANY等: ""Physical-Layer Security and Privacy for Vehicle-to-Everything"", 《 IEEE COMMUNICATIONS MAGAZINE ( VOLUME: 57, ISSUE: 10, OCTOBER 2019)》 *
MICHAEL RICE等: ""Physical-Layer Security for Vehicle-to-Everything Networks: Increasing Security While Maintaining Reliable Communications"", 《IEEE VEHICULAR TECHNOLOGY MAGAZINE ( VOLUME: 15, ISSUE: 3, SEPT. 2020)》 *
XUEWEN LUO等: ""Joint Resource Allocation and Secrecy Capacity optimization in V2V Communications : (Invited Paper)"", 《2019 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS IN CHINA (ICCC)》 *
XUEWEN LUO等: ""Physical Layer Security in Intelligently Connected Vehicle Networks"", 《IEEE NETWORK ( VOLUME: 34, ISSUE: 5, SEPTEMBER/OCTOBER 2020)》 *
杜志彬等: ""新一代信息通信技术影响下的智能网联汽车数据资源发展分析"", 《汽车技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367638A (zh) * 2021-01-12 2021-02-12 华东交通大学 城市轨道交通车车通信智能频谱选择方法
CN112954651A (zh) * 2021-03-12 2021-06-11 南京航空航天大学 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
CN112954651B (zh) * 2021-03-12 2022-04-08 南京航空航天大学 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
CN115551065A (zh) * 2022-11-29 2022-12-30 南京鼎尔特科技有限公司 一种基于多智能体深度强化学习的车联网资源分配方法

Also Published As

Publication number Publication date
CN112153744B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
Liang et al. Spectrum sharing in vehicular networks based on multi-agent reinforcement learning
Liu et al. Deep reinforcement learning based dynamic channel allocation algorithm in multibeam satellite systems
Kwon et al. Multiagent DDPG-based deep learning for smart ocean federated learning IoT networks
CN112153744B (zh) 一种icv网络中物理层安全资源分配方法
CN101980470B (zh) 一种基于混沌粒子群优化的ofdm系统资源分配方法
CN113316154B (zh) 一种授权和免授权d2d通信资源联合智能分配方法
Vu et al. Multi-agent reinforcement learning for channel assignment and power allocation in platoon-based c-v2x systems
CN107172704A (zh) 基于协作频谱感知和干扰约束的认知异构网络功率分配方法
CN116744311B (zh) 基于per-ddqn的用户组频谱接入方法
CN114885426A (zh) 一种基于联邦学习和深度q网络的5g车联网资源分配方法
CN114867030A (zh) 双时间尺度智能无线接入网切片方法
CN111083708B (zh) 一种基于干扰感知多图的v2v通信异质频谱分配方法
CN110139282B (zh) 一种基于神经网络的能量采集d2d通信资源分配方法
CN116582860A (zh) 一种基于信息年龄约束的链路资源分配方法
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN110418360A (zh) 无线携能网络多用户子载波比特联合分配方法
Liang et al. Multi-agent reinforcement learning for spectrum sharing in vehicular networks
Fan et al. Robust power and bandwidth allocation in cognitive radio system with uncertain distributional interference channels
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN115915454A (zh) Swipt辅助的下行资源分配方法及装置
CN115226231A (zh) 一种基于信息新鲜度的高铁通信无线资源分配方法
Song et al. Adaptive Generalized Proportional Fair Scheduling with Deep Reinforcement Learning
CN111132312B (zh) 一种资源分配方法和装置
CN108768602B (zh) 独立免许可频段蜂窝移动通信系统选择授权用户反馈csi的方法
Ji et al. Optimization of Resource Allocation for V2X Security Communication based on Multi-Agent Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant