CN114885426B - 一种基于联邦学习和深度q网络的5g车联网资源分配方法 - Google Patents
一种基于联邦学习和深度q网络的5g车联网资源分配方法 Download PDFInfo
- Publication number
- CN114885426B CN114885426B CN202210483178.0A CN202210483178A CN114885426B CN 114885426 B CN114885426 B CN 114885426B CN 202210483178 A CN202210483178 A CN 202210483178A CN 114885426 B CN114885426 B CN 114885426B
- Authority
- CN
- China
- Prior art keywords
- link
- network
- resource allocation
- kth
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013468 resource allocation Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims abstract description 40
- 230000002787 reinforcement Effects 0.000 claims abstract description 33
- 230000005540 biological transmission Effects 0.000 claims abstract description 25
- 238000005516 engineering process Methods 0.000 claims abstract description 11
- 230000009471 action Effects 0.000 claims description 25
- 238000004220 aggregation Methods 0.000 claims description 23
- 230000002776 aggregation Effects 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 3
- 230000006855 networking Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract description 14
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/44—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/46—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/52—Allocation or scheduling criteria for wireless resources based on load
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/541—Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提出的一种基于联邦学习和深度Q网络的5G车联网资源分配方法,采用混合频谱接入技术进行传输,利用深度强化学习获得最优的V2V链路信道分配和发射功率联合优化策略,引入联邦学习保证用户隐私和数据安全。该算法能够在满足V2V链路延迟和信干噪比门限约束下,最大化网络联合频谱和能量效率。本发明使用FDQN算法可以有效解决V2V链路信道分配和功率选择的联合优化问题,可以在一系列连续状态空间的优化中表现稳定。
Description
技术领域
本发明涉及一种车联网技术,尤其涉及一种车联网的资源分配方法,更具体地说,涉及一种基于联邦学习和深度Q网络(Federated learning and Deep Q-Network,FDQN)的5G车联网资源分配方法。
背景技术
车联网(Vehicle-to-everything,V2X)作为智能交通系统(IntelligentTransportation System,ITS)中重要的一环,能够在许多方面实现高效的交通管理,例如道路安全、运输效率和互联网接入等。V2X基础架构支持的服务包括车对车(Vehicle-to-vehicle,V2V)、车对基础设施(Vehicle-to-Infrastructure,V2I)、车对行人(Vehicle-to-Pedestrian,V2P)、车对路侧单元(Vehicle-to-Road Side Unit,V2R)等。
为了满足通信量的与日俱增和通信速率需求的大幅提升,在3GPP长期演进V2X(Long-Term Evolution V2X,LTE V2X)的基础上提出了新空口V2X(New Radio V2X,NRV2X)。其中包括侧链(Sidelink,SL)通信,指终端节点或用户设备(User Equipment,UE)之间的直接通信,而无需数据通过网络。
侧链资源分配具有2种模式,分别是基站安排侧链资源的集中受控模式和UE自行选择侧链资源的分布自治模式。大部分的资源分配方案是以集中方式进行的,每个车辆都要向中央控制器报告信道状态信息(channel state information,CSI)等本地信息。集中式的传输开销很大,并且随着网络规模的扩大而急剧增长。一些研究提出了分布式的资源分配机制,V2V链路首先根据位置和负载相似性分组到集群中,然后将资源块(ResourceBlock,RB)分配给每个集群,并在每个集群中,通过迭代交换两个V2V链路的频谱分配来改进分配,分布式方法更加自主和健壮。
通信量的与日俱增和通信速率需求的大幅提升给车联网资源分配带来了挑战。资源管理常常被表述为优化问题,其中对链路时延、功率、服务质量(Quality of Service,QoS)等的需求在优化约束中得到解决。传统优化方案存在如下问题:一是需要完整的信道状态信息,这在无线信道快速变化的动态环境中很困难;二是5G切片技术对车联网的高可靠性和低延时提出了需求,增加了资源分配的难度,在传统的资源分配方法中建模变得困难。为了解决这些问题,深度强化学习被广泛用于处理车辆通信中的资源分配,并且可以通过中心化训练去中心化执行(Centralized Training Decentralized Execution,CTDE)框架实现半分布式算法。然而,由于其集中式的训练,算法仍存在开销大的弊端。为了平衡集中式训练开销大和分布式收敛慢的问题,同时保护用户数据的隐私,联邦学习被引入车联网资源分配。所有用户在本地计算对模型的更新,一定聚合间隔后,用户上传更新梯度,基站收集用户更新完成汇总,并下发到用户。在联邦学习中,用户在基站的协调下共同训练模型,同时保持训练的去中心化和分散性。因此,本发明提出一种基于FDQN的5G车联网资源分配算法,该方法针对基于5G网络切片技术的侧链通信,并以系统联合能量和频谱效率最大化作为资源分配的优化目标,同时在复杂度和性能之间取得了很好的平衡。
发明内容
发明目的:针对现有技术存在的上述问题,提出一种基于FDQN的5G车联网分布式侧链资源分配方法,V2V通信从uRLLC切片请求服务。该方法拟采用混合频谱接入技术进行传输,能以较低的V2V链路延迟实现系统联合能量和频谱效率最大化。
技术方案:在考虑V2V链路延迟的情况下,以合理高效的资源分配达到系统联合能量和频谱效率最大化的目的。为提高网络传输速率同时提升频谱利用率,采用混合频谱接入技术进行传输,V2I链路和V2V链路共享信道资源。采用分布式的资源分配方法,不需要基站集中调度信道状态信息,将每条V2V链路视为智能体,并且基于本地观察状态信息和每个时隙从基站广播的信道信息来选择信道和发射功率。通过建立深度强化学习模型,利用FDQN算法优化深度强化学习模型。按照聚合间隔,用户上传更新梯度,基站执行聚合算法,并下发到用户。根据优化后的FDQN模型,得到最优的V2V用户发射功率和信道分配策略。完成上述发明通过以下技术方案实现:一种基于FDQN的5G车联网资源分配方法,包括步骤如下:
(1),车联网中的通信业务分为两种类型即,车辆与路边设施之间(V2I)的高速率通信请求以及车与车之间(V2V)与行车安全相关的数据传输,要求低延时高可靠性的通信;
(2),采用混合频谱接入技术进行传输,V2I链路和V2V链路共享信道资源;
(3),构建包括M对V2I链路和K对V2V链路和授权带宽为W0的车联网资源分配系统模型;
(4),V2V链路获取信道信息Gk[m],V2V链路受到的干扰Ik[m],负载Bk,剩余时延Tk;
(5),采用分布式的资源分配方法,在考虑V2V链路延迟和信干噪比门限的情况下,以合理高效的资源分配达到系统联合频谱和能量效率最大化为目标构建深度强化学习模型;
(6),为提高分布式深度强化学习模型性能的同时保护用户隐私和数据安全,利用联邦学习优化深度强化学习模型;
(7),考虑连续状态空间和离散动作空间的优化问题,利用FDQN算法进行资源分配的深度强化学习模型训练;
(8),在执行阶段,V2V链路根据本地观察获得当前状态St(k),利用训练好的模型得到最优V2V用户发射功率和信道分配策略;
进一步的,所述步骤(3)包括如下具体步骤:
(3a),建立V2V用户资源分配系统模型,系统包括M对V2I链路和K对V2V链路,链路分别用集合M={1,2...,M}和K={1,2...,K}表示,V2V链路的用户设备从uRLLC切片请求服务。总的授权带宽W0被等分成M个带宽为W的子信道,子信道用集合表示;
(3b),第m条V2I链路在第m个子带上的SINR可以表示为:
第m条V2I链路的信道容量可以表示为:
其中,和/>分别表示第m个V2I UE和第k个V2VUE的发射功率,σ2表示噪声功率,gm[m]表示第m条V2I的信道的功率增益,/>表示第k条V2V链路到第m条V2I链路的干扰功率增益,ρk[m]表示频谱分配指示符,ρk[m]=1表示第k个V2V链路复用第m个V2I链路的频谱,否则ρk[m]=0;
(3c),同样地,第k条V2V链路在第m个子带上的SINR可以表示为:
第k条V2V链路在第m个子带上的信道容量可以表示为:
其中
Ik[m]是共享相同子带的所有V2V链路和V2I链路的总干扰功率,gk[m]是第k条V2V链路车联网用户的信道增益,是第k′条V2V链路对第k条V2V链路的干扰增益;
(3d),仅考虑传输时延作为V2V链路的时延,因此链路对时延的约束可以写为
其中Bk为VUE需要传输的剩余负载,Tk为链路相对于最大可容忍时延的剩余时延;
V2V通信的可靠性约束条件可以用下式表示:
其中,γth是第k条V2V链路上的VUE接收机的信干噪比门限。
(3e),V2I链路的联合频谱和能量效率可以表示为:
V2V链路的联合频谱和能量效率可以表示为:
其中,Pc是电路功率。
网络联合频谱和能量效率定义为V2I链路和V2V链路联合频谱和能量效率的加权和:
ζnet=λ1ζV2I+λ2ζV2V 表达式10
(3f),综上,可以建立如下的目标函数和约束条件:
其中,约束条件C1和C2是对V2V链路的可靠性和时延约束,约束条件C3说明VUE在所有子带上发射的总功率不能超过最大额定发射功率,约束条件C4和C5意味着每条V2V链路只能分配到一个子带,但是同一个子带可以有多条V2V链路的接入;
进一步的,所述步骤(5)包括如下具体步骤:
(5a),具体地定义状态空间S为与资源分配有关的信息,包括子信道m上链路瞬时信道信息Gk[m],子信道m上V2V链路接收到的干扰Ik[m],V2V用户传输的剩余负载Bk,剩余时延Tk,训练回合数e和ε-贪心算法中的随机探索变量ε,即
st(k)={{Gk[m]}m∈M,{Ik[m]}m∈M,Bk,Tk,e,ε} 表达式12
将V2V链路视为智能体,每次V2V链路基于当前状态st(k)∈S选择信道和发射功率;
(5b),定义动作空间A为发射功率和选择的信道,表示为:
其中为第k个V2V链路用户的发射功率,Ck为第m个信道被第k个V2V链路用户使用情况,共有p个离散的功率值和M个子带供选择,因此动作空间为p×M;
(5c),定义奖励函数R,V2V资源分配的目标是V2V链路选择频谱子带和发射功率,在满足延迟约束,V2V链路信干噪比门限要求下最大化系统联合频谱和能量效率。因此奖励函数可以表示为:
其中,
其中为第k条V2V链路的信道容量,A1为一个固定的较大常数值,A2也为一个常数,λ3和λ4为权重。奖励函数的设置使得V2V链路的负载被传输完时,获得的奖励最大;而在链路传输过程中,较高的网络效率会获得较大的奖励,而不满足要求的信干噪比和传输速率会获得惩罚。
为了获得长期的良好回报,应同时考虑眼前的回报和未来的回报。因此,强化学习的主要目标是找到一种策略来最大化预期的累积折扣回报,
其中β∈[0,1]是折扣因子;
(5d),依据建立好的S,A和R,在Q学习的基础上建立深度强化学习模型,采用双深度Q网络算法,在计算损失函数时,预测网络选择t+1时刻的动作at+1(k),目标网络根据t+1时刻的状态st+1(k)和动作at+1(k)得出t+1时刻的Q值,以缓解Q值高估问题;在更新网络时,每个智能体都需要最小化如下的损失函数实现梯度下降:
其中,θk和θk′分别是第k个智能体的预测网络和目标网络参数。Q(st(k),at(k),θk)表示神经网络θk下对于状态st(k)采取动作at(k)获得的价值函数,D为样本空间;
进一步,所述步骤(6)包括如下具体步骤:
(6a)在每个聚合间隔,V2V链路用户将本地预测网络参数θk上传给基站服务器;
(6b)基站服务器执行聚合算法,获得全局网络参数;聚合算法将所有参与联邦学习的客户端模型按照贡献度进行加权平均以利用全局经验训练并最大化聚合效果,具体公式如下:
其中,θglobal和θk分别是全局网络和第k个本地预测网络的参数,Nk和N分别是第k个V2V链路和所有V2V链路的训练批量大小,以其比值来衡量第k个客户端模型参数的贡献度;
(6c)基站服务器将聚合后的模型θglobal分发给V2V链路;
(6d)所有V2V链路更新本地网络θk和θk′,根据本地观察进行局部的深度强化学习模型训练;如果训练回合数小于预设值,进入步骤(6a),反之训练结束;
进一步的,所述步骤(7)包括如下具体步骤:
(7a),启动环境模拟器,初始化每个智能体的预测网络参数θk和目标网络参数θk′;
(7b),初始化训练回合数P;
(7c),更新车辆位置、大尺度衰落、负载和剩余时延等,并初始化P回合中的时间步t;
(7d),异步地对每个智能体运行预测网络,根据输入状态st(k),输出动作at(k),并获取即时的奖励rt(k),同时转到下一状态st+1(k),从而获得训练数据(st(k),at(k),rt(k),st+1(k));
(7e),将训练数据(st(k),at(k),rt(k),st+1(k))存入各自的经验回放池中;
(7f),每个智能体从经验回放池中随机采样Nk个训练数据(st(k),at(k),rt(k),st+1(k))构成数据集D,输入预测网络θk;
(7g),每个智能体通过预测网络和目标网络计算出损失值Loss(k),采用小批量梯度下降策略,通过神经网络的反向传播来更新智能体预测网络θk的参数;
(7h),训练次数达到目标网络更新间隔,根据预测网络参数θk更新目标网络参数θk′;
(7i),判断是否满足t<K,K为p回合中的总时间步,若是,t=t+1,进入步骤(7c),否则,进入步骤(7j);
(7j),训练回合数p达到联邦学习聚合间隔,V2V链路用户将本地预测网络参数θk上传给基站服务器;gNB运行聚合算法,更新所有智能体的网络参数θk和θk′;
(7k),判断是否满足p<I,I为训练回合数设定阈值,若是,p=p+1,进入步骤(7c),否则,优化结束,得到优化后的深度强化学习模型;
进一步的,所述步骤(8)包括如下具体步骤:
(8a),利用FDQN算法训练好的深度强化学习模型,输入某时刻的状态信息st(k);
(8b),输出最优动作策略得到最优的V2V用户发射功率/>和分配信道Ck。有益效果:本发明提出的一种基于FDQN算法的5G车联网资源分配方法,采用混合频谱接入技术进行传输,利用深度强化学习获得最优的V2V链路信道分配和发射功率联合优化策略,V2V用户通过选择合适的发射功率和分配信道,来降低V2V链路之间的相互干扰和对V2I链路的干扰,在满足链路延迟的约束下,最大化系统联合能量和频谱效率。本发明使用FDQN算法可以有效解决V2V用户信道分配和功率选择的联合优化问题,可以在一系列连续状态空间的优化中表现稳定。
综上所述,在保证资源分配合理,V2V和V2V链路间低干扰以及计算复杂度低的情况下,本发明提出的一种基于FDQN算法的5G车联网资源分配方法在最大化系统联合能量和频谱效率方面是优越的。
附图说明
图1为本发明实施例提供的基于FDQN的5G车联网资源分配算法结构示意图;
图2为本发明实施例提供的5G车联网资源分配的深度强化学习模型示意图;
图3为本发明实施例提供的基于服务器-客户端结构的联邦学习框架示意图;
图4为本发明实施例提供的FDQN算法下网络联合频谱和能量效率与负载关系的仿真结果图。
具体实施方式
本发明的核心思想在于:V2I和V2V通信以混合频谱方式接入,采用分布式的资源分配方法,将每条V2V链路视为智能体,通过建立深度强化学习模型,利用FDQN算法优化深度强化学习模型。根据优化后的FDQN模型,得到最优的V2V用户发射功率和信道分配策略。
下面对本发明做进一步详细描述。
步骤(1),车联网中的通信业务分为两种类型即,车辆与路边设施之间(V2I)的高速率通信请求以及车与车之间(V2V)与行车安全相关的数据传输,要求低延时高可靠性的通信;
步骤(2),采用混合频谱接入技术进行传输,V2I链路和V2V链路共享信道资源;
步骤(3),构建包括M对V2I链路和K对V2V链路和授权带宽为W0的车联网资源分配系统模型,包括如下步骤:
(3a),建立V2V用户资源分配系统模型,系统包括M对V2I链路和K对V2V链路,链路分别用集合M={1,2...,M}和K={1,2...,K}表示,V2V链路的用户设备从uRLLC切片请求服务。总的授权带宽W0被等分成M个带宽为W的子信道,子信道用集合表示;
(3b),第m条V2I链路在第m个子带上的SINR可以表示为:
第m条V2I链路的信道容量可以表示为:
其中,和/>分别表示第m个V2I UE和第k个V2VUE的发射功率,σ2表示噪声功率,gm[m]表示第m条V2I的信道的功率增益,/>表示第k条V2V链路到第m条V2I链路的干扰功率增益,ρk[m]表示频谱分配指示符,ρk[m]=1表示第k个V2V链路复用第m个V2I链路的频谱,否则ρk[m]=0。
(3c),同样地,第k条V2V链路在第m个子带上的SINR可以表示为:
第k条V2V链路在第m个子带上的信道容量可以表示为:
其中
Ik[m]是共享相同子带的所有V2V链路和V2I链路的总干扰功率,gk[m]是第k条V2V链路车联网用户的信道增益,是第k′条V2V链路对第k条V2V链路的干扰增益;
(3d),仅考虑传输时延作为V2V链路的时延,因此链路对时延的约束可以写为
其中Bk为VUE需要传输的剩余负载,Tk为链路相对于最大可容忍时延的剩余时延。
V2V通信的可靠性约束条件可以用下式表示:
其中,γth是第k条V2V链路上的VUE接收机的信干噪比门限。
(3e),V2I链路的联合频谱和能量效率可以表示为:
V2V链路的联合频谱和能量效率可以表示为:
其中,Pc是电路功率。
网络联合频谱和能量效率定义为V2I链路和V2V链路联合频谱和能量效率的加权和:
ζnet=λ1ζV2I+λ2ζV2V 表达式10
(3f),综上,可以建立如下的目标函数和约束条件:
其中,约束条件C1和C2是对V2V链路的可靠性和时延约束,约束条件C3说明VUE在所有子带上发射的总功率不能超过最大额定发射功率,约束条件C4和C5意味着每条V2V链路只能分配到一个子带,但是同一个子带可以有多条V2V链路的接入。
步骤(4),V2V链路获取信道信息Gk[m],V2V链路受到的干扰Ik[m],负载Bk,剩余时延Tk;
步骤(5),采用分布式的资源分配方法,在考虑V2V链路延迟和信干噪比门限的情况下,以合理高效的资源分配达到系统联合频谱和能量效率最大化为目标构建深度强化学习模型;
深度Q网络的深度强化学习模型采用预测网络和目标网络两个网络,预测网络用于预测当前状态当前动作的Q值,目标网络用于预测下一时刻状态所有动作的Q值;利用经验回放技术进行训练,采用ε-贪心算法平衡探索和利用,并在两个网络之间定义一个损失函数,通过梯度下降的方法优化预测网络权重θk;在训练一定次数后,目标网络权重θk′会由预测网络权重θk移植更新;
为了解决Q值被高估的问题,引入双深度Q网络算法,在计算下一时刻状态的最大Q值时,利用预测网络选择使Q值最大的动作,而用目标网络计算该动作带来的Q值,因为当网络的某一状态某一动作的Q值被高估时,只要用另一个网络的Q值进行预测就能有效解决该问题;
包括如下步骤:
(5a),具体地定义状态空间S为与资源分配有关的信息,包括子信道m上链路瞬时信道信息Gk[m],子信道m上V2V链路接收到的干扰Ik[m],V2V用户传输的剩余负载Bk,剩余时延Tk,训练循环数e和ε-贪心算法中的随机探索变量ε,即
st(k)={{Gk[m]}m∈M,{Ik[m]}m∈M,Bk,Tk,e,ε} 表达式12
将V2V链路视为智能体,每次V2V链路基于当前状态St(k)∈S选择信道和发射功率;
(5b),定义动作空间A为发射功率和选择的信道,表示为:
其中为第k个V2V链路用户的发射功率,Ck为第m个信道被第k个V2V链路用户使用情况,共有p个离散的功率值和M个子带供选择,因此动作空间为p×M;
(5c),定义奖励函数R,V2V资源分配的目标是V2V链路选择频谱子带和发射功率,在满足延迟约束,V2V链路信干噪比门限要求下最大化系统联合频谱和能量效率。因此奖励函数可以表示为:
其中,
其中为第k条V2V链路的信道容量,A1为一个固定的较大常数值,A2也为一个常数,λ3和λ4为权重。奖励函数的设置使得V2V链路的负载被传输完时,获得的奖励最大;而在链路传输过程中,较高的网络效率会获得较大的奖励,而不满足要求的信干噪比和传输速率会获得惩罚。
为了获得长期的良好回报,应同时考虑眼前的回报和未来的回报。因此,强化学习的主要目标是找到一种策略来最大化预期的累积折扣回报,
其中β∈[0,1]是折扣因子;
(5d),依据建立好的S,A和R,在Q学习的基础上建立深度强化学习模型,采用双深度Q网络算法,在计算损失函数时,预测网络选择t+1时刻的动作at+1(k),目标网络根据t+1时刻的状态st+1(k)和动作at+1(k)得出t+1时刻的Q值,以缓解Q值高估问题;在更新网络时,每个智能体都需要最小化如下的损失函数实现梯度下降:
其中,θk和θk′分别是第k个智能体的预测网络和目标网络参数。Q(st(k),at(k),θk)表示神经网络θk下对于状态st(k)采取动作at(k)获得的价值函数,D为样本空间;
(6)为提高分布式深度强化学习模型性能的同时保护用户隐私和数据安全,利用联邦学习优化深度强化学习模型;
联邦学习采用服务器-客户端架构,传输的不再是原始数据而是模型参数,能够很好地解决机器学习对数据多样性的需求和用户对隐私数据的保护之间的矛盾,在服务器的调度下可以利用分布式的节点和数据实现全局模型的共同训练;
包括如下步骤:
(6a)在每个聚合间隔,V2V链路用户将本地预测网络参数θk上传给基站服务器;
(6b)基站服务器执行聚合算法,获得全局网络参数;聚合算法将所有参与联邦学习的客户端模型按照贡献度进行加权平均以利用全局经验训练并最大化聚合效果,具体公式如下:
其中,θglobal和θk分别是全局网络和第k个本地预测网络的参数,Nk和N分别是第k个V2V链路和所有V2V链路的训练批量大小,以其比值来衡量第k个客户端模型参数的贡献度;
(6c)基站服务器将聚合后的模型θglobal分发给V2V链路;
(6d)所有V2V链路更新本地网络θk和θk′,根据本地观察进行局部的深度强化学习模型训练;如果训练回合数小于预设值,进入步骤(6a),反之训练结束;
(7),考虑连续状态空间和离散动作空间的优化问题,利用FDQN算法进行资源分配的深度强化学习模型训练,包括如下步骤:
(7a),启动环境模拟器,初始化每个智能体的预测网络参数θk和目标网络参数θk′;
(7b),初始化训练回合数P;
(7c),更新车辆位置、大尺度衰落、负载和剩余时延等,并初始化P回合中的时间步t;
(7d),异步地对每个智能体运行预测网络,根据输入状态st(k),输出动作at(k),并获取即时的奖励rt(k),同时转到下一状态st+1(k),从而获得训练数据(st(k),at(k),rt(k),st+1(k));
(7e),将训练数据(st(k),at(k),rt(k),st+1(k))存入各自的经验回放池中;
(7f),每个智能体从经验回放池中随机采样Nk个训练数据(st(k),at(k),rt(k),st+1(k))构成数据集D,输入预测网络θk;
(7g),每个智能体通过预测网络和目标网络计算出损失值Loss(k),采用小批量梯度下降策略,通过神经网络的反向传播来更新智能体预测网络θk的参数;
(7h),训练次数达到目标网络更新间隔,根据预测网络参数θk更新目标网络参数θk′;
(7i),判断是否满足t<K,K为p回合中的总时间步,若是,t=t+1,进入步骤(7c),否则,进入步骤(7j);
(7j),训练回合数p达到联邦学习聚合间隔,V2V链路用户将本地预测网络参数θk上传给基站服务器;gNB运行聚合算法,更新所有智能体的网络参数θk和θk′;
(7k),判断是否满足p<I,I为训练回合数设定阈值,若是,p=p+1,进入步骤(7c),否则,优化结束,得到优化后的深度强化学习模型;
步骤(8),根据优化后的FDQN模型,得到最优V2V用户发射功率和信道分配策略,包括如下步骤:
(8a),利用FDQN算法训练好的深度强化学习模型,输入某时刻的状态信息st(k);
(8b),输出最优动作策略得到最优的V2V用户发射功率/>和分配信道Ck。
在图1中,描述了基于FDQN的5G车联网资源分配算法的结构,利用gNB服务器的聚合算法,对分布式V2V链路的Double DQN模型训练进行加速和全局优化,以获得最优的侧链信道分配和功率控制策略。
在图2中,描述了5G车联网资源分配的深度强化学习模型,可以看出V2V链路作为智能体基于当前状态根据策略选择信道和发射功率,并从环境中获取奖励。
在图3中,描述了基于服务器-客户端结构的联邦学习框架,客户端将经过局部训练的模型参数上传给服务器进行聚合,以达到隐私保护和加快训练的作用。
在图4中,描述了FDQN算法下网络联合频谱和能量效率与负载关系的仿真结果,在不同V2V链路负载情况下,FDQN算法相比一般分布式算法能够提高45%左右,相比随机算法能够提高80%以上。
根据对本发明的说明,本领域的技术人员应该不难看出,本发明的基于联邦学习和深度Q网络的5G车联网资源分配方法可以提高系统性能并且能保证用户隐私。
本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (1)
1.一种基于联邦学习和深度Q网络的5G车联网资源分配方法,其特征在于,包括步骤如下:
(1)将车联网中的通信业务分为两种类型,即车辆与路边设施之间(V2I)的高容量通信请求以及车与车之间(V2V)与行车安全相关、要求低延时高可靠性的通信请求;
(2)采用混合频谱接入技术进行传输,V2I链路和V2V链路共享信道资源;
(3)构建的车联网资源分配系统模型为M对V2I链路和K对V2V链路共用授权带宽为W0的信道;
(4)采用分布式的资源分配方法,在考虑V2V链路延迟和信干噪比门限的情况下,以系统联合频谱和能量效率最大化为目标构建分布式深度强化学习模型;
(5)为提高分布式深度强化学习模型性能的同时保护用户隐私和数据安全,利用联邦学习优化深度强化学习模型;
(6)在执行阶段,V2V链路根据本地观察获得当前状态St(k),利用训练好的模型得到最优V2V用户发射功率和信道分配策略;
进一步,所述步骤(4)包括如下具体步骤:
(4a)定义状态空间S为与资源分配有关的观测信息和低维度指纹信息,包括子信道m上链路瞬时信道状态信息Gk[m],子信道m上V2V链路接受到的干扰Ik[m],V2V链路传输的剩余负载Bk,剩余时延Tk,训练回合数e和ε-贪心算法中的随机探索变量ε,即
st(k)={{Gk[m]}m∈M,{Ik[m]}m∈M,Bk,Tk,e,ε}
将V2V链路视为智能体,每次V2V链路基于当前状态St(k)∈S选择信道和发射功率;
(4b),定义动作空间A为发射功率和选择的信道,表示为
Ck∈{1,2,...,M}
其中,为第k个V2V链路用户离散的发射功率级,Ck∈{1,2,...,M}为第k个V2V链路接入的子带序列,共有p个离散的功率值和M个子带供选择,因此动作空间为p×M;
(4c)定义奖励函数R,侧链资源分配的目标是V2V链路选择频谱子带和发射功率,在满足延迟约束和V2V链路信干噪比门限要求下,最大化网络联合频谱和能量效率,因此奖励函数可以表示为:
其中,
其中,ζnet、ζV2I和ζV2V分别为网络、V2I链路和V2V链路联合频谱和能量效率,γd为V2V链路信干噪比门限,为第k条V2V链路的信道容量,λ1、λ2、λ3和λ4为权值,A1和A2为固定的奖励值;
(4d)依据建立好的S,A和R,在Q学习的基础上建立深度强化学习模型;采用双深度Q网络算法,在计算损失函数时,预测网络选择t+1时刻的动作at+1(k),目标网络根据t+1时刻的状态st+1(k)和动作at+1(k)得出t+1时刻的Q值,以缓解Q值高估问题;在更新网络时,每个智能体都需要最小化如下的损失函数实现梯度下降:
其中,β为折扣因子,θk和θk′分别为第k个智能体的预测网络和目标网络参数,D为样本空间;
进一步,所述步骤(5)包括如下具体步骤:
(5a)在每个聚合间隔,V2V链路用户将本地预测网络参数θk上传给基站服务器;
(5b)基站服务器执行聚合算法,获得全局网络参数;聚合算法将所有参与联邦学习的客户端模型按照贡献度进行加权平均以利用全局经验训练并最大化聚合效果,具体公式如下:
其中,θglobal和θk分别是全局网络和第k个本地预测网络的参数,Nk和N分别是第k个V2V链路和所有V2V链路的训练批量大小,以其比值来衡量第k个客户端模型参数的贡献度;
(5c)基站服务器将聚合后的模型θglobal分发给V2V链路;
(5d)所有V2V链路更新本地网络θk和θk′,根据本地观察进行局部的深度强化学习模型训练;如果训练回合数小于预设值,进入步骤(5a),反之训练结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483178.0A CN114885426B (zh) | 2022-05-05 | 2022-05-05 | 一种基于联邦学习和深度q网络的5g车联网资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483178.0A CN114885426B (zh) | 2022-05-05 | 2022-05-05 | 一种基于联邦学习和深度q网络的5g车联网资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114885426A CN114885426A (zh) | 2022-08-09 |
CN114885426B true CN114885426B (zh) | 2024-04-16 |
Family
ID=82674334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210483178.0A Active CN114885426B (zh) | 2022-05-05 | 2022-05-05 | 一种基于联邦学习和深度q网络的5g车联网资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114885426B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115397029A (zh) * | 2022-08-15 | 2022-11-25 | 南通师范高等专科学校 | 一种基于信干噪比门限动态调整的随机用户调度方法 |
CN117693035A (zh) * | 2022-08-31 | 2024-03-12 | 华为技术有限公司 | 一种信道聚合方法及装置 |
CN115551065A (zh) * | 2022-11-29 | 2022-12-30 | 南京鼎尔特科技有限公司 | 一种基于多智能体深度强化学习的车联网资源分配方法 |
CN116193405B (zh) * | 2023-03-03 | 2023-10-27 | 中南大学 | 基于dona框架的异构v2x网络数据传输方法 |
CN117241404B (zh) * | 2023-11-10 | 2024-02-23 | 广汽埃安新能源汽车股份有限公司 | 一种车联网信道资源分配方法及装置 |
CN117835441B (zh) * | 2024-01-11 | 2024-10-18 | 阳光凯讯(北京)科技股份有限公司 | 一种基于深度强化学习的5g/6g无线资源智能分配方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112954651A (zh) * | 2021-03-12 | 2021-06-11 | 南京航空航天大学 | 一种基于深度强化学习的低时延高可靠性v2v资源分配方法 |
CN112995951A (zh) * | 2021-03-12 | 2021-06-18 | 南京航空航天大学 | 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法 |
WO2021128805A1 (zh) * | 2019-12-24 | 2021-07-01 | 浙江大学 | 一种基于生成对抗强化学习的无线网络资源分配方法 |
-
2022
- 2022-05-05 CN CN202210483178.0A patent/CN114885426B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021128805A1 (zh) * | 2019-12-24 | 2021-07-01 | 浙江大学 | 一种基于生成对抗强化学习的无线网络资源分配方法 |
CN112954651A (zh) * | 2021-03-12 | 2021-06-11 | 南京航空航天大学 | 一种基于深度强化学习的低时延高可靠性v2v资源分配方法 |
CN112995951A (zh) * | 2021-03-12 | 2021-06-18 | 南京航空航天大学 | 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法 |
Non-Patent Citations (1)
Title |
---|
基于深度强化学习的无线网络资源分配算法;李孜恒;孟超;;通信技术;20200810(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114885426A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114885426B (zh) | 一种基于联邦学习和深度q网络的5g车联网资源分配方法 | |
CN112995951B (zh) | 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法 | |
CN111970733B (zh) | 超密集网络中基于深度强化学习的协作式边缘缓存算法 | |
CN109639377B (zh) | 基于深度强化学习的频谱资源管理方法 | |
Yoshida et al. | MAB-based client selection for federated learning with uncertain resources in mobile networks | |
CN114143891B (zh) | 移动边缘网络中基于fdql的多维资源协同优化方法 | |
CN113543074B (zh) | 一种基于车路云协同的联合计算迁移和资源分配方法 | |
WO2023179010A1 (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
CN111565419B (zh) | 一种超密集网络中面向延迟优化的协作式边缘缓存方法 | |
Wang et al. | Joint resource allocation and power control for D2D communication with deep reinforcement learning in MCC | |
CN113316154B (zh) | 一种授权和免授权d2d通信资源联合智能分配方法 | |
CN102158962B (zh) | 基站协作中的分簇方法、资源分配方法及相关设备 | |
CN115278708B (zh) | 一种面向联邦学习的移动边缘计算资源管理方法 | |
CN105379412A (zh) | 一种控制多个无线接入节点的系统和方法 | |
CN109819422B (zh) | 一种基于Stackelberg博弈的异构车联网多模通信方法 | |
Bi et al. | Deep reinforcement learning based power allocation for D2D network | |
CN102665219B (zh) | 一种基于ofdma的家庭基站系统的动态频谱分配方法 | |
CN112887999A (zh) | 一种基于分布式a-c的智能接入控制与资源分配方法 | |
CN117412391A (zh) | 一种基于增强型双深度q网络的车联网无线资源分配方法 | |
CN114554495B (zh) | 一种面向联邦学习的用户调度和资源分配方法 | |
CN113453358A (zh) | 一种无线携能d2d网络的联合资源分配方法 | |
CN115866787A (zh) | 融合终端直传通信和多接入边缘计算的网络资源分配方法 | |
CN116546462A (zh) | 一种基于联邦学习的多智能体空地网络资源分配方法 | |
Benbraika et al. | Spectrum allocation and power control for D2D communication underlay 5G cellular networks | |
Ren et al. | Joint spectrum allocation and power control in vehicular communications based on dueling double DQN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |