CN114423070B - 一种基于d2d的异构无线网络功率分配方法及系统 - Google Patents
一种基于d2d的异构无线网络功率分配方法及系统 Download PDFInfo
- Publication number
- CN114423070B CN114423070B CN202210124448.9A CN202210124448A CN114423070B CN 114423070 B CN114423070 B CN 114423070B CN 202210124448 A CN202210124448 A CN 202210124448A CN 114423070 B CN114423070 B CN 114423070B
- Authority
- CN
- China
- Prior art keywords
- network
- power distribution
- energy efficiency
- user
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000001413 cellular effect Effects 0.000 claims abstract description 34
- 238000004891 communication Methods 0.000 claims abstract description 20
- 230000009471 action Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 25
- 230000002787 reinforcement Effects 0.000 claims description 20
- 238000005562 fading Methods 0.000 claims description 18
- 230000005540 biological transmission Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000013209 evaluation strategy Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/70—Services for machine-to-machine communication [M2M] or machine type communication [MTC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/241—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/243—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
- H04W52/244—Interferences in heterogeneous networks, e.g. among macro and femto or pico cells or other sector / system interference [OSI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/26—TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
- H04W52/267—TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the information rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0473—Wireless resource allocation based on the type of the allocated resource the resource being transmission power
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于D2D的异构无线网络功率分配方法及系统,涉及无线通信技术领域,该方法及系统是根据信道衰落模型计算用户设备到各个宏基站及微基站的信号干扰噪声比以及能量效率,根据系统总能量效率建立功率分配问题模型,构建深度强化学习框架,将非凸分式优化问题转换成适用于深度强化学习方法求解的架构,使用丁克尔巴赫方法缩减动作空间,使用双延迟深度确定性策略梯度算法求解优化后的功率分配问题。本发明解决了针对异构蜂窝网络环境中,灵活高效可拓展的针对不同用户设备处于不同的通信环境中如何选取最佳功率。本发明不仅具有较高的决策效率,且能够有效的提升系统整体能量效率。
Description
技术领域
本发明涉及无线通信技术领域,具体是一种基于D2D的异构无线网络功率分配方法及系统。
背景技术
近些年,随着经济与科技的高速发展,以及移动智能通信设备的爆炸式增长,多层异构网络的分布式部署和D2D通信被认为是满足下一代蜂窝网络性能要求的有效途径。异构网络可以在一个宏小区中容纳多个小覆盖小区,以提高网络容量。D2D通信能够提高本地服务灵活性并降低功耗,使得邻近用户无需通过基站即可直接通信。在异构网络中集成D2D通信可以进一步改善信道条件和用户的服务质量。
由于用户设备的电池寿命有限,在D2D通信中必须平衡网络效用和用户设备的能耗。为了提高能源效率,高效合理的功率分配算法是一个重点考虑的问题。现存功率分配算法多以拉格朗日,博弈论,近似凸规划等为主,在瞬息多变的未来网络环境中,这些方法仍缺少灵活性和拓展性。因此,一种高效灵活的面向能量效率优化的功率分配方法是本领域技术人员亟需解决的问题。
综上所述,现有技术存在的问题是:
现有技术中,在支持D2D通信的异构蜂窝网络中,针对瞬息多变的网络状态,整个网络的能量效率最有效果差,现有的功率分配方法灵活性及拓展性不够,面对未来不断发展的网络很难高效率的处理作出决策,造成网络相关数据信息处理效率低。
现有技术中,存在有以拉格朗日,博弈论,近似凸规划等方法来建立好的功率分配问题进行求解。这些方法虽然可得以实施,但是其存在的缺点是,针对瞬息多变的网络环境和用户需求,往往需要针对每次变化就作出一轮计算与求解,这大大降低了决策处理的灵活性,且针对复杂网络架构以及用户数的问题上,建模难度和算法复杂度难以得到保障。
发明内容
本发明的目的在于提供一种基于D2D的异构无线网络功率分配方法及系统,以解决现有的功率分配方法针对支持D2D的异构网络缺乏灵活性高效性以及拓展性,造成网络相关数据信息处理效率低。
为实现上述目的,本发明提供如下技术方案:
一种基于D2D的异构无线网络功率分配方法,包括:
根据用户终端的信道增益状态、网络环境构建深度强化学习框架,以用户终端的总能效作为目标构建奖励函数,将发射功率占比映射为动作空间并使用丁克尔巴赫方法缩减动作空间;
基于此框架,采用双延迟深度确定性策略梯度算法,针对整体通信网络环境进行学习,以作出灵活快速的功率分配。
在上述技术方案的基础上,本发明还提供以下可选技术方案:
在一种可选方案中:功率分配方法具体步骤包括:
步骤一:根据信道衰落模型计算用户设备到各个宏基站及微基站的信号干扰噪声比以及能量效率,构建异构网络模型;
步骤二:根据系统总能量效率建立功率分配问题模型,考虑蜂窝用户以及D2D用户的最低速率需求作为约束,以最大化能量效率为总目标;
步骤三:构建深度强化学习框架,将非凸分式优化问题转换成适用于深度强化学习方法求解的架构;
步骤四:在使用深度强化学习方法求解之前,使用丁克尔巴赫方法缩减动作空间,提高智能体学习以及决策的效率及降低算法复杂度;
步骤五:根据步骤四中缩减动作空间之后的结果,使用双延迟深度确定性策略梯度算法求解优化后的功率分配问题。
在一种可选方案中:在步骤一中,构建异构网络模型,定义蜂窝用户集合C和D2D用户集合D,根据信道衰落模型可以得到D2D用户设备j的信号干扰噪声比SINR以及能量效率EE为:
其中,Pt,Pc是D2D/蜂窝用户发射机的最大发射功率,Gj,d为根据信道衰落模型得到的D2D发射机j到接收机信道增益,Gi,j,d为根据信道衰落模型得到的蜂窝用户i到接收机信道增益,σ2为信道传输过程中产生的噪声。W是子信道的带宽,η是用户终端的功率放大器的转换效率,Pcir是用户设备的电路功率。yj∈Y1×N为功率分配因子,yj∈(0,1)。
在一种可选方案中:在步骤二中根据系统能效所建立的功率分配问题模型为:
其中表示D2D/蜂窝用户的速率约束阈值,/>表示D2D/蜂窝用户的传输速率。
在一种可选方案中:步骤三中构建的深度强化学习框架为:
其中St表示状态空间,At表示动作空间,Rt表示奖励函数,rt(st,at)=αeβ(EE-EErandom),αeβ表示调整奖励函数的比例因子,γ为折扣因子,EErandom为随机策略所产生的能量效率阈值。
在一种可选方案中:在步骤四中根据丁克尔巴赫方法后的优化问题可以表述为
其中yj,p为缩减动作空间后的功率分配因子,W为带宽。
在一种可选方案中:在步骤五中双延迟深度确定性策略梯度算法求解优化后的功率分配问题过程可以表示为:
策略网络根据当前状态做出一个功率分配动作:a(t)=πθ(st)+Nt,其中πθ为参数为θ的策略网络Nt为动作噪声;一组价值网络评价策略网络,根据Bellman方程,并取估计的最小值以回避高估误差:
其中QwA',QwB'为动作价值函数,ε表示平滑噪声。
用于更新策略网络的确定梯度可以表示为
其中Nb是经验池的采样批大小
策略网络A/B的损失函数可以表示为
策略网络和价值网络的梯度下降过程和梯度上升过程可以表示为
其中J(θ)表示状态价值函数的期望,L(ω)表示策略网络的损失函数,表示对ω参数求导,ω表示价值网络。
策略网络和价值网络的神经网络参数的更新过程可以表示为φ′←τφ+(1-τ)φ′,φ∈{θ,ωA,ωB}。φ代表软更新的参数,其中τ为软更新因子。
一种实现上述所述基于D2D的异构无线网络功率分配方法的信息数据处理终端。
一种应用上述所述功率分配方法的基于D2D的异构无线网络功率分配系统,该功率分配系统包括:
D2D用户设备,按照随机分布模型分布在宏基站与各个微基站覆盖范围内,使用underlay模式复用对应蜂窝用户的子信道频谱资源进行通信,各个子信道使用相互正交的资源块,并接受提供该子信道的对应基站服务;在此基础上,考虑到D2D用户复用时对蜂窝链路产生的干扰,采用功率分配算法调整各个D2D设备的发射功率,以获取使总体通信系统能量效率最优的功率分配方案。
若干个微基站,在异构蜂窝网络中,增强覆盖范围并根据信道衰落模型,获取其服务的各个用户的信道增益状态,能获取较多的网络中的信息,作为深度强化学习中的智能体,以能量效率为目标构建奖励函数,执行动作并进行学习,同时,为用户设备分配最佳的传输功率,使整个系统的能量效率达到最优;
宏基站,在异构蜂窝网络中,增强覆盖范围并根据信道衰落模型,获取其服务的各个用户的信道增益状态,能获取较多的网络中的信息,作为深度强化学习中的智能体,以能量效率为目标构建奖励函数,执行动作并进行学习,同时,为用户设备分配最佳的传输功率,使整个系统的能量效率达到最优。
相较于现有技术,本发明的有益效果如下:
本发明解决了在支持D2D通信的异构蜂窝网络中,针对不同的用户设备在不同的子信道资源下如何分配最佳的发射功率,使得整个系统能量效率最优的问题,本发明通过构建异构网络模型,根据信道衰落模型计算用户设备到各个宏基站及微基站的信号干扰噪声比以及能量效率,在此基础上根据系统总能量效率建立功率分配问题模型,考虑蜂窝用户以及D2D用户的最低速率需求作为约束,建立以最大化能量效率为目标的优化问题,然后构建深度强化学习框架,将非凸分式优化问题转换成适用于深度强化学习方法求解的架构,在使用深度强化学习方法求解之前,使用丁克尔巴赫方法缩减动作空间,以提高智能体学习以及决策的效率,降低算法复杂度,根据缩减动作空间之后的结果,使用双延迟深度确定性策略梯度算法求解优化后的功率分配问题,针对未来复杂网络中的灵活、可拓展的动态功率分配具有很大的积极意义。
本发明提出采用丁克尔巴赫-双延迟深度确定性策略梯度算法的思想,在确认宏基站为智能体后,针对系统中不同的D2D用户设备,功率分配是一个连续的取值,为了灵活高效的解决此高维度的功率分配问题,在使用丁克尔巴赫方法缩减动作空间后,通过针对信道状态构建状态空间,以系统的能量效率作为奖励函数,并以用户的速率需求作为约束,使用双延迟深度确定性策略梯度算法对智能体进行训练,通过有效的训练,智能体能够高效灵活的针对系统中的用户作出功率分配决策,且可拓展性高,所提出的功率分配方案能够有效提高系统的总能量效率,以实际延长移动设备的电池续航时间,降低能量的消耗,符合绿色高效的发展趋势。
附图说明
图1是本发明实施例提供的基于丁克尔巴赫-双延迟深度确定性策略梯度算法的基于D2D的异构无线网络功率分配方法流程图。
图2是本发明实施例提供的基于丁克尔巴赫-双延迟深度确定性策略梯度算法的基于D2D的异构无线网络功率分配方法原理图。
图3是本发明实施例提供的基于丁克尔巴赫-双延迟深度确定性策略梯度算法的基于D2D的异构无线网络功率分配系统示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。本发明所列举的各实施例仅用以说明本发明,并非用以限制本发明的范围。对本发明所作的任何显而易知的修饰或变更都不脱离本发明的精神与范围。
在一个实施例中,如图1-3所示,一种基于D2D的异构无线网络功率分配方法及系统;
如图1所示,本申请实施例提供的基于丁克尔巴赫-双延迟深度确定性策略梯度算法的基于D2D的异构无线网络功率分配方法包括以下步骤:
S101:构建异构网络模型,根据信道衰落模型计算用户设备到各个宏基站及微基站的信号干扰噪声比以及能量效率;
S102:根据系统总能量效率建立功率分配问题模型,考虑蜂窝用户以及D2D用户的最低速率需求作为约束,以最大化能量效率为总目标;
S103:构建深度强化学习框架,将非凸分式优化问题转换成适用于深度强化学习方法求解的架构;
S104:在使用深度强化学习方法求解之前,使用丁克尔巴赫方法缩减动作空间,以提高智能体学习以及决策的效率,降低算法复杂度;
S105:根据S104中缩减动作空间之后的结果,使用双延迟深度确定性策略梯度算法求解优化后的功率分配问题。
进一步,在步骤S101中,构建异构网络模型,定义蜂窝用户集合C和D2D用户集合D,根据信道衰落模型可以得到D2D用户设备j的信号干扰噪声比SINR以及能量效率EE为:
其中,Pt,Pc是D2D/蜂窝用户发射机的最大发射功率,Gj,d为根据信道衰落模型得到的D2D发射机j到接收机信道增益,Gi,j,d为根据信道衰落模型得到的蜂窝用户i到接收机信道增益,σ2为信道传输过程中产生的噪声。W是子信道的带宽,η是用户终端的功率放大器的转换效率,Pcir是用户设备的电路功率。yj∈Y1×N为功率分配因子,yj∈(0,1)。
进一步,在步骤S102中根据系统能效所建立的功率分配问题模型为:
其中,表示D2D/蜂窝用户的速率约束阈值,/>表示D2D/蜂窝用户的传输速率。
进一步,在步骤S103中构建的深度强化学习框架
其中rt(st,at)=αeβ(EE-EErandom)
其中,St表示状态空间,At表示动作空间,Rt表示奖励函数,rt(st,at)=αeβ(EE-EErandom),αeβ表示调整奖励函数的比例因子,γ为折扣因子,EErandom为随机策略所产生的能量效率阈值,γ为折扣因子,EErandom为随机策略所产生的能量效率阈值。
进一步,在步骤S104中根据丁克尔巴赫方法后的优化问题可以表述为
其中yj,p为缩减动作空间后的功率分配因子,W为带宽。
进一步,在步骤S105中双延迟深度确定性策略梯度算法求解优化后的功率分配问题过程可以表示为
策略网络根据当前状态做出一个功率分配动作:a(t)=πθ(st)+Nt,其中πθ为参数为θ的策略网络Nt为动作噪声。一组价值网络评价策略网络,根据Bellman方程,并取估计的最小值以回避高估误差:
其中,QwA',QwB'为动作价值函数,ε表示平滑噪声。
用于更新策略网络的确定梯度可以表示为
其中Nb是经验池的采样批大小
策略网络A/B的损失函数可以表示为
策略网络和价值网络的梯度下降过程和梯度上升过程可以表示为
其中,表示策略网络的确定梯度,L(ω)表示策略网络的损失函数,/>表示对ω参数求导,ω表示价值网络。
策略网络和价值网络的神经网络参数的更新过程可以表示为
φ′←τφ+(1-τ)φ′,φ∈{θ,ωA,ωB}
φ代表软更新的参数,其中τ为软更新因子。
经过对整个通信系统的学习,训练完成的智能体能够针对网络中的不同的用户高效率的输出功率分配问题决策,以应对复杂多变的通信环境,并具有较高的扩展性灵活性。
参阅图2和图3,本发明还提供一种应用上述所述功率分配方法的基于丁克尔巴赫-双延迟深度确定性策略梯度算法的基于D2D的异构无线网络功率分配系统;该系统包括:D2D用户设备,按照随机分布模型分布在宏基站与各个微基站覆盖范围内,使用underlay模式复用对应蜂窝用户的子信道频谱资源进行通信,各个子信道使用相互正交的资源块,并接受提供该子信道的对应基站服务;在此基础上,考虑到D2D用户复用时对蜂窝链路产生的干扰,采用功率分配算法调整各个D2D设备的发射功率,以获取使总体通信系统能量效率最优的功率分配方案。
若干个微基站,在异构蜂窝网络中,增强覆盖范围并根据信道衰落模型,获取其服务的各个用户的信道增益状态,能获取较多的网络中的信息,作为深度强化学习中的智能体,以能量效率为目标构建奖励函数,执行动作并进行学习,同时,为用户设备分配最佳的传输功率,使整个系统的能量效率达到最优
宏基站,在异构蜂窝网络中,增强覆盖范围并根据信道衰落模型,获取其服务的各个用户的信道增益状态,能获取较多的网络中的信息,作为深度强化学习中的智能体,以能量效率为目标构建奖励函数,执行动作并进行学习,同时,为用户设备分配最佳的传输功率,使整个系统的能量效率达到最优。
本发明还提出一种实现上述所述基于D2D的异构无线网络功率分配方法的信息数据处理终端。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。
Claims (3)
1.一种基于D2D的异构无线网络功率分配方法,其特征在于,所述方法包括:
根据用户终端的信道增益状态、网络环境构建深度强化学习框架,以用户终端的总能效作为目标构建奖励函数,将发射功率占比映射为动作空间并使用丁克尔巴赫方法缩减动作空间;
基于此框架,采用双延迟深度确定性策略梯度算法,针对整体通信网络环境进行学习,以作出灵活快速的功率分配;
该方法具体步骤包括:
步骤一:根据信道衰落模型计算用户设备到各个宏基站及微基站的信号干扰噪声比以及能量效率,构建异构网络模型;
步骤二:根据系统总能量效率建立功率分配问题模型,考虑蜂窝用户以及D2D用户的最低速率需求作为约束,以最大化能量效率为总目标;
步骤三:构建深度强化学习框架,将非凸分式优化问题转换成适用于深度强化学习方法求解的架构;
步骤四:在使用深度强化学习方法求解之前,使用丁克尔巴赫方法缩减动作空间,提高智能体学习以及决策的效率及降低算法复杂度;
步骤五:根据步骤四中缩减动作空间之后的结果,使用双延迟深度确定性策略梯度算法求解优化后的功率分配问题;
在步骤一中,构建异构网络模型,定义蜂窝用户集合C和D2D用户集合D,根据信道衰落模型可以得到D2D用户设备j的信号干扰噪声比SINR以及能量效率EE为:
其中,Pt,Pc是D2D/蜂窝用户发射机的最大发射功率,Gj,d为根据信道衰落模型得到的D2D发射机j到接收机信道增益,Gi,j,d为根据信道衰落模型得到的蜂窝用户i到接收机信道增益,σ2为信道传输过程中产生的噪声,W是子信道的带宽,η是用户终端的功率放大器的转换效率,Pcir是用户设备的电路功率,yj∈Y1×N为功率分配因子,yj∈(0,1);
在步骤二中根据系统能效所建立的功率分配问题模型为:
其中表示D2D/蜂窝用户的速率约束阈值,/>表示D2D/蜂窝用户的传输速率;
在步骤三中构建的深度强化学习框架为:
其中St表示状态空间,At表示动作空间,Rt表示奖励函数,rt(st,at)=αeβ(EE-EErandom),αeβ表示调整奖励函数的比例因子,γ为折扣因子,EErandom为随机策略所产生的能量效率阈值;
在步骤四中根据丁克尔巴赫方法后的优化问题可以表述为
其中,yj,p为缩减动作空间后的功率分配因子,
W为带宽,
在步骤五中双延迟深度确定性策略梯度算法求解优化后的功率分配问题过程可以表示为:
策略网络根据当前状态做出一个功率分配动作:a(t)=πθ(st)+Nt,其中πθ为参数为θ的策略网络Nt为动作噪声;一组价值网络评价策略网络,根据Bellman方程,并取估计的最小值以回避高估误差:
其中,QwA',QwB'为动作价值函数,ε表示平滑噪声;
用于更新策略网络的确定梯度可以表示为
其中Nb是经验池的采样批大小
策略网络A/B的损失函数可以表示为
策略网络和价值网络的梯度下降过程和梯度上升过程可以表示为
θt+1=θt+αθ▽θJ(θ)
其中▽θJ(θ)表示策略网络的确定梯度,L(ω)表示策略网络的损失函数,▽ω表示对ω参数求导,ω表示价值网络,
策略网络和价值网络的神经网络参数的更新过程可以表示为
φ′←τφ+(1-τ)φ′,φ∈{θ,ωA,ωB},φ代表软更新的参数,其中τ为软更新因子。
2.一种实现权利要求1所述基于D2D的异构无线网络功率分配方法的信息数据处理终端。
3.一种应用权利要求1所述功率分配方法的基于D2D的异构无线网络功率分配系统,其特征在于,该功率分配系统包括:
D2D用户设备,按照随机分布模型分布在宏基站与各个微基站覆盖范围内,使用underlay模式复用对应蜂窝用户的子信道频谱资源进行通信,各个子信道使用相互正交的资源块,并接受提供该子信道的对应基站服务;在此基础上,考虑到D2D用户复用时对蜂窝链路产生的干扰,采用功率分配算法调整各个D2D设备的发射功率,以获取使总体通信系统能量效率最优的功率分配方案;
若干个微基站,在异构蜂窝网络中,增强覆盖范围并根据信道衰落模型,获取其服务的各个用户的信道增益状态,能获取较多的网络中的信息,作为深度强化学习中的智能体,以能量效率为目标构建奖励函数,执行动作并进行学习,同时,为用户设备分配最佳的传输功率,使整个系统的能量效率达到最优;
宏基站,在异构蜂窝网络中,增强覆盖范围并根据信道衰落模型,获取其服务的各个用户的信道增益状态,能获取较多的网络中的信息,作为深度强化学习中的智能体,以能量效率为目标构建奖励函数,执行动作并进行学习,同时,为用户设备分配最佳的传输功率,使整个系统的能量效率达到最优。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210124448.9A CN114423070B (zh) | 2022-02-10 | 2022-02-10 | 一种基于d2d的异构无线网络功率分配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210124448.9A CN114423070B (zh) | 2022-02-10 | 2022-02-10 | 一种基于d2d的异构无线网络功率分配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114423070A CN114423070A (zh) | 2022-04-29 |
CN114423070B true CN114423070B (zh) | 2024-03-19 |
Family
ID=81279736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210124448.9A Active CN114423070B (zh) | 2022-02-10 | 2022-02-10 | 一种基于d2d的异构无线网络功率分配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114423070B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114885340B (zh) * | 2022-05-07 | 2024-01-23 | 东南大学 | 一种基于深度迁移学习的超密集无线网络功率分配方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012050913A1 (en) * | 2010-09-28 | 2012-04-19 | The Ohio State University | Predictive network system and method |
WO2015062034A1 (zh) * | 2013-10-31 | 2015-05-07 | 富士通株式会社 | 资源分配方法、装置以及用户设备 |
CN107809795A (zh) * | 2017-11-06 | 2018-03-16 | 重庆邮电大学 | D2d异构无线通信网络中基于时间反演的抗干扰方法 |
CN109729528A (zh) * | 2018-12-21 | 2019-05-07 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
CN109862610A (zh) * | 2019-01-08 | 2019-06-07 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
WO2019190036A1 (ko) * | 2018-03-27 | 2019-10-03 | 경상대학교산학협력단 | 무선 통신 시스템에서 신경망 기반의 송신전력 제어 방법 및 장치 |
CN110602718A (zh) * | 2019-10-09 | 2019-12-20 | 吉林大学 | 基于交替方向乘子法的异构蜂窝网络功率分配方法及系统 |
CN110769514A (zh) * | 2019-11-08 | 2020-02-07 | 山东师范大学 | 一种异构蜂窝网络d2d通信资源分配方法及系统 |
WO2020053781A1 (en) * | 2018-09-12 | 2020-03-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Online power control in d2d networks |
CN113453358A (zh) * | 2021-06-11 | 2021-09-28 | 南京信息工程大学滨江学院 | 一种无线携能d2d网络的联合资源分配方法 |
CN113596785A (zh) * | 2021-07-26 | 2021-11-02 | 吉林大学 | 基于深度q网络的d2d-noma通信系统资源分配方法 |
-
2022
- 2022-02-10 CN CN202210124448.9A patent/CN114423070B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012050913A1 (en) * | 2010-09-28 | 2012-04-19 | The Ohio State University | Predictive network system and method |
WO2015062034A1 (zh) * | 2013-10-31 | 2015-05-07 | 富士通株式会社 | 资源分配方法、装置以及用户设备 |
CN107809795A (zh) * | 2017-11-06 | 2018-03-16 | 重庆邮电大学 | D2d异构无线通信网络中基于时间反演的抗干扰方法 |
WO2019190036A1 (ko) * | 2018-03-27 | 2019-10-03 | 경상대학교산학협력단 | 무선 통신 시스템에서 신경망 기반의 송신전력 제어 방법 및 장치 |
WO2020053781A1 (en) * | 2018-09-12 | 2020-03-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Online power control in d2d networks |
CN109729528A (zh) * | 2018-12-21 | 2019-05-07 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
CN109862610A (zh) * | 2019-01-08 | 2019-06-07 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
CN110602718A (zh) * | 2019-10-09 | 2019-12-20 | 吉林大学 | 基于交替方向乘子法的异构蜂窝网络功率分配方法及系统 |
CN110769514A (zh) * | 2019-11-08 | 2020-02-07 | 山东师范大学 | 一种异构蜂窝网络d2d通信资源分配方法及系统 |
CN113453358A (zh) * | 2021-06-11 | 2021-09-28 | 南京信息工程大学滨江学院 | 一种无线携能d2d网络的联合资源分配方法 |
CN113596785A (zh) * | 2021-07-26 | 2021-11-02 | 吉林大学 | 基于深度q网络的d2d-noma通信系统资源分配方法 |
Non-Patent Citations (4)
Title |
---|
《JOAGT: Latency-Oriented Joint Optimization of Computation Offloading and Resource Allocation in D2D-Assisted MEC System》;Xue Wang , Member, IEEE, Yingbin Han , Haotian Shi, and Zhihong Qian , Senior Member;《IEEE》;第11卷(第9期);全文 * |
《全负载蜂窝网络下多复用D2D通信功率分配算法研究》;钱志鸿,蒙武杰,王 雪, 胡良帅,王 鑫;《电子与信息学报》;第42卷(第12期);全文 * |
《基于深度学习的D2D功率分配算法研究》;史佳琦;《中国优秀硕士学位论文全文数据库 信息科技辑》;20211216;全文 * |
Nandish P. Kuruvatti ; Hans D. Schotten.《Post-resource sharing power allocation in cellular networks to coexist with D2D underlay》.《IEEE》.2017,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114423070A (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109474980B (zh) | 一种基于深度增强学习的无线网络资源分配方法 | |
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
Qian et al. | Dynamic cell association for non-orthogonal multiple-access V2S networks | |
Yang et al. | Energy-efficient joint scheduling and resource management for UAV-enabled multicell networks | |
CN107426773B (zh) | 无线异构网络中面向能效的分布式资源分配方法和装置 | |
Luo | Delay-oriented QoS-aware user association and resource allocation in heterogeneous cellular networks | |
CN104080126B (zh) | 基于多点协作传输的蜂窝网络节能方法 | |
CN105471488B (zh) | 一种多小区波束形成方法和装置 | |
CN111343704B (zh) | 异构蜂窝网络中毫微微基站的联合休眠与功率控制方法 | |
CN109982437B (zh) | 一种基于位置感知加权图的d2d通信频谱分配方法 | |
Georgakopoulos et al. | Coordination multipoint enabled small cells for coalition-game-based radio resource management | |
Wu et al. | 3D aerial base station position planning based on deep Q-network for capacity enhancement | |
Zheng et al. | Joint load balancing of downlink and uplink for eICIC in heterogeneous network | |
Yu et al. | Dynamic resource allocation in TDD-based heterogeneous cloud radio access networks | |
CN114423070B (zh) | 一种基于d2d的异构无线网络功率分配方法及系统 | |
Dao et al. | Deep reinforcement learning-based hierarchical time division duplexing control for dense wireless and mobile networks | |
Su et al. | User-centric base station clustering and resource allocation for cell-edge users in 6G ultra-dense networks | |
Eliodorou et al. | User association coalition games with zero-forcing beamforming and NOMA | |
CN111465108A (zh) | 一种能量获取d2d异构网络中频效能效优化方法 | |
Thakur et al. | An energy and cost aware framework for cell selection and energy cooperation in rural and remote femtocell networks | |
CN115915454A (zh) | Swipt辅助的下行资源分配方法及装置 | |
Lee et al. | Message-passing-based joint user association and time allocation for wireless powered communication networks | |
Wang et al. | Dynamic uplink/downlink configuration using Q-learning in femtocell networks | |
CN107070627B (zh) | 一种基于多跳混合回程网络的比例公平频谱资源分配方法 | |
Bikov et al. | Smart concurrent learning scheme for 5G network: QoS-aware radio resource allocation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |