CN114423070B

CN114423070B - 一种基于d2d的异构无线网络功率分配方法及系统

Info

Publication number: CN114423070B
Application number: CN202210124448.9A
Authority: CN
Inventors: 王雪; 史昊天; 韩英斌; 高鑫; 朱巧; 钱志鸿
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2024-03-19
Anticipated expiration: 2042-02-10
Also published as: CN114423070A

Abstract

本发明公开了一种基于D2D的异构无线网络功率分配方法及系统，涉及无线通信技术领域，该方法及系统是根据信道衰落模型计算用户设备到各个宏基站及微基站的信号干扰噪声比以及能量效率，根据系统总能量效率建立功率分配问题模型，构建深度强化学习框架，将非凸分式优化问题转换成适用于深度强化学习方法求解的架构，使用丁克尔巴赫方法缩减动作空间，使用双延迟深度确定性策略梯度算法求解优化后的功率分配问题。本发明解决了针对异构蜂窝网络环境中，灵活高效可拓展的针对不同用户设备处于不同的通信环境中如何选取最佳功率。本发明不仅具有较高的决策效率，且能够有效的提升系统整体能量效率。

Description

一种基于D2D的异构无线网络功率分配方法及系统

技术领域

本发明涉及无线通信技术领域，具体是一种基于D2D的异构无线网络功率分配方法及系统。

背景技术

近些年，随着经济与科技的高速发展，以及移动智能通信设备的爆炸式增长，多层异构网络的分布式部署和D2D通信被认为是满足下一代蜂窝网络性能要求的有效途径。异构网络可以在一个宏小区中容纳多个小覆盖小区，以提高网络容量。D2D通信能够提高本地服务灵活性并降低功耗，使得邻近用户无需通过基站即可直接通信。在异构网络中集成D2D通信可以进一步改善信道条件和用户的服务质量。

由于用户设备的电池寿命有限，在D2D通信中必须平衡网络效用和用户设备的能耗。为了提高能源效率，高效合理的功率分配算法是一个重点考虑的问题。现存功率分配算法多以拉格朗日，博弈论，近似凸规划等为主，在瞬息多变的未来网络环境中，这些方法仍缺少灵活性和拓展性。因此，一种高效灵活的面向能量效率优化的功率分配方法是本领域技术人员亟需解决的问题。

综上所述，现有技术存在的问题是：

现有技术中，在支持D2D通信的异构蜂窝网络中，针对瞬息多变的网络状态，整个网络的能量效率最有效果差，现有的功率分配方法灵活性及拓展性不够，面对未来不断发展的网络很难高效率的处理作出决策，造成网络相关数据信息处理效率低。

现有技术中，存在有以拉格朗日，博弈论，近似凸规划等方法来建立好的功率分配问题进行求解。这些方法虽然可得以实施，但是其存在的缺点是，针对瞬息多变的网络环境和用户需求，往往需要针对每次变化就作出一轮计算与求解，这大大降低了决策处理的灵活性，且针对复杂网络架构以及用户数的问题上，建模难度和算法复杂度难以得到保障。

发明内容

本发明的目的在于提供一种基于D2D的异构无线网络功率分配方法及系统，以解决现有的功率分配方法针对支持D2D的异构网络缺乏灵活性高效性以及拓展性，造成网络相关数据信息处理效率低。

为实现上述目的，本发明提供如下技术方案：

一种基于D2D的异构无线网络功率分配方法，包括：

根据用户终端的信道增益状态、网络环境构建深度强化学习框架，以用户终端的总能效作为目标构建奖励函数，将发射功率占比映射为动作空间并使用丁克尔巴赫方法缩减动作空间；

基于此框架，采用双延迟深度确定性策略梯度算法，针对整体通信网络环境进行学习，以作出灵活快速的功率分配。

在上述技术方案的基础上，本发明还提供以下可选技术方案：

在一种可选方案中：功率分配方法具体步骤包括：

步骤一：根据信道衰落模型计算用户设备到各个宏基站及微基站的信号干扰噪声比以及能量效率，构建异构网络模型；

步骤二：根据系统总能量效率建立功率分配问题模型，考虑蜂窝用户以及D2D用户的最低速率需求作为约束，以最大化能量效率为总目标；

步骤三：构建深度强化学习框架，将非凸分式优化问题转换成适用于深度强化学习方法求解的架构；

步骤四：在使用深度强化学习方法求解之前，使用丁克尔巴赫方法缩减动作空间，提高智能体学习以及决策的效率及降低算法复杂度；

步骤五：根据步骤四中缩减动作空间之后的结果，使用双延迟深度确定性策略梯度算法求解优化后的功率分配问题。

在一种可选方案中：在步骤一中，构建异构网络模型，定义蜂窝用户集合C和D2D用户集合D，根据信道衰落模型可以得到D2D用户设备j的信号干扰噪声比SINR以及能量效率EE为：

其中，P_t，P_c是D2D/蜂窝用户发射机的最大发射功率，G_j,d为根据信道衰落模型得到的D2D发射机j到接收机信道增益，G_i,j,d为根据信道衰落模型得到的蜂窝用户i到接收机信道增益，σ²为信道传输过程中产生的噪声。W是子信道的带宽，η是用户终端的功率放大器的转换效率，P_cir是用户设备的电路功率。y_j∈Y^1×N为功率分配因子，y_j∈(0,1)。

在一种可选方案中：在步骤二中根据系统能效所建立的功率分配问题模型为：

其中表示D2D/蜂窝用户的速率约束阈值，/>表示D2D/蜂窝用户的传输速率。

在一种可选方案中：步骤三中构建的深度强化学习框架为：

其中S_t表示状态空间，A_t表示动作空间，R_t表示奖励函数，r_t(s_t,a_t)＝αe^β(EE-EE_random)，αe^β表示调整奖励函数的比例因子，γ为折扣因子，EE_random为随机策略所产生的能量效率阈值。

在一种可选方案中：在步骤四中根据丁克尔巴赫方法后的优化问题可以表述为

其中y_j,p为缩减动作空间后的功率分配因子，W为带宽。

在一种可选方案中：在步骤五中双延迟深度确定性策略梯度算法求解优化后的功率分配问题过程可以表示为：

策略网络根据当前状态做出一个功率分配动作：a(t)＝π_θ(s_t)+N_t，其中π_θ为参数为θ的策略网络N_t为动作噪声；一组价值网络评价策略网络，根据Bellman方程，并取估计的最小值以回避高估误差：

其中Q_wA',Q_wB'为动作价值函数，ε表示平滑噪声。

用于更新策略网络的确定梯度可以表示为

其中N_b是经验池的采样批大小

策略网络A/B的损失函数可以表示为

策略网络和价值网络的梯度下降过程和梯度上升过程可以表示为

其中J(θ)表示状态价值函数的期望，L(ω)表示策略网络的损失函数，表示对ω参数求导，ω表示价值网络。

策略网络和价值网络的神经网络参数的更新过程可以表示为φ′←τφ+(1-τ)φ′,φ∈{θ,ω_A,ω_B}。φ代表软更新的参数，其中τ为软更新因子。

一种实现上述所述基于D2D的异构无线网络功率分配方法的信息数据处理终端。

一种应用上述所述功率分配方法的基于D2D的异构无线网络功率分配系统，该功率分配系统包括：

D2D用户设备，按照随机分布模型分布在宏基站与各个微基站覆盖范围内，使用underlay模式复用对应蜂窝用户的子信道频谱资源进行通信，各个子信道使用相互正交的资源块，并接受提供该子信道的对应基站服务；在此基础上，考虑到D2D用户复用时对蜂窝链路产生的干扰，采用功率分配算法调整各个D2D设备的发射功率，以获取使总体通信系统能量效率最优的功率分配方案。

若干个微基站，在异构蜂窝网络中，增强覆盖范围并根据信道衰落模型，获取其服务的各个用户的信道增益状态，能获取较多的网络中的信息，作为深度强化学习中的智能体，以能量效率为目标构建奖励函数，执行动作并进行学习，同时，为用户设备分配最佳的传输功率，使整个系统的能量效率达到最优；

宏基站，在异构蜂窝网络中，增强覆盖范围并根据信道衰落模型，获取其服务的各个用户的信道增益状态，能获取较多的网络中的信息，作为深度强化学习中的智能体，以能量效率为目标构建奖励函数，执行动作并进行学习，同时，为用户设备分配最佳的传输功率，使整个系统的能量效率达到最优。

相较于现有技术，本发明的有益效果如下：

本发明解决了在支持D2D通信的异构蜂窝网络中，针对不同的用户设备在不同的子信道资源下如何分配最佳的发射功率，使得整个系统能量效率最优的问题，本发明通过构建异构网络模型，根据信道衰落模型计算用户设备到各个宏基站及微基站的信号干扰噪声比以及能量效率，在此基础上根据系统总能量效率建立功率分配问题模型，考虑蜂窝用户以及D2D用户的最低速率需求作为约束，建立以最大化能量效率为目标的优化问题，然后构建深度强化学习框架，将非凸分式优化问题转换成适用于深度强化学习方法求解的架构，在使用深度强化学习方法求解之前，使用丁克尔巴赫方法缩减动作空间，以提高智能体学习以及决策的效率，降低算法复杂度，根据缩减动作空间之后的结果，使用双延迟深度确定性策略梯度算法求解优化后的功率分配问题，针对未来复杂网络中的灵活、可拓展的动态功率分配具有很大的积极意义。

本发明提出采用丁克尔巴赫-双延迟深度确定性策略梯度算法的思想，在确认宏基站为智能体后，针对系统中不同的D2D用户设备，功率分配是一个连续的取值，为了灵活高效的解决此高维度的功率分配问题，在使用丁克尔巴赫方法缩减动作空间后，通过针对信道状态构建状态空间，以系统的能量效率作为奖励函数，并以用户的速率需求作为约束，使用双延迟深度确定性策略梯度算法对智能体进行训练，通过有效的训练，智能体能够高效灵活的针对系统中的用户作出功率分配决策，且可拓展性高，所提出的功率分配方案能够有效提高系统的总能量效率，以实际延长移动设备的电池续航时间，降低能量的消耗，符合绿色高效的发展趋势。

附图说明

图1是本发明实施例提供的基于丁克尔巴赫-双延迟深度确定性策略梯度算法的基于D2D的异构无线网络功率分配方法流程图。

图2是本发明实施例提供的基于丁克尔巴赫-双延迟深度确定性策略梯度算法的基于D2D的异构无线网络功率分配方法原理图。

图3是本发明实施例提供的基于丁克尔巴赫-双延迟深度确定性策略梯度算法的基于D2D的异构无线网络功率分配系统示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。本发明所列举的各实施例仅用以说明本发明，并非用以限制本发明的范围。对本发明所作的任何显而易知的修饰或变更都不脱离本发明的精神与范围。

在一个实施例中，如图1-3所示，一种基于D2D的异构无线网络功率分配方法及系统；

如图1所示，本申请实施例提供的基于丁克尔巴赫-双延迟深度确定性策略梯度算法的基于D2D的异构无线网络功率分配方法包括以下步骤：

S101：构建异构网络模型，根据信道衰落模型计算用户设备到各个宏基站及微基站的信号干扰噪声比以及能量效率；

S102：根据系统总能量效率建立功率分配问题模型，考虑蜂窝用户以及D2D用户的最低速率需求作为约束，以最大化能量效率为总目标；

S103：构建深度强化学习框架，将非凸分式优化问题转换成适用于深度强化学习方法求解的架构；

S104：在使用深度强化学习方法求解之前，使用丁克尔巴赫方法缩减动作空间，以提高智能体学习以及决策的效率，降低算法复杂度；

S105：根据S104中缩减动作空间之后的结果，使用双延迟深度确定性策略梯度算法求解优化后的功率分配问题。

进一步，在步骤S101中，构建异构网络模型，定义蜂窝用户集合C和D2D用户集合D，根据信道衰落模型可以得到D2D用户设备j的信号干扰噪声比SINR以及能量效率EE为：

进一步，在步骤S102中根据系统能效所建立的功率分配问题模型为：

其中，表示D2D/蜂窝用户的速率约束阈值，/>表示D2D/蜂窝用户的传输速率。

进一步，在步骤S103中构建的深度强化学习框架

其中r_t(s_t,a_t)＝αe^β(EE-EE_random)

其中，S_t表示状态空间，A_t表示动作空间，R_t表示奖励函数，r_t(s_t,a_t)＝αe^β(EE-EE_random)，αe^β表示调整奖励函数的比例因子，γ为折扣因子，EE_random为随机策略所产生的能量效率阈值，γ为折扣因子，EE_random为随机策略所产生的能量效率阈值。

进一步，在步骤S104中根据丁克尔巴赫方法后的优化问题可以表述为

其中y_j,p为缩减动作空间后的功率分配因子，W为带宽。

进一步，在步骤S105中双延迟深度确定性策略梯度算法求解优化后的功率分配问题过程可以表示为

策略网络根据当前状态做出一个功率分配动作：a(t)＝π_θ(s_t)+N_t，其中π_θ为参数为θ的策略网络N_t为动作噪声。一组价值网络评价策略网络，根据Bellman方程，并取估计的最小值以回避高估误差：

其中，Q_wA',Q_wB'为动作价值函数，ε表示平滑噪声。

用于更新策略网络的确定梯度可以表示为

其中N_b是经验池的采样批大小

策略网络A/B的损失函数可以表示为

其中，表示策略网络的确定梯度，L(ω)表示策略网络的损失函数，/>表示对ω参数求导，ω表示价值网络。

策略网络和价值网络的神经网络参数的更新过程可以表示为

φ′←τφ+(1-τ)φ′,φ∈{θ,ω_A,ω_B}

φ代表软更新的参数，其中τ为软更新因子。

经过对整个通信系统的学习，训练完成的智能体能够针对网络中的不同的用户高效率的输出功率分配问题决策，以应对复杂多变的通信环境，并具有较高的扩展性灵活性。

参阅图2和图3，本发明还提供一种应用上述所述功率分配方法的基于丁克尔巴赫-双延迟深度确定性策略梯度算法的基于D2D的异构无线网络功率分配系统；该系统包括：D2D用户设备，按照随机分布模型分布在宏基站与各个微基站覆盖范围内，使用underlay模式复用对应蜂窝用户的子信道频谱资源进行通信，各个子信道使用相互正交的资源块，并接受提供该子信道的对应基站服务；在此基础上，考虑到D2D用户复用时对蜂窝链路产生的干扰，采用功率分配算法调整各个D2D设备的发射功率，以获取使总体通信系统能量效率最优的功率分配方案。

若干个微基站，在异构蜂窝网络中，增强覆盖范围并根据信道衰落模型，获取其服务的各个用户的信道增益状态，能获取较多的网络中的信息，作为深度强化学习中的智能体，以能量效率为目标构建奖励函数，执行动作并进行学习，同时，为用户设备分配最佳的传输功率，使整个系统的能量效率达到最优

本发明还提出一种实现上述所述基于D2D的异构无线网络功率分配方法的信息数据处理终端。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于D2D的异构无线网络功率分配方法，其特征在于，所述方法包括：

基于此框架，采用双延迟深度确定性策略梯度算法，针对整体通信网络环境进行学习，以作出灵活快速的功率分配；

该方法具体步骤包括：

步骤五：根据步骤四中缩减动作空间之后的结果，使用双延迟深度确定性策略梯度算法求解优化后的功率分配问题；

在步骤一中，构建异构网络模型，定义蜂窝用户集合C和D2D用户集合D，根据信道衰落模型可以得到D2D用户设备j的信号干扰噪声比SINR以及能量效率EE为：

其中，P_t，P_c是D2D/蜂窝用户发射机的最大发射功率，G_j,d为根据信道衰落模型得到的D2D发射机j到接收机信道增益，G_i,j,d为根据信道衰落模型得到的蜂窝用户i到接收机信道增益，σ²为信道传输过程中产生的噪声，W是子信道的带宽，η是用户终端的功率放大器的转换效率，P_cir是用户设备的电路功率，y_j∈Y^1×N为功率分配因子，y_j∈(0,1)；

在步骤二中根据系统能效所建立的功率分配问题模型为：

其中表示D2D/蜂窝用户的速率约束阈值，/>表示D2D/蜂窝用户的传输速率；

在步骤三中构建的深度强化学习框架为：

其中S_t表示状态空间，A_t表示动作空间，R_t表示奖励函数，r_t(s_t,a_t)＝αe^β(EE-EE_random)，αe^β表示调整奖励函数的比例因子，γ为折扣因子，EE_random为随机策略所产生的能量效率阈值；

在步骤四中根据丁克尔巴赫方法后的优化问题可以表述为

其中，y_j,p为缩减动作空间后的功率分配因子，

W为带宽，

在步骤五中双延迟深度确定性策略梯度算法求解优化后的功率分配问题过程可以表示为：

其中，Q_wA',Q_wB'为动作价值函数，ε表示平滑噪声；

用于更新策略网络的确定梯度可以表示为

其中N_b是经验池的采样批大小

策略网络A/B的损失函数可以表示为

θ_t+1＝θ_t+α_θ▽_θJ(θ)

其中▽_θJ(θ)表示策略网络的确定梯度，L(ω)表示策略网络的损失函数，▽_ω表示对ω参数求导，ω表示价值网络，

策略网络和价值网络的神经网络参数的更新过程可以表示为

φ′←τφ+(1-τ)φ′,φ∈{θ,ω_A,ω_B}，φ代表软更新的参数，其中τ为软更新因子。

2.一种实现权利要求1所述基于D2D的异构无线网络功率分配方法的信息数据处理终端。

3.一种应用权利要求1所述功率分配方法的基于D2D的异构无线网络功率分配系统，其特征在于，该功率分配系统包括：

D2D用户设备，按照随机分布模型分布在宏基站与各个微基站覆盖范围内，使用underlay模式复用对应蜂窝用户的子信道频谱资源进行通信，各个子信道使用相互正交的资源块，并接受提供该子信道的对应基站服务；在此基础上，考虑到D2D用户复用时对蜂窝链路产生的干扰，采用功率分配算法调整各个D2D设备的发射功率，以获取使总体通信系统能量效率最优的功率分配方案；