CN113453358B

CN113453358B - 一种无线携能d2d网络的联合资源分配方法

Info

Publication number: CN113453358B
Application number: CN202110654301.6A
Authority: CN
Inventors: 李君�; 仲星; 朱明浩; 丁文杰; 沈国丽; 张茜茜; 王秀敏; 李正权
Original assignee: Ictehi Technology Development Jiangsu Co ltd; Binjiang College of Nanjing University of Information Engineering
Current assignee: Ictehi Technology Development Jiangsu Co ltd; Binjiang College of Nanjing University of Information Engineering
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-09-23
Anticipated expiration: 2041-06-11
Also published as: CN113453358A

Abstract

本发明公开了一种无线携能D2D网络的联合资源分配方法，属于通信系统技术领域，本发明采用强化学习框架，智能地分配资源块以及功率分流比例，在基站和D2D最大发射功率以及蜂窝用户最低速率要求的约束下，最大化D2D能效，解决了传统算法无法处理复杂通信环境的困境，通信系统中D2D用户通过采用多智能体强化学习框架，对资源块和功率分流比例进行分配，解决以能效为目标函数的非凸问题。该发明可以提高D2D通信的总能效，实现更快的收敛速度。

Description

一种无线携能D2D网络的联合资源分配方法

技术领域

本发明属于通信系统技术领域，具体涉及一种无线携能D2D网络的联合资源分配方法。

背景技术

随着无线通信技术的飞速发展，现代生活已经离不开无线通信，其带来的便利不仅促进了经济的快速发展，也丰富了人们的日常生活，随着更多诸如直播、体感游戏等大流量短时延要求的业务出现，现有的网络越来越难以满足用户的体验，其中，频谱利用效率和能量效率对无线通信系统的性能有着较大的影响。

为了提高频谱资源利用效率、降低通信能耗，业界提出使用终端直连通信(Device-to-Device，D2D)技术来满足近距离通信需求。D2D通信技术通过在邻近设备之间建立直接的通信连接而不需要基站传输数据，D2D通信可以卸载基站流量，分担蜂窝小区基站的负载，也可以作为中继节点为小区边缘用户提供质量保障，扩展网络覆盖范围，此外，D2D通信链路收发端距离较近，可以显著提高能量效率，减少传输时延。

随着通信网络传输数据的增长以及传输速率的增加，通信带来的能量消耗也呈现飞速增加。考虑到目前阶段主要能源的不可再生性，本发明通过引入无线携能技术(SWIPT)，来进一步提高能量利用率。SWIPT实现了信息和能量的同时传输，该技术在高速信息传输的同时，可以提取传输信号所用能量有效地向终端设备馈电，某种程度上克服了传统通信终端仅仅依靠电池功能的限制，有效地延长了移动终端的续航时长。在SWIPT系统中，有限的射频资源被分成两部分使用，一部分流向解码器进行信息解码，一部分流向储能装置中存储。近年来，国内外关于SWIPT技术的研究越来越多，其最终目标都是寻找一个合适的射频资源分配策略以保证权衡。对于有限的射频资源，应该分配多少用于信息解码，分配多少用于能量存储，才能保证设备有足够能量供给来延长使用寿命的同时又具有较高的数据传输速率。

机器学习(Machine Learning，ML)作为一项应用前景广阔的新兴技术被越来越多的学者所研究。如今5G移动通信网络的应用更是离不开机器学习强有力的支持。机器学习根据学习方式分为监督学习、半监督学习、无监督学习以及强化学习(ReinforcementLearning，RL)四大类。不同于其他三类学习方式，RL的学习方法不需要完备的先验信息，智能体在与环境的交互过程中不断学习，最终找到最优策略。RL理论在解决动态规划、系统控制、决策等问题中发挥了关键作用，尤其在处理动态优化问题时，通过对变化环境不断“试错”式学习，最终获得最优方案。对于D2D无线携能通信系统中资源分配问题的研究，传输环境的多变性大大增加了资源分配策略的设计难度，RL理论在无线通信系统的应用为解决资源分配问题提供了全新的设计思路。

由于系统信道状态具有不确定性以及射频能量到达随机变化，传统算法需要全局的信息，这会导致大量的信令开销，且在没有完备先验信息的情况下无法实现能量效率的最优化，同时传统算法不适用于高复杂度的通信网络结构。

发明内容

发明目的：本发明的目的在于提供一种无线携能D2D网络的联合资源分配方法，实现更快的收敛速度。

技术方案：为实现上述目的，本发明采用如下技术方案：一种无线携能D2D网络的联合资源分配方法，包括如下步骤：

一种无线携能D2D网络的联合资源分配方法，包括如下步骤：

步骤1.构建一个无线携能D2D网络模型，宏基站将M个RB分配给M个蜂窝用户，N对D2D用户复用蜂窝用户的资源块，并且不同的D2D用户复用同一资源块，同时，配有能量收集电路的D2D用户还会对功率分流比例进行控制；

步骤2.每对D2D用户获取信道状态信息以及收集到的能量状况，根据D2D能效构建效用函数；

步骤3.建立马尔科夫决策过程，确定状态空间、动作空间以及奖励函数；

步骤4.采用MADDPG算法进行D2D用户网络更新；

步骤5.当经验池D中的样本达到设定数量后，从经验池D中采样批次数据进行网络训练；

步骤6.智能体根据确定性策略梯度和Critic估计网络中得到的Q函数，来更新Actor估计网络；

步骤7.重复步骤5和步骤6，每隔一定迭代次数，通过软更新的方法更新Actor目标网络和Critic目标网络中的参数。

进一步地，所述的步骤2中，具体为：占用第m个资源块的蜂窝用户的信干噪比(Signal to Interference plus Noise Ratio，SINR)表示为

其中

表示宏基站到蜂窝用户的发射功率，

表示宏基站到蜂窝用户的信道增益，α_m表示资源块分配索引，α_m＝1表示D2D用户复用第m个资源块，否则α_m＝0，

表示D2D用户的发射功率，

表示D2D用户的信道增益，δ²表示噪声功率；

占用第m个资源块的蜂窝用户的数据速率表示为

复用第m个资源块的第n对D2D用户的SINR表示为

其中

表示功率分流系数，

表示复用资源块m的其他D2D用户的发射功率，

表示复用资源块m的其他D2D用户的信道增益；配有能量收集电路的D2D用户收集到的能量表示为

其中ε表示能量收集效率系数，

且

D2D总能效EE表示为

其中P_cir表示D2D电路消耗功率，N表示D2D用户个数；本发明的目的是最大化D2D总能效，即

进一步地，所述的步骤3中，将N个D2D对看做智能体，表示为N＝{1，2...n...N}，其中第n对D2D用户表示为智能体n，每对D2D用户在t时刻的状态空间表示为

其中G_t表示D2D用户自身信道增益，

表示采用相同资源块的其他D2D用户对当前D2D的干扰信号，

表示采用相同资源块的蜂窝用户对当前D2D的干扰信号，E_t表示t时刻D2D用户剩余的能量；

每对D2D用户在t时刻的动作空间表示为a_t＝{d_t，λ_t}，其中d_t表示D2D用户在时刻t复用的资源块，λ_t∈(0，1)表示D2D用户在时刻t选择的功率分流比；本发明将D2D总能效作为奖励函数，表示为r_t＝EE(d_t，λ_t)。

进一步地，所述的步骤4中，每对D2D用户包含Actor网络和Critic网络，Actor网络和Critic网络拥有各自的估计网络和目标网络，θ＝[θ₁，θ₂...θ_n]表示n个智能体策略的参数，对于得到的状态s_i，每个智能体根据Actor网络的确定性策略产生一个动作

同时得到即时奖励r_i，进入下一状态s′_ni，将联合状态、动作、奖励以及下一时刻的状态[x，a，r，x′]存储到经验池D中用于后续训练，x＝[s₁，s₂...s_n]表示观测向量，即状态，a＝[a₁，a₂...a_n]表示动作，r＝[r₁，r₂...r_n]表示奖励，x′＝[s′₁，s′₂...s′_n]加表示下一时刻的状态。

进一步地，所述的步骤5中，将状态s_i输入到第i个智能体的Actor估计网络中，得到动作a_i以及奖励r_i，然后将x和a输入到Critic估计网络中，得到当前时刻的估计状态-动作函数，即估计Q函数

将下一时刻的状态s′_i输入到Actor目标网络，得到下一时刻的动作a′_i，将x′和a′输入到Critic目标网络中，得到目标Q函数y_i，再利用最小化Loss函数，更新Critic估计网络，Critic网络的Loss函数表示为

其中

其中ζ表示折扣因子，由于Critic网络有估计和目标两个网络，

表示Critic目标网络输出的Q值，μ′＝[μ′₁，μ′₂...μ′_n]为目标策略具有滞后更新的参数θ′_j。

进一步地，所述的步骤5中，针对第i个智能体的累计期望奖励

策略梯度公式表示为

其中

表示Critic估计网络中得到的Q函数的梯度，

表示Actor估计网络的确定性策略梯度。

进一步地，所述的步骤7中，更新过程为

直到设定迭代次数，网络训练好以后，只需要将当前时刻的状态s_t输入到Actor网络中，输出动作a_t，得到当前时刻的最优资源分配方案，使D2D能效最优化；当网络状态发生改变，只需要重新输入新的状态到Actor网络中，即得到新的分配方案。

本发明旨在联合资源块和功率分配的优化问题，其中，不同的D2D用户可以复用同一个正交资源块(Resource Block，RB)，实现资源的有效利用，为了减少复用RB造成的干扰，对RB进行合理分配是有必要的。D2D用户配有能量收集电路，其中的功率分流单元通过将接收到的信号部分用于信息解码，部分转为能量存储，实现“一加一大于二”的效果，国内外许多关于SWIPT技术的研究其最终目标都是寻找一个合适的射频资源分配策略以保证权衡，所以对功率分流比例的研究是必要的。由于对所提出的研究目标是一个非凸问题，我们采用强化学习框架，智能地分配资源块以及功率分流比例，在基站和D2D最大发射功率以及蜂窝用户最低速率要求的约束下，最大化D2D能效。

有益效果：与现有技术相比，本发明的一种无线携能D2D网络的联合资源分配方法，解决了传统算法无法处理复杂通信环境的困境，通信系统中D2D用户通过采用多智能体强化学习框架，对资源块和功率分流比例进行分配，解决以能效为目标函数的非凸问题。该发明可以提高D2D通信的总能效，实现更快的收敛速度。

附图说明

图1是一种无线携能D2D网络的联合资源分配方法的系统模型图；

图2是功率分流单元示意图；

图3是本发明的步骤示意图；

图4是MADDPG框图。

具体实施方式

以下结合具体实施方式对本发明做进一步的说明。

本发明系统模型主要由一个集成了宏基站、M个蜂窝用户以及N对配有能量收集电路的D2D用户组成。下面对技术方案的实施作进一步的详细描述。

本发明具体的实施步骤如下：

步骤1.构建一个无线携能D2D网络模型，如图1所示，宏基站将M个RB分配给M个蜂窝用户，N对D2D用户复用蜂窝用户的资源块，并且不同的D2D用户可以复用同一资源块，同时，配有能量收集电路的D2D用户还会对功率分流比例进行控制，其功率分流单元如图2所示。

步骤2.本发明的步骤示意图为图3，每对D2D用户获取信道状态信息以及收集到的能量状况，根据D2D能效构建效用函数。占用第m个资源块的蜂窝用户的信干噪比(Signalto Interference plus Noise Ratio，SINR)表示为

其中

表示宏基站到蜂窝用户的发射功率，

表示D2D用户的发射功率，

表示D2D用户的信道增益，δ²表示噪声功率。

占用第m个资源块的蜂窝用户的数据速率表示为

复用第m个资源块的第n对D2D用户的SINR表示为

其中

表示功率分流系数，

表示复用资源块m的其他D2D用户的发射功率，

表示复用资源块m的其他D2D用户的信道增益。配有能量收集电路的D2D用户收集到的能量表示为

其中ε表示能量收集效率系数，

且

D2D总能效EE表示为

其中P_cir表示D2D电路消耗功率，N表示D2D用户个数。本发明的目的是最大化D2D总能效，即

步骤3.建立马尔科夫决策过程，确定状态空间、动作空间以及奖励函数，更具体地，将N个D2D对看做智能体，表示为N＝{1，2...n...N}，其中第n对D2D用户表示为智能体n，每对D2D用户在t时刻的状态空间表示为

其中G_t表示D2D用户自身信道增益，

表示采用相同资源块的其他D2D用户对当前D2D的干扰信号，

每对D2D用户在t时刻的动作空间表示为a_t＝{d_t，λ_t}，其中d_t表示D2D用户在时刻t复用的资源块，λ_t∈(0，1)表示D2D用户在时刻t选择的功率分流比；本发明将D2D总能效作为奖励函数，表示为r_t＝EE(d_t，λ_t)；

步骤4.采用MADDPG算法进行D2D用户网络更新，每对D2D用户包含Actor网络和Critic网络，Actor网络和Critic网络拥有各自的估计网络和目标网络，其框图如图4所示，θ＝[θ₁，θ₂...θ_n]表示n个智能体策略的参数，对于得到的状态s_i，每个智能体根据Actor网络的确定性策略产生一个动作

步骤5.当经验池D中的样本达到设定数量后，从经验池D中采样批次数据进行网络训练，将状态s_i输入到第i个智能体的Actor估计网络中，得到动作a_i以及奖励r_i，然后将x和a输入到Critic估计网络中，得到当前时刻的估计状态-动作函数，即估计Q函数

其中

步骤6.智能体根据确定性策略梯度和Critic估计网络中得到的Q函数，来更新Actor估计网络，针对第i个智能体的累计期望奖励

策略梯度公式表示为

其中

表示Critic估计网络中得到的Q函数的梯度，

表示Actor估计网络的确定性策略梯度。

步骤7.重复步骤5.6，每隔一定迭代次数，通过软更新的方法更新Actor目标网络和Critic目标网络中的参数，更新过程为

直到设定迭代次数，网络训练好以后，只需要将当前时刻的状态s_t输入到Actor网络中，输出动作a_t，得到当前时刻的最优资源分配方案，使D2D能效最优化。当网络状态发生改变，只需要重新输入新的状态到Actor网络中，即可得到新的分配方案。

下面以一实例具体的讲述基于MADDPG的联合资源分配方案的过程。具体实现步骤如下：

步骤1.构建一个无线携能D2D网络模型，宏基站将8个RB分配给8个蜂窝用户，4对D2D用户复用蜂窝用户的资源块，并且不同的D2D用户可以复用同一资源块，同时，配有能量收集电路的D2D用户还会对功率分流比例进行控制。

步骤2.每对D2D用户获取信道状态信息以及收集到的能量状况，根据D2D能效构建效用函数。占用第m个资源块的蜂窝用户的信干噪比(Signal to Interference plusNoise Ratio，SINR)表示为

其中

表示宏基站到蜂窝用户的发射功率，

表示D2D用户的发射功率，

表示D2D用户的信道增益，δ²表示噪声功率。

占用第m个资源块的蜂窝用户的数据速率表示为

复用第m个资源块的第n对D2D用户的SINR表示为

其中

表示功率分流系数，

表示复用资源块m的其他D2D用户的发射功率，

其中ε表示能量收集效率系数，

且

D2D总能效EE

表示为

其中P_cir为20dBm，N为4。本发明的目的是最大化D2D总能效，即

步骤3.建立马尔科夫决策过程，确定状态空间、动作空间以及奖励函数，更具体地，将4个D2D对看做智能体，其中第n对D2D用户表示为智能体n，每对D2D用户在t时刻的状态空间表示为

其中Gt表示D2D用户自身信道增益，

表示采用相同资源块的其他D2D用户对当前D2D的干扰信号，

每对D2D用户在t时刻的动作空间表示为a_t＝{α_t，λ_t}，其中α_t表示D2D用户在时刻t复用的资源块，λ_t∈(0，1)表示D2D用户在时刻t选择的功率分流比；

本发明将D2D总能效作为奖励函数，表示为r_t＝EE(α_t，λ_t)。

同时得到即时奖励r_i，进入下一状态s′_ni，将联合状态、动作、奖励以及下一时刻的状态[x，a，r，x′]存储到经验池D中用于后续训练，x＝[s₁，s₂...s_n]表示观测向量，即状态，a＝[a₁，a₂...a_n]表示动作，r＝[r₁，r₂...r_n]表示奖励，x′＝[s₁′，s′₂...s′_n]表示下一时刻的状态。

步骤5.当经验池D中的样本达到400个后，从经验池D中采样批次数据进行网络训练，将状态s_i输入到第i个智能体的Actor估计网络中，得到动作a_i以及奖励r_i，然后将x和a输入到Critic估计网络中，得到当前时刻的估计状态-动作函数，即估计Q函数

其中

策略梯度公式表示为

其中

表示Critic估计网络中得到的Q函数的梯度，

表示Actor估计网络的确定性策略梯度。

步骤7.重复步骤5-步骤6，每隔100次迭代，通过软更新的方法更新Actor目标网络和Critic目标网络中的参数，更新过程为

直到2000次迭代，网络训练好以后，只需要将当前时刻的状态s_t输入到Actor网络中，输出动作a_t，得到当前时刻的最优资源分配方案，使D2D能效最优化。当网络状态发生改变，只需要重新输入新的状态到Actor网络中，即可得到新的分配方案。

此实例只是为了说明此发明中用户设备的中继卸载使得系统能耗最小化的过程，并非约束此发明数据参数。

以上所述仅是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以作出若干改进和变型，这些改进和变型也应该视为本发明保护范围。

Claims

1.一种无线携能D2D网络的联合资源分配方法，其特征在于：包括如下步骤：

步骤1、构建一个无线携能D2D网络模型，宏基站将M个资源块RB分配给M个蜂窝用户，N对D2D用户复用蜂窝用户的资源块RB，并且不同的D2D用户复用同一资源块，同时，配有能量收集电路的D2D用户还会对功率分流比例进行控制；

步骤2、每对D2D用户获取信道状态信息以及收集到的能量状况，根据D2D能效构建效用函数；

步骤3、建立马尔科夫决策过程，确定状态空间、动作空间以及奖励函数；

步骤4、采用MADDPG算法进行D2D用户网络更新；

步骤5、当经验池D中的样本达到设定数量后，从经验池D中采样批次数据进行网络训练；

步骤6、智能体根据确定性策略梯度和Critic估计网络中得到的Q函数，来更新Actor估计网络；

步骤7、重复步骤5和步骤6，每隔一定迭代次数，通过软更新的方法更新Actor目标网络和Critic目标网络中的参数。

2.根据权利要求1所述的一种无线携能D2D网络的联合资源分配方法，其特征在于：所述的步骤2中，具体为：占用第m个资源块的蜂窝用户的信干噪比SINR表示为

其中

表示宏基站到蜂窝用户的发射功率，

表示D2D用户的发射功率，

表示D2D用户的信道增益，δ²表示噪声功率；

占用第m个资源块的蜂窝用户的数据速率表示为

复用第m个资源块的第n对D2D用户的SINR表示为

其中

表示功率分流系数,

表示复用资源块m的其他D2D用户的发射功率，

其中ε表示能量收集效率系数，

且

D2D总能效EE表示为

其中P_cir表示D2D电路消耗功率，N表示D2D用户个数。

3.根据权利要求2所述的一种无线携能D2D网络的联合资源分配方法，其特征在于：所述的步骤3中，将N个D2D对看做智能体，表示为N＝{1,2...n...N}，其中第n对D2D用户表示为智能体n，每对D2D用户在t时刻的状态空间表示为

其中G_t表示D2D用户自身信道增益，

表示采用相同资源块的其他D2D用户对当前D2D的干扰信号，

每对D2D用户在t时刻的动作空间表示为a_t＝{d_t，λ_t}，其中d_t表示D2D用户在时刻t复用的资源块，λ_t∈(0,1)表示D2D用户在时刻t选择的功率分流比；将D2D总能效作为奖励函数，表示为r_t＝EE(d_t，λ_t)。

4.根据权利要求3所述的一种无线携能D2D网络的联合资源分配方法，其特征在于：所述的步骤4中，每对D2D用户包含Actor网络和Critic网络，Actor网络和Critic网络拥有各自的估计网络和目标网络，θ＝[θ₁,θ₂…θ_n]表示n个智能体策略的参数，对于得到的状态s_i，每个智能体根据Actor网络的确定性策略产生一个动作

同时得到即时奖励r_i，进入下一状态s′_ni，将联合状态、动作、奖励以及下一时刻的状态[x,a,r,x′]存储到经验池D中用于后续训练,x＝[s₁,s₂…s_n]表示观测向量，即状态，a＝[a₁,a₂…a_n]表示动作，r＝[r₁,r₂…r_n]表示奖励，x′＝[s′₁,s′₂…s′_n]表示下一时刻的状态。

5.根据权利要求4所述的一种无线携能D2D网络的联合资源分配方法，其特征在于：所述的步骤5中，将状态s_i输入到第i个智能体的Actor估计网络中，得到动作a_i以及奖励r_i，然后将x和a输入到Critic估计网络中，得到当前时刻的估计状态-动作函数，即估计Q函数