CN112492691A

CN112492691A - 一种深度确定性策略梯度的下行noma功率分配方法

Info

Publication number: CN112492691A
Application number: CN202011344394.4A
Authority: CN
Inventors: 王伟; 殷爽爽; 吕明海; 武聪
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-12
Anticipated expiration: 2040-11-26
Also published as: CN112492691B

Abstract

本发明公开了一种深度确定性策略梯度算法的下行NOMA系统中功率分配方法，方法采用双神经网络结构及经验池回放机制，可以有效处理涉及大规模状态‑动作空间的问题，且降低训练样本之间的相关性，同时，采取确定性策略来选择动作，可以在连续的动作空间中选择动作。算法使用状态信息作为神经网络的输入，并对状态空间、动作空间及奖赏函数根据仿真下行NOMA系统情境进行了相应的设计，其中将上一时刻的信干噪比信息及速率信息作为当前时刻状态信息的组成部分，可以使得智能体更加有效的学习并利用所学习到信息来改进行为策略，经过多次迭代后，得到最优的功率分配策略。该方法可以有效解决下行NOMA系统中多用户的功率分配问题，且在不同的用户数量及基站的发射功率级别下均具备良好的泛化性能，可以有效提升功率分配的合理性，同时运算耗时少，有效提高功率分配的效率。

Description

一种深度确定性策略梯度的下行NOMA功率分配方法

技术领域

本发明涉及NOMA资源分配领域，特别是涉及一种深度确定性策略梯度算法的下行NOMA系统中功率分配方法。

背景技术

随着无线通信系统中移动终端设备的不断接入及用户密度的不断提高，通信系统中的数据量呈现指数型增长，正交多址接入技术已无法满足高系统容量的需求，为进一步满足用户的业务需求，第五代移动通信系统应运而生，5G技术的主要关注点是数据速率的提高和端到端延迟的减少，以适应无线业务数据量的指数型增长，非正交多址访问(NOMA)被认为是5G通信系统中有前途的技术，其允许多个用户在同一子信道上进行通信，即功率复用，从而提高频谱效率，解决频谱稀缺性问题，在NOMA系统中，如何进行多用户功率的分配与提高系统容量和频谱效率等问题有息息相关，因此，寻找到一种有效的功率分配方案是很有必要的。

目前关于NOMA系统中功率分配的问题已经有了一系列研究，已有的研究方法可以分为基于数值模拟方法、深度学习算法及强化学习算法；其中，基于数值模拟的方法属于传统的求解算法，大多是采用相关优化技术来求解，具有较好的性能；随着电脑硬件，如GRU，人工神经网络等相关技术的更新发展，深度学习技术已具备对大量数据的分析处理能力，已在功率分配领域得到了应用，效果有所提升；基于强化学习的方法是采取“试错”的思想，智能体不断与环境进行交互，学习知识同时更新自身的行为策略，最终获得最优的功率分配策略，深度强化学习引入深度学习技术，兼具分析感知与决策能力，对于复杂的系统具有良好的决策能力，已在功率分配领域得到有效应用。

功率分配问题大多是NP困难的(NP-hard)，且具有非凸性，求最优解不是很容易，因此，有很多的研究方法是采用显式的，或者隐式的优化技术，通过迭代计算求得最优解，传统的方法可以有效提高系统性能，但数值模拟的方式没有精确的系统模型，多次迭代计算需要涉及大量的运算，且会消耗大量的时间，无法满足通信系统中对于数据的实时处理要求，而且基于传统的方法不具备自主学习能力，无法适应多变的复杂的通信系统，因此对于实际通信场景的处理不完善。

继传统的优化算法后，有学者提出了使用深度学习技术来解决NOMA系统中的功率分配问题，此类方法采用深度神经网络或其他的变体形式，采用的是监督学习的方式，通过多层神经网络来进行数据特征的提取，学习数据到标签的映射，相对于传统功率分配方法的多次迭代计算，神经网络的运算更为高效，复杂度较低，不过神经网络的训练需要大量的准备好的样本数据，而通信系统中很难获得完美的样本数据，且监督学习的方式需要基准算法来进行训练，其性能会受到基准算法的限制。

相较于深度学习中的监督学习方式，强化学习采取的一种自主学习的策略，智能体不断的学习观测到的环境信息，并不断更新自身的行为选择策略，最终学习到最优的到一个最优的行为控制策略，Q学习算法是最经典的强化学习算法，不过传统的Q学习算法存在“维度灾难”灾难，即无法处理高维度的状态-动作空间问题，且只能处理离散的动作空间，对于连续的动作空间无能为力，深度强化学习通过使用深度神经网络代替传统Q值函数，有效的解决了维度灾难问题，使用最为广泛的为深度Q网络(DQN)算法，但其也存在无法解决连续型动作空间等问题，存在一定的局限性。

发明内容

本文针对上述现有状况，提出了一种基于深度确定性策略梯度(DDPG)的下行NOMA功率分配方法，DDPG在演员-评论家算法基础上改进而来，且引入DQN中的优势，即经验池回放机制和双神经网络结构，且使用确定性策略；本文所提算法中共包含四个神经网络，演员模块和评论家模块分别使用双神经网络结构；使用经验池回放机制进行训练，解决样本存在的时间相关性问题；对算法中状态、动作及奖赏函数分别进行对应设计，使智能体可以更加有效的自主学习；采用集中式的训练方式，经过多次迭代，最终得到一个最优的功率分配策略，通过功率分配使NOMA系统中的多个用户处于不同的、恰当的功率级别，在最大功率的限制下，最大程度提升系统的中传输速率，从而提升NOMA系统的总体通信性能和用户的通信体验。

为实现上述目的，本文提出的方案是：基于深度确定性策略梯度的下行NOMA功率分配方法，具体步骤如下：

S1：初始化NOMA系统网络环境设置；

S2：初始化经验池；

S3：初始化当前演员网络权重θ^u，目标演员网络权重

S4：初始化当前评论家网络权重θ^Q，目标评论家网络权重

S5：初始化DDPG训练相关参数；

S6：接收初始状态；

S7：智能体根据当前状态，通过当前演员神经网络选择动作；

S8：执行所选择的动作，改变子信道中的功率分配比例值，得到当前时隙的奖赏值；

S9：智能体到达下一个状态；

S10：存储经验到经验池；

S11：神经网络的训练；

S12：将下一个状态作为当前的状态；

进一步的，步骤S11中，训练过程中设置每一次迭代包含50个时隙，在迭代次数达到100次之后，每隔10个时隙进行神经网络的训练，包括从经验池中随机抽取批次量数据输入神经网络中，计算损失函数，DDPG中采用双神经网络结构，共包含四个神经网络，其中当前演员网络和当前评论家网络的参数是实时更新，而目标演员网络和目标评论家网络的参数是根据当前演员网络和当前评论家网络的参数变化而变化。

进一步的，当前评论家网络的损失函数为：

其中

表示当前评论家网络的目标Q值，Q(s_t,a_t|θ^Q)表示当前评论家网络的输出值，θ^Q表示其参数，N表示一次训练的批次样本数据大小，通过最小化损失函数来更新参数，

当前演员网络的损失函数为：

其中Q(s_t,a_t|θ^Q)表示当前评论家神经网络的输出值，θ^Q表示其参数，通过最小化损失函数来更新参数。

进一步的，步骤S1中NOMA系统网络环境的初始化中，设置小区中的用户数量，用户之间的最小距离，用户与基站的最小距离等相关参数。

进一步的，步骤S2中初始化经验池，使用双端队列(deque)，在经验池中存储的样本数量达到经验池容量后，自动删除队列前端的元素，新生成的经验样本添加到队列的后端，从而保持经验池样本的新颖性。

进一步的，步骤S5中初始化DDPG相关训练参数，包括设置初始学习率、总的迭代次数、折扣因子等

进一步的，步骤S6中，初始状态包含四个组成部分，表示为：

其中，

表示智能体当前所对应的功率分配比例因子，

表示上一时隙智能体可以达到的传输速率，

分别表示上一时隙子信道上，两个用户分别对应的SINR值及分别可以达到的速率。

进一步的，

的计算公式为(设定用户1的信道条件好于用户2)：

SINR_1,n和SINR_2,n分别表示用户1与用户2的SINR。

进一步的，用户i的SINR的计算公式为：

其中，p_i,n表示用户i所分配到的功率，h_i,n表示用户i的信道增益，

表示信道的噪声。

进一步的，h_i,n的计算公式为：

h_i,n＝g_i,n·PL^-1(d)

其中，g_i,n为小尺度衰落，PL^-1(d)表示基站与用户i之间的路径损耗函数。

进一步的，步骤S7中动作的选择，本文算法中动作即子信道上两个用户间的功率分配比例因子：

A＝(0,...,β_n,...,1)

其中，β_n表示子信道上两个用户之间的功率分配比例因子。

进一步的，步骤S7中奖赏函数的设计，本文算法中设置当前时隙所有智能体所得速率加和奖赏函数，计算公式为：

本发明由于采用上述技术方法，能够取得如下技术效果：通过采用双神经网络结构及经验池回放机制，解决前后时刻生成的经验样本之间存在的时间相关性问题；同时通过对状态、动作及奖赏函数进行合理的设计，使智能体能够更加有效的自主学习；通过采用集中式训练方式，减少计算所需要的资源，多次训练后，最终得到最优的功率分配策略，可以有效提升NOMA系统中下行链路的平均传输速率，同时，多个用户在同一时间共享频带，可以有效解决频谱稀缺性问题，提高频谱的利用效率，提升NOMA系统的通信性能。

附图说明

图1下行NOMA系统功率分配方法结构图。

图2演员-评论家算法原理图。

图3深度确定性梯度算法原理图。

图4NOMA下行系统模型图。

图5两用户情况下接收端SIC处理流程图。

图6深度确定性梯度算法中神经网络结构图。

具体实施方式

为了使本发明的实施例的目的、技术方案和优点更加清楚，下面结合附图对本发明实施例中的技术方案进行清楚完整的描述。

实施例1：如图1所示为本发明一个实施例的蜂窝网络功率分配方法结构图，本实施例提供一种基于深度确定性策略梯度算法的下行NOMA系统功率分配方法，具体步骤如下：

1)初始化下行NOMA系统仿真环境，如图4所示为仿真通信系统图，包含基站及多个终端用户，考虑到接收端解码的复杂度，考虑一个子信道上包含两个用户的情况；

2)初始化演员网络模块及评论家网络模块中，各自包含的两个神经网络的权重参数；

3)采用相关算法完成用户与信道的匹配工作，采用子信道之间功率均等分配的方式；

4)获得初始化状态，首先计算小尺度衰落与大尺度衰落，进而得到智能体当前时隙的信道增益，初始设置功率分配比例因子为0.5，计算得到相应的信SINR信息及速率值，从而生成初始状态；

5)将初始状态信息输入到当前演员神经网络中，输出确定性的动作，智能体执行所选择的动作，得到相应的奖赏函数，智能体到达下一时隙的状态；如图6所示为神经网络的结构图，本算法中对于四个神经网络采用相似的网络结构，均包含输入层、隐藏层及输层，区别在于演员网络模块与评论家网络模块两者的隐藏层层数不同；

6)采用的是确定性行为策略，即动作是通过当前演员网络直接输出，为加强智能体对于未知环境的探索能力，人为给智能体所选择的动作添加一定量的噪声，从而使智能体可以更深的探索环境，利用信息进行自主学习，优化行为策略；

7)存储经验样本(s_t,a_t,s_t+1,r_t)到经验池；

8)迭代次数达到一定次数后，在间隔一定时隙后，从经验池中随机抽取批次数据量输入到神经网络中进行训练，计算损失函数并最小化损失值，更新当前演员神经网络和当前评论家神经网络的参数；

9)采用软更新方式，更新目标演员神经网络与目标评论家神经网络的权重参数；

10)将下一时隙的状态值作为当前的状态值，重复步骤五

11)若时隙数达到设定值，重复步骤4，开始下一轮迭代，直到达到总迭代次数；

本发明提出基于深度确定性策略梯度算法的下行NOMA系统功率分配方法，对状态进行设计并作为神经网络的输入，功率分配比例因子作为可选取的动作，通过演员网络模块输出动作的价值，评论家网络模块对智能体采取的动作进行评价，进而促进智能体更加有效的自主学习，同时优化行为策略，达到提升功率分配合理性及系统性能的效果。

可帮助下行NOMA系统中基站实现合理有效的功率分配，实现对于不同的用户有针对性地分配不同的功率，实现合理的功率复用，对于提升NOMA系统中下行链路的数据传输速率具有重大研究意义，同时深度强化学习采用深度神经网络实现Q值的逼近，兼具数据分析能力及复杂系统中的决策能力，具备良好的自主学习能力，因此对于复杂多变的通信场景具备良好的泛化性能，可实现高效合理功率分配，在节省了运算耗时的同时，也提高了系统的通信性能。

实施例2：本实施例对实施例1中出现小尺度衰落，大尺度衰落、动作集合、神经网络结构及目标网络的参数更新方式进行具体的解释说明。

(1)小尺度衰落，公式为：

其中，

并且

相关系数ρ的计算公式为：ρ＝J₀(2πf_dT_s)J₀(·)代表第一类零阶贝塞尔函数，f_d代表最大多普勒频率，T_s表示相邻时刻的时间间隔，单位为毫秒。

(2)大尺度衰落，公式为：PL^-1(d)＝-120.9-37.6log₁₀(d)+10log₁₀(z)

其中，z是一个服从对数正太分布的随机变量，标准差为8dB，d表示的是发射端到接受端的距离，单位为km。

(3)动作集合是一个连续值集合，取值范围从0到1，但不包含0和1，动作空间表示如下：

A＝(0,...,β_n,...,1)

其中，β_n表示子信道上两个用户之间的功率分配比例因子，动作的选择使用确定性策略，即选择神经网络所输出的动作，而不是采用根据概率选择的方式。

(4)神经网络结构，演员网络模块与评论家网络模块中，各自包含的两个神经网络结构相同，初始化权重参数相同，网络结构均包含输入层、两层隐藏层及输出层，不过两个网络模块中神经网络包含的隐藏层层数可能会有所不同。

神经网络对于大量且高维度的数据具备良好的分析感知能力，使用神经网络来拟合Q值可以解决涉及高维度状态-空间的问题，且使用经验池回放机制，通过随机抽取批次数据输入神经网络中进行训练，可以有效解决前后时隙生成的经验样本之间存在的相关性问题。

当前演员网络和当前评论家网络的参数是通过最小化损失函数的值来实时更新，而目标演员网络和目标评论家网络的参数是随着对应的当前网络更新而更新，采用“软更新”的方式，而不是完全复制的方式，表示如下：

其中，τ表示参数更新幅度大小。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，在任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种深度确定性策略梯度的下行NOMA功率分配方法，其特征在于使用深度确定性策略梯度算法实现下行NOMA系统的功率分配，其包括如下：算法中共包含四个神经网络，演员模块和评论家模块分别使用双神经网络结构；使用经验池回放机制进行训练，解决训练样本间存在的时间相关性问题；对算法中状态、动作及奖赏函数分别进行对应设计，使智能体可以更加有效的自主学习；采用集中式的训练方式，经过多次迭代，最终得到最优的功率分配策略；通过功率分配使NOMA系统中的多个用户处于不同的、恰当的功率级别，在最大功率的限制下，最大程度提升系统的中传输速率，从而提升NOMA系统的总体通信性能和用户的通信体验。

2.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法，初始化下行NOMA系统环境，包含基站及多个终端用户，考虑到接收端解码的复杂度，考虑一个子信道上包含两个用户的情况，初始化状态作为神经网络的输入。

3.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法，状态包含四个部分，第一个部分是上一时隙智能体所达到的和速率，第二部分是上一时隙智能体上两个用户各自的SINR信息，第三部分是上一时隙智能体上两个用户各自所达到的传输速率，第四部分是当前时隙智能体所采取的功率分配比例因子，状态表示为：

其中，

表示上一时隙智能体所达到的和速率，

表示上一时隙智能体上两个用户各自的SINR信息，

表示上一时隙智能体上两个用户各自所达到的传输速率，

表示当前时隙智能体所采取的功率分配比例因子。

4.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法，动作集合是一个连续值集合，取值范围从0到1，但不包含0和1；集合表示为：

A＝(0,...,β_n,...,1)

其中，β_n表示子信道上两个用户之间的功率分配比例因子。

5.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法，将初始状态信息输入当前演员神经网络，输出智能体所要采取的动作；在达到固定迭代次数及固定时隙时，从经验池中随机抽取批次数据输入神经网络进行训练，计算当前演员网络和当前评论家网络的损失函数，通过梯度下降法更新两个网络的参数；目标演员网络和目标评论家网络是采取的“软更新”的方式，来更新网络权重参数，表示如下：

其中，τ表示参数更新幅度大小。

6.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法，奖赏函数的设计，是通过设置当前时隙所有智能体所能达到的传输速率总和，计算公式为：

7.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法，采用双神经网络结构及经验回放机制，有效分析处理大量数据，并且避免训练样本之间存在的时间相关性，提升神经网络的性能；所述一种基于深度确定性策略梯度的下行NOMA功率分配方法，对状态集合、动作集合及奖赏函数根据仿真NOMA系统环境进行对应设计，进行神经网络的训练；所述一种基于深度确定性策略梯度的下行NOMA功率分配方法，对两个目标神经网络的参数更新采取“软更新”的方式，每次更新一部分，而不是完全复制两个当前神经网络的参数；通过训练神经网络，最终得到最优的功率分配策略。