CN113242601B

CN113242601B - 一种基于优化样本采样的noma系统资源分配方法及存储介质

Info

Publication number: CN113242601B
Application number: CN202110505390.8A
Authority: CN
Inventors: 李月; 王晓飞; 贺梦利; 刘泽龙; 魏唯; 张玉
Original assignee: Heilongjiang University
Current assignee: Heilongjiang University
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2022-04-08
Anticipated expiration: 2041-05-10
Also published as: CN113242601A

Abstract

一种基于优化样本采样的NOMA系统资源分配方法及存储介质，属于移动通信与无线网络技术领域。为了解决利用现有的深度强化学习网络对NOMA系统的资源进行分配时可能存在重要价值的样本没有被学习到的问题，以及导致的学习速率低的问题。本发明设计了以当前信道状态信息为输入、以用户总和速率为优化目标，以每个样本TD误差为优先级的基于样本优化池的深度强化学习网络，并利用其输出最优的用户分组策略，同时利用深度确定性策略梯度网络输出每个用户的最优分配功率。本发明通过引入样本的优先级提高了有价值样本的出现概率，可以提高深度强化学习网络的学习速率，加快收敛速度。主要用于NOMA系统的资源分配。

Description

一种基于优化样本采样的NOMA系统资源分配方法及存储介质

技术领域

本发明涉及NOMA系统资源分配方法，属于移动通信与无线网络技术领域。

背景技术

在NOMA(非正交多址技术)系统中，发送端先将所有用户分组，然后给用户分配不同的功率，最后将不同的用户叠加在同一时频资源块经过无线信道传输到接收端，在接收端使用串行干扰消除技术对信号解调重构恢复出原来的信号。由此可见，NOMA系统的用户分组和功率分配结果将直接影响系统的性能，所以这两个问题常常联合在一起进行优化，统称为NOMA系统资源分配。

近年来，深度强化学习网络被用于对NOMA系统的资源分配优化问题进行求解，其中最常用的是DQN网络。DQN网络中使用了经验回放算法，目的是减小样本之间的相关性，保证样本的独立同分布特性。但当前从样本池中采样都采用的是均匀采样，这忽略了样本的重要性，在采样过程中可能使一些有重要价值的样本没有被学习到，降低了学习速率。基于此，本发明提出一种基于优化样本采样的NOMA系统资源分配方法，通过给样本设置优先级，提高重要样本被采样的概率，让对学习过程有用的样本以更高的频率重放，可以提高学习速率，减少训练时间。

发明内容

本发明是为了解决利用现有的深度强化学习网络对NOMA系统的资源进行分配时可能存在重要价值的样本没有被学习到的问题，以及导致的学习速率低的问题。

一种基于优化样本采样的NOMA系统资源分配方法，包括以下步骤：

S1、基站获取用户的信道状态信息；所述信道状态信息包括信道增益；

S2、在接收端使用串行干扰消除技术进行干扰消除；

S3、利用深度强化学习网络进行用户分组，并利用深度确定性策略梯度网络给用户分配功率；

进行用户分组的深度强化学习网络如下：

深度强化学习网络的Q网络产生选择当前动作的估计值，深度强化学习网络的目标Q网络产生用于训练网络的目标值；深度强化学习网络还设有一个用于采样的优化样本池，在优化样本池中利用TD_error给样本设置优先级，TD_error为当前价值函数输出的动作价值与对该动作价值的估计值之间的差异；使用Prio数组存储样本的优先级；将记忆库分成若干个簇，将每次进入经验池的最新优先级和之前所有的旧的优先级按照从大到小排序，然后将排序后的所有样本优先级逐个添加在Prio的簇的对应位置中，并使用data数组存储样本元组；

基站将获取的信道增益s_t输入到设有优化样本池的深度强化学习网络中，以用户总和速率为优化目标，网络根据当前信道增益使用ζ-greedy策略从用户分组空间A1内选择出用户组合

将给用户分配功率的深度确定性策略梯度网称为功率分配网络，功率分配网络根据当前信道状态信息s_t确定输出每个用户的功率

在每个时隙TS中，根据优化样本采样的深度强化学习网络输出的用户分组

和功率分配网络得到的用户功率

最终得到

S4、将用户分组和用户功率a_t发送到NOMA系统中，NOMA系统产生在当前信道状态信息下选择用户分组及功率时对应的系统总和速率r_t和下一个时隙TS的信道状态信息s_t+1；并将r_t和s_t+1反馈到深度强化学习网络中，同时将元组(s_t,a_t,r_t,s_t+1)存储经验回放池中；

根据深度强化学习网络和深度确定性策略梯度网络进行用户分组及用户功率分配实现NOMA系统资源分配。

进一步地，在优化样本池的深度强化学习网络中，使用优先经验回放存储样本和优先级，具体存储过程包括以下：

S101、用经验池的容量D除以n，将经验池分成n个簇，每个簇的区间可以表示为

其中j表示第j个簇；然后将Prio和data分别从0开始编号，第j个簇的第一个位置的索引是

每个簇中有

个元素存储优先级，一个元素存储一个样本的优先级，并初始化Prio的优先级为0；

S102、添加新进入的样本优先级之前，先将这个优先级与之前的所有的优先级按照从大到小排序，将排序后的最大的优先级存储在Prio索引是0的位置，同时将对应的样本元组存储在data索引是0的位置；将排序后仅次于最大优先级的第二个优先级添加在Prio索引是1的位置，同理，将对应的样本元组添加在data索引是1的位置，依次类推；

S103、重复上述存储的过程，逐个添加优先级和样本元组。

进一步地，S103所述重复上述存储的过程，逐个添加优先级和样本元组的过程中，得到一个添加优先级之后的Prio和data；当Prio和data存满之后，后进入优化样本池的样本和优先级将会按照同样的存储方式覆盖掉旧的经验重新开始添加。

进一步地，利用深度强化学习网络进行用户分组过程包括进行采样的步骤，在采样时，按照簇的方式进行采样，具体包括以下步骤：

S201、先抽取每个簇中索引是

对应的优先级，其中j是第j个簇，返回优先级编号，根据优先级的编号抽取data中对应位置的样本元组；

S202、如果抽取的样本数m小于等于记忆库簇数n，则抽取每个簇中第一个位置索引是

对应的优先级，若抽取的样本数m大于记忆库簇数n，将继续抽取每个簇中第二个位置索引是

对应的优先级，根据返回的优先级编号抽取data中对应位置的样本元组；

S203、以此类推；返回所有抽样样本的优先级的编号、优先级以及对应的样本元组，并计算样本的归一化权重w_i。

进一步地，所述的样本的归一化权重w_i如下：

首先，计算重要性采样权重

其中，N是样本数，β用于调节偏差程度，P(i)是样本被采样的概率；

然后，对重要性采样权重w_i归一化，得到归一化权重w_i。

进一步地，利用深度强化学习网络进行用户分组，并利用深度确定性策略梯度网络给用户分配功率的过程包括以下步骤：

采样过程得到m个样本(s_i,a_i,r_i,s_i+1)，s_i,a_i,r_i,s_i+1分别表示当前信道状态信息、选择的用户组合、产生的即时奖励和下一个时隙的信道状态信息；计算得到深度强化学习网络中的目标Q网络的目标Q值

其中ω'表示深度强化学习网络中的目标Q网络的网络权重；并重新计算所有样本的TD误差TD_error＝y_i-Q(s_i,a_i；ω)，计算得到损失函数

并计算功率分配网络中的目标Critic网络的目标Q值y_i＝r_i+γQ(s_i+1,π(s_i+1；μ')；θ')，其中r_i表示在当前信道状态信息下给用户分配的功率产生的NOMA系统对应的系统总和速率，γ是衰落因子，θ'和μ'分别是是功率分配网络中的目标Actor和目标Critic网络的网络权重，得到损失函数

根据计算的TD误差更新被采样的样本的优先级p_i，即p_i＝|TD_error|，根据返回的优先级的编号，按照添加优先级的方法更新被采样的样本的优先级；通过随机梯度下降最小化损失函数Loss₁更新深度强化学习网络中的Q网络的网络权重ω，通过最小化损失函数Loss₂更新功率分配网络中的Critic网络的所有参数μ，通过确定性策略梯度

更新功率分配网络中的Actor网络所有参数θ；通过参数复制，更新深度强化学习网络中目标Q网络的网络权重，即ω'＝ω，以及功率分配网络中的目标Critic和Actor网络的所有参数，即μ'＝τμ+(1-τ)μ'；θ'＝τθ+(1-τ)θ'，τ是深度确定性策略梯度网络更新过程的更新参数。

进一步地，所述的系统总和速率r_t如下：

其中B是NOMA系统带宽，S是子信道数；SINR(t)为接收端使用串行干扰消除技术进行干扰消除的过程产生的信干噪比。

进一步地，所述的接收端使用串行干扰消除技术进行干扰消除的过程包括以下步骤：

在同一信道上有l_p个用户，每个用户分配的功率记为p_l；在接收端先解码功率最大的用户，然后从总混合信号中减去功率最大用户的信号得到剩余用户的混合信号；

再对信道上次弱的用户信号进行串行干扰消除技术，从除功率最大用户以外的剩余用户的混合信号中减去信道上次弱的用户的信号；

按照用户功率从大到小的顺序依次重复相同的操作，直到所需的用户信号在叠加信号中功率最大为止，将其余功率小于所需用户功率的用户当作干扰用户的信号，产生的信干噪比为SINR(t)。

进一步地，所述的信干噪比如下：

其中b_s,u(t)＝1表示在子信道s上分配了用户u，b_s,u(t)＝0表示子信道s上没有分配用户u，p_s,u表示在子信道s上用户u分配的功率，b_s,q(t)用来表明在子信道s上是否分配用户q，p_s,q(t)和h_s,q(t)分别表示在子信道s上的干扰信号q分配的功率和信道增益，

是噪声功率密度。

一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现一种基于优化样本采样的NOMA系统资源分配方法。

有益效果：

本发明设计了以当前信道状态信息为输入、以用户总和速率为优化目标，以每个样本TD误差为优先级的基于样本优化池的深度强化学习网络，并利用其输出最优的用户分组策略，同时利用深度确定性策略梯度网络输出每个用户的最优分配功率。本发明通过引入样本的优先级提高了有价值样本的出现概率，可以提高深度强化学习网络的学习速率，加快收敛速度，获得比传统的NOMA系统资源分配算法更好的总和速率性能。

附图说明

图1为资源分配方法对应的系统流程图；

图2为用于样本及其优先级存储的Prio和Data数组的结构示意图；

图3是基于深度强化学习网络及优化样本池的NOMA系统资源分配的结构图。

具体实施方式

具体实施方式一：结合图1和图3说明本实施方式，

本实施方式所述的一种基于优化样本采样的NOMA系统资源分配方法，包括以下步骤：

(1)基站获取用户的信道状态信息。本发明所使用的信道状态信息为信道增益。

(2)在接收端使用串行干扰消除技术进行干扰消除。例如，在同一信道上有3个用户，用户分配的功率分别是P₁＝1W和P₂＝2W和P₃＝3W。在接收端先解码功率最大的用户3，然后从总混合信号中减去用户3的信号得到用户1和用户2的混合信号。再对信道上次弱(P₂＝2W)的用户信号进行串行干扰消除技术，从用户1和2的混合信号中减去用户2的信号。按照用户功率大小依次重复相同的操作，直到所需的用户信号在叠加信号中功率最大为止，将其余功率小于所需用户功率的用户当作干扰用户的信号，因此产生的信干噪比是：

是噪声功率密度。

(3)设计优化样本采样的深度强化学习网络。深度强化学习网络主要包括Q网络和目标Q网络以及优化的样本池。Q网络产生选择当前动作的估计值，目标Q网络产生用于训练网络的目标值。本领域的技术人员都知晓：这里的Q网络即当前值网络，目标Q网络是目标值网络，即Q网络和目标Q网络是深度强化学习网络中的两个网络，所以本发明不再赘述。

在以往的深度强化学习网络中从经验池中随机采样样本，忽略了一些样本的重要性，可能无法学习到一些有价值的样本。在本发明的基于优化样本池的深度强化学习网络中设计一个优化样本池，根据不同样本的重要性程度使用时序差分误差(TD_error)给样本设置优先级，TD_error表示当前价值函数输出的动作价值与对该动作价值的估计值之间的差异，即TD_error＝y_i-Q(s_i,a_i；ω)。TD_error越大，表明当前价值函数的输出越不准确，越需要被学习。与以往普通的经验回放不同，本发明将记忆库分成若干个簇，将每次进入经验池的最新优先级和之前所有的旧的优先级按照从大到小排序，然后将排序之后的优先级逐个添加在簇中对应的位置，同时将对应的样本元组添加在data库中。采样时从每个簇中分别抽取较大的优先级以及对应的样本元组训练神经网络。

(4)设置优先级后，为了能够抽取到较大TD误差的样本，将记忆库分成若干个簇，并将每次进入记忆库的样本的优先级和之前存储在记忆库中所有的优先级按照从大到小排序，在本发明中使用Prio数组和data数组存储样本的优先级和样本元组，将排序后的所有样本优先级逐个添加在Prio的簇的对应位置中，Prio的结构如图2中的状态(a)所示，图2中的状态(a)为添加优先级前的Prio；idx表示数组索引，D代表经验池容量，n表示将经验池分成n个簇，每个簇中可以存

个优先级，第j个簇的第一个优先级的索引可以表示为

区间可以表示为

本发明使用另一个data存储对应的样本元组。Prio和data的索引是一一对应的，一个样本的优先级对应一个样本元组。

(5)利用优先级进行经验回放改变了样本回放的频率，从而改变了原来的样本数据分布，导致Q网络输出的估计值有偏差，使用重要性采样权重

来修正偏差，其中，N是样本数，P(i)是样本被采样的概率，β用于调节偏差程度，当β＝1时表示已经完全消除了偏差，为了保证学习的稳定性，需要对重要性采样权重w_i归一化。

(6)基站将获取的信道增益s_t输入到优化样本池的深度强化学习网络中，以用户总和速率为优化目标，网络根据当前信道增益使用ζ-greedy策略从用户分组空间A1内选择出用户组合

即以概率ζ在用户分组空间A1内选取用户组合，或者以(1-ζ)的概率选择使估计Q值最大的的用户组合，即

其中s_t表示当前的信道增益，

表示选择的用户组合，ω表示深度强化学习网络Q网络的网络权重，

表示这个用户组合

的估计Q值。

(7)设计可以给用户分配功率的深度确定性策略梯度网络DDPG，将其称为功率分配网络，输入当前信道状态信息s_t，输出每个用户的功率

然而，在功率分配网络中，因为在确定性策略下，输入相同的状态，输出的用户功率就一定相同，即

但是在策略上就失去了探索性，所以本发明就给策略网络添加随机噪声，这时就类似于ζ-greedy策略，最终在功率分配空间内选择出的用户功率

其中s_t表示信道增益，θ表示功率分配网络的Actor网络权重，noise表示随机噪声。

(8)在每个时隙TS中，根据优化样本采样的深度强化学习网络输出的用户分组

和功率分配网络得到的用户功率

最终得到

(9)将用户分组和用户功率a_t发送到NOMA系统中，NOMA系统产生在当前信道状态信息下选择这个用户分组及功率时对应的系统总和速率

和下一个时隙TS的信道状态信息s_t+1，其中B是NOMA系统带宽，S是子信道数。并将r_t和s_t+1反馈到深度强化学习网络中，同时将元组(s_t,a_t,r_t,s_t+1)存储经验回放池中，其中t＝1,2,...,m。

(10)每个时隙TS中，在优化样本池的深度强化学习网络中，使用一种优先经验回放存储样本和优先级。整个存储步骤如下：

101、用经验池的容量D除以n，将经验池分成n个簇，每个簇的区间可以表示为

其中j表示第j个簇。然后将Prio和data分别从0开始编号，第j个簇的第一个位置的索引是

每个簇中有

102、添加新进入的样本优先级之前，先将这个优先级与之前的所有的优先级按照从大到小排序，将排序后的最大的优先级存储在Prio索引是0的位置，同时将对应的样本元组存储在data索引是0的位置。将排序后仅次于最大优先级的第二个优先级添加在Prio索引是1的位置，同理，将对应的样本元组添加在data索引是1的位置。依次类推。

103、重复上述存储的方法逐个添加优先级和样本元组。假设得到一个添加优先级之后的Prio和data，如图2中的状态(b)和状态(c)所示，图2中的状态(b)为添加优先级后的Prio，状态(c)为分簇的data；当Prio和data存满之后，后进入优化样本池的样本和优先级将会按照同样的存储方法覆盖掉旧的经验重新开始添加。

(11)在每个时隙TS，从经验回放池中按照优先采样的方式采样样本训练神经网络。在采样时，本发明对之前添加过的优先级按照簇的方式进行采样。采样步骤如下：

201、先抽取每个簇中索引是

202、如果抽取的样本数m小于等于记忆库簇数n，则抽取每个簇中第一个位置索引是

203、以此类推。返回所有抽样样本的优先级的编号、优先级以及对应的样本元组，并计算(5)中样本的归一化权重w_i。

(12)根据(11)最终将会得到m个样本(s_i,a_i,r_i,s_i+1)，其中i＝1,2,3,......,m，s_i,a_i,r_i,s_i+1分别表示当前信道状态信息、选择的用户组合、产生的即时奖励(NOMA系统对应的系统总和速率)和下一个时隙的信道状态信息；计算得到深度强化学习网络中的目标Q网络的目标Q值

其中ω'表示深度强化学习网络中的目标Q网络的网络权重。并重新计算所有样本的TD误差TD_error＝y_i-Q(s_i,a_i；ω)，计算得到损失函数

(13)根据(12)计算的TD误差更新被采样的样本的优先级p_i，即p_i＝|TD_error|，根据(11)返回的优先级的编号，按照(10)添加优先级的方法更新被采样的样本的优先级。通过随机梯度下降最小化损失函数Loss₁更新深度强化学习网络中的Q网络的网络权重ω，通过最小化损失函数Loss₂更新功率分配网络中的Critic网络的所有参数μ，通过确定性策略梯度

更新功率分配网络中的Actor网络所有参数θ。通过参数复制，更新深度强化学习网络中目标Q网络的网络权重，即ω'＝ω，以及功率分配网络中的目标Critic和Actor网络的所有参数，即μ'＝τμ+(1-τ)μ'；θ'＝τθ+(1-τ)θ'，τ是深度确定性策略梯度网络更新过程的更新参数。

具体实施方式二：

本实施方式为一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现一种基于优化样本采样的NOMA系统资源分配方法。

本发明包括但不限于一种存储介质，还可以是一种设备，所述设备包括处理器和存储器，所述存储器即存储介质，其存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现一种基于优化样本采样的NOMA系统资源分配方法。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于优化样本采样的NOMA系统资源分配方法，其特征在于，包括以下步骤：

S2、在接收端使用串行干扰消除技术进行干扰消除；

进行用户分组的深度强化学习网络如下：

和功率分配网络得到的用户功率

最终得到

根据深度强化学习网络和深度确定性策略梯度网络进行用户分组及用户功率分配实现NOMA系统资源分配；

在优化样本池的深度强化学习网络中，使用优先经验回放存储样本和优先级，具体存储过程包括以下：

每个簇中有

S103、重复上述存储的过程，逐个添加优先级和样本元组。

2.根据权利要求1所述的一种基于优化样本采样的NOMA系统资源分配方法，其特征在于，S103所述重复上述存储的过程，逐个添加优先级和样本元组的过程中，得到一个添加优先级之后的Prio和data；当Prio和data存满之后，后进入优化样本池的样本和优先级将会按照同样的存储方式覆盖掉旧的经验重新开始添加。

3.根据权利要求1所述的一种基于优化样本采样的NOMA系统资源分配方法，其特征在于，利用深度强化学习网络进行用户分组过程包括进行采样的步骤，在采样时，按照簇的方式进行采样，具体包括以下步骤：

S201、先抽取每个簇中索引是

4.根据权利要求3所述的一种基于优化样本采样的NOMA系统资源分配方法，其特征在于，所述的样本的归一化权重w_i如下：

首先，计算重要性采样权重

然后，对重要性采样权重w_i归一化，得到归一化权重w_i。

5.根据权利要求3所述的一种基于优化样本采样的NOMA系统资源分配方法，其特征在于，利用深度强化学习网络进行用户分组，并利用深度确定性策略梯度网络给用户分配功率的过程包括以下步骤：

并计算功率分配网络中的目标Critic网络的目标Q值y_i＝r_i+γQ(s_i+1,π(s_i+1；μ')；θ')，其中r_i表示在当前信道状态信息下给用户分配的功率产生的NOMA系统对应的系统总和速率，γ是衰落因子，θ'和μ'分别是功率分配网络中的目标Actor和目标Critic网络的网络权重，得到损失函数

6.根据权利要求5所述的一种基于优化样本采样的NOMA系统资源分配方法，其特征在于，所述的系统总和速率r_t如下：

7.根据权利要求1至6之一所述的一种基于优化样本采样的NOMA系统资源分配方法，其特征在于，所述的接收端使用串行干扰消除技术进行干扰消除的过程包括以下步骤：

8.根据权利要求7所述的一种基于优化样本采样的NOMA系统资源分配方法，其特征在于，所述的信干噪比如下：

是噪声功率密度。

9.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的一种基于优化样本采样的NOMA系统资源分配方法。