CN114302497A

CN114302497A - 一种应用于非授权毫米波段异构网络共存的调度方法

Info

Publication number: CN114302497A
Application number: CN202210079751.1A
Authority: CN
Inventors: 付立群; 周倩; 叶小文
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-04-08
Anticipated expiration: 2042-01-24
Also published as: CN114302497B

Abstract

一种应用于非授权毫米波段异构网络共存的调度方法，涉及无线通信网络优化。首先初始化参数，并将NR‑U网络中的基站设为Agent，将其可调度的用户看做可选的动作；观察当前状态，Agent得到在当前状态下所有动作的Q值，依据策略选择下一步的动作；执行动作后Agent得到相应的反馈并转入下一状态，存储经验，当经验池中的经验数累积到一定量后，开始学习，更新拉格朗日乘子，更新评估网络参数，再更新目标神经网络参数；重复以上步骤直到收敛，获得最优调度策略。有效利用非授权毫米波段定向传输的特性，在频谱环境先验知识未知的情况下，动态调整用户调度策略，在最大化NR‑U网络的总数据速率的同时满足不同用户QoS要求。

Description

一种应用于非授权毫米波段异构网络共存的调度方法

技术领域

本发明涉及无线通信网络优化，尤其是涉及一种应用于非授权毫米波段异构网络共存的调度方法。

背景技术

近年来，随着5G蜂窝网络中数据业务需求的快速增长，现有的低频段频谱资源很难满足通信需求。同时为减轻授权频带的压力，在第五代无线通信(5G)中，非授权毫米波段得到了广泛的关注。工作在非授权频段的5G网络被称为5G NR-U网络。

在非授权毫米波频带，5G NR-U网络面临的一个关键挑战是确保其用户终端(UE)与原本就工作在非授权毫米波频段的WiGig网络中的原始设备和谐共存。与sub-7GHz非授权频段的频谱共享问题不同，非授权毫米波频段会面临一些新的问题。由于毫米波频段具有频率高、波长短、路径损耗高等特点，为了克服毫米波段的高路径损耗，将波束赋形技术应用到毫米波通信网络中，产生方向性强的窄波束用于毫米波信号传输。这种定向传输可以显著提高空间复用，增加频带利用率，但这也使得NR-U网络与WiGig网络之间的干扰关系变得更加复杂。基于以上特点，sub-7GHz非授权频段的频谱共享技术无法直接应用于非授权毫米波段，因此，设计一种有效的适用于非授权毫米波的终端调度方案具有重要意义。

目前，已有一些适用于非授权毫米波段的共存方案被广泛研究。3GPP提出应用于发送端的全向的先听后说机制(omniLBT)和定向先听后说(dirLBT)机制。然而由于毫米波段的定向传输特性，在发送端采用全向的先听后说机制会带来暴露节点问题，降低了空间复用。与此同时，采用定向先听后说时，由于只在传输方向上进行能量检测，会带来隐藏节点问题，进而增加了碰撞概率。为了进一步减少不同网络之间的干扰，S.Lagen等提出了应用于接收端的先听后收(LBR)机制来辅助发送端的先听后说机制。然而，基于先听后说和先听后收的机制在每次发送或者接收之前都要进行能量检测，这造成了额外的系统开销，使得频谱利用率较低。Z.Sha等人提出了一种基于图论的调度方案来减少不同网络间的干扰，但是执行该方法需要事先了解每个网络的拓扑结构，这在实际中往往是不可得的。为了克服以上挑战，本发明采用强化学习的方法来设计NR-U网络的调度方案。

Q-learning是一种异策略的离线强化学习方法。其Agent基于状态在每个离散的时间步骤下采取动作，与环境进行交互，从而进入到下一状态并得到奖励。Agent的目标是最大化长期累积奖励。Agent在每个时隙都需要根据Q值利用ε-greedy策略进行利用(Exploitation)和探索(Exploration)的权衡。当问题的状态动作空间过大时，Q-learning将不再适用，此时引入深度神经网络来代替Q表，即deep Q-network(DQN)算法。DQN算法中的经验回放机制和固定目标神经网络机制能提高算法的稳定性。本发明提出一种基于DQN的改进算法，多约束DQN(AMC-DQN)算法，与传统的DQN相比，它具有以下特征。第一，改进的AMC-DQN算法可以使NR-U网络与WiGig网络和谐共存，而不需要知道WiGig网络的信息。第二，改进的AMC-DQN算法不需要额外的时隙进行信道检测，可以大大提高数据速率。第三，改进的AMC-DQN算法在提高网络总数据速率的同时，能够满足每个用户不同的QoS要求。

发明内容

本发明的目的在于针对非授权毫米波段频谱利用不充分的特点，以及现存的频谱共享策略频谱利用率低和各个用户终端资源分配不均等问题，提供一种应用于非授权毫米波段异构网络共存的调度方法，即基于AMC-DQN算法的频谱共享及用户调度的方法。

本发明包括以下步骤：

1)首先初始化参数，并将NR-U网络中的基站设为Agent，将其可调度的用户看做可选的动作；

2)观察当前时隙的环境状态，Agent得到在当前状态下所有动作的Q值；

3)依据ε-greedy策略选择下一步的动作；

4)执行动作后，Agent得到相应的反馈并转入下一状态；

5)将当前环境状态、Agent选取的动作、Agent获取的奖励、成本序列以及下一时隙的环境状态以经验的形式存入经验池中；

6)重复步骤2)～5)直到经验池中累积到足够的经验，开始学习，更新拉格朗日乘子，然后更新评估网络参数，再更新目标神经网络参数；

7)重复以上步骤直到收敛，获得最优调度策略。

在步骤1)中，所述初始化参数包括系统参数和算法参数，所述系统参数，系统中的NR-U网络由1个基站(gNB)和N个用户终端(UE)组成，WiGig网络由M个WiGig接入点(AP)及其各自的用户终端(STA)组成；所述算法参数包括：每个拉格朗日乘子的初始值、折扣因子γ、评估神经网络的学习率α₁、拉格朗日乘子的学习率α₂、训练时随机抽取的经验的数量N_e、初探索率ε、目标神经网络更新频率T₀、经验池容量、初始状态s₀。

在步骤3)中，所述依据ε-greedy策略选择下一步的动作，Agent为NR-U网络中的基站，其选择将要传输数据的用户，即a_t∈{1,2,…,N}，其中a_t＝n表示基站将在当前时隙传输一个数据包给用户n；所述ε-greedy策略具体为：

(1)以1-ε的概率选取Q值最大的动作，其中初探索率ε∈[0,1]；

(2)以ε的概率随机选择一个动作，即随机选择一个用户传输数据包。

在步骤4)中，所述执行动作后，Agent得到相应的反馈并转入下一状态的具体步骤可为：执行动作a_t后，若传输成功，观测值为o_t＝1，否则o_t＝0。状态由前D个时隙的动作观测对z_t＝(a_t,o_t)组成，即s_t+1＝(z_t-D+1,z_t-D+2,…,z_t)，其中D是状态历史长度。进一步地，Agent的目标是要最大化整个NR-U网络的数据速率同时满足每个用户的QoS要求，所以执行动作a_t后获得的奖励r_t+1定义为NR-U网络的总数据速率，用公式表示如下：

其中，

是第n个用户在当前时隙的数据速率。执行动作a_t后的成本定义为每个用户在当前时隙的数据速率，即：

因此，Agent的目标可以用公式表示为：

在步骤6)中，所述学习分为两步：第一步从经验池中随机采样一小批经验更新每个拉格朗日乘子

第二步根据更新之后的拉格朗日乘子计算每条采样出来的样本的总的奖励

再根据

计算评估神经网络的损失函数L(θ)，并在反向传播的过程中，利用随机梯度下降法迭代搜索损失函数的最小值，实现评估神经网络的训练；

进一步的，所述更新每个拉格朗日乘子

的具体步骤可为：随机采样出N_e条经验组成mini-batch B；若B中第n个用户的平均成本不低于最小阈值，即

该拉格朗日乘子保持不变；否则该拉格朗日乘子更新为：

其中α₂是拉格朗日乘子的学习率；根据拉格朗日对偶方法可得：

故

但是

在实际中是很难计算的，所以为了简便起见，将拉格朗日对偶的梯度近似为

综上所述，每个拉格朗日乘子的更新规则可以总结为：

更新完每个拉格朗日乘子λ_n之后，Agent利用更新过的λ_n计算B中每条经验的总奖励：

其中，ω_n是对应每个拉格朗日乘子λ的指示因子，若λ_n相对于前一个时隙改变了，则ω_n＝1，否则ω_n＝0，η_n是每个用户的QoS约束，即最小的数据速率要求。

进一步的，所述评估神经网络的损失函数L(θ)的表达式如下：

其中，γ∈[0,1]是折扣因子，Q(s_i,a_i；θ)是评估神经网络的输出，θ是评估神经网络的参数向量；Q(s_i+1,a′；θ_-)是目标神经网络的输出，θ_-是目标神经网络的参数向量。

在步骤7)中，所述重复以上步骤直到收敛的具体步骤可为：更新执行的时隙数t，即t＝t+1，若t＝T，则迭代结束；否则返回步骤2)，并重复步骤2)至步骤6)；其中，T为总的迭代次数或时隙数。

本发明克服非授权毫米波段现存的调度方案中频带利用率低的问题，采用深度强化学习框架来对NR-U网络在满足每个用户的QoS要求时的总数据速率最大化问题进行建模。

与现有技术相比，本发明的优点在于：

1)本发明利用了深度强化学习算法AMC-DQN来解决非授权毫米波段的调度问题，该方法利用过去的经验中学习调度策略，而不需要进行信道检测；

2)本发明大大提高了网络的总数据速率，并且能够满足每个UE的QoS要求。

3)本发明不会降低WiGig网络的数据速率。

附图说明

图1为本发明的网络场景图。

图2为本发明实施例的流程框图。

图3为本发明与现有发明针对NR-U网络总的数据速率方面的性能比较示意图。

图4为本发明与现有发明针对NR-U网络中每个用户的数据速率方面的性能比较示意图。

图5为本发明中的拉格朗日乘子收敛情况示意图。

图6为本发明与现有发明对WiGig网络各个接入点的数据速率影响的性能比较示意图。

具体实施方式

以下实施例将结合附图对本发明作进一步详细描述。

本发明考虑如图1所示的非授权毫米波段NR-U网络与WiGig网络共存的场景。假设NR-U基站与WiGig接入点定向发送，NR-U用户终端与WiGig用户终端全向接收，因此NR-U基站与WiGig接入点可以在同一时间向不同方向上的用户终端传输数据包。NR-U和WiGig网络无法进行信息交换，为了保护WiGig网络的通信质量，并且最大化自身的通信质量，NR-U网络在每一时隙避免被WiGig网络干扰。同时，NR-U网络要满足不同的用户终端的QoS要求。本发明应用深度强化学习算法来指导NR-U基站做出决策，即在每个时隙选择一个用户进行数据传输，该用户在传输结束后会发送一个二进制应答信号(Acknowledgement，ACK)，该信号反应用户是否成功接收到数据包。

参见图2，本发明实施例包括以下步骤：

1)初始化参数。系统参数包括：系统中的NR-U网络由1个基站(gNB)和N个用户终端(UE)组成，WiGig网络由M个WiGig接入点(AP)及其各自的用户终端(STA)组成。算法参数包括：每个拉格朗日乘子的初始值、折扣因子γ、评估神经网络的学习率α₁、拉格朗日乘子的学习率α₂、训练时随机抽取的经验的数量N_e、初探索率ε、目标神经网络更新频率T₀、经验池容量、初始状态s₀；

2)将NR-U网络中的基站定义为Agent，Agent观察当前时隙的环境状态s_t；

3)Agent根据所观察的当前时隙的环境状态s_t，通过神经网络得到的在当前环境状态s_t下所有动作的Q值，并依据ε-greedy策略选择动作a_t，即选择用户终端(UE)传输数据包，Agent为NR-U网络中的基站，其选择将要传输数据的用户，即a_t∈{1,2,…,N}。其中a_t＝n表示基站将在当前时隙传输一个数据包给用户n。进一步地，步骤3)所述的ε-greedy策略具体为：

(1)以1-ε的概率选取Q值最大的动作，其中初探索率ε∈[0,1]；

4)执行步骤3)所选的动作a_t，即向选中的用户发送数据包。Agent得到观测o_t、奖励r_t+1和成本序列

的同时，环境转入下一转态s_t+1；执行动作a_t后，该用户会发送一个ACK信号告知基站是否成功接收到数据包，若传输成功，观测值为o_t＝1，否则o_t＝0。状态由前D个时隙的动作观测对z_t＝(a_t,o_t)组成，即s_t+1＝(z_t-D+1,z_t-D+2,…,z_t)，其中D是状态历史长度。进一步地，Agent获得奖励r_t+1和成本序列

Agent的目标是要最大化整个NR-U网络的数据速率同时满足每个用户的QoS要求，所以执行动作a_t后获得的奖励r_t+1定义为NR-U网络的总数据速率，用公式表示如下：

其中，

是第n个用户在当前时隙的数据速率，其定义如下：

其中，W为信道带宽，SINR_n表示用户n的信干噪比。当信干噪比SINR_n的值大于阈值SINR_th时传输成功，否则传输失败，数据速率为0。用户n的接收信干噪比SINR_n公式为：

其中，n∈{1,2,…,N}为NR-U用户的索引，m∈{1,2,…,M}为发送端(NR-U基站和WiGig接入点)的索引，m＝0表示发送端是NR-U基站，否则是WiGig接入点。N₀是噪声噪声功率谱密度，

是用户n的接收功率，其公式为：

其中，ξ是小尺度衰落，

是发射功率，

是发送端的天线增益，

是接收端的天线增益，L_m,n＝(c/4πf_c)²/(d_m,n)^α是IEEE 802.11ad路径损耗模型，其中α＝2是路径损耗指数，c是光速，f_c是载波频率，d_m,n是发送端m和NR-U用户n之间的距离。

进一步地，用户n的成本定义为其在当前时隙的数据速率，即：

综上，Agent的目标可以用公式表示为：

5)将当前环境状态s_t、Agent选取的动作a_t、Agent获取的奖励r_t+1、成本序列

以及下一时隙的环境状态s_t+1以经验

的形式存入经验池中；

6)重复步骤2)至步骤5)直到经验池中累积到足够的经验，再开始学习。学习分为两步：第一步从经验池中随机采样出N_e条经验组成mini-batch B，并据此更新每个拉格朗日乘子

具体步骤为：若B中第n个用户的平均成本不低于最小阈值，即

该拉格朗日乘子保持不变；否则该拉格朗日乘子更新为：

其中α₂是拉格朗日乘子的学习率。根据拉格朗日对偶方法可得

但是

在实际中是很难计算的，所以为简便起见，将拉格朗日对偶的梯度近似为

综上所述，每个拉格朗日乘子的更新规则可以总结为：

第二步根据更新之后的拉格朗日乘子λ_n计算每条采样出来的样本的总的奖励

其公式为：

其中，ω_n是对应每个拉格朗日乘子λ的指示因子，若λ_n相比于前一个时隙改变了，则ω_n＝1，否则ω_n＝0，η_n是每个用户的QoS约束，即最小的数据速率要求。进一步地，再根据

计算评估神经网络的损失函数L(θ)，即

其中，γ∈[0,1]是折扣因子，Q(s_i,a_i；θ)是评估神经网络的输出，θ是评估神经网络的参数向量；Q(s_i+1,a′；θ_-)是目标神经网络的输出，θ_-是目标神经网络的参数向量。在反向传播的过程中，利用随机梯度下降法迭代搜索损失函数L(θ)的最小值，实现评估神经网络的训练；

7)训练指定次数之后，将评估神经网络的参数θ复制给目标神经网络θ_-，以更新目标神经网络的参数；

8)更新执行的时隙数t，即t＝t+1，若t＝T，则迭代结束；否则返回步骤2)，并重复步骤2)至步骤7)。其中，T为总的迭代次数或时隙数。

通过以下仿真来进一步说明本发明方法的可行性和有效性。

假设60GHz非授权毫米波段有3个WiGig接入点，分别服务3、3、4个用户，NR-U网络基站服务6个用户，它们随机分布在WiGig用户周围。信道带宽为1GHz，噪声功率谱密度为-174dBm/Hz，NR-U基站和WiGig接入点的发送功率都为20dBm，ξ遵循标准的瑞利分布。仿真中考虑理想的波束模型，也就是波束的旁瓣增益为0，所以发送天线增益即主瓣增益为

波束宽度为30度，接收天线增益为

信干噪比门限为10dB。在AMC-DQN算法中，历史状态长度D设为30，折扣因子γ＝0.95，评估神经网络的学习率α₁＝0.001，拉格朗日乘子的初始值为0，且学习率α₂＝0.0001。在ε-greedy策略中，ε初始值为1，每个时隙ε衰减为上一时隙的0.9倍，即0.9*ε，直到0.001。经验池的容量为10000，每个时隙从中随机抽取64条经验组成mini-batch B来训练评估神经网络。每200个时隙，将评估神经网络的参数复制给目标神经网络。

图3和4分别是NR-U网络的总数据速率和网络中各个用户的数据速率，可以本发明与现有的全向先听后说和定向先听后说机制相比，在大大提高了网络的总平均数据速率的同时，能够满足每个用户的QoS要求。还可以看出，虽然传统的DQN算法(拉格朗日乘子不更新，为常数1)可以达到与本发明相同的总数据速率，但是传统的DQN算法无法满足不同用户的QoS要求。

图5是每个拉格朗日乘子的收敛情况。可以看出他们最终都可以收敛，且λ₁收敛得最快，这表明在所有的用户中，用户1最先满足其QoS要求。除此之外，还可以看出λ₆收敛到所有拉格朗日乘子中的最大值，这表明用户6的数据速率与其目标QoS差距最大。

图6是每个WiGig接入点的数据速率。可以看出，与NR-U网络共享频带之后，WiGig网络的数据速率有所下降，但是相比于现有的方法，本发明对WiGig网络造成的干扰更小。

Claims

1.一种应用于非授权毫米波段异构网络共存的调度方法，其特征在于包括以下步骤：

3)依据ε-greedy策略选择下一步的动作；

4)执行动作后，Agent得到相应的反馈并转入下一状态；

7)重复以上步骤直到收敛，获得最优调度策略。

2.如权利要求1所述一种应用于非授权毫米波段异构网络共存的调度方法，其特征在于在步骤1)中，所述初始化参数包括系统参数和算法参数，所述系统参数，系统中的NR-U网络由1个基站和N个用户终端组成，WiGig网络由M个WiGig接入点及其各自的用户终端组成；所述算法参数包括：每个拉格朗日乘子的初始值、折扣因子γ、评估神经网络的学习率α₁、拉格朗日乘子的学习率α₂、训练时随机抽取的经验的数量N_e、初探索率ε、目标神经网络更新频率T₀、经验池容量、初始状态s₀。

3.如权利要求1所述一种应用于非授权毫米波段异构网络共存的调度方法，其特征在于在步骤3)中，所述依据ε-greedy策略选择下一步的动作，Agent为NR-U网络中的基站，其选择将要传输数据的用户，即a_t∈{1,2,…,N}，其中，a_t＝n表示基站将在当前时隙传输一个数据包给用户n。

4.如权利要求1所述一种应用于非授权毫米波段异构网络共存的调度方法，其特征在于在步骤3)中所述ε-greedy策略具体为：

(1)以1-ε的概率选取Q值最大的动作，其中初探索率ε∈[0,1]；

5.如权利要求1所述一种应用于非授权毫米波段异构网络共存的调度方法，其特征在于在步骤4)中，所述执行动作后，Agent得到相应的反馈并转入下一状态的具体步骤为：执行动作a_t后，若传输成功，观测值为o_t＝1，否则o_t＝0；状态由前D个时隙的动作观测对z_t＝(a_t,o_t)组成，即s_t+1＝(z_t-D+1,z_t-D+2,…,z_t)，其中D是状态历史长度；进一步地，Agent的目标是要最大化整个NR-U网络的数据速率同时满足每个用户的QoS要求，所以执行动作a_t后获得的奖励r_t+1定义为NR-U网络的总数据速率，用公式表示如下：