CN114302497A - 一种应用于非授权毫米波段异构网络共存的调度方法 - Google Patents

一种应用于非授权毫米波段异构网络共存的调度方法 Download PDF

Info

Publication number
CN114302497A
CN114302497A CN202210079751.1A CN202210079751A CN114302497A CN 114302497 A CN114302497 A CN 114302497A CN 202210079751 A CN202210079751 A CN 202210079751A CN 114302497 A CN114302497 A CN 114302497A
Authority
CN
China
Prior art keywords
network
user
agent
action
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210079751.1A
Other languages
English (en)
Other versions
CN114302497B (zh
Inventor
付立群
周倩
叶小文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202210079751.1A priority Critical patent/CN114302497B/zh
Publication of CN114302497A publication Critical patent/CN114302497A/zh
Application granted granted Critical
Publication of CN114302497B publication Critical patent/CN114302497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

一种应用于非授权毫米波段异构网络共存的调度方法,涉及无线通信网络优化。首先初始化参数,并将NR‑U网络中的基站设为Agent,将其可调度的用户看做可选的动作;观察当前状态,Agent得到在当前状态下所有动作的Q值,依据策略选择下一步的动作;执行动作后Agent得到相应的反馈并转入下一状态,存储经验,当经验池中的经验数累积到一定量后,开始学习,更新拉格朗日乘子,更新评估网络参数,再更新目标神经网络参数;重复以上步骤直到收敛,获得最优调度策略。有效利用非授权毫米波段定向传输的特性,在频谱环境先验知识未知的情况下,动态调整用户调度策略,在最大化NR‑U网络的总数据速率的同时满足不同用户QoS要求。

Description

一种应用于非授权毫米波段异构网络共存的调度方法
技术领域
本发明涉及无线通信网络优化,尤其是涉及一种应用于非授权毫米波段异构网络共存的调度方法。
背景技术
近年来,随着5G蜂窝网络中数据业务需求的快速增长,现有的低频段频谱资源很难满足通信需求。同时为减轻授权频带的压力,在第五代无线通信(5G)中,非授权毫米波段得到了广泛的关注。工作在非授权频段的5G网络被称为5G NR-U网络。
在非授权毫米波频带,5G NR-U网络面临的一个关键挑战是确保其用户终端(UE)与原本就工作在非授权毫米波频段的WiGig网络中的原始设备和谐共存。与sub-7GHz非授权频段的频谱共享问题不同,非授权毫米波频段会面临一些新的问题。由于毫米波频段具有频率高、波长短、路径损耗高等特点,为了克服毫米波段的高路径损耗,将波束赋形技术应用到毫米波通信网络中,产生方向性强的窄波束用于毫米波信号传输。这种定向传输可以显著提高空间复用,增加频带利用率,但这也使得NR-U网络与WiGig网络之间的干扰关系变得更加复杂。基于以上特点,sub-7GHz非授权频段的频谱共享技术无法直接应用于非授权毫米波段,因此,设计一种有效的适用于非授权毫米波的终端调度方案具有重要意义。
目前,已有一些适用于非授权毫米波段的共存方案被广泛研究。3GPP提出应用于发送端的全向的先听后说机制(omniLBT)和定向先听后说(dirLBT)机制。然而由于毫米波段的定向传输特性,在发送端采用全向的先听后说机制会带来暴露节点问题,降低了空间复用。与此同时,采用定向先听后说时,由于只在传输方向上进行能量检测,会带来隐藏节点问题,进而增加了碰撞概率。为了进一步减少不同网络之间的干扰,S.Lagen等提出了应用于接收端的先听后收(LBR)机制来辅助发送端的先听后说机制。然而,基于先听后说和先听后收的机制在每次发送或者接收之前都要进行能量检测,这造成了额外的系统开销,使得频谱利用率较低。Z.Sha等人提出了一种基于图论的调度方案来减少不同网络间的干扰,但是执行该方法需要事先了解每个网络的拓扑结构,这在实际中往往是不可得的。为了克服以上挑战,本发明采用强化学习的方法来设计NR-U网络的调度方案。
Q-learning是一种异策略的离线强化学习方法。其Agent基于状态在每个离散的时间步骤下采取动作,与环境进行交互,从而进入到下一状态并得到奖励。Agent的目标是最大化长期累积奖励。Agent在每个时隙都需要根据Q值利用ε-greedy策略进行利用(Exploitation)和探索(Exploration)的权衡。当问题的状态动作空间过大时,Q-learning将不再适用,此时引入深度神经网络来代替Q表,即deep Q-network(DQN)算法。DQN算法中的经验回放机制和固定目标神经网络机制能提高算法的稳定性。本发明提出一种基于DQN的改进算法,多约束DQN(AMC-DQN)算法,与传统的DQN相比,它具有以下特征。第一,改进的AMC-DQN算法可以使NR-U网络与WiGig网络和谐共存,而不需要知道WiGig网络的信息。第二,改进的AMC-DQN算法不需要额外的时隙进行信道检测,可以大大提高数据速率。第三,改进的AMC-DQN算法在提高网络总数据速率的同时,能够满足每个用户不同的QoS要求。
发明内容
本发明的目的在于针对非授权毫米波段频谱利用不充分的特点,以及现存的频谱共享策略频谱利用率低和各个用户终端资源分配不均等问题,提供一种应用于非授权毫米波段异构网络共存的调度方法,即基于AMC-DQN算法的频谱共享及用户调度的方法。
本发明包括以下步骤:
1)首先初始化参数,并将NR-U网络中的基站设为Agent,将其可调度的用户看做可选的动作;
2)观察当前时隙的环境状态,Agent得到在当前状态下所有动作的Q值;
3)依据ε-greedy策略选择下一步的动作;
4)执行动作后,Agent得到相应的反馈并转入下一状态;
5)将当前环境状态、Agent选取的动作、Agent获取的奖励、成本序列以及下一时隙的环境状态以经验的形式存入经验池中;
6)重复步骤2)~5)直到经验池中累积到足够的经验,开始学习,更新拉格朗日乘子,然后更新评估网络参数,再更新目标神经网络参数;
7)重复以上步骤直到收敛,获得最优调度策略。
在步骤1)中,所述初始化参数包括系统参数和算法参数,所述系统参数,系统中的NR-U网络由1个基站(gNB)和N个用户终端(UE)组成,WiGig网络由M个WiGig接入点(AP)及其各自的用户终端(STA)组成;所述算法参数包括:每个拉格朗日乘子的初始值、折扣因子γ、评估神经网络的学习率α1、拉格朗日乘子的学习率α2、训练时随机抽取的经验的数量Ne、初探索率ε、目标神经网络更新频率T0、经验池容量、初始状态s0
在步骤3)中,所述依据ε-greedy策略选择下一步的动作,Agent为NR-U网络中的基站,其选择将要传输数据的用户,即at∈{1,2,…,N},其中at=n表示基站将在当前时隙传输一个数据包给用户n;所述ε-greedy策略具体为:
(1)以1-ε的概率选取Q值最大的动作,其中初探索率ε∈[0,1];
(2)以ε的概率随机选择一个动作,即随机选择一个用户传输数据包。
在步骤4)中,所述执行动作后,Agent得到相应的反馈并转入下一状态的具体步骤可为:执行动作at后,若传输成功,观测值为ot=1,否则ot=0。状态由前D个时隙的动作观测对zt=(at,ot)组成,即st+1=(zt-D+1,zt-D+2,…,zt),其中D是状态历史长度。进一步地,Agent的目标是要最大化整个NR-U网络的数据速率同时满足每个用户的QoS要求,所以执行动作at后获得的奖励rt+1定义为NR-U网络的总数据速率,用公式表示如下:
Figure BDA0003485622670000031
其中,
Figure BDA0003485622670000032
是第n个用户在当前时隙的数据速率。执行动作at后的成本定义为每个用户在当前时隙的数据速率,即:
Figure BDA0003485622670000033
因此,Agent的目标可以用公式表示为:
Figure BDA0003485622670000034
Figure BDA0003485622670000035
在步骤6)中,所述学习分为两步:第一步从经验池中随机采样一小批经验更新每个拉格朗日乘子
Figure BDA0003485622670000036
第二步根据更新之后的拉格朗日乘子计算每条采样出来的样本的总的奖励
Figure BDA0003485622670000037
再根据
Figure BDA0003485622670000038
计算评估神经网络的损失函数L(θ),并在反向传播的过程中,利用随机梯度下降法迭代搜索损失函数的最小值,实现评估神经网络的训练;
进一步的,所述更新每个拉格朗日乘子
Figure BDA0003485622670000039
的具体步骤可为:随机采样出Ne条经验组成mini-batch B;若B中第n个用户的平均成本不低于最小阈值,即
Figure BDA0003485622670000041
该拉格朗日乘子保持不变;否则该拉格朗日乘子更新为:
Figure BDA0003485622670000042
其中α2是拉格朗日乘子的学习率;根据拉格朗日对偶方法可得:
Figure BDA0003485622670000043
Figure BDA0003485622670000044
但是
Figure BDA0003485622670000045
在实际中是很难计算的,所以为了简便起见,将拉格朗日对偶的梯度近似为
Figure BDA0003485622670000046
综上所述,每个拉格朗日乘子的更新规则可以总结为:
Figure BDA0003485622670000047
更新完每个拉格朗日乘子λn之后,Agent利用更新过的λn计算B中每条经验的总奖励:
Figure BDA0003485622670000048
其中,ωn是对应每个拉格朗日乘子λ的指示因子,若λn相对于前一个时隙改变了,则ωn=1,否则ωn=0,ηn是每个用户的QoS约束,即最小的数据速率要求。
进一步的,所述评估神经网络的损失函数L(θ)的表达式如下:
Figure BDA0003485622670000049
其中,γ∈[0,1]是折扣因子,Q(si,ai;θ)是评估神经网络的输出,θ是评估神经网络的参数向量;Q(si+1,a′;θ-)是目标神经网络的输出,θ-是目标神经网络的参数向量。
在步骤7)中,所述重复以上步骤直到收敛的具体步骤可为:更新执行的时隙数t,即t=t+1,若t=T,则迭代结束;否则返回步骤2),并重复步骤2)至步骤6);其中,T为总的迭代次数或时隙数。
本发明克服非授权毫米波段现存的调度方案中频带利用率低的问题,采用深度强化学习框架来对NR-U网络在满足每个用户的QoS要求时的总数据速率最大化问题进行建模。
与现有技术相比,本发明的优点在于:
1)本发明利用了深度强化学习算法AMC-DQN来解决非授权毫米波段的调度问题,该方法利用过去的经验中学习调度策略,而不需要进行信道检测;
2)本发明大大提高了网络的总数据速率,并且能够满足每个UE的QoS要求。
3)本发明不会降低WiGig网络的数据速率。
附图说明
图1为本发明的网络场景图。
图2为本发明实施例的流程框图。
图3为本发明与现有发明针对NR-U网络总的数据速率方面的性能比较示意图。
图4为本发明与现有发明针对NR-U网络中每个用户的数据速率方面的性能比较示意图。
图5为本发明中的拉格朗日乘子收敛情况示意图。
图6为本发明与现有发明对WiGig网络各个接入点的数据速率影响的性能比较示意图。
具体实施方式
以下实施例将结合附图对本发明作进一步详细描述。
本发明考虑如图1所示的非授权毫米波段NR-U网络与WiGig网络共存的场景。假设NR-U基站与WiGig接入点定向发送,NR-U用户终端与WiGig用户终端全向接收,因此NR-U基站与WiGig接入点可以在同一时间向不同方向上的用户终端传输数据包。NR-U和WiGig网络无法进行信息交换,为了保护WiGig网络的通信质量,并且最大化自身的通信质量,NR-U网络在每一时隙避免被WiGig网络干扰。同时,NR-U网络要满足不同的用户终端的QoS要求。本发明应用深度强化学习算法来指导NR-U基站做出决策,即在每个时隙选择一个用户进行数据传输,该用户在传输结束后会发送一个二进制应答信号(Acknowledgement,ACK),该信号反应用户是否成功接收到数据包。
参见图2,本发明实施例包括以下步骤:
1)初始化参数。系统参数包括:系统中的NR-U网络由1个基站(gNB)和N个用户终端(UE)组成,WiGig网络由M个WiGig接入点(AP)及其各自的用户终端(STA)组成。算法参数包括:每个拉格朗日乘子的初始值、折扣因子γ、评估神经网络的学习率α1、拉格朗日乘子的学习率α2、训练时随机抽取的经验的数量Ne、初探索率ε、目标神经网络更新频率T0、经验池容量、初始状态s0
2)将NR-U网络中的基站定义为Agent,Agent观察当前时隙的环境状态st
3)Agent根据所观察的当前时隙的环境状态st,通过神经网络得到的在当前环境状态st下所有动作的Q值,并依据ε-greedy策略选择动作at,即选择用户终端(UE)传输数据包,Agent为NR-U网络中的基站,其选择将要传输数据的用户,即at∈{1,2,…,N}。其中at=n表示基站将在当前时隙传输一个数据包给用户n。进一步地,步骤3)所述的ε-greedy策略具体为:
(1)以1-ε的概率选取Q值最大的动作,其中初探索率ε∈[0,1];
(2)以ε的概率随机选择一个动作,即随机选择一个用户传输数据包。
4)执行步骤3)所选的动作at,即向选中的用户发送数据包。Agent得到观测ot、奖励rt+1和成本序列
Figure BDA0003485622670000061
的同时,环境转入下一转态st+1;执行动作at后,该用户会发送一个ACK信号告知基站是否成功接收到数据包,若传输成功,观测值为ot=1,否则ot=0。状态由前D个时隙的动作观测对zt=(at,ot)组成,即st+1=(zt-D+1,zt-D+2,…,zt),其中D是状态历史长度。进一步地,Agent获得奖励rt+1和成本序列
Figure BDA0003485622670000062
Agent的目标是要最大化整个NR-U网络的数据速率同时满足每个用户的QoS要求,所以执行动作at后获得的奖励rt+1定义为NR-U网络的总数据速率,用公式表示如下:
Figure BDA0003485622670000063
其中,
Figure BDA0003485622670000064
是第n个用户在当前时隙的数据速率,其定义如下:
Figure BDA0003485622670000065
其中,W为信道带宽,SINRn表示用户n的信干噪比。当信干噪比SINRn的值大于阈值SINRth时传输成功,否则传输失败,数据速率为0。用户n的接收信干噪比SINRn公式为:
Figure BDA0003485622670000066
其中,n∈{1,2,…,N}为NR-U用户的索引,m∈{1,2,…,M}为发送端(NR-U基站和WiGig接入点)的索引,m=0表示发送端是NR-U基站,否则是WiGig接入点。N0是噪声噪声功率谱密度,
Figure BDA0003485622670000071
是用户n的接收功率,其公式为:
Figure BDA0003485622670000072
其中,ξ是小尺度衰落,
Figure BDA0003485622670000073
是发射功率,
Figure BDA0003485622670000074
是发送端的天线增益,
Figure BDA0003485622670000075
是接收端的天线增益,Lm,n=(c/4πfc)2/(dm,n)α是IEEE 802.11ad路径损耗模型,其中α=2是路径损耗指数,c是光速,fc是载波频率,dm,n是发送端m和NR-U用户n之间的距离。
进一步地,用户n的成本定义为其在当前时隙的数据速率,即:
Figure BDA0003485622670000076
综上,Agent的目标可以用公式表示为:
Figure BDA0003485622670000077
Figure BDA0003485622670000078
5)将当前环境状态st、Agent选取的动作at、Agent获取的奖励rt+1、成本序列
Figure BDA0003485622670000079
以及下一时隙的环境状态st+1以经验
Figure BDA00034856226700000710
的形式存入经验池中;
6)重复步骤2)至步骤5)直到经验池中累积到足够的经验,再开始学习。学习分为两步:第一步从经验池中随机采样出Ne条经验组成mini-batch B,并据此更新每个拉格朗日乘子
Figure BDA00034856226700000711
具体步骤为:若B中第n个用户的平均成本不低于最小阈值,即
Figure BDA00034856226700000712
该拉格朗日乘子保持不变;否则该拉格朗日乘子更新为:
Figure BDA00034856226700000713
其中α2是拉格朗日乘子的学习率。根据拉格朗日对偶方法可得
Figure BDA00034856226700000714
但是
Figure BDA00034856226700000715
在实际中是很难计算的,所以为简便起见,将拉格朗日对偶的梯度近似为
Figure BDA00034856226700000716
综上所述,每个拉格朗日乘子的更新规则可以总结为:
Figure BDA0003485622670000081
第二步根据更新之后的拉格朗日乘子λn计算每条采样出来的样本的总的奖励
Figure BDA0003485622670000082
其公式为:
Figure BDA0003485622670000083
其中,ωn是对应每个拉格朗日乘子λ的指示因子,若λn相比于前一个时隙改变了,则ωn=1,否则ωn=0,ηn是每个用户的QoS约束,即最小的数据速率要求。进一步地,再根据
Figure BDA0003485622670000084
计算评估神经网络的损失函数L(θ),即
Figure BDA0003485622670000085
其中,γ∈[0,1]是折扣因子,Q(si,ai;θ)是评估神经网络的输出,θ是评估神经网络的参数向量;Q(si+1,a′;θ-)是目标神经网络的输出,θ-是目标神经网络的参数向量。在反向传播的过程中,利用随机梯度下降法迭代搜索损失函数L(θ)的最小值,实现评估神经网络的训练;
7)训练指定次数之后,将评估神经网络的参数θ复制给目标神经网络θ-,以更新目标神经网络的参数;
8)更新执行的时隙数t,即t=t+1,若t=T,则迭代结束;否则返回步骤2),并重复步骤2)至步骤7)。其中,T为总的迭代次数或时隙数。
通过以下仿真来进一步说明本发明方法的可行性和有效性。
假设60GHz非授权毫米波段有3个WiGig接入点,分别服务3、3、4个用户,NR-U网络基站服务6个用户,它们随机分布在WiGig用户周围。信道带宽为1GHz,噪声功率谱密度为-174dBm/Hz,NR-U基站和WiGig接入点的发送功率都为20dBm,ξ遵循标准的瑞利分布。仿真中考虑理想的波束模型,也就是波束的旁瓣增益为0,所以发送天线增益即主瓣增益为
Figure BDA0003485622670000086
波束宽度为30度,接收天线增益为
Figure BDA0003485622670000087
信干噪比门限为10dB。在AMC-DQN算法中,历史状态长度D设为30,折扣因子γ=0.95,评估神经网络的学习率α1=0.001,拉格朗日乘子的初始值为0,且学习率α2=0.0001。在ε-greedy策略中,ε初始值为1,每个时隙ε衰减为上一时隙的0.9倍,即0.9*ε,直到0.001。经验池的容量为10000,每个时隙从中随机抽取64条经验组成mini-batch B来训练评估神经网络。每200个时隙,将评估神经网络的参数复制给目标神经网络。
图3和4分别是NR-U网络的总数据速率和网络中各个用户的数据速率,可以本发明与现有的全向先听后说和定向先听后说机制相比,在大大提高了网络的总平均数据速率的同时,能够满足每个用户的QoS要求。还可以看出,虽然传统的DQN算法(拉格朗日乘子不更新,为常数1)可以达到与本发明相同的总数据速率,但是传统的DQN算法无法满足不同用户的QoS要求。
图5是每个拉格朗日乘子的收敛情况。可以看出他们最终都可以收敛,且λ1收敛得最快,这表明在所有的用户中,用户1最先满足其QoS要求。除此之外,还可以看出λ6收敛到所有拉格朗日乘子中的最大值,这表明用户6的数据速率与其目标QoS差距最大。
图6是每个WiGig接入点的数据速率。可以看出,与NR-U网络共享频带之后,WiGig网络的数据速率有所下降,但是相比于现有的方法,本发明对WiGig网络造成的干扰更小。

Claims (9)

1.一种应用于非授权毫米波段异构网络共存的调度方法,其特征在于包括以下步骤:
1)首先初始化参数,并将NR-U网络中的基站设为Agent,将其可调度的用户看做可选的动作;
2)观察当前时隙的环境状态,Agent得到在当前状态下所有动作的Q值;
3)依据ε-greedy策略选择下一步的动作;
4)执行动作后,Agent得到相应的反馈并转入下一状态;
5)将当前环境状态、Agent选取的动作、Agent获取的奖励、成本序列以及下一时隙的环境状态以经验的形式存入经验池中;
6)重复步骤2)~5)直到经验池中累积到足够的经验,开始学习,更新拉格朗日乘子,然后更新评估网络参数,再更新目标神经网络参数;
7)重复以上步骤直到收敛,获得最优调度策略。
2.如权利要求1所述一种应用于非授权毫米波段异构网络共存的调度方法,其特征在于在步骤1)中,所述初始化参数包括系统参数和算法参数,所述系统参数,系统中的NR-U网络由1个基站和N个用户终端组成,WiGig网络由M个WiGig接入点及其各自的用户终端组成;所述算法参数包括:每个拉格朗日乘子的初始值、折扣因子γ、评估神经网络的学习率α1、拉格朗日乘子的学习率α2、训练时随机抽取的经验的数量Ne、初探索率ε、目标神经网络更新频率T0、经验池容量、初始状态s0
3.如权利要求1所述一种应用于非授权毫米波段异构网络共存的调度方法,其特征在于在步骤3)中,所述依据ε-greedy策略选择下一步的动作,Agent为NR-U网络中的基站,其选择将要传输数据的用户,即at∈{1,2,…,N},其中,at=n表示基站将在当前时隙传输一个数据包给用户n。
4.如权利要求1所述一种应用于非授权毫米波段异构网络共存的调度方法,其特征在于在步骤3)中所述ε-greedy策略具体为:
(1)以1-ε的概率选取Q值最大的动作,其中初探索率ε∈[0,1];
(2)以ε的概率随机选择一个动作,即随机选择一个用户传输数据包。
5.如权利要求1所述一种应用于非授权毫米波段异构网络共存的调度方法,其特征在于在步骤4)中,所述执行动作后,Agent得到相应的反馈并转入下一状态的具体步骤为:执行动作at后,若传输成功,观测值为ot=1,否则ot=0;状态由前D个时隙的动作观测对zt=(at,ot)组成,即st+1=(zt-D+1,zt-D+2,…,zt),其中D是状态历史长度;进一步地,Agent的目标是要最大化整个NR-U网络的数据速率同时满足每个用户的QoS要求,所以执行动作at后获得的奖励rt+1定义为NR-U网络的总数据速率,用公式表示如下:
Figure FDA0003485622660000021
其中,
Figure FDA0003485622660000022
是第n个用户在当前时隙的数据速率;执行动作at后的成本定义为每个用户在当前时隙的数据速率,即:
Figure FDA0003485622660000023
Agent的目标用公式表示为:
Figure FDA0003485622660000024
Figure FDA0003485622660000025
6.如权利要求1所述一种应用于非授权毫米波段异构网络共存的调度方法,其特征在于在步骤6)中,所述学习分为两步:第一步从经验池中随机采样一小批经验更新每个拉格朗日乘子λn,
Figure FDA0003485622660000026
第二步根据更新之后的拉格朗日乘子计算每条采样出来的样本的总的奖励
Figure FDA0003485622660000027
再根据
Figure FDA0003485622660000028
计算评估神经网络的损失函数L(θ),并在反向传播的过程中,利用随机梯度下降法迭代搜索损失函数的最小值,实现评估神经网络的训练。
7.如权利要求6所述一种应用于非授权毫米波段异构网络共存的调度方法,其特征在于所述更新每个拉格朗日乘子λn,
Figure FDA0003485622660000029
的具体步骤为:随机采样出Ne条经验组成mini-batchB;若B中第n个用户的平均成本不低于最小阈值,即
Figure FDA00034856226600000210
该拉格朗日乘子保持不变;否则该拉格朗日乘子更新为:
Figure FDA00034856226600000211
其中α2是拉格朗日乘子的学习率;根据拉格朗日对偶方法得:
Figure FDA00034856226600000212
所以
Figure FDA00034856226600000213
为简便,将拉格朗日对偶的梯度近似为:
Figure FDA0003485622660000031
每个拉格朗日乘子的更新规则为:
Figure FDA0003485622660000032
更新完每个拉格朗日乘子λn之后,Agent利用更新过的λn计算B中每条经验的总奖励:
Figure FDA0003485622660000033
其中,ωn是对应每个拉格朗日乘子λn的指示因子,若λn相对于前一个时隙改变了,则ωn=1,否则ωn=0,ηn是每个用户的QoS约束,即最小的数据速率要求。
8.如权利要求6所述一种应用于非授权毫米波段异构网络共存的调度方法,其特征在于所述评估神经网络的损失函数L(θ)的表达式如下:
Figure FDA0003485622660000034
其中,γ∈[0,1]是折扣因子,Q(si,ai;θ)是评估神经网络的输出,θ是评估神经网络的参数向量;Q(si+1,a′;θ-)是目标神经网络的输出,θ-是目标神经网络的参数向量。
9.如权利要求1所述一种应用于非授权毫米波段异构网络共存的调度方法,其特征在于在步骤7)中,所述重复以上步骤直到收敛的具体步骤为:更新执行的时隙数t,即t=t+1,若t=T,则迭代结束;否则返回步骤2),并重复步骤2)至步骤6);其中,T为总的迭代次数或时隙数。
CN202210079751.1A 2022-01-24 2022-01-24 一种应用于非授权毫米波段异构网络共存的调度方法 Active CN114302497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210079751.1A CN114302497B (zh) 2022-01-24 2022-01-24 一种应用于非授权毫米波段异构网络共存的调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210079751.1A CN114302497B (zh) 2022-01-24 2022-01-24 一种应用于非授权毫米波段异构网络共存的调度方法

Publications (2)

Publication Number Publication Date
CN114302497A true CN114302497A (zh) 2022-04-08
CN114302497B CN114302497B (zh) 2024-09-06

Family

ID=80978197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210079751.1A Active CN114302497B (zh) 2022-01-24 2022-01-24 一种应用于非授权毫米波段异构网络共存的调度方法

Country Status (1)

Country Link
CN (1) CN114302497B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114867123A (zh) * 2022-04-21 2022-08-05 国网江苏省电力有限公司南京供电分公司 一种基于强化学习的5g物联网系统多用户调度方法与系统
CN115103372A (zh) * 2022-06-17 2022-09-23 东南大学 一种基于深度强化学习的多用户mimo系统用户调度方法
CN115361717A (zh) * 2022-07-12 2022-11-18 华中科技大学 一种基于vr用户视点轨迹的毫米波接入点选择方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112073974A (zh) * 2020-08-14 2020-12-11 北京大学 协作终端通信的非授权频谱边缘接入与抗干扰方法及装置
CN113423110A (zh) * 2021-06-22 2021-09-21 东南大学 基于深度强化学习的多用户多信道动态频谱接入方法
WO2021232848A1 (zh) * 2020-05-18 2021-11-25 南京邮电大学 一种异构网络下基于支持向量机的资源分配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232848A1 (zh) * 2020-05-18 2021-11-25 南京邮电大学 一种异构网络下基于支持向量机的资源分配方法
CN112073974A (zh) * 2020-08-14 2020-12-11 北京大学 协作终端通信的非授权频谱边缘接入与抗干扰方法及装置
CN113423110A (zh) * 2021-06-22 2021-09-21 东南大学 基于深度强化学习的多用户多信道动态频谱接入方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈前斌;管令进;李子煜;王兆堃;杨恒;唐伦;: "基于深度强化学习的异构云无线接入网自适应无线资源分配算法", 电子与信息学报, no. 06, 15 June 2020 (2020-06-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114867123A (zh) * 2022-04-21 2022-08-05 国网江苏省电力有限公司南京供电分公司 一种基于强化学习的5g物联网系统多用户调度方法与系统
CN115103372A (zh) * 2022-06-17 2022-09-23 东南大学 一种基于深度强化学习的多用户mimo系统用户调度方法
CN115361717A (zh) * 2022-07-12 2022-11-18 华中科技大学 一种基于vr用户视点轨迹的毫米波接入点选择方法及系统
CN115361717B (zh) * 2022-07-12 2024-04-19 华中科技大学 一种基于vr用户视点轨迹的毫米波接入点选择方法及系统

Also Published As

Publication number Publication date
CN114302497B (zh) 2024-09-06

Similar Documents

Publication Publication Date Title
CN114302497B (zh) 一种应用于非授权毫米波段异构网络共存的调度方法
Ta et al. LoRa-MAB: A flexible simulator for decentralized learning resource allocation in IoT networks
Caillouet et al. Optimal SF allocation in LoRaWAN considering physical capture and imperfect orthogonality
CN110492955B (zh) 基于迁移学习策略的频谱预测切换方法
CN110167176B (zh) 一种基于分布式机器学习的无线网络资源分配方法
CN109348484B (zh) 一种多用户短波通信网络模型及信道探测方法
CN114867030B (zh) 双时间尺度智能无线接入网切片方法
CN110035559B (zh) 一种基于混沌q-学习算法的竞争窗口大小智能选择方法
CN104918257A (zh) 中继协同异构蜂窝网络d2d通信资源分配方法
Ci et al. Self-regulating network utilization in mobile ad hoc wireless networks
CN111083708B (zh) 一种基于干扰感知多图的v2v通信异质频谱分配方法
Karmakar et al. SmartBond: A deep probabilistic machinery for smart channel bonding in IEEE 802.11 ac
CN117715219A (zh) 基于深度强化学习的空时域资源分配方法
CN110446199B (zh) 一种定向天线的认知邻居发现方法
Sun et al. MAB-based 3-way neighbor discovery for wireless networks using directional antennas
CN111343722B (zh) 边缘计算中基于认知无线电的能效优化方法
Hu et al. Performance analysis for D2D-enabled cellular networks with mobile edge computing
Liu et al. DRL-based channel access in NR unlicensed spectrum for downlink URLLC
Aruna et al. Deep-q reinforcement learning based resource allocation in wireless communication networks
WO2012119519A1 (zh) 为通信链路分配传输时隙的空间复用的方法、装置和系统
Zhou et al. Deep reinforcement learning based scheduling scheme for the NR-U/WiGig coexistence in unlicensed mmWave bands
Lei et al. Saturation throughput analysis of IEEE 802.11 DCF with heterogeneous node transmit powers and capture effect
CN113453197A (zh) 一种联合移动预测和动态功率的用户配对方法
CN105554894A (zh) 移动网络中h2h和m2m终端发射功率协同控制方法
Boulogeorgos et al. MAC and Networking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant