CN111163531A - 一种基于ddpg的非授权频谱占空比共存方法 - Google Patents
一种基于ddpg的非授权频谱占空比共存方法 Download PDFInfo
- Publication number
- CN111163531A CN111163531A CN201911291954.1A CN201911291954A CN111163531A CN 111163531 A CN111163531 A CN 111163531A CN 201911291954 A CN201911291954 A CN 201911291954A CN 111163531 A CN111163531 A CN 111163531A
- Authority
- CN
- China
- Prior art keywords
- theta
- throughput
- duty cycle
- probability
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000001228 spectrum Methods 0.000 title claims abstract description 44
- 230000009471 action Effects 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000005457 optimization Methods 0.000 claims abstract description 14
- 230000005540 biological transmission Effects 0.000 claims description 34
- 239000003795 chemical substances by application Substances 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 12
- 238000009795 derivation Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 230000006399 behavior Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 238000013468 resource allocation Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 abstract description 2
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 108091036732 NRON Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W74/00—Wireless channel access
- H04W74/08—Non-scheduled access, e.g. ALOHA
- H04W74/0808—Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA]
- H04W74/0816—Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA] with collision avoidance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W74/00—Wireless channel access
- H04W74/08—Non-scheduled access, e.g. ALOHA
- H04W74/0833—Random access procedures, e.g. with 4-step access
- H04W74/0841—Random access procedures, e.g. with 4-step access with collision treatment
- H04W74/085—Random access procedures, e.g. with 4-step access with collision treatment collision avoidance
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种基于DDPG的非授权频谱占空比共存方法,属于无线通信中的频谱资源分配技术领域。首先,建立以NR ON阶段的时间占比为变量,在满足NR系统和Wi‑Fi系统内用户的整体公平性约束的前提下,最大化一个占空比周期内NR系统吞吐量的优化模型;其次,将优化模型转化为具有连续动作空间的马尔可夫过程;最后,用DDPG方法进行求解转化的马尔可夫过程,实现非授权频段内使用占空比机制下NR用户和Wi‑Fi用户之间的友好共存。相较现有方法中将NR ON阶段时间占比离散化求解的方式相比,所述方法解决了NR ON阶段的时间占比这一连续动作的确定,更有利于找到全局最优的NR ON阶段时间占比。
Description
技术领域
本发明涉及一种基于DDPG的非授权频谱占空比共存方法,属于无线通信中的频谱资源分配技术领域。
背景技术
随着第五代移动通信(the fifth generation mobile communication,5G)技术的发展,也即新空口(New Radio,NR)技术的成熟,例如物联网、高清视频、虚拟现实等的发展,人类对数据流量的需求急剧增加。而数据业务的传输需要占用一定的频谱,大规模增加的数据需求使得有限的授权频谱资源非常紧张,一方面,通过提升频谱使用效率可进行一定程度的改善;另一方面,将授权频谱上传输的数据卸载到非授权频谱上进行传输,是近年来广泛受到关注的一项技术。非授权频段主要包括2.4GHz频段和5GHz频段范围,其中2.4GHz频段已经非常拥挤,因此将授权频段上待传输的数据,以蜂窝网数据为主,卸载到5GHz非授权频段范围上传输,可一定程度上缓解授权频段大量数据待传输的难题。
Wi-Fi系统是非授权频段上的主要使用者,其使用分布式接入方式对信道进行争用。而授权频段上的蜂窝系统,以NR系统为主,使用的是基站对用户(user equipment,UE)的集中调度方式进行数据传输。不同类型的传输方式也对非授权频段上NR用户和Wi-Fi用户间的友好共存带来了难题。目前已有多项共存技术被提出,包括占空比(duty cycle)方法、传输前侦听(listen-before-talk,LBT)方法、几乎空白子帧方法、白空间方法等等。
其中,占空比方法主要被中国、美国、韩国等国家使用,它将固定时长的周期在时域上分为NR ON阶段和NR OFF阶段,分别供NR系统和Wi-Fi系统传输数据,时域资源的划分也减小了NR系统和Wi-Fi系统之间的干扰。如何划分NR ON阶段和NR OFF阶段两者的时间占比也成为了学术界和工业界的一个研究热点,可根据信道状况、两个系统的负载情况等方面来确定。
NR ON阶段和NR OFF阶段两者的时间占比本质上属于资源分配问题,传统上可由凸优化理论、博弈论、排队论等数学工具来解决。近年来,随着人工智能技术的发展,一些机器学习方法被逐渐应用到资源分配问题之中,且具有较好的性能表现,例如Q-learning、deep Q network(DQN)等方法。然而目前使用这些方法只能解决离散动作空间的问题,对于NR ON阶段和NR OFF阶段两者的时间占比这一连续变化量便无能为力。因此,寻求一种可以解决时间占比连续动作空间问题的方法,例如深度确定性策略梯度(deep deterministicpolicy gradient,DDPG)方法,并能够具有良好的性能表现,具有重要的研究意义。
发明内容
本发明的目的在于针对现有解决非授权频谱占空比共存方法只适用于离散动作空间,无法适用于连续动作空间的技术缺陷,提出了一种基于DDPG的非授权频谱占空比共存方法,用于自适应确定占空比周期内NR ON阶段和NR OFF阶段时间占比。
本发明的核心思想是:建立以NR ON阶段的时间占比为变量,在满足NR系统和Wi-Fi系统内用户的整体公平性约束的前提下,最大化一个占空比周期内NR系统吞吐量的优化模型;再将优化模型转化为具有连续动作空间的马尔可夫过程,并用DDPG方法进行求解,得到变量的最优值,以实现非授权频段内使用占空比方法下NR用户和Wi-Fi用户之间的友好共存。
规定非授权频谱的场景为:K个Wi-Fi接入点和1个NR基站共享C个非授权子信道;1个NR基站服务N个UEs;每个Wi-Fi AP服务Mk个Wi-Fi用户,并且为了减小干扰,不同Wi-FiAP使用不同的非授权子信道;
其中,在Wi-Fi系统中,接入点,全称access point,简写为AP;用户,即station,简写STA;
一种基于DDPG的非授权频谱占空比共存方法,具体包括以下步骤:
步骤一、遍历k,求解所有Wi-Fi AP服务下Wi-Fi数据包的传输概率和碰撞概率;
其中,CWmin表示竞争窗口的初值,I表示最大退避次数;
其中,竞争窗口初值CWmin以及最大退避次数I基于Wi-Fi系统中采用载波侦听多点接入冲突避免中的二进制指数退避方式和碰撞确定;碰撞是Wi-Fi STA在接入信道时发生的,碰撞发生时采用二进制指数退避方式进行退避;
步骤二、遍历k,计算Wi-Fi系统中每个Wi-Fi AP的吞吐量;
其中,第k个Wi-Fi AP所服务用户总的吞吐量定义为单位时间内成功传输的数据量;
第k个Wi-Fi AP所服务用户总的吞吐量,包括如下子步骤:
步骤2.A基于(3)式计算第k个Wi-Fi AP所服务用户中至少一个用户进行传输的概率;
步骤2.B在第k个Wi-Fi AP的服务范围内,基于(4)式计算一次成功传输的概率:
其中,E[P]表示Wi-Fi数据包的平均长度,Tc、Ts以及σidle分别表示Wi-Fi数据包传输发生碰撞、Wi-Fi数据包成功传输、以及信道空闲所占用的时间;
步骤三、计算NR系统的吞吐量,具体包括以下子步骤;
其中,n的取值范围为1到N;表示分配给非授权子信道c的带宽,c的取值范围为1到Cn;表示分配给第n个UE所有非授权子信道的带宽、表示分配给第n个UE的传输功率,表示基站和UE之间的信道增益,N0表示噪声的功率谱密度;
步骤4.A分别将TNR和TWiFi归一化为θNR和θWiFi;
其中,TNR和TWiFi分别为NR ON阶段和NR OFF阶段的时长,θNR和θWiFi均为连续变量,分别为NR ON阶段以及NR OFF阶段在整个占空比周期的时长占比,且θNR=TNR/Tcycle及θWiFi=TWiFi/Tcycle,且θNR+θWiFi=1,TNR+TWiFi=Tcycle;
步骤六、建立非授权频谱占空比共存方法优化模型,具体为:以NR ON阶段时间占比θNR为变量,在满足NR系统和Wi-Fi系统内用户的整体公平性约束的前提下,最大化一个占空比周期内NR系统的吞吐量,得到如(12)式所示的优化模型:
使得:
θNR∈[0,1] (12.b)
其中,JTP Threshold表示共存系统所能忍受的最小公平性;
步骤七、将步骤六建立的优化模型(12)转化为马尔可夫过程;
分别定义马尔可夫过程中的基本元素,包括智能体、动作空间、状态空间、奖励函数,又具体分为以下子步骤;
步骤7.A将决策者基站定义为智能体;
步骤7.B在每个时间步t下,智能体根据当前环境决定θLTE的值,也即动作空间定义为{at=θLTE∈[0,1]};
其中,at是时间步t下采取的动作;
步骤7.D基于(13)式定义奖励函数rt;
步骤八、DDPG方法求解步骤七建立的马尔可夫过程,确定占空比周期内NR阶段时间占比θNR,具体包括如下子步骤:
步骤8.1初始化Actor网络、Critic网络、目标网络及训练参数,具体包括如下三方面内容:
A)分别以参数θμ和θQ随机初始化Actor网络μ(s|θμ)和Critic网络Q(s,a|θQ);
其中,s是状态,a是动作;θμ是Actor网络的参数;θQ是Critic网络的参数;
B)以参数θμ′←θμ和θQ′←θQ初始化目标网络μ′和Q′;
其中,θμ′和θQ′分别是目标网络μ′和Q′的参数,θμ′←θμ表示将θμ赋值给θμ′,θQ′←θQ表示将θQ赋值给θQ′;
C)初始化经验池、mini-batch大小、折损因子、学习率以及软更新参数;
步骤8.2遍历episode从1到M,对步骤8.1初始化的Actor网络、Critic网络、以及目标网络进行如下训练:
步骤8.2A基于高斯过程初始化动作探索过程;
步骤8.2B获取初始观测状态s1;
步骤8.2C遍历t从1到T-1,进行如下步骤:
1)根据PG方法及EE方法,在第t个时间步下观测状态st,获取并执行动作at;
其中,PG方法属于Actor网络,全称Policy Gradient;EE方法是exploration-exploitation的缩写;
2)AP根据(10)式计算Wi-Fi系统的吞吐量,并广播至基站;
3)基站根据(9)式计算NR系统的吞吐量,接收广播信息,并根据(11)式计算NR系统和Wi-Fi系统内用户的公平性;
4)根据(13)式获取当前时间步t下的奖励;
5)观测下一状态st+1;
6)存储时间步t下的经历到经验池中;
其中,时间步t下的经历表示为[st,at,rt,st+1],也即由时刻t的状态,记为st、时刻t的动作,记为at、时刻t的奖励,记为rt、以及下一时刻的状态,记为st+1,组成;
7)在经验池中随机采样mini-batch大小的经历;
其中,mini-batch的大小定义为B,也即采样得到的经历由B个样本组成。表示为[si,ai,ri,si+1],也即由采样得到的B个样本中第i个样本对应的状态,记为si、第i个样本对应的动作,记为ai、第i个样本对应的奖励,记为ri,以及更新后第i+1个样本对应的的状态,记为si+1,组成;i的取值范围为1到B;
8)设定Critic网络对采样得到的B个样本中第i个样本进行更新的目标值为yi,表示为yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′);
其中,θQ′表示目标网络Q′中的参数,ri表示采样得到的B个样本中第i个样本对应的奖励,γ表示折损因子,Q′表示具有参数θQ′的目标网络,μ′表示具有参数θμ′的目标网络;
其中,B表示mini-batch的大小;θQ表示Critic网络中的参数,yi为8)中设定的Critic网络对采样得到的B个样本中第i个样本进行更新的目标值;
其中,表示Actor网络μ(s|θμ)对参数θμ在状态si时求导;表示Critic网络Q(s,a|θQ)对参数θQ在状态s等于第i个样本对应的状态si,动作a等于第i个样本对应的动作ai求导;表示更新后的Actor网络;
11)根据式(14)和(15)更新目标网络μ′和Q′:
θQ′←τθQ+(1-τ)θQ′ (14)
θμ′←τθμ+(1-τ)θμ′ (15)
其中,τ表示更新参数;θQ′←τθQ+(1-τ)θQ′表示将τθQ+(1-τ)θQ′赋值给θQ′;θμ′←τθμ+(1-τ)θμ′表示将τθμ+(1-τ)θμ′赋值给θμ′;
12)更新状态st=st+1。
有益效果
本发明提出一种基于DDPG的非授权频谱占空比共存方法,与现有技术相比,具有以下有益效果:
1、考虑到NR数据量急剧增加,将部分NR数据卸载到非授权频谱内进行传输,并使用占空比方法进行共存,提升了NR系统的吞吐量;
2、考虑一个占空比周期内NR系统的吞吐量,Wi-Fi系统的吞吐量以及系统用户的公平性指标,本发明在满足两个系统内用户公平性的约束条件下,能够最大化非授权频段上NR系统的吞吐量;
3、本发明将建立的优化模型转化为具有连续动作空间的马尔可夫决策过程,并基于DDPG解决了占空比方法下NR ON阶段时间占比θNR的自适应确定,与现有方法中将NR ON阶段时间占比θNR离散化求解的方式相比,可直接对连续动作空间求解,更利于找到全局最优解。
附图说明
图1为本发明“一种基于DDPG方法的非授权频谱占空比共存方法”的流程图;
图2为本发明“一种基于DDPG方法的非授权频谱占空比共存方法”具体实施例中NRON阶段时间占比θNR的收敛结果图;
图3为本发明“一种基于DDPG方法的非授权频谱占空比共存方法”具体实施例中一个占空比周期内NR系统吞吐量的收敛结果图;
图4为本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内Wi-Fi系统吞吐量的收敛结果图;
图5为本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内共存系统用户间公平性的收敛结果图。
具体实施方式
下面结合附图和具体实施例子对本发明进行详细说明。
实施例1
本发明具体实施时输出一个占空比周期内NR系统和Wi-Fi系统的时间占比,适用于用户数量为几个到几十个的场景。
设定实施例1的场景为5个Wi-Fi AP和1个基站共享3个非授权子信道,该基站下有10个UEs,每个Wi-Fi AP服务3个Wi-Fi STAs的非授权频段共存场景。Wi-Fi退避方式中的初始竞争窗口为16,最大退避次数为6。
Wi-Fi平均数据包长度为12000bits,数据传输速率为300Mbps。NR系统在非授权频段分配到的传输功率和带宽分别为23dBm和20MHz,信道路径损耗模型采用-15.3-5×10lg(d),d表示基站和UE之间的距离,设定为100m,噪声功率谱密度为-174dBm/Hz。共存系统所能忍受的最小公平性JTP Threshold设定为0.5。NR系统和Wi-Fi系统在非授权频段的传输采用本发明提出的基于DDPG方法的占空比共存方法。
流程图如图1所示,具体操作流程如下:
其中,k的取值范围为1到5;
步骤B、遍历k,依据(3)、(4)式分别计算第k个Wi-Fi AP所服务用户中至少一个用户进行传输的概率和一次成功传输的概率依据(5)式计算得到第k个Wi-Fi AP所服务的3个用户的总吞吐量依据(6)式计算得到含有5个Wi-Fi AP系统的总吞吐量
其中,n的取值范围为1到10;
步骤D、记NR ON阶段和NR OFF阶段的时长归一化后分别表示为θNR和θWiFi,分别按照(9)、(10)、(11)式表示出一个占空比周期内NR系统的吞吐量和Wi-Fi系统的吞吐量以及NR系统和Wi-Fi系统内用户的公平性由此可得到如(14)式所示的非授权频谱占空比共存方法优化模型;
使得:
θNR∈[0,1] (14.b)
步骤E、将系统共存优化问题表示为如步骤7所示的马尔可夫过程;
其中,基站为智能体,在每个时间步t下,根据当前状态,也即一个占空比周期内NR的吞吐量,Wi-Fi系统的吞吐量以及系统用户的公平性所够成的集合:
步骤F、依据表1中的DDPG方法求解步骤E中的马尔可夫决策过程,具体如下表1所示:
表1基于DDPG求解马尔可夫过程的流程
从步骤A到步骤F,完成了本实施例一种基于DDPG的非授权频谱占空比共存方法。
对实施例1基于图1本发明的流程图进行仿真,得到NR ON阶段时间占比θNR,也即动作的变化情况,对应图2本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中NR ON阶段时间占比θNR的收敛结果图;得到一个占空比周期内NR系统和Wi-Fi系统的吞吐量,分别对应图3本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内NR系统吞吐量的收敛结果图;图4本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内Wi-Fi系统吞吐量的收敛结果图;仿真得到系统内用户公平性的变化情况,对应图5本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内系统用户间公平性的收敛结果图。
从图2可以看出,基于DDPG方法的非授权频谱占空比共存方法所确定的NR ON阶段时间占比θNR在迭代一定步数后收敛,并稳定于0.67附近,此结果表明,对实施例1应用本发明提出的基于DDPG方法的非授权频谱占空比共存方法,可以自适应地在一个占空比周期内确定出约67%的前一段时间给NR系统使用,后33%的时长给Wi-Fi系统传输;从图3可以看出,一个占空比周期内NR系统的吞吐量在迭代一定步数后收敛,并稳定于610Mbps附近;从图4可以看出,一个占空比周期内Wi-Fi系统的吞吐量在迭代一定步数后收敛,并稳定于85Mbps附近;从图5可以看出,共存系统内用户的公平性均在迭代一定步数后收敛,并稳定于0.51值,此时能保证在共存系统内用户的公平性满足最低要求0.5的情况下,NR系统吞吐量能够带来最大的提升,为610Mbps。因此,本发明提出的基于DDPG的非授权频谱占空比共存方法可直接对连续动作空间求解,找到全局最优的NR ON阶段时间占比,实现了NR系统和Wi-Fi系统在非授权频谱内的友好共存。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入发明保护的范围。
Claims (7)
1.一种基于DDPG的非授权频谱占空比共存方法,其特征在于:规定非授权频谱的场景为:K个Wi-Fi接入点和1个NR基站共享C个非授权子信道;1个NR基站服务N个UEs;每个Wi-FiAP服务Mk个Wi-Fi用户,并且为了减小干扰,不同Wi-Fi AP使用不同的非授权子信道;其中,在Wi-Fi系统中,接入点,全称access point,简写为AP;用户,即station,简写STA,所述非授权频谱占空比共存方法,其特征在于:包括以下步骤:
步骤一、遍历k,求解所有Wi-Fi AP服务下Wi-Fi数据包的传输概率和碰撞概率;
其中,CWmin表示竞争窗口的初值,I表示最大退避次数;
其中,竞争窗口初值CWmin以及最大退避次数I基于Wi-Fi系统中采用载波侦听多点接入冲突避免中的二进制指数退避方式和碰撞确定;碰撞是Wi-Fi STA在接入信道时发生的,碰撞发生时采用二进制指数退避方式进行退避;
步骤二、遍历k,计算Wi-Fi系统中每个Wi-Fi AP的吞吐量;
其中,第k个Wi-Fi AP所服务用户总的吞吐量定义为单位时间内成功传输的数据量;
第k个Wi-Fi AP所服务用户总的吞吐量,包括如下子步骤:
步骤2.A基于(3)式计算第k个Wi-Fi AP所服务用户中至少一个用户进行传输的概率;
步骤2.B在第k个Wi-Fi AP的服务范围内,基于(4)式计算一次成功传输的概率:
其中,E[P]表示Wi-Fi数据包的平均长度,Tc、Ts以及σidle分别表示Wi-Fi数据包传输发生碰撞、Wi-Fi数据包成功传输、以及信道空闲所占用的时间;
步骤三、计算NR系统的吞吐量,具体包括以下子步骤;
步骤4.A分别将TNR和TWiFi归一化为θNR和θWiFi;
其中,TNR和TWiFi分别为NR ON阶段和NR OFF阶段的时长,θNR和θWiFi均为连续变量,分别为NR ON阶段以及NR OFF阶段在整个占空比周期的时长占比,且θNR=TNR/Tcycle及θWiFi=TWiFi/Tcycle,且θNR+θWiFi=1,TNR+TWiFi=Tcycle;
步骤六、建立非授权频谱占空比共存方法的优化模型,具体为:以NR ON阶段时间占比θNR为变量,在满足NR系统和Wi-Fi系统内用户的整体公平性约束的前提下,最大化一个占空比周期内NR系统的吞吐量;
步骤七、将步骤六建立的优化模型(12)转化为马尔可夫过程;
其中,马尔可夫过程中的基本元素,包括智能体、动作空间、状态空间以及奖励函数;
步骤八、采用DDPG方法求解步骤七建立的马尔可夫过程,确定占空比周期内NR阶段时间占比θNR。
2.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法,其特征在于:步骤3.A中,n的取值范围为1到N。
3.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法,其特征在于:c的取值范围为1到Cn。
6.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法,其特征在于:步骤七,具体分为以下子步骤;
步骤7.A将决策者基站定义为智能体;
步骤7.B在每个时间步t下,智能体根据当前环境决定θLTE的值,也即动作空间定义为{at=θLTE∈[0,1]};
其中,at是时间步t下采取的动作;
步骤7.D基于(13)式定义奖励函数rt;
7.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法,其特征在于:步骤八,具体包括如下子步骤:
步骤8.1初始化Actor网络、Critic网络、目标网络及训练参数,具体包括如下三方面内容:
A)分别以参数θμ和θQ随机初始化Actor网络μ(s|θμ)和Critic网络Q(s,a|θQ);
其中,s是状态,a是动作;θμ是Actor网络的参数;θQ是Critic网络的参数;
B)以参数θμ′←θμ和θQ′←θQ初始化目标网络μ′和Q′;
其中,θμ′和θQ′分别是目标网络μ′和Q′的参数,θμ′←θμ表示将θμ赋值给θμ′,θQ′←θQ表示将θQ赋值给θQ′;
C)初始化经验池、mini-batch大小、折损因子、学习率以及软更新参数;
步骤8.2遍历episode从1到M,对步骤8.1初始化的Actor网络、Critic网络、以及目标网络进行如下训练:
步骤8.2A基于高斯过程初始化动作探索过程;
步骤8.2B获取初始观测状态s1;
步骤8.2C遍历t从1到T-1,进行如下步骤:
1)根据PG方法及EE方法,在第t个时间步下观测状态st,获取并执行动作at;
其中,PG方法属于Actor网络,全称Policy Gradient;EE方法是exploration-exploitation的缩写;
2)AP根据(10)式计算Wi-Fi系统的吞吐量,并广播至基站;
3)基站根据(9)式计算NR系统的吞吐量,接收广播信息,并根据(11)式计算NR系统和Wi-Fi系统内用户的公平性;
4)根据(13)式获取当前时间步t下的奖励;
5)观测下一状态st+1;
6)存储时间步t下的经历到经验池中;
其中,时间步t下的经历表示为[st,at,rt,st+1],也即由时刻t的状态,记为st、时刻t的动作,记为at、时刻t的奖励,记为rt、以及下一时刻的状态,记为st+1,组成;
7)在经验池中随机采样mini-batch大小的经历;
其中,mini-batch的大小定义为B,也即采样得到的经历由B个样本组成;表示为[si,ai,ri,si+1],也即由采样得到的B个样本中第i个样本对应的状态,记为si、第i个样本对应的动作,记为ai、第i个样本对应的奖励,记为ri,以及更新后第i+1个样本对应的的状态,记为si+1,组成;i的取值范围为1到B;
8)设定Critic网络对采样得到的B个样本中第i个样本进行更新的目标值为yi,表示为yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′);
其中,θQ′表示目标网络Q′中的参数,ri表示采样得到的B个样本中第i个样本对应的奖励,γ表示折损因子,Q′表示具有参数θQ′的目标网络,μ′表示具有参数θμ′的目标网络;
其中,B表示mini-batch的大小;θQ表示Critic网络中的参数,yi为8)中设定的Critic网络对采样得到的B个样本中第i个样本进行更新的目标值;
其中,表示Actor网络μ(s|θμ)对参数θμ在状态si时求导;表示Critic网络Q(s,a|θQ)对参数θQ在状态s等于第i个样本对应的状态si,动作a等于第i个样本对应的动作ai求导;表示更新后的Actor网络;
11)根据式(14)和(15)更新目标网络μ′和Q′:
θQ′←τθQ+(1-τ)θQ′ (14)
θμ′←τθμ+(1-τ)θμ′ (15)
其中,τ表示更新参数;θQ′←τθQ+(1-τ)θQ′表示将τθQ+(1-τ)θQ′赋值给θQ′;θμ′←τθμ+(1-τ)θμ′表示将τθμ+(1-τ)θμ′赋值给θμ′;
12)更新状态st=st+1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911291954.1A CN111163531B (zh) | 2019-12-16 | 2019-12-16 | 一种基于ddpg的非授权频谱占空比共存方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911291954.1A CN111163531B (zh) | 2019-12-16 | 2019-12-16 | 一种基于ddpg的非授权频谱占空比共存方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111163531A true CN111163531A (zh) | 2020-05-15 |
CN111163531B CN111163531B (zh) | 2021-07-13 |
Family
ID=70557282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911291954.1A Active CN111163531B (zh) | 2019-12-16 | 2019-12-16 | 一种基于ddpg的非授权频谱占空比共存方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111163531B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113438744A (zh) * | 2021-06-23 | 2021-09-24 | 嘉兴学院 | 一种基于加权式强化学习的分段式退避算法 |
CN114339775A (zh) * | 2021-11-19 | 2022-04-12 | 北京理工大学 | 基于优化的ddpg的ris辅助非授权频谱共存方法 |
CN114375066A (zh) * | 2022-01-08 | 2022-04-19 | 山东大学 | 一种基于多智能体强化学习的分布式信道竞争方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160260024A1 (en) * | 2015-03-04 | 2016-09-08 | Qualcomm Incorporated | System of distributed planning |
CN106412931A (zh) * | 2016-12-16 | 2017-02-15 | 重庆邮电大学 | 一种基于多时隙融合机制的lte‑u空闲信道评估方法 |
CN107919931A (zh) * | 2017-11-21 | 2018-04-17 | 重庆邮电大学 | 认知网中一种基于隐马尔可夫的多信道功率控制机制 |
US20180270690A1 (en) * | 2017-03-15 | 2018-09-20 | Nec Laboratories America, Inc. | Blue-printing interference for lte access in unlicensed spectrum |
CN108882377A (zh) * | 2018-06-08 | 2018-11-23 | 苏州大学 | 基于认知的lte-r中资源分配方法 |
CN108924944A (zh) * | 2018-07-19 | 2018-11-30 | 重庆邮电大学 | 基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法 |
CN109951864A (zh) * | 2019-03-28 | 2019-06-28 | 重庆邮电大学 | 基于LAA不完美频谱探测与WiFi共存的系统性能分析方法 |
-
2019
- 2019-12-16 CN CN201911291954.1A patent/CN111163531B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160260024A1 (en) * | 2015-03-04 | 2016-09-08 | Qualcomm Incorporated | System of distributed planning |
CN106412931A (zh) * | 2016-12-16 | 2017-02-15 | 重庆邮电大学 | 一种基于多时隙融合机制的lte‑u空闲信道评估方法 |
US20180270690A1 (en) * | 2017-03-15 | 2018-09-20 | Nec Laboratories America, Inc. | Blue-printing interference for lte access in unlicensed spectrum |
CN107919931A (zh) * | 2017-11-21 | 2018-04-17 | 重庆邮电大学 | 认知网中一种基于隐马尔可夫的多信道功率控制机制 |
CN108882377A (zh) * | 2018-06-08 | 2018-11-23 | 苏州大学 | 基于认知的lte-r中资源分配方法 |
CN108924944A (zh) * | 2018-07-19 | 2018-11-30 | 重庆邮电大学 | 基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法 |
CN109951864A (zh) * | 2019-03-28 | 2019-06-28 | 重庆邮电大学 | 基于LAA不完美频谱探测与WiFi共存的系统性能分析方法 |
Non-Patent Citations (2)
Title |
---|
MARVIN YUEN等人: "Cellular and WiFi Co-design for 5G User Equipment", 《2018 IEEE 5G WORLD FORUM (5GWF)》 * |
费泽松: "Cooperative LBT Design and Effective Capacity Analysis for 5G NR Ultra Dense Networks in Unlicensed Spectrum", 《 IEEE ACCESS ( VOLUME: 7)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113438744A (zh) * | 2021-06-23 | 2021-09-24 | 嘉兴学院 | 一种基于加权式强化学习的分段式退避算法 |
CN113438744B (zh) * | 2021-06-23 | 2022-07-05 | 嘉兴学院 | 一种基于加权式强化学习的分段式退避算法 |
CN114339775A (zh) * | 2021-11-19 | 2022-04-12 | 北京理工大学 | 基于优化的ddpg的ris辅助非授权频谱共存方法 |
CN114375066A (zh) * | 2022-01-08 | 2022-04-19 | 山东大学 | 一种基于多智能体强化学习的分布式信道竞争方法 |
CN114375066B (zh) * | 2022-01-08 | 2024-03-15 | 山东大学 | 一种基于多智能体强化学习的分布式信道竞争方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111163531B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109474980B (zh) | 一种基于深度增强学习的无线网络资源分配方法 | |
CN115065448B (zh) | 用于接入点的集成电路 | |
CN111163531B (zh) | 一种基于ddpg的非授权频谱占空比共存方法 | |
CN111328052B (zh) | 一种高密度无线网络中信道资源分配方法 | |
CN110035559B (zh) | 一种基于混沌q-学习算法的竞争窗口大小智能选择方法 | |
da Mata et al. | Resource allocation for the LTE uplink based on Genetic Algorithms in mixed traffic environments | |
Elsayed et al. | Deep reinforcement learning for reducing latency in mission critical services | |
Filoso et al. | Proportional-based resource allocation control with QoS adaptation for IEEE 802.11 ax | |
Wang et al. | Joint bandwidth and transmission opportunity allocation for the coexistence between NR-U and WiFi systems in the unlicensed band | |
Bai et al. | An adaptive grouping scheme in ultra-dense IEEE 802.11 ax network using buffer state report based two-stage mechanism | |
CN113453239A (zh) | 信道资源分配方法及系统、存储介质、电子设备 | |
CN110602788B (zh) | 一种窄带物联网上行时频资源优化方法及可读存储介质 | |
Dai et al. | Adaptive resource allocation for LTE/WiFi coexistence in the unlicensed spectrum | |
Islam et al. | A Proportional Scheduling Protocol for the OFDMA-Based Future Wi-Fi Network. | |
CN117715219A (zh) | 基于深度强化学习的空时域资源分配方法 | |
Libório et al. | Network Slicing in IEEE 802.11 ah | |
Kim et al. | A priority-based dynamic link scheduling algorithm using multi-criteria decision making in wireless body area networks | |
Elsayed et al. | Learning-based resource allocation for data-intensive and immersive tactile applications | |
Pei et al. | A deep reinforcement learning based spectrum access scheme in unlicensed bands | |
CN106455096B (zh) | 一种基于权重的家庭基站干扰协调方法 | |
Eskandari et al. | Smart interference management xApp using deep reinforcement learning | |
Tang et al. | An almost blank subframe allocation algorithm for 5G new radio in unlicensed bands | |
Xu et al. | Joint trajectory design and resource allocation for energy-efficient UAV enabled eLAA network | |
Kosek-Szott et al. | Improving IEEE 802.11 ax UORA performance: Comparison of reinforcement learning and heuristic approaches | |
Chao et al. | Cooperative spectrum sharing and scheduling in self-organizing femtocell networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |