CN111163531A - 一种基于ddpg的非授权频谱占空比共存方法 - Google Patents

一种基于ddpg的非授权频谱占空比共存方法 Download PDF

Info

Publication number
CN111163531A
CN111163531A CN201911291954.1A CN201911291954A CN111163531A CN 111163531 A CN111163531 A CN 111163531A CN 201911291954 A CN201911291954 A CN 201911291954A CN 111163531 A CN111163531 A CN 111163531A
Authority
CN
China
Prior art keywords
theta
throughput
duty cycle
probability
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911291954.1A
Other languages
English (en)
Other versions
CN111163531B (zh
Inventor
曾鸣
王璐
费泽松
唐清清
王文欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201911291954.1A priority Critical patent/CN111163531B/zh
Publication of CN111163531A publication Critical patent/CN111163531A/zh
Application granted granted Critical
Publication of CN111163531B publication Critical patent/CN111163531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0808Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA]
    • H04W74/0816Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA] with collision avoidance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0833Random access procedures, e.g. with 4-step access
    • H04W74/0841Random access procedures, e.g. with 4-step access with collision treatment
    • H04W74/085Random access procedures, e.g. with 4-step access with collision treatment collision avoidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于DDPG的非授权频谱占空比共存方法,属于无线通信中的频谱资源分配技术领域。首先,建立以NR ON阶段的时间占比为变量,在满足NR系统和Wi‑Fi系统内用户的整体公平性约束的前提下,最大化一个占空比周期内NR系统吞吐量的优化模型;其次,将优化模型转化为具有连续动作空间的马尔可夫过程;最后,用DDPG方法进行求解转化的马尔可夫过程,实现非授权频段内使用占空比机制下NR用户和Wi‑Fi用户之间的友好共存。相较现有方法中将NR ON阶段时间占比离散化求解的方式相比,所述方法解决了NR ON阶段的时间占比这一连续动作的确定,更有利于找到全局最优的NR ON阶段时间占比。

Description

一种基于DDPG的非授权频谱占空比共存方法
技术领域
本发明涉及一种基于DDPG的非授权频谱占空比共存方法,属于无线通信中的频谱资源分配技术领域。
背景技术
随着第五代移动通信(the fifth generation mobile communication,5G)技术的发展,也即新空口(New Radio,NR)技术的成熟,例如物联网、高清视频、虚拟现实等的发展,人类对数据流量的需求急剧增加。而数据业务的传输需要占用一定的频谱,大规模增加的数据需求使得有限的授权频谱资源非常紧张,一方面,通过提升频谱使用效率可进行一定程度的改善;另一方面,将授权频谱上传输的数据卸载到非授权频谱上进行传输,是近年来广泛受到关注的一项技术。非授权频段主要包括2.4GHz频段和5GHz频段范围,其中2.4GHz频段已经非常拥挤,因此将授权频段上待传输的数据,以蜂窝网数据为主,卸载到5GHz非授权频段范围上传输,可一定程度上缓解授权频段大量数据待传输的难题。
Wi-Fi系统是非授权频段上的主要使用者,其使用分布式接入方式对信道进行争用。而授权频段上的蜂窝系统,以NR系统为主,使用的是基站对用户(user equipment,UE)的集中调度方式进行数据传输。不同类型的传输方式也对非授权频段上NR用户和Wi-Fi用户间的友好共存带来了难题。目前已有多项共存技术被提出,包括占空比(duty cycle)方法、传输前侦听(listen-before-talk,LBT)方法、几乎空白子帧方法、白空间方法等等。
其中,占空比方法主要被中国、美国、韩国等国家使用,它将固定时长的周期在时域上分为NR ON阶段和NR OFF阶段,分别供NR系统和Wi-Fi系统传输数据,时域资源的划分也减小了NR系统和Wi-Fi系统之间的干扰。如何划分NR ON阶段和NR OFF阶段两者的时间占比也成为了学术界和工业界的一个研究热点,可根据信道状况、两个系统的负载情况等方面来确定。
NR ON阶段和NR OFF阶段两者的时间占比本质上属于资源分配问题,传统上可由凸优化理论、博弈论、排队论等数学工具来解决。近年来,随着人工智能技术的发展,一些机器学习方法被逐渐应用到资源分配问题之中,且具有较好的性能表现,例如Q-learning、deep Q network(DQN)等方法。然而目前使用这些方法只能解决离散动作空间的问题,对于NR ON阶段和NR OFF阶段两者的时间占比这一连续变化量便无能为力。因此,寻求一种可以解决时间占比连续动作空间问题的方法,例如深度确定性策略梯度(deep deterministicpolicy gradient,DDPG)方法,并能够具有良好的性能表现,具有重要的研究意义。
发明内容
本发明的目的在于针对现有解决非授权频谱占空比共存方法只适用于离散动作空间,无法适用于连续动作空间的技术缺陷,提出了一种基于DDPG的非授权频谱占空比共存方法,用于自适应确定占空比周期内NR ON阶段和NR OFF阶段时间占比。
本发明的核心思想是:建立以NR ON阶段的时间占比为变量,在满足NR系统和Wi-Fi系统内用户的整体公平性约束的前提下,最大化一个占空比周期内NR系统吞吐量的优化模型;再将优化模型转化为具有连续动作空间的马尔可夫过程,并用DDPG方法进行求解,得到变量的最优值,以实现非授权频段内使用占空比方法下NR用户和Wi-Fi用户之间的友好共存。
规定非授权频谱的场景为:K个Wi-Fi接入点和1个NR基站共享C个非授权子信道;1个NR基站服务N个UEs;每个Wi-Fi AP服务Mk个Wi-Fi用户,并且为了减小干扰,不同Wi-FiAP使用不同的非授权子信道;
其中,在Wi-Fi系统中,接入点,全称access point,简写为AP;用户,即station,简写STA;
一种基于DDPG的非授权频谱占空比共存方法,具体包括以下步骤:
步骤一、遍历k,求解所有Wi-Fi AP服务下Wi-Fi数据包的传输概率和碰撞概率;
其中,k的取值范围为1到K;第k个Wi-Fi AP服务下Wi-Fi数据包的传输概率,记为
Figure BDA0002319420640000031
碰撞概率,记为
Figure BDA0002319420640000032
传输概率
Figure BDA0002319420640000033
和碰撞概率
Figure BDA0002319420640000034
具体依据(1)和(2)计算:
Figure BDA0002319420640000035
其中,CWmin表示竞争窗口的初值,I表示最大退避次数;
Figure BDA0002319420640000036
其中,竞争窗口初值CWmin以及最大退避次数I基于Wi-Fi系统中采用载波侦听多点接入冲突避免中的二进制指数退避方式和碰撞确定;碰撞是Wi-Fi STA在接入信道时发生的,碰撞发生时采用二进制指数退避方式进行退避;
传输概率
Figure BDA0002319420640000037
基于建模的二维马尔可夫链得到;二维马尔可夫链对应每一个Wi-FiAP的行为过程,为Bianchi马尔可夫模型;
步骤二、遍历k,计算Wi-Fi系统中每个Wi-Fi AP的吞吐量;
其中,第k个Wi-Fi AP所服务用户总的吞吐量定义为单位时间内成功传输的数据量;
第k个Wi-Fi AP所服务用户总的吞吐量,包括如下子步骤:
步骤2.A基于(3)式计算第k个Wi-Fi AP所服务用户中至少一个用户进行传输的概率;
Figure BDA0002319420640000041
其中,至少一个用户进行传输的概率,记为
Figure BDA0002319420640000042
式中
Figure BDA0002319420640000043
表示传输概率;Mk为每个Wi-Fi AP服务的Wi-Fi用户数量;
步骤2.B在第k个Wi-Fi AP的服务范围内,基于(4)式计算一次成功传输的概率:
Figure BDA0002319420640000044
其中,一次成功传输的概率,记为
Figure BDA0002319420640000045
该概率定义为当至少一个用户发送数据时,只有一个用户成功传输的概率;
步骤2.C依据Wi-Fi系统的吞吐量定义,即公式(5)计算第k个Wi-Fi AP所服务用户总的吞吐量
Figure BDA0002319420640000046
Figure BDA0002319420640000047
其中,E[P]表示Wi-Fi数据包的平均长度,Tc、Ts以及σidle分别表示Wi-Fi数据包传输发生碰撞、Wi-Fi数据包成功传输、以及信道空闲所占用的时间;
Figure BDA0002319420640000048
以及
Figure BDA0002319420640000049
分别表示Wi-Fi数据包传输发生碰撞、Wi-Fi数据包成功传输、信道空闲的概率;
步骤2.D基于(6)式计算K个Wi-Fi AP所服务用户的总吞吐量
Figure BDA00023194206400000410
也即整个Wi-Fi系统的吞吐量;
Figure BDA0002319420640000051
步骤三、计算NR系统的吞吐量,具体包括以下子步骤;
步骤3.A基于(7)式计算第n个UE在所分配的非授权子信道上的吞吐量
Figure BDA0002319420640000052
Figure BDA0002319420640000053
其中,n的取值范围为1到N;
Figure BDA0002319420640000054
表示分配给非授权子信道c的带宽,c的取值范围为1到Cn
Figure BDA0002319420640000055
表示分配给第n个UE所有非授权子信道的带宽、
Figure BDA0002319420640000056
表示分配给第n个UE的传输功率,
Figure BDA0002319420640000057
表示基站和UE之间的信道增益,N0表示噪声的功率谱密度;
步骤3.B基于(8)式计算NR系统的吞吐量
Figure BDA0002319420640000058
也即将N个UE的吞吐量求和;
Figure BDA0002319420640000059
步骤四、计算一个占空比周期内NR系统
Figure BDA00023194206400000510
和Wi-Fi系统的吞吐量
Figure BDA00023194206400000511
具体为以下子步骤;
步骤4.A分别将TNR和TWiFi归一化为θNR和θWiFi
其中,TNR和TWiFi分别为NR ON阶段和NR OFF阶段的时长,θNR和θWiFi均为连续变量,分别为NR ON阶段以及NR OFF阶段在整个占空比周期的时长占比,且θNR=TNR/Tcycle及θWiFi=TWiFi/Tcycle,且θNRWiFi=1,TNR+TWiFi=Tcycle
步骤4.B分别按照(9)和(10)式计算一个占空比周期内NR系统的吞吐量
Figure BDA00023194206400000512
和Wi-Fi系统的吞吐量
Figure BDA00023194206400000513
Figure BDA0002319420640000061
Figure BDA0002319420640000062
步骤五、基于(11)式计算一个占空比周期内NR系统和Wi-Fi系统内用户的公平性
Figure BDA0002319420640000063
Figure BDA0002319420640000064
其中,公平性
Figure BDA0002319420640000065
的计算依据Jain公平指数,该公平性是一个位于0到1之间的连续变量,越接近于1,系统的公平性越大;
步骤六、建立非授权频谱占空比共存方法优化模型,具体为:以NR ON阶段时间占比θNR为变量,在满足NR系统和Wi-Fi系统内用户的整体公平性约束的前提下,最大化一个占空比周期内NR系统的吞吐量,得到如(12)式所示的优化模型:
Figure BDA0002319420640000066
使得:
Figure BDA0002319420640000067
θNR∈[0,1] (12.b)
其中,JTP Threshold表示共存系统所能忍受的最小公平性;
步骤七、将步骤六建立的优化模型(12)转化为马尔可夫过程;
分别定义马尔可夫过程中的基本元素,包括智能体、动作空间、状态空间、奖励函数,又具体分为以下子步骤;
步骤7.A将决策者基站定义为智能体;
步骤7.B在每个时间步t下,智能体根据当前环境决定θLTE的值,也即动作空间定义为{at=θLTE∈[0,1]};
其中,at是时间步t下采取的动作;
步骤7.C在每个时间步t下,状态空间定义为非授权频段内一个占空比周期内NR的吞吐量
Figure BDA0002319420640000071
Wi-Fi系统的吞吐量
Figure BDA0002319420640000072
以及NR系统和Wi-Fi系统内用户的公平性
Figure BDA0002319420640000073
所构成的集合,也即
Figure BDA0002319420640000074
步骤7.D基于(13)式定义奖励函数rt
Figure BDA0002319420640000075
其中,在每个时间步t下,当NR系统和Wi-Fi系统内用户的公平性
Figure BDA0002319420640000076
不能满足最小的限制JTP Threshold时,对智能体进行一定的惩罚,给予负奖励-1,否则给予正奖励
Figure BDA0002319420640000077
步骤八、DDPG方法求解步骤七建立的马尔可夫过程,确定占空比周期内NR阶段时间占比θNR,具体包括如下子步骤:
步骤8.1初始化Actor网络、Critic网络、目标网络及训练参数,具体包括如下三方面内容:
A)分别以参数θμ和θQ随机初始化Actor网络μ(s|θμ)和Critic网络Q(s,a|θQ);
其中,s是状态,a是动作;θμ是Actor网络的参数;θQ是Critic网络的参数;
B)以参数θμ′←θμ和θQ′←θQ初始化目标网络μ′和Q′;
其中,θμ′和θQ′分别是目标网络μ′和Q′的参数,θμ′←θμ表示将θμ赋值给θμ′,θQ′←θQ表示将θQ赋值给θQ′
C)初始化经验池、mini-batch大小、折损因子、学习率以及软更新参数;
步骤8.2遍历episode从1到M,对步骤8.1初始化的Actor网络、Critic网络、以及目标网络进行如下训练:
步骤8.2A基于高斯过程初始化动作探索过程;
步骤8.2B获取初始观测状态s1
步骤8.2C遍历t从1到T-1,进行如下步骤:
1)根据PG方法及EE方法,在第t个时间步下观测状态st,获取并执行动作at
其中,PG方法属于Actor网络,全称Policy Gradient;EE方法是exploration-exploitation的缩写;
2)AP根据(10)式计算Wi-Fi系统的吞吐量,并广播至基站;
3)基站根据(9)式计算NR系统的吞吐量,接收广播信息,并根据(11)式计算NR系统和Wi-Fi系统内用户的公平性;
4)根据(13)式获取当前时间步t下的奖励;
5)观测下一状态st+1
6)存储时间步t下的经历到经验池中;
其中,时间步t下的经历表示为[st,at,rt,st+1],也即由时刻t的状态,记为st、时刻t的动作,记为at、时刻t的奖励,记为rt、以及下一时刻的状态,记为st+1,组成;
7)在经验池中随机采样mini-batch大小的经历;
其中,mini-batch的大小定义为B,也即采样得到的经历由B个样本组成。表示为[si,ai,ri,si+1],也即由采样得到的B个样本中第i个样本对应的状态,记为si、第i个样本对应的动作,记为ai、第i个样本对应的奖励,记为ri,以及更新后第i+1个样本对应的的状态,记为si+1,组成;i的取值范围为1到B;
8)设定Critic网络对采样得到的B个样本中第i个样本进行更新的目标值为yi,表示为yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′);
其中,θQ′表示目标网络Q′中的参数,ri表示采样得到的B个样本中第i个样本对应的奖励,γ表示折损因子,Q′表示具有参数θQ′的目标网络,μ′表示具有参数θμ′的目标网络;
9)通过最小化损失函数
Figure BDA0002319420640000091
来更新Critic网络;
其中,B表示mini-batch的大小;θQ表示Critic网络中的参数,yi为8)中设定的Critic网络对采样得到的B个样本中第i个样本进行更新的目标值;
10)通过PG方法
Figure BDA0002319420640000092
来更新Actor网络;
其中,
Figure BDA0002319420640000093
表示Actor网络μ(s|θμ)对参数θμ在状态si时求导;
Figure BDA0002319420640000094
表示Critic网络Q(s,a|θQ)对参数θQ在状态s等于第i个样本对应的状态si,动作a等于第i个样本对应的动作ai求导;
Figure BDA0002319420640000095
表示更新后的Actor网络;
11)根据式(14)和(15)更新目标网络μ′和Q′:
θQ′←τθQ+(1-τ)θQ′ (14)
θμ′←τθμ+(1-τ)θμ′ (15)
其中,τ表示更新参数;θQ′←τθQ+(1-τ)θQ′表示将τθQ+(1-τ)θQ′赋值给θQ′;θμ′←τθμ+(1-τ)θμ′表示将τθμ+(1-τ)θμ′赋值给θμ′
12)更新状态st=st+1
有益效果
本发明提出一种基于DDPG的非授权频谱占空比共存方法,与现有技术相比,具有以下有益效果:
1、考虑到NR数据量急剧增加,将部分NR数据卸载到非授权频谱内进行传输,并使用占空比方法进行共存,提升了NR系统的吞吐量;
2、考虑一个占空比周期内NR系统的吞吐量,Wi-Fi系统的吞吐量以及系统用户的公平性指标,本发明在满足两个系统内用户公平性的约束条件下,能够最大化非授权频段上NR系统的吞吐量;
3、本发明将建立的优化模型转化为具有连续动作空间的马尔可夫决策过程,并基于DDPG解决了占空比方法下NR ON阶段时间占比θNR的自适应确定,与现有方法中将NR ON阶段时间占比θNR离散化求解的方式相比,可直接对连续动作空间求解,更利于找到全局最优解。
附图说明
图1为本发明“一种基于DDPG方法的非授权频谱占空比共存方法”的流程图;
图2为本发明“一种基于DDPG方法的非授权频谱占空比共存方法”具体实施例中NRON阶段时间占比θNR的收敛结果图;
图3为本发明“一种基于DDPG方法的非授权频谱占空比共存方法”具体实施例中一个占空比周期内NR系统吞吐量的收敛结果图;
图4为本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内Wi-Fi系统吞吐量的收敛结果图;
图5为本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内共存系统用户间公平性的收敛结果图。
具体实施方式
下面结合附图和具体实施例子对本发明进行详细说明。
实施例1
本发明具体实施时输出一个占空比周期内NR系统和Wi-Fi系统的时间占比,适用于用户数量为几个到几十个的场景。
设定实施例1的场景为5个Wi-Fi AP和1个基站共享3个非授权子信道,该基站下有10个UEs,每个Wi-Fi AP服务3个Wi-Fi STAs的非授权频段共存场景。Wi-Fi退避方式中的初始竞争窗口为16,最大退避次数为6。
Wi-Fi平均数据包长度为12000bits,数据传输速率为300Mbps。NR系统在非授权频段分配到的传输功率和带宽分别为23dBm和20MHz,信道路径损耗模型采用-15.3-5×10lg(d),d表示基站和UE之间的距离,设定为100m,噪声功率谱密度为-174dBm/Hz。共存系统所能忍受的最小公平性JTP Threshold设定为0.5。NR系统和Wi-Fi系统在非授权频段的传输采用本发明提出的基于DDPG方法的占空比共存方法。
流程图如图1所示,具体操作流程如下:
步骤A、遍历k,依据(1)、(2)式求解所有Wi-Fi AP服务下Wi-Fi数据包的传输概率
Figure BDA0002319420640000111
和碰撞概率
Figure BDA0002319420640000112
其中,k的取值范围为1到5;
步骤B、遍历k,依据(3)、(4)式分别计算第k个Wi-Fi AP所服务用户中至少一个用户进行传输的概率
Figure BDA0002319420640000121
和一次成功传输的概率
Figure BDA0002319420640000122
依据(5)式计算得到第k个Wi-Fi AP所服务的3个用户的总吞吐量
Figure BDA0002319420640000123
依据(6)式计算得到含有5个Wi-Fi AP系统的总吞吐量
Figure BDA0002319420640000124
步骤C、依据(7)式计算第n个UE在所分配的非授权子信道上的吞吐量
Figure BDA0002319420640000125
依据(8)式计算得到整个NR系统的吞吐量
Figure BDA0002319420640000126
其中,n的取值范围为1到10;
步骤D、记NR ON阶段和NR OFF阶段的时长归一化后分别表示为θNR和θWiFi,分别按照(9)、(10)、(11)式表示出一个占空比周期内NR系统的吞吐量
Figure BDA0002319420640000127
和Wi-Fi系统的吞吐量
Figure BDA0002319420640000128
以及NR系统和Wi-Fi系统内用户的公平性
Figure BDA0002319420640000129
由此可得到如(14)式所示的非授权频谱占空比共存方法优化模型;
Figure BDA00023194206400001210
使得:
Figure BDA00023194206400001211
θNR∈[0,1] (14.b)
步骤E、将系统共存优化问题表示为如步骤7所示的马尔可夫过程;
其中,基站为智能体,在每个时间步t下,根据当前状态,也即一个占空比周期内NR的吞吐量,Wi-Fi系统的吞吐量以及系统用户的公平性所够成的集合:
Figure BDA00023194206400001212
来采取动作,决定θNR的值,也即动作空间为{at=θNR∈[0,1]}。动作执行后,智能体根据(13)式得到环境奖励rt,同时环境状态转移到下一时间步的状态st+1
步骤F、依据表1中的DDPG方法求解步骤E中的马尔可夫决策过程,具体如下表1所示:
表1基于DDPG求解马尔可夫过程的流程
Figure BDA0002319420640000131
从步骤A到步骤F,完成了本实施例一种基于DDPG的非授权频谱占空比共存方法。
对实施例1基于图1本发明的流程图进行仿真,得到NR ON阶段时间占比θNR,也即动作的变化情况,对应图2本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中NR ON阶段时间占比θNR的收敛结果图;得到一个占空比周期内NR系统和Wi-Fi系统的吞吐量,分别对应图3本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内NR系统吞吐量的收敛结果图;图4本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内Wi-Fi系统吞吐量的收敛结果图;仿真得到系统内用户公平性的变化情况,对应图5本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内系统用户间公平性的收敛结果图。
从图2可以看出,基于DDPG方法的非授权频谱占空比共存方法所确定的NR ON阶段时间占比θNR在迭代一定步数后收敛,并稳定于0.67附近,此结果表明,对实施例1应用本发明提出的基于DDPG方法的非授权频谱占空比共存方法,可以自适应地在一个占空比周期内确定出约67%的前一段时间给NR系统使用,后33%的时长给Wi-Fi系统传输;从图3可以看出,一个占空比周期内NR系统的吞吐量在迭代一定步数后收敛,并稳定于610Mbps附近;从图4可以看出,一个占空比周期内Wi-Fi系统的吞吐量在迭代一定步数后收敛,并稳定于85Mbps附近;从图5可以看出,共存系统内用户的公平性均在迭代一定步数后收敛,并稳定于0.51值,此时能保证在共存系统内用户的公平性满足最低要求0.5的情况下,NR系统吞吐量能够带来最大的提升,为610Mbps。因此,本发明提出的基于DDPG的非授权频谱占空比共存方法可直接对连续动作空间求解,找到全局最优的NR ON阶段时间占比,实现了NR系统和Wi-Fi系统在非授权频谱内的友好共存。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入发明保护的范围。

Claims (7)

1.一种基于DDPG的非授权频谱占空比共存方法,其特征在于:规定非授权频谱的场景为:K个Wi-Fi接入点和1个NR基站共享C个非授权子信道;1个NR基站服务N个UEs;每个Wi-FiAP服务Mk个Wi-Fi用户,并且为了减小干扰,不同Wi-Fi AP使用不同的非授权子信道;其中,在Wi-Fi系统中,接入点,全称access point,简写为AP;用户,即station,简写STA,所述非授权频谱占空比共存方法,其特征在于:包括以下步骤:
步骤一、遍历k,求解所有Wi-Fi AP服务下Wi-Fi数据包的传输概率和碰撞概率;
其中,k的取值范围为1到K;第k个Wi-Fi AP服务下Wi-Fi数据包的传输概率,记为
Figure RE-FDA0002427485060000011
碰撞概率,记为
Figure RE-FDA0002427485060000012
传输概率
Figure RE-FDA0002427485060000013
和碰撞概率
Figure RE-FDA0002427485060000014
具体依据(1)和(2)计算:
Figure RE-FDA0002427485060000015
其中,CWmin表示竞争窗口的初值,I表示最大退避次数;
Figure RE-FDA0002427485060000016
其中,竞争窗口初值CWmin以及最大退避次数I基于Wi-Fi系统中采用载波侦听多点接入冲突避免中的二进制指数退避方式和碰撞确定;碰撞是Wi-Fi STA在接入信道时发生的,碰撞发生时采用二进制指数退避方式进行退避;
传输概率
Figure RE-FDA0002427485060000017
基于建模的二维马尔可夫链得到;二维马尔可夫链对应每一个Wi-Fi AP的行为过程,为Bianchi马尔可夫模型;
步骤二、遍历k,计算Wi-Fi系统中每个Wi-Fi AP的吞吐量;
其中,第k个Wi-Fi AP所服务用户总的吞吐量定义为单位时间内成功传输的数据量;
第k个Wi-Fi AP所服务用户总的吞吐量,包括如下子步骤:
步骤2.A基于(3)式计算第k个Wi-Fi AP所服务用户中至少一个用户进行传输的概率;
Figure RE-FDA0002427485060000021
其中,至少一个用户进行传输的概率,记为
Figure RE-FDA0002427485060000022
式中
Figure RE-FDA0002427485060000023
表示传输概率;Mk为每个Wi-FiAP服务的Wi-Fi用户数量;
步骤2.B在第k个Wi-Fi AP的服务范围内,基于(4)式计算一次成功传输的概率:
Figure RE-FDA0002427485060000024
其中,一次成功传输的概率,记为
Figure RE-FDA0002427485060000025
该概率定义为当至少一个用户发送数据时,只有一个用户成功传输的概率;
步骤2.C依据Wi-Fi系统的吞吐量定义,即公式(5)计算第k个Wi-Fi AP所服务用户总的吞吐量
Figure RE-FDA0002427485060000026
Figure RE-FDA0002427485060000027
其中,E[P]表示Wi-Fi数据包的平均长度,Tc、Ts以及σidle分别表示Wi-Fi数据包传输发生碰撞、Wi-Fi数据包成功传输、以及信道空闲所占用的时间;
Figure RE-FDA0002427485060000028
以及
Figure RE-FDA0002427485060000029
分别表示Wi-Fi数据包传输发生碰撞、Wi-Fi数据包成功传输、信道空闲的概率;
步骤2.D基于(6)式计算K个Wi-Fi AP所服务用户的总吞吐量
Figure RE-FDA00024274850600000210
也即整个Wi-Fi系统的吞吐量;
Figure RE-FDA0002427485060000031
步骤三、计算NR系统的吞吐量,具体包括以下子步骤;
步骤3.A基于(7)式计算第n个UE在所分配的非授权子信道上的吞吐量
Figure RE-FDA0002427485060000032
Figure RE-FDA0002427485060000033
其中,
Figure RE-FDA0002427485060000034
表示分配给非授权子信道c的带宽,
Figure RE-FDA0002427485060000035
表示分配给第n个UE所有非授权子信道的带宽、
Figure RE-FDA0002427485060000036
表示分配给第n个UE的传输功率,
Figure RE-FDA0002427485060000037
表示基站和UE之间的信道增益,N0表示噪声的功率谱密度;
步骤3.B基于(8)式计算NR系统的吞吐量
Figure RE-FDA0002427485060000038
也即将N个UE的吞吐量求和;
Figure RE-FDA0002427485060000039
步骤四、计算一个占空比周期内NR系统
Figure RE-FDA00024274850600000310
和Wi-Fi系统的吞吐量
Figure RE-FDA00024274850600000311
具体为以下子步骤;
步骤4.A分别将TNR和TWiFi归一化为θNR和θWiFi
其中,TNR和TWiFi分别为NR ON阶段和NR OFF阶段的时长,θNR和θWiFi均为连续变量,分别为NR ON阶段以及NR OFF阶段在整个占空比周期的时长占比,且θNR=TNR/Tcycle及θWiFi=TWiFi/Tcycle,且θNRWiFi=1,TNR+TWiFi=Tcycle
步骤4.B分别按照(9)和(10)式计算一个占空比周期内NR系统的吞吐量
Figure RE-FDA00024274850600000312
和Wi-Fi系统的吞吐量
Figure RE-FDA00024274850600000313
Figure RE-FDA0002427485060000041
Figure RE-FDA0002427485060000042
步骤五、基于(11)式计算一个占空比周期内NR系统和Wi-Fi系统内用户的公平性
Figure RE-FDA0002427485060000043
Figure RE-FDA0002427485060000044
步骤六、建立非授权频谱占空比共存方法的优化模型,具体为:以NR ON阶段时间占比θNR为变量,在满足NR系统和Wi-Fi系统内用户的整体公平性约束的前提下,最大化一个占空比周期内NR系统的吞吐量;
步骤七、将步骤六建立的优化模型(12)转化为马尔可夫过程;
其中,马尔可夫过程中的基本元素,包括智能体、动作空间、状态空间以及奖励函数;
步骤八、采用DDPG方法求解步骤七建立的马尔可夫过程,确定占空比周期内NR阶段时间占比θNR
2.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法,其特征在于:步骤3.A中,n的取值范围为1到N。
3.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法,其特征在于:c的取值范围为1到Cn
4.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法,其特征在于:步骤五中,公平性
Figure RE-FDA0002427485060000045
是一个位于0到1之间的连续变量,越接近于1,系统的公平性越大。
5.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法,其特征在于:步骤六中建立的优化模型如(12)式:
Figure RE-FDA0002427485060000051
使得:
Figure RE-FDA0002427485060000052
θNR∈[0,1] (12.b)
其中,JTP Threshold表示共存系统所能忍受的最小公平性。
6.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法,其特征在于:步骤七,具体分为以下子步骤;
步骤7.A将决策者基站定义为智能体;
步骤7.B在每个时间步t下,智能体根据当前环境决定θLTE的值,也即动作空间定义为{at=θLTE∈[0,1]};
其中,at是时间步t下采取的动作;
步骤7.C在每个时间步t下,状态空间定义为非授权频段内一个占空比周期内NR的吞吐量
Figure RE-FDA0002427485060000053
Wi-Fi系统的吞吐量
Figure RE-FDA0002427485060000054
以及NR系统和Wi-Fi系统内用户的公平性
Figure RE-FDA0002427485060000055
所构成的集合,也即:
Figure RE-FDA0002427485060000056
步骤7.D基于(13)式定义奖励函数rt
Figure RE-FDA0002427485060000057
其中,在每个时间步t下,当NR系统和Wi-Fi系统内用户的公平性
Figure RE-FDA0002427485060000058
不能满足最小的限制JTP Threshold时,对智能体进行一定的惩罚,给予负奖励-1,否则给予正奖励
Figure RE-FDA0002427485060000061
JTP Threshold表示共存系统所能忍受的最小公平性。
7.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法,其特征在于:步骤八,具体包括如下子步骤:
步骤8.1初始化Actor网络、Critic网络、目标网络及训练参数,具体包括如下三方面内容:
A)分别以参数θμ和θQ随机初始化Actor网络μ(s|θμ)和Critic网络Q(s,a|θQ);
其中,s是状态,a是动作;θμ是Actor网络的参数;θQ是Critic网络的参数;
B)以参数θμ′←θμ和θQ′←θQ初始化目标网络μ′和Q′;
其中,θμ′和θQ′分别是目标网络μ′和Q′的参数,θμ′←θμ表示将θμ赋值给θμ′,θQ′←θQ表示将θQ赋值给θQ′
C)初始化经验池、mini-batch大小、折损因子、学习率以及软更新参数;
步骤8.2遍历episode从1到M,对步骤8.1初始化的Actor网络、Critic网络、以及目标网络进行如下训练:
步骤8.2A基于高斯过程初始化动作探索过程;
步骤8.2B获取初始观测状态s1
步骤8.2C遍历t从1到T-1,进行如下步骤:
1)根据PG方法及EE方法,在第t个时间步下观测状态st,获取并执行动作at
其中,PG方法属于Actor网络,全称Policy Gradient;EE方法是exploration-exploitation的缩写;
2)AP根据(10)式计算Wi-Fi系统的吞吐量,并广播至基站;
3)基站根据(9)式计算NR系统的吞吐量,接收广播信息,并根据(11)式计算NR系统和Wi-Fi系统内用户的公平性;
4)根据(13)式获取当前时间步t下的奖励;
5)观测下一状态st+1
6)存储时间步t下的经历到经验池中;
其中,时间步t下的经历表示为[st,at,rt,st+1],也即由时刻t的状态,记为st、时刻t的动作,记为at、时刻t的奖励,记为rt、以及下一时刻的状态,记为st+1,组成;
7)在经验池中随机采样mini-batch大小的经历;
其中,mini-batch的大小定义为B,也即采样得到的经历由B个样本组成;表示为[si,ai,ri,si+1],也即由采样得到的B个样本中第i个样本对应的状态,记为si、第i个样本对应的动作,记为ai、第i个样本对应的奖励,记为ri,以及更新后第i+1个样本对应的的状态,记为si+1,组成;i的取值范围为1到B;
8)设定Critic网络对采样得到的B个样本中第i个样本进行更新的目标值为yi,表示为yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′);
其中,θQ′表示目标网络Q′中的参数,ri表示采样得到的B个样本中第i个样本对应的奖励,γ表示折损因子,Q′表示具有参数θQ′的目标网络,μ′表示具有参数θμ′的目标网络;
9)通过最小化损失函数
Figure RE-FDA0002427485060000071
来更新Critic网络;
其中,B表示mini-batch的大小;θQ表示Critic网络中的参数,yi为8)中设定的Critic网络对采样得到的B个样本中第i个样本进行更新的目标值;
10)通过PG方法
Figure RE-FDA0002427485060000081
来更新Actor网络;
其中,
Figure RE-FDA0002427485060000082
表示Actor网络μ(s|θμ)对参数θμ在状态si时求导;
Figure RE-FDA0002427485060000083
表示Critic网络Q(s,a|θQ)对参数θQ在状态s等于第i个样本对应的状态si,动作a等于第i个样本对应的动作ai求导;
Figure RE-FDA0002427485060000084
表示更新后的Actor网络;
11)根据式(14)和(15)更新目标网络μ′和Q′:
θQ′←τθQ+(1-τ)θQ′ (14)
θμ′←τθμ+(1-τ)θμ′ (15)
其中,τ表示更新参数;θQ′←τθQ+(1-τ)θQ′表示将τθQ+(1-τ)θQ′赋值给θQ′;θμ′←τθμ+(1-τ)θμ′表示将τθμ+(1-τ)θμ′赋值给θμ′
12)更新状态st=st+1
CN201911291954.1A 2019-12-16 2019-12-16 一种基于ddpg的非授权频谱占空比共存方法 Active CN111163531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911291954.1A CN111163531B (zh) 2019-12-16 2019-12-16 一种基于ddpg的非授权频谱占空比共存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911291954.1A CN111163531B (zh) 2019-12-16 2019-12-16 一种基于ddpg的非授权频谱占空比共存方法

Publications (2)

Publication Number Publication Date
CN111163531A true CN111163531A (zh) 2020-05-15
CN111163531B CN111163531B (zh) 2021-07-13

Family

ID=70557282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911291954.1A Active CN111163531B (zh) 2019-12-16 2019-12-16 一种基于ddpg的非授权频谱占空比共存方法

Country Status (1)

Country Link
CN (1) CN111163531B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113438744A (zh) * 2021-06-23 2021-09-24 嘉兴学院 一种基于加权式强化学习的分段式退避算法
CN114339775A (zh) * 2021-11-19 2022-04-12 北京理工大学 基于优化的ddpg的ris辅助非授权频谱共存方法
CN114375066A (zh) * 2022-01-08 2022-04-19 山东大学 一种基于多智能体强化学习的分布式信道竞争方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160260024A1 (en) * 2015-03-04 2016-09-08 Qualcomm Incorporated System of distributed planning
CN106412931A (zh) * 2016-12-16 2017-02-15 重庆邮电大学 一种基于多时隙融合机制的lte‑u空闲信道评估方法
CN107919931A (zh) * 2017-11-21 2018-04-17 重庆邮电大学 认知网中一种基于隐马尔可夫的多信道功率控制机制
US20180270690A1 (en) * 2017-03-15 2018-09-20 Nec Laboratories America, Inc. Blue-printing interference for lte access in unlicensed spectrum
CN108882377A (zh) * 2018-06-08 2018-11-23 苏州大学 基于认知的lte-r中资源分配方法
CN108924944A (zh) * 2018-07-19 2018-11-30 重庆邮电大学 基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法
CN109951864A (zh) * 2019-03-28 2019-06-28 重庆邮电大学 基于LAA不完美频谱探测与WiFi共存的系统性能分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160260024A1 (en) * 2015-03-04 2016-09-08 Qualcomm Incorporated System of distributed planning
CN106412931A (zh) * 2016-12-16 2017-02-15 重庆邮电大学 一种基于多时隙融合机制的lte‑u空闲信道评估方法
US20180270690A1 (en) * 2017-03-15 2018-09-20 Nec Laboratories America, Inc. Blue-printing interference for lte access in unlicensed spectrum
CN107919931A (zh) * 2017-11-21 2018-04-17 重庆邮电大学 认知网中一种基于隐马尔可夫的多信道功率控制机制
CN108882377A (zh) * 2018-06-08 2018-11-23 苏州大学 基于认知的lte-r中资源分配方法
CN108924944A (zh) * 2018-07-19 2018-11-30 重庆邮电大学 基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法
CN109951864A (zh) * 2019-03-28 2019-06-28 重庆邮电大学 基于LAA不完美频谱探测与WiFi共存的系统性能分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARVIN YUEN等人: "Cellular and WiFi Co-design for 5G User Equipment", 《2018 IEEE 5G WORLD FORUM (5GWF)》 *
费泽松: "Cooperative LBT Design and Effective Capacity Analysis for 5G NR Ultra Dense Networks in Unlicensed Spectrum", 《 IEEE ACCESS ( VOLUME: 7)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113438744A (zh) * 2021-06-23 2021-09-24 嘉兴学院 一种基于加权式强化学习的分段式退避算法
CN113438744B (zh) * 2021-06-23 2022-07-05 嘉兴学院 一种基于加权式强化学习的分段式退避算法
CN114339775A (zh) * 2021-11-19 2022-04-12 北京理工大学 基于优化的ddpg的ris辅助非授权频谱共存方法
CN114375066A (zh) * 2022-01-08 2022-04-19 山东大学 一种基于多智能体强化学习的分布式信道竞争方法
CN114375066B (zh) * 2022-01-08 2024-03-15 山东大学 一种基于多智能体强化学习的分布式信道竞争方法

Also Published As

Publication number Publication date
CN111163531B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN109474980B (zh) 一种基于深度增强学习的无线网络资源分配方法
CN115065448B (zh) 用于接入点的集成电路
CN111163531B (zh) 一种基于ddpg的非授权频谱占空比共存方法
CN111328052B (zh) 一种高密度无线网络中信道资源分配方法
CN110035559B (zh) 一种基于混沌q-学习算法的竞争窗口大小智能选择方法
da Mata et al. Resource allocation for the LTE uplink based on Genetic Algorithms in mixed traffic environments
Elsayed et al. Deep reinforcement learning for reducing latency in mission critical services
Filoso et al. Proportional-based resource allocation control with QoS adaptation for IEEE 802.11 ax
Wang et al. Joint bandwidth and transmission opportunity allocation for the coexistence between NR-U and WiFi systems in the unlicensed band
Bai et al. An adaptive grouping scheme in ultra-dense IEEE 802.11 ax network using buffer state report based two-stage mechanism
CN113453239A (zh) 信道资源分配方法及系统、存储介质、电子设备
CN110602788B (zh) 一种窄带物联网上行时频资源优化方法及可读存储介质
Dai et al. Adaptive resource allocation for LTE/WiFi coexistence in the unlicensed spectrum
Islam et al. A Proportional Scheduling Protocol for the OFDMA-Based Future Wi-Fi Network.
CN117715219A (zh) 基于深度强化学习的空时域资源分配方法
Libório et al. Network Slicing in IEEE 802.11 ah
Kim et al. A priority-based dynamic link scheduling algorithm using multi-criteria decision making in wireless body area networks
Elsayed et al. Learning-based resource allocation for data-intensive and immersive tactile applications
Pei et al. A deep reinforcement learning based spectrum access scheme in unlicensed bands
CN106455096B (zh) 一种基于权重的家庭基站干扰协调方法
Eskandari et al. Smart interference management xApp using deep reinforcement learning
Tang et al. An almost blank subframe allocation algorithm for 5G new radio in unlicensed bands
Xu et al. Joint trajectory design and resource allocation for energy-efficient UAV enabled eLAA network
Kosek-Szott et al. Improving IEEE 802.11 ax UORA performance: Comparison of reinforcement learning and heuristic approaches
Chao et al. Cooperative spectrum sharing and scheduling in self-organizing femtocell networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant