CN111163531A

CN111163531A - 一种基于ddpg的非授权频谱占空比共存方法

Info

Publication number: CN111163531A
Application number: CN201911291954.1A
Authority: CN
Inventors: 曾鸣; 王璐; 费泽松; 唐清清; 王文欣
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-15
Anticipated expiration: 2039-12-16
Also published as: CN111163531B

Abstract

本发明涉及一种基于DDPG的非授权频谱占空比共存方法，属于无线通信中的频谱资源分配技术领域。首先，建立以NR ON阶段的时间占比为变量，在满足NR系统和Wi‑Fi系统内用户的整体公平性约束的前提下，最大化一个占空比周期内NR系统吞吐量的优化模型；其次，将优化模型转化为具有连续动作空间的马尔可夫过程；最后，用DDPG方法进行求解转化的马尔可夫过程，实现非授权频段内使用占空比机制下NR用户和Wi‑Fi用户之间的友好共存。相较现有方法中将NR ON阶段时间占比离散化求解的方式相比，所述方法解决了NR ON阶段的时间占比这一连续动作的确定，更有利于找到全局最优的NR ON阶段时间占比。

Description

一种基于DDPG的非授权频谱占空比共存方法

技术领域

本发明涉及一种基于DDPG的非授权频谱占空比共存方法，属于无线通信中的频谱资源分配技术领域。

背景技术

随着第五代移动通信(the fifth generation mobile communication,5G)技术的发展，也即新空口(New Radio,NR)技术的成熟，例如物联网、高清视频、虚拟现实等的发展，人类对数据流量的需求急剧增加。而数据业务的传输需要占用一定的频谱，大规模增加的数据需求使得有限的授权频谱资源非常紧张，一方面，通过提升频谱使用效率可进行一定程度的改善；另一方面，将授权频谱上传输的数据卸载到非授权频谱上进行传输，是近年来广泛受到关注的一项技术。非授权频段主要包括2.4GHz频段和5GHz频段范围，其中2.4GHz频段已经非常拥挤，因此将授权频段上待传输的数据，以蜂窝网数据为主，卸载到5GHz非授权频段范围上传输，可一定程度上缓解授权频段大量数据待传输的难题。

Wi-Fi系统是非授权频段上的主要使用者，其使用分布式接入方式对信道进行争用。而授权频段上的蜂窝系统，以NR系统为主，使用的是基站对用户(user equipment,UE)的集中调度方式进行数据传输。不同类型的传输方式也对非授权频段上NR用户和Wi-Fi用户间的友好共存带来了难题。目前已有多项共存技术被提出，包括占空比(duty cycle)方法、传输前侦听(listen-before-talk,LBT)方法、几乎空白子帧方法、白空间方法等等。

其中，占空比方法主要被中国、美国、韩国等国家使用，它将固定时长的周期在时域上分为NR ON阶段和NR OFF阶段，分别供NR系统和Wi-Fi系统传输数据，时域资源的划分也减小了NR系统和Wi-Fi系统之间的干扰。如何划分NR ON阶段和NR OFF阶段两者的时间占比也成为了学术界和工业界的一个研究热点，可根据信道状况、两个系统的负载情况等方面来确定。

NR ON阶段和NR OFF阶段两者的时间占比本质上属于资源分配问题，传统上可由凸优化理论、博弈论、排队论等数学工具来解决。近年来，随着人工智能技术的发展，一些机器学习方法被逐渐应用到资源分配问题之中，且具有较好的性能表现，例如Q-learning、deep Q network(DQN)等方法。然而目前使用这些方法只能解决离散动作空间的问题，对于NR ON阶段和NR OFF阶段两者的时间占比这一连续变化量便无能为力。因此，寻求一种可以解决时间占比连续动作空间问题的方法，例如深度确定性策略梯度(deep deterministicpolicy gradient,DDPG)方法，并能够具有良好的性能表现，具有重要的研究意义。

发明内容

本发明的目的在于针对现有解决非授权频谱占空比共存方法只适用于离散动作空间，无法适用于连续动作空间的技术缺陷，提出了一种基于DDPG的非授权频谱占空比共存方法，用于自适应确定占空比周期内NR ON阶段和NR OFF阶段时间占比。

本发明的核心思想是：建立以NR ON阶段的时间占比为变量，在满足NR系统和Wi-Fi系统内用户的整体公平性约束的前提下，最大化一个占空比周期内NR系统吞吐量的优化模型；再将优化模型转化为具有连续动作空间的马尔可夫过程，并用DDPG方法进行求解，得到变量的最优值，以实现非授权频段内使用占空比方法下NR用户和Wi-Fi用户之间的友好共存。

规定非授权频谱的场景为：K个Wi-Fi接入点和1个NR基站共享C个非授权子信道；1个NR基站服务N个UEs；每个Wi-Fi AP服务M^k个Wi-Fi用户，并且为了减小干扰，不同Wi-FiAP使用不同的非授权子信道；

其中，在Wi-Fi系统中，接入点，全称access point，简写为AP；用户，即station，简写STA；

一种基于DDPG的非授权频谱占空比共存方法，具体包括以下步骤：

步骤一、遍历k，求解所有Wi-Fi AP服务下Wi-Fi数据包的传输概率和碰撞概率；

其中，k的取值范围为1到K；第k个Wi-Fi AP服务下Wi-Fi数据包的传输概率，记为

碰撞概率，记为

传输概率

和碰撞概率

具体依据(1)和(2)计算：

其中，CW_min表示竞争窗口的初值，I表示最大退避次数；

其中，竞争窗口初值CW_min以及最大退避次数I基于Wi-Fi系统中采用载波侦听多点接入冲突避免中的二进制指数退避方式和碰撞确定；碰撞是Wi-Fi STA在接入信道时发生的，碰撞发生时采用二进制指数退避方式进行退避；

传输概率

基于建模的二维马尔可夫链得到；二维马尔可夫链对应每一个Wi-FiAP的行为过程，为Bianchi马尔可夫模型；

步骤二、遍历k，计算Wi-Fi系统中每个Wi-Fi AP的吞吐量；

其中，第k个Wi-Fi AP所服务用户总的吞吐量定义为单位时间内成功传输的数据量；

第k个Wi-Fi AP所服务用户总的吞吐量，包括如下子步骤：

步骤2.A基于(3)式计算第k个Wi-Fi AP所服务用户中至少一个用户进行传输的概率；

其中，至少一个用户进行传输的概率，记为

式中

表示传输概率；M^k为每个Wi-Fi AP服务的Wi-Fi用户数量；

步骤2.B在第k个Wi-Fi AP的服务范围内，基于(4)式计算一次成功传输的概率：

其中，一次成功传输的概率，记为

该概率定义为当至少一个用户发送数据时，只有一个用户成功传输的概率；

步骤2.C依据Wi-Fi系统的吞吐量定义，即公式(5)计算第k个Wi-Fi AP所服务用户总的吞吐量

其中，E[P]表示Wi-Fi数据包的平均长度，T_c、T_s以及σ_idle分别表示Wi-Fi数据包传输发生碰撞、Wi-Fi数据包成功传输、以及信道空闲所占用的时间；

以及

分别表示Wi-Fi数据包传输发生碰撞、Wi-Fi数据包成功传输、信道空闲的概率；

步骤2.D基于(6)式计算K个Wi-Fi AP所服务用户的总吞吐量

也即整个Wi-Fi系统的吞吐量；

步骤三、计算NR系统的吞吐量，具体包括以下子步骤；

步骤3.A基于(7)式计算第n个UE在所分配的非授权子信道上的吞吐量

其中，n的取值范围为1到N；

表示分配给非授权子信道c的带宽，c的取值范围为1到Cⁿ；

表示分配给第n个UE所有非授权子信道的带宽、

表示分配给第n个UE的传输功率，

表示基站和UE之间的信道增益，N₀表示噪声的功率谱密度；

步骤3.B基于(8)式计算NR系统的吞吐量

也即将N个UE的吞吐量求和；

步骤四、计算一个占空比周期内NR系统

和Wi-Fi系统的吞吐量

具体为以下子步骤；

步骤4.A分别将T_NR和T_WiFi归一化为θ_NR和θ_WiFi；

其中，T_NR和T_WiFi分别为NR ON阶段和NR OFF阶段的时长，θ_NR和θ_WiFi均为连续变量，分别为NR ON阶段以及NR OFF阶段在整个占空比周期的时长占比，且θ_NR＝T_NR/T_cycle及θ_WiFi＝T_WiFi/T_cycle，且θ_NR+θ_WiFi＝1，T_NR+T_WiFi＝T_cycle；

步骤4.B分别按照(9)和(10)式计算一个占空比周期内NR系统的吞吐量

和Wi-Fi系统的吞吐量

步骤五、基于(11)式计算一个占空比周期内NR系统和Wi-Fi系统内用户的公平性

其中，公平性

的计算依据Jain公平指数，该公平性是一个位于0到1之间的连续变量，越接近于1，系统的公平性越大；

步骤六、建立非授权频谱占空比共存方法优化模型，具体为：以NR ON阶段时间占比θ_NR为变量，在满足NR系统和Wi-Fi系统内用户的整体公平性约束的前提下，最大化一个占空比周期内NR系统的吞吐量，得到如(12)式所示的优化模型：

使得：

θ_NR∈[0,1] (12.b)

其中，J_TP ^Threshold表示共存系统所能忍受的最小公平性；

步骤七、将步骤六建立的优化模型(12)转化为马尔可夫过程；

分别定义马尔可夫过程中的基本元素，包括智能体、动作空间、状态空间、奖励函数，又具体分为以下子步骤；

步骤7.A将决策者基站定义为智能体；

步骤7.B在每个时间步t下，智能体根据当前环境决定θ_LTE的值，也即动作空间定义为{a_t＝θ_LTE∈[0,1]}；

其中，a_t是时间步t下采取的动作；

步骤7.C在每个时间步t下，状态空间定义为非授权频段内一个占空比周期内NR的吞吐量

Wi-Fi系统的吞吐量

以及NR系统和Wi-Fi系统内用户的公平性

所构成的集合，也即

步骤7.D基于(13)式定义奖励函数r_t；

其中，在每个时间步t下，当NR系统和Wi-Fi系统内用户的公平性

不能满足最小的限制J_TP ^Threshold时，对智能体进行一定的惩罚，给予负奖励-1，否则给予正奖励

步骤八、DDPG方法求解步骤七建立的马尔可夫过程，确定占空比周期内NR阶段时间占比θ_NR，具体包括如下子步骤：

步骤8.1初始化Actor网络、Critic网络、目标网络及训练参数，具体包括如下三方面内容：

A)分别以参数θ^μ和θ^Q随机初始化Actor网络μ(s|θ^μ)和Critic网络Q(s,a|θ^Q)；

其中，s是状态，a是动作；θ^μ是Actor网络的参数；θ^Q是Critic网络的参数；

B)以参数θ^μ′←θ^μ和θ^Q′←θ^Q初始化目标网络μ′和Q′；

其中，θ^μ′和θ^Q′分别是目标网络μ′和Q′的参数，θ^μ′←θ^μ表示将θ^μ赋值给θ^μ′，θ^Q′←θ^Q表示将θ^Q赋值给θ^Q′；

C)初始化经验池、mini-batch大小、折损因子、学习率以及软更新参数；

步骤8.2遍历episode从1到M，对步骤8.1初始化的Actor网络、Critic网络、以及目标网络进行如下训练：

步骤8.2A基于高斯过程初始化动作探索过程；

步骤8.2B获取初始观测状态s₁；

步骤8.2C遍历t从1到T-1，进行如下步骤：

1)根据PG方法及EE方法，在第t个时间步下观测状态s_t，获取并执行动作a_t；

其中，PG方法属于Actor网络，全称Policy Gradient；EE方法是exploration-exploitation的缩写；

2)AP根据(10)式计算Wi-Fi系统的吞吐量，并广播至基站；

3)基站根据(9)式计算NR系统的吞吐量，接收广播信息，并根据(11)式计算NR系统和Wi-Fi系统内用户的公平性；

4)根据(13)式获取当前时间步t下的奖励；

5)观测下一状态s_t+1；

6)存储时间步t下的经历到经验池中；

其中，时间步t下的经历表示为[s_t,a_t,r_t,s_t+1]，也即由时刻t的状态，记为s_t、时刻t的动作，记为a_t、时刻t的奖励，记为r_t、以及下一时刻的状态，记为s_t+1，组成；

7)在经验池中随机采样mini-batch大小的经历；

其中，mini-batch的大小定义为B，也即采样得到的经历由B个样本组成。表示为[s_i,a_i,r_i,s_i+1]，也即由采样得到的B个样本中第i个样本对应的状态，记为s_i、第i个样本对应的动作，记为a_i、第i个样本对应的奖励，记为r_i，以及更新后第i+1个样本对应的的状态，记为s_i+1，组成；i的取值范围为1到B；

8)设定Critic网络对采样得到的B个样本中第i个样本进行更新的目标值为y_i，表示为y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)；

其中，θ^Q′表示目标网络Q′中的参数，r_i表示采样得到的B个样本中第i个样本对应的奖励，γ表示折损因子，Q′表示具有参数θ^Q′的目标网络，μ′表示具有参数θ^μ′的目标网络；

9)通过最小化损失函数

来更新Critic网络；

其中，B表示mini-batch的大小；θ^Q表示Critic网络中的参数，y_i为8)中设定的Critic网络对采样得到的B个样本中第i个样本进行更新的目标值；

10)通过PG方法

来更新Actor网络；

其中，

表示Actor网络μ(s|θ^μ)对参数θ^μ在状态s_i时求导；

表示Critic网络Q(s,a|θ^Q)对参数θ^Q在状态s等于第i个样本对应的状态s_i，动作a等于第i个样本对应的动作a_i求导；

表示更新后的Actor网络；

11)根据式(14)和(15)更新目标网络μ′和Q′：

θ^Q′←τθ^Q+(1-τ)θ^Q′ (14)

θ^μ′←τθ^μ+(1-τ)θ^μ′ (15)

其中，τ表示更新参数；θ^Q′←τθ^Q+(1-τ)θ^Q′表示将τθ^Q+(1-τ)θ^Q′赋值给θ^Q′；θ^μ′←τθ^μ+(1-τ)θ^μ′表示将τθ^μ+(1-τ)θ^μ′赋值给θ^μ′；

12)更新状态s_t＝s_t+1。

有益效果

本发明提出一种基于DDPG的非授权频谱占空比共存方法，与现有技术相比，具有以下有益效果：

1、考虑到NR数据量急剧增加，将部分NR数据卸载到非授权频谱内进行传输，并使用占空比方法进行共存，提升了NR系统的吞吐量；

2、考虑一个占空比周期内NR系统的吞吐量，Wi-Fi系统的吞吐量以及系统用户的公平性指标，本发明在满足两个系统内用户公平性的约束条件下，能够最大化非授权频段上NR系统的吞吐量；

3、本发明将建立的优化模型转化为具有连续动作空间的马尔可夫决策过程，并基于DDPG解决了占空比方法下NR ON阶段时间占比θ_NR的自适应确定，与现有方法中将NR ON阶段时间占比θ_NR离散化求解的方式相比，可直接对连续动作空间求解，更利于找到全局最优解。

附图说明

图1为本发明“一种基于DDPG方法的非授权频谱占空比共存方法”的流程图；

图2为本发明“一种基于DDPG方法的非授权频谱占空比共存方法”具体实施例中NRON阶段时间占比θ_NR的收敛结果图；

图3为本发明“一种基于DDPG方法的非授权频谱占空比共存方法”具体实施例中一个占空比周期内NR系统吞吐量的收敛结果图；

图4为本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内Wi-Fi系统吞吐量的收敛结果图；

图5为本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内共存系统用户间公平性的收敛结果图。

具体实施方式

下面结合附图和具体实施例子对本发明进行详细说明。

实施例1

本发明具体实施时输出一个占空比周期内NR系统和Wi-Fi系统的时间占比，适用于用户数量为几个到几十个的场景。

设定实施例1的场景为5个Wi-Fi AP和1个基站共享3个非授权子信道，该基站下有10个UEs，每个Wi-Fi AP服务3个Wi-Fi STAs的非授权频段共存场景。Wi-Fi退避方式中的初始竞争窗口为16，最大退避次数为6。

Wi-Fi平均数据包长度为12000bits，数据传输速率为300Mbps。NR系统在非授权频段分配到的传输功率和带宽分别为23dBm和20MHz，信道路径损耗模型采用-15.3-5×10lg(d)，d表示基站和UE之间的距离，设定为100m，噪声功率谱密度为-174dBm/Hz。共存系统所能忍受的最小公平性J_TP ^Threshold设定为0.5。NR系统和Wi-Fi系统在非授权频段的传输采用本发明提出的基于DDPG方法的占空比共存方法。

流程图如图1所示，具体操作流程如下：

步骤A、遍历k，依据(1)、(2)式求解所有Wi-Fi AP服务下Wi-Fi数据包的传输概率

和碰撞概率

其中，k的取值范围为1到5；

步骤B、遍历k，依据(3)、(4)式分别计算第k个Wi-Fi AP所服务用户中至少一个用户进行传输的概率

和一次成功传输的概率

依据(5)式计算得到第k个Wi-Fi AP所服务的3个用户的总吞吐量

依据(6)式计算得到含有5个Wi-Fi AP系统的总吞吐量

步骤C、依据(7)式计算第n个UE在所分配的非授权子信道上的吞吐量

依据(8)式计算得到整个NR系统的吞吐量

其中，n的取值范围为1到10；

步骤D、记NR ON阶段和NR OFF阶段的时长归一化后分别表示为θ_NR和θ_WiFi，分别按照(9)、(10)、(11)式表示出一个占空比周期内NR系统的吞吐量

和Wi-Fi系统的吞吐量

以及NR系统和Wi-Fi系统内用户的公平性

由此可得到如(14)式所示的非授权频谱占空比共存方法优化模型；

使得：

θ_NR∈[0,1] (14.b)

步骤E、将系统共存优化问题表示为如步骤7所示的马尔可夫过程；

其中，基站为智能体，在每个时间步t下，根据当前状态，也即一个占空比周期内NR的吞吐量，Wi-Fi系统的吞吐量以及系统用户的公平性所够成的集合：

来采取动作，决定θ_NR的值，也即动作空间为{a_t＝θ_NR∈[0,1]}。动作执行后，智能体根据(13)式得到环境奖励r_t，同时环境状态转移到下一时间步的状态s_t+1；

步骤F、依据表1中的DDPG方法求解步骤E中的马尔可夫决策过程，具体如下表1所示：

表1基于DDPG求解马尔可夫过程的流程

从步骤A到步骤F，完成了本实施例一种基于DDPG的非授权频谱占空比共存方法。

对实施例1基于图1本发明的流程图进行仿真，得到NR ON阶段时间占比θ_NR，也即动作的变化情况，对应图2本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中NR ON阶段时间占比θ_NR的收敛结果图；得到一个占空比周期内NR系统和Wi-Fi系统的吞吐量，分别对应图3本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内NR系统吞吐量的收敛结果图；图4本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内Wi-Fi系统吞吐量的收敛结果图；仿真得到系统内用户公平性的变化情况，对应图5本发明“一种基于DDPG的非授权频谱占空比共存方法”具体实施例中一个占空比周期内系统用户间公平性的收敛结果图。

从图2可以看出，基于DDPG方法的非授权频谱占空比共存方法所确定的NR ON阶段时间占比θ_NR在迭代一定步数后收敛，并稳定于0.67附近，此结果表明，对实施例1应用本发明提出的基于DDPG方法的非授权频谱占空比共存方法，可以自适应地在一个占空比周期内确定出约67％的前一段时间给NR系统使用，后33％的时长给Wi-Fi系统传输；从图3可以看出，一个占空比周期内NR系统的吞吐量在迭代一定步数后收敛，并稳定于610Mbps附近；从图4可以看出，一个占空比周期内Wi-Fi系统的吞吐量在迭代一定步数后收敛，并稳定于85Mbps附近；从图5可以看出，共存系统内用户的公平性均在迭代一定步数后收敛，并稳定于0.51值，此时能保证在共存系统内用户的公平性满足最低要求0.5的情况下，NR系统吞吐量能够带来最大的提升，为610Mbps。因此，本发明提出的基于DDPG的非授权频谱占空比共存方法可直接对连续动作空间求解，找到全局最优的NR ON阶段时间占比，实现了NR系统和Wi-Fi系统在非授权频谱内的友好共存。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入发明保护的范围。

Claims

1.一种基于DDPG的非授权频谱占空比共存方法，其特征在于：规定非授权频谱的场景为：K个Wi-Fi接入点和1个NR基站共享C个非授权子信道；1个NR基站服务N个UEs；每个Wi-FiAP服务M^k个Wi-Fi用户，并且为了减小干扰，不同Wi-Fi AP使用不同的非授权子信道；其中，在Wi-Fi系统中，接入点，全称access point，简写为AP；用户，即station，简写STA，所述非授权频谱占空比共存方法，其特征在于：包括以下步骤：

碰撞概率，记为

传输概率

和碰撞概率

具体依据(1)和(2)计算：

其中，CW_min表示竞争窗口的初值，I表示最大退避次数；

传输概率

基于建模的二维马尔可夫链得到；二维马尔可夫链对应每一个Wi-Fi AP的行为过程，为Bianchi马尔可夫模型；

步骤二、遍历k，计算Wi-Fi系统中每个Wi-Fi AP的吞吐量；

第k个Wi-Fi AP所服务用户总的吞吐量，包括如下子步骤：

其中，至少一个用户进行传输的概率，记为

式中

表示传输概率；M^k为每个Wi-FiAP服务的Wi-Fi用户数量；

其中，一次成功传输的概率，记为

以及

步骤2.D基于(6)式计算K个Wi-Fi AP所服务用户的总吞吐量

也即整个Wi-Fi系统的吞吐量；

步骤三、计算NR系统的吞吐量，具体包括以下子步骤；

其中，

表示分配给非授权子信道c的带宽，

表示分配给第n个UE所有非授权子信道的带宽、

表示分配给第n个UE的传输功率，

表示基站和UE之间的信道增益，N₀表示噪声的功率谱密度；

步骤3.B基于(8)式计算NR系统的吞吐量

也即将N个UE的吞吐量求和；

步骤四、计算一个占空比周期内NR系统

和Wi-Fi系统的吞吐量

具体为以下子步骤；

步骤4.A分别将T_NR和T_WiFi归一化为θ_NR和θ_WiFi；

和Wi-Fi系统的吞吐量

步骤六、建立非授权频谱占空比共存方法的优化模型，具体为：以NR ON阶段时间占比θ_NR为变量，在满足NR系统和Wi-Fi系统内用户的整体公平性约束的前提下，最大化一个占空比周期内NR系统的吞吐量；

步骤七、将步骤六建立的优化模型(12)转化为马尔可夫过程；

其中，马尔可夫过程中的基本元素，包括智能体、动作空间、状态空间以及奖励函数；

步骤八、采用DDPG方法求解步骤七建立的马尔可夫过程，确定占空比周期内NR阶段时间占比θ_NR。

2.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法，其特征在于：步骤3.A中，n的取值范围为1到N。

3.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法，其特征在于：c的取值范围为1到Cⁿ。

4.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法，其特征在于：步骤五中，公平性

是一个位于0到1之间的连续变量，越接近于1，系统的公平性越大。

5.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法，其特征在于：步骤六中建立的优化模型如(12)式：

使得：

θ_NR∈[0,1] (12.b)

其中，J_TP ^Threshold表示共存系统所能忍受的最小公平性。

6.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法，其特征在于：步骤七，具体分为以下子步骤；

步骤7.A将决策者基站定义为智能体；

其中，a_t是时间步t下采取的动作；

Wi-Fi系统的吞吐量

以及NR系统和Wi-Fi系统内用户的公平性

所构成的集合，也即：

步骤7.D基于(13)式定义奖励函数r_t；

J_TP ^Threshold表示共存系统所能忍受的最小公平性。

7.根据权利要求1所述的一种基于DDPG的非授权频谱占空比共存方法，其特征在于：步骤八，具体包括如下子步骤：

步骤8.2A基于高斯过程初始化动作探索过程；

步骤8.2B获取初始观测状态s₁；

步骤8.2C遍历t从1到T-1，进行如下步骤：

2)AP根据(10)式计算Wi-Fi系统的吞吐量，并广播至基站；

4)根据(13)式获取当前时间步t下的奖励；

5)观测下一状态s_t+1；

6)存储时间步t下的经历到经验池中；

7)在经验池中随机采样mini-batch大小的经历；

其中，mini-batch的大小定义为B，也即采样得到的经历由B个样本组成；表示为[s_i,a_i,r_i,s_i+1]，也即由采样得到的B个样本中第i个样本对应的状态，记为s_i、第i个样本对应的动作，记为a_i、第i个样本对应的奖励，记为r_i，以及更新后第i+1个样本对应的的状态，记为s_i+1，组成；i的取值范围为1到B；

9)通过最小化损失函数

来更新Critic网络；

10)通过PG方法

来更新Actor网络；

其中，

表示Actor网络μ(s|θ^μ)对参数θ^μ在状态s_i时求导；

表示更新后的Actor网络；

11)根据式(14)和(15)更新目标网络μ′和Q′：

θ^Q′←τθ^Q+(1-τ)θ^Q′ (14)

θ^μ′←τθ^μ+(1-τ)θ^μ′ (15)

12)更新状态s_t＝s_t+1。