CN113316174B

CN113316174B - 一种非授权频谱智能接入方法

Info

Publication number: CN113316174B
Application number: CN202110578657.6A
Authority: CN
Inventors: 裴二荣; 黄一格; 宋珈锐; 陶凯; 徐成义
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-07-08
Anticipated expiration: 2041-05-26
Also published as: CN113316174A

Abstract

本发明涉及一种免授权频谱智能接入方法，属于无线通信领域。本方法包括以下步骤：S1：初始化环境参数和智能体参数；S2：初始化环境状态s_t＝s₁和经验回放机制RB；S3：根据ε‑贪心策略产生动作a_t＝π(s_t)；S4：在后续β_E个执行周期中执行动作a_t，收到环境反馈r_t并更新状态至s_t+1；S5：将转移样本e_t＝(s_t，a_t，r_t，s_t+1)存储到经验回访机制RB；S6：从经验回放机制RB中随机抽取H个转移样本更新Q‑网络；S7：训练终止，输出最优接入策略。在本发明中，LTE小基站作为学习和决策的主体，能够根据网络中不同WiFi接入点数目，学习到最优的接入动作策略，从而获得共存网络的总吞吐量和公平性的最大化。

Description

一种非授权频谱智能接入方法

技术领域

本发明属于无线通信领域，涉及一种非授权频谱智能接入方法。

背景技术

无线通信见证了移动终端数量和各种多媒体应用的流量需求的空前增长。预计在2017年到2024年，全球移动数据流量将增长7倍。当前网络容量与未来流量需求之间的巨大鸿沟促使学术界和工业界寻求更高级的技术来提升网络容量。鉴于全球范围内的有大量可用的非授权频谱，移动运营商正越来越多地考虑将非授权频谱作为一种补充工具，以扩大网络容量。

与授权频谱不同，采用不同类型的无线接入技术(Radio Access Technology，RAT)的无线通信系统可以共存于非授权频谱中。当不同无线接入技术之间缺少兼容时，在同一非授权部署多个无线接入技术会引起相互干扰，以及可能对整个系统造成性能恶化。因此，在采用不同无线接入技术的无线系统之间设计一个高效且公平的共存方案是必要的。在这些无线通信系统中，WiFi系统是最常见的一种无线通信系统，WiFi系统与LTE系统和谐共存为当前的研究热点。

在同一非授权频段中，LTE系统和WiFi系统如何实现公平共存是一个巨大挑战。WiFi采用基于CSMA/CA(Carrier Sense Multiple Access With Collision Avoidance)协议的随机接入方式，根据二进制指数退避的规则重传发生冲突的分组。而LTE是一种集中调度接入系统，专为授权频谱而设计。由于两种接入技术缺少协调，当WiFi系统和LTE系统在同一频带共存时，WiFi系统的性能会受到严重影响。为了保证两种系统的公平共存，两种主要的共存机制大致分为“先听后说”(Listen Before Talk，LBT)和“占空比”(Duty Cycle，DC)方法。

然而，现有的共存机制可达到的最佳性能十分有限。尤其是在多个竞争结点共存的情形下，共存网络中的公平性往往不能得到保障。在下一代无线移动通信系统中，为了给蜂窝用户提供更好的服务质量和用户体验，LTE和WiFi网络的融合是必然趋势。

人工智能技术的蓬勃发展为解决非授权频谱只能接入提供了新的解决思路。考虑到现有方案大多采用保守的随机接入机制或固定的周期性接入模式，不能够灵活地根据时变的无线环境做出自适应调整，这不可避免地使共存网络性能受到了约束。因此，本发明提供了一个非授权频谱智能接入方案。

发明内容

鉴于此，本发明提供了一种的非授权频谱智能接入方法。在本方法中，LTE小基站能够根据当前共存网络状态，决定何时接入以及接入后传输时长，最大化共存网络总吞吐量和公平性，确保网络中用户的服务质量。

为了达到上述目的，本发明提供如下技术方案：

一种的非授权频谱智能接入方法，其特征在于：该方法包括以下步骤：

S1：初始化环境参数和智能体参数；

S2：初始化环境状态s_t＝s₁和经验回放机制RB；

S3：根据ε-贪心策略产生动作a_t＝π(s_t)；

S4：在后续β_E个执行周期中执行动作a_t，收到环境反馈r_t并更新状态至s_t+1；

S5：将转移样本e_t＝(s_t，a_t，r_t，s_t+1)存储到经验回放机制RB；

S6：从经验回放机制RB中随机抽取H个转移样本更新Q-网络；

S7：训练终止，输出最优接入策略。

进一步，在步骤S1中，环境参数包括WiFi接入点的退避参数以及提出的接入框架的时间参数。具体而言，WiFi接入点采用二进制指数退避的CSMA/CA协议随机接入信道，需要设置的CSMA/CA退避参数包括初始窗口大小CW，WiFi接入点包长T_W和最大退避阶数m。此外，我们进一步提出了一个非授权频谱接入框架，该框架为智能体与环境的交互和优化目标提供了理论基础。在该框架中，需要设置的时间参数包括β_E、β_SF和β_S。智能体参数包括动作选择策略ε-贪心策略中ε，经验回放机制大小以及智能体中神经网络训练参数。

进一步，在步骤S2中，在正式训练过程开始之前，需要为环境设置一个初始状态s_t＝s₁。状态s_t被定义为：

其中f_t为时刻t时共存网络的公平性指数，其表达式为：

式中，K表示共存网络中WiFi接入点的数目，

和

分别表示时刻t∈(t-T_F，t]中第i个WiFi接入点和LTE小基站(智能体)的吞吐量，其表达式分别定义为：

式中，T_F表示反馈周期的长度，T_W和T_L分别表示WiFi接入点和LTE小基站在当前反馈周期传输的包长或帧长，故吞吐量含义为在反馈周期T_F中成功发送的包长或帧长所占据T_F的比例。初始状态基于当时共存网络具体的吞吐量和公平性计算得到。此外，智能体包含一个经验回放机制RB，用于存储过往的经验以便样本Q-网络的训练。RB是一个有限大小的队列形式存储器，我们需要预先设定其大小。

进一步，在步骤S3中，智能体根据当前状态s_t和ε-贪心策略选择接下来将要执行的动作。ε-贪心策略表达式为：

式中，Q(s_t，a)表示动作价值函数，即在当前状态s_t中选择动作a带来的价值大小，用于衡量动作的好坏。该等式表明以概率1-ε选择令当前Q值最大的动作，或者以概率ε随机从动作集合A中选择动作。ε随这训练迭代逐步减小，表明在训练刚开始时，智能体对于环境探索不足，故倾向于随机执行动作对环境进行探索；随着训练次数增加，智能体逐步倾向于利用习得的知识来做出动作选择。此外，动作定义为：

a_t＝[AT_t，TX_t]

式中，AT_t∈{0，T_SF，2T_sF，...，NT_sF}表示接入时刻，为LTE小基站基本传输单位子帧T_sF的整数倍。TX_t∈{T_sF，2T_sF，...，MT_sF}表示接入后的传输时长，为LTE小基站基本传输单位子帧T_SF的整数倍。智能体需要学习到一个控制策略，该策略可以知道智能体在当前状态下何时接入以及接入后传输多久。

进一步，在步骤S4中，智能体将在后续β_E个执行周期T_E中重复地执行动作a_t，并且会这样做能让智能体从更大的时间尺度观察到环境动态，即流量模式的变化，从而在计算r_t和s_t+1更加准确，评估动作价值Q(s_t，a_t)更精准，学习收敛更快。奖励值r_t的表达式为：

式中，共存网络总吞吐量

被定义为：

奖励的定义遵循我们追求的目标，即最大化共存网络的总吞吐量并确保公平性，单方面地增加吞吐量或公平性只会带来较小的奖励值，仅当吞吐量和公平性同时增加才能带来较大的奖励值。

进一步，在步骤S5中，智能体将一次与环境交互所产生的转移样本e_t＝(s_t，a_t，r_t，s_t+1)存储至RB。若RB已满，则会根据队列性质，将旧样本从队头弹出，新样本由队尾加入。

进一步，在步骤S6中，Q-网络用于近似动作价值函数Q(s_t，a_t；θ)≈Q(s_t，a_t)，但其更新过程仍然遵循贝尔曼方程(Bellman equation)。从RB中随机抽取批量为H的样本，对损失函数采用梯度下降法更新Q-网络权重。对于每一个经验样本，该过程表达式为：

式中，y_j表示目标值，由目标Q-网络Q′(·)参与计算得到，其定义为：

当取得一个经验样本e_t后将其输出Q-网络，再采用梯度下降算法最小化损失函数，Q-网络的权重得以更新，智能体的策略也变得更好。通过不断迭代，动作价值函数最终会收敛到最优解。

进一步，在步骤S7中，当训练次数达到预期次数时，智能体学习到一个最优解，即最优接入策略，此策略由Q-网络表示：

Q-网络的输入为信道状态s_t，输出是最优接入动作

本发明的有效效果在于：一种基于深度强化学习的非授权频谱智能接入方案，LTE小基站可以根据共存网络状态实时的做出接入动作的调整，最终实现最大化总吞吐量并确保公平性的目标，提高共存网络的频谱利用率，保证用户的服务质量。

附图说明

为了使本发明的目的、技术方案和有益效果更佳清楚，本发明提供如下附图进行说明：

图1为本发明实施例所述深度强化学习算法流程图；

图2为本发明实施例所述的强化学习交互原理图；

图3为本发明实施例所述的LTE/WiFi共存网络模型图；

图4为本发明实施例的非授权频谱接入框架。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

本发明针对非授权频谱(5GHz)LTE/WiFi共存网络中公平共存问题，提出一种基于深度强化学习的智能频谱接入方法。与传统共存机制相比，本发明能使LTE小基站自适应调整接入时机和传输时长，其过程如图1所示。LTE小基站首先通过ε-贪心策略选择接入动作a_t，随后对环境执行动作并得到反馈r_t和s_t+1，随后利用过往经验学习并提升自身策略，经过多次训练迭代，最终学到一个最优接入策略。上述过程符合强化学习中智能体与环境的交互过程，如图2所示。

我们考虑的共存网络存在一个LTE小基站和K个WiFi接入点(AP)，系统模型如图3所示。LTE小基站采用我们提出的算法接入信道，而WiFi接入点采用CSMA/CA协议接入信道。每个WiFi接入点采用同一套退避参数，因为由于退避参数的不同所造成的不公平现象不在本发明的考虑范围之内。

为了明确优化目标的定义和智能体与环境的交互过程，我们将共存网络环境建模为一个非授权频谱接入框架，如图4所示。在接入框架中，时间资源被划分为不同段。首先，LTE小基站在每个反馈周期T_F会收到来自附近WiFi接入点的消息反馈。换而言之，每个WiFi接入点以周期T_F周期性地广播自身吞吐量。其次，反馈周期T_F被划分为若干个执行周期T_E。在每个反馈周期开始时，LTE小基站总是根据当前状态和动作策略选择一个动作，并重复地在本反馈周期包含的执行周期中执行该动作。其次，执行周期T_E又被划分为若干个LTE子帧T_SF，这是小基站调度的基本单位，LTE小基站的传输时长T_L总是T_SF的整数倍。我们进一步将T_SF划分为若干个时隙T_S，这是WiFi接入点传输的基本单位。综上所述，T_F＝β_ET_E，T_E＝β_sFT_SF，T_SF＝β_sT_s。

我们的目标是找到一个接入策略，用于指导LTE小基站在反馈周期中做出的接入动作，以最大化共存网络总吞吐量和公平性。总吞吐量定义为：

式中，

和

分别表示时刻t∈(t-T_F，t)中第i个WiFi接入点和LTE小基站(智能体)的吞吐量，其表达式分别定义为：

公平性定义为：

式中，f_t∈[0，1]，意味着公平性指数越大，时间资源分配的越均衡。当所有结点拥有同等份额的时间资源，整个共存网络达到最公平的状态f_t＝1。

在本算法中，智能体的状态被定义为：

可见，状态被定义为公平性和各结点吞吐量的组合，这与算法的执行主要目标高度关联，即吞吐量和公平性，能够很好的表明无线信道是否被充分和均衡地利用。其次，智能体的动作被定义为：

a_t＝[AT_t，TX_t]

式中，AT_t∈{0，T_SF，2T_SF，...，NT_SF}表示接入时刻，为LTE小基站基本传输单位子帧T_SF的整数倍。TX_t∈{T_SF，2T_SF，...，MT_SF}表示接入后的传输时长，为LTE小基站基本传输单位子帧T_SF的整数倍。智能体在动作的选择上使用ε-贪心策略：

最后，智能体的奖励被定义为：

式中，f_t和

分别表示共存网络的公平性和总吞吐量。

随着共存网络中结点的增加，状态空间的大小会产生指数级增长。传统的Q-学习算法采用Q表格的方式存储状态-动作对，难以处理如此庞大的状态空间，所以在深度强化学习引入了神经网络作为Q函数的近似器，即Q(s_t，a_t；θ)≈Q(s_t，a_t)。在本算法中，我们设计的Q-网络为4层全连接神经网络，输入层神经元数目对应状态维度，输出层神经元数目对应动作空间大小，中间层统一采用固定的神经元数目。

智能体从经验回放机制RB中抽取一批经验样本对Q-网络进行训练，即使用梯度下降法最小化损失函数来更新网络权重，这也意味这接入策略的改善。通过不断地迭代训练，Q-网络权重最终收敛至一个最优值，此时Q-网络也就是最优的接入策略。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种非授权频谱智能接入方法，其特征在于：该方法包括以下步骤：

S1：初始化环境参数和智能体参数：环境由共存的WiFi接入点构成，故环境参数包括WiFi接入点的退避参数以及提出的接入框架的时间参数；具体而言，需要设置的退避参数包括初始窗口大小CW，WiFi接入点包长T_W和最大退避阶数m，需要设置的时间参数包括β_E、β_SF和β_S，智能体参数主要包括接入策略更新要用到的训练参数；

S2：初始化环境状态s_t＝s₁和经验回放机制RB：状态s_t被定义为：

其中f_t为时刻t时共存网络的公平性指数，f_t被定义为：

其中K表示共存网络中WiFi接入点的数目，

和

分别表示时刻t∈(t-T_F,t]中第i个WiFi接入点和LTE小基站智能体的吞吐量，分别定义为：

式中，T_F表示反馈周期的长度，T_W和T_L分别表示WiFi接入点和LTE小基站在当前反馈周期传输的包长或帧长，故吞吐量含义为在反馈周期T_F中成功发送的包长或帧长所占据T_F的比例；故初始状态基于当时共存网络具体的吞吐量和公平性计算得到；此外，LTE小基站包含一个经验回放机制RB，用于存储过往的经验以便样本接入策略的提升；

S3：LTE小基站选择动作：LTE小基站根据当前状态选择接入动作，而动作选择的策略需要权衡对与环境的探索和已有知识的利用，ε-贪心策略能很好地满足上述要求，其表达式定义为：

式中，ε∈[0,1]称为控制参数，其大小表明了LTE小基站在动作选择上的偏好；表示该等式表明以概率1-ε选择令当前Q值最大的动作，或者以概率ε随机从动作集合A中选择动作；接入动作a_t定义为：

a_t＝[AT_t,TX_t]

式中，AT_t∈{0,T_SF,2T_SF,…,NT_SF}表示接入时刻，为LTE小基站基本传输单位子帧T_SF的整数倍；TX_t∈{T_SF,2T_SF,…,MT_SF}表示接入后的传输时长，为LTE小基站基本传输单位子帧T_SF的整数倍；智能体需要学习到一个控制策略，该策略可以知道智能体在当前状态下何时接入以及接入后传输持续时间；

S4：LTE小基站执行动作：根据所提非授权频谱接入框架，在后续β_E个执行周期中执行动作a_t，收到环境反馈的奖励r_t并更新状态至s_t+1；奖励值r_t的定义为：

式中，共存网络总吞吐量

被定义为：

S5：将转移样本e_t＝(s_t,a_t,r_t,s_t+1)存储到经验回访机制RB；

S6：接入策略更新：由于Q-网络用于近似动作价值函数Q(s_t,a_t；θ)≈Q(s_t,a_t)，故LTE小基站接入策略的更新相当于Q-网络权重θ的更新；具体而言，LTE小基站从RB中随机抽取批量为H的样本，对损失函数采用梯度下降法更新Q-网络权重；对于每一个经验样本，该过程表达式为：

S7：训练终止，输出最优接入策略；此策略由Q-网络表示：

该式表示由Q-网络输入为信道状态s_t，则可以由输出端得到最优接入动作