CN114363908A

CN114363908A - 基于a2c的非授权频谱资源共享方法

Info

Publication number: CN114363908A
Application number: CN202210036385.1A
Authority: CN
Inventors: 裴二荣; 陶凯; 徐成义; 黄一格; 宋珈锐; 刘浔翀
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-15

Abstract

本发明涉及一种基于Advantage Actor‑Critic(A2C)的非授权频谱资源共享方法，属于无线通信技术领域。本发明包括以下步骤：S1：将LTE/WiFi共存场景中的资源共享问题描述成合作博弈过程，并提出A2C强化学习算法来解决该问题；S2：设计智能体SBS的动作集合A、奖励函数R，以及状态S；S3：初始化环境，每个智能体SBS获取初始状态值s_t；S4：每个智能体SBS将当前状态s_t输入到自身的Actor网络，独立地选择并执行动作a_t；S5：执行动作a_t后，智能体SBS根据奖励函数获取环境反馈的r_t，然后进入下一个状态s_t+1；S6：智能体SBS根据环境的反馈更新Actor网络和Critic网络权重，并调整接入策略；S7：重复步骤S4‑S6，直到收敛到最优纳什均衡，得到最佳联合接入动作。

Description

基于A2C的非授权频谱资源共享方法

技术领域

本发明属于无线通信技术领域，涉及基于A2C的非授权频谱资源共享方法。

背景技术

近年来，通信设备的数量和它们之间交换的数据量不断增长，给当前的蜂窝网络带来了沉重的负担。为了解决这个问题，LTE网络引入了许多新技术，例如大规模多输入多输出MIMO，D2D通信等，尽管有这些先进技术，但有限的许可频谱仍然是容量提升的主要瓶颈。反观非授权频段，尤其是5GHz非授权频段拥有丰富的频谱资源，并且未被充分利用。因此，将LTE网络与传统WiFi系统一起在非授权频段上运行被认为是一种支持爆炸性增长的数据流量的有前途的技术。

然而现有的未授权频段上已经存在发展十分成熟的无线技术，所以在选择未授权频谱用于通信网络的建设时，就必须考虑与已经存在未授权频段上的无线技术共存的问题。在频谱资源分配上，考虑到LTE是一种采用集中调度的频谱分配方案，而WiFi系统采用的是带有冲突避免的载波侦听多路访问接入技术，规定WiFiAccessPoint(WAP)和WiFi用户在传输前必须监听信道，只有信道空闲时才能接入。二者在频谱资源分配上存在着巨大差异，因此，如果LTE系统运行在相同的频段上，WiFi系统可能受到极大的干扰，影响WiFi用户的体验。因此在保证WiFi网络服务质量的情况下，使二者和谐共存成为了研究热点。

深度强化学习综合了强化学习无模型的特点以及深度学习处理大数据的能力，在智能决策、无人驾驶、边缘卸载等领域取得了不错的进展。受到深度强化学习的启发，本文明旨在将强化学习策略引入到免授权频谱共享方案中，让Small Base Station(SBS)实时地监控动态环境，挖掘潜在的重要数据和信息，并且自组织地学习接入策略，以实现蜂窝网与WiFi网络公平高效的共存。

5GHz免授权频段附近有着丰富的带宽资源，将移动通信技术从授权频段拓展到非授权频段有利于5G技术的发展。利用LAA技术作为基础，构建传输速率更高、时延低且耗电量小的网络，可以进一步满足下一代移动通信海量设备的连接需求。

发明内容

有鉴于此，本发明提供了一种基于A2C的非授权频谱资源共享方法来解决LTE与WiFi网络共享非授权频谱资源问题，在保证WiFi网络最低性能要求的情况下，使得SBS之间公平共享未授权资源。

为了达到上述目的，本发明提供如下技术方案：

1.基于AdvantageActor-Critic(A2C)的非授权频谱资源共享方法，包括以下步骤：

S1：将LTE/WiFi共存场景中的资源共享问题描述成合作博弈过程，并提出A2C强化学习算法来解决该问题；

S2：设计智能体SBS的动作集合A、奖励函数R，以及状态S；

S3：初始化环境，每个智能体SBS获取初始状态值s_t；

S4：每个智能体SBS将当前状态s_t输入到自身的Actor网络，独立地选择并执行动作a_t；

S5：执行动作a_t后，智能体SBS根据奖励函数获取环境反馈的r_t，并进入下一个状态s_t+1；

S6：智能体SBS根据环境的反馈更新Actor网络和Critic网络权重，调整接入策略；

S7：重复步骤S4-S6，直到收敛到最优纳什均衡。

2.进一步，在步骤S1中，我们将WiFi网络视为一个随机的环境，把LTE/WiFi共存场景中的未授权频谱资源共享问题表述为一个合作博弈过程，引入A2C算法来解决该问题。

3.进一步，在步骤S2中，针对共存系统，我们的目的旨在充分保护WiFi网络性能的情况下，实现SBS之间公平的共享非授权频谱资源。考虑到不同的SBS有不一样的聚合流量需求，我们定义出吞吐量需求比率β来作为SBS之间公平共享非授权资源的指标，β_j可表示为

其中，u_j为SBS j的吞吐量，d_ji为SBS所服务的用户UE i的流量需求。我们的目标是最大化所有SBS之间最小的吞吐量需求比率，以实现SBS之间公平的共享非授权频谱资源。

除此之外，为了防止WiFi网络性能的显著下降，我们假设每个WiFi用户的最低吞吐量需求R_min必须被满足。因此，将此共存问题描述为数学公式为：

其中，R_m为WAP m的吞吐量，

为WAP m所支持的用户数量。

在保证每个WiFi用户的最低吞吐量被满足的前提下，我们的目标是最大化所有SBS之间最小的吞吐量需求比，以实现SBS之间公平的共享非授权频谱资源。于是，推导出奖励函数的表达式为：

智能体SBS的动作可表示为信道选择和接入时长的组合，表示为a_t＝[C_t,T_t]，其中C_t∈{c₁,c₂,...,c_k,...,c_K}，K是非授权信道的数量。T_t∈{0,T_S,2T_S,...,8T_S},T_S长度为1ms。

状态是智能体SBS j决策的基础。其中包括SBS j的吞吐量需求比β_j，以及与SBS j共享同一条非授权信道的WAP所服务的WiFi用户平均吞吐量R_j，该类信息可通过监控信道收集。例如解码WiFi数据包头未加密部分，提取网络分配向量NAV中的信息。由此，我们可将状态s_t表示为：s_t＝[β_j，R_j]。

4.进一步，在步骤S3中，对LTE/WiFi共存系统进行初始化，得到初始状态s_t。

5.进一步，在步骤S4中，每个智能体SBS独立地将s_t输入到自身的策略网络Actor，输出为所有动作的概率值，根据其策略选择动作a_t，并将在下一个执行周期内执行该动作。

6.进一步，在步骤S5中，智能体SBS独立地执行选择的动作，与WAP共享非授权频谱资源，会获得一个在状态s_t下执行动作a_t的奖励值

环境状态也会从s_t更新为s_t+1。

7.进一步，在步骤S6中，智能体SBS将与环境交互得到的数据，采用最小化损失函数的方式更新Critic网络q(s,a；w)的参数w，通过用策略梯度的方法更新Actor网络π(a|s；θ)的参数θ，以便于找到最优联合策略。

其中，Critic网络的损失函数可以表示为：

L_Critic＝(r_t+γV(s_t+1；w_c)-V(s_t；w_c))²

参数w的更新可表示为：

8.进一步，在步骤S7中，重复步骤S4-S6，智能体通过不断地与环境交互，利用环境反馈的数据反复训练神经网络并更新其权重，直到收敛至最优纳什均衡，得到最佳联合接入动作。

本发明的有效效果在于：在LTE与WiFi网络共享5GHz免授权频段的场景下，为了避免共存场景中LTE系统的接入会严重影响WiFi网络的性能，保证WiFi用户的体验。本文将LTE/WiFi共存场景中的资源共享问题描述成合作博弈过程，并提出了一个基于AC框架的深度强化学习的共存方法。该方法让SBS自适应的调整信道选择和接入时长，在满足WiFi用户最低吞吐量需求的前提下，最大化所有SBS之间的最小吞吐量需求比率。以实现LTE与WiFi网络公平高效的共享非授权频谱资源。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明实施例所述的LTE/WiFi共存网络系统模型图；

图2位本发明实施例所述的A2C算法流程图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

本发明针对LTE与WiFi在免授权频段(5GHz)上基于LBT机制的共存问题，提出一种基于AC框架的LTE与WiFi网络的DRL共存方法。该方案的首要目标是避免WiFi网络的性能受到严重影响，以满足WiFi用户的最低吞吐量需求为前提，再实现SBS之间公平的共享免受权频谱资源。

考虑共存场景中存在多个SBS和WAP，由于网络节点的密集特性，为了降低干扰，我们假设不同的WAP选择不同的非授权信道，其中网络模型如图1所示。

针对共存系统，我们的目的旨在充分保护WiFi网络性能的情况下，实现SBS之间公平的共享非授权频谱资源。考虑到不同的SBS有不一样的聚合流量需求，我们定义出吞吐量需求比率β来作为SBS之间公平共享非授权资源的指标，β_j可表示为

其中，u_j为SBS j的吞吐量，d_ji为SBS j所服务的用户UE i的流量需求。我们的目标是最大化所有SBS之间最小的吞吐量需求比率，以实现SBS之间公平的共享非授权频谱资源。

其中，R_m为WAP m的吞吐量，

为WAP m所支持的用户数量。

我们将WiFi网络视为一个随机的环境，把多SBS的接入问题建模为合作博弈过程，引入DRL来解决该问题。视SBS为独立的智能体，让其独立选择并执行接入动作，并根据环境反馈调整自身的接入策略，以实现高效和谐的共存。

在共存模型中，为了使SBS与WAP和谐共存，采用基于AC框架的深度强化学习算法，并设计出智能体动作集合A、奖励函数R以及状态s。

在每一个执行周期，每个智能体SBS会从动作空间A中选择一个动作a_t。SBS的动作可表示为信道选择和接入时长的组合，表示为a_t＝[C_t,T_t]，其中C_t∈{c₁,c₂,...,c_k,...,c_K}，K是非授权信道的数量。T_t∈{0,T_S,2T_S,...,8T_S},T_S长度为1ms。

奖励函数R是为了能更好的指导SBS找到最佳接入策略。我们的目的是充分保护WiFi网络性能，满足WiFi UE最低吞吐量的前提下，最大化所有SBS之间最小的吞吐量需求比，实现SBS之间公平的共享非授权频谱资源，以提高频谱利用率。于是，推导出奖励函数的表达式为：

初始化环境状态，SBS通过监测环境，获取当前状态值s_t，并将其输入到Actor策略网络中，策略网络根据s_t输出每个动作对应的概率值，选取概率值最高的动作a_t在下一个执行周期开始时执行。

当智能体将选择的动作a_t与环境进行交互之后，其会得到一个关于动作a_t的奖励值R_at，环境的状态也会从s_t更新为s_t+1。根据状态值的更新，以及环境的反馈值，智能体SBS采用最小化损失函数的方式更新Critic网络q(s,a；w)的参数w，通过用策略梯度的方法更新Actor网络π(a|s；θ)的参数θ，以便于找到最优联合策略，如图2所示。

其中，Critic网络的损失函数可以表示为：

L_Critic＝(r_t+γV(s_t+1；w_c)-V(s_t；w_c))²

参数w的更新可表示为：

智能体通过不断地与环境交互，利用环境反馈的数据反复训练神经网络并更新其权重，直到收敛至最优纳什均衡，最终求得最佳联合接入动作。

Claims

1.基于A2C的非授权频谱资源共享方法，其特征在于：该方法包括以下步骤：

S2：设计智能体SBS的动作集合A、奖励函数R，以及状态S；

S3：初始化环境，每个智能体SBS获取初始状态值s_t；

S4：每个智能体SBS将当前状态s_t喂给自身的Actor网络，独立地选择并执行动作a_t；

S6：智能体SBS根据获得的反馈r_t更新Critic网络权重θ，调整Actor网络选择动作的策略；

S7：重复步骤S4-S6，直到收敛到最优纳什均衡。

2.根据权利要求1述的基于A2C的非授权频谱资源共享方法，其特征在于：在步骤S1中，我们将WiFi网络视为一个随机的环境，把LTE-WiFi共存场景中的未授权频谱资源共享问题表述为一个合作博弈过程，引入A2C算法来解决该问题。

3.根据权利要求1述的基于A2C的非授权频谱资源共享方法，其特征在于：在步骤S2中，针对共存系统，我们的目的旨在充分保护WiFi网络性能的情况下，实现SBS之间公平的共享非授权频谱资源。考虑到不同的SBS有不一样的聚合流量需求，我们定义出吞吐量需求比率β来作为SBS之间公平共享非授权资源的指标，β_j可表示为

其中，R_m为WAPm的吞吐量，

为WAPm所支持的用户数量。

4.根据权利要求1述的基于A2C的非授权频谱资源共享方法，其特征在于：在步骤S3中，对LTE/WiFi共存系统进行初始化，得到初始状态s_t。

5.根据权利要求1述的基于A2C的非授权频谱资源共享方法，其特征在于：在步骤S4中，每个智能体SBS独立地将s_t输入到自身的策略网络Actor，输出为所有动作的概率值，根据其策略选择动作a_t，并将在下一个执行周期内执行该动作。

6.根据权利要求1述的基于A2C的非授权频谱资源共享方法，其特征在于：在步骤S5中，智能体SBS独立地执行选择的动作，与WiFiAP共享非授权频谱资源，会获得一个在状态s_t下执行动作a_t的奖励值

环境状态也会从s_t更新为s_t+1。

7.根据权利要求1述的基于A2C的非授权频谱资源共享方法，其特征在于：在步骤S6中，智能体SBS将与环境交互得到的数据，采用最小化损失函数的方式更新Critic网络q(s,a；w)的参数w，通过用策略梯度的方法更新Actor网络π(a|s；θ)的参数θ，以便于找到最优联合策略。

其中，Critic网络的损失函数可以表示为：

L_Critic＝(r_t+γV(s_t+1；w_c)-V(s_t；w_c))²

参数w的更新可表示为：

8.根据权利要求1述的基于A2C的非授权频谱资源共享方法，其特征在于：在步骤S7中，重复步骤S4-S6，智能体通过不断地与环境交互，利用环境反馈的数据反复训练神经网络并更新其权重，直到得到最佳权重，最终求得最佳联合接入动作，收敛至最优纳什均衡。