CN114363908A - 基于a2c的非授权频谱资源共享方法 - Google Patents

基于a2c的非授权频谱资源共享方法 Download PDF

Info

Publication number
CN114363908A
CN114363908A CN202210036385.1A CN202210036385A CN114363908A CN 114363908 A CN114363908 A CN 114363908A CN 202210036385 A CN202210036385 A CN 202210036385A CN 114363908 A CN114363908 A CN 114363908A
Authority
CN
China
Prior art keywords
sbs
wifi
network
sharing
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210036385.1A
Other languages
English (en)
Inventor
裴二荣
陶凯
徐成义
黄一格
宋珈锐
刘浔翀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210036385.1A priority Critical patent/CN114363908A/zh
Publication of CN114363908A publication Critical patent/CN114363908A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于Advantage Actor‑Critic(A2C)的非授权频谱资源共享方法,属于无线通信技术领域。本发明包括以下步骤:S1:将LTE/WiFi共存场景中的资源共享问题描述成合作博弈过程,并提出A2C强化学习算法来解决该问题;S2:设计智能体SBS的动作集合A、奖励函数R,以及状态S;S3:初始化环境,每个智能体SBS获取初始状态值st;S4:每个智能体SBS将当前状态st输入到自身的Actor网络,独立地选择并执行动作at;S5:执行动作at后,智能体SBS根据奖励函数获取环境反馈的rt,然后进入下一个状态st+1;S6:智能体SBS根据环境的反馈更新Actor网络和Critic网络权重,并调整接入策略;S7:重复步骤S4‑S6,直到收敛到最优纳什均衡,得到最佳联合接入动作。

Description

基于A2C的非授权频谱资源共享方法
技术领域
本发明属于无线通信技术领域,涉及基于A2C的非授权频谱资源共享方法。
背景技术
近年来,通信设备的数量和它们之间交换的数据量不断增长,给当前的蜂窝网络带来了沉重的负担。为了解决这个问题,LTE网络引入了许多新技术,例如大规模多输入多输出MIMO,D2D通信等,尽管有这些先进技术,但有限的许可频谱仍然是容量提升的主要瓶颈。反观非授权频段,尤其是5GHz非授权频段拥有丰富的频谱资源,并且未被充分利用。因此,将LTE网络与传统WiFi系统一起在非授权频段上运行被认为是一种支持爆炸性增长的数据流量的有前途的技术。
然而现有的未授权频段上已经存在发展十分成熟的无线技术,所以在选择未授权频谱用于通信网络的建设时,就必须考虑与已经存在未授权频段上的无线技术共存的问题。在频谱资源分配上,考虑到LTE是一种采用集中调度的频谱分配方案,而WiFi系统采用的是带有冲突避免的载波侦听多路访问接入技术,规定WiFiAccessPoint(WAP)和WiFi用户在传输前必须监听信道,只有信道空闲时才能接入。二者在频谱资源分配上存在着巨大差异,因此,如果LTE系统运行在相同的频段上,WiFi系统可能受到极大的干扰,影响WiFi用户的体验。因此在保证WiFi网络服务质量的情况下,使二者和谐共存成为了研究热点。
深度强化学习综合了强化学习无模型的特点以及深度学习处理大数据的能力,在智能决策、无人驾驶、边缘卸载等领域取得了不错的进展。受到深度强化学习的启发,本文明旨在将强化学习策略引入到免授权频谱共享方案中,让Small Base Station(SBS)实时地监控动态环境,挖掘潜在的重要数据和信息,并且自组织地学习接入策略,以实现蜂窝网与WiFi网络公平高效的共存。
5GHz免授权频段附近有着丰富的带宽资源,将移动通信技术从授权频段拓展到非授权频段有利于5G技术的发展。利用LAA技术作为基础,构建传输速率更高、时延低且耗电量小的网络,可以进一步满足下一代移动通信海量设备的连接需求。
发明内容
有鉴于此,本发明提供了一种基于A2C的非授权频谱资源共享方法来解决LTE与WiFi网络共享非授权频谱资源问题,在保证WiFi网络最低性能要求的情况下,使得SBS之间公平共享未授权资源。
为了达到上述目的,本发明提供如下技术方案:
1.基于AdvantageActor-Critic(A2C)的非授权频谱资源共享方法,包括以下步骤:
S1:将LTE/WiFi共存场景中的资源共享问题描述成合作博弈过程,并提出A2C强化学习算法来解决该问题;
S2:设计智能体SBS的动作集合A、奖励函数R,以及状态S;
S3:初始化环境,每个智能体SBS获取初始状态值st
S4:每个智能体SBS将当前状态st输入到自身的Actor网络,独立地选择并执行动作at
S5:执行动作at后,智能体SBS根据奖励函数获取环境反馈的rt,并进入下一个状态st+1
S6:智能体SBS根据环境的反馈更新Actor网络和Critic网络权重,调整接入策略;
S7:重复步骤S4-S6,直到收敛到最优纳什均衡。
2.进一步,在步骤S1中,我们将WiFi网络视为一个随机的环境,把LTE/WiFi共存场景中的未授权频谱资源共享问题表述为一个合作博弈过程,引入A2C算法来解决该问题。
3.进一步,在步骤S2中,针对共存系统,我们的目的旨在充分保护WiFi网络性能的情况下,实现SBS之间公平的共享非授权频谱资源。考虑到不同的SBS有不一样的聚合流量需求,我们定义出吞吐量需求比率β来作为SBS之间公平共享非授权资源的指标,βj可表示为
Figure BDA0003468459350000021
其中,uj为SBS j的吞吐量,dji为SBS所服务的用户UE i的流量需求。我们的目标是最大化所有SBS之间最小的吞吐量需求比率,以实现SBS之间公平的共享非授权频谱资源。
除此之外,为了防止WiFi网络性能的显著下降,我们假设每个WiFi用户的最低吞吐量需求Rmin必须被满足。因此,将此共存问题描述为数学公式为:
Figure BDA0003468459350000031
Figure BDA0003468459350000032
其中,Rm为WAP m的吞吐量,
Figure BDA0003468459350000033
为WAP m所支持的用户数量。
在保证每个WiFi用户的最低吞吐量被满足的前提下,我们的目标是最大化所有SBS之间最小的吞吐量需求比,以实现SBS之间公平的共享非授权频谱资源。于是,推导出奖励函数的表达式为:
Figure BDA0003468459350000034
智能体SBS的动作可表示为信道选择和接入时长的组合,表示为at=[Ct,Tt],其中Ct∈{c1,c2,...,ck,...,cK},K是非授权信道的数量。Tt∈{0,TS,2TS,...,8TS},TS长度为1ms。
状态是智能体SBS j决策的基础。其中包括SBS j的吞吐量需求比βj,以及与SBS j共享同一条非授权信道的WAP所服务的WiFi用户平均吞吐量Rj,该类信息可通过监控信道收集。例如解码WiFi数据包头未加密部分,提取网络分配向量NAV中的信息。由此,我们可将状态st表示为:st=[βj,Rj]。
4.进一步,在步骤S3中,对LTE/WiFi共存系统进行初始化,得到初始状态st
5.进一步,在步骤S4中,每个智能体SBS独立地将st输入到自身的策略网络Actor,输出为所有动作的概率值,根据其策略选择动作at,并将在下一个执行周期内执行该动作。
6.进一步,在步骤S5中,智能体SBS独立地执行选择的动作,与WAP共享非授权频谱资源,会获得一个在状态st下执行动作at的奖励值
Figure BDA0003468459350000035
环境状态也会从st更新为st+1
7.进一步,在步骤S6中,智能体SBS将与环境交互得到的数据,采用最小化损失函数的方式更新Critic网络q(s,a;w)的参数w,通过用策略梯度的方法更新Actor网络π(a|s;θ)的参数θ,以便于找到最优联合策略。
其中,Critic网络的损失函数可以表示为:
LCritic=(rt+γV(st+1;wc)-V(st;wc))2
参数w的更新可表示为:
Figure BDA0003468459350000041
8.进一步,在步骤S7中,重复步骤S4-S6,智能体通过不断地与环境交互,利用环境反馈的数据反复训练神经网络并更新其权重,直到收敛至最优纳什均衡,得到最佳联合接入动作。
本发明的有效效果在于:在LTE与WiFi网络共享5GHz免授权频段的场景下,为了避免共存场景中LTE系统的接入会严重影响WiFi网络的性能,保证WiFi用户的体验。本文将LTE/WiFi共存场景中的资源共享问题描述成合作博弈过程,并提出了一个基于AC框架的深度强化学习的共存方法。该方法让SBS自适应的调整信道选择和接入时长,在满足WiFi用户最低吞吐量需求的前提下,最大化所有SBS之间的最小吞吐量需求比率。以实现LTE与WiFi网络公平高效的共享非授权频谱资源。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明实施例所述的LTE/WiFi共存网络系统模型图;
图2位本发明实施例所述的A2C算法流程图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
本发明针对LTE与WiFi在免授权频段(5GHz)上基于LBT机制的共存问题,提出一种基于AC框架的LTE与WiFi网络的DRL共存方法。该方案的首要目标是避免WiFi网络的性能受到严重影响,以满足WiFi用户的最低吞吐量需求为前提,再实现SBS之间公平的共享免受权频谱资源。
考虑共存场景中存在多个SBS和WAP,由于网络节点的密集特性,为了降低干扰,我们假设不同的WAP选择不同的非授权信道,其中网络模型如图1所示。
针对共存系统,我们的目的旨在充分保护WiFi网络性能的情况下,实现SBS之间公平的共享非授权频谱资源。考虑到不同的SBS有不一样的聚合流量需求,我们定义出吞吐量需求比率β来作为SBS之间公平共享非授权资源的指标,βj可表示为
Figure BDA0003468459350000051
其中,uj为SBS j的吞吐量,dji为SBS j所服务的用户UE i的流量需求。我们的目标是最大化所有SBS之间最小的吞吐量需求比率,以实现SBS之间公平的共享非授权频谱资源。
除此之外,为了防止WiFi网络性能的显著下降,我们假设每个WiFi用户的最低吞吐量需求Rmin必须被满足。因此,将此共存问题描述为数学公式为:
Figure BDA0003468459350000052
Figure BDA0003468459350000053
其中,Rm为WAP m的吞吐量,
Figure BDA0003468459350000054
为WAP m所支持的用户数量。
我们将WiFi网络视为一个随机的环境,把多SBS的接入问题建模为合作博弈过程,引入DRL来解决该问题。视SBS为独立的智能体,让其独立选择并执行接入动作,并根据环境反馈调整自身的接入策略,以实现高效和谐的共存。
在共存模型中,为了使SBS与WAP和谐共存,采用基于AC框架的深度强化学习算法,并设计出智能体动作集合A、奖励函数R以及状态s。
在每一个执行周期,每个智能体SBS会从动作空间A中选择一个动作at。SBS的动作可表示为信道选择和接入时长的组合,表示为at=[Ct,Tt],其中Ct∈{c1,c2,...,ck,...,cK},K是非授权信道的数量。Tt∈{0,TS,2TS,...,8TS},TS长度为1ms。
状态是智能体SBS j决策的基础。其中包括SBS j的吞吐量需求比βj,以及与SBS j共享同一条非授权信道的WAP所服务的WiFi用户平均吞吐量Rj,该类信息可通过监控信道收集。例如解码WiFi数据包头未加密部分,提取网络分配向量NAV中的信息。由此,我们可将状态st表示为:st=[βj,Rj]。
奖励函数R是为了能更好的指导SBS找到最佳接入策略。我们的目的是充分保护WiFi网络性能,满足WiFi UE最低吞吐量的前提下,最大化所有SBS之间最小的吞吐量需求比,实现SBS之间公平的共享非授权频谱资源,以提高频谱利用率。于是,推导出奖励函数的表达式为:
Figure BDA0003468459350000061
初始化环境状态,SBS通过监测环境,获取当前状态值st,并将其输入到Actor策略网络中,策略网络根据st输出每个动作对应的概率值,选取概率值最高的动作at在下一个执行周期开始时执行。
当智能体将选择的动作at与环境进行交互之后,其会得到一个关于动作at的奖励值Rat,环境的状态也会从st更新为st+1。根据状态值的更新,以及环境的反馈值,智能体SBS采用最小化损失函数的方式更新Critic网络q(s,a;w)的参数w,通过用策略梯度的方法更新Actor网络π(a|s;θ)的参数θ,以便于找到最优联合策略,如图2所示。
其中,Critic网络的损失函数可以表示为:
LCritic=(rt+γV(st+1;wc)-V(st;wc))2
参数w的更新可表示为:
Figure BDA0003468459350000062
智能体通过不断地与环境交互,利用环境反馈的数据反复训练神经网络并更新其权重,直到收敛至最优纳什均衡,最终求得最佳联合接入动作。

Claims (8)

1.基于A2C的非授权频谱资源共享方法,其特征在于:该方法包括以下步骤:
S1:将LTE/WiFi共存场景中的资源共享问题描述成合作博弈过程,并提出A2C强化学习算法来解决该问题;
S2:设计智能体SBS的动作集合A、奖励函数R,以及状态S;
S3:初始化环境,每个智能体SBS获取初始状态值st
S4:每个智能体SBS将当前状态st喂给自身的Actor网络,独立地选择并执行动作at
S5:执行动作at后,智能体SBS根据奖励函数获取环境反馈的rt,并进入下一个状态st+1
S6:智能体SBS根据获得的反馈rt更新Critic网络权重θ,调整Actor网络选择动作的策略;
S7:重复步骤S4-S6,直到收敛到最优纳什均衡。
2.根据权利要求1述的基于A2C的非授权频谱资源共享方法,其特征在于:在步骤S1中,我们将WiFi网络视为一个随机的环境,把LTE-WiFi共存场景中的未授权频谱资源共享问题表述为一个合作博弈过程,引入A2C算法来解决该问题。
3.根据权利要求1述的基于A2C的非授权频谱资源共享方法,其特征在于:在步骤S2中,针对共存系统,我们的目的旨在充分保护WiFi网络性能的情况下,实现SBS之间公平的共享非授权频谱资源。考虑到不同的SBS有不一样的聚合流量需求,我们定义出吞吐量需求比率β来作为SBS之间公平共享非授权资源的指标,βj可表示为
Figure RE-FDA0003532017430000011
其中,uj为SBS j的吞吐量,dji为SBS j所服务的用户UE i的流量需求。我们的目标是最大化所有SBS之间最小的吞吐量需求比率,以实现SBS之间公平的共享非授权频谱资源。
除此之外,为了防止WiFi网络性能的显著下降,我们假设每个WiFi用户的最低吞吐量需求Rmin必须被满足。因此,将此共存问题描述为数学公式为:
Figure RE-FDA0003532017430000021
Figure RE-FDA0003532017430000022
其中,Rm为WAPm的吞吐量,
Figure RE-FDA0003532017430000023
为WAPm所支持的用户数量。
在保证每个WiFi用户的最低吞吐量被满足的前提下,我们的目标是最大化所有SBS之间最小的吞吐量需求比,以实现SBS之间公平的共享非授权频谱资源。于是,推导出奖励函数的表达式为:
Figure RE-FDA0003532017430000024
智能体SBS的动作可表示为信道选择和接入时长的组合,表示为at=[Ct,Tt],其中Ct∈{c1,c2,...,ck,...,cK},K是非授权信道的数量。Tt∈{0,TS,2TS,...,8TS},TS长度为1ms。
状态是智能体SBS j决策的基础。其中包括SBS j的吞吐量需求比βj,以及与SBS j共享同一条非授权信道的WAP所服务的WiFi用户平均吞吐量Rj,该类信息可通过监控信道收集。例如解码WiFi数据包头未加密部分,提取网络分配向量NAV中的信息。由此,我们可将状态st表示为:st=[βj,Rj]。
4.根据权利要求1述的基于A2C的非授权频谱资源共享方法,其特征在于:在步骤S3中,对LTE/WiFi共存系统进行初始化,得到初始状态st
5.根据权利要求1述的基于A2C的非授权频谱资源共享方法,其特征在于:在步骤S4中,每个智能体SBS独立地将st输入到自身的策略网络Actor,输出为所有动作的概率值,根据其策略选择动作at,并将在下一个执行周期内执行该动作。
6.根据权利要求1述的基于A2C的非授权频谱资源共享方法,其特征在于:在步骤S5中,智能体SBS独立地执行选择的动作,与WiFiAP共享非授权频谱资源,会获得一个在状态st下执行动作at的奖励值
Figure RE-FDA0003532017430000025
环境状态也会从st更新为st+1
7.根据权利要求1述的基于A2C的非授权频谱资源共享方法,其特征在于:在步骤S6中,智能体SBS将与环境交互得到的数据,采用最小化损失函数的方式更新Critic网络q(s,a;w)的参数w,通过用策略梯度的方法更新Actor网络π(a|s;θ)的参数θ,以便于找到最优联合策略。
其中,Critic网络的损失函数可以表示为:
LCritic=(rt+γV(st+1;wc)-V(st;wc))2
参数w的更新可表示为:
Figure RE-FDA0003532017430000031
8.根据权利要求1述的基于A2C的非授权频谱资源共享方法,其特征在于:在步骤S7中,重复步骤S4-S6,智能体通过不断地与环境交互,利用环境反馈的数据反复训练神经网络并更新其权重,直到得到最佳权重,最终求得最佳联合接入动作,收敛至最优纳什均衡。
CN202210036385.1A 2022-01-13 2022-01-13 基于a2c的非授权频谱资源共享方法 Pending CN114363908A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210036385.1A CN114363908A (zh) 2022-01-13 2022-01-13 基于a2c的非授权频谱资源共享方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210036385.1A CN114363908A (zh) 2022-01-13 2022-01-13 基于a2c的非授权频谱资源共享方法

Publications (1)

Publication Number Publication Date
CN114363908A true CN114363908A (zh) 2022-04-15

Family

ID=81109849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210036385.1A Pending CN114363908A (zh) 2022-01-13 2022-01-13 基于a2c的非授权频谱资源共享方法

Country Status (1)

Country Link
CN (1) CN114363908A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN115134026A (zh) * 2022-06-29 2022-09-30 重庆邮电大学 一种基于平均场的智能非授权频谱接入方法
CN115296705A (zh) * 2022-04-28 2022-11-04 南京大学 一种mimo通信系统中的主动监听方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN115296705A (zh) * 2022-04-28 2022-11-04 南京大学 一种mimo通信系统中的主动监听方法
CN115296705B (zh) * 2022-04-28 2023-11-21 南京大学 一种mimo通信系统中的主动监听方法
CN115134026A (zh) * 2022-06-29 2022-09-30 重庆邮电大学 一种基于平均场的智能非授权频谱接入方法
CN115134026B (zh) * 2022-06-29 2024-01-02 绍兴市上虞区舜兴电力有限公司 一种基于平均场的智能非授权频谱接入方法

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
Hu et al. Computation efficiency maximization and QoE-provisioning in UAV-enabled MEC communication systems
CN114363908A (zh) 基于a2c的非授权频谱资源共享方法
Hao et al. On the energy and spectral efficiency tradeoff in massive MIMO-enabled HetNets with capacity-constrained backhaul links
CN110493826A (zh) 一种基于深度强化学习的异构云无线接入网资源分配方法
CN113316154B (zh) 一种授权和免授权d2d通信资源联合智能分配方法
López-Raventós et al. Multi-link operation in IEEE 802.11 be WLANs
CN104703270B (zh) 适用于异构无线蜂窝网络的用户接入和功率分配方法
Ahmed et al. Interference coordination in heterogeneous small-cell networks: A coalition formation game approach
Liu et al. Distributed resource allocation for D2D-assisted small cell networks with heterogeneous spectrum
CN111586646A (zh) 一种蜂窝网络中联合上下信道的d2d通信的资源分配方法
CN110035559A (zh) 一种基于混沌q-学习算法的竞争窗口大小智能选择方法
Han et al. Matching-based cell selection for proportional fair throughput boosting via dual-connectivity
Kumar et al. Energy-efficient resource optimization using game theory in hybrid NOMA assisted cognitive radio networks
US20240064556A1 (en) Predicting an attribute of an immature wireless telecommunication network, such as a 5g network
Pedram et al. Energy efficiency in 5G cellular network systems
Pei et al. A Q-learning based Resource Allocation Algorithm for D2D-Unlicensed communications
Zhang et al. Energy efficient resource allocation in millimeter-wave-based fog radio access networks
CN113316156A (zh) 免授权频段上的一种智能共存方法
Moein et al. Base Station Assignment in Two-tier Dual Connectivity Heterogeneous Networks
CN106455096A (zh) 一种基于权重的家庭基站干扰协调方法
Jiang et al. Dueling double deep q-network based computation offloading and resource allocation scheme for internet of vehicles
Zhang et al. Empirical Matching‐Based Computation Offloading Optimization for 5G and Edge Computing‐Integrated EIoT
Wang et al. Integrated resource scheduling for user experience enhancement: A heuristically accelerated drl
CN110446217A (zh) 一种基于laa蜂窝系统的分布式资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination