CN115499852A - 基于机器学习的毫米波网络覆盖容量自优化方法及装置 - Google Patents

基于机器学习的毫米波网络覆盖容量自优化方法及装置 Download PDF

Info

Publication number
CN115499852A
CN115499852A CN202211123662.9A CN202211123662A CN115499852A CN 115499852 A CN115499852 A CN 115499852A CN 202211123662 A CN202211123662 A CN 202211123662A CN 115499852 A CN115499852 A CN 115499852A
Authority
CN
China
Prior art keywords
cell
optimization method
learning
action
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211123662.9A
Other languages
English (en)
Inventor
孙长印
江帆
张燕燕
王军选
邓智文
梁有为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN202211123662.9A priority Critical patent/CN115499852A/zh
Publication of CN115499852A publication Critical patent/CN115499852A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/24Cell structures
    • H04W16/28Cell structures using beam steering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/318Received signal strength
    • H04B17/327Received signal code power [RSCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/336Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0426Power distribution
    • H04B7/043Power distribution using best eigenmode, e.g. beam forming or beam steering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0456Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Power Engineering (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于机器学习的毫米波网络覆盖容量自优化方法及装置,将多小区多用户组成的毫米波网络建模为马尔科夫决策问题;获取每个小区内每个用户的RSRP值和SINR值,基于分布式Q学习优化方法或半分布式Q学习优化方法求解马尔可夫决策问题,得到每个小区的最优宽窄波束功率比和最优波束组合信息;本发明考虑了毫米波的阻塞特性,将多小区毫米波网络的覆盖容量优化问题建模为马尔可夫决策问题,再通过分布式Q学习优化方法或半分布式Q学习优化方法,优化调整宽窄波束的功率比和波束组合信息,进而达到自动实现网络覆盖和容量的最佳平衡,提高了网络系统的运行效率。

Description

基于机器学习的毫米波网络覆盖容量自优化方法及装置
技术领域
本发明属于毫米波网络优化技术领域,尤其涉及一种基于机器学习的毫米波网络覆盖容量自优化方法及装置。
背景技术
高频毫米波的波束赋形技术与传统的LTE或者5G低频(低于6GHz)采用数字波束赋形不同,高频采用数字+模拟的方式实现波束赋形。天线的间隔需要考虑波长,因为毫米波的波长较短,所以在有限的空间内可以配置较多的天线,实现大规模MIMO系统。在常规的数字波束赋形系统中,射频RF链路的数量和天线数量相同。但是,当天线数量很大的时候,采用和天线相同数量的RF链路成本太高,因此必须限制RF链路的数量。解决方案就是采用数字+模拟的混合波束赋形方式。
毫米波基站采用宽波束轮流发送的方式传输系统消息,同时提供小区的参考信号(SSB),也就是说小区的多个宽波束提供的覆盖范围代表了小区的覆盖范围。毫米波UE侧也有多个接收波束,采用波束轮流接收的方式选择合适的波束。宽波束的设计有多种方式,其中比较典型的是水平方向N个波束,垂直方向1个波束,例如,N=8个Beam分别采用1个模拟码本各自赋形,合起来构成了小区的一种覆盖场景,如果要满足不同的覆盖场景,则每个覆盖场景都需要1套由N=8个码本组合而成的码本组。假如,8个SSB中的前7个以窄波束的形式向不同水平方向发射,最后一个SSB以宽波束的形式在整个小区覆盖范围发射。
在无线场景中,小区间重叠覆盖区域,用户通常会接收到多个小区的干扰信号,影响了整个系统的容量。而在小区边缘的用户通常会接收不到足够网络信号,在信号覆盖上会形成空洞。因此,覆盖范围与容量优化通常是两个对立的问题。对于毫米波网络,由于波长短导致的路损大,以及传播路径易受障碍物遮挡的特性,使得毫米波网络的覆盖容量优化受到限制,难以掌握网络的覆盖范围与容量的平衡。
发明内容
本发明的目的是提供一种基于机器学习的毫米波网络覆盖容量自优化方法及装置,采用调整宽窄波束的功率比和波束组合信息,以实现网络覆盖和容量的最佳平衡。
本发明采用以下技术方案:一种基于机器学习的毫米波网络覆盖容量自优化方法,包括以下步骤:
将多小区多用户组成的毫米波网络建模为马尔科夫决策问题;其中,将每个小区作为一个独立的智能体,以小区的边缘频谱效率、平均频谱效率和探测指标作为每个智能体的状态信息;以小区的宽窄波束功率比和波束组合信息作为动作信息;
获取每个小区内每个用户的RSRP值和SINR值,基于分布式Q学习优化方法或半分布式Q学习优化方法求解马尔可夫决策问题,得到每个小区的最优宽窄波束功率比和最优波束组合信息。
进一步地,半分布式Q学习优化方法包括:
每个智能体均将Q表和状态上报至同一中央控制器;
中央控制器根据每个智能体的Q表更新三维Q表;其中,三维表包括每个智能体的编号、以及对应的状态和动作。
进一步地,当当前时刻半分布式Q学习优化方法生成的随机数大于等于贪婪因子时:
根据三维Q表为每个智能体的状态选择对应的动作,并将该动作反馈给每个智能体。
进一步地,根据三维Q表为每个智能体的状态选择对应的动作包括:
Figure BDA0003847447100000031
其中,
Figure BDA0003847447100000032
为三维Q表为小区c在t+1时刻选择的动作,
Figure BDA0003847447100000033
为t时刻与智能体c具有相同状态
Figure BDA0003847447100000034
的第r个智能体执行动作
Figure BDA0003847447100000035
时的Q值,T为与智能体c具有相同状态
Figure BDA0003847447100000036
的智能体总数。
进一步地,当当前时刻半分布式Q学习优化方法生成的随机数小于贪婪因子时:
从动作库中随机选择下一时刻的动作。
进一步地,分布式Q学习优化方法包括:
Figure BDA0003847447100000037
其中,Rc(sc,ac)表示智能体c状态为sc时执行动作ac后的奖励值,CHc=nCH/Ntotal,nCH为该小区中RSRP值小于最小阈值RSRPCH的用户个数,Ntotal为该小区中所有用户个数,CHth为第一阈值,COc=nCO/Ntotal,nCO为位于重叠区域中的用户个数,重叠区域的用户定义为该用户从nOVER个相邻小区收到的RSRP值都高于阈值RSRPCO的用户,Ec5%为小区c的边缘频谱效率,Ec50%为小区c的平均频谱效率,Ecmin为小区c的边缘频谱效率的最低阈值,wc是平衡小区覆盖和容量的权重系数。
进一步地,在分布式Q学习优化方法和/或半分布式Q学习优化方法中的目标函数为:
Figure BDA0003847447100000041
其中,
Figure BDA0003847447100000042
Kb为小区b的性能指标,αb为小区b的权重系数,
Figure BDA0003847447100000043
为小区b内边缘用户的频谱效率,
Figure BDA0003847447100000044
为小区b内用户的平均频谱效率,P={P1,...,PB}为所有小区的发射功率集合,Pb为小区b的发射功率,B为小区的数量,
Figure BDA0003847447100000045
为小区b发射功率的第m种选择,Θ={θ1,…,θB}为所有小区的波束组合信息集合,θb为小区b的波束组合信息,
Figure BDA0003847447100000046
为小区b波束组合信息的第m种选择,
Figure BDA0003847447100000047
为小区b内边缘用户的频谱效率最低阈值。
本发明的另一种技术方案:一种基于机器学习的毫米波网络覆盖容量自优化装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现上述的一种基于机器学习的毫米波网络覆盖容量自优化方法。
本发明的有益效果是:本发明考虑了毫米波的阻塞特性,将多小区毫米波网络的覆盖容量优化问题建模为马尔可夫决策问题,再通过分布式Q学习优化方法或半分布式Q学习优化方法,优化调整宽窄波束的功率比和波束组合信息,进而达到自动实现网络覆盖和容量的最佳平衡,提高了网络系统的运行效率。
附图说明
图1为本发明实施例中SSB在时域上的结构示意图;
图2为本发明实施例中宽波束与窄波束组合的一种组合方式示意图;
图3为本发明实施例中宽波束与窄波束组合的另一种组合方式示意图;
图4为本发明实施例中宽波束功率变小后宽波束与窄波束组合的一种组合方式示意图;
图5为本发明实施例中半分布式Q学习优化方法的框架流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明公开了一种基于机器学习的毫米波网络覆盖容量自优化方法,包括以下步骤:将多小区多用户组成的毫米波网络建模为马尔科夫决策问题;其中,将每个小区作为一个独立的智能体,以小区的边缘频谱效率、平均频谱效率和探测指标作为每个智能体的状态信息;以小区的宽窄波束功率比和波束组合信息作为动作信息;获取每个小区内每个用户的RSRP值和SINR值,基于分布式Q学习优化方法或半分布式Q学习优化方法求解马尔可夫决策问题,得到每个小区的最优宽窄波束功率比和最优波束组合信息。
本发明考虑了毫米波的阻塞特性,将多小区毫米波网络的覆盖容量优化问题建模为马尔可夫决策问题,再通过分布式Q学习优化方法或半分布式Q学习优化方法,优化调整宽窄波束的功率比和波束组合信息,进而达到自动实现网络覆盖和容量的最佳平衡,提高了网络系统的运行效率。
在本发明实施例中,考虑一个由多个小区和多个用户组成的蜂窝毫米波网络场景,小区配备毫米波基站以及多天线系统,实现以天线波束组合ID为优化参数来实现小区容量与覆盖的联合优化。
场景中共有B个小区,每个小区都有K个随机分布的用户。每个用户有一根天线,每个基站有N个天线。在下行链路中,用户所接收到的信号会同时受到本小区用户信号、相邻小区信号以及噪声的影响。因此,小区b中第i个用户接收到的信号可表示为:
Figure BDA0003847447100000061
其中,
Figure BDA0003847447100000062
为基站b到小区b中第i个用户的慢衰落,基站b是小区b的基站,l是相邻小区的基站,b∈B,l∈B,
Figure BDA0003847447100000063
从基站b到小区b中第i个用户的信道矢量,
Figure BDA0003847447100000064
表示从基站l到小区b中第i个用户的慢衰落,
Figure BDA0003847447100000065
从基站l到小区b中第i个用户的信道矢量,
Figure BDA0003847447100000066
表示小区b中第i个用户的传输信号,
Figure BDA0003847447100000067
为小区b中第i个用户对应的预编码矩阵,
Figure BDA0003847447100000068
为小区b中第i个用户对应的功率分配因子。Wl与Sl分别表示小区l所有用户对应的预编码矩阵和传输信号,
Figure BDA0003847447100000069
是均值为0、方差为σ2的加性复高斯白噪声,Pl小区l所有用户对应的功率分配因子。
假设下行信号功率相等,b小区的预编码矩阵基于码本集合,可以表示为:
Figure BDA00038474471000000610
其中:
Figure BDA00038474471000000611
是预定义的码本中的矢量集合,具有不同的指向和波束宽度,M表示码本的大小。
具体而言,数据流通过数字权值加权后映射到不同的天线子阵上,每个天线子阵由m1×m2个天线阵子组成,每个阵子乘以1个模拟权值向量(AWV——Antenna WeightVector)后,在空中进行叠加处理,形成一个符合期望指向和宽度的波束,即每个天线阵子分别根据一个m1×m2个模拟权值向量构成的模拟权值码本形成一个波束将数据发送出去。
在5G NR(New Radio interface,新空口)中,由发送SSB信号的多个波束的覆盖组合形成小区完整的覆盖范围,即由N个广播波束覆盖的范围为该小区的覆盖范围。NR广播波束对应的物理信号/信道是包含PSS/SSS/PBCH的SS Block,简称SSB。每个SSB在时域上占用4个符号、频域上占用240个子载波,结构如图1所示,每个默认20ms的广播周期内最多可以存在8个SSB,集中在广播周期中第一个系统帧的前半帧中。
N个波束由N个m1×m2的权值码本(Code Book)形成,即一个小区由针对广播信道的N个模拟码本(Analog Code Book)形成完整的小区覆盖,通过修改这N个模拟码本,就可以满足不同的覆盖要求,具体详见表1。
表1
Figure BDA0003847447100000071
毫米波基站采用较宽的波束发送SSB信道和系统消息,而针对某个UE的业务传输采用较窄的波束。
如上所述,小区b中第i个用户的信干噪比可以表示为:
Figure BDA0003847447100000072
其中,小区b中第i个用户的有用信号功率为:
Figure BDA0003847447100000073
小区b中第i个用户的小区间干扰功率为:
Figure BDA0003847447100000081
因此,小区b中第i个用户的和速率可以表示为:
Figure BDA0003847447100000082
覆盖和容量的性能可以通过许多不同的指标来判断,常用的是频谱效率。而在传输带宽相同的情况下,用户和速率与频谱效率成线性相关,因此,选用用户和速率代替用户频谱效率。
为了平衡覆盖范围和容量优化问题,已有方案引入一个加权和来作为性能指标。对于小区b,其定义为:
Figure BDA0003847447100000083
其中,Kb表示小区b的覆盖范围和容量优化的性能指标,α为可调节的权重系数,
Figure BDA0003847447100000084
为小区内边缘用户的频谱效率,指为该小区所有用户频谱效率累积分布的低5%处对应值;
Figure BDA0003847447100000085
为小区用户的平均频谱效率,为该小区所有用户频谱效率累积分布的50%处对应值。
由此可知,在分布式Q学习优化方法和/或半分布式Q学习优化方法中的目标函数可以定义为:
Figure BDA0003847447100000086
其中,
Figure BDA0003847447100000087
Kb为小区b的性能指标,αb为小区b的权重系数,
Figure BDA0003847447100000088
为小区b内边缘用户的频谱效率,
Figure BDA0003847447100000089
为小区b内用户的平均频谱效率,P={P1,...,PB}为所有小区的发射功率集合,Pb为小区b的发射功率,B为小区的数量,
Figure BDA0003847447100000091
为小区b发射功率的第m种选择,Θ={θ1,…,θB}为所有小区的波束组合信息集合,θb为小区b的波束组合信息,
Figure BDA0003847447100000092
为小区b波束组合信息的第m种选择,
Figure BDA0003847447100000093
为小区b内边缘用户的频谱效率最低阈值,上述的条件(3)用于保证处于小区边缘的用户的基本网络性能。
首先,据强化学习的框架将优化问题建模为MDP,并将其分解为分布式的多智能体学习过程,每个小区根据局部信息进行参数调整策略的优化。
多智能体MDP由一组K个智能体组成,操作集合定义为所有智能体的联合操作集,用元组(S,A,P,R)表示,分别为动作,状态,转移概率,以及回报。
在本发明实施例中,系统状态由一组变量定义,每个变量用Si表示,其中i=1,2,3,…,n。状态集表示为S={S1,S2,…Sn},其中,Si(也可以用s表示)表示系统的单个状态,每个状态变量都反映了网络特征。
A表示所有智能体联合动作的集合。其中,智能体k从其动作集Ak中选择其动作ak,即ak∈Ak。联合动作集可以表示为A=A1×A2×…×Ak,其中,a∈A为单个联合动作。
转移概率函数P(s′|s,a)表示在状态s处采取联合动作a转移到状态s′的概率。转移概率函数定义了与智能体交互的环境。
R(s,a)是系统整体奖励函数,它的值定义了智能体在状态s下采取联合行动a时获得的奖励。
将π:X→A定义为所有智能体的整体策略函数,其中,π(s)是在状态s下采取的联合动作。为了评估策略π(s),定义一个值函数Vπ(s)和一个动作值函数Qπ(s,a)。其中,状态s′∈S下策略π的值函数定义为:
Figure BDA0003847447100000101
其中,Eπ表示策略的期望值,β∈(0,1]表示折扣因子,R(t+1)是在时间t+1时收到的奖励,s(0)是初始状态。
动作值函数Qπ(s,a)表示策略π对应的动作值,该策略在状态s下采取联合动作a。值函数和动作值函数之间的关系为:
Figure BDA0003847447100000102
状态s的最佳值函数是从该状态开始,在遵循所有可能策略中,可以达到的最大值,与最大值对应的策略为最优策略π*。在给定最优策略π*的条件下,最优值函数V*满足Bellman最优方程:
Figure BDA0003847447100000103
其中,Q*(s,a)是策略π*下的最优Q函数。
上式的一般求解方案是从任意策略开始,使用广义策略迭代(generalizedpolicy iteration,GPI)方法迭代评估和改进所选策略,以实现最佳策略。如果智能体具有环境的先验信息,即P(s′|s,a)是已知的,则可采用动态规划解决方案。然而,在大多数实际应用环境先验信息并不为人所知,因此本实施例将强化学习中的Q学习方法作为一种实现方式进行描述。
定义所有智能体联合状态动作空间上的Q函数,为全局Q函数。在大型的MDP中,由于联合状态动作空间的大小相对于智能体数量呈指数性增长,使得求解覆盖容量问题将变得很困难。因此,本发明基于MDP分解,将大型的MDP分解为多个弱相关的子集,这些子集的划分方式将直接影响全局解的最优性。例如,可以基于环境中智能体的本地信息来定义子集。在本发明的问题中,每个小区在没有和其它小区进行信息交互的情况下,仅了解自身优化参数的调整情况和用户上报的信息。因此,本实施例将每个小区c作为一个智能体,它的Q函数定义为Qc(sc,ac),其中,sc∈Sc和ac∈Ac分别表示该智能体的状态和动作向量,而Sc代表智能体c的状态集合,Ac代表智能体c的本地动作集合。
在分解的MDP中,采用的奖励函数是子集奖励函数的和,即:
Figure BDA0003847447100000111
其中,Rc(sc,ac)是智能体c的本地奖励函数。全局MDP的值函数由下式给出:
Figure BDA0003847447100000112
其中,Vc(sc)是智能体c的值函数。因此,全局策略的值函数等于局部值函数的线性组合。此外,对于每个智能体有:
Figure BDA0003847447100000113
对于全局的Q函数有:
Figure BDA0003847447100000114
Figure BDA0003847447100000121
因此,使用局部Q函数的线性组合来近似等于全局Q函数。
在一个实施例中,采用基于分布式Q学习的优化方法求解目标函数。此时,每个小区将作为一个独立的智能体,依靠自身本地的信息来做出相应的决策。
对于智能体,状态sc定义为:与小区c的边缘频谱效率、平均频谱效率和探测指标有关,表示为{Edgec,Avgc,Detec},其中,
Figure BDA0003847447100000122
Ec5%表示小区c的边缘频谱效率,而
Figure BDA0003847447100000123
表示其门限,e是用于微调的常量。
另外,
Figure BDA0003847447100000124
Ec50%表示小区c的平均频谱效率,而
Figure BDA0003847447100000125
表示其门限。
还有,
Figure BDA0003847447100000126
Edgec、Avgc和Detec的量化精度和范围是预先定义的参数。
其中,CH=nCH/Ntotal,其中,nCH代表该区域(即小区c)中RSRP值小于最小阈值RSRPCH的用户个数,Ntotal代表该区域中所有的用户个数。CHth表示阈值,CO=nCO/Ntotal,其中,nCO代表位于重叠区域中的用户个数。重叠区域的用户定义为该用户从nOVER个相邻小区收到的RSRP值都高于阈值RSRPCO个数。例如:
Figure BDA0003847447100000127
奖励Rc(sc,ac):基于优化目标和约束条件进行设置,可以表示为:
Figure BDA0003847447100000128
其中,Rc(sc,ac)表示智能体c状态为sc时执行动作ac后的奖励值,CHc=nCH/Ntotal,nCH为该小区中RSRP值小于最小阈值RSRPCH的用户个数,Ntotal为该小区中所有用户个数,CHth为第一阈值,COc=nCO/Ntotal,nCO为位于重叠区域中的用户个数,重叠区域的用户定义为该用户从nOVER个相邻小区收到的RSRP值都高于阈值RSRPCO的用户,Ec5%为小区c的边缘频谱效率,Ec50%为小区c的平均频谱效率,Ecmin为小区c的边缘频谱效率的最低阈值,wc是平衡小区覆盖和容量的权重系数。。
可以看出,当选择的动作满足上式的约束条件时,对应的奖励设为小区c优化目标的大小,表现为若该动作对优化目标有利,则可以得到更高的奖励值。若选择的动作不满足约束条件,对应的奖励值均设为-1。
在该方法中,Q表示由状态和动作组成的二维表,如下表2所示。
表2
Q(s<sub>c1</sub>,a<sub>c1</sub>) Q(s<sub>c1</sub>,a<sub>c2</sub>) Q(s<sub>c1</sub>,a<sub>c(mn)</sub>
Q(s<sub>c2</sub>,a<sub>c1</sub>) Q(s<sub>c2</sub>,a<sub>c2</sub>) Q(s<sub>c2</sub>,a<sub>c(mn)</sub>)
Q(s<sub>ct</sub>,a<sub>c1</sub>) Q(s<sub>ct</sub>,a<sub>c2</sub>) Q(s<sub>ct</sub>,a<sub>c(mn)</sub>)
在该方法中,以递归的方式更新上述Q表中的元素,更新公式可以表示:
Figure BDA0003847447100000131
其中,
Figure BDA0003847447100000132
表示时间t下的学习率和折扣因子。
作为一种具体的表述方法,动作ac是包括宽窄波束的功率比和波束组合ID两个维度,表示为{pc,θc},其中,pc∈{p1,…,pn}共有n种不同可能的取值,而θc∈{θ1,…,θm},则有m种取值。
n=2和m=2的例子如下:
αc1={p1,θ1},ac2={p1,θ2},…αc4={p2,θ2},
其中,p1表示一种宽波束比窄波束功率比,如1:1,而θ1则是宽波束与窄波束1组合,而θ2则为宽波束与窄波束2组合,如图2所示。另外,当n=2和m=4的例子如下:
ac1={p1,θ1},ac2={p1,θ2},…αc8={p2,θ4},
而θ1则是宽波束与窄波束1、2、3的一种组合,如图3所示。
作为另一种具体的实施方式,图4是图3波束组合情形(功率取值不同)对应的覆盖示意图,与图3不同的是,图4的宽波束功率小于图3的场景,使得窄波束的覆盖增加,相邻小区干扰增加。
综上所述,该实施例中的算法执行过程为:
输入信息为:小区c下每个用户的RSRP和SINR值,Q学习折扣因子、学习率、贪婪因子设置。初始化各项为:智能体c的状态
Figure BDA0003847447100000141
动作
Figure BDA0003847447100000142
和Q表。
当算法的循环开始时,遍历时间t,
执行动作
Figure BDA0003847447100000143
后,获取每个用户的RSRP和SINR值,并计算当前的状态
Figure BDA0003847447100000144
计算此次奖励
Figure BDA0003847447100000145
更新Q表;
如果算法的随机数小于贪婪因子,随机选择下一时间的动作
Figure BDA0003847447100000146
否则选择动作作为
Figure BDA0003847447100000147
设置时间t=t+1,
循环结束
输出:对于不同状态选择的动作ac={pc,θc}。
在本发明的另一个实施例中,采用半分布式Q学习优化方法求解上述的目标函数,在分布式的框架下,智能体之间无法相互通信,是不合作的。此时每个智能体没有完整的全局信息,不会考虑其他智能体的状态,只能依靠本地信息来做出决策,因此短时间内整体的学习过程很难收敛。为了克服该问题,在分布式框架的基础上,设置了中央控制器,用于协调各个智能体之间进行参数协作调整,同时也提供了集中控制整个网络参数的功能。
这种半分布式Q学习整体框架如图5所示,系统中每个智能体是同构的,从优化问题来看具有一致的学习目标,因此它们都有相似的学习过程。同时,经过大量的学习后,每个智能体取得的效果也是类似的。因此,协作调整的方法通过各个智能体之间共享和融合各自Q值,避免了不必要动作的选择,从而加快其学习速率。此外,这种中央控制的方法减少了每个智能体之间数据和控制信令的直接交互,增强了系统的可扩展性。
具体的,半分布式Q学习优化方法包括:每个智能体均将Q表和状态上报至同一中央控制器;中央控制器根据每个智能体的Q表更新三维Q表;其中,三维表包括每个智能体的编号、以及对应的状态和动作。
另外,在半分布式Q学习优化方法中当当前时刻半分布式Q学习优化方法生成的随机数大于等于贪婪因子时:根据三维Q表为每个智能体的状态选择对应的动作,并将该动作反馈给每个智能体。根据三维Q表为每个智能体的状态选择对应的动作包括:
Figure BDA0003847447100000151
其中,
Figure BDA0003847447100000152
为三维Q表为小区c在t+1时刻选择的动作,
Figure BDA0003847447100000153
为t时刻与智能体c具有相同状态
Figure BDA0003847447100000154
的第r个智能体执行动作
Figure BDA0003847447100000155
时的Q值,T为与智能体c具有相同状态
Figure BDA0003847447100000156
的智能体总数。
在另一种状态下,当当前时刻半分布式Q学习优化方法生成的随机数小于贪婪因子时:从动作库(这里的动作库指的是智能体的动作库,也是中央控制器记录的动作库,因为各个智能体的动作库是一样的)中随机选择下一时刻的动作。
更为具体的,在半分布式Q学习中,状态、动作、奖励和Q表的定义与分布式Q学习相同。此外,中央控制器包含以下数据表结构:
三维Q表,包括智能体编号、状态和动作,均初始化为0;
一维状态表,存储每个智能体当前的状态,初始化为0;
一维动作反馈表,指示每个智能体的动作分配情况,初始化为0;
可执行动作表,与上述定义的动作相同。
在该方法中,每个智能体中的Q表和状态都将上报至中央控制器,并分别存储在三维Q表和一维状态表中。中央控制器根据Q表和相应的约束规则选择最佳的动作,存储到一维动作反馈表中,并反馈给每个智能体执行。
该方法的大致流程如下:
Figure BDA0003847447100000161
Figure BDA0003847447100000171
如上,通过了半分布式Q优化方法完成了对目标函数的求解。
本发明还公开了一种基于机器学习的毫米波网络覆盖容量自优化装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的一种基于机器学习的毫米波网络覆盖容量自优化方法。
上述的装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该装置可包括但不仅限于处理器、存储器。本领域技术人员可以理解,该装置可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器在一些实施例中可以是所述装置的内部存储单元,例如装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述装置的外部存储设备,例如所述装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述装置的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置的具体内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。

Claims (8)

1.一种基于机器学习的毫米波网络覆盖容量自优化方法,其特征在于,包括以下步骤:
将多小区多用户组成的毫米波网络建模为马尔科夫决策问题;其中,将每个小区作为一个独立的智能体,以小区的边缘频谱效率、平均频谱效率和探测指标作为每个智能体的状态信息;以小区的宽窄波束功率比和波束组合信息作为动作信息;
获取每个小区内每个用户的RSRP值和SINR值,基于分布式Q学习优化方法或半分布式Q学习优化方法求解所述马尔可夫决策问题,得到每个小区的最优宽窄波束功率比和最优波束组合信息。
2.如权利要求1所述的一种基于机器学习的毫米波网络覆盖容量自优化方法,其特征在于,所述半分布式Q学习优化方法包括:
每个所述智能体均将Q表和状态上报至同一中央控制器;
所述中央控制器根据每个所述智能体的Q表更新三维Q表;其中,所述三维表包括每个智能体的编号、以及对应的状态和动作。
3.如权利要求2所述的一种基于机器学习的毫米波网络覆盖容量自优化方法,其特征在于,当当前时刻所述半分布式Q学习优化方法生成的随机数大于等于贪婪因子时:
根据所述三维Q表为每个所述智能体的状态选择对应的动作,并将该动作反馈给每个所述智能体。
4.如权利要求3所述的一种基于机器学习的毫米波网络覆盖容量自优化方法,其特征在于,根据所述三维Q表为每个所述智能体的状态选择对应的动作包括:
Figure FDA0003847447090000021
其中,
Figure FDA0003847447090000022
为三维Q表为小区c在t+1时刻选择的动作,
Figure FDA0003847447090000023
为t时刻与智能体c具有相同状态
Figure FDA0003847447090000027
的第r个智能体执行动作
Figure FDA0003847447090000024
时的Q值,T为与智能体c具有相同状态
Figure FDA0003847447090000025
的智能体总数。
5.如权利要求3或4所述的一种基于机器学习的毫米波网络覆盖容量自优化方法,其特征在于,当当前时刻所述半分布式Q学习优化方法生成的随机数小于贪婪因子时:
从动作库中随机选择下一时刻的动作。
6.如权利要求1所述的一种基于机器学习的毫米波网络覆盖容量自优化方法,其特征在于,所述分布式Q学习优化方法包括:
Figure FDA0003847447090000026
其中,Rc(sc,ac)表示智能体c状态为sc时执行动作ac后的奖励值,CHc=nCH/Ntotal,nCH为该小区中RSRP值小于最小阈值RSRPCH的用户个数,Ntotal为该小区中所有用户个数,CHth为第一阈值,COc=nCO/Ntotal,nCO为位于重叠区域中的用户个数,重叠区域的用户定义为该用户从nOVER个相邻小区收到的RSRP值都高于阈值RSRPCO的用户,Ec5%为小区c的边缘频谱效率,Ec50%为小区c的平均频谱效率,Ecmin为小区c的边缘频谱效率的最低阈值,wc是平衡小区覆盖和容量的权重系数。
7.如权利要求1或5或6所述的一种基于机器学习的毫米波网络覆盖容量自优化方法,其特征在于,在分布式Q学习优化方法和/或半分布式Q学习优化方法中的目标函数为:
Figure FDA0003847447090000031
其中,
Figure FDA0003847447090000032
Kb为小区b的性能指标,αb为小区b的权重系数,
Figure FDA0003847447090000033
为小区b内边缘用户的频谱效率,
Figure FDA0003847447090000034
为小区b内用户的平均频谱效率,P={P1,...,PB}为所有小区的发射功率集合,Pb为小区b的发射功率,B为小区的数量,
Figure FDA0003847447090000035
为小区b发射功率的第m种选择,Θ={θ1,…,θB}为所有小区的波束组合信息集合,θb为小区b的波束组合信息,
Figure FDA0003847447090000036
为小区b波束组合信息的第m种选择,
Figure FDA0003847447090000037
为小区b内边缘用户的频谱效率最低阈值。
8.一种基于机器学习的毫米波网络覆盖容量自优化装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的一种基于机器学习的毫米波网络覆盖容量自优化方法。
CN202211123662.9A 2022-09-15 2022-09-15 基于机器学习的毫米波网络覆盖容量自优化方法及装置 Pending CN115499852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211123662.9A CN115499852A (zh) 2022-09-15 2022-09-15 基于机器学习的毫米波网络覆盖容量自优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211123662.9A CN115499852A (zh) 2022-09-15 2022-09-15 基于机器学习的毫米波网络覆盖容量自优化方法及装置

Publications (1)

Publication Number Publication Date
CN115499852A true CN115499852A (zh) 2022-12-20

Family

ID=84469427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211123662.9A Pending CN115499852A (zh) 2022-09-15 2022-09-15 基于机器学习的毫米波网络覆盖容量自优化方法及装置

Country Status (1)

Country Link
CN (1) CN115499852A (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107306162A (zh) * 2016-04-22 2017-10-31 香港城市大学 多小区及多用户毫米波蜂窝网络中的干扰管理方法
WO2018098701A1 (zh) * 2016-11-30 2018-06-07 华为技术有限公司 一种波束合成方法及装置
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
GB201912888D0 (en) * 2019-09-06 2019-10-23 Nec Corp Coverage and capacity optimisation using deep reinforcement learning
CN110708108A (zh) * 2019-08-07 2020-01-17 西北工业大学 一种多无人机毫米波网络的波束控制优化方法
CN110719201A (zh) * 2019-10-12 2020-01-21 西安邮电大学 基于强化学习的分布式自适应稳定拓扑生成方法
CN110753384A (zh) * 2019-10-12 2020-02-04 西安邮电大学 基于自适应边界的分布式强化学习稳定拓扑生成方法
CN110971279A (zh) * 2019-12-30 2020-04-07 东南大学 一种毫米波通信系统中智能波束训练方法及预编码系统
US20200358512A1 (en) * 2019-05-10 2020-11-12 Samsung Electronics Co., Ltd. Apparatus and method for dynamically selecting beamforming codebook and hierarchically generating beamforming codebooks
CN112335281A (zh) * 2018-06-25 2021-02-05 瑞典爱立信有限公司 在无线网络中处理波束对
WO2021126025A1 (en) * 2019-12-17 2021-06-24 Telefonaktiebolaget Lm Ericsson (Publ) Beamformed wireless communications
CN113473480A (zh) * 2021-05-31 2021-10-01 南京邮电大学 面向蜂窝网络的改进式强化学习网络覆盖优化方法
CN113836009A (zh) * 2021-09-14 2021-12-24 广东新安怀科技发展有限公司 一种基于强化学习的智能合约模糊测试方法及系统
US20220124543A1 (en) * 2021-06-30 2022-04-21 Oner Orhan Graph neural network and reinforcement learning techniques for connection management
WO2022152404A1 (en) * 2021-01-18 2022-07-21 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for implementing reinforcement learning

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107306162A (zh) * 2016-04-22 2017-10-31 香港城市大学 多小区及多用户毫米波蜂窝网络中的干扰管理方法
WO2018098701A1 (zh) * 2016-11-30 2018-06-07 华为技术有限公司 一种波束合成方法及装置
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN112335281A (zh) * 2018-06-25 2021-02-05 瑞典爱立信有限公司 在无线网络中处理波束对
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
US20200358512A1 (en) * 2019-05-10 2020-11-12 Samsung Electronics Co., Ltd. Apparatus and method for dynamically selecting beamforming codebook and hierarchically generating beamforming codebooks
CN110708108A (zh) * 2019-08-07 2020-01-17 西北工业大学 一种多无人机毫米波网络的波束控制优化方法
GB201912888D0 (en) * 2019-09-06 2019-10-23 Nec Corp Coverage and capacity optimisation using deep reinforcement learning
CN110719201A (zh) * 2019-10-12 2020-01-21 西安邮电大学 基于强化学习的分布式自适应稳定拓扑生成方法
CN110753384A (zh) * 2019-10-12 2020-02-04 西安邮电大学 基于自适应边界的分布式强化学习稳定拓扑生成方法
US20230036727A1 (en) * 2019-12-17 2023-02-02 Telefonaktiebolaget Lm Ericsson (Publ) Beamformed wireless communications
WO2021126025A1 (en) * 2019-12-17 2021-06-24 Telefonaktiebolaget Lm Ericsson (Publ) Beamformed wireless communications
CN110971279A (zh) * 2019-12-30 2020-04-07 东南大学 一种毫米波通信系统中智能波束训练方法及预编码系统
WO2022152404A1 (en) * 2021-01-18 2022-07-21 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for implementing reinforcement learning
CN113473480A (zh) * 2021-05-31 2021-10-01 南京邮电大学 面向蜂窝网络的改进式强化学习网络覆盖优化方法
US20220124543A1 (en) * 2021-06-30 2022-04-21 Oner Orhan Graph neural network and reinforcement learning techniques for connection management
CN113836009A (zh) * 2021-09-14 2021-12-24 广东新安怀科技发展有限公司 一种基于强化学习的智能合约模糊测试方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
牟晋宏;崔超;于新泉: "5G小区广播波束配置策略研究", 山东通信技术, vol. 39, no. 4, 15 December 2019 (2019-12-15), pages 1 - 2 *
王朝炜;邓丹昊;王卫东;江帆: "蜂窝大规模MIMO中基于深度强化学习的无人机辅助通信与资源调度", 电子与信息学报, vol. 44, no. 03, 15 March 2022 (2022-03-15) *
童诚校: "蜂窝无线网络的覆盖容量自优化平台设计与性能优化", 中国优秀硕士学位论文全文数据库, 15 April 2021 (2021-04-15), pages 33 - 44 *
陈康: "超高速毫米波MIMO传输技术研究及实现", 中国优秀硕士学位论文全文数据库, 15 June 2022 (2022-06-15) *

Similar Documents

Publication Publication Date Title
Maksymyuk et al. Deep learning based massive MIMO beamforming for 5G mobile network
CN110166090B (zh) 能效最优的大规模mimo下行单播波束域功率分配方法
US11546040B2 (en) Apparatus and method for designing a grid-of-beams using machine learning
CN110311719B (zh) 一种应用于毫米波大规模mimo系统的波束选择方法及其装置
EP3915200B1 (en) Design and adaptation of hierarchical codebooks
WO2022174418A1 (en) Wireless telecommunications network
CN113660051B (zh) 毫米波通信系统的能效最大化方法和系统
CN105554780A (zh) 毫米波下Massive MIMO多小区协作波束分配方法
CN112217678A (zh) 基于量子帝王蝶优化机制的双层异构网络频谱分配方法
CN109560849B (zh) 一种基于二阶锥规划的波束赋形的鲁棒性自适应算法
CN114786189B (zh) 一种智能超表面辅助的室内通信方法
EP3420646A1 (en) Graph-based determination of initial-synchronization beam scanning
CN113437999B (zh) 一种抑制毫米波通信系统中波束漂移效应的自适应波束宽度调制方法
Hu et al. Dynamic power allocation in high throughput satellite communications: A two-stage advanced heuristic learning approach
CN112751595B (zh) 一种波束调整方法、装置、存储介质和源基站
CN115499852A (zh) 基于机器学习的毫米波网络覆盖容量自优化方法及装置
CN115133969A (zh) 毫米波大规模mimo-noma系统的性能提高方法
Kaur et al. Cuckoo search based optimization of multiuser cognitive radio system under the effect of shadowing
Shen et al. Genetic algorithm combined with ray tracer for optimizing cell-free mmimo topology in a confined environment
Zhang et al. A Q-learning-based approach for distributed beam scheduling in mmwave networks
Akbarpour-Kasgari et al. Deep Reinforcement Learning in mmW-NOMA: Joint Power Allocation and Hybrid Beamforming
CN111988789A (zh) 一种无线网络节点部署优化方法、系统及装置
Fazliu et al. A belief propagation solution for beam coordination in mmWave vehicular networks
CN113994600B (zh) 用于无线系统中自适应地提供分层码本的装置和方法
Hong et al. Multiuser hybrid phase-only analog/digital beamforming with genetic algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination