CN113242068B - 一种基于深度强化学习的智能通信波束碰撞避免方法 - Google Patents
一种基于深度强化学习的智能通信波束碰撞避免方法 Download PDFInfo
- Publication number
- CN113242068B CN113242068B CN202110503924.3A CN202110503924A CN113242068B CN 113242068 B CN113242068 B CN 113242068B CN 202110503924 A CN202110503924 A CN 202110503924A CN 113242068 B CN113242068 B CN 113242068B
- Authority
- CN
- China
- Prior art keywords
- base station
- user
- channel information
- parameter
- theta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/0413—MIMO systems
- H04B7/0456—Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/0408—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas using two or more beams, i.e. beam diversity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/06—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
- H04B7/0613—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
- H04B7/0615—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
- H04B7/0617—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
Abstract
本发明公开了一种基于深度强化学习的智能通信波束碰撞避免方法,首先建立关于基站簇工程参数的最小化平均总波束碰撞参数的优化问题。接着根据波束碰撞参数、波束域信道信息与信干噪比以及频谱效率的关系,将原始优化问题转化为与波束域统计信道信息强相关的平均频谱效率最大化问题。基于强化学习框架,将基站簇工程参数的调优过程建模成马尔科夫决策过程,并根据实际优化问题设计合理的状态、动作和奖励信息。最后,利用深度强化学习优化算法,实现基站簇与无线通信环境的交互,并根据波束域统计信道信息进行基站簇工程参数的自适应调整,避免波束碰撞。该方法具有复杂度较低、与实际无线通信环境匹配度较好、性能优异特点。
Description
技术领域
本发明属于无线通信网络优化和智能通信领域,尤其涉及一种基于深度强化学习的智能通信波束碰撞避免方法。
背景技术
随着无线通信技术的不断发展,高速增长的移动数据业务和海量的接入需求对新一代移动通信技术提出了高容量、低功耗、低延时等需求。为进一步提高无线通信系统的容量,新一代无线通信系统广泛采用大规模天线阵列与波束赋形技术来获得更高的信道增益,但由于网络的密集化部署,使得无线通信网络的规划和优化出现新的挑战。特别在多小区多用户通信系统中,每个小区同时为多个用户发射多个波束,波束碰撞现象严重,波束间干扰增强,严重影响数据的有效传输,导致网络性能的急剧下降。
波束碰撞可以理解为多个波束同时覆盖某个区域而产生的波束之间的重叠现象,但目前鲜有研究给出准确的定义和相应的数学模型。由于波束碰撞会产生较强的波束间干扰,故现有研究往往通过处理波束间干扰来避免波束碰撞,但是并未给出波束碰撞和波束间干扰以及网络性能指标之间的具体关系。
由于波束碰撞与无线通信环境特征具有极大的相关性,故用户位置分布和基站簇工程参数会对其产生重要影响。在优化基站簇工程参数方面,传统方法往往采用人工经验或者模型假设,较难根据实际用户位置分布进行自适应调整。此外,由于数据采集成本和技术的限制,实际通信网络中很难实现基于瞬时性能的细粒度优化,因此需要考虑适合于提升网络平均性能的基站簇工程参数优化方案。
目前新一代无线通信系统可通过波束训练来感知无线通信环境,从而根据获得的波束域信道信息辅助信道估计和传输设计。与此同时,深度强化学习充分结合了深度神经网络的学习能力与强化学习与环境交互的学习机制,使其可实现根据环境特征的自适应决策。因此,基于深度强化学习的波束碰撞避免方法在无线通信网络数据的驱动下,充分挖掘环境中的波束域信道信息等特征,在实现基站簇工程参数的智能优化的同时,有效避免波束碰撞,提升网络性能。
发明内容
本发明目的在于提供一种基于深度强化学习的智能通信波束碰撞避免方法,以解决现有技术中波束碰撞概念不清晰、优化模型较难适用到实际通信场景,优化成本较大,优化方案很难落地实现的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于深度强化学习的智能通信波束碰撞避免方法,包括以下步骤:
步骤1、构建多天线多小区下行通信系统模型,定义波束碰撞事件以及波束碰撞参数,建立关于基站簇工程参数的最小化平均总波束碰撞参数的原始优化问题;
步骤2、根据波束碰撞参数和波束域信道信息与信干噪比以及频谱效率的关系,将步骤1中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题;
步骤3、针对步骤2中所述的优化问题,在强化学习的框架下,将多天线多小区下行通信系统当作环境,基站簇当作智能体,并将基站簇工程参数的调优过程建模成马尔科夫决策过程,然后对其状态、动作以及奖励函数进行具体设计;
步骤4、基于步骤3所述强化学习框架,利用深度强化学习算法,在基站簇与无线通信环境的交互下,根据波束域统计信道信息进行基站簇工程参数的自适应调整,避免波束碰撞,提高平均频谱效率。
进一步的,步骤1中基于多天线多小区下行通信系统模型建立最小化平均总波束碰撞参数的原始优化问题包括以下步骤:
步骤1.1、对于多天线多小区下行传输场景,M个基站均采用TDD模式,并配置具有V根天线的平面天线阵列,所有基站均支持波束成形,每个基站覆盖一个小区;在覆盖区域内,N个用户随机分布且均配置单根全向天线,每个用户仅与一个基站进行关联,所有小区和用户采用相同的时频资源;
步骤1.3、第n个用户关联到第m个基站上,该用户的接收信号yn可表达成下式:
其中,yn和zn分别表示第n个用户的接收信号和噪声,zn满足均值为0,方差为σ2的复高斯分布,σ2为噪声功率;sj,sk分别表示第j个和第k个用户的发射信号,均满足均值为0,方差为1的复高斯分布,pn,pk,pj分别为第n个、第k个和第j个用户的下行传输功率, wm,n为第m个基站和第n个用户之间的信道矢量的转置和预编码矢量, wm,n由hm,n确定,且满足wm,n=g(hm,n),g为预编码函数;表示去除第m个基站的基站集;表示去除第n个用户的第m个基站用户集;
步骤1.4、建模成函数h(x,θ),其中h表示基站与用户间的信道矢量,x表示用户位置,θ表示基站工程参数;
其中,x=[x,y,z]T为用户相对于基站的位置坐标,θ=[Γ,Υ]T为基站工程参数,Γ,Υ分别是基站的方位角和下倾角;L为散射路径数目,αl和ψl分别为第l条路径的复增益(包含幅度和相位)和方向;αl和ψl均受用户位置x和基站工程参数θ的影响。a为天线阵列导引矢量,Λ为天线单元空间响应;
步骤1.5、第n个用户与第m个基站关联,同时第j个用户与第i个基站关联,定义第n个用户接收到第j个用户干扰信号的强度与其有用信号的比值是波束碰撞参数βn,j;当波束碰撞参数βn,j大于预设阈值ε时,波束碰撞事件发生:
其中,Pcollision表示波束碰撞事件的概率,P表示概率,pn和pj分别表示第n个用户和第j个用户的下行传输功率,hi,n和hm,n分别为第i个基站和第n个用户之间的信道矢量和第m个基站和第n个用户之间的信道矢量,wi,j和wm,n分别为第i个基站和第j个用户之间的预编码矢量和第m个基站以及第n个用户之间的预编码矢量;H表示转置变换,ε为预设的波束碰撞参数的阈值;
其中,X=[x1,x2,...,xN]T,Θ=[θ1,θ2,...,θM]T,E{βn,j|X,Θ}表示给定用户位置分布X和基站簇工程参数Θ条件下的波束碰撞参数βn,j的平均值;
进一步的,步骤2中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题包括以下步骤:
步骤2.1基于步骤1中所述的多天线多小区下行通信系统模型,当第n个用户关联到第m个基站时,其信干噪比γn的计算公式如下:
其中,pk表示第k个用户的下行传输功率。
步骤2.2、定义波束碰撞事件以及波束碰撞参数,当前用户信干噪比γn的倒数可近似表达成下式:
步骤2.3、根据香农容量定理,推导出波束碰撞参数βn,j与当前用户频谱效率Rn之间的关系,表达式如下:
波束碰撞参数和频谱效率之间存在负相关关系,即当波束碰撞程度增加时,系统中波束干扰增强,频谱效率降低,网络性能下降;
步骤2.4、信干噪比和频谱效率根据基站与用户间的波束域信道信息进行计算,使基站在下行数据传输开始之前进行波束扫描以感知用户信道,
具体计算方式如下:
其中,D为波束扫描码本,DH为码本的转置变换,满足 Di为D的第i行,即表示波束码本中的第i个波束,1≤i≤S,S为码书维度;波束域信道信息为基站与用户间的信道矢量h在不同波束上的投影值,可表达成根据上式可知,信干噪比可由波束域信道信息确定;根据香农公式可知,频谱效率由波束域信道信息确定;
其中,f表示平均频谱效率与波束域统计信道信息之间的映射;是指给定用户位置分布X和基站簇工程参数Θ下的波束域统计信道信息, 表示第m个基站与第n个用户之间的波束域统计信道信息,M与N分别是基站的总数目和用户的总数目。 表示基于用户位置分布X和基站簇工程参数Θ下的波束域信道信息的变换的平均值,E{·}表示期望,1≤s≤S;
步骤2.6、结合波束碰撞参数与频谱效率的负相关关系以及平均频谱效率和波束域统计信息之间的映射关系,将步骤一中建立的最小化平均总波束碰撞参数的原始优化问题转变成基于波束域统计信道信息最大化平均频谱效率的优化问题,具体如下:
其中,表示基于基站簇工程参数Θ的平均频谱效率的最大化问题,指的是波束域统计信道信息的映射函数,s.t.Θ表示基站簇工程参数Θ的约束条件。通过统计一段时间内系统速率的平均值得到,通过统计波束域参考信号的接收强度得到。
进一步的,步骤3中建立的马尔科夫决策过程模型如下:
在强化学习框架下,将步骤1中所述的多天线多小区下行通信系统当作环境,基站簇当作智能体,并将基站工程簇参数的调优过程建模成马尔科夫决策过程模型;
其中根据步骤3中所述的优化问题设计的状态、动作以及奖励函数具体如下:
动作:定义基站簇工程参数Θ或其变换形式ζ(Θ)为马尔科夫决策过程模型的动作a,a=ζ(Θ),ζ表示变换;
进一步的,步骤4所述的基于深度强化学习的基站簇工程参数优化算法的实现过程包括如下步骤:
步骤4.1初始化深度强化学习网络权重及其算法超参数,将算法作用于智能体,使其与步骤一所述的无线通信环境进行若干轮次的交互;
步骤4.2、在每个交互轮次开始时,初始化基站簇工程参数Θ=Θ0,并且在每个交互轮次中设计时间步;
步骤4.4当无线通信环境再次达到稳定时,智能体对环境中新的波束域信道信息以及网络性能指标进行测量,并将基站簇工程参数Θ调整前的状态基站簇工程参数Θ调整后的状态动作a=ζ(Θ)以及奖励函数缓存到一个经验数据库Ω中;与此同时,深度强化学习网络从经验数据库Ω中随机抽取批量数据进行神经网络的训练;
本发明的一种基于深度强化学习的智能通信波束碰撞避免方法具有以下优点:
1、本发明提供了波束碰撞事件的明确定义,并推导出波束碰撞与波束干扰以及网络性能之间的关系,将最小化平均总波束碰撞参数的优化问题转化成最大化平均频谱效率的优化问题,降低了波束碰撞避免的实现难度;
2、本发明利用波束域信道信息和深度强化学习框架实现基站簇工程参数的自动化调整,从而智能且高效地找到当前网络中的最优基站簇工程参数配置,实现了波束碰撞的自适应避免,并获得较高的网络平均性能;
附图说明
图1为本发明基于深度强化学习的智能通信波束碰撞避免方法流程图;
图2为本发明多天线多小区下行通信系统拓扑示意图。
图3为本发明设计的马尔科夫决策过程建模示意图;
图4为本发明设计的基于深度强化学习的基站簇工程参数调优的训练曲线图;
图5为本发明设计的基于深度强化学习的基站簇工程参数调优的测试曲线图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于深度强化学习的智能通信波束碰撞避免方法做进一步详细的描述。
本发明所提出的一种基于深度强化学习的智能通信波束碰撞避免方法将结合具体实施例进行详细描述,整体方法流程图如图1所示。
步骤一:构建多天线多小区下行通信系统模型,定义波束碰撞事件以及波束碰撞参数,并建立关于基站簇工程参数的最小化平均总波束碰撞参数的原始优化问题。
本发明实施例的通信场景如图2所示,其对应紫金山园区的真实下行双基站场景。两个基站均采用TDD模式,并且采用8×4的均匀平面阵进行传输,载频为2GHz,工作带宽为100MHz。两基站均支持全数字波束成形,每个基站覆盖一个小区。以正东方向为x轴正方向,正北方向为y轴正方向,z轴垂直向上构建坐标系,两个基站的坐标分别为(13.72m,95.8m,21.17m)和(89.83m,144.73m,21.18m)。基站方位角Γ为天线阵列法线与xOz平面的夹角,向北为正,向南为负;基站下倾角Υ为天线阵列法线与xOy平面的夹角,向上为正,向下为负。在基站覆盖区域内分布着高楼建筑以及多条道路。其中,111个配置单根全向天线的用户在区域A1与A2上等间隔取点。用户坐标为(x,y,z),其中在区域A1内的用户坐标集合为{(x,y)|41.88≤x≤46.44,0≤y≤73.4},取点间隔为2m;区域A2内的用户坐标集合为{(x,y)|13.71≤x≤46.34,121.65≤y≤138.85},取点间隔为4m。所有用户的高度z均为1.5m。在最大接收功率关联准则下,每个用户仅与一个基站进行关联。所有小区和用户采用相同的时频资源。两基站总下行传输功率设置为1W,各基站将总下行传输功率平均分配给关联的各个用户。定义基站集为用户集为每个基站的服务用户集为并且满足 的关系。
当第n个用户关联到第m个基站上,则该用户的接收信号yn可表达成下式:
其中,yn和zn分别表示第n个用户的接收信号和噪声,zn满足均值为0,方差为σ2的复高斯分布,σ2为噪声功率;sj,sk分别表示第j个和第k个用户的发射信号,均满足均值为0,方差为1的复高斯分布,pn,pk,pj分别为第n个、第k个和第j个用户的下行传输功率, 为第m个基站和第n个用户之间的信道矢量的转置和预编码矢量, wm,n由hm,n确定;表示去除第m个基站的基站集;表示去除第n个用户的第m个基站用户集;
鉴于基站与用户间的信道矢量h与用户位置x与基站工程参数θ密切相关,故可将其建模成二者的函数h(x,θ)。
其中,x=[x,y,z]T为用户相对于基站的位置坐标,θ=[Γ,Υ]T为基站工程参数,Γ,Υ分别是基站的方位角和下倾角。L为散射路径数目,αl和ψl分别为第l条路径的复增益(包含幅度和相位)和方向。L,αl和ψl均受用户位置x和基站工程参数θ的影响。a为天线阵列导引矢量,Λ为天线单元空间响应。
特别地,在本发明实施例中,路径数目L为5,第l条散射路径的方向其中和分别为第l条散射路径的相对方位角和相对下倾角,和φl(x)是第l条散射路径的方位角和下倾角。第l条散射路径的复增益αl(x),方位角和下倾角φl(x)根据用户位置x和实际场景环境决定。
天线阵列采用半波长均匀平面阵,天线阵列导引矢量a的计算方式如下:
其中,W,H表示天线阵列的水平方向和垂直方向的阵元个数,0≤m<W,0≤n<H。特别地,本发明实施例中,W=8,H=4。
天线单元采用三维定向天线模型,天线单元空间响应Λ的计算方式如下:
假设第n个用户与第m个基站关联,同时第j个用户与第i个基站关联,定义第n个用户接收到第j个用户干扰信号的强度与其有用信号的比值是波束碰撞参数βn,j;当波束碰撞参数βn,j大于预设阈值ε时,波束碰撞事件发生。
其中,Pcollision表示波束碰撞事件的概率,P表示概率,pn和pj分别表示第n个用户和第j个用户的下行传输功率,hi,n和hm,n分别为第i个基站和第n个用户之间的信道矢量和第m个基站和第n个用户之间的信道矢量,wi,j和wm,n分别为第i个基站和第j个用户之间的预编码矢量和第m个基站以及第n个用户之间的预编码矢量;H表示转置变换,ε为预设的波束碰撞参数的阈值;
由于波束碰撞参数βn,j,会受到用户位置分布X和基站簇工程参数Θ的影响,故在给定用户位置分布X的条件下,可通过优化基站簇工程参数Θ的方式,有效避免波束碰撞。考虑到实际通信网络优化中基站簇工程参数Θ的调整时间远大于信道相关时间,故定义平均总波束碰撞参数具体计算公式如下:
其中,X=[x1,x2,...,xN]T,Θ=[θ1,θ2,...,θM]T,E{βn,j|X,Θ}表示给定用户位置分布X和基站簇工程参数Θ条件下的波束碰撞参数βn,j的平均值。
s.t.Γm,min≤Γm≤Γm,max
Υm,min≤Υm≤Υm,max
1≤m≤M
其中,θm=[Γm,Υm]第m个基站的基站簇工程参数,包含方位角Γm和下倾角Υm,Γm,min,Γm,max分别是第m个基站的方位角的最小值和最大值,Υm,min,Υm,max分别是第m个基站的下倾角的最小值和最大值。
步骤二:为解决波束碰撞参数无法直接获得且原始优化问题难以求解的问题,根据波束碰撞参数和波束域信道信息与信干噪比以及频谱效率的关系,将步骤一中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题。
基于步骤一中所述的多天线多小区下行通信系统模型,当第n个用户关联到第m个基站时,其信干噪比的计算公式如下:
其中,pk为第k个用户的下行传输功率。
一方面,随着天线阵列数目的增加与网络的密集化部署,噪声功率σ2对有用信号的影响远小于干扰信号对其产生的影响。因此,根据步骤一中定义的波束碰撞事件以及波束碰撞参数,当前用户信干噪比γn的倒数可近似表达成下式:
根据香农容量定理,进一步推导出波束碰撞参数β与当前用户的频谱效率Rn之间的关系,其表达式如下:
根据上式可知,波束碰撞参数和频谱效率之间存在负相关关系,即当波束碰撞程度增加时,系统中波束干扰增强,频谱效率降低,网络性能下降。
另一方面,鉴于基站需要在下行数据传输开始之前进行波束扫描以感知用户信道,因此频谱效率可根据基站与用户间的波束域信道进行计算,具体计算方式如下:
根据信干噪比和频谱效率的计算公式可知,二者均可由波束域信道信息确定。
其中,f表示平均频谱效率与波束域统计信道信息之间的映射;是指给定用户位置分布X和基站簇工程参数Θ下的波束域统计信道信息, 表示第m个基站与第n个用户之间的波束域统计信道信息,M与N分别是基站的总数目和用户的总数目。 表示基于用户位置分布X和基站簇工程参数Θ下的波束域信道信息的变换的平均值,E{·}表示期望,1≤s≤S;
特别地,在本发明实施例中,考虑到第五代无线通信系统中采用参考信号接收功率(RSRP)作为波束测量和波束上报的重要参数,故利用平均RSRP值作为用户侧的波束域统计信道信息,表达式如下:
针对波束碰撞参数不能直接获得以及原始优化问题难以求解的问题,结合波束碰撞参数与频谱效率的负相关关系以及平均频谱效率和波束域统计信息之间的映射关系,可将步骤一中建立的最小化平均总波束碰撞参数的原始优化问题转变成基于波束域统计信道信息最大化平均频谱效率的优化问题,具体如下:
其中,表示基于基站簇工程参数Θ的平均频谱效率的最大化问题,指的是波束域统计信道信息的映射函数,s.t.Θ表示基站簇工程参数Θ的约束条件。通过统计一段时间内系统速率的平均值得到,通过统计波束域参考信号的接收强度得到,
特别地,在本发明实施例中,基站簇工程参数可表示成Θ=[θ1,θ2,...,θM]T,且每个基站采用方位角Γ和下倾角Υ作为可调工程参数θ,故上述优化问题可重述成:
s.t.Γm,min≤Γm≤Γm,max
Υm,min≤Υm≤Υm,max
1≤m≤M
步骤三:针对步骤二中所述的优化问题,在强化学习框架下,将多天线多小区下行通信系统当作环境,基站簇当作智能体,并将基站簇工程参数Θ的调优过程建模成马尔科夫决策过程(MDP),然后对其状态、动作以及奖励函数进行具体设计。
特别地,在本发明实施例中,基站簇工程参数Θ的MDP调优过程如图3所示,其中状态、动作以及奖励函数的具体设计如下:
1)状态:定义所有用户的服务小区和相应邻区的所有波束对应的平均RSRP的总和作为MDP的状态s。
s=[s1,1,s1,2,...,sM,1,sM,2]
其中,sm,1表示第m个基站的服务小区的所有波束对应的平均RSRP的总和,sm,2表示第m个基站的所有邻区的所有波束对应的平均RSRP的总和,因此,状态空间维度为2M。为确保后期的深度强化学习算法的网络收敛和性能稳定,本发明实施例对状态量进行预处理,将RSRP由实值换算成dB值,并塑形到(0,1)之间。
2)动作:定义优化变量基站工程参数θ的调整量Δθ作为MDP的动作a。
a=[a1,a2,...,aM]
am=Δθ=[ΔΓm,ΔΥm]
应注意的是,每次动作调整幅度不能过大,要保证调整前后的基站工程参数θ仍符合真实通信环境中的合理取值范围。对于本发明实施例中的两个基站,基站BS1的方位角和下倾角的合理取值范围分别为-30°≤Γ1≤90°,-40°≤Υ1≤-20°,基站BS2的方位角和下倾角的合理取值范围分别为-180°≤Γ2≤-120°,-30°≤Υ2≤-10°。基站BS1和BS2的工程参数调整量相互独立,且最大调整量分别是
步骤四:基于步骤三所述强化学习框架,利用深度强化学习算法,在基站簇与无线通信环境的交互下,根据波束域统计信道信息进行基站簇工程参数的自适应调整,避免波束碰撞,提高频谱效率。
进一步地,基于深度强化学习的智能通信波束碰撞避免方法的流程如下:
首先初始化深度强化学习网络权重及其算法超参数,将算法作用于智能体(基站簇),使其与步骤一所述的无线通信环境进行若干轮次的交互。在每个交互轮次开始时,初始化基站簇工程参数Θ=Θ0,并且在每个交互轮次中设计一定数目的时间步。在每个时间步更迭时,智能体采集平均RSRP信息并输入深度强化学习网络,然后根据深度强化学习网络的输出相应调整基站簇工程参数Θ。当无线通信环境再次达到稳定时,智能体对环境中新的平均RSRP信息以及性能指标进行测量,并将基站簇工程参数Θ调整前后的平均RSRP信息和基站簇工程参数调整值ΔΘ以及相应的性能指标缓存到一个经验数据库Ω中。与此同时,深度强化学习网络从经验数据库Ω中随机抽取批量数据进行神经网络的训练。重复以上交互过程,直到深度强化学习算法收敛。记录此时的最优基站簇工程参数配置Θ*以及最优的平均频谱效率
特别地,在本发明实施例中,采用基于Actor-Critic架构的深度确定性策略梯度(DDPG)算法进行基站簇工程参数Θ的自适应调整。对于每个交互轮次,当时间步t开始后,环境中的平均RSRP信息被输入到Actor神经网络中,在随机噪声的辅助下,该网络做出智能决策并输出基站簇工程参数调整值ΔΘ。然后,时间步变化为t′,环境发生更新。观测环境稳定后的性能指标和新的平均RSRP信息并利用Critic神经网络估计和当前基站簇工程参数调整值ΔΘ′的值函数然后结合以更新Critic网络。最后,按照Critic网络的策略方向更新Actor网络。该过程不断循环,直到Actor网络收敛。
其中,DDPG算法的软更新参数为0.001,折扣因子为0.9,批次样本数为32,经验池大小为10000,训练交互轮次数目为1000。每个交互轮次的时间步数目为10。在网络结构方面,Actor网络隐含层结构为[256,128,64,32],输入层和输出层神经元数分别为128和4,输出层激活函数为Tanh,而Critic网络隐含层结构为[256,256,256,256],输入层神经元数分别为128和4,输出层神经元数为257,输出层激活函数为Linear。两种网络其余参数相同,学习率为0.0001,隐含层激活函数为ReLU,优化器为Adam。
在基站BS1的初始方位角和下倾角分别为θ10=[Γ10=30°,Υ10=-30°],基站BS2的初始方位角和下倾角θ20=[Γ20=-150°,Υ20=-20°],对应的初始平均频谱效率为3.3232bps/Hz的情况下,经过对DDPG算法充分训练,网络收敛且系统性能稳定,训练曲线图和测试曲线图分别如图4和图5所示。将收敛完全后的算法在测试阶段的最大平均频谱效率对应的基站簇工程参数Θ*作为最终的优化结果。因此,基站BS1的最优方位角和下倾角分别为基站BS2的最优方位角和下倾角分别是最优平均频谱效率为4.497bps/Hz。因此,该优化算法可平均频谱效率提升超过1bps/Hz。
本发明提供出波束碰撞的明确定义,而且将复杂的波束碰撞避免问题转换成容易求解的最大化平均频谱效率的优化问题。在波束域信道信息的辅助下,利用深度强化学习自适应地调整基站簇工程参数,低复杂度地且智能化地改善网络平均性能并实现有效避免波束碰撞的有效避免。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。
Claims (2)
1.一种基于深度强化学习的智能通信波束碰撞避免方法,其特征在于,包括以下步骤:
步骤1、构建多天线多小区下行通信系统模型,定义波束碰撞事件以及波束碰撞参数,建立关于基站簇工程参数的最小化平均总波束碰撞参数的原始优化问题;
步骤2、根据波束碰撞参数和波束域信道信息与信干噪比以及频谱效率的关系,将步骤1中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题;
步骤3、针对步骤2中所述的优化问题,在强化学习的框架下,将多天线多小区下行通信系统当作环境,基站簇当作智能体,并将基站簇工程参数的调优过程建模成马尔科夫决策过程,然后对其状态、动作以及奖励函数进行设计;
步骤4、基于步骤3所述强化学习框架,利用深度强化学习算法,在基站簇与无线通信环境的交互下,根据波束域统计信道信息进行基站簇工程参数的自适应调整,避免波束碰撞,提高平均频谱效率;
所述步骤1中基于多天线多小区下行通信系统模型建立最小化平均总波束碰撞参数的原始优化问题包括以下步骤:
步骤1.1、对于多天线多小区下行传输场景,M个基站均采用TDD模式,并配置具有V根天线的平面天线阵列,所有基站均支持波束成形,每个基站覆盖一个小区;在覆盖区域内,N个用户随机分布且均配置单根全向天线,每个用户仅与一个基站进行关联,所有小区和用户采用相同的时频资源;
步骤1.3、第n个用户关联到第m个基站上,该用户的接收信号yn可表达成下式:
其中,yn和zn分别表示第n个用户的接收信号和噪声,zn满足均值为0,方差为σ2的复高斯分布,σ2为噪声功率;sj,sk分别表示第j个和第k个用户的发射信号,均满足均值为0,方差为1的复高斯分布,pn,pk,pj分别为第n个、第k个和第j个用户的下行传输功率, wm,n为第m个基站和第n个用户之间的信道矢量的转置和预编码矢量, wm,n由hm,n确定,且满足wm,n=g(hm,n),g为预编码函数;表示去除第m个基站的基站集;表示去除第n个用户的第m个基站用户集;
步骤1.4、建模成函数h(x,θ),其中h表示基站与用户间的信道矢量,x表示用户位置,θ表示基站工程参数;
其中,x=[x,y,z]T为用户相对于基站的位置坐标,θ=[Γ,Υ]T为基站工程参数,Γ,Υ分别是基站的方位角和下倾角;L为散射路径数目,αl为第l条路径的复增益,其中复增益包含幅度和相位,ψl为第l条路径的方向;αl和ψl均受用户位置x和基站工程参数θ的影响;a为天线阵列导引矢量,Λ为天线单元空间响应;
步骤1.5、第n个用户与第m个基站关联,同时第j个用户与第i个基站关联,定义第n个用户接收到第j个用户干扰信号的强度与其有用信号的比值是波束碰撞参数βn,j;当波束碰撞参数βn,j大于预设阈值ε时,波束碰撞事件发生:
其中,Pcollision表示波束碰撞事件的概率,P表示概率,pn和pj分别表示第n个用户和第j个用户的下行传输功率,hi,n和hm,n分别为第i个基站和第n个用户之间的信道矢量和第m个基站和第n个用户之间的信道矢量,wi,j和wm,n分别为第i个基站和第j个用户之间的预编码矢量和第m个基站以及第n个用户之间的预编码矢量;H表示转置变换,ε为预设的波束碰撞参数的阈值;
其中,X=[x1,x2,...,xN]T,Θ=[θ1,θ2,...,θM]T,E{βn,j|X,Θ}表示给定用户位置分布X和基站簇工程参数Θ条件下的波束碰撞参数βn,j的平均值;
所述步骤2中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题包括以下步骤:
步骤2.1基于步骤1中所述的多天线多小区下行通信系统模型,当第n个用户关联到第m个基站时,其信干噪比的计算公式如下:
其中,pk为第k个用户的下行传输功率;
步骤2.2、定义波束碰撞事件以及波束碰撞参数,当前用户信干噪比γn的倒数可近似表达成下式:
步骤2.3、根据香农容量定理,推导出波束碰撞参数βn,j与当前用户频谱效率Rn之间的关系,表达式如下:
波束碰撞参数和频谱效率之间存在负相关关系,即当波束碰撞程度增加时,系统中波束干扰增强,频谱效率降低,网络性能下降;
步骤2.4、信干噪比和频谱效率根据基站与用户间的波束域信道信息进行计算,使基站在下行数据传输开始之前进行波束扫描以感知用户信道,
具体计算方式如下:
其中,D为波束扫描码本,DH为码本的转置变换,满足 Di为D的第i行,即表示波束码本中的第i个波束,1≤i≤S,S为码书维度;波束域信道信息为基站与用户间的信道矢量h在不同波束上的投影值,可表达成根据上式可知,信干噪比可由波束域信道信息确定;根据香农公式可知,频谱效率由波束域信道信息确定;
平均频谱效率R和波束域统计信息H之间的映射关系:
其中,f表示平均频谱效率与波束域统计信道信息H之间的映射;H(X,Θ)是指给定用户位置分布X和基站簇工程参数Θ下的波束域统计信道信息,H=[h1,1,h1,2,...,hM,N],hm,n表示第m个基站与第n个用户之间的波束域统计信道信息,M与N分别是基站的总数目和用户的总数目; 表示基于用户位置分布X和基站簇工程参数Θ下的波束域信道信息的变换的平均值,E{·}表示期望,1≤s≤S;
步骤2.6、结合波束碰撞参数与频谱效率的负相关关系以及平均频谱效率和波束域统计信息之间的映射关系,将步骤一中建立的最小化平均总波束碰撞参数的原始优化问题转变成基于波束域统计信道信息H最大化平均频谱效率的优化问题,具体如下:
其中,表示基于基站簇工程参数Θ的平均频谱效率的最大化问题,f(H)指的是波束域统计信道信息H的映射函数,s.t.Θ表示基站簇工程参数Θ的约束条件;通过统计一段时间内系统速率的平均值得到,H通过统计波束域参考信号的接收强度得到;
所述步骤4所述的基于深度强化学习的基站簇工程参数优化算法的实现过程包括如下步骤:
步骤4.1初始化深度强化学习网络权重及其算法超参数,将算法作用于智能体,使其与步骤一所述的无线通信环境进行若干轮次的交互;
步骤4.2、在每个交互轮次开始时,初始化基站簇工程参数Θ=Θ0,并且在每个交互轮次中设计时间步;
步骤4.3、在每个时间步更迭时,智能体采集波束域统计信道信息H并输入深度强化学习网络,然后根据深度强化学习网络的输出调整基站簇工程参数Θ;
步骤4.4当无线通信环境再次达到稳定时,智能体对环境中新的波束域信道信息H'以及网络性能指标进行测量,并将基站簇工程参数Θ调整前的状态s=ξ(H)、基站簇工程参数Θ调整后的状态s'=ξ(H')、动作a=ζ(Θ)以及奖励函数缓存到一个经验数据库Ω中;与此同时,深度强化学习网络从经验数据库Ω中随机抽取批量数据进行神经网络的训练;
2.根据权利要求1所述的基于深度强化学习的智能通信波束碰撞避免方法,其特征在于,步骤3中建立的马尔科夫决策过程模型如下:
在强化学习框架下,将步骤1中所述的多天线多小区下行通信系统当作环境,基站簇当作智能体,并将基站工程簇参数的调优过程建模成马尔科夫决策过程模型;
其中根据步骤3中所述的优化问题设计的状态、动作以及奖励函数具体如下:
状态:定义所有用户的服务小区和相应邻区对应的全部波束域统计信道信息H和其变换形式ξ(H)作为马尔科夫决策过程模型的状态s,s=ξ(H),ξ表示变换;
动作:定义基站簇工程参数Θ或其变换形式ζ(Θ)为马尔科夫决策过程模型的动作a,a=ζ(Θ),ζ表示变换;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110503924.3A CN113242068B (zh) | 2021-05-10 | 2021-05-10 | 一种基于深度强化学习的智能通信波束碰撞避免方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110503924.3A CN113242068B (zh) | 2021-05-10 | 2021-05-10 | 一种基于深度强化学习的智能通信波束碰撞避免方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113242068A CN113242068A (zh) | 2021-08-10 |
CN113242068B true CN113242068B (zh) | 2022-04-01 |
Family
ID=77132829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110503924.3A Active CN113242068B (zh) | 2021-05-10 | 2021-05-10 | 一种基于深度强化学习的智能通信波束碰撞避免方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113242068B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107071755A (zh) * | 2017-03-03 | 2017-08-18 | 中国电子科技集团公司第五十四研究所 | 一种降低碰撞概率的定向无中心自组网邻居发现方法 |
CN111092641A (zh) * | 2019-12-18 | 2020-05-01 | 重庆邮电大学 | 基于毫米波mimo系统深度学习的混合预编码设计方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102180959B1 (ko) * | 2013-12-09 | 2020-11-19 | 삼성전자주식회사 | 무선통신 시스템의 빔 스위핑 패턴 조정 방법 및 장치 |
CN106506133B (zh) * | 2016-11-08 | 2019-08-20 | 东南大学 | 宽带大规模mimo系统导频池及信道信息获取方法和系统 |
CN110535580B (zh) * | 2018-08-08 | 2022-08-23 | 中兴通讯股份有限公司 | 传输控制方法、探测参考信号传输方法、终端、基站及介质 |
CN110971279B (zh) * | 2019-12-30 | 2021-09-21 | 东南大学 | 一种毫米波通信系统中智能波束训练方法及预编码系统 |
CN111181619B (zh) * | 2020-01-03 | 2022-05-13 | 东南大学 | 基于深度强化学习的毫米波混合波束成形设计方法 |
CN112512069B (zh) * | 2021-02-02 | 2021-05-28 | 网络通信与安全紫金山实验室 | 基于信道波束图样的网络智能优化方法及装置 |
-
2021
- 2021-05-10 CN CN202110503924.3A patent/CN113242068B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107071755A (zh) * | 2017-03-03 | 2017-08-18 | 中国电子科技集团公司第五十四研究所 | 一种降低碰撞概率的定向无中心自组网邻居发现方法 |
CN111092641A (zh) * | 2019-12-18 | 2020-05-01 | 重庆邮电大学 | 基于毫米波mimo系统深度学习的混合预编码设计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113242068A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110492911B (zh) | 一种用于无人机通信的波束追踪方法与系统 | |
CN111447631A (zh) | 基于非正交多址技术的星地联合波束形成和功率分配方法 | |
CN110138427B (zh) | 基于部分连接的大规模多输入多输出混合波束赋形算法 | |
CN113489521A (zh) | 反射面辅助无小区大规模mimo网络智能联合波束赋形方法 | |
CN112672361B (zh) | 一种基于无人机集群部署的大规模mimo容量提升方法 | |
CN112039564B (zh) | 一种卫星大规模mimo广覆盖预编码传输方法 | |
CN113438002B (zh) | 基于lstm的模拟波束切换方法、装置、设备及介质 | |
WO2016065683A1 (zh) | 多用户3d-mimo系统中三维波束赋形设计方法 | |
CN113300749A (zh) | 基于机器学习赋能的智慧传输波束优化方法 | |
CN111262617B (zh) | 一种基于多颗低轨卫星协作的频谱感知方法 | |
Lou et al. | Performance analysis of sparse array based massive MIMO via joint convex optimization | |
CN115085774A (zh) | 一种基于克拉美罗界的通感融合混合波束赋形方法 | |
CN114640379A (zh) | 一种基于智能反射面阵元分组的波束优化方法及系统 | |
Do et al. | A review on recent approaches in mmwave uav-aided communication networks and open issues | |
CN113242068B (zh) | 一种基于深度强化学习的智能通信波束碰撞避免方法 | |
Buracchini et al. | Performance analysis of a mobile system based on combined SDMA/CDMA access technique | |
CN114745032B (zh) | 一种无蜂窝大规模mimo智能分布式波束选择方法 | |
CN114499615B (zh) | 一种太赫兹通信系统中近远场统一的发射波束成形方法 | |
CN113595609B (zh) | 一种基于强化学习的蜂窝移动通信系统协作式信号发送方法 | |
CN105227224A (zh) | 3d-mimo系统中基于最小slnr最大准则的分布式干扰协调方法 | |
CN115102609A (zh) | 一种多波束卫星的低复杂度用户分组及公平调度方法 | |
CN110208830B (zh) | 一种基于空时二维稀疏阵列的导航抗干扰方法 | |
CN113726389A (zh) | 基于可重构反射超表面的无小区组网系统及方法 | |
CN114844537A (zh) | 深度学习辅助鲁棒大规模mimo收发联合方法 | |
CN112242860B (zh) | 自适应天线分组的波束成型方法、装置及大规模mimo系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |