CN113242068B - 一种基于深度强化学习的智能通信波束碰撞避免方法 - Google Patents

一种基于深度强化学习的智能通信波束碰撞避免方法 Download PDF

Info

Publication number
CN113242068B
CN113242068B CN202110503924.3A CN202110503924A CN113242068B CN 113242068 B CN113242068 B CN 113242068B CN 202110503924 A CN202110503924 A CN 202110503924A CN 113242068 B CN113242068 B CN 113242068B
Authority
CN
China
Prior art keywords
base station
user
channel information
parameter
theta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110503924.3A
Other languages
English (en)
Other versions
CN113242068A (zh
Inventor
黄永明
葛瑶
何伟梁
张铖
吴珩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110503924.3A priority Critical patent/CN113242068B/zh
Publication of CN113242068A publication Critical patent/CN113242068A/zh
Application granted granted Critical
Publication of CN113242068B publication Critical patent/CN113242068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0456Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0408Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas using two or more beams, i.e. beam diversity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming

Abstract

本发明公开了一种基于深度强化学习的智能通信波束碰撞避免方法,首先建立关于基站簇工程参数的最小化平均总波束碰撞参数的优化问题。接着根据波束碰撞参数、波束域信道信息与信干噪比以及频谱效率的关系,将原始优化问题转化为与波束域统计信道信息强相关的平均频谱效率最大化问题。基于强化学习框架,将基站簇工程参数的调优过程建模成马尔科夫决策过程,并根据实际优化问题设计合理的状态、动作和奖励信息。最后,利用深度强化学习优化算法,实现基站簇与无线通信环境的交互,并根据波束域统计信道信息进行基站簇工程参数的自适应调整,避免波束碰撞。该方法具有复杂度较低、与实际无线通信环境匹配度较好、性能优异特点。

Description

一种基于深度强化学习的智能通信波束碰撞避免方法
技术领域
本发明属于无线通信网络优化和智能通信领域,尤其涉及一种基于深度强化学习的智能通信波束碰撞避免方法。
背景技术
随着无线通信技术的不断发展,高速增长的移动数据业务和海量的接入需求对新一代移动通信技术提出了高容量、低功耗、低延时等需求。为进一步提高无线通信系统的容量,新一代无线通信系统广泛采用大规模天线阵列与波束赋形技术来获得更高的信道增益,但由于网络的密集化部署,使得无线通信网络的规划和优化出现新的挑战。特别在多小区多用户通信系统中,每个小区同时为多个用户发射多个波束,波束碰撞现象严重,波束间干扰增强,严重影响数据的有效传输,导致网络性能的急剧下降。
波束碰撞可以理解为多个波束同时覆盖某个区域而产生的波束之间的重叠现象,但目前鲜有研究给出准确的定义和相应的数学模型。由于波束碰撞会产生较强的波束间干扰,故现有研究往往通过处理波束间干扰来避免波束碰撞,但是并未给出波束碰撞和波束间干扰以及网络性能指标之间的具体关系。
由于波束碰撞与无线通信环境特征具有极大的相关性,故用户位置分布和基站簇工程参数会对其产生重要影响。在优化基站簇工程参数方面,传统方法往往采用人工经验或者模型假设,较难根据实际用户位置分布进行自适应调整。此外,由于数据采集成本和技术的限制,实际通信网络中很难实现基于瞬时性能的细粒度优化,因此需要考虑适合于提升网络平均性能的基站簇工程参数优化方案。
目前新一代无线通信系统可通过波束训练来感知无线通信环境,从而根据获得的波束域信道信息辅助信道估计和传输设计。与此同时,深度强化学习充分结合了深度神经网络的学习能力与强化学习与环境交互的学习机制,使其可实现根据环境特征的自适应决策。因此,基于深度强化学习的波束碰撞避免方法在无线通信网络数据的驱动下,充分挖掘环境中的波束域信道信息等特征,在实现基站簇工程参数的智能优化的同时,有效避免波束碰撞,提升网络性能。
发明内容
本发明目的在于提供一种基于深度强化学习的智能通信波束碰撞避免方法,以解决现有技术中波束碰撞概念不清晰、优化模型较难适用到实际通信场景,优化成本较大,优化方案很难落地实现的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于深度强化学习的智能通信波束碰撞避免方法,包括以下步骤:
步骤1、构建多天线多小区下行通信系统模型,定义波束碰撞事件以及波束碰撞参数,建立关于基站簇工程参数的最小化平均总波束碰撞参数的原始优化问题;
步骤2、根据波束碰撞参数和波束域信道信息与信干噪比以及频谱效率的关系,将步骤1中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题;
步骤3、针对步骤2中所述的优化问题,在强化学习的框架下,将多天线多小区下行通信系统当作环境,基站簇当作智能体,并将基站簇工程参数的调优过程建模成马尔科夫决策过程,然后对其状态、动作以及奖励函数进行具体设计;
步骤4、基于步骤3所述强化学习框架,利用深度强化学习算法,在基站簇与无线通信环境的交互下,根据波束域统计信道信息进行基站簇工程参数的自适应调整,避免波束碰撞,提高平均频谱效率。
进一步的,步骤1中基于多天线多小区下行通信系统模型建立最小化平均总波束碰撞参数的原始优化问题包括以下步骤:
步骤1.1、对于多天线多小区下行传输场景,M个基站均采用TDD模式,并配置具有V根天线的平面天线阵列,所有基站均支持波束成形,每个基站覆盖一个小区;在覆盖区域内,N个用户随机分布且均配置单根全向天线,每个用户仅与一个基站进行关联,所有小区和用户采用相同的时频资源;
步骤1.2、基站集为
Figure BDA0003057560570000031
用户集为
Figure BDA0003057560570000032
每个基站的服务用户集为
Figure BDA0003057560570000033
并且基站服务用户集之间不存在相同用户;
步骤1.3、第n个用户关联到第m个基站上,该用户的接收信号yn可表达成下式:
Figure BDA0003057560570000034
其中,yn和zn分别表示第n个用户的接收信号和噪声,zn满足均值为0,方差为σ2的复高斯分布,σ2为噪声功率;sj,sk分别表示第j个和第k个用户的发射信号,均满足均值为0,方差为1的复高斯分布,
Figure BDA0003057560570000035
pn,pk,pj分别为第n个、第k个和第j个用户的下行传输功率,
Figure BDA0003057560570000036
Figure BDA0003057560570000037
wm,n为第m个基站和第n个用户之间的信道矢量的转置和预编码矢量,
Figure BDA0003057560570000038
Figure BDA0003057560570000039
wm,n由hm,n确定,且满足wm,n=g(hm,n),g为预编码函数;
Figure BDA00030575605700000310
表示去除第m个基站的基站集;
Figure BDA00030575605700000311
表示去除第n个用户的第m个基站用户集;
步骤1.4、建模成函数h(x,θ),其中h表示基站与用户间的信道矢量,x表示用户位置,θ表示基站工程参数;
Figure BDA0003057560570000041
其中,x=[x,y,z]T为用户相对于基站的位置坐标,θ=[Γ,Υ]T为基站工程参数,Γ,Υ分别是基站的方位角和下倾角;L为散射路径数目,αl和ψl分别为第l条路径的复增益(包含幅度和相位)和方向;αl和ψl均受用户位置x和基站工程参数θ的影响。a为天线阵列导引矢量,Λ为天线单元空间响应;
步骤1.5、第n个用户与第m个基站关联,同时第j个用户与第i个基站关联,定义第n个用户接收到第j个用户干扰信号的强度与其有用信号的比值是波束碰撞参数βn,j;当波束碰撞参数βn,j大于预设阈值ε时,波束碰撞事件发生:
Figure BDA0003057560570000042
其中,Pcollision表示波束碰撞事件的概率,P表示概率,pn和pj分别表示第n个用户和第j个用户的下行传输功率,hi,n和hm,n分别为第i个基站和第n个用户之间的信道矢量和第m个基站和第n个用户之间的信道矢量,wi,j和wm,n分别为第i个基站和第j个用户之间的预编码矢量和第m个基站以及第n个用户之间的预编码矢量;H表示转置变换,ε为预设的波束碰撞参数的阈值;
步骤1.6、通过优化基站簇工程参数Θ以避免波束碰撞;波束碰撞参数βn,j会受到用户位置分布X和基站簇工程参数Θ的影响,
Figure BDA0003057560570000043
定义平均总波束碰撞参数
Figure BDA0003057560570000044
计算公式如下:
Figure BDA0003057560570000051
其中,X=[x1,x2,...,xN]T,Θ=[θ12,...,θM]T,E{βn,j|X,Θ}表示给定用户位置分布X和基站簇工程参数Θ条件下的波束碰撞参数βn,j的平均值;
步骤1.7、建立关于基站簇工程参数Θ的最小化平均总碰撞参数
Figure BDA0003057560570000059
的优化问题,具体如下:
Figure BDA0003057560570000052
Figure BDA0003057560570000053
其中,
Figure BDA0003057560570000054
表示基于基站簇工程参数的最小化平均总碰撞参数
Figure BDA0003057560570000055
的优化问题,s.t.Θ表示基站簇工程参数的约束条件,
Figure BDA0003057560570000056
为基站簇工程参数Θ的可行范围。
进一步的,步骤2中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题包括以下步骤:
步骤2.1基于步骤1中所述的多天线多小区下行通信系统模型,当第n个用户关联到第m个基站时,其信干噪比γn的计算公式如下:
Figure BDA0003057560570000057
其中,pk表示第k个用户的下行传输功率。
步骤2.2、定义波束碰撞事件以及波束碰撞参数,当前用户信干噪比γn的倒数可近似表达成下式:
Figure BDA0003057560570000058
步骤2.3、根据香农容量定理,推导出波束碰撞参数βn,j与当前用户频谱效率Rn之间的关系,表达式如下:
Figure BDA0003057560570000061
波束碰撞参数和频谱效率之间存在负相关关系,即当波束碰撞程度增加时,系统中波束干扰增强,频谱效率降低,网络性能下降;
步骤2.4、信干噪比和频谱效率根据基站与用户间的波束域信道信息进行计算,使基站在下行数据传输开始之前进行波束扫描以感知用户信道,
具体计算方式如下:
Figure BDA0003057560570000062
其中,D为波束扫描码本,DH为码本的转置变换,满足
Figure BDA0003057560570000063
Figure BDA0003057560570000064
Di为D的第i行,即表示波束码本中的第i个波束,1≤i≤S,S为码书维度;波束域信道信息
Figure BDA0003057560570000065
为基站与用户间的信道矢量h在不同波束上的投影值,可表达成
Figure BDA0003057560570000066
根据上式可知,信干噪比可由波束域信道信息确定;根据香农公式可知,频谱效率由波束域信道信息确定;
步骤2.5、定义平均频谱效率
Figure BDA0003057560570000067
具体表达式如下:
Figure BDA0003057560570000068
其中,
Figure BDA0003057560570000071
表示给定用户位置分布X和基站簇工程参数Θ下的频谱效率Rn的平均值;
平均频谱效率
Figure BDA00030575605700000719
和波束域统计信息
Figure BDA0003057560570000072
之间的映射关系:
Figure BDA0003057560570000073
其中,f表示平均频谱效率
Figure BDA00030575605700000720
与波束域统计信道信息
Figure BDA0003057560570000074
之间的映射;
Figure BDA0003057560570000075
是指给定用户位置分布X和基站簇工程参数Θ下的波束域统计信道信息,
Figure BDA0003057560570000076
Figure BDA0003057560570000077
表示第m个基站与第n个用户之间的波束域统计信道信息,M与N分别是基站的总数目和用户的总数目。
Figure BDA0003057560570000078
Figure BDA0003057560570000079
表示基于用户位置分布X和基站簇工程参数Θ下的波束域信道信息的变换
Figure BDA00030575605700000710
的平均值,E{·}表示期望,1≤s≤S;
步骤2.6、结合波束碰撞参数与频谱效率的负相关关系以及平均频谱效率和波束域统计信息之间的映射关系,将步骤一中建立的最小化平均总波束碰撞参数的原始优化问题转变成基于波束域统计信道信息最大化平均频谱效率的优化问题,具体如下:
Figure BDA00030575605700000711
Figure BDA00030575605700000712
其中,
Figure BDA00030575605700000713
表示基于基站簇工程参数Θ的平均频谱效率
Figure BDA00030575605700000714
的最大化问题,
Figure BDA00030575605700000715
指的是波束域统计信道信息
Figure BDA00030575605700000716
的映射函数,s.t.Θ表示基站簇工程参数Θ的约束条件。
Figure BDA00030575605700000717
通过统计一段时间内系统速率的平均值得到,
Figure BDA00030575605700000718
通过统计波束域参考信号的接收强度得到。
进一步的,步骤3中建立的马尔科夫决策过程模型如下:
在强化学习框架下,将步骤1中所述的多天线多小区下行通信系统当作环境,基站簇当作智能体,并将基站工程簇参数的调优过程建模成马尔科夫决策过程模型;
其中根据步骤3中所述的优化问题设计的状态、动作以及奖励函数具体如下:
状态:定义所有用户的服务小区和相应邻区对应的全部波束域统计信道信息
Figure BDA0003057560570000081
和其变换形式
Figure BDA0003057560570000082
作为马尔科夫决策过程模型的状态s,
Figure BDA0003057560570000083
ξ表示变换;
动作:定义基站簇工程参数Θ或其变换形式ζ(Θ)为马尔科夫决策过程模型的动作a,a=ζ(Θ),ζ表示变换;
奖励:定义平均频谱效率
Figure BDA00030575605700000810
和相关性能指标
Figure BDA0003057560570000084
作为马尔科夫决策过程模型的奖励r,
Figure BDA0003057560570000085
Figure BDA0003057560570000086
表示变换。
进一步的,步骤4所述的基于深度强化学习的基站簇工程参数优化算法的实现过程包括如下步骤:
步骤4.1初始化深度强化学习网络权重及其算法超参数,将算法作用于智能体,使其与步骤一所述的无线通信环境进行若干轮次的交互;
步骤4.2、在每个交互轮次开始时,初始化基站簇工程参数Θ=Θ0,并且在每个交互轮次中设计时间步;
步骤4.3、在每个时间步更迭时,智能体采集波束域统计信道信息
Figure BDA0003057560570000087
并输入深度强化学习网络,然后根据深度强化学习网络的输出调整基站簇工程参数Θ;
步骤4.4当无线通信环境再次达到稳定时,智能体对环境中新的波束域信道信息
Figure BDA0003057560570000088
以及网络性能指标
Figure BDA0003057560570000089
进行测量,并将基站簇工程参数Θ调整前的状态
Figure BDA0003057560570000091
基站簇工程参数Θ调整后的状态
Figure BDA0003057560570000092
动作a=ζ(Θ)以及奖励函数
Figure BDA0003057560570000093
缓存到一个经验数据库Ω中;与此同时,深度强化学习网络从经验数据库Ω中随机抽取批量数据
Figure BDA0003057560570000094
进行神经网络的训练;
步骤4.5、重复以上交互过程,直到深度强化学习算法收敛以及网络性能指标
Figure BDA0003057560570000095
达到稳定;记录此时的基站簇最优工程参数配置Θ*以及最优的网络性能指标
Figure BDA0003057560570000096
本发明的一种基于深度强化学习的智能通信波束碰撞避免方法具有以下优点:
1、本发明提供了波束碰撞事件的明确定义,并推导出波束碰撞与波束干扰以及网络性能之间的关系,将最小化平均总波束碰撞参数的优化问题转化成最大化平均频谱效率的优化问题,降低了波束碰撞避免的实现难度;
2、本发明利用波束域信道信息和深度强化学习框架实现基站簇工程参数的自动化调整,从而智能且高效地找到当前网络中的最优基站簇工程参数配置,实现了波束碰撞的自适应避免,并获得较高的网络平均性能;
附图说明
图1为本发明基于深度强化学习的智能通信波束碰撞避免方法流程图;
图2为本发明多天线多小区下行通信系统拓扑示意图。
图3为本发明设计的马尔科夫决策过程建模示意图;
图4为本发明设计的基于深度强化学习的基站簇工程参数调优的训练曲线图;
图5为本发明设计的基于深度强化学习的基站簇工程参数调优的测试曲线图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于深度强化学习的智能通信波束碰撞避免方法做进一步详细的描述。
本发明所提出的一种基于深度强化学习的智能通信波束碰撞避免方法将结合具体实施例进行详细描述,整体方法流程图如图1所示。
步骤一:构建多天线多小区下行通信系统模型,定义波束碰撞事件以及波束碰撞参数,并建立关于基站簇工程参数的最小化平均总波束碰撞参数的原始优化问题。
本发明实施例的通信场景如图2所示,其对应紫金山园区的真实下行双基站场景。两个基站均采用TDD模式,并且采用8×4的均匀平面阵进行传输,载频为2GHz,工作带宽为100MHz。两基站均支持全数字波束成形,每个基站覆盖一个小区。以正东方向为x轴正方向,正北方向为y轴正方向,z轴垂直向上构建坐标系,两个基站的坐标分别为(13.72m,95.8m,21.17m)和(89.83m,144.73m,21.18m)。基站方位角Γ为天线阵列法线与xOz平面的夹角,向北为正,向南为负;基站下倾角Υ为天线阵列法线与xOy平面的夹角,向上为正,向下为负。在基站覆盖区域内分布着高楼建筑以及多条道路。其中,111个配置单根全向天线的用户在区域A1与A2上等间隔取点。用户坐标为(x,y,z),其中在区域A1内的用户坐标集合为{(x,y)|41.88≤x≤46.44,0≤y≤73.4},取点间隔为2m;区域A2内的用户坐标集合为{(x,y)|13.71≤x≤46.34,121.65≤y≤138.85},取点间隔为4m。所有用户的高度z均为1.5m。在最大接收功率关联准则下,每个用户仅与一个基站进行关联。所有小区和用户采用相同的时频资源。两基站总下行传输功率设置为1W,各基站将总下行传输功率平均分配给关联的各个用户。定义基站集为
Figure BDA0003057560570000111
用户集为
Figure BDA0003057560570000112
每个基站的服务用户集为
Figure BDA0003057560570000113
并且满足
Figure BDA0003057560570000114
Figure BDA0003057560570000115
的关系。
当第n个用户关联到第m个基站上,则该用户的接收信号yn可表达成下式:
Figure BDA0003057560570000116
其中,yn和zn分别表示第n个用户的接收信号和噪声,zn满足均值为0,方差为σ2的复高斯分布,σ2为噪声功率;sj,sk分别表示第j个和第k个用户的发射信号,均满足均值为0,方差为1的复高斯分布,
Figure BDA0003057560570000117
pn,pk,pj分别为第n个、第k个和第j个用户的下行传输功率,
Figure BDA0003057560570000118
Figure BDA0003057560570000119
为第m个基站和第n个用户之间的信道矢量的转置和预编码矢量,
Figure BDA00030575605700001110
Figure BDA00030575605700001111
wm,n由hm,n确定;
Figure BDA00030575605700001112
表示去除第m个基站的基站集;
Figure BDA00030575605700001113
表示去除第n个用户的第m个基站用户集;
特别地,本发明实施例中采用最大比传输(MRT)预编码,
Figure BDA00030575605700001114
其中||hm,n||为信道矢量hm,n的模。
鉴于基站与用户间的信道矢量h与用户位置x与基站工程参数θ密切相关,故可将其建模成二者的函数h(x,θ)。
Figure BDA00030575605700001115
其中,x=[x,y,z]T为用户相对于基站的位置坐标,θ=[Γ,Υ]T为基站工程参数,Γ,Υ分别是基站的方位角和下倾角。L为散射路径数目,αl和ψl分别为第l条路径的复增益(包含幅度和相位)和方向。L,αl和ψl均受用户位置x和基站工程参数θ的影响。a为天线阵列导引矢量,Λ为天线单元空间响应。
特别地,在本发明实施例中,路径数目L为5,第l条散射路径的方向
Figure BDA0003057560570000121
其中
Figure BDA0003057560570000122
Figure BDA0003057560570000123
分别为第l条散射路径的相对方位角和相对下倾角,
Figure BDA0003057560570000124
和φl(x)是第l条散射路径的方位角和下倾角。第l条散射路径的复增益αl(x),方位角
Figure BDA0003057560570000125
和下倾角φl(x)根据用户位置x和实际场景环境决定。
天线阵列采用半波长均匀平面阵,天线阵列导引矢量a的计算方式如下:
Figure BDA0003057560570000126
其中,W,H表示天线阵列的水平方向和垂直方向的阵元个数,0≤m<W,0≤n<H。特别地,本发明实施例中,W=8,H=4。
天线单元采用三维定向天线模型,天线单元空间响应Λ的计算方式如下:
Figure BDA0003057560570000127
其中,
Figure BDA0003057560570000128
φ3dB分别表示水平3dB波束宽度和垂直3dB波束宽度。Am为旁瓣衰减增益,Am=30dB。GE为主瓣最大方向增益,GE=8dBi。特别地,在本发明实施例中,
Figure BDA0003057560570000129
φ3dB=65°。
假设第n个用户与第m个基站关联,同时第j个用户与第i个基站关联,定义第n个用户接收到第j个用户干扰信号的强度与其有用信号的比值是波束碰撞参数βn,j;当波束碰撞参数βn,j大于预设阈值ε时,波束碰撞事件发生。
Figure BDA00030575605700001210
其中,Pcollision表示波束碰撞事件的概率,P表示概率,pn和pj分别表示第n个用户和第j个用户的下行传输功率,hi,n和hm,n分别为第i个基站和第n个用户之间的信道矢量和第m个基站和第n个用户之间的信道矢量,wi,j和wm,n分别为第i个基站和第j个用户之间的预编码矢量和第m个基站以及第n个用户之间的预编码矢量;H表示转置变换,ε为预设的波束碰撞参数的阈值;
由于波束碰撞参数βn,j
Figure BDA0003057560570000131
会受到用户位置分布X和基站簇工程参数Θ的影响,故在给定用户位置分布X的条件下,可通过优化基站簇工程参数Θ的方式,有效避免波束碰撞。考虑到实际通信网络优化中基站簇工程参数Θ的调整时间远大于信道相关时间,故定义平均总波束碰撞参数
Figure BDA0003057560570000132
具体计算公式如下:
Figure BDA0003057560570000133
其中,X=[x1,x2,...,xN]T,Θ=[θ12,...,θM]T,E{βn,j|X,Θ}表示给定用户位置分布X和基站簇工程参数Θ条件下的波束碰撞参数βn,j的平均值。
建立关于基站簇工程参数Θ的最小化平均总碰撞参数
Figure BDA0003057560570000134
的优化问题,具体如下:
Figure BDA0003057560570000135
s.t.Γm,min≤Γm≤Γm,max
Υm,min≤Υm≤Υm,max
1≤m≤M
其中,θm=[Γmm]第m个基站的基站簇工程参数,包含方位角Γm和下倾角Υm,Γm,minm,max分别是第m个基站的方位角的最小值和最大值,Υm,minm,max分别是第m个基站的下倾角的最小值和最大值。
步骤二:为解决波束碰撞参数无法直接获得且原始优化问题难以求解的问题,根据波束碰撞参数和波束域信道信息与信干噪比以及频谱效率的关系,将步骤一中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题。
基于步骤一中所述的多天线多小区下行通信系统模型,当第n个用户关联到第m个基站时,其信干噪比的计算公式如下:
Figure BDA0003057560570000141
其中,pk为第k个用户的下行传输功率。
一方面,随着天线阵列数目的增加与网络的密集化部署,噪声功率σ2对有用信号的影响远小于干扰信号对其产生的影响。因此,根据步骤一中定义的波束碰撞事件以及波束碰撞参数,当前用户信干噪比γn的倒数可近似表达成下式:
Figure BDA0003057560570000142
根据香农容量定理,进一步推导出波束碰撞参数β与当前用户的频谱效率Rn之间的关系,其表达式如下:
Figure BDA0003057560570000143
根据上式可知,波束碰撞参数和频谱效率之间存在负相关关系,即当波束碰撞程度增加时,系统中波束干扰增强,频谱效率降低,网络性能下降。
另一方面,鉴于基站需要在下行数据传输开始之前进行波束扫描以感知用户信道,因此频谱效率可根据基站与用户间的波束域信道进行计算,具体计算方式如下:
Figure BDA0003057560570000151
其中,D为波束扫描码本,DH为码本的转置变换,满足
Figure BDA0003057560570000152
Figure BDA0003057560570000153
Di为D的第i行,即表示波束码本中的第i个波束,1≤i≤S,S为码书维度;
特别地,本实施例中D采用二维傅里叶矩阵,
Figure BDA0003057560570000154
Figure BDA0003057560570000155
Figure BDA0003057560570000156
故S=W×H。
波束域信道信息
Figure BDA0003057560570000157
为基站与用户间的信道矢量h在不同波束上的投影值,可表达成
Figure BDA0003057560570000158
由于本实施例采用MRT预编码矢量,故
Figure BDA0003057560570000159
其中||hi,j||是信道矢量hi,j的模值。因此,当前用户的频谱效率Rn可进一步表达为下式:
Figure BDA00030575605700001510
根据信干噪比和频谱效率的计算公式可知,二者均可由波束域信道信息确定。
考虑到实际通信网络优化中瞬时波束域信道信息难以获得且基站簇工程参数的调节时间远大于信道相关时间,故定义平均频谱效率
Figure BDA0003057560570000161
以表征系统的平均性能,表达式如下:
Figure BDA0003057560570000162
其中,
Figure BDA0003057560570000163
表示给定用户位置分布X和基站簇工程参数Θ下的频谱效率Rn的平均值,E{·}表示期望,N为用户数目。由于频谱效率可由波束域信道信息确定,故可得平均频谱效率
Figure BDA0003057560570000164
和波束域统计信息
Figure BDA0003057560570000165
之间的映射关系:
Figure BDA0003057560570000166
其中,f表示平均频谱效率
Figure BDA00030575605700001614
与波束域统计信道信息
Figure BDA0003057560570000167
之间的映射;
Figure BDA0003057560570000168
是指给定用户位置分布X和基站簇工程参数Θ下的波束域统计信道信息,
Figure BDA0003057560570000169
Figure BDA00030575605700001610
表示第m个基站与第n个用户之间的波束域统计信道信息,M与N分别是基站的总数目和用户的总数目。
Figure BDA00030575605700001611
Figure BDA00030575605700001612
表示基于用户位置分布X和基站簇工程参数Θ下的波束域信道信息的变换
Figure BDA00030575605700001613
的平均值,E{·}表示期望,1≤s≤S;
特别地,在本发明实施例中,考虑到第五代无线通信系统中采用参考信号接收功率(RSRP)作为波束测量和波束上报的重要参数,故利用平均RSRP值作为用户侧的波束域统计信道信息,表达式如下:
Figure BDA0003057560570000171
其中,pBT为基站波束扫描阶段的基站发射功率,pBT=1W。
Figure BDA0003057560570000172
表示波束域信道信息
Figure BDA0003057560570000173
的模。因此,波束域统计信道信息可表示为
Figure BDA0003057560570000174
针对波束碰撞参数不能直接获得以及原始优化问题难以求解的问题,结合波束碰撞参数与频谱效率的负相关关系以及平均频谱效率和波束域统计信息之间的映射关系,可将步骤一中建立的最小化平均总波束碰撞参数的原始优化问题转变成基于波束域统计信道信息最大化平均频谱效率的优化问题,具体如下:
Figure BDA0003057560570000175
Figure BDA0003057560570000176
其中,
Figure BDA0003057560570000177
表示基于基站簇工程参数Θ的平均频谱效率
Figure BDA0003057560570000178
的最大化问题,
Figure BDA0003057560570000179
指的是波束域统计信道信息
Figure BDA00030575605700001710
的映射函数,s.t.Θ表示基站簇工程参数Θ的约束条件。
Figure BDA00030575605700001711
通过统计一段时间内系统速率的平均值得到,
Figure BDA00030575605700001712
通过统计波束域参考信号的接收强度得到,
Figure BDA00030575605700001713
特别地,在本发明实施例中,基站簇工程参数可表示成Θ=[θ12,...,θM]T,且每个基站采用方位角Γ和下倾角Υ作为可调工程参数θ,故上述优化问题可重述成:
Figure BDA00030575605700001714
s.t.Γm,min≤Γm≤Γm,max
Υm,min≤Υm≤Υm,max
1≤m≤M
步骤三:针对步骤二中所述的优化问题,在强化学习框架下,将多天线多小区下行通信系统当作环境,基站簇当作智能体,并将基站簇工程参数Θ的调优过程建模成马尔科夫决策过程(MDP),然后对其状态、动作以及奖励函数进行具体设计。
特别地,在本发明实施例中,基站簇工程参数Θ的MDP调优过程如图3所示,其中状态、动作以及奖励函数的具体设计如下:
1)状态:定义所有用户的服务小区和相应邻区的所有波束对应的平均RSRP的总和作为MDP的状态s。
s=[s1,1,s1,2,...,sM,1,sM,2]
Figure BDA0003057560570000181
其中,sm,1表示第m个基站的服务小区的所有波束对应的平均RSRP的总和,sm,2表示第m个基站的所有邻区的所有波束对应的平均RSRP的总和,
Figure BDA0003057560570000182
因此,状态空间维度为2M。为确保后期的深度强化学习算法的网络收敛和性能稳定,本发明实施例对状态量进行预处理,将RSRP由实值换算成dB值,并塑形到(0,1)之间。
2)动作:定义优化变量基站工程参数θ的调整量Δθ作为MDP的动作a。
a=[a1,a2,...,aM]
am=Δθ=[ΔΓm,ΔΥm]
应注意的是,每次动作调整幅度不能过大,要保证调整前后的基站工程参数θ仍符合真实通信环境中的合理取值范围。对于本发明实施例中的两个基站,基站BS1的方位角和下倾角的合理取值范围分别为-30°≤Γ1≤90°,-40°≤Υ1≤-20°,基站BS2的方位角和下倾角的合理取值范围分别为-180°≤Γ2≤-120°,-30°≤Υ2≤-10°。基站BS1和BS2的工程参数调整量相互独立,且最大调整量分别是
Figure BDA0003057560570000183
3)奖励:定义环境更新前后的平均频谱效率
Figure BDA0003057560570000191
的差值作为MDP的奖励r,表达式如下:
Figure BDA0003057560570000192
步骤四:基于步骤三所述强化学习框架,利用深度强化学习算法,在基站簇与无线通信环境的交互下,根据波束域统计信道信息进行基站簇工程参数的自适应调整,避免波束碰撞,提高频谱效率。
进一步地,基于深度强化学习的智能通信波束碰撞避免方法的流程如下:
首先初始化深度强化学习网络权重及其算法超参数,将算法作用于智能体(基站簇),使其与步骤一所述的无线通信环境进行若干轮次的交互。在每个交互轮次开始时,初始化基站簇工程参数Θ=Θ0,并且在每个交互轮次中设计一定数目的时间步。在每个时间步更迭时,智能体采集平均RSRP信息
Figure BDA0003057560570000193
并输入深度强化学习网络,然后根据深度强化学习网络的输出相应调整基站簇工程参数Θ。当无线通信环境再次达到稳定时,智能体对环境中新的平均RSRP信息
Figure BDA0003057560570000194
以及性能指标
Figure BDA0003057560570000195
进行测量,并将基站簇工程参数Θ调整前后的平均RSRP信息
Figure BDA0003057560570000196
Figure BDA0003057560570000197
基站簇工程参数调整值ΔΘ以及相应的性能指标
Figure BDA0003057560570000198
缓存到一个经验数据库Ω中。与此同时,深度强化学习网络从经验数据库Ω中随机抽取批量数据
Figure BDA0003057560570000199
进行神经网络的训练。重复以上交互过程,直到深度强化学习算法收敛。记录此时的最优基站簇工程参数配置Θ*以及最优的平均频谱效率
Figure BDA00030575605700001911
特别地,在本发明实施例中,采用基于Actor-Critic架构的深度确定性策略梯度(DDPG)算法进行基站簇工程参数Θ的自适应调整。对于每个交互轮次,当时间步t开始后,环境中的平均RSRP信息
Figure BDA00030575605700001910
被输入到Actor神经网络中,在随机噪声的辅助下,该网络做出智能决策并输出基站簇工程参数调整值ΔΘ。然后,时间步变化为t′,环境发生更新。观测环境稳定后的性能指标
Figure BDA0003057560570000201
和新的平均RSRP信息
Figure BDA0003057560570000202
并利用Critic神经网络估计
Figure BDA0003057560570000203
和当前基站簇工程参数调整值ΔΘ′的值函数
Figure BDA0003057560570000204
然后结合
Figure BDA0003057560570000205
以更新Critic网络。最后,按照Critic网络的策略方向更新Actor网络。该过程不断循环,直到Actor网络收敛。
其中,DDPG算法的软更新参数为0.001,折扣因子为0.9,批次样本数为32,经验池大小为10000,训练交互轮次数目为1000。每个交互轮次的时间步数目为10。在网络结构方面,Actor网络隐含层结构为[256,128,64,32],输入层和输出层神经元数分别为128和4,输出层激活函数为Tanh,而Critic网络隐含层结构为[256,256,256,256],输入层神经元数分别为128和4,输出层神经元数为257,输出层激活函数为Linear。两种网络其余参数相同,学习率为0.0001,隐含层激活函数为ReLU,优化器为Adam。
在基站BS1的初始方位角和下倾角分别为θ10=[Γ10=30°,Υ10=-30°],基站BS2的初始方位角和下倾角θ20=[Γ20=-150°,Υ20=-20°],对应的初始平均频谱效率为3.3232bps/Hz的情况下,经过对DDPG算法充分训练,网络收敛且系统性能稳定,训练曲线图和测试曲线图分别如图4和图5所示。将收敛完全后的算法在测试阶段的最大平均频谱效率对应的基站簇工程参数Θ*作为最终的优化结果。因此,基站BS1的最优方位角和下倾角分别为
Figure BDA0003057560570000206
基站BS2的最优方位角和下倾角分别是
Figure BDA0003057560570000207
最优平均频谱效率为4.497bps/Hz。因此,该优化算法可平均频谱效率提升超过1bps/Hz。
本发明提供出波束碰撞的明确定义,而且将复杂的波束碰撞避免问题转换成容易求解的最大化平均频谱效率的优化问题。在波束域信道信息的辅助下,利用深度强化学习自适应地调整基站簇工程参数,低复杂度地且智能化地改善网络平均性能并实现有效避免波束碰撞的有效避免。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (2)

1.一种基于深度强化学习的智能通信波束碰撞避免方法,其特征在于,包括以下步骤:
步骤1、构建多天线多小区下行通信系统模型,定义波束碰撞事件以及波束碰撞参数,建立关于基站簇工程参数的最小化平均总波束碰撞参数的原始优化问题;
步骤2、根据波束碰撞参数和波束域信道信息与信干噪比以及频谱效率的关系,将步骤1中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题;
步骤3、针对步骤2中所述的优化问题,在强化学习的框架下,将多天线多小区下行通信系统当作环境,基站簇当作智能体,并将基站簇工程参数的调优过程建模成马尔科夫决策过程,然后对其状态、动作以及奖励函数进行设计;
步骤4、基于步骤3所述强化学习框架,利用深度强化学习算法,在基站簇与无线通信环境的交互下,根据波束域统计信道信息进行基站簇工程参数的自适应调整,避免波束碰撞,提高平均频谱效率;
所述步骤1中基于多天线多小区下行通信系统模型建立最小化平均总波束碰撞参数的原始优化问题包括以下步骤:
步骤1.1、对于多天线多小区下行传输场景,M个基站均采用TDD模式,并配置具有V根天线的平面天线阵列,所有基站均支持波束成形,每个基站覆盖一个小区;在覆盖区域内,N个用户随机分布且均配置单根全向天线,每个用户仅与一个基站进行关联,所有小区和用户采用相同的时频资源;
步骤1.2、基站集为
Figure FDA0003479209760000011
用户集为
Figure FDA0003479209760000012
每个基站的服务用户集为
Figure FDA0003479209760000013
并且基站服务用户集之间不存在相同用户;
步骤1.3、第n个用户关联到第m个基站上,该用户的接收信号yn可表达成下式:
Figure FDA0003479209760000021
其中,yn和zn分别表示第n个用户的接收信号和噪声,zn满足均值为0,方差为σ2的复高斯分布,σ2为噪声功率;sj,sk分别表示第j个和第k个用户的发射信号,均满足均值为0,方差为1的复高斯分布,
Figure FDA0003479209760000022
pn,pk,pj分别为第n个、第k个和第j个用户的下行传输功率,
Figure FDA0003479209760000023
Figure FDA0003479209760000024
wm,n为第m个基站和第n个用户之间的信道矢量的转置和预编码矢量,
Figure FDA0003479209760000025
Figure FDA0003479209760000026
wm,n由hm,n确定,且满足wm,n=g(hm,n),g为预编码函数;
Figure FDA0003479209760000027
表示去除第m个基站的基站集;
Figure FDA0003479209760000028
表示去除第n个用户的第m个基站用户集;
步骤1.4、建模成函数h(x,θ),其中h表示基站与用户间的信道矢量,x表示用户位置,θ表示基站工程参数;
Figure FDA0003479209760000029
其中,x=[x,y,z]T为用户相对于基站的位置坐标,θ=[Γ,Υ]T为基站工程参数,Γ,Υ分别是基站的方位角和下倾角;L为散射路径数目,αl为第l条路径的复增益,其中复增益包含幅度和相位,ψl为第l条路径的方向;αl和ψl均受用户位置x和基站工程参数θ的影响;a为天线阵列导引矢量,Λ为天线单元空间响应;
步骤1.5、第n个用户与第m个基站关联,同时第j个用户与第i个基站关联,定义第n个用户接收到第j个用户干扰信号的强度与其有用信号的比值是波束碰撞参数βn,j;当波束碰撞参数βn,j大于预设阈值ε时,波束碰撞事件发生:
Figure FDA0003479209760000031
其中,Pcollision表示波束碰撞事件的概率,P表示概率,pn和pj分别表示第n个用户和第j个用户的下行传输功率,hi,n和hm,n分别为第i个基站和第n个用户之间的信道矢量和第m个基站和第n个用户之间的信道矢量,wi,j和wm,n分别为第i个基站和第j个用户之间的预编码矢量和第m个基站以及第n个用户之间的预编码矢量;H表示转置变换,ε为预设的波束碰撞参数的阈值;
步骤1.6、通过优化基站簇工程参数Θ以避免波束碰撞;波束碰撞参数βn,j会受到用户位置分布X和基站簇工程参数Θ的影响,
Figure FDA0003479209760000032
定义平均总波束碰撞参数
Figure FDA0003479209760000033
计算公式如下:
Figure FDA0003479209760000034
其中,X=[x1,x2,...,xN]T,Θ=[θ12,...,θM]T,E{βn,j|X,Θ}表示给定用户位置分布X和基站簇工程参数Θ条件下的波束碰撞参数βn,j的平均值;
步骤1.7、建立关于基站簇工程参数Θ的最小化平均总碰撞参数
Figure FDA0003479209760000035
的优化问题,具体如下:
Figure FDA0003479209760000036
Figure FDA0003479209760000037
其中,
Figure FDA0003479209760000038
表示基于基站簇工程参数的最小化平均总碰撞参数
Figure FDA0003479209760000039
的优化问题,s.t.Θ表示基站簇工程参数的约束条件,
Figure FDA00034792097600000310
为基站簇工程参数Θ的可行范围;
所述步骤2中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题包括以下步骤:
步骤2.1基于步骤1中所述的多天线多小区下行通信系统模型,当第n个用户关联到第m个基站时,其信干噪比的计算公式如下:
Figure FDA0003479209760000041
其中,pk为第k个用户的下行传输功率;
步骤2.2、定义波束碰撞事件以及波束碰撞参数,当前用户信干噪比γn的倒数可近似表达成下式:
Figure FDA0003479209760000042
步骤2.3、根据香农容量定理,推导出波束碰撞参数βn,j与当前用户频谱效率Rn之间的关系,表达式如下:
Figure FDA0003479209760000043
波束碰撞参数和频谱效率之间存在负相关关系,即当波束碰撞程度增加时,系统中波束干扰增强,频谱效率降低,网络性能下降;
步骤2.4、信干噪比和频谱效率根据基站与用户间的波束域信道信息进行计算,使基站在下行数据传输开始之前进行波束扫描以感知用户信道,
具体计算方式如下:
Figure FDA0003479209760000051
其中,D为波束扫描码本,DH为码本的转置变换,满足
Figure FDA0003479209760000052
Figure FDA0003479209760000053
Di为D的第i行,即表示波束码本中的第i个波束,1≤i≤S,S为码书维度;波束域信道信息
Figure FDA0003479209760000054
为基站与用户间的信道矢量h在不同波束上的投影值,可表达成
Figure FDA0003479209760000055
根据上式可知,信干噪比可由波束域信道信息确定;根据香农公式可知,频谱效率由波束域信道信息确定;
步骤2.5、定义平均频谱效率
Figure FDA0003479209760000056
具体表达式如下:
Figure FDA0003479209760000057
其中,
Figure FDA0003479209760000058
表示给定用户位置分布X和基站簇工程参数Θ下的频谱效率Rn的平均值;
平均频谱效率R和波束域统计信息H之间的映射关系:
Figure FDA0003479209760000059
其中,f表示平均频谱效率
Figure FDA00034792097600000510
与波束域统计信道信息H之间的映射;H(X,Θ)是指给定用户位置分布X和基站簇工程参数Θ下的波束域统计信道信息,H=[h1,1,h1,2,...,hM,N],hm,n表示第m个基站与第n个用户之间的波束域统计信道信息,M与N分别是基站的总数目和用户的总数目;
Figure FDA00034792097600000511
Figure FDA0003479209760000061
表示基于用户位置分布X和基站簇工程参数Θ下的波束域信道信息的变换
Figure FDA0003479209760000062
的平均值,E{·}表示期望,1≤s≤S;
步骤2.6、结合波束碰撞参数与频谱效率的负相关关系以及平均频谱效率和波束域统计信息之间的映射关系,将步骤一中建立的最小化平均总波束碰撞参数的原始优化问题转变成基于波束域统计信道信息H最大化平均频谱效率
Figure FDA0003479209760000063
的优化问题,具体如下:
Figure FDA0003479209760000064
Figure FDA0003479209760000065
其中,
Figure FDA0003479209760000066
表示基于基站簇工程参数Θ的平均频谱效率
Figure FDA0003479209760000067
的最大化问题,f(H)指的是波束域统计信道信息H的映射函数,s.t.Θ表示基站簇工程参数Θ的约束条件;
Figure FDA0003479209760000068
通过统计一段时间内系统速率的平均值得到,H通过统计波束域参考信号的接收强度得到;
所述步骤4所述的基于深度强化学习的基站簇工程参数优化算法的实现过程包括如下步骤:
步骤4.1初始化深度强化学习网络权重及其算法超参数,将算法作用于智能体,使其与步骤一所述的无线通信环境进行若干轮次的交互;
步骤4.2、在每个交互轮次开始时,初始化基站簇工程参数Θ=Θ0,并且在每个交互轮次中设计时间步;
步骤4.3、在每个时间步更迭时,智能体采集波束域统计信道信息H并输入深度强化学习网络,然后根据深度强化学习网络的输出调整基站簇工程参数Θ;
步骤4.4当无线通信环境再次达到稳定时,智能体对环境中新的波束域信道信息H'以及网络性能指标
Figure FDA0003479209760000069
进行测量,并将基站簇工程参数Θ调整前的状态s=ξ(H)、基站簇工程参数Θ调整后的状态s'=ξ(H')、动作a=ζ(Θ)以及奖励函数
Figure FDA0003479209760000071
缓存到一个经验数据库Ω中;与此同时,深度强化学习网络从经验数据库Ω中随机抽取批量数据进行神经网络的训练;
步骤4.5、重复以上交互过程,直到深度强化学习算法收敛以及网络性能指标
Figure FDA0003479209760000072
达到稳定;记录此时的基站簇最优工程参数配置Θ*以及最优的网络性能指标
Figure FDA0003479209760000073
2.根据权利要求1所述的基于深度强化学习的智能通信波束碰撞避免方法,其特征在于,步骤3中建立的马尔科夫决策过程模型如下:
在强化学习框架下,将步骤1中所述的多天线多小区下行通信系统当作环境,基站簇当作智能体,并将基站工程簇参数的调优过程建模成马尔科夫决策过程模型;
其中根据步骤3中所述的优化问题设计的状态、动作以及奖励函数具体如下:
状态:定义所有用户的服务小区和相应邻区对应的全部波束域统计信道信息H和其变换形式ξ(H)作为马尔科夫决策过程模型的状态s,s=ξ(H),ξ表示变换;
动作:定义基站簇工程参数Θ或其变换形式ζ(Θ)为马尔科夫决策过程模型的动作a,a=ζ(Θ),ζ表示变换;
奖励:定义平均频谱效率
Figure FDA0003479209760000077
和相关性能指标
Figure FDA0003479209760000074
作为马尔科夫决策过程模型的奖励r,
Figure FDA0003479209760000075
Figure FDA0003479209760000076
表示变换。
CN202110503924.3A 2021-05-10 2021-05-10 一种基于深度强化学习的智能通信波束碰撞避免方法 Active CN113242068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110503924.3A CN113242068B (zh) 2021-05-10 2021-05-10 一种基于深度强化学习的智能通信波束碰撞避免方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110503924.3A CN113242068B (zh) 2021-05-10 2021-05-10 一种基于深度强化学习的智能通信波束碰撞避免方法

Publications (2)

Publication Number Publication Date
CN113242068A CN113242068A (zh) 2021-08-10
CN113242068B true CN113242068B (zh) 2022-04-01

Family

ID=77132829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110503924.3A Active CN113242068B (zh) 2021-05-10 2021-05-10 一种基于深度强化学习的智能通信波束碰撞避免方法

Country Status (1)

Country Link
CN (1) CN113242068B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107071755A (zh) * 2017-03-03 2017-08-18 中国电子科技集团公司第五十四研究所 一种降低碰撞概率的定向无中心自组网邻居发现方法
CN111092641A (zh) * 2019-12-18 2020-05-01 重庆邮电大学 基于毫米波mimo系统深度学习的混合预编码设计方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102180959B1 (ko) * 2013-12-09 2020-11-19 삼성전자주식회사 무선통신 시스템의 빔 스위핑 패턴 조정 방법 및 장치
CN106506133B (zh) * 2016-11-08 2019-08-20 东南大学 宽带大规模mimo系统导频池及信道信息获取方法和系统
CN110535580B (zh) * 2018-08-08 2022-08-23 中兴通讯股份有限公司 传输控制方法、探测参考信号传输方法、终端、基站及介质
CN110971279B (zh) * 2019-12-30 2021-09-21 东南大学 一种毫米波通信系统中智能波束训练方法及预编码系统
CN111181619B (zh) * 2020-01-03 2022-05-13 东南大学 基于深度强化学习的毫米波混合波束成形设计方法
CN112512069B (zh) * 2021-02-02 2021-05-28 网络通信与安全紫金山实验室 基于信道波束图样的网络智能优化方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107071755A (zh) * 2017-03-03 2017-08-18 中国电子科技集团公司第五十四研究所 一种降低碰撞概率的定向无中心自组网邻居发现方法
CN111092641A (zh) * 2019-12-18 2020-05-01 重庆邮电大学 基于毫米波mimo系统深度学习的混合预编码设计方法

Also Published As

Publication number Publication date
CN113242068A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN110492911B (zh) 一种用于无人机通信的波束追踪方法与系统
CN111447631A (zh) 基于非正交多址技术的星地联合波束形成和功率分配方法
CN110138427B (zh) 基于部分连接的大规模多输入多输出混合波束赋形算法
CN113489521A (zh) 反射面辅助无小区大规模mimo网络智能联合波束赋形方法
CN112672361B (zh) 一种基于无人机集群部署的大规模mimo容量提升方法
CN112039564B (zh) 一种卫星大规模mimo广覆盖预编码传输方法
CN113438002B (zh) 基于lstm的模拟波束切换方法、装置、设备及介质
WO2016065683A1 (zh) 多用户3d-mimo系统中三维波束赋形设计方法
CN113300749A (zh) 基于机器学习赋能的智慧传输波束优化方法
CN111262617B (zh) 一种基于多颗低轨卫星协作的频谱感知方法
Lou et al. Performance analysis of sparse array based massive MIMO via joint convex optimization
CN115085774A (zh) 一种基于克拉美罗界的通感融合混合波束赋形方法
CN114640379A (zh) 一种基于智能反射面阵元分组的波束优化方法及系统
Do et al. A review on recent approaches in mmwave uav-aided communication networks and open issues
CN113242068B (zh) 一种基于深度强化学习的智能通信波束碰撞避免方法
Buracchini et al. Performance analysis of a mobile system based on combined SDMA/CDMA access technique
CN114745032B (zh) 一种无蜂窝大规模mimo智能分布式波束选择方法
CN114499615B (zh) 一种太赫兹通信系统中近远场统一的发射波束成形方法
CN113595609B (zh) 一种基于强化学习的蜂窝移动通信系统协作式信号发送方法
CN105227224A (zh) 3d-mimo系统中基于最小slnr最大准则的分布式干扰协调方法
CN115102609A (zh) 一种多波束卫星的低复杂度用户分组及公平调度方法
CN110208830B (zh) 一种基于空时二维稀疏阵列的导航抗干扰方法
CN113726389A (zh) 基于可重构反射超表面的无小区组网系统及方法
CN114844537A (zh) 深度学习辅助鲁棒大规模mimo收发联合方法
CN112242860B (zh) 自适应天线分组的波束成型方法、装置及大规模mimo系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant