CN113242068B

CN113242068B - 一种基于深度强化学习的智能通信波束碰撞避免方法

Info

Publication number: CN113242068B
Application number: CN202110503924.3A
Authority: CN
Inventors: 黄永明; 葛瑶; 何伟梁; 张铖; 吴珩
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2022-04-01
Anticipated expiration: 2041-05-10
Also published as: CN113242068A

Abstract

本发明公开了一种基于深度强化学习的智能通信波束碰撞避免方法，首先建立关于基站簇工程参数的最小化平均总波束碰撞参数的优化问题。接着根据波束碰撞参数、波束域信道信息与信干噪比以及频谱效率的关系，将原始优化问题转化为与波束域统计信道信息强相关的平均频谱效率最大化问题。基于强化学习框架，将基站簇工程参数的调优过程建模成马尔科夫决策过程，并根据实际优化问题设计合理的状态、动作和奖励信息。最后，利用深度强化学习优化算法，实现基站簇与无线通信环境的交互，并根据波束域统计信道信息进行基站簇工程参数的自适应调整，避免波束碰撞。该方法具有复杂度较低、与实际无线通信环境匹配度较好、性能优异特点。

Description

一种基于深度强化学习的智能通信波束碰撞避免方法

技术领域

本发明属于无线通信网络优化和智能通信领域，尤其涉及一种基于深度强化学习的智能通信波束碰撞避免方法。

背景技术

随着无线通信技术的不断发展，高速增长的移动数据业务和海量的接入需求对新一代移动通信技术提出了高容量、低功耗、低延时等需求。为进一步提高无线通信系统的容量，新一代无线通信系统广泛采用大规模天线阵列与波束赋形技术来获得更高的信道增益，但由于网络的密集化部署，使得无线通信网络的规划和优化出现新的挑战。特别在多小区多用户通信系统中，每个小区同时为多个用户发射多个波束，波束碰撞现象严重，波束间干扰增强，严重影响数据的有效传输，导致网络性能的急剧下降。

波束碰撞可以理解为多个波束同时覆盖某个区域而产生的波束之间的重叠现象，但目前鲜有研究给出准确的定义和相应的数学模型。由于波束碰撞会产生较强的波束间干扰，故现有研究往往通过处理波束间干扰来避免波束碰撞，但是并未给出波束碰撞和波束间干扰以及网络性能指标之间的具体关系。

由于波束碰撞与无线通信环境特征具有极大的相关性，故用户位置分布和基站簇工程参数会对其产生重要影响。在优化基站簇工程参数方面，传统方法往往采用人工经验或者模型假设，较难根据实际用户位置分布进行自适应调整。此外，由于数据采集成本和技术的限制，实际通信网络中很难实现基于瞬时性能的细粒度优化，因此需要考虑适合于提升网络平均性能的基站簇工程参数优化方案。

目前新一代无线通信系统可通过波束训练来感知无线通信环境，从而根据获得的波束域信道信息辅助信道估计和传输设计。与此同时，深度强化学习充分结合了深度神经网络的学习能力与强化学习与环境交互的学习机制，使其可实现根据环境特征的自适应决策。因此，基于深度强化学习的波束碰撞避免方法在无线通信网络数据的驱动下，充分挖掘环境中的波束域信道信息等特征，在实现基站簇工程参数的智能优化的同时，有效避免波束碰撞，提升网络性能。

发明内容

本发明目的在于提供一种基于深度强化学习的智能通信波束碰撞避免方法,以解决现有技术中波束碰撞概念不清晰、优化模型较难适用到实际通信场景，优化成本较大，优化方案很难落地实现的技术问题。

为解决上述技术问题，本发明的具体技术方案如下：

一种基于深度强化学习的智能通信波束碰撞避免方法，包括以下步骤：

步骤1、构建多天线多小区下行通信系统模型，定义波束碰撞事件以及波束碰撞参数，建立关于基站簇工程参数的最小化平均总波束碰撞参数的原始优化问题；

步骤2、根据波束碰撞参数和波束域信道信息与信干噪比以及频谱效率的关系，将步骤1中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题；

步骤3、针对步骤2中所述的优化问题，在强化学习的框架下，将多天线多小区下行通信系统当作环境，基站簇当作智能体，并将基站簇工程参数的调优过程建模成马尔科夫决策过程，然后对其状态、动作以及奖励函数进行具体设计；

步骤4、基于步骤3所述强化学习框架，利用深度强化学习算法，在基站簇与无线通信环境的交互下，根据波束域统计信道信息进行基站簇工程参数的自适应调整，避免波束碰撞，提高平均频谱效率。

进一步的，步骤1中基于多天线多小区下行通信系统模型建立最小化平均总波束碰撞参数的原始优化问题包括以下步骤：

步骤1.1、对于多天线多小区下行传输场景，M个基站均采用TDD模式，并配置具有V根天线的平面天线阵列，所有基站均支持波束成形，每个基站覆盖一个小区；在覆盖区域内，N个用户随机分布且均配置单根全向天线，每个用户仅与一个基站进行关联，所有小区和用户采用相同的时频资源；

步骤1.2、基站集为

用户集为

每个基站的服务用户集为

并且基站服务用户集之间不存在相同用户；

步骤1.3、第n个用户关联到第m个基站上，该用户的接收信号y_n可表达成下式：

其中，y_n和z_n分别表示第n个用户的接收信号和噪声，z_n满足均值为0，方差为σ²的复高斯分布，σ²为噪声功率；s_j，s_k分别表示第j个和第k个用户的发射信号,均满足均值为0，方差为1的复高斯分布，

p_n,p_k,p_j分别为第n个、第k个和第j个用户的下行传输功率，

w_m,n为第m个基站和第n个用户之间的信道矢量的转置和预编码矢量，

w_m,n由h_m,n确定，且满足w_m,n＝g(h_m,n)，g为预编码函数；

表示去除第m个基站的基站集；

表示去除第n个用户的第m个基站用户集；

步骤1.4、建模成函数h(x,θ)，其中h表示基站与用户间的信道矢量，x表示用户位置，θ表示基站工程参数；

其中，x＝[x,y,z]^T为用户相对于基站的位置坐标，θ＝[Γ,Υ]^T为基站工程参数，Γ,Υ分别是基站的方位角和下倾角；L为散射路径数目，α_l和ψ_l分别为第l条路径的复增益(包含幅度和相位)和方向；α_l和ψ_l均受用户位置x和基站工程参数θ的影响。a为天线阵列导引矢量，Λ为天线单元空间响应；

步骤1.5、第n个用户与第m个基站关联，同时第j个用户与第i个基站关联，定义第n个用户接收到第j个用户干扰信号的强度与其有用信号的比值是波束碰撞参数β_n,j；当波束碰撞参数β_n,j大于预设阈值ε时，波束碰撞事件发生：

其中，P_collision表示波束碰撞事件的概率，P表示概率，p_n和p_j分别表示第n个用户和第j个用户的下行传输功率，h_i,n和h_m,n分别为第i个基站和第n个用户之间的信道矢量和第m个基站和第n个用户之间的信道矢量，w_i,j和w_m,n分别为第i个基站和第j个用户之间的预编码矢量和第m个基站以及第n个用户之间的预编码矢量；H表示转置变换，ε为预设的波束碰撞参数的阈值；

步骤1.6、通过优化基站簇工程参数Θ以避免波束碰撞；波束碰撞参数β_n,j会受到用户位置分布X和基站簇工程参数Θ的影响，

定义平均总波束碰撞参数

计算公式如下：

其中，X＝[x₁,x₂,...,x_N]^T，Θ＝[θ₁,θ₂,...,θ_M]^T，E{β_n,j|X,Θ}表示给定用户位置分布X和基站簇工程参数Θ条件下的波束碰撞参数β_n,j的平均值；

步骤1.7、建立关于基站簇工程参数Θ的最小化平均总碰撞参数

的优化问题，具体如下：

其中，

表示基于基站簇工程参数的最小化平均总碰撞参数

的优化问题，s.t.Θ表示基站簇工程参数的约束条件，

为基站簇工程参数Θ的可行范围。

进一步的，步骤2中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题包括以下步骤：

步骤2.1基于步骤1中所述的多天线多小区下行通信系统模型，当第n个用户关联到第m个基站时，其信干噪比γ_n的计算公式如下：

其中，p_k表示第k个用户的下行传输功率。

步骤2.2、定义波束碰撞事件以及波束碰撞参数，当前用户信干噪比γ_n的倒数可近似表达成下式：

步骤2.3、根据香农容量定理，推导出波束碰撞参数β_n,j与当前用户频谱效率R_n之间的关系，表达式如下：

波束碰撞参数和频谱效率之间存在负相关关系，即当波束碰撞程度增加时，系统中波束干扰增强，频谱效率降低，网络性能下降；

步骤2.4、信干噪比和频谱效率根据基站与用户间的波束域信道信息进行计算，使基站在下行数据传输开始之前进行波束扫描以感知用户信道，

具体计算方式如下：

其中，D为波束扫描码本，D^H为码本的转置变换，满足

D_i为D的第i行，即表示波束码本中的第i个波束，1≤i≤S，S为码书维度；波束域信道信息

为基站与用户间的信道矢量h在不同波束上的投影值，可表达成

根据上式可知，信干噪比可由波束域信道信息确定；根据香农公式可知，频谱效率由波束域信道信息确定；

步骤2.5、定义平均频谱效率

具体表达式如下：

其中，

表示给定用户位置分布X和基站簇工程参数Θ下的频谱效率R_n的平均值；

平均频谱效率

和波束域统计信息

之间的映射关系：

其中，f表示平均频谱效率

与波束域统计信道信息

之间的映射；

是指给定用户位置分布X和基站簇工程参数Θ下的波束域统计信道信息，

表示第m个基站与第n个用户之间的波束域统计信道信息，M与N分别是基站的总数目和用户的总数目。

表示基于用户位置分布X和基站簇工程参数Θ下的波束域信道信息的变换

的平均值，E{·}表示期望，1≤s≤S；

步骤2.6、结合波束碰撞参数与频谱效率的负相关关系以及平均频谱效率和波束域统计信息之间的映射关系，将步骤一中建立的最小化平均总波束碰撞参数的原始优化问题转变成基于波束域统计信道信息最大化平均频谱效率的优化问题，具体如下：

其中，

表示基于基站簇工程参数Θ的平均频谱效率

的最大化问题，

指的是波束域统计信道信息

的映射函数，s.t.Θ表示基站簇工程参数Θ的约束条件。

通过统计一段时间内系统速率的平均值得到，

通过统计波束域参考信号的接收强度得到。

进一步的，步骤3中建立的马尔科夫决策过程模型如下：

在强化学习框架下，将步骤1中所述的多天线多小区下行通信系统当作环境，基站簇当作智能体，并将基站工程簇参数的调优过程建模成马尔科夫决策过程模型；

其中根据步骤3中所述的优化问题设计的状态、动作以及奖励函数具体如下：

状态：定义所有用户的服务小区和相应邻区对应的全部波束域统计信道信息

和其变换形式

作为马尔科夫决策过程模型的状态s，

ξ表示变换；

动作：定义基站簇工程参数Θ或其变换形式ζ(Θ)为马尔科夫决策过程模型的动作a，a＝ζ(Θ)，ζ表示变换；

奖励：定义平均频谱效率

和相关性能指标

作为马尔科夫决策过程模型的奖励r，

表示变换。

进一步的，步骤4所述的基于深度强化学习的基站簇工程参数优化算法的实现过程包括如下步骤：

步骤4.1初始化深度强化学习网络权重及其算法超参数，将算法作用于智能体，使其与步骤一所述的无线通信环境进行若干轮次的交互；

步骤4.2、在每个交互轮次开始时，初始化基站簇工程参数Θ＝Θ₀，并且在每个交互轮次中设计时间步；

步骤4.3、在每个时间步更迭时，智能体采集波束域统计信道信息

并输入深度强化学习网络，然后根据深度强化学习网络的输出调整基站簇工程参数Θ；

步骤4.4当无线通信环境再次达到稳定时，智能体对环境中新的波束域信道信息

以及网络性能指标

进行测量，并将基站簇工程参数Θ调整前的状态

基站簇工程参数Θ调整后的状态

动作a＝ζ(Θ)以及奖励函数

缓存到一个经验数据库Ω中；与此同时，深度强化学习网络从经验数据库Ω中随机抽取批量数据

进行神经网络的训练；

步骤4.5、重复以上交互过程，直到深度强化学习算法收敛以及网络性能指标

达到稳定；记录此时的基站簇最优工程参数配置Θ^*以及最优的网络性能指标

本发明的一种基于深度强化学习的智能通信波束碰撞避免方法具有以下优点：

1、本发明提供了波束碰撞事件的明确定义，并推导出波束碰撞与波束干扰以及网络性能之间的关系，将最小化平均总波束碰撞参数的优化问题转化成最大化平均频谱效率的优化问题，降低了波束碰撞避免的实现难度；

2、本发明利用波束域信道信息和深度强化学习框架实现基站簇工程参数的自动化调整，从而智能且高效地找到当前网络中的最优基站簇工程参数配置，实现了波束碰撞的自适应避免，并获得较高的网络平均性能；

附图说明

图1为本发明基于深度强化学习的智能通信波束碰撞避免方法流程图；

图2为本发明多天线多小区下行通信系统拓扑示意图。

图3为本发明设计的马尔科夫决策过程建模示意图；

图4为本发明设计的基于深度强化学习的基站簇工程参数调优的训练曲线图；

图5为本发明设计的基于深度强化学习的基站簇工程参数调优的测试曲线图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于深度强化学习的智能通信波束碰撞避免方法做进一步详细的描述。

本发明所提出的一种基于深度强化学习的智能通信波束碰撞避免方法将结合具体实施例进行详细描述，整体方法流程图如图1所示。

步骤一：构建多天线多小区下行通信系统模型，定义波束碰撞事件以及波束碰撞参数，并建立关于基站簇工程参数的最小化平均总波束碰撞参数的原始优化问题。

本发明实施例的通信场景如图2所示，其对应紫金山园区的真实下行双基站场景。两个基站均采用TDD模式，并且采用8×4的均匀平面阵进行传输，载频为2GHz，工作带宽为100MHz。两基站均支持全数字波束成形，每个基站覆盖一个小区。以正东方向为x轴正方向，正北方向为y轴正方向，z轴垂直向上构建坐标系，两个基站的坐标分别为(13.72m,95.8m,21.17m)和(89.83m，144.73m，21.18m)。基站方位角Γ为天线阵列法线与xOz平面的夹角，向北为正，向南为负；基站下倾角Υ为天线阵列法线与xOy平面的夹角，向上为正，向下为负。在基站覆盖区域内分布着高楼建筑以及多条道路。其中，111个配置单根全向天线的用户在区域A₁与A₂上等间隔取点。用户坐标为(x,y,z)，其中在区域A₁内的用户坐标集合为{(x,y)|41.88≤x≤46.44,0≤y≤73.4}，取点间隔为2m；区域A₂内的用户坐标集合为{(x,y)|13.71≤x≤46.34,121.65≤y≤138.85}，取点间隔为4m。所有用户的高度z均为1.5m。在最大接收功率关联准则下，每个用户仅与一个基站进行关联。所有小区和用户采用相同的时频资源。两基站总下行传输功率设置为1W，各基站将总下行传输功率平均分配给关联的各个用户。定义基站集为

用户集为

每个基站的服务用户集为

并且满足

的关系。

当第n个用户关联到第m个基站上，则该用户的接收信号y_n可表达成下式：

p_n,p_k,p_j分别为第n个、第k个和第j个用户的下行传输功率，

为第m个基站和第n个用户之间的信道矢量的转置和预编码矢量，

w_m,n由h_m,n确定；

表示去除第m个基站的基站集；

表示去除第n个用户的第m个基站用户集；

特别地，本发明实施例中采用最大比传输(MRT)预编码，

其中||h_m,n||为信道矢量h_m,n的模。

鉴于基站与用户间的信道矢量h与用户位置x与基站工程参数θ密切相关，故可将其建模成二者的函数h(x,θ)。

其中，x＝[x,y,z]^T为用户相对于基站的位置坐标，θ＝[Γ,Υ]^T为基站工程参数，Γ,Υ分别是基站的方位角和下倾角。L为散射路径数目，α_l和ψ_l分别为第l条路径的复增益(包含幅度和相位)和方向。L，α_l和ψ_l均受用户位置x和基站工程参数θ的影响。a为天线阵列导引矢量，Λ为天线单元空间响应。

特别地，在本发明实施例中，路径数目L为5，第l条散射路径的方向

其中

和

分别为第l条散射路径的相对方位角和相对下倾角，

和φ_l(x)是第l条散射路径的方位角和下倾角。第l条散射路径的复增益α_l(x)，方位角

和下倾角φ_l(x)根据用户位置x和实际场景环境决定。

天线阵列采用半波长均匀平面阵，天线阵列导引矢量a的计算方式如下：

其中，W,H表示天线阵列的水平方向和垂直方向的阵元个数，0≤m＜W,0≤n＜H。特别地，本发明实施例中，W＝8,H＝4。

天线单元采用三维定向天线模型，天线单元空间响应Λ的计算方式如下：

其中，

φ_3dB分别表示水平3dB波束宽度和垂直3dB波束宽度。A_m为旁瓣衰减增益，A_m＝30dB。G_E为主瓣最大方向增益，G_E＝8dBi。特别地，在本发明实施例中，

φ_3dB＝65°。

假设第n个用户与第m个基站关联，同时第j个用户与第i个基站关联，定义第n个用户接收到第j个用户干扰信号的强度与其有用信号的比值是波束碰撞参数β_n,j；当波束碰撞参数β_n,j大于预设阈值ε时，波束碰撞事件发生。

由于波束碰撞参数β_n,j，

会受到用户位置分布X和基站簇工程参数Θ的影响，故在给定用户位置分布X的条件下，可通过优化基站簇工程参数Θ的方式，有效避免波束碰撞。考虑到实际通信网络优化中基站簇工程参数Θ的调整时间远大于信道相关时间，故定义平均总波束碰撞参数

具体计算公式如下：

其中，X＝[x₁,x₂,...,x_N]^T，Θ＝[θ₁,θ₂,...,θ_M]^T，E{β_n,j|X,Θ}表示给定用户位置分布X和基站簇工程参数Θ条件下的波束碰撞参数β_n,j的平均值。

建立关于基站簇工程参数Θ的最小化平均总碰撞参数

的优化问题，具体如下：

s.t.Γ_m,min≤Γ_m≤Γ_m,max

Υ_m,min≤Υ_m≤Υ_m,max

1≤m≤M

其中，θ_m＝[Γ_m,Υ_m]第m个基站的基站簇工程参数，包含方位角Γ_m和下倾角Υ_m，Γ_m,min,Γ_m,max分别是第m个基站的方位角的最小值和最大值，Υ_m,min,Υ_m,max分别是第m个基站的下倾角的最小值和最大值。

步骤二：为解决波束碰撞参数无法直接获得且原始优化问题难以求解的问题，根据波束碰撞参数和波束域信道信息与信干噪比以及频谱效率的关系，将步骤一中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题。

基于步骤一中所述的多天线多小区下行通信系统模型，当第n个用户关联到第m个基站时，其信干噪比的计算公式如下：

其中，p_k为第k个用户的下行传输功率。

一方面，随着天线阵列数目的增加与网络的密集化部署，噪声功率σ²对有用信号的影响远小于干扰信号对其产生的影响。因此，根据步骤一中定义的波束碰撞事件以及波束碰撞参数，当前用户信干噪比γ_n的倒数可近似表达成下式：

根据香农容量定理，进一步推导出波束碰撞参数β与当前用户的频谱效率R_n之间的关系，其表达式如下：

根据上式可知，波束碰撞参数和频谱效率之间存在负相关关系，即当波束碰撞程度增加时，系统中波束干扰增强，频谱效率降低，网络性能下降。

另一方面，鉴于基站需要在下行数据传输开始之前进行波束扫描以感知用户信道，因此频谱效率可根据基站与用户间的波束域信道进行计算，具体计算方式如下：

其中，D为波束扫描码本，D^H为码本的转置变换，满足

D_i为D的第i行，即表示波束码本中的第i个波束，1≤i≤S，S为码书维度；

特别地，本实施例中D采用二维傅里叶矩阵，

故S＝W×H。

波束域信道信息

由于本实施例采用MRT预编码矢量，故

其中||h_i,j||是信道矢量h_i,j的模值。因此，当前用户的频谱效率R_n可进一步表达为下式：

根据信干噪比和频谱效率的计算公式可知，二者均可由波束域信道信息确定。

考虑到实际通信网络优化中瞬时波束域信道信息难以获得且基站簇工程参数的调节时间远大于信道相关时间，故定义平均频谱效率

以表征系统的平均性能，表达式如下：

其中，

表示给定用户位置分布X和基站簇工程参数Θ下的频谱效率R_n的平均值，E{·}表示期望，N为用户数目。由于频谱效率可由波束域信道信息确定，故可得平均频谱效率

和波束域统计信息

之间的映射关系：

其中，f表示平均频谱效率

与波束域统计信道信息

之间的映射；

的平均值，E{·}表示期望，1≤s≤S；

特别地，在本发明实施例中，考虑到第五代无线通信系统中采用参考信号接收功率(RSRP)作为波束测量和波束上报的重要参数，故利用平均RSRP值作为用户侧的波束域统计信道信息，表达式如下：

其中，p_BT为基站波束扫描阶段的基站发射功率，p_BT＝1W。

表示波束域信道信息

的模。因此，波束域统计信道信息可表示为

针对波束碰撞参数不能直接获得以及原始优化问题难以求解的问题，结合波束碰撞参数与频谱效率的负相关关系以及平均频谱效率和波束域统计信息之间的映射关系，可将步骤一中建立的最小化平均总波束碰撞参数的原始优化问题转变成基于波束域统计信道信息最大化平均频谱效率的优化问题，具体如下：

其中，

表示基于基站簇工程参数Θ的平均频谱效率

的最大化问题，

指的是波束域统计信道信息

的映射函数，s.t.Θ表示基站簇工程参数Θ的约束条件。

通过统计一段时间内系统速率的平均值得到，

通过统计波束域参考信号的接收强度得到，

特别地，在本发明实施例中，基站簇工程参数可表示成Θ＝[θ₁,θ₂,...,θ_M]^T，且每个基站采用方位角Γ和下倾角Υ作为可调工程参数θ，故上述优化问题可重述成：

s.t.Γ_m,min≤Γ_m≤Γ_m,max

Υ_m,min≤Υ_m≤Υ_m,max

1≤m≤M

步骤三：针对步骤二中所述的优化问题，在强化学习框架下，将多天线多小区下行通信系统当作环境，基站簇当作智能体，并将基站簇工程参数Θ的调优过程建模成马尔科夫决策过程(MDP)，然后对其状态、动作以及奖励函数进行具体设计。

特别地，在本发明实施例中，基站簇工程参数Θ的MDP调优过程如图3所示，其中状态、动作以及奖励函数的具体设计如下：

1)状态：定义所有用户的服务小区和相应邻区的所有波束对应的平均RSRP的总和作为MDP的状态s。

s＝[s_1,1,s_1,2,...,s_M,1,s_M,2]

其中，s_m,1表示第m个基站的服务小区的所有波束对应的平均RSRP的总和，s_m,2表示第m个基站的所有邻区的所有波束对应的平均RSRP的总和，

因此，状态空间维度为2M。为确保后期的深度强化学习算法的网络收敛和性能稳定，本发明实施例对状态量进行预处理，将RSRP由实值换算成dB值，并塑形到(0,1)之间。

2)动作：定义优化变量基站工程参数θ的调整量Δθ作为MDP的动作a。

a＝[a₁,a₂,...,a_M]

a_m＝Δθ＝[ΔΓ_m,ΔΥ_m]

应注意的是，每次动作调整幅度不能过大，要保证调整前后的基站工程参数θ仍符合真实通信环境中的合理取值范围。对于本发明实施例中的两个基站，基站BS₁的方位角和下倾角的合理取值范围分别为-30°≤Γ₁≤90°，-40°≤Υ₁≤-20°，基站BS₂的方位角和下倾角的合理取值范围分别为-180°≤Γ₂≤-120°，-30°≤Υ₂≤-10°。基站BS₁和BS₂的工程参数调整量相互独立，且最大调整量分别是

3)奖励：定义环境更新前后的平均频谱效率

的差值作为MDP的奖励r，表达式如下：

步骤四：基于步骤三所述强化学习框架，利用深度强化学习算法，在基站簇与无线通信环境的交互下，根据波束域统计信道信息进行基站簇工程参数的自适应调整，避免波束碰撞，提高频谱效率。

进一步地，基于深度强化学习的智能通信波束碰撞避免方法的流程如下：

首先初始化深度强化学习网络权重及其算法超参数，将算法作用于智能体(基站簇)，使其与步骤一所述的无线通信环境进行若干轮次的交互。在每个交互轮次开始时，初始化基站簇工程参数Θ＝Θ₀，并且在每个交互轮次中设计一定数目的时间步。在每个时间步更迭时，智能体采集平均RSRP信息

并输入深度强化学习网络，然后根据深度强化学习网络的输出相应调整基站簇工程参数Θ。当无线通信环境再次达到稳定时，智能体对环境中新的平均RSRP信息

以及性能指标

进行测量，并将基站簇工程参数Θ调整前后的平均RSRP信息

和

基站簇工程参数调整值ΔΘ以及相应的性能指标

缓存到一个经验数据库Ω中。与此同时，深度强化学习网络从经验数据库Ω中随机抽取批量数据

进行神经网络的训练。重复以上交互过程，直到深度强化学习算法收敛。记录此时的最优基站簇工程参数配置Θ^*以及最优的平均频谱效率

特别地，在本发明实施例中，采用基于Actor-Critic架构的深度确定性策略梯度(DDPG)算法进行基站簇工程参数Θ的自适应调整。对于每个交互轮次，当时间步t开始后，环境中的平均RSRP信息

被输入到Actor神经网络中，在随机噪声的辅助下，该网络做出智能决策并输出基站簇工程参数调整值ΔΘ。然后，时间步变化为t′，环境发生更新。观测环境稳定后的性能指标

和新的平均RSRP信息

并利用Critic神经网络估计

和当前基站簇工程参数调整值ΔΘ′的值函数

然后结合

以更新Critic网络。最后，按照Critic网络的策略方向更新Actor网络。该过程不断循环，直到Actor网络收敛。

其中，DDPG算法的软更新参数为0.001，折扣因子为0.9，批次样本数为32，经验池大小为10000，训练交互轮次数目为1000。每个交互轮次的时间步数目为10。在网络结构方面，Actor网络隐含层结构为[256,128,64,32]，输入层和输出层神经元数分别为128和4，输出层激活函数为Tanh，而Critic网络隐含层结构为[256,256,256,256]，输入层神经元数分别为128和4，输出层神经元数为257，输出层激活函数为Linear。两种网络其余参数相同，学习率为0.0001，隐含层激活函数为ReLU，优化器为Adam。

在基站BS₁的初始方位角和下倾角分别为θ₁₀＝[Γ₁₀＝30°,Υ₁₀＝-30°]，基站BS₂的初始方位角和下倾角θ₂₀＝[Γ₂₀＝-150°,Υ₂₀＝-20°]，对应的初始平均频谱效率为3.3232bps/Hz的情况下，经过对DDPG算法充分训练，网络收敛且系统性能稳定，训练曲线图和测试曲线图分别如图4和图5所示。将收敛完全后的算法在测试阶段的最大平均频谱效率对应的基站簇工程参数Θ^*作为最终的优化结果。因此，基站BS₁的最优方位角和下倾角分别为

基站BS₂的最优方位角和下倾角分别是

最优平均频谱效率为4.497bps/Hz。因此，该优化算法可平均频谱效率提升超过1bps/Hz。

本发明提供出波束碰撞的明确定义，而且将复杂的波束碰撞避免问题转换成容易求解的最大化平均频谱效率的优化问题。在波束域信道信息的辅助下，利用深度强化学习自适应地调整基站簇工程参数，低复杂度地且智能化地改善网络平均性能并实现有效避免波束碰撞的有效避免。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于深度强化学习的智能通信波束碰撞避免方法，其特征在于，包括以下步骤：

步骤3、针对步骤2中所述的优化问题，在强化学习的框架下，将多天线多小区下行通信系统当作环境，基站簇当作智能体，并将基站簇工程参数的调优过程建模成马尔科夫决策过程，然后对其状态、动作以及奖励函数进行设计；

步骤4、基于步骤3所述强化学习框架，利用深度强化学习算法，在基站簇与无线通信环境的交互下，根据波束域统计信道信息进行基站簇工程参数的自适应调整，避免波束碰撞，提高平均频谱效率；

所述步骤1中基于多天线多小区下行通信系统模型建立最小化平均总波束碰撞参数的原始优化问题包括以下步骤：

步骤1.2、基站集为

用户集为

每个基站的服务用户集为

并且基站服务用户集之间不存在相同用户；

p_n,p_k,p_j分别为第n个、第k个和第j个用户的下行传输功率，

w_m,n由h_m,n确定，且满足w_m,n＝g(h_m,n)，g为预编码函数；

表示去除第m个基站的基站集；

表示去除第n个用户的第m个基站用户集；

其中，x＝[x,y,z]^T为用户相对于基站的位置坐标，θ＝[Γ,Υ]^T为基站工程参数，Γ,Υ分别是基站的方位角和下倾角；L为散射路径数目，α_l为第l条路径的复增益，其中复增益包含幅度和相位，ψ_l为第l条路径的方向；α_l和ψ_l均受用户位置x和基站工程参数θ的影响；a为天线阵列导引矢量，Λ为天线单元空间响应；