CN113473480B

CN113473480B - 面向蜂窝网络的改进式强化学习网络覆盖优化方法

Info

Publication number: CN113473480B
Application number: CN202110599211.1A
Authority: CN
Inventors: 赵夙; 柳旭东; 朱晓荣; 朱洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-11-04
Anticipated expiration: 2041-05-31
Also published as: CN113473480A

Abstract

本发明公开了面向蜂窝网络的改进式强化学习网络覆盖优化方法，包括：(1)从异构无线网络环境中采集终端路测数据和基站侧静态数据，处理得到平衡数据集；(2)从平衡数据集中选取一部分数据作为训练集输入到随机森林模型中，对随机森林模型进行训练得到网络覆盖预测模型；(3)设置覆盖优化的目标函数；(4)设置强化学习与网络覆盖优化问题的空间映射，训练强化学习智能体，得到工程参数的调整策略以及覆盖优化结果。本发明方法自动改进优化行为，从而拥有更快的收敛速度，同时能够积累大量运维优化经验并自主形成优化策略，避免了优化过程对网络性能产生较大影响。

Description

面向蜂窝网络的改进式强化学习网络覆盖优化方法

技术领域

本发明涉及通信网络技术领域，特别涉及面向蜂窝网络的改进式强化学习网络覆盖优化方法。

背景技术

随着5G移动通信网络的快速发展，网络结构也随之变化，网络对自身的性能要求以及对用户感知要求不断提升，对网络运维模式和方法提出了更高的要求。网络覆盖作为最基本的网络性能，直接影响用户体验。

传统的网络覆盖性能分析主要基于规划工具中的理论传播模型，对站点部署环境进行仿真模拟，计算出部署站点的估计覆盖范围，这种基于理论模型的方法在实际情况中存在不可忽略的偏差，在站点部署配置完毕后，往往还需要从网络中广泛收集静态数据和测量数据，对网络真实性能进行分析，从而调整基站参数配置，过程复杂，计算量大，需要较多的准备工作，随着网络规模的扩大，效率越来越低。传统方法已经无法高效地利用有限的网络资源，因此提升运维效率已经成为移动通信领域一个亟待解决的问题。

发明内容

发明目的：针对以上问题，本发明目的是提供一种面向蜂窝网络的改进式强化学习网络覆盖优化方法。

技术方案：本发明的一种面向蜂窝网络的改进式强化学习网络覆盖优化方法，包括：

(1)从异构无线网络环境中采集终端路测数据和基站侧静态数据，构成数据样本，对数据样本进行预处理后分成正常覆盖样本、弱覆盖样本和过度覆盖样本，按照数据样本每个工程参数的权重和每类覆盖样本的数量对三种覆盖样本进行处理，得到平衡数据集；

(2)从平衡数据集中选取一部分数据作为训练集，将训练集输入到随机森林模型中，对随机森林模型进行训练得到网络覆盖预测模型，训练后的模型包含小区工程参数配置与小区内终端覆盖状况的映射，网络覆盖预测模型根据终端接入的小区天线工程参数配置，输出小区内终端位置的覆盖情况，得到小区采样数据在每种覆盖情况下对应的采样点个数；

(3)利用网络覆盖率来构建优化目标函数，公式为：

式中

表示单小区覆盖率，ratio_whole表示总覆盖率，Point表示小区内的采样点，包含了正常覆盖、弱覆盖和过度覆盖三种情况下的采样点，Point_weak表示弱覆盖采样点，Point_over表示过度覆盖采样点；i表示当前小区编号；

(4)将目标函数设置为强化学习迭代过程中最大化奖励值的依据，将最大化覆盖率为强化学习智能体学习的目标，并设置强化学习与网络覆盖优化问题的空间映射。

进一步，所述步骤(4)中对环境的建模使用步骤(2)中的网络覆盖预测模型，来模拟现实中的网络环境；

在步骤(4)优化中，智能体和环境交互的过程如下：

(41)初始化Q表，将表格中的动作价值函数赋任意值；

(42)对每个回合执行以下操作：

a、遍历所有小区，使用步骤(3)中的公式计算覆盖率，将计算结果存入表格中；

b、选择覆盖率最低的小区，作为本轮迭代的优化目标小区；

c、按照贪心策略决定动作Action；

d、采样：执行动作Action，得到奖励R和新状态S′；

e、计算回报的估计值：

U←R+γmax_a∈A(S)q(S′，a)

式中R表示智能体从环境中获得的奖励，U表示估计的未来的奖励和，γ表示折扣因子，决定了如何在最近的奖励和未来的奖励之间进行取舍；

f、更新价值和策略；

(43)输出动作价值函数q(s，a)的表格；

强化学习覆盖优化输出的Q表中的每一项都对应于一个q(s，a)值，表示在状态为s时，若选择的动作为a获得的收益，在得到Q表后，就可以在不同的状态下，选择最优的小区天线调整方案a。

进一步，所述步骤(1)中预处理包括：

(101)数据拼接：基站侧静态数据包含基站编号和小区编号，终端路测数据包含样本接入的小区编号，将相同小区编号的基站侧静态数据与终端路测数据进行拼接，拼接后的样本数据包含了终端的信号质量、终端地理位置、接入小区工程参数配置和基站位置；

(102)数据清洗：对拼接后的样本数据进行清洗，去除重复数据样本和不完整数据样本，得到有效数据样本；

(103)样本分类：根据终端采样点的参考信号接收功率与对应阈值的偏差，将终端采样点分为正常覆盖样本、弱覆盖样本和过度覆盖样本。

进一步，步骤(103)对于覆盖分类的判定如下：

(1031)弱覆盖定义服务小区不能为接入的移动台提供有效覆盖，表现为无主导小区、覆盖间隙或覆盖盲区，设当前设备位置为x，弱覆盖评价函数如下：

W＝-110-RSRP₀(x)

RSRP₀(x)表示终端的RSRP值，W表示终端RSRP与弱覆盖阈值的偏差值，弱覆盖阈值为-110dBm，Point_weak表示弱覆盖采样点；

若W＞0，则处于x位置的终端RSRP低于阈值，判定为弱覆盖样本点，表示该样本点所处位置存在弱覆盖问题；

若W＜0，则判定为正常覆盖样本，表示该样本点所处位置覆盖正常；

弱覆盖采样点Point_weak取值为：

(1032)过度覆盖定位为服务小区为移动台提供过多的有效覆盖，表现为邻小区为移动台提供了有效覆盖、无主导小区和主导小区信噪比低情况，过度覆盖判定标准如下：

移动台正常接收有效信号，RSRP＞-105dBm；

移动台接收到相邻小区的RSRP与主服务小区同频率，且信号强度小于6dB，表示移动台收到过多的有效信号，且满足该条件的相邻小区数量大于3；

由此可得过度覆盖的评价函数为：

E＝(RSRP_i(x)+6)-RSRP₀(x)

其中，RSRP₀表示从主服务小区接收到的参考信号功率，RSRP_i表示来自第i个邻区的参考信号功率；

过度覆盖采样点Point_over取值为：

其中cell_i表示第i个小区，neighbors表示与主服务小区相邻且具有相同频点的小区。

进一步，所述步骤(1)得到平衡数据集过程为：

计算预处理后的三个样本中每个采样点的工程参数权重，按照权重的大小对工程参数进行排序，选择排在前面的工程参数，将其他工程参数忽略，得到新数据集合，新数据集合中样本数据的工程参数包括基站的天线电子下倾角、天线机械下倾角、天线方位角、天线发射功率、天线挂高、天线所属基站经纬度；再将新数据集合进行过采样处理，得到平衡数据集。

进一步，所述步骤(4)优化过程为：

(401)设置强化学习环境的状态集合：

将当前小区覆盖率对应的状态空间映射到强化学习环境中，得到的状态集合表示为

(402)设置强化学习智能体的动作合集：

将当前基站天线电子下倾角和发射功率调整方向映射到强化学习中，得到的动作合集表示为

其中action_eci表示选择调整参数的小区编号，

和action_power分别对应于当前天线下倾角和天线发射功率的调整方向，包括增加、保持当前不变、减少三种动作，表示为{increase，keep，decrease}；

(403)设置环境反馈，通过对步骤(502)的调整方向进行评估，实现将弱覆盖与过度覆盖的接入终端数量降到最低；

对奖励函数的评估如下：

coverage_new表示智能体选择优化动作后，通过覆盖预测模型输出的小区内终端的覆盖标签计算出的新的覆盖率，coverage_cur表示选择优化动作之前的旧覆盖率；

(404)设置强化学习智能体动作选择策略：使用贪心策略代替起始探索，用于在迭代过程中覆盖所有的状态动作对；

贪心策略有如下表示：

式中ε表示贪心系数；a表示在当前状态下的动作选择；a^*表示在当前状态下q值最大的动作，S表示状态空间，A(s)表示在状态s下的动作空间；

对于一个待优化覆盖率的目标区域，总是由若干的基站部署在其中，每个基站保证其子区域的覆盖率，因此对于全局覆盖率，有：

其中，ratio_whole表示目标区域内的全局覆盖率，

表示单个小区的覆盖率；标准的贪心策略，有a∈A(s)，设定动作集合中包含对小区ECI的选择，对小区的选择通过设置规则实现，因此可以适当缩小A(s)的范围为A′(s)，具体如下；

在智能体与环境交互后，分别计算每个小区的子覆盖率，在智能体动作选择阶段，加入限定条件如下：

ECI_min表示覆盖率最低的小区，即对于每一个瞬时时刻，智能体优先选择覆盖率最低的小区，随后对于已选目标小区的联合优化参数

和action_power，使用贪心策略，从参数组合中选择执行的动作；

(405)价值函数更新：智能体根据从环境得到的状态决定其动作，在马尔科夫决策过程中，将策略π定义为从状态到动作的转移概率P，表示：

π(a|s)＝P[A_t＝a|S_t＝s]，s∈S，a∈A

依据强化学习过程进行覆盖优化的原理在于，在每一轮迭代过程中，改进策略，从而最大化长期奖励；若有R表示智能体每次从环境中获得的奖励，则长期回报G_t可以有如下表示：

γ^τ表示折扣系数，定义价值函数q_π(s，a)为，

q_π(s，a)＝E_π[G_t|S_t＝s，A_t＝a]

其中E_π表示在策略π下对回报求期望，S_t和At分别表示当前所处的状态和选择的动作；

价值函数的更新可以有如下公式表示：

Q_t+1(s，a)＝(1-α_t)Q_t(s，a)+α_t(r_t+γmax_a，Q_t(s′，a′))

其中，Q_t(s，a)是状态-动作对在t时刻的值函数，α_t∈[0，1]为学习因子，用于控制学习速度，值越大收敛速度越快，可能导致无法获得最优解；(r_t+γmax_a′Q_t(s′，a′))为主要的更新内容，γ表示折扣系数；

对于不同的策略π和π′’，若有任意s∈S，都有q_π(s，a)≤q_π′(s，a)，则策略π小于等于π′’；对于一个强化学习模型来说，总是存在一个或多个π大于其他的策略，将这一个或多个策略称之为最优策略，最优策略对应的价值函数称之为最优价值函数；

在Q学习中，最优动作价值函数表示如下：

最优策略表示如下：

如果有不止一个的动作使得q^*(s，a)最大，则随机选取一个动作执行即可。

有益效果：本发明与现有技术相比，其显著优点是：本发明方法自动改进优化行为，从而拥有更快的收敛速度，同时能够积累大量运维优化经验并自主形成优化策略，避免了优化过程对网络性能产生较大影响。

附图说明

图1为本发明优化系统流程图；

图2为异构无线网络场景示意图。

图3为覆盖优化迭代对比图。

具体实施方式

本实施例所述的面向蜂窝网络的改进式强化学习网络覆盖优化方法，流程图如图1所示，包括：

(1)从图2的异构无线网络环境中采集终端路测数据和基站侧静态数据，构成数据样本，对数据样本进行预处理后分成正常覆盖样本、弱覆盖样本和过度覆盖样本，按照数据样本每个工程参数的权重和每类覆盖样本的数量对三种覆盖样本进行处理，得到平衡数据集；

所述步骤(1)中预处理包括：

(101)数据拼接：基站侧静态数据包含基站编号和小区编号，终端路测数据包含样本接入的小区编号，将相同小区编号的基站侧静态数据与终端路测数据进行拼接，组成完整的样本数据，具体参数如下表1所示，拼接后的样本数据包含了终端的信号质量、终端地理位置、接入小区工程参数配置和基站位置，图2为配置图；

表1拼接后样本数据参数

步骤(103)对于覆盖分类的判定如下：

W＝-110-RSRP₀(x)

弱覆盖采样点Point_weak取值为：

移动台正常接收有效信号，RSRP＞-105dBm；

由此可得过度覆盖的评价函数为：

E＝(RSRP_i(x)+6)-RSRP₀(x)

过度覆盖采样点Point_over取值为：

所述步骤(1)得到平衡数据集过程为：

(3)利用网络覆盖率来构建强化学习算法的优化目标函数，公式为：

式中

所述步骤(4)中对环境的建模使用步骤(2)中的网络覆盖预测模型，来模拟现实中的网络环境；

在步骤(4)优化中，智能体和环境交互的过程如下：

(41)初始化Q表，将表格中的动作价值函数赋任意值；

(42)对每个回合执行以下操作：

b、选择覆盖率最低的小区，作为本轮迭代的优化目标小区；

c、按照贪心策略决定动作Action；

d、采样：执行动作Action，得到奖励R和新状态S′；

e、计算回报的估计值：

U←R+γmax_a∈A(S′)q(S′，a)

f、更新价值和策略；

(43)输出动作价值函数q(s，a)的表格；

所述步骤(4)优化过程为：

(401)设置强化学习环境的状态集合：

(402)设置强化学习智能体的动作合集：

其中action_eci表示选择调整参数的小区编号，

对奖励函数的评估如下：

coverage_new表示智能体选择优化动作，通过覆盖预测模型输出的小区内终端的覆盖标签计算出的新的覆盖率，coverage_cur表示选择优化动作之前的旧覆盖率；

贪心策略有如下表示：

其中，ratio_whole表示目标区域内的全局覆盖率，

表示单个小区的覆盖率；标准的贪心策略，有a∈A(s)，设定动作集合中包含对小区ECI的选择，因此可以适当缩小A(s)的范围为A′(s)；

π(a|s)＝P[A_t＝a|S_t＝s]，s∈S，a∈A

γ^τ表示折扣系数，定义价值函数q_π(s，a)为，

q_π(s，a)＝E_π[G_t|S_t＝s，A_t＝a]

其中E_π表示在策略π下对回报求期望，S_t和A_t分别表示当前所处的状态和选择的动作；

价值函数的更新可以有如下公式表示：

Q_t+1(s，a)＝(1-α_t)Q_t(s，a)+α_t(r_t+γmax_a′Q_t(s′，a′))

在Q学习中，最优动作价值函数表示如下：

最优策略表示如下：

利用本实施例的方法对某小区采集样本数据进行覆盖优化后，与传统强化学习进行对比，如图3所示的迭代对比图，利用本实施优化后总覆盖率提升接近20％，相较于传统的强化学习，减少了优化过程中的波动，加速收敛的同时使得优化曲线更加平滑。

Claims

1.面向蜂窝网络的改进式强化学习网络覆盖优化方法，其特征在于，包括：

(2)从平衡数据集中选取一部分数据作为训练集，将训练集输入到随机森林模型中，对随机森林模型进行训练得到网络覆盖预测模型，训练后的模型包含小区工程参数配置与小区内终端覆盖状况的映射，网络覆盖预测模型根据终端接入的小区天线工程参数配置，输出小区内终端位置的覆盖情况，得到小区采样数据在每种覆盖情况下对应的采样点；

(3)设置覆盖优化的目标函数，公式为：

式中

表示单小区覆盖率，ratio_whole表示总覆盖率，Point表示小区内的采样点,包含了正常覆盖、弱覆盖和过度覆盖三种情况下的采样点，Point_weak表示弱覆盖采样点，Point_over表示过度覆盖采样点；i表示当前小区编号；

(4)将目标函数设置为强化学习迭代过程中最大化奖励值的依据，将最大化覆盖率设置为强化学习智能体学习的目标，并设置强化学习与网络覆盖优化问题的空间映射，得到工程参数的调整以及覆盖优化结果。

2.根据权利要求1所述的覆盖优化方法，其特征在于，步骤(4)中对环境的建模使用步骤(2)中的网络覆盖预测模型，来模拟现实中的网络环境；

在步骤(4)优化中，智能体和环境交互的过程如下：

(41)初始化Q表，将表格中的动作价值函数赋任意值；

(42)对每个回合执行以下操作：

b、选择覆盖率最低的小区，作为本轮迭代的优化目标小区；

c、按照贪心策略决定动作Action；

d、采样：执行动作Action，得到奖励R和新状态S′；

e、计算回报的估计值：

U←R+γmax_a∈A(S')q(S',a)

f、更新价值和策略；

(43)输出动作价值函数q(s,a)的表格；

强化学习覆盖优化输出的Q表中的每一项都对应于一个q(s,a)值，表示在状态为s时，若选择的动作为a获得的收益，在得到Q表后，就在不同的状态下，选择最优的小区天线调整方案a。

3.根据权利要求2所述的覆盖优化方法，其特征在于，步骤(1)中预处理包括：

4.根据权利要求3所述的覆盖优化方法，其特征在于，步骤(103)对于覆盖分类的判定如下：

(1031)弱覆盖定义服务小区不能为接入的移动台提供有效覆盖，表现为无主导小区、覆盖间隙或覆盖盲区，设当前设备位置为x,弱覆盖评价函数如下：

W＝-110-RSRP₀(x)

若W>0，则处于x位置的终端RSRP低于阈值，判定为弱覆盖样本点，表示该样本点所处位置存在弱覆盖问题；

若W<0，则判定为正常覆盖样本，表示该样本点所处位置覆盖正常；

弱覆盖采样点Point_weak取值为：

移动台正常接收有效信号，RSRP>-105dBm；

移动台接收到相邻小区的RSRP满足与主服务小区同频率，且信号强度小于6dB的条件，表示移动台收到过多的有效信号，满足该条件的相邻小区数量大于3；

由此可得过度覆盖的评价函数为：

E＝(RSRP_i(x)+6)-RSRP₀(x)

过度覆盖采样点Point_over取值为：

5.根据权利要求4所述的覆盖优化方法，其特征在于，步骤(1)得到平衡数据集过程为：

计算预处理后的三个样本中每个采样点的工程参数权重，按照权重的大小对工程参数进行排序，选择排在前面的工程参数，将其他工程参数忽略，得到新数据集合，新数据集合中样本数据的工程参数包括基站的天线电子下倾角、天线机械下倾角、天线方位角、天线发射功率、天线挂高和天线所属基站经纬度；再将新数据集合进行过采样处理，得到平衡数据集。

6.根据权利要求5所述的覆盖优化方法，其特征在于，步骤(4)优化过程为：

(401)设置强化学习环境的状态集合：