CN113473480B - 面向蜂窝网络的改进式强化学习网络覆盖优化方法 - Google Patents

面向蜂窝网络的改进式强化学习网络覆盖优化方法 Download PDF

Info

Publication number
CN113473480B
CN113473480B CN202110599211.1A CN202110599211A CN113473480B CN 113473480 B CN113473480 B CN 113473480B CN 202110599211 A CN202110599211 A CN 202110599211A CN 113473480 B CN113473480 B CN 113473480B
Authority
CN
China
Prior art keywords
coverage
cell
action
data
optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110599211.1A
Other languages
English (en)
Other versions
CN113473480A (zh
Inventor
赵夙
柳旭东
朱晓荣
朱洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110599211.1A priority Critical patent/CN113473480B/zh
Publication of CN113473480A publication Critical patent/CN113473480A/zh
Application granted granted Critical
Publication of CN113473480B publication Critical patent/CN113473480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了面向蜂窝网络的改进式强化学习网络覆盖优化方法,包括:(1)从异构无线网络环境中采集终端路测数据和基站侧静态数据,处理得到平衡数据集;(2)从平衡数据集中选取一部分数据作为训练集输入到随机森林模型中,对随机森林模型进行训练得到网络覆盖预测模型;(3)设置覆盖优化的目标函数;(4)设置强化学习与网络覆盖优化问题的空间映射,训练强化学习智能体,得到工程参数的调整策略以及覆盖优化结果。本发明方法自动改进优化行为,从而拥有更快的收敛速度,同时能够积累大量运维优化经验并自主形成优化策略,避免了优化过程对网络性能产生较大影响。

Description

面向蜂窝网络的改进式强化学习网络覆盖优化方法
技术领域
本发明涉及通信网络技术领域,特别涉及面向蜂窝网络的改进式强化学习网络覆盖优化方法。
背景技术
随着5G移动通信网络的快速发展,网络结构也随之变化,网络对自身的性能要求以及对用户感知要求不断提升,对网络运维模式和方法提出了更高的要求。网络覆盖作为最基本的网络性能,直接影响用户体验。
传统的网络覆盖性能分析主要基于规划工具中的理论传播模型,对站点部署环境进行仿真模拟,计算出部署站点的估计覆盖范围,这种基于理论模型的方法在实际情况中存在不可忽略的偏差,在站点部署配置完毕后,往往还需要从网络中广泛收集静态数据和测量数据,对网络真实性能进行分析,从而调整基站参数配置,过程复杂,计算量大,需要较多的准备工作,随着网络规模的扩大,效率越来越低。传统方法已经无法高效地利用有限的网络资源,因此提升运维效率已经成为移动通信领域一个亟待解决的问题。
发明内容
发明目的:针对以上问题,本发明目的是提供一种面向蜂窝网络的改进式强化学习网络覆盖优化方法。
技术方案:本发明的一种面向蜂窝网络的改进式强化学习网络覆盖优化方法,包括:
(1)从异构无线网络环境中采集终端路测数据和基站侧静态数据,构成数据样本,对数据样本进行预处理后分成正常覆盖样本、弱覆盖样本和过度覆盖样本,按照数据样本每个工程参数的权重和每类覆盖样本的数量对三种覆盖样本进行处理,得到平衡数据集;
(2)从平衡数据集中选取一部分数据作为训练集,将训练集输入到随机森林模型中,对随机森林模型进行训练得到网络覆盖预测模型,训练后的模型包含小区工程参数配置与小区内终端覆盖状况的映射,网络覆盖预测模型根据终端接入的小区天线工程参数配置,输出小区内终端位置的覆盖情况,得到小区采样数据在每种覆盖情况下对应的采样点个数;
(3)利用网络覆盖率来构建优化目标函数,公式为:
Figure GDA0003836173280000023
Figure GDA0003836173280000021
式中
Figure GDA0003836173280000022
表示单小区覆盖率,ratiowhole表示总覆盖率,Point表示小区内的采样点,包含了正常覆盖、弱覆盖和过度覆盖三种情况下的采样点,Pointweak表示弱覆盖采样点,Pointover表示过度覆盖采样点;i表示当前小区编号;
(4)将目标函数设置为强化学习迭代过程中最大化奖励值的依据,将最大化覆盖率为强化学习智能体学习的目标,并设置强化学习与网络覆盖优化问题的空间映射。
进一步,所述步骤(4)中对环境的建模使用步骤(2)中的网络覆盖预测模型,来模拟现实中的网络环境;
在步骤(4)优化中,智能体和环境交互的过程如下:
(41)初始化Q表,将表格中的动作价值函数赋任意值;
(42)对每个回合执行以下操作:
a、遍历所有小区,使用步骤(3)中的公式计算覆盖率,将计算结果存入表格中;
b、选择覆盖率最低的小区,作为本轮迭代的优化目标小区;
c、按照贪心策略决定动作Action;
d、采样:执行动作Action,得到奖励R和新状态S′;
e、计算回报的估计值:
U←R+γmaxa∈A(S)q(S′,a)
式中R表示智能体从环境中获得的奖励,U表示估计的未来的奖励和,γ表示折扣因子,决定了如何在最近的奖励和未来的奖励之间进行取舍;
f、更新价值和策略;
(43)输出动作价值函数q(s,a)的表格;
强化学习覆盖优化输出的Q表中的每一项都对应于一个q(s,a)值,表示在状态为s时,若选择的动作为a获得的收益,在得到Q表后,就可以在不同的状态下,选择最优的小区天线调整方案a。
进一步,所述步骤(1)中预处理包括:
(101)数据拼接:基站侧静态数据包含基站编号和小区编号,终端路测数据包含样本接入的小区编号,将相同小区编号的基站侧静态数据与终端路测数据进行拼接,拼接后的样本数据包含了终端的信号质量、终端地理位置、接入小区工程参数配置和基站位置;
(102)数据清洗:对拼接后的样本数据进行清洗,去除重复数据样本和不完整数据样本,得到有效数据样本;
(103)样本分类:根据终端采样点的参考信号接收功率与对应阈值的偏差,将终端采样点分为正常覆盖样本、弱覆盖样本和过度覆盖样本。
进一步,步骤(103)对于覆盖分类的判定如下:
(1031)弱覆盖定义服务小区不能为接入的移动台提供有效覆盖,表现为无主导小区、覆盖间隙或覆盖盲区,设当前设备位置为x,弱覆盖评价函数如下:
W=-110-RSRP0(x)
RSRP0(x)表示终端的RSRP值,W表示终端RSRP与弱覆盖阈值的偏差值,弱覆盖阈值为-110dBm,Pointweak表示弱覆盖采样点;
若W>0,则处于x位置的终端RSRP低于阈值,判定为弱覆盖样本点,表示该样本点所处位置存在弱覆盖问题;
若W<0,则判定为正常覆盖样本,表示该样本点所处位置覆盖正常;
弱覆盖采样点Pointweak取值为:
Figure GDA0003836173280000031
(1032)过度覆盖定位为服务小区为移动台提供过多的有效覆盖,表现为邻小区为移动台提供了有效覆盖、无主导小区和主导小区信噪比低情况,过度覆盖判定标准如下:
移动台正常接收有效信号,RSRP>-105dBm;
移动台接收到相邻小区的RSRP与主服务小区同频率,且信号强度小于6dB,表示移动台收到过多的有效信号,且满足该条件的相邻小区数量大于3;
由此可得过度覆盖的评价函数为:
E=(RSRPi(x)+6)-RSRP0(x)
其中,RSRP0表示从主服务小区接收到的参考信号功率,RSRPi表示来自第i个邻区的参考信号功率;
过度覆盖采样点Pointover取值为:
Figure GDA0003836173280000041
其中celli表示第i个小区,neighbors表示与主服务小区相邻且具有相同频点的小区。
进一步,所述步骤(1)得到平衡数据集过程为:
计算预处理后的三个样本中每个采样点的工程参数权重,按照权重的大小对工程参数进行排序,选择排在前面的工程参数,将其他工程参数忽略,得到新数据集合,新数据集合中样本数据的工程参数包括基站的天线电子下倾角、天线机械下倾角、天线方位角、天线发射功率、天线挂高、天线所属基站经纬度;再将新数据集合进行过采样处理,得到平衡数据集。
进一步,所述步骤(4)优化过程为:
(401)设置强化学习环境的状态集合:
将当前小区覆盖率对应的状态空间映射到强化学习环境中,得到的状态集合表示为
Figure GDA0003836173280000042
(402)设置强化学习智能体的动作合集:
将当前基站天线电子下倾角和发射功率调整方向映射到强化学习中,得到的动作合集表示为
Figure GDA0003836173280000043
其中actioneci表示选择调整参数的小区编号,
Figure GDA0003836173280000044
和actionpower分别对应于当前天线下倾角和天线发射功率的调整方向,包括增加、保持当前不变、减少三种动作,表示为{increase,keep,decrease};
(403)设置环境反馈,通过对步骤(502)的调整方向进行评估,实现将弱覆盖与过度覆盖的接入终端数量降到最低;
对奖励函数的评估如下:
Figure GDA0003836173280000045
coveragenew表示智能体选择优化动作后,通过覆盖预测模型输出的小区内终端的覆盖标签计算出的新的覆盖率,coveragecur表示选择优化动作之前的旧覆盖率;
(404)设置强化学习智能体动作选择策略:使用贪心策略代替起始探索,用于在迭代过程中覆盖所有的状态动作对;
贪心策略有如下表示:
Figure GDA0003836173280000051
式中ε表示贪心系数;a表示在当前状态下的动作选择;a*表示在当前状态下q值最大的动作,S表示状态空间,A(s)表示在状态s下的动作空间;
对于一个待优化覆盖率的目标区域,总是由若干的基站部署在其中,每个基站保证其子区域的覆盖率,因此对于全局覆盖率,有:
Figure GDA0003836173280000052
其中,ratiowhole表示目标区域内的全局覆盖率,
Figure GDA0003836173280000053
表示单个小区的覆盖率;标准的贪心策略,有a∈A(s),设定动作集合中包含对小区ECI的选择,对小区的选择通过设置规则实现,因此可以适当缩小A(s)的范围为A′(s),具体如下;
在智能体与环境交互后,分别计算每个小区的子覆盖率,在智能体动作选择阶段,加入限定条件如下:
Figure GDA0003836173280000054
ECImin表示覆盖率最低的小区,即对于每一个瞬时时刻,智能体优先选择覆盖率最低的小区,随后对于已选目标小区的联合优化参数
Figure GDA0003836173280000055
和actionpower,使用贪心策略,从参数组合中选择执行的动作;
(405)价值函数更新:智能体根据从环境得到的状态决定其动作,在马尔科夫决策过程中,将策略π定义为从状态到动作的转移概率P,表示:
π(a|s)=P[At=a|St=s],s∈S,a∈A
依据强化学习过程进行覆盖优化的原理在于,在每一轮迭代过程中,改进策略,从而最大化长期奖励;若有R表示智能体每次从环境中获得的奖励,则长期回报Gt可以有如下表示:
Figure GDA0003836173280000056
γτ表示折扣系数,定义价值函数qπ(s,a)为,
qπ(s,a)=Eπ[Gt|St=s,At=a]
其中Eπ表示在策略π下对回报求期望,St和At分别表示当前所处的状态和选择的动作;
价值函数的更新可以有如下公式表示:
Qt+1(s,a)=(1-αt)Qt(s,a)+αt(rt+γmaxa,Qt(s′,a′))
其中,Qt(s,a)是状态-动作对在t时刻的值函数,αt∈[0,1]为学习因子,用于控制学习速度,值越大收敛速度越快,可能导致无法获得最优解;(rt+γmaxa′Qt(s′,a′))为主要的更新内容,γ表示折扣系数;
对于不同的策略π和π′’,若有任意s∈S,都有qπ(s,a)≤qπ′(s,a),则策略π小于等于π′’;对于一个强化学习模型来说,总是存在一个或多个π大于其他的策略,将这一个或多个策略称之为最优策略,最优策略对应的价值函数称之为最优价值函数;
在Q学习中,最优动作价值函数表示如下:
Figure GDA0003836173280000061
最优策略表示如下:
Figure GDA0003836173280000062
如果有不止一个的动作使得q*(s,a)最大,则随机选取一个动作执行即可。
有益效果:本发明与现有技术相比,其显著优点是:本发明方法自动改进优化行为,从而拥有更快的收敛速度,同时能够积累大量运维优化经验并自主形成优化策略,避免了优化过程对网络性能产生较大影响。
附图说明
图1为本发明优化系统流程图;
图2为异构无线网络场景示意图。
图3为覆盖优化迭代对比图。
具体实施方式
本实施例所述的面向蜂窝网络的改进式强化学习网络覆盖优化方法,流程图如图1所示,包括:
(1)从图2的异构无线网络环境中采集终端路测数据和基站侧静态数据,构成数据样本,对数据样本进行预处理后分成正常覆盖样本、弱覆盖样本和过度覆盖样本,按照数据样本每个工程参数的权重和每类覆盖样本的数量对三种覆盖样本进行处理,得到平衡数据集;
所述步骤(1)中预处理包括:
(101)数据拼接:基站侧静态数据包含基站编号和小区编号,终端路测数据包含样本接入的小区编号,将相同小区编号的基站侧静态数据与终端路测数据进行拼接,组成完整的样本数据,具体参数如下表1所示,拼接后的样本数据包含了终端的信号质量、终端地理位置、接入小区工程参数配置和基站位置,图2为配置图;
表1拼接后样本数据参数
Figure GDA0003836173280000071
Figure GDA0003836173280000081
(102)数据清洗:对拼接后的样本数据进行清洗,去除重复数据样本和不完整数据样本,得到有效数据样本;
(103)样本分类:根据终端采样点的参考信号接收功率与对应阈值的偏差,将终端采样点分为正常覆盖样本、弱覆盖样本和过度覆盖样本。
步骤(103)对于覆盖分类的判定如下:
(1031)弱覆盖定义服务小区不能为接入的移动台提供有效覆盖,表现为无主导小区、覆盖间隙或覆盖盲区,设当前设备位置为x,弱覆盖评价函数如下:
W=-110-RSRP0(x)
RSRP0(x)表示终端的RSRP值,W表示终端RSRP与弱覆盖阈值的偏差值,弱覆盖阈值为-110dBm,Pointweak表示弱覆盖采样点;
若W>0,则处于x位置的终端RSRP低于阈值,判定为弱覆盖样本点,表示该样本点所处位置存在弱覆盖问题;
若W<0,则判定为正常覆盖样本,表示该样本点所处位置覆盖正常;
弱覆盖采样点Pointweak取值为:
Figure GDA0003836173280000082
(1032)过度覆盖定位为服务小区为移动台提供过多的有效覆盖,表现为邻小区为移动台提供了有效覆盖、无主导小区和主导小区信噪比低情况,过度覆盖判定标准如下:
移动台正常接收有效信号,RSRP>-105dBm;
移动台接收到相邻小区的RSRP与主服务小区同频率,且信号强度小于6dB,表示移动台收到过多的有效信号,且满足该条件的相邻小区数量大于3;
由此可得过度覆盖的评价函数为:
E=(RSRPi(x)+6)-RSRP0(x)
其中,RSRP0表示从主服务小区接收到的参考信号功率,RSRPi表示来自第i个邻区的参考信号功率;
过度覆盖采样点Pointover取值为:
Figure GDA0003836173280000091
其中celli表示第i个小区,neighbors表示与主服务小区相邻且具有相同频点的小区。
所述步骤(1)得到平衡数据集过程为:
计算预处理后的三个样本中每个采样点的工程参数权重,按照权重的大小对工程参数进行排序,选择排在前面的工程参数,将其他工程参数忽略,得到新数据集合,新数据集合中样本数据的工程参数包括基站的天线电子下倾角、天线机械下倾角、天线方位角、天线发射功率、天线挂高、天线所属基站经纬度;再将新数据集合进行过采样处理,得到平衡数据集。
(2)从平衡数据集中选取一部分数据作为训练集,将训练集输入到随机森林模型中,对随机森林模型进行训练得到网络覆盖预测模型,训练后的模型包含小区工程参数配置与小区内终端覆盖状况的映射,网络覆盖预测模型根据终端接入的小区天线工程参数配置,输出小区内终端位置的覆盖情况,得到小区采样数据在每种覆盖情况下对应的采样点个数;
(3)利用网络覆盖率来构建强化学习算法的优化目标函数,公式为:
Figure GDA0003836173280000092
Figure GDA0003836173280000093
式中
Figure GDA0003836173280000094
表示单小区覆盖率,ratiowhole表示总覆盖率,Point表示小区内的采样点,包含了正常覆盖、弱覆盖和过度覆盖三种情况下的采样点,Pointweak表示弱覆盖采样点,Pointover表示过度覆盖采样点;i表示当前小区编号;
(4)将目标函数设置为强化学习迭代过程中最大化奖励值的依据,将最大化覆盖率为强化学习智能体学习的目标,并设置强化学习与网络覆盖优化问题的空间映射。
所述步骤(4)中对环境的建模使用步骤(2)中的网络覆盖预测模型,来模拟现实中的网络环境;
在步骤(4)优化中,智能体和环境交互的过程如下:
(41)初始化Q表,将表格中的动作价值函数赋任意值;
(42)对每个回合执行以下操作:
a、遍历所有小区,使用步骤(3)中的公式计算覆盖率,将计算结果存入表格中;
b、选择覆盖率最低的小区,作为本轮迭代的优化目标小区;
c、按照贪心策略决定动作Action;
d、采样:执行动作Action,得到奖励R和新状态S′;
e、计算回报的估计值:
U←R+γmaxa∈A(S′)q(S′,a)
式中R表示智能体从环境中获得的奖励,U表示估计的未来的奖励和,γ表示折扣因子,决定了如何在最近的奖励和未来的奖励之间进行取舍;
f、更新价值和策略;
(43)输出动作价值函数q(s,a)的表格;
强化学习覆盖优化输出的Q表中的每一项都对应于一个q(s,a)值,表示在状态为s时,若选择的动作为a获得的收益,在得到Q表后,就可以在不同的状态下,选择最优的小区天线调整方案a。
所述步骤(4)优化过程为:
(401)设置强化学习环境的状态集合:
将当前小区覆盖率对应的状态空间映射到强化学习环境中,得到的状态集合表示为
Figure GDA0003836173280000101
(402)设置强化学习智能体的动作合集:
将当前基站天线电子下倾角和发射功率调整方向映射到强化学习中,得到的动作合集表示为
Figure GDA0003836173280000102
其中actioneci表示选择调整参数的小区编号,
Figure GDA0003836173280000103
和actionpower分别对应于当前天线下倾角和天线发射功率的调整方向,包括增加、保持当前不变、减少三种动作,表示为{increase,keep,decrease};
(403)设置环境反馈,通过对步骤(502)的调整方向进行评估,实现将弱覆盖与过度覆盖的接入终端数量降到最低;
对奖励函数的评估如下:
Figure GDA0003836173280000111
coveragenew表示智能体选择优化动作,通过覆盖预测模型输出的小区内终端的覆盖标签计算出的新的覆盖率,coveragecur表示选择优化动作之前的旧覆盖率;
(404)设置强化学习智能体动作选择策略:使用贪心策略代替起始探索,用于在迭代过程中覆盖所有的状态动作对;
贪心策略有如下表示:
Figure GDA0003836173280000112
式中ε表示贪心系数;a表示在当前状态下的动作选择;a*表示在当前状态下q值最大的动作,S表示状态空间,A(s)表示在状态s下的动作空间;
对于一个待优化覆盖率的目标区域,总是由若干的基站部署在其中,每个基站保证其子区域的覆盖率,因此对于全局覆盖率,有:
Figure GDA0003836173280000113
其中,ratiowhole表示目标区域内的全局覆盖率,
Figure GDA0003836173280000114
表示单个小区的覆盖率;标准的贪心策略,有a∈A(s),设定动作集合中包含对小区ECI的选择,因此可以适当缩小A(s)的范围为A′(s);
在智能体与环境交互后,分别计算每个小区的子覆盖率,在智能体动作选择阶段,加入限定条件如下:
Figure GDA0003836173280000115
ECImin表示覆盖率最低的小区,即对于每一个瞬时时刻,智能体优先选择覆盖率最低的小区,随后对于已选目标小区的联合优化参数
Figure GDA0003836173280000116
和actionpower,使用贪心策略,从参数组合中选择执行的动作;
(405)价值函数更新:智能体根据从环境得到的状态决定其动作,在马尔科夫决策过程中,将策略π定义为从状态到动作的转移概率P,表示:
π(a|s)=P[At=a|St=s],s∈S,a∈A
依据强化学习过程进行覆盖优化的原理在于,在每一轮迭代过程中,改进策略,从而最大化长期奖励;若有R表示智能体每次从环境中获得的奖励,则长期回报Gt可以有如下表示:
Figure GDA0003836173280000121
γτ表示折扣系数,定义价值函数qπ(s,a)为,
qπ(s,a)=Eπ[Gt|St=s,At=a]
其中Eπ表示在策略π下对回报求期望,St和At分别表示当前所处的状态和选择的动作;
价值函数的更新可以有如下公式表示:
Qt+1(s,a)=(1-αt)Qt(s,a)+αt(rt+γmaxa′Qt(s′,a′))
其中,Qt(s,a)是状态-动作对在t时刻的值函数,αt∈[0,1]为学习因子,用于控制学习速度,值越大收敛速度越快,可能导致无法获得最优解;(rt+γmaxa′Qt(s′,a′))为主要的更新内容,γ表示折扣系数;
对于不同的策略π和π′’,若有任意s∈S,都有qπ(s,a)≤qπ′(s,a),则策略π小于等于π′’;对于一个强化学习模型来说,总是存在一个或多个π大于其他的策略,将这一个或多个策略称之为最优策略,最优策略对应的价值函数称之为最优价值函数;
在Q学习中,最优动作价值函数表示如下:
Figure GDA0003836173280000122
最优策略表示如下:
Figure GDA0003836173280000123
如果有不止一个的动作使得q*(s,a)最大,则随机选取一个动作执行即可。
利用本实施例的方法对某小区采集样本数据进行覆盖优化后,与传统强化学习进行对比,如图3所示的迭代对比图,利用本实施优化后总覆盖率提升接近20%,相较于传统的强化学习,减少了优化过程中的波动,加速收敛的同时使得优化曲线更加平滑。

Claims (6)

1.面向蜂窝网络的改进式强化学习网络覆盖优化方法,其特征在于,包括:
(1)从异构无线网络环境中采集终端路测数据和基站侧静态数据,构成数据样本,对数据样本进行预处理后分成正常覆盖样本、弱覆盖样本和过度覆盖样本,按照数据样本每个工程参数的权重和每类覆盖样本的数量对三种覆盖样本进行处理,得到平衡数据集;
(2)从平衡数据集中选取一部分数据作为训练集,将训练集输入到随机森林模型中,对随机森林模型进行训练得到网络覆盖预测模型,训练后的模型包含小区工程参数配置与小区内终端覆盖状况的映射,网络覆盖预测模型根据终端接入的小区天线工程参数配置,输出小区内终端位置的覆盖情况,得到小区采样数据在每种覆盖情况下对应的采样点;
(3)设置覆盖优化的目标函数,公式为:
Figure FDA0003845049790000011
Figure FDA0003845049790000012
式中
Figure FDA0003845049790000013
表示单小区覆盖率,ratiowhole表示总覆盖率,Point表示小区内的采样点,包含了正常覆盖、弱覆盖和过度覆盖三种情况下的采样点,Pointweak表示弱覆盖采样点,Pointover表示过度覆盖采样点;i表示当前小区编号;
(4)将目标函数设置为强化学习迭代过程中最大化奖励值的依据,将最大化覆盖率设置为强化学习智能体学习的目标,并设置强化学习与网络覆盖优化问题的空间映射,得到工程参数的调整以及覆盖优化结果。
2.根据权利要求1所述的覆盖优化方法,其特征在于,步骤(4)中对环境的建模使用步骤(2)中的网络覆盖预测模型,来模拟现实中的网络环境;
在步骤(4)优化中,智能体和环境交互的过程如下:
(41)初始化Q表,将表格中的动作价值函数赋任意值;
(42)对每个回合执行以下操作:
a、遍历所有小区,使用步骤(3)中的公式计算覆盖率,将计算结果存入表格中;
b、选择覆盖率最低的小区,作为本轮迭代的优化目标小区;
c、按照贪心策略决定动作Action;
d、采样:执行动作Action,得到奖励R和新状态S′;
e、计算回报的估计值:
U←R+γmaxa∈A(S')q(S',a)
式中R表示智能体从环境中获得的奖励,U表示估计的未来的奖励和,γ表示折扣因子,决定了如何在最近的奖励和未来的奖励之间进行取舍;
f、更新价值和策略;
(43)输出动作价值函数q(s,a)的表格;
强化学习覆盖优化输出的Q表中的每一项都对应于一个q(s,a)值,表示在状态为s时,若选择的动作为a获得的收益,在得到Q表后,就在不同的状态下,选择最优的小区天线调整方案a。
3.根据权利要求2所述的覆盖优化方法,其特征在于,步骤(1)中预处理包括:
(101)数据拼接:基站侧静态数据包含基站编号和小区编号,终端路测数据包含样本接入的小区编号,将相同小区编号的基站侧静态数据与终端路测数据进行拼接,拼接后的样本数据包含了终端的信号质量、终端地理位置、接入小区工程参数配置和基站位置;
(102)数据清洗:对拼接后的样本数据进行清洗,去除重复数据样本和不完整数据样本,得到有效数据样本;
(103)样本分类:根据终端采样点的参考信号接收功率与对应阈值的偏差,将终端采样点分为正常覆盖样本、弱覆盖样本和过度覆盖样本。
4.根据权利要求3所述的覆盖优化方法,其特征在于,步骤(103)对于覆盖分类的判定如下:
(1031)弱覆盖定义服务小区不能为接入的移动台提供有效覆盖,表现为无主导小区、覆盖间隙或覆盖盲区,设当前设备位置为x,弱覆盖评价函数如下:
W=-110-RSRP0(x)
RSRP0(x)表示终端的RSRP值,W表示终端RSRP与弱覆盖阈值的偏差值,弱覆盖阈值为-110dBm,Pointweak表示弱覆盖采样点;
若W>0,则处于x位置的终端RSRP低于阈值,判定为弱覆盖样本点,表示该样本点所处位置存在弱覆盖问题;
若W<0,则判定为正常覆盖样本,表示该样本点所处位置覆盖正常;
弱覆盖采样点Pointweak取值为:
Figure FDA0003845049790000031
(1032)过度覆盖定位为服务小区为移动台提供过多的有效覆盖,表现为邻小区为移动台提供了有效覆盖、无主导小区和主导小区信噪比低情况,过度覆盖判定标准如下:
移动台正常接收有效信号,RSRP>-105dBm;
移动台接收到相邻小区的RSRP满足与主服务小区同频率,且信号强度小于6dB的条件,表示移动台收到过多的有效信号,满足该条件的相邻小区数量大于3;
由此可得过度覆盖的评价函数为:
E=(RSRPi(x)+6)-RSRP0(x)
其中,RSRP0表示从主服务小区接收到的参考信号功率,RSRPi表示来自第i个邻区的参考信号功率;
过度覆盖采样点Pointover取值为:
Figure FDA0003845049790000032
其中celli表示第i个小区,neighbors表示与主服务小区相邻且具有相同频点的小区。
5.根据权利要求4所述的覆盖优化方法,其特征在于,步骤(1)得到平衡数据集过程为:
计算预处理后的三个样本中每个采样点的工程参数权重,按照权重的大小对工程参数进行排序,选择排在前面的工程参数,将其他工程参数忽略,得到新数据集合,新数据集合中样本数据的工程参数包括基站的天线电子下倾角、天线机械下倾角、天线方位角、天线发射功率、天线挂高和天线所属基站经纬度;再将新数据集合进行过采样处理,得到平衡数据集。
6.根据权利要求5所述的覆盖优化方法,其特征在于,步骤(4)优化过程为:
(401)设置强化学习环境的状态集合:
将当前小区覆盖率对应的状态空间映射到强化学习环境中,得到的状态集合表示为
Figure FDA0003845049790000033
(402)设置强化学习智能体的动作合集:
将当前基站天线电子下倾角和发射功率调整方向映射到强化学习中,得到的动作合集表示为
Figure FDA0003845049790000041
其中actioneci表示选择调整参数的小区编号,
Figure FDA0003845049790000042
和actionpower分别对应于当前天线下倾角和天线发射功率的调整方向,包括增加、保持当前不变、减少三种动作,表示为{increase,keep,decrease};
(403)设置环境反馈,通过对步骤(502)的调整方向进行评估,实现将弱覆盖与过度覆盖的接入终端数量降到最低;
对奖励函数的评估如下:
Figure FDA0003845049790000043
coveragenew表示智能体选择优化动作后,通过覆盖预测模型输出的小区内终端的覆盖标签计算出的新的覆盖率,coveragecur表示选择优化动作之前的旧覆盖率;
(404)设置强化学习智能体动作选择策略:使用贪心策略代替起始探索,用于在迭代过程中覆盖所有的状态动作对;
贪心策略有如下表示:
Figure FDA0003845049790000044
式中ε表示贪心系数;a表示在当前状态下的动作选择;a*表示在当前状态下q值最大的动作,S表示状态空间,A(s)表示在状态s下的动作空间;
对于一个待优化覆盖率的目标区域,总是由若干的基站部署在其中,每个基站保证其子区域的覆盖率,因此对于全局覆盖率,有:
Figure FDA0003845049790000045
其中,ratiowhole表示目标区域内的全局覆盖率,
Figure FDA0003845049790000046
表示单个小区的覆盖率;标准的贪心策略,有a∈A(s),设定动作集合中包含对小区ECI的选择,因此适当缩小A(s)的范围为A′(s);
在智能体与环境交互后,分别计算每个小区的子覆盖率,在智能体动作选择阶段,加入限定条件如下:
Figure FDA0003845049790000051
ECImin表示覆盖率最低的小区,即对于每一个瞬时时刻,智能体优先选择覆盖率最低的小区,随后对于已选目标小区的联合优化参数
Figure FDA0003845049790000052
和actionpower,使用贪心策略,从参数组合中选择执行的动作;
(405)价值函数更新:智能体根据从环境得到的状态决定其动作,在马尔科夫决策过程中,将策略π定义为从状态到动作的转移概率P,表示:
π(a|s)=P[At=a|St=s],s∈S,a∈A
依据强化学习过程进行覆盖优化的原理在于,在每一轮迭代过程中,改进策略,从而最大化长期奖励;若有R表示智能体每次从环境中获得的奖励,则长期回报Gt有如下表示:
Figure FDA0003845049790000053
γτ表示折扣系数,定义价值函数qπ(s,a)为,
qπ(s,a)=Eπ[Gt|St=s,At=a]
其中Eπ表示在策略π下对回报求期望,St和At分别表示当前所处的状态和选择的动作;
价值函数的更新有如下公式表示:
Qt+1(s,a)=(1-αt)Qt(s,a)+αt(rt+γmaxa′Qt(s′,a′))
其中,Qt(s,a)是状态-动作对在t时刻的值函数,αt∈[0,1]为学习因子,用于控制学习速度;(rt+γmaxa′Qt(s′,a′))为主要的更新内容,γ表示折扣系数;
对于不同的策略π和π′’,若有任意s∈S,都有qπ(s,a)πqπ′(s,a),则策略π小于等于π′’;对于一个强化学习模型来说,总是存在一个或多个π大于其他的策略,将这一个或多个策略称之为最优策略,最优策略对应的价值函数称之为最优价值函数;
在Q学习中,最优动作价值函数表示如下:
Figure FDA0003845049790000054
最优策略表示如下:
Figure FDA0003845049790000061
如果有不止一个的动作使得q*(s,a)最大,则随机选取一个动作执行即可。
CN202110599211.1A 2021-05-31 2021-05-31 面向蜂窝网络的改进式强化学习网络覆盖优化方法 Active CN113473480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110599211.1A CN113473480B (zh) 2021-05-31 2021-05-31 面向蜂窝网络的改进式强化学习网络覆盖优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110599211.1A CN113473480B (zh) 2021-05-31 2021-05-31 面向蜂窝网络的改进式强化学习网络覆盖优化方法

Publications (2)

Publication Number Publication Date
CN113473480A CN113473480A (zh) 2021-10-01
CN113473480B true CN113473480B (zh) 2022-11-04

Family

ID=77871959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110599211.1A Active CN113473480B (zh) 2021-05-31 2021-05-31 面向蜂窝网络的改进式强化学习网络覆盖优化方法

Country Status (1)

Country Link
CN (1) CN113473480B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114143710B (zh) * 2021-11-22 2022-10-04 武汉大学 一种基于强化学习的无线定位方法及系统
CN114205831B (zh) * 2021-12-14 2023-09-29 中国联合网络通信集团有限公司 一种优化方案的确定方法、装置、存储介质及设备
CN115314963A (zh) * 2022-08-05 2022-11-08 厦门大学 基于无线接入网智能控制器的移动切换优化方法及装置
CN115499852A (zh) * 2022-09-15 2022-12-20 西安邮电大学 基于机器学习的毫米波网络覆盖容量自优化方法及装置
CN116827685B (zh) * 2023-08-28 2023-11-14 成都乐超人科技有限公司 基于深度强化学习的微服务系统动态防御策略方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103945398A (zh) * 2014-04-03 2014-07-23 北京邮电大学 基于模糊神经网络的网络覆盖及容量优化系统及优化方法
CN111818542A (zh) * 2020-07-31 2020-10-23 南京邮电大学 一种基于大数据挖掘的网络重叠覆盖优化方法
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11259191B2 (en) * 2018-11-26 2022-02-22 Samsung Electronics Co., Ltd. Methods and apparatus for coverage prediction and network optimization in 5G new radio networks
US11089485B2 (en) * 2019-08-02 2021-08-10 Verizon Patent And Licensing Inc. Systems and methods for network coverage optimization and planning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103945398A (zh) * 2014-04-03 2014-07-23 北京邮电大学 基于模糊神经网络的网络覆盖及容量优化系统及优化方法
CN111818542A (zh) * 2020-07-31 2020-10-23 南京邮电大学 一种基于大数据挖掘的网络重叠覆盖优化方法
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于大数据挖掘的LTE网络重叠覆盖优化方法;张吉 等;《南京邮电大学学报(自然科学版)》;20210105;全文 *
基于随机森林的LTE网络覆盖评估研究;崔春宇;《通讯世界》;20200425(第04期);全文 *

Also Published As

Publication number Publication date
CN113473480A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN113473480B (zh) 面向蜂窝网络的改进式强化学习网络覆盖优化方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN111666149B (zh) 基于深度强化学习的超密边缘计算网络移动性管理方法
Ortiz et al. Reinforcement learning for energy harvesting point-to-point communications
CN105813017B (zh) 用于使用地理定位和网络建模进行动态网络优化的技术
CN111050330B (zh) 移动网络自优化方法、系统、终端及计算机可读存储介质
WO2020228796A1 (en) Systems and methods for wireless signal configuration by a neural network
US6549781B1 (en) System and methods for rapidly determining CDMA network performance
Deng et al. A digital twin approach for self-optimization of mobile networks
CN108075975B (zh) 一种物联网环境中的路由传输路径的确定方法及确定系统
CN105813112A (zh) 用于使用地理定位和网络建模进行动态网络优化的技术
CN112383922A (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
Mwanje et al. Distributed cooperative Q-learning for mobility-sensitive handover optimization in LTE SON
CN111314983A (zh) 一种基于天地一体化网络的跨域无缝切换方法
CN113438315B (zh) 基于双网络深度强化学习的物联网信息新鲜度优化方法
Yap et al. Optimized access point selection with mobility prediction using hidden Markov model for wireless network
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
Liu et al. Energy-saving predictive video streaming with deep reinforcement learning
CN106954268A (zh) 一种sdn架构下接入网资源分配方法
CN115119174A (zh) 灌区场景中基于能耗优化的无人机自主部署方法
WO2022207402A1 (en) Method and system for optimizing a mobile communications network
CN116506863A (zh) 决策优化方法、装置、电子设备及可读存储介质
KR101475082B1 (ko) 가상 단말을 이용한 규칙 기반의 무선망 최적화 방법
Möllerstedt et al. Model Based Residual Policy Learning with Applications to Antenna Control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant