CN112054943B

CN112054943B - 一种移动网络基站流量预测方法

Info

Publication number: CN112054943B
Application number: CN202010979223.2A
Authority: CN
Inventors: 安新朝; 蔡俊青
Original assignee: China Telecom Corp Ltd Hebei Branch
Current assignee: China Telecom Corp Ltd Hebei Branch
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2021-10-08
Anticipated expiration: 2040-09-17
Also published as: CN112054943A

Abstract

本发明公开了一种移动网络基站流量预测方法，属于无线通信数据分析技术领域。其包括：获取现网小区负荷指标、现网小区工参信息以及规划基站信息；计算现网基站覆盖范围、规划基站覆盖范围、现网基站的邻近现网基站集合，以及规划基站的邻近现网基站集合；得到核密度模型；计算该基站的初始预测流量；得到基站流量预测模型；获得规划基站的预测流量等步骤。本发明基于现网实际数据的模拟，得到适用核密度模型并进行初始流量预测，再结合机器学习算法进行二次预测，可实现对规划基站流量的科学、准确预测，为网络建设提供给参考依据，使网络建设成本达到最佳效果。

Description

一种移动网络基站流量预测方法

技术领域

本发明涉及无线通信数据分析技术领域，特别是指一种移动网络基站流量预测方法。

背景技术

在当今移动通信快速发展的时代，随着4G移动通信用户的快速增长，移动通信网络的基础建设，包括基站选址、现场勘查、设备搭建等一系列工作均需要投入大量的时间、物资、财力。如何使前期投资在最短的时间内产生利润成为当前面临的一个重要话题。但是，如何在基站选址前预测投资效益，实现科学建站、利润评估，目前尚处于空白领域。

当前环境下，主要的评估手段是通过粗略的用户分布数据大致评估有无投资需求，而投资后的利润评估建立在主观期望的基础上，无法进行客观、科学的利润评估，存在较大的投资弊端。可见，如何在基站选址等工作前能通过科学的手段评估是否有利润空间、投资必要性，成为当前需要解决的难题。目前，对于移动通信网络来说，尚无相应的科学评估方法。

发明内容

有鉴于此，本发明提出一种移动网络基站流量预测方法，其能够通过规划基站数据，并结合现网小区负荷指标、小区工参两类数据，实现对移动网络规划基站流量的准确预测。

基于上述目的，本发明提供的技术方案是：

一种移动网络基站流量预测方法，其包括以下步骤：

(1)分别从网络话务统计网管系统和小区工参网管处获取现网小区负荷指标、现网小区工参信息以及规划基站信息；

(2)计算各现网基站的覆盖范围、各规划基站的覆盖范围、各现网基站的邻近现网基站集合，以及各规划基站的邻近现网基站集合；

(3)结合现网基站的流量、现网基站的覆盖范围、现网基站与其各邻近现网基站之间的距离，以现网实际数据进行核密度模拟，对现网基站的覆盖范围进行加权校正，得到核密度模型；

(4)基于步骤(3)所得的核密度模型，结合现网基站的流量、现网基站的覆盖范围、现网基站及规划基站与各自邻近现网基站之间的距离，计算每个基站的各邻近现网基站对该基站的流量贡献值，将该基站各邻近现网基站的流量贡献值线性叠加，即得该基站的初始预测流量；

(5)建立机器学习模型，以现网基站的流量作为因变量，以现网基站的初始预测流量、现网基站的覆盖范围、现网基站与其各邻近现网基站的距离、现网基站各邻近现网基站的流量作为自变量，对机器学习模型进行训练，得到基站流量预测模型；

(6)以规划基站的初始预测流量、规划基站的覆盖范围、规划基站与其各邻近现网基站的距离、规划基站各邻近现网基站的流量作为自变量并导入基站流量预测模型，得到规划基站的预测流量。

进一步的，步骤(2)的具体方式为：

(201)从现网小区工参信息中提取现网基站经纬度，根据现网基站经纬度创建泰森多边形，计算泰森多边形的各个顶点到其所属基站的距离，将得到的所有距离进行算术平均，从而得到现网基站的覆盖范围；此外，依据泰森多边形的邻接关系，得到每个现网基站的邻近现网基站集合；

(202)根据规划基站经纬度和现网基站经纬度创建泰森多边形，计算相应泰森多边形的各个顶点到其所属规划基站的距离，将得到的所有距离进行算术平均，从而得到规划基站的覆盖范围；此外，依据泰森多边形的邻接关系，得到每个规划基站的邻近现网基站集合。

从上面的叙述可以看出，本发明技术方案的有益效果在于：

1、本发明基于现网实际数据的模拟，得到适用核密度模型并进行初始流量预测，再结合机器学习算法进行二次预测，可实现对规划基站流量的科学、准确预测。

2、本发明可实现投资效益评估。基于对规划基站的流量预测，实现对规划基站效益的科学评估，为网络建设提供给参考依据，使网络建设成本达到最佳效果。

3、本发明中采用的核密度带宽具有自适应性，基于实际数据模拟，取最优效果情况下的加权值，对基站覆盖范围进行加权作为核密度带宽。该计算方法简单有效，无需采用最小二乘法、交叉法等复杂过程推导验证，具有较好的适用性和推广性,相比采用固定带宽的核密度估计方法，本发明能更好地适用于移动网络基站流量的预测。

4、本发明采用的数据资源类型较少，本发明方法仅采用规划基站信息，并结合现网小区负荷指标、小区工参两类数据即可达到对移动网络规划基站的流量预测。

总之，目前在行业内尚无针对移动网基站流量的预测方法和应用，本发明方法弥补了当前移动通信领域内的一块空白，具有较好的创新性和实用性。

附图说明

为了更加清楚地描述本专利，下面提供一幅或多幅附图，这些附图旨在对本专利的背景技术、技术原理和/或某些具体实施方案做出辅助说明。

图1为本发明实施例中基站流量预测方法的程序模块图。

图2为图1中数据获取和预处理流程图。

图3为图1中基站覆盖范围及邻近现网基站集合的计算流程图。

图4为图1中核密度带宽σ及模型的计算流程图。

图5为图1中基站初始预测流量的计算流程图。

图6为图1中机器学习基站流量预测流程图。

图7为本发明实施例中基站覆盖范围计算示意图。

图8为本发明实施例中标准高斯/正态分布曲线。

图9为本发明实施例中现网/规划基站与邻近现网基站之间的距离计算示意图。

图10为本发明实施例中单个现网基站对规划站点的流量贡献曲线图。

图11为本发明实施例中规划基站初始流量预测效果图。

图12为本发明实施例中初始预测流量准确率效果图。

图13为本发明实施例的相关性评估图。

图14为本发明实施例的预测准确率对比图。

图15为本发明实施例中的预测误差区间分布图。

具体实施方式

为了便于本领域技术人员对本专利技术方案的理解，同时，为了使本专利的技术目的、技术方案和有益效果更加清楚，并使权利要求书的保护范围得到充分支持，下面以具体案例的形式对本专利的技术方案做出进一步的、更详细的说明。

一种移动网络基站流量预测方法，该方法分别通过从网络话务统计网管系统、小区工参网管处获取现网小区负荷指标、小区工参、规划基站信息，并经过解析、数据清洗后，导入Oracle数据库，通过核密度模型算法、机器学习算法等方式，实现对规划基站流量GB_res的预测。

该方法具体过程包括以下步骤：

步骤一，数据获取和预处理。分别从网络话务统计网管系统、小区工参网管处下载小区负荷指标和小区工参信息、规划基站信息，通过解析、数据清洗后得到小区负荷关键指标以及小区工参和规划基站的关键字段，并导入Oracle数据库。

步骤二，基站覆盖范围及邻近现网基站集合的计算。包括现网基站覆盖范围Dis_s、现网基站的邻近现网基站集合E_{s_s}、规划基站覆盖范围Dis_p以及规划基站的邻近现网基站集合E_{p_s}的计算。具体来说：

首先，从小区工参提取现网基站经纬度，并创建泰森多边形，计算泰森多边形的各个顶点到其所属基站的距离，将得到的距离进行算术平均即可得到现网基站的覆盖范围Dis_s。同时，依据泰森多边形的邻接关系，可得每个现网基站的邻近现网基站集合E_{s_s}。

现网基站覆盖范围Dis_s及现网基站的邻近现网基站集合E_{s_s}将用于核密度模型的模拟及输出。

其次，将规划基站经纬度及现网基站经纬度合并后，再次按照上述方法进行计算，即可得到规划基站的覆盖范围Dis_p和规划基站的邻近现网基站集合E_{p_s}。规划基站覆盖范围Dis_p及规划基站的邻近现网基站集合E_{p_s}将用于导入核密度模型从而输出规划基站的初始预测流量。

步骤三，核密度带宽σ及核密度模型的确定。结合现网基站的流量GB_s、现网基站覆盖范围Dis_s、现网基站与各邻近现网基站之间的距离Dis_{s_s}，以现网实际数据进行模拟，对现网基站覆盖范围Dis_s进行加权校正，得到适用核密度模型。根据实验，对现网基站覆盖范围进行β加权即可得到核密度带宽，即现网各基站的核密度带宽σ如下：

σ＝Dis_s*β

步骤四，基站初始流量的计算。基于步骤三得到核密度模型，结合现网基站的流量GB_s、现网基站的覆盖范围Dis_s、现网/规划基站至各自邻近现网基站的距离Dis_{s_s}、Dis_{p_s}，即可得到一个基站(该基站为现网或规划基站)的各邻近现网基站对该基站的流量贡献值，将这些流量贡献值线性叠加，即得该基站的初始预测流量；对于现网基站，初始预测流量记为GB_{s_ini}，对于现网基站，初始预测流量记为GB_{p_ini}；

步骤五，建立基站流量预测模型。以现网基站流量GB_s作为因变量，以现网基站的初始预测流量GB_{s_ini}、现网基站的覆盖范围Dis_s、现网基站至其各邻近现网基站的距离Dis_{s_s}、邻近现网基站集合E_{s_s}内各基站的流量GB_s作为自变量，将其进行关联整合，通过数据转换、清洗后作为训练及测试数据，导入机器学习模型，通过模型训练、调优，获得基站流量预测模型；

步骤六，预测规划基站流量。以规划基站的初始预测流量GB_{p_ini}、规划基站的覆盖范围Dis_p、规划基站至其各邻近现网基站的距离Dis_{p_s}、邻近现网基站集合E_{p_s}内基站的流量GB_s作为自变量，将其进行关联整合，通过数据转换、清洗后导入基站流量预测模型，最终得到规划基站的预测流量GB_res。

众所周知，核密度带宽σ是核密度估计算法的关键参数，其描述了函数的光滑度。只有采用了精确的核密度带宽才能计算出准确的结果。但是，在复杂的无线网络环境中，由于基站的覆盖范围、覆盖场景等因素对核密度估计算法计算准确度均有不同程度的影响，随着规划基站地理位置及周围环境的变化，核密度带宽也要随之校正才能准确预测规划基站流量。因此，单纯的核密度估计算法局限性较大，全网环境下推广性较低。

有鉴于此，本发明提出了一种基于核密度模型及机器学习的移动网络基站流量预测方法，该方法采用大量现网实际数据对核密度估计算法进行模拟，从而得到了核密度估计适用模型。在适用模型输出规划基站初始预测流量GB_{p_ini}的基础上，结合规划基站Enb_p的覆盖范围Dis_p、规划基站Enb_p与邻近现网基站集合E_{p_s}内基站之间的距离Dis_{p_s}以及基站的流量GB_s等信息，导入通过机器学习进行建模、模型训练、调优，得到的基站流量预测模型，并最终完成规划站点的流量GB_res预测。相比八象限均值算法、对数模型算法等常规算法，本方法的准确度明显提升。

规划基站Enb_p的初始预测流量GB_{p_ini}是通过周围多个相邻现网基站集合E_{p_s}内基站各自的核密度估计模型输出流量值的线性叠加得到，其最关键的两个环节是核密度带宽σ以及相邻现网基站集合E_{p_s}的计算。

核密度带宽σ的计算与现网基站Enb_s的覆盖范围Dis_s密切相关，基于小区工参信息创建泰森多边形，计算现网基站的覆盖范围Dis_s，如图7所示，对其进行加权即可得到各自的自适应核密度带宽σ，其表达式如下：

σ＝Dis_s*β

此外，通过将规划基站与现网基站经纬度合并后创建泰森多边形，依据泰森多边形相邻关系，即可得到规划基站的相邻现网基站集合E_{p_s}。

基于上述方法可以得到的现网基站初始预测流量GB_{s_ini}，并结合现网基站Enb_s的覆盖范围Dis_s、现网基站与邻近现网基站集合E_{s_s}内基站之间的距离Dis_{s_s}以及基站流量GB_s等信息，通过机器学习进行建模、模型训练、调优等步骤得到基站流量预测模型。

将上述过程得到的规划基站初始预测流量GB_{p_ini}、规划基站的覆盖范围Dis_p、规划基站与邻近现网基站集合E_{p_s}内基站之间的距离Dis_{p_s}以及基站流量GB_s等信息导入基站流量预测模型，最终完成规划基站的流量GB_res预测。

以下为一个更具体的例子：

如图1所示，一种移动网络基站流量预测方法，该方法基于以下程序模块实现：

数据获取和预处理模块101，用于从网络话务统计网管系统、小区工参网管获取现网小区负荷指标和小区工参信息、规划基站数据，通过解析、清洗后得到其相关关键字段，并导入Oracle数据库。

基站覆盖范围及邻近现网基站集合的计算模块102，包括现网基站覆盖范围Dis_s和现网基站与邻近现网基站集合E_{s_s}的计算、规划基站覆盖范围Dis_p和规划基站与邻近现网基站集合E_{p_s}的计算两部分。

现网基站覆盖范围Dis_s和现网基站与邻近现网基站集合E_{s_s}的计算,从小区工参提取现网基站经纬度，并创建泰森多边形，计算泰森多边形的各个顶点到其各自所属基站的距离，将得到的距离集合进行算术平均即可得到现网基站的覆盖范围Dis_s。同时依据泰森多边形的邻接关系，得到每个现网基站的K层(暂设置为2)邻近现网基站，并计算每个现网基站至K层邻近现网基站的距离Dis_{s_s}，按照距离由小到大的顺序排列，取前N(暂设置为6)个邻近现网基站作为其邻近现网基站集合E_{s_s}。

同理，将规划基站经纬度及现网基站经纬度合并后，按照上述方法即可得到规划基站的覆盖范围Dis_p和规划基站至现网基站的距离Dis_{p_s}，以及规划基站的邻近现网基站集合E_{p_s}。

核密度带宽σ及模型的确定模块103，结合现网基站的流量GB_s及现网基站覆盖范围Dis_s、现网基站与邻近现网基站集合E_{s_s}内基站之间的距离Dis_{s_s}，以现网实际数据进行模拟，对现网基站覆盖范围进行加权校正，得到适用核密度模型。

基站初始流量的计算模块104，包括现网基站和规划基站的初始流量预测两部分，现网基站的初始预测流量GB_{s_ini}用于机器学习模型的训练，而规划基站的初始预测流量GB_{p_ini}用于导入最终的机器学习模型，实现对规划基站的流量预测。

基于模块103得到的核密度模型，将现网基站的流量GB_s、现网基站的覆盖范围Dis_s、现网基站至邻近现网基站集合E_{s_s}内基站的距离Dis_{s_s}，导入核密度模型，便可得到每个邻近现网基站对与之对应的现网基站Enb_s的流量贡献值，通过线性叠加即可得到现网基站的初始预测流量GB_{s_ini}。

同理，将现网基站的流量GB_s、现网基站的覆盖范围Dis_s、规划基站至邻近现网基站集合E_{p_s}内基站的距离Dis_{p_s}导入模块103得到的核密度模型，便可得到每个邻近现网基站对与之对应的规划基站Enb_p的流量贡献值，通过线性叠加即可得到规划基站的初始预测流量GB_{p_ini}。

机器学习预测规划基站流量模块105，包括基站流量预测模型的建立和规划基站流量GB_res的预测输出两大部分。

基站流量预测模型的建立，以现网基站流量GB_s作为因变量，以现网基站的初始预测流量GB_{s_ini}、现网基站的覆盖范围Dis_s、现网基站至邻近现网基站集合E_{s_s}内基站的距离Dis_{s_s}、邻近现网基站集合E_{s_s}内基站的流量GB_s作为自变量，将其进行关联整合，通过数据转换、清洗后作为训练及测试数据，导入机器学习模型，通过模型训练、调优输出基站流量预测模型。

规划基站流量GB_res的预测输出，以规划基站的初始预测流量GB_{p_ini}、规划基站的覆盖范围Dis_p、规划基站至邻近现网基站集合E_{p_s}内基站的距离Dis_{p_s}、邻近现网基站集合E_{p_s}内基站的流量GB_s作为自变量，将其进行关联整合，通过数据转换、清洗后导入基站流量预测模型的输入，即可得到规划基站的最终预测流量GB_res。

本实施例中，如图2所示，数据获取和预处理模块101，用于从网络话务统计网管系统、小区工参网管获取现网小区负荷指标和小区工参信息、规划基站数据，通过解析、数据清洗后得到其相关关键字段，并导入Oracle数据库，其数据关键字段包括如下信息。

小区负荷指标关键字段信息：

字段名称	类型	说明
			日期	TIMESTAMP(6)	日期
地市	VARchar2(10)	地市名称
			ENB	INT	基站标识
CELLID	INT	小区标识
			下行流量均值_GB	FLOAT	近N天历史流量均值(小时级)

小区工参信息、规划基站数据关键字段信息：

字段名称	类型	说明
			地市	VARchar2(10)	地市名称
ENB	INT	基站标识
			CELLID	INT	小区标识
基站类型	VARchar2(5)	宏站/室分
			经度	FLOAT	基站经度
纬度	FLOAT	基站纬度

本实施例中，如图3所示，基站覆盖范围及邻近现网基站集合的计算模块102包括如下步骤：

步骤10201，根据模块101中导入到数据库的小区工参信息，通过Python程序模块从数据库提取地市、基站标识、基站类型、经纬度等信息生成DataFrame集合，存放到内存中，其具体信息示例如下所示。

地市	基站标识	基站类型	经度	纬度
					沧州	96110	宏站	116.3826	37.65448
沧州	95315	宏站	116.5597	38.17528
					沧州	95843	宏站	115.8655	38.31723
沧州	96240	宏站	116.9255	38.62303
					沧州	96709	宏站	116.3826	37.65448
…	…	…	…	…

步骤10202，基于DataFrame集合，通过Python代码模块创建泰森多边形，效果如图7所示。

步骤10203，根据生成的泰森多边形，计算多边形顶点P_j与其所属现网基站S_i之间的距离D_ij，如图7中所示，P₁到S₀的距离为D₀₁，P₂到S₀的距离为D₀₂，以D_ij集合的算术均值作为各现网基站覆盖范围Dis_s,其公式如下所示：

同理，将规划基站信息与现网基站信息合并后，按照上述方法即可得到规划基站的覆盖范围Dis_p

步骤10204，依据泰森多边形的邻接关系，计算现网基站S_i的K层邻近现网基站，并计算其之间的的距离Dis_{s_s}，按照距离由小到大的顺序排序，取前N个现网基站作为邻近现网基站集合E_{s_s}，如图9所示。

同理，将规划基站信息与现网基站信息合并后，按照上述方法即可得到规划基站的邻近现网基站集合E_{p_s}。

以现网基站为例，其覆盖范围和邻近现网基站集合的结果示例如下：

地市	现网基站	现网基站覆盖范围Dis<sub>s</sub>	邻近现网基站标识	与邻近现网基站的距离Dis<sub>s_s</sub>
					沧州	96110	1347	96110	819
沧州	96110	1347	96238	1179
					沧州	96110	1347	96597	1236
沧州	96110	1347	96138	1309
					沧州	96110	1347	96597	2390
沧州	96110	1347	96199	2567
					…	…	…	…	…

本实施例中，如图4所示，核密度带宽σ及模型的确定模块包括如下步骤：

步骤10301，核函数的选择，常用的核函数有矩形核函数、Epanechnikov核函数、高斯核函数等，高斯核函数具有通用性，可在没有先验知识的情况下使用，能更好的不利用有关数据分布的先验知识，对数据分布不附加任何假定，是一种从数据样本本身出发研究数据分布特征的方法，所以本发明中采用的是高斯核函数，其标准正态分布N(0,1)曲线图如图8所示，则表达式为：

步骤10302，基站覆盖范围及与邻近现网基站集合内基站之间的距离为步骤10203和步骤10204得到现网基站覆盖范围Dis_s、现网基站与邻近现网基站集合E_{s_s}内基站之间的距离Dis_{s_s}。

步骤10303，将步骤10302得到的数据导入步骤10301确定的核函数中，通过现网实际数据模拟，对现网基站覆盖范围Dis_s进行加权校正，得到适用核密度估计模型，初始预测准确率如图12所示，其公式如下：

其中，

d：为现网基站与邻近现网基站集合E_{s_s}内基站之间距离Dis_{s_s}的加权值，或规划基站与邻近现网基站集合E_{p_s}内基站之间距离Dis_{p_s}的加权值，即为：

d＝γ*Dis_{s_s}或d＝γ*Dis_{p_s}

σ：即核密度带宽，取值为现网基站覆盖范围Dis_s的加权值，加权系数为β。

α：设置为2，由于实际应用中，距离无负值，为保证正态分布积分为1，需在标准公式的基础乘以2。

本实施例中，如图5所示，基站初始流量的计算模块104包括如下步骤：

步骤10401，现网基站流量，是由现网小区负荷指标通过基站级汇聚得到现网基站流量GB_s，而现网基站覆盖范围和现网基站与邻近现网基站集合内基站之间的距离，是指由步骤10203和步骤10204得到的现网基站覆盖范围Dis_s、现网基站与邻近现网基站集合E_{s_s}内基站之间的距离Dis_{s_s}。

步骤10402，现网基站流量，是由现网小区负荷指标通过基站级汇聚得到现网基站流量GB_s，而现网基站覆盖范围和规划基站与邻近现网基站集合内基站之间的距离，是指由步骤10203和步骤10204得到的现网基站覆盖范围Dis_s、规划基站与邻近现网基站集合E_{p_s}内基站之间的距离Dis_{p_s}。

步骤10403，分别将步骤10401和步骤10402的数据导入步骤10303中确定的核密度模型中，即可得到每个邻近现网基站对与之对应的现网基站或规划基站的流量贡献，单个邻近现网基站的流量贡献计算公式如下：

其中:

d:现网基站或规划基站与邻近现网基站集合内基站之间的距离加权值，即：

d＝γ*Dis_{s_s}或d＝γ*Dis_{p_s}σ:现网基站覆盖范围的加权值，即σ＝Dis_s*β；

α：设置为2；

其流量贡献示意图如图10所示。

步骤10404，将步骤10403中得到的每个邻近现网基站集合E_{s_s}内基站对与之对应的现网基站流量贡献值进行线性叠加，即可得到现网基站的初始预测流量GB_{s_ini}，计算公式如下。

其中，N≤K层邻近现网基站数。

步骤10405，将步骤10403中得到的每个邻近现网基站集合E_{p_s}内基站对与之对应的规划基站流量贡献值进行线性叠加，即可得到规划基站的初始预测流量GB_{p_ini}，计算公式如下。

其预测效果示意图如图11所示。

本实施例中，如图6所示，机器学习预测规划基站流量模块105包括如下步骤：

步骤10501，训练测试数据，以现网基站流量GB_s作为因变量，以步骤10404中得到的现网基站初始预测流量GB_{s_ini}，以及步骤10203、步骤10204中得到的现网基站覆盖范围Dis_s、现网基站与邻近现网基站集合E_{s_s}内基站之间的距离Dis_{s_s}、邻近现网基站集合E_{s_s}内基站流量GB_s等信息作为自变量进行汇聚，最终得到训练、测试数据,其具体表结构如下所示：

字段	解释	示例数据
			现网基站流量	现网基站实际流量GB<sub>s</sub>(因变量)	1.84
初始预测流量	核密度函数计算的现网基站的初始预测流量GB<sub>s_ini</sub>	3.076534
			基站覆盖范围	现网基站覆盖范围Dis<sub>s</sub>	1347
经度	现网基站经度	115.74484
			纬度	现网基站纬度	38.43181
邻站间距_1	与第1邻近现网基站集合内基站的距离Dis<sub>s_s</sub>	819.68
			邻站间距_2	与第2邻近现网基站集合内基站的距离Dis<sub>s_s</sub>	1143.9
…	…	…
			邻站间距_N	与第N邻近现网基站集合内基站的距离Dis<sub>s_s</sub>	1236.29
邻站流量_1	与第1邻近现网基站集合内基站的流量GB<sub>s</sub>	2.72
			邻站流量_2	与第2邻近现网基站集合内基站的流量GB<sub>s</sub>	0.58
…	…	…
			邻站流量_N	与第N邻近现网基站集合内基站的流量GB<sub>s</sub>	1.48

步骤10502，对训练、测试数据清洗、转换。例如，对邻站间距、邻站流量缺失的情况，采用均值的方法进行填充，对基站覆盖范围、邻站间距进行归一化处理等。

步骤10503，选择机器学习模型。在一个实施例中，基于python语言，可通过线性回归、神经网络、随机森林等算法建模预测。

步骤10504，经数据清洗和数据变换完成后，需要选择典型特征结合机器学习算法进行模型训练。

在一个实施例中，通过python语言中RandomForestRegressor.feature_importances_可以进行各特征相关性评估，如图13所示。经相关性评估后提取的典型特征为现网基站初始化预测流量GB_{s_ini}、现网基站覆盖范围Dis_s、现网基站与邻近现网基站集合E_{s_s}内基站之间的距离Dis_{s_s}以及邻近现网基站集合E_{s_s}内基站流量GB_s、经纬度。

步骤10505，对机器学习模型训练。在上述数据及模型选择确定的基础上，加载训练、测试数据，进行模型训练，建立基站流量预测模型。

步骤10506，进行模型评估。对于回归预测模型，目前通常采用的评估方法有R²决定系数、平均绝对误差、均方误差、中值绝对误差等，其中R²决定系数更能直观的体现模型预测的准确度，在一个实施例中，采用R²作为评估标准，其公式如下所示：

为拟合值；

为均值；y_i：为预测值；R²的取值区间为[0,1]，R²越趋近于1，说明预测准确率越高。

步骤10507，通过计算R²值，评估模型是否仍存在参数调优空间。如有，则调整模型参数。在一个实施例中，可通过调整随机森林模型参数max_depth和n_estimators等以提升R²后再次进行评估，直至模型达到最佳状态，输出最终基站流量预测模型。

步骤10508，经模型评估、调优后输出基站流量预测模型。

步骤10509，基于基站流量预测模型对规划基站进行流量预测。将待预测数据导入基站流量预测模型，实现对规划基站的流量预测。其中待预测数据为经步骤10405中得到的规划基站初始预测流量GB_{p_ini}、以及步骤10203、步骤10204中得到的规划基站覆盖范围Dis_p、规划基站与邻近现网基站集合E_{p_s}内基站之间的距离Dis_{p_s}以及集合E_{p_s}内基站流量GB_s等信息汇聚后的数据，其表结构如下：

字段	解释	示例数据
			规划基站预测流量	规划基站预测流量GB<sub>res</sub>(输出值)	2.39
初始预测流量	核密度函数计算的规划基站的初始预测流量GB<sub>p_ini</sub>	1.45
			基站覆盖范围	规划基站覆盖范围Dis<sub>p</sub>	866
经度	规划基站经度	116.545
			纬度	规划基站纬度	38.06033
邻站间距_1	与第1邻近现网基站集合内基站的距离Dis<sub>p_s</sub>	669.76
			邻站间距_2	与第2邻近现网基站集合内基站的距离Dis<sub>p_s</sub>	767.02
…	…	…
			邻站间距_N	与第N邻近现网基站集合内基站的距离Dis<sub>p_s</sub>	984.38
邻站流量_1	与第1邻近现网基站集合内基站的流量GB<sub>s</sub>	3.23
			邻站流量_2	与第2邻近现网基站集合内基站的流量GB<sub>s</sub>	2.15
…	…	…
			邻站流量_N	与第N邻近现网基站集合内基站的流量GB<sub>s</sub>	3.85

基于基站开通时间，结合现网小区负荷数据、小区工参信息，抽取275个基站作为预测对象，分别采用本发明算法和常规算法(如八象限均值算法、对数模型算法等)进行基站流量预测，设置预测误差小于门限GB_thread(暂定1GB)，则认为预测准确，由图14可以看到本发明算法的预测准确率明显提升。

基于预测准确的基站，统计其预测误差分布，从图15可以看出，误差小于0.6范围内，本发明的预测准确数明显优于常规算法(如八象限均值算法、对数模型算法等)。

通过以上描述可以看出，本发明方法通过核密度估计算法得到移动网络规划基站的初始预测流量GB_{p_ini},并结合规划基站Enb_p的覆盖范围Dis_p、规划基站Enb_p与周围相邻现网基站Enb_s之间的距离Dis_{p_s}、周围相邻现网基站集合E_{p_s}内基站的流量GB_s等信息，导入通过机器学习进行建模、模型训练、调优等步骤得到基站的流量预测模型，并最终完成规划基站的流量GB_res预测，可用于对规划基站效益的科学评估。

本发明基于现网基站的初始预测数据建立机器学习模型，并将规划基站的初始预测数据导入模型进行二次预测，实现了对规划基站流量的精确预测。相比常规算法，准确度明显提升。

本发明的算法复杂度低，计算速度快，本发明仅基于核密度模型和机器学习算法即可实现对规划基站流量的准确、快速预测。

本发明有利于实现最大化投资效益。通过对规划基站的流量预测，可以预知开通后基站产生的流量，实现投资效益评估，使网络建设成本达到最佳效果。

本发明仅需要将规划基站信息、小区负荷指标、小区工参信息导入数据库，通过程序调用相关程序模块即可实现快速、准确的规划基站流量预测，使用方便，可为网络建设提供重要的参考依据。

总之，本发明基于规划基站信息，结合现网小区负荷指标、小区工参两类数据，通过核密度模型、机器学习算法即可实现对移动网络规划基站流量的科学、快速、准确预测。

需要理解的是，上述对于本专利具体实施方式的叙述仅仅是为了便于本领域普通技术人员理解本专利方案而列举的示例性描述，并非暗示本专利的保护范围仅仅被限制在这些个例中，本领域普通技术人员完全可以在对本专利技术方案做出充分理解的前提下，以不付出任何创造性劳动的形式，通过对本专利所列举的各个例采取组合技术特征、替换部分技术特征、加入更多技术特征等等方式，得到更多的具体实施方式，所有这些具体实施方式均在本专利权利要求书的涵盖范围之内，因此，这些新的具体实施方式也应在本专利的保护范围之内。

Claims

1.一种移动网络基站流量预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种移动网络基站流量预测方法，其特征在于，步骤(2)的具体方式为：