CN112825576B

CN112825576B - 小区扩容的确定方法、装置以及存储介质

Info

Publication number: CN112825576B
Application number: CN201911142715.XA
Authority: CN
Inventors: 钱兵; 王兵; 张侃; 武巍; 曹诗苑; 薛艳茹; 陈桦; 白燕南
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2023-05-05
Anticipated expiration: 2039-11-20
Also published as: CN112825576A

Abstract

本公开提供了一种小区扩容的确定方法、装置以及存储介质，涉及通信技术领域，其中的方法包括：将与多个小区相对应的历史性能特征样本集划分为训练集和测试集；使用训练集对预设的多个分类模型进行训练，并使用测试集对训练好的多个分类模型进行测试；其中，分类模型包括：KNN模型、逻辑回归模型、决策树模型、随机森林模型和支持向量机模型；基于预测结果从多个分类模型中选取目标模型，使用目标模型对输入的性能特征样本集进行分类处理。本公开的方法、装置以及存储介质，通过对小区性能指标数据进行分析，基于机器学习技术对小区扩容进行预测，自动确定需要进行扩容的小区，可以提高预测的准确率，能够提高运维效率，减少运维成本。

Description

小区扩容的确定方法、装置以及存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种小区扩容的确定方法、装置以及存储介质。

背景技术

LTE网络带来了移动数据业务的急剧增长，不限量套餐的推广与普及对网络资源的配置与优化提出了更严峻的挑战。传统的基于忙时话务量或资源占用率的网络扩容方案因为其固有的局限性，不能及时准确地做好扩容工作，最大化利用网络资源，保障网络质量。现有的网络扩容方法存在问题：1)扩容门限的计算与设置具有局限性，且不够准确兼容；2)静态的扩容配置缺乏灵活性，扩容策略依托人工，效率低，不能保障用户的业务质量。

发明内容

有鉴于此，本公开要解决的一个技术问题是提供一种小区扩容的确定方法、装置以及存储介质。

根据本公开的一个方面，提供一种小区扩容的确定方法，包括：生成与多个小区相对应的历史性能特征样本集；将所述历史性能特征样本集划分为训练集和测试集；使用所述训练集对预设的多个分类模型进行训练，并使用所述测试集对训练好的所述多个分类模型进行测试；其中，所述分类模型包括：KNN模型、逻辑回归模型、决策树模型、随机森林模型和支持向量机模型；基于预测结果从所述多个分类模型中选取目标模型；其中，当需要进行小区扩容预测时，使用所述目标模型对输入的性能特征样本集进行分类处理，确定非扩容小区和扩容小区。

可选地，所述分类模型为KNN模型；所述使用所述训练集对预设的多个分类模型进行训练包括：建立所述KNN模型，设置所述KNN模型的K值、距离和分类决策规则；使用所述训练集对所述KNN模型进行训练。

可选地，所述分类模型为逻辑回归模型；所述使用所述训练集对预设的多个分类模型进行训练包括：建立所述逻辑回归模型，设置所述逻辑回归模型的预测函数和损失函数；使用所述训练集对所述逻辑回归模型进行训练。

可选地，所述分类模型为决策树模型；所述使用所述训练集对预设的多个分类模型进行训练包括：建立所述决策树模型，设置所述决策树模型的CART分类决策树；使用所述训练集对所述决策树模型进行训练。

可选地，所述分类模型为随机森林模型；所述使用所述训练集对预设的多个分类模型进行训练包括：建立所述随机森林模型，设置所述随机森林模型的多个决策树；使用所述训练集对所述随机森林模型进行训练。

可选地，所述分类模型为支持向量机模型；所述使用所述训练集对预设的多个分类模型进行训练包括：建立所述支持向量机模型，设置所述支持向量机模型的目标函数；使用所述训练集对所述支持向量机模型进行训练。

可选地，所述基于预测结果从所述多个分类模型中选取目标模型包括：获取与每个分类模型相对应的预测结果；其中，所述预测结果包括：混淆矩阵和ROC曲线；基于所述混淆矩阵和所述ROC曲线确定预测准确率信息，基于所述准确率信息从所述多个分类模型中选取所述目标模型。

可选地，所述目标模型包括：所述逻辑回归模型。

可选地，所述历史性能特征样本集包括：扩容小区性能特征样本和非扩容小区性能特征样本；所述生成与多个小区相对应的历史性能特征样本集包括：基于扩容小区和非扩容小区的历史数据，生成扩容小区性能特征数据和非扩容小区性能特征数据；对所述扩容小区性能特征数据和所述非扩容小区性能特征数据使用聚类算法进行聚类计算，获得所述扩容小区性能特征样本和所述非扩容小区性能特征样本；其中，所述进行聚类计算使用的算法包括：K-means算法；对所述扩容小区性能特征样本和所述非扩容小区性能特征样本进行特征工程分析并进行降维处理。

根据本公开的另一方面，提供一种小区扩容的确定装置，包括：样本生成模块，用于生成与多个小区相对应的历史性能特征样本集；样本划分模块，用于将所述历史性能特征样本集划分为训练集和测试集；模型训练模块，用于使用所述训练集对预设的多个分类模型进行训练；模型测试模块，用于使用所述测试集对训练好的所述多个分类模型进行测试；其中，所述分类模型包括：KNN模型、逻辑回归模型、决策树模型、随机森林模型和支持向量机模型；预测处理模块，用于基于预测结果从所述多个分类模型中选取目标模型；其中，当需要进行小区扩容预测时，使用所述目标模型对输入的性能特征样本集进行分类处理，确定非扩容小区和扩容小区。

可选地，所述分类模型为KNN模型；所述模型训练模块，用于建立所述KNN模型，设置所述KNN模型的K值、距离和分类决策规则；使用所述训练集对所述KNN模型进行训练。

可选地，所述分类模型为逻辑回归模型；所述模型训练模块，用于建立所述逻辑回归模型，设置所述逻辑回归模型的预测函数和损失函数；使用所述训练集对所述逻辑回归模型进行训练。

可选地，所述分类模型为决策树模型；所述模型训练模块，用于建立所述决策树模型，设置所述决策树模型的CART分类决策树；使用所述训练集对所述决策树模型进行训练。

可选地，所述分类模型为随机森林模型；所述模型训练模块，用于建立所述随机森林模型，设置所述随机森林模型的多个决策树；使用所述训练集对所述随机森林模型进行训练。

可选地，所述分类模型为支持向量机模型；所述模型训练模块，用于建立所述支持向量机模型，设置所述支持向量机模型的目标函数；使用所述训练集对所述支持向量机模型进行训练。

可选地，所述预测处理模块，用于获取与每个分类模型相对应的预测结果；其中，所述预测结果包括：混淆矩阵和ROC曲线；基于所述混淆矩阵和所述ROC曲线确定预测准确率信息，基于所述准确率信息从所述多个分类模型中选取所述目标模型。

可选地，所述目标模型包括：所述逻辑回归模型。

可选地，所述历史性能特征样本集包括：扩容小区性能特征样本和非扩容小区性能特征样本；所述样本生成模块，用于基于扩容小区和非扩容小区的历史数据，生成扩容小区性能特征数据和非扩容小区性能特征数据；对所述扩容小区性能特征数据和所述非扩容小区性能特征数据使用聚类算法进行聚类计算，获得所述扩容小区性能特征样本和所述非扩容小区性能特征样本；其中，所述进行聚类计算使用的算法包括：K-means算法；对所述扩容小区性能特征样本和所述非扩容小区性能特征样本进行特征工程分析并进行降维处理。

根据本公开的又一方面，提供一种小区扩容的确定装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的再一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上所述的方法。

本公开的小区扩容的确定方法、装置以及存储介质，通过对小区性能指标数据进行分析，基于机器学习技术对小区扩容进行预测，自动确定需要进行扩容的小区，可以提高预测的准确率，并不需要人工参与，能够提高运维效率，减少运维成本。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开的小区扩容的确定方法的一个实施例的流程示意图；

图2A至2C为总方差解释示意图；

图3为根据本公开的小区扩容的确定方法的一个实施例中的选取目标模型的流程示意图；

图4为ROC曲线示意图；

图5为根据本公开的小区扩容的确定装置的一个实施例的模块示意图；

图6为根据本公开的小区扩容的确定装置的另一个实施例的示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。下面结合各个图和实施例对本公开的技术方案进行多方面的描述。

图1为根据本公开的小区扩容的确定方法的一个实施例的流程示意图，如图1所示：

步骤101，生成与多个小区相对应的历史性能特征样本集。小区是一种逻辑概念，一个扇区通常会与一个小区对应，或者包含两个或者两个以上的小区。

步骤102，将历史性能特征样本集划分为训练集和测试集。

步骤103，使用训练集对预设的多个分类模型进行训练，并使用测试集对训练好的多个分类模型进行测试，其中，分类模型包括：KNN模型、逻辑回归模型、决策树模型、随机森林模型和支持向量机模型等。

步骤104，基于预测结果从多个分类模型中选取目标模型，其中，当需要进行小区扩容预测时，使用目标模型对输入的性能特征样本集进行分类处理，确定非扩容小区和扩容小区(需要扩容的小区)。将小区的性能特征样本集输入目标模型可以获取需要扩容的小区。

在一个实施例中，历史性能特征样本集包括：扩容小区性能特征样本和非扩容小区性能特征样本。基于扩容小区和非扩容小区的历史数据，生成扩容小区性能特征数据和非扩容小区性能特征数据。扩容小区和非扩容小区的历史数据包括无线网配置、性能和感知等数据，基于数据生成扩容小区性能特征数据和非扩容小区性能特征数据，性能特征可以有多个，包括：RRC连接建立成功率_分子、RRC连接建立成功率_分母、RRC连接建立成功率、空口上行用户面流量、空口下行用户面流量等。

对扩容小区性能特征数据和非扩容小区性能特征数据使用聚类算法进行聚类计算，获得扩容小区性能特征样本和非扩容小区性能特征样本；其中，进行聚类计算使用的算法包括：K-means算法等。例如，基于K-means算法，可以从扩容小区性能特征数据和非扩容小区性能特征数据选取扩容小区性能特征样本和非扩容小区性能特征样本。

在一个实施例中，某公司在2018年4-5月对某省363个通信基站进行了扩容，为构造建模所需数据集，首先在某省4-5月全量性能表中提取扩容基站的全部非新增小区数据，共980个小区，仅保留各小区扩容时间前的性能数据，作为扩容小区原始数据。在其他未扩容基站的小区中随机选取1575个，并仅保留这些小区4月份性能指标数据，作为非扩容小区原始数据。

生成特征(性能特征)：

生成性能表，性能表中共50个字段，分别为：RRC连接建立成功率_分子、RRC连接建立成功率_分母、RRC连接建立成功率、空口上行用户面流量、空口下行用户面流量、平均RRC连接用户数、平均激活用户数、最大RRC连接用户数、UE上下文异常释放次数、UE上下文正常释放次数、UE上下文掉线率、ERAB异常释放次数、ERAB正常释放次数、ERAB掉线率、RRC连接重建成功率分子、RRC连接重建成功率分母、RRC连接重建成功率、ERAB连接建立成功次数、ERAB连接建立请求次数、ERAB连接建立成功率、PRACH信道占用率、RRC连接重建请求次数、RRC连接重建比例分母、RRC连接重建比例、平均CQI分子、平均CQI分母、平均CQI、小区上行DRB数据调度时长、小区下行DRB数据调度时长、系统内切换成功率分子、系统内切换成功率分母、系统内切换成功率、上行PRB平均利用率分子、上行PRB平均利用率分母、上行PRB平均利用率、下行PRB平均利用率分子、下行PRB平均利用率分母、下行PRB平均利用率、PDCCH信道CCE占用率分子、PDCCH信道CCE占用率分母、PDCCH信道CCE占用率、下行分QCI用户体验平均速率分子、下行分QCI用户体验平均速率分母、下行分QCI用户体验平均速率、上行分QCI用户体验平均速率分子、上行分QCI用户体验平均速率分母、上行分QCI用户体验平均速率、用户面下行包平均时延分子、用户面下行包平均时延分母、用户面下行包平均时延。

为便于存储，将这些特征重新用字母编码。按照小区编号对原始数据分组，使用SQL语言和numpy科学计算库分别计算这50个字段的平均值、最大值、标准差、和、25％分位点、50％分位点、75％分位点、大于均值样本比例、大于75％分位点样本比例，共生成450维新特征。

为了便于存储，对上述特征用英文重新编码，在原特征后添加_avg表示均值，_max表示最大值，_sum表示和，_std表示标准差，_con25表示25％分位点，_con50表示50％分位点，_con75表示75％分位点，_con表示大于均值的样本数，_count75表示大于75％分位点的样本数。

添加小区属性信息，分别为：重要等级、应用类型、覆盖类型、频段指示标识。其中，重要等级分为A,B,C,D，用数字1，2，3，4对应表示。应用类型分为W,N,Z，代表室外、室内、室外室内综合，用数字1，2，3对应表示。覆盖类型分为C,J,N，代表城市、郊区、农村，用数字1，2，3对应表示。频段标识指示分为2.1G,1.8G,800M，用数字0，3，1对应表示。目标变量’V1’表示该小区是否需要扩容，0表示不需要，1表示需要。数据集共2555个样本，其中扩容小区980个，非扩容小区1575个，每个小区共454维特征变量。

选取样本：

使用K-Means算法对于给定的样本集(扩容小区性能特征数据和非扩容小区性能特征数据)，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，使簇间的距离尽量的大。假设簇划分为(C₁,C₂,…,C_k)，则目标是最小化平方误差E：

其中，μ_i是簇C_i的均值向量，有时也称为质心，表达式为：

K-Means算法的流程：

(1)K值选取；对基站扩容的预测，聚类结果共分为2类，即K＝2；

(2)输入样本集D＝{x₁,x₂,…,x_m}，聚类簇数K＝2，最大迭代次数N；

(3)从数据集D中随机选择样本作为初始的k个质心向量：{μ₁,μ₂}；

(4)对于n＝1,2,...,N：

4-1)将簇初始化划分为C₁,C₂；

4-2)对于i＝1,2,…,m，计算样本x_i和各个质心向量μ_j(j＝1,2)的距离：

将x_x标记为d_ij最小时所对应的类别，更新簇划分C₁,C₂；

4-3)对于j＝1,2。对C_j中所有的样本点重新计算新的质心

4-4)如果质心不再有显著变化，各样本到质心的距离不再有显著变化时跳到(5)。

(5)输出簇划分C₁,C₂。

聚类分析后的混淆矩阵为表1所示：

	0	1
			0	1355	220
1	870	110

表1-聚类分析后的混淆矩阵对应的数据表

经过聚类分析后，选取扩容小区样本(扩容小区性能特征样本)110条，非扩容小区样本(非扩容小区性能特征样本)1355条。

在一个实施例中，对扩容小区性能特征样本和非扩容小区性能特征样本进行特征工程分析并进行降维处理。可以采用现有的多种特征工程分析方法和降维处理方法，降维是指减少扩容小区性能特征样本和非扩容小区性能特征样本的性能特征的维度。

特征工程：数据和特征决定了机器学习的上限，需要选择有意义的特征输入机器学习的算法和模型进行训练。通常从两个方面考虑来选择特征：

(1)特征是否发散：如果一个特征不发散，例如，方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。

(2)特征与目标的相关性：与目标相关性高的特征，应当优选选择。除方差法外，其他方法均从相关性考虑。

根据特征选择的形式可以将特征选择方法分为3种：

1)Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。

2)Wrapper：包装法，根据目标函数(通常是预测效果评分)，每次选择若干特征，或者排除若干特征。

3)Embedded：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但为通过训练来确定特征的优劣。

T检验是假设检验的一种，又叫student t检验(Student’s t test)，主要用于样本含量较小(例如n<30)，总体标准差σ未知的正态分布资料。T检验用于检验两个总体的均值差异是否显著。T检验有单样本T检验，配对T检验和两样本T检验。

单样本T检验：是用样本均数代表的未知总体均数和已知总体均数进行比较，来观察此组样本与总体的差异性.

配对T检验：是采用配对设计方法观察以下几种情形，1、两个同质受试对象分别接受两种不同的处理；2、同一受试对象接受两种不同的处理；3、同一受试对象处理前后。

卡方检验是一种计数资料的假设检验方法，属于非参数检验的范畴，比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析，其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

检验的基本公式为：

式中A为实际数，T为理论数。

检验结果分析：

利用统计分析软件SPSS(Statistical Product and Service Solutions，统计产品与服务解决方案)进行T检验，将110个扩容小区，扩容前、后各性能指标成对输入，得到各性能指标的P值，将p值大于0.3的性能指标滤除，被滤除的指标分别为最大RRC连接用户数、UE上下文异常释放次数、UE上下文掉线率、RRC连接重建成功率分母、RRC连接重建比例、系统内切换成功率。

卡方检验结果分析：利用SKLEARN机器学习库中的feature_selection类函数进行各变量卡方检验，将各变量的p值输出，保留p值小于0.3的特征。

例如，滤除g_avg,g_max,r_max,x_avg,x_max,ae_avg,ay_std,bc,g_con25,x_con25,ae_con25,g_con50,x_con50,ae_con50,g_con75,x_con75,e_con,f_con,g_con,k_con,v_con,w_con,x_con,aa_con,ae_con,ak_con,aq_con,ar_con,av_con,ay_con,e_count75,f_count75,h_count75,i_count75,k_count75,n_count75,q_count75,v_count75,w_count75,x_count75,y_count75,z_count75,aa_count75,ac_count75,ad_count75,ae_count75,af_count75,ag_count75,ah_count75,ai_count75,am_count75,ao_count75,ap_count75,aq_count75,ar_count75,as1_count75,at1_count75,au_count75,av_count75,aw_count75,ax_count75,ay_count75,az_count75,ba_count75,bb_count75。

在一个实施例中，因子分析与特征降维：在数据建模中，如果特征维度过多，会发生所谓的维度灾难。维度灾难最直接的后果就是过拟合现象，而发生该现象最根本的原因是：

(1)维度增加时，有限的样本空间会越来越稀疏。因此，模型出现在训练集上表现良好，但对新数据缺乏泛化能力的现象。

如果训练集可以达到理论上的无限个，那么就不存在维度灾难，可以用无限个维度去得到一个完美的分类器。训练集样本越少，越应该用少量的特征，如果N个训练样本足够覆盖一个一维的特征空间，那么需要N²个样本去覆盖一个同样密度的二维的特征空间，需要N³个样本去覆盖三维的特征空间，即训练样本多少需要随着维度指数增长。

(2)维度增加时，每个样本数据越来越不可能符合所有维度，这使得大部分样本都变成了噪声。

特征降维就是用来减少维度，去除过拟合现象的方法。特征抽取是指改变原有的特征空间，并将其映射到一个新的特征空间。抽取前后特征值的数值会发生变化，维度会降低，且维度之间会更加独立。

由于训练样本过少，无法同时对所有特征进行因子分析，首先使用SPSS，通过回归分析计算各特征的方差膨胀因子(VIF)。根据VIF值将特征分为三组分别进行因子分析，即VIF>1000为第一组，1000>VIF>100为第二组，VIF<100为第三组。第一组特征共109维，利用SPSS数据分析软件，选择分析-降维-因子分析，采用方差极大法对因子载荷矩阵实行正交旋转。

将因子载荷大于0.5规定为是否进行特征抽取的标准。从总方差解释表(如图2A所示)中可以看出，当主成分个数为6时，累计百分比为84.881，已经包含大部分主成分，所以第一组特征降维后保留6维特征。利用原始样本与成分得分系数矩阵的乘积，可以求得降维后新生成的6维特征。

第二组的94维特征中，根据旋转成分矩阵，al_avg、as_con50不进行特征抽取。从总方差解释表(如图2B所示)中可以看出，当主成分个数为9时，累计百分比为75.944，已经包含大部分主成分，所以第二组特征降维后保留9维特征。利用原始样本与成分得分系数矩阵的乘积，可以求得降维后新生成的9维特征。

第三组的78维特征中，根据旋转成分矩阵,ae_max、ah_con、bb_con、g_std、az_max、al_count75、x_std、bf、g_count75、y_con不进行特征抽取。从总方差解释表(如图2C所示)中可以看出，当主成分个数为15时，累计百分比为75.465，已经包含大部分主成分，所以第三组特征降维后保留15维特征。利用原始样本与成分得分系数矩阵的乘积，可以求得降维后新生成的15维特征。

在一个实施例中，扩容小区性能特征数据和非扩容小区性能特征数据经过样本筛选(使用K-means算法进行聚类计算，选取扩容小区性能特征样本和非扩容小区性能特征样本)、特征工程、特征降维处理后，获得扩容小区性能特征样本和非扩容小区性能特征样本，共1465条，生成与多个小区相对应的历史性能特征样本集；其中，扩容小区性能特征样本110条，非扩容小区性能特征样本1355条，98维特征。目标变量为是否扩容，其中，1表示扩容，0表示非扩容。分别利用K近邻、逻辑回归、决策树、随机森林、支持向量机分别对样本构建分类模型，通过比较准确率、混淆矩阵与ROC曲线，选择最佳分类模型。

在一个实施例中，分类模型为KNN(k近邻)模型。建立KNN模型，设置KNN模型的K值、距离和分类决策规则，使用训练集对KNN模型进行训练。可以采用现有的KNN模型。

KNN算法主要考虑三个重要要素，分别是K值的选择，距离度量和分类决策规则。K值的选择，没有固定的经验，选择较小的k值，相当于用较小的领域中的训练实例进行预测，训练误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是泛化误差会增大，K值的减小就意味着整体模型变得复杂，容易发生过拟合。选择较大的k值，相当于用较大领域中的训练实例进行预测，其优点是可以减少泛化误差，但缺点是训练误差会增大。与输入实例较远(不相似的)训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。所以，需要采用交叉验证法确定最合适的K值。

对于距离的度量，常采用欧式距离，即对于两个n维向量x和y，两者的欧式距离定义为：

对于分类决策规则可以采用多数表决法，即训练集里和预测的样本特征最近的K个样本，预测为有最多类别数的类别。

在一个实施例中，分类模型为逻辑回归(Logistic Regression,LR)模型。建立逻辑回归模型，设置逻辑回归模型的预测函数和损失函数，使用训练集对逻辑回归模型进行训练。可以采用现有的逻辑回归模型。

逻辑回归是一个分类算法，可以处理二元分类以及多元分类。线性回归的模型是求出输出特征向量Y和输入样本矩阵X之间的线性关系系数θ。此时Y是连续的，所以是回归模型。对线性回归的结果做一个在函数g上的转换，可以变化为逻辑回归。函数g一般取sigmoid函数：

当z趋于正无穷时，g(z)趋于1，而当z趋于负无穷时，g(z)趋于0。令g(z)中的z＝xθ，得到二元逻辑回归模型的一般形式：

其中，x为样本输入，h_θ(x)为模型输出，可以为某一分类的概率大小。而θ为分类模型的要求出的模型参数。对于模型输出h_θ(x)，二元样本输出y(假设为0和1)有这样的对应关系，如果h_θ(x)＞0.5，即θx＞0,则y为1。如果h_θ(x)＜0.5，即θx＜0,则y为0。h_θ(x)的值越小，而分类为0的概率越高，反之，值越大的话分类为1的概率越高。如果靠近临界点，则分类准确率会下降。

逻辑回归的损失函数为：

利用梯度下降法使损失函数达到极小值，即可求得参数θ，即：

θ＝θ-αx^T(h_θ(x)-y) (10)；

在一个实施例中，分类模型为决策树(DT)模型。建立决策树模型，设置决策树模型的CART分类决策树，使用训练集对决策树模型进行训练。可以采用现有的决策树模型。

CART分类树算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。在分类问题中，假设有K个类别，第K个类别的概率为PK,则基尼系数的表达式为：

对于二类分类问题：

Gini(p)＝2p(1-p)

对于个给定的样本D,假设有K个类别,第k个类别的数量为C_k,则样本D的基尼系数表达式为：

对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分，则在特征A的条件下，D的基尼系数表达式为：

CART分类树算法每次仅仅对某个特征的值进行二分，而不是多分，这样CART分类树算法建立起来的是二叉树，而不是多叉树。CART分类树建立流程如下：

1)对于当前节点的数据集为D，如果样本个数小于阈值或者没有特征，则返回决策子树，当前节点停止递归。

2)计算样本集D的基尼系数，如果基尼系数小于阈值，则返回决策树子树，当前节点停止递归。

3)计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数。

4)在计算出来的各个特征的各个特征值对数据集D的基尼系数中，选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值，把数据集划分成两部分D1和D2，同时建立当前节点的左右节点，做节点的数据集D为D1，右节点的数据集D为D2。

5)对左右的子节点递归的调用1-4步，生成决策树。

在一个实施例中，分类模型为随机森林(RF)模型。建立随机森林模型，设置随机森林模型的多个决策树，使用训练集对随机森林模型进行训练。可以采用现有的随机森林模型。

RF使用了CART决策树作为弱学习器，在使用决策树的基础上，RF对决策树的建立做了改进，对于普通的决策树，在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分。但是，RF通过随机选择节点上的一部分样本特征，这个数字小于n，假设为n_sub，然后在这些随机选择的n_sub个样本特征中，选择一个最优的特征来做决策树的左右子树划分，进一步增强了模型的泛化能力。

RF的算法的流程为：

1)对于t＝1,2...,T。

a)对训练集进行第t次随机采样，共采集m次，得到包含m个样本的采样集Dt；

b)用采样集Dt训练第t个决策树模型Gt(x)，在训练决策树模型的节点的时候，在节点上所有的样本特征中选择一部分样本特征，在这些随机选择的部分样本特征中选择一个最优的特征来做决策树的左右子树划分。

2)分类算法预测，则T个弱学习器投出最多票数的类别或者类别之一为最终类别。

在一个实施例中，分类模型为支持向量机(Support Vector Machine,SVM)模型。建立支持向量机模型，设置支持向量机模型的目标函数，使用训练集对支持向量机模型进行训练。可以采用现有的支持向量机模型。

分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开。目标函数为：

通过拉格朗日乘子法可得到如下的拉格朗日函数：

其中，α_i≥O，μ_i≥O是拉格朗日乘子。令L(w,b,α,ξ,μ)对w,b,ξ的偏导为零可得：

C＝α_i+μ_i (18)；

将(16)-(18)代入(15)中可得(14)的对偶问题：

KKT条件为：

接下来，用SMO算法求出式(14)最小时对应的α向量的值。即可求得超平面所需的w,b。

在一个实施例中，基于预测结果从多个分类模型中选取目标模型可以采用多种方法。例如，获取与每个分类模型相对应的预测结果，预测结果包括：混淆矩阵和ROC曲线等。基于混淆矩阵和ROC曲线确定预测准确率信息，基于准确率信息从多个分类模型中选取目标模型，目标模型包括：逻辑回归模型等。

可以使用sklearn机器学习工具包实现上述5种分类算法，将历史性能特征样本集随机划分为训练集与测试集，训练集与测试集的比例为5:5。在测试集预测结果如下：

(1)KNN模型，当K＝3时，模型预测效果达到最佳，此时，准确率为0.9918，混淆矩阵如下表2所示：

	0	1
			0	678	0
1	6	49

表2-KNN模型的混淆矩阵对应的数据表

(2)LR模型，当优化算法为loglinear时，模型预测效果达到最佳，此时，准确率为0.9905，混淆矩阵如下表3所示：

	0	1
			0	671	7
1	0	55

表3-LR模型的混淆矩阵对应的数据表

(3)DT模型，当最大深度为6时，模型预测效果达到最佳，此时，准确率为0.9795，混淆矩阵如下表4所示：

	0	1
			0	671	7
1	8	47

表4-DT模型的混淆矩阵对应的数据表

(4)RF模型，当弱分类器个数为50，单个弱分类器最大深度为6时，模型预测效果达到最佳，此时，准确率为0.9986，混淆矩阵如下表5所示：

	0	1
			0	678	0
1	1	54

表5-RF模型的混淆矩阵对应的数据表

(5)SVM模型，当核函数为rbf，惩罚系数C＝0.6时，模型预测效果达到最佳，此时，准确率为0.9890，混淆矩阵如下表6所示：

	0	1
			0	671	7
1	1	54

表6-SVM模型的混淆矩阵对应的数据表

利用上述5种分类算法在测试集得出的ROC(Receiver OperatingCharacteristic)曲线如图4所示，可以看出，LR算法和SVM算法最终的AUC值最大，均为0.99，但LR曲线高于SVM曲线，并且LR模型在测试集预测准确率高于SVM模型，选取LR模型作为扩容预测算法的分类模型。

在一个实施例中，使用LR模型对输入的性能特征样本集进行分类处理，可以使用上述的生成历史性能特征样本集的方法生成需要预测的小区的性能特征样本集，将LR模型应用于某省某市，对各区县的基站扇区进行扩容预测，预测结果统计如下表7所示：

某省某市
		非扩容	扩容
30518	3652

表7-预测结果统计表

如表7可知，需要扩容基站扇区共3652个，不需要扩容扇区共30518个，需要扩容基站扇区占比10.7％。

运营商部署5G网络时，高带宽低时延的特性会进一步促进用户对移动设备的上网需求，网络数据的激增带来更大的网络压力，提前做好扩容工作至关重要；通过对无线网配置、性能和感知数据的分析预测，自动化提出扩缩容建议策略，能够减少运维成本，提升网络资源利用率；自动化的扩容配置，能够快速准确地适配未来业务需求，保障网络质量。

在一个实施例中，本公开提供一种小区扩容的确定装置50，包括：样本生成模块51、样本划分模块52、模型训练模块53、模型测试模块54和预测处理模块55。

样本生成模块51生成与多个小区相对应的历史性能特征样本集。样本划分模块52将历史性能特征样本集划分为训练集和测试集。模型训练模块53使用训练集对预设的多个分类模型进行训练。模型测试模块54使用测试集对训练好的多个分类模型进行测试，其中，分类模型包括：KNN模型、逻辑回归模型、决策树模型、随机森林模型和支持向量机模型。预测处理模块55基于预测结果从多个分类模型中选取目标模型，其中，当需要进行小区扩容预测时，使用目标模型对输入的性能特征样本集进行分类处理，确定非扩容小区和扩容小区。

在一个实施例中，分类模型为KNN模型，模型训练模块53建立KNN模型，设置KNN模型的K值、距离和分类决策规则，使用训练集对KNN模型进行训练。分类模型为逻辑回归模型，模型训练模块53建立逻辑回归模型，设置逻辑回归模型的预测函数和损失函数，使用训练集对逻辑回归模型进行训练。

分类模型为决策树模型，模型训练模块53建立决策树模型，设置决策树模型的CART分类决策树，使用训练集对决策树模型进行训练。分类模型为随机森林模型，模型训练模53建立随机森林模型，设置随机森林模型的多个决策树，使用训练集对随机森林模型进行训练。分类模型为支持向量机模型，模型训练模块53建立支持向量机模型，设置支持向量机模型的目标函数，使用训练集对支持向量机模型进行训练。

预测处理模块55获取与每个分类模型相对应的预测结果，其中，预测结果包括：混淆矩阵和ROC曲线。预测处理模块55基于混淆矩阵和ROC曲线确定预测准确率信息，基于准确率信息从多个分类模型中选取目标模型。目标模型包括：逻辑回归模型等。

在一个实施例中，历史性能特征样本集包括：扩容小区性能特征样本和非扩容小区性能特征样本。样本生成模块51基于扩容小区和非扩容小区的历史数据，生成扩容小区性能特征数据和非扩容小区性能特征数据。样本生成模块51对扩容小区性能特征数据和非扩容小区性能特征数据使用聚类算法进行聚类计算，获得扩容小区性能特征样本和非扩容小区性能特征样本，其中，进行聚类计算使用的算法包括：K-means算法。样本生成模块51对扩容小区性能特征样本和非扩容小区性能特征样本进行特征工程分析并进行降维处理。

图6为根据本公开的小区扩容的确定装置的另一个实施例的模块示意图。如图6所示，该装置可包括存储器61、处理器62、通信接口63以及总线64。存储器61用于存储指令，处理器62耦合到存储器61，处理器62被配置为基于存储器61存储的指令执行实现上述的小区扩容的确定方法。

存储器61可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器61也可以是存储器阵列。存储器61还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器62可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的小区扩容的确定方法的一个或多个集成电路。

在一个实施例中，本公开提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上任一个实施例中的小区扩容的确定方法。

上述实施例中的小区扩容的确定方法、装置以及存储介质，提供了基于人工智能算法的样本选取方法，对于小区样本使用聚类算法分析数据，选区扩容、非扩容小区的样本；提供了基于特征工程的数据处理方法，对原始的性能指标数据做特征生成及特征选择，生成数据模板，从而提高后续模型预测的准确率；提供了基于AI技术的小区扩容预测方法，不需人工参与，能够提升效率。

上述实施例中的小区扩容的确定方法、装置以及存储介质，通过对小区基站性能指标数据进行分析，基于机器学习技术对小区扩容进行预测，自动确定需要进行扩容的小区，可以提高预测的准确率，并不需要人工参与，能够提高运维效率，减少运维成本。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种小区扩容的确定方法，包括：

生成与多个小区相对应的历史性能特征样本集；

其中，所述历史性能特征样本集包括：扩容小区性能特征样本和非扩容小区性能特征样本；基于扩容小区和非扩容小区的历史数据，生成扩容小区性能特征数据和非扩容小区性能特征数据；对所述扩容小区性能特征数据和所述非扩容小区性能特征数据使用聚类算法进行聚类计算，获得所述扩容小区性能特征样本和所述非扩容小区性能特征样本；所述进行聚类计算使用的算法包括：K-means算法；对所述扩容小区性能特征样本和所述非扩容小区性能特征样本进行特征工程分析并进行降维处理，减少所述扩容小区性能特征样本和所述非扩容小区性能特征样本的性能特征的维度；

将所述历史性能特征样本集划分为训练集和测试集；

使用所述训练集对预设的多个分类模型进行训练，并使用所述测试集对训练好的所述多个分类模型进行测试；其中，所述分类模型包括：KNN模型、逻辑回归模型、决策树模型、随机森林模型和支持向量机模型中的一种；

基于预测结果从所述多个分类模型中选取目标模型,包括：

获取与每个分类模型相对应的预测结果；其中，所述预测结果包括：混淆矩阵和ROC曲线；基于所述混淆矩阵和所述ROC曲线确定预测准确率信息，基于所述准确率信息从所述多个分类模型中选取所述目标模型；所述目标模型包括：所述逻辑回归模型；

其中，当需要进行小区扩容预测时，使用所述目标模型对输入的性能特征样本集进行分类处理，确定非扩容小区和扩容小区。

2.如权利要求1所述的方法，所述分类模型为KNN模型；所述使用所述训练集对预设的多个分类模型进行训练包括：

建立所述KNN模型，设置所述KNN模型的K值、距离和分类决策规则；

使用所述训练集对所述KNN模型进行训练。

3.如权利要求1所述的方法，所述分类模型为逻辑回归模型；所述使用所述训练集对预设的多个分类模型进行训练包括：

建立所述逻辑回归模型，设置所述逻辑回归模型的预测函数和损失函数；

使用所述训练集对所述逻辑回归模型进行训练。

4.如权利要求1所述的方法，所述分类模型为决策树模型；所述使用所述训练集对预设的多个分类模型进行训练包括：

建立所述决策树模型，设置所述决策树模型的CART分类决策树；

使用所述训练集对所述决策树模型进行训练。

5.如权利要求1所述的方法，所述分类模型为随机森林模型；所述使用所述训练集对预设的多个分类模型进行训练包括：

建立所述随机森林模型，设置所述随机森林模型的多个决策树；

使用所述训练集对所述随机森林模型进行训练。

6.如权利要求1所述的方法，所述分类模型为支持向量机模型；所述使用所述训练集对预设的多个分类模型进行训练包括：

建立所述支持向量机模型，设置所述支持向量机模型的目标函数；

使用所述训练集对所述支持向量机模型进行训练。

7.一种小区扩容的确定装置，包括：

样本生成模块，用于生成与多个小区相对应的历史性能特征样本集；

其中，所述历史性能特征样本集包括：扩容小区性能特征样本和非扩容小区性能特征样本；所述样本生成模块，用于基于扩容小区和非扩容小区的历史数据，生成扩容小区性能特征数据和非扩容小区性能特征数据；对所述扩容小区性能特征数据和所述非扩容小区性能特征数据使用聚类算法进行聚类计算，获得所述扩容小区性能特征样本和所述非扩容小区性能特征样本；所述进行聚类计算使用的算法包括：K-means算法；对所述扩容小区性能特征样本和所述非扩容小区性能特征样本进行特征工程分析并进行降维处理，减少所述扩容小区性能特征样本和所述非扩容小区性能特征样本的性能特征的维度；

样本划分模块，用于将所述历史性能特征样本集划分为训练集和测试集；

模型训练模块，用于使用所述训练集对预设的多个分类模型进行训练；

模型测试模块，用于使用所述测试集对训练好的所述多个分类模型进行测试；其中，所述分类模型包括：KNN模型、逻辑回归模型、决策树模型、随机森林模型和支持向量机模型中的一种；

预测处理模块，用于基于预测结果从所述多个分类模型中选取目标模型，包括：获取与每个分类模型相对应的预测结果；其中，所述预测结果包括：混淆矩阵和ROC曲线；基于所述混淆矩阵和所述ROC曲线确定预测准确率信息，基于所述准确率信息从所述多个分类模型中选取所述目标模型，所述目标模型包括：所述逻辑回归模型；其中，当需要进行小区扩容预测时，使用所述目标模型对输入的性能特征样本集进行分类处理，确定非扩容小区和扩容小区。

8.如权利要求7所述的装置，所述分类模型为KNN模型；

所述模型训练模块，用于建立所述KNN模型，设置所述KNN模型的K值、距离和分类决策规则；使用所述训练集对所述KNN模型进行训练。

9.如权利要求7所述的装置，所述分类模型为逻辑回归模型；

所述模型训练模块，用于建立所述逻辑回归模型，设置所述逻辑回归模型的预测函数和损失函数；使用所述训练集对所述逻辑回归模型进行训练。

10.如权利要求7所述的装置，所述分类模型为决策树模型；

所述模型训练模块，用于建立所述决策树模型，设置所述决策树模型的CART分类决策树；使用所述训练集对所述决策树模型进行训练。

11.如权利要求7所述的装置，所述分类模型为随机森林模型；

所述模型训练模块，用于建立所述随机森林模型，设置所述随机森林模型的多个决策树；使用所述训练集对所述随机森林模型进行训练。

12.如权利要求7所述的装置，所述分类模型为支持向量机模型；

所述模型训练模块，用于建立所述支持向量机模型，设置所述支持向量机模型的目标函数；使用所述训练集对所述支持向量机模型进行训练。

13.一种小区扩容的确定装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至6中任一项所述的方法。

14.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如权利要求1至6中任一项所述的方法。