CN105163326A

CN105163326A - 一种基于无线网络话务特征的小区聚类方法和系统

Info

Publication number: CN105163326A
Application number: CN201510642088.1A
Authority: CN
Inventors: 吴冬华; 欧阳晔; 胡岳; 代心灵; 石路路; 闫兴秀
Original assignee: Nanjing Hua Su Science And Technology Co Ltd
Current assignee: Nanjing Hua Su Science And Technology Co Ltd
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2015-12-16
Anticipated expiration: 2035-09-30
Also published as: CN105163326B

Abstract

一种基于无线网络话务特征的小区聚类方法，主要包括五个步骤：S1选择待处理数据；S2提取每个待处理数据的“特征参数”；S3对待处理数据进行聚类最优K值选取；S4利用选取的最优K值运用五种聚类算法对待处理数据进行聚类整合；S5将聚类结果与地理信息系统中的地理信息进行结合，并显示结合后的聚类结果。本发明通过聚类得到话务数据类似的小区，为移动运营商提供了一个评估和规划网络容量的辅助方案。

Description

一种基于无线网络话务特征的小区聚类方法和系统

技术领域

本发明涉及移动通信领域尤其涉及一种基于无线网络话务特征的小区聚类方法。

背景技术

移动通信技术是一个不断演进的过程，随着4G网络大规模的建设，目前在2/3/4G混合组网的情况下，网络复杂性也在进一步提高，因此，为了适应这样的变革，移动运营商在考虑潜在的4G需求时，应该分析当前不同小区的无线网络话务特征，借以高效低能耗的对网络话务特征的聚类算法，整理出无线网络话务特征相似的小区，从而为运营商提供一种新的网络优化方式基于批处理方式的实现成为可能。

在数据处理过程中，将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。在对大数据量的小区话务信息进行识别时，对其进行聚类计算，即是根据不同的阈值将不同的小区分成不同的类，以便获取哪些小区属于同一个类别，并最终实现相似小区的聚类。

现有的聚类算法不论在适用范围上还是聚类效果上均会存在一些限制和缺陷。如经典的k-means聚类算法，其结果好坏依赖于对初始聚类中心的选择，并且存在对异常数据较为敏感、只能处理数值属性的数据、聚类结构可能不平衡等问题。而层次聚类也会出现计算复杂度太高、奇异值也能产生很大影响以及算法很可能聚类成链状等问题。因此如何规避现有算法的缺点，减少聚类误差，提高聚类准确性是目前亟需解决的问题。

基于以上原因，为了精确地规划、设计不同小区的2G/3G/4GLTE网络，直观的发现话务数据类似的小区，为不同类型的小区提供有针对性优化方案，本文将提供涉及移动通信领域尤其涉及一种话务量小区级的聚类方法和系统。此方法中的数据来源是基于小区级的话务量。本专利通过聚类得到话务数据类似的小区，为移动运营商提供了一个评估和规划网络容量的辅助方案，此方案不依赖于任何厂商。

发明内容

本发明所解决的技术问题是：采用数据挖掘技术从源数据中挖掘出有用的信息对数据进行聚类，特别是针对移动通讯领域中的小区实现准确的聚类，利用选取的最优K值运用五种聚类算法对待处理数据进行聚类整合，规避现有算法聚类误差大的缺陷；也为移动运营商提供一个评估、规划和设计网络时的参考依据。

为解决以上技术问题，本发明提供了一种基于无线网络话务特征的小区聚类方法，包括如下步骤：S1选择待处理数据；S2提取每个待处理数据的“特征参数”；S3对待处理数据进行聚类最优K值选取；S4利用选取的最优K值运用五种聚类算法对待处理数据进行聚类整合；S5将聚类结果与地理信息系统中的地理信息进行结合，并显示结合后的聚类结果。

步骤S1中所述待处理数据为有关小区话务在一段时间范围内建立的RSCP和Ec/Io两个关键指标的小区级秒粒度话务统计信息表和对该段时间范围采用时间序列拟合算法建立的小区级秒粒度话务信息时间序列。

步骤S2中所述的特征参数是指对小区话务的两个关键指标RSCP和Ec/Io的话务特征分别提取的最大值、95％分位数、5％分位数、均值、中位数、方差、偏度和峰度、序列关联性、非线性、频率、稳定性和持续性；以及关于小区级秒粒度话务信息时间序列的趋势、季节性、序列关联性、非线性、偏度和峰度。

步骤S3中所述的最优K值选取的方法是通过计算BWP指标、Calinski-Harabasz指标和Silhouette指标，选择聚类效果最好的指标所对应的K值为聚类最优K值。

步骤S4中所述运用五种聚类算法对待处理数据进行聚类整合是指运用五类聚类算法对所有小区进行聚类，并将结果向量转化成聚类结果相似矩阵，把五个聚类结果相似矩阵取均值再根据阈值取值后转回成聚类结果向量，得到此聚类方法的最终结果。

一种基于无线网络话务特征的小区聚类系统，其特征在于，该系统包括：1)数据库模块，用于导入待处理数据；2)特征参数提取模块，用于提取每个待处理数据的“特征参数”；3)K值选取模块，通过计算BWP指标、Calinski-Harabasz指标和Silhouette指标三大指标对数据进行聚类，选择聚类效果最好的指标所对应的K值为聚类最优K值；4)聚类分析模块，利用选取的最优K值，运用五种聚类算法对待处理数据进行聚类整合；5)可视化模块，将聚类结果与地理信息系统中的地理信息进行结合，并显示结合后的聚类结果。

本发明的上述技术方案具有如下优点：在无线网络测量报告中选取关键性指标，从大量真实数据样本中剖析出的若干特征值，同时将真实数据进行降粒度分解，从而有利于提高特征值提取的效率和聚类算法实施过程中的速度。取代了传统的仿真模型，利用大数据技术，将海量历史数据利用合适的数据挖掘和机器学习算法，挖掘出无线网络质量的各项特征，从而为小区特征的聚类提供了一套系统化，准确率高的方案系统。传统的电信运营商，设备商利用简单的时间序列算法等进行网络话务的评估，使用单纯的数学方法往往脱离实际。本方法有效的将无线网络质量的各项特征融入了数学聚类计算之中，显著的提高了整套解决方案的可信度、准确率和效度。利用真实的网络大数据，进行大数据的分析处理，是一种基于真实网络范式的类型聚集过程。在这个过程中我们的方法把每一个小区用户的多个无线网络质量特征剥离出来，这样有效的将无线网络质量特征在数据模型里真实的展现出来，使得理论结果产生了实际意义。

附图说明

图1为本发明实施例提供的一种基于无线网络话务特征的小区聚类方法；

图2为采用本发明的发法将聚类结果结合地图显示。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

本发明所介绍的方法可以通过对数据特征的提取，对特征值相似的数据进行聚类，本发明不仅仅可以针对小区话务量的数据处理，还可以处理对其他事物特征数据的聚类，如人群特征、收入特征、消费特征等，这里仅以小区的话务量为例进行具体实施方式的介绍。

S1选择待处理数据；

获取1600个小区网络话务量的历史数据，将各小区在时间粒度上两周8个忙时的两个关键指标(KPI：KeyPerformanceIndicator)抽取进行时间粒度降级，以建立小区级秒粒度话务统计信息表；其关键指标(KPI)是RSCP和Ec/Io。RSCP(ReceivedSignalCodePower)为接收信号码功率(简称电平值)，指的是在DPCH、PRACH或PUSCH等物理信道上收到的某一个信号码功率。Ec/Io，E是Energy(能量)简称，c是Chip(码片)指平均能量，I是Interfere(干扰)的简称，o是OtherCell的简称，体现了所接收信号的强度和邻小区干扰水平的比值。采用时间序列拟合算法选取两周8个忙时的时间范围，建立小区级秒粒度话务信息时间序列。

S2提取每个待处理数据的“特征参数”；

根据小区级秒粒度话务统计信息表和小区级秒粒度话务信息时间序列，计算该时间段内各个小区19个无线网络话务特征。分别对小区两个KPI进行话务特征抽取，得到每个小区对应的38个话务特征。特征数据分别是关于小区级秒粒度话务统计信息表的最大值、95％分位数(95％percentile)、5％分位数(5％percentile)、均值(mean)、中位数(median)、方差(variance)、偏度(skewness)和峰度(kurtosis)、序列关联性(Serialcorrelation)、非线性(non-linearity)、频率(Frequency)、稳定性(chaotic)和持续性(selfsimilarity)。以及关于时间序列的趋势(trend)、季节性(seasonality)、序列关联性(Serialcorrelation)、非线性(non-linearity)、偏度(skewness)和峰度(kurtosis)从而得到各个小区的38维数据特征值。

分别提取小区两个指标KPI的19个话务特征，得到38个话务特征值，具体包括如下内容：

1)最大值(max)：指在给定情形下可以达到的最大数值。

2)95％分位数(95％percentile)：指连续分布函数中位于95％位置的点。

3)5％分位数(5％percentile)：指连续分布函数中位于5％位置的点。

4)均值(mean)：指一组数据集中趋势的量数，是指在一组数据中所有数据之和再除以这组数据的个数。

5)中位数(median)：指一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。

6)方差(variance)：方差是各个数据分别与其平均数之差的平方的和的平均数，用来度量随机变量和其数学期望(即均值)之间的偏离程度。

7)偏度(skewness)：偏度检验，描述某变量取值分布对称性的统计量。如果是正太分布的话.偏度是三阶中心距，值为0。Skewness＝0，分布形态与正态分布偏度相同Skewness>0正偏差数值较大，为正偏或右偏。长尾巴拖在右边。Skewness<0负偏差数值较大，为负偏或左偏。长尾巴拖在左边。计算公式：Skewness＝E[((x-E(x))/(\sqrt{D(x)}))^3]，|Skewness|越大，分布形态偏移程度越大。

8)峰度(kurtosis)：是否陡度较大。尖顶峰、陡度大峰度检验，描述某变量所有取值分布形态陡缓程度的统计量，它是和正态分布相比较的Kurtosis＝0与正态分布的陡缓程度相同。Kurtosis>0比正态分布的高峰更加陡峭——尖顶峰。Kurtosis<0比正态分布的高峰来得平坦——平顶峰。计算公式：Kurtosis＝E[((x-E(x))/(\sqrt(D(x))))^4]-3四阶中心距-3.如果是正态分布，那么偏度、峰度均为0.

9)序列关联性(serialcorrelation)：得到非白噪，是否含有用信息提取。纯随机性检验，p值小于5％，序列为非白噪声(非随机信号或随机过程)。得到白噪声序列，就说明时间序列中有用的信息已经被提取完毕了，剩下的全是随机扰动，是无法预测和使用的，残差序列如果通过了白噪声检验，则建模就可以终止了，因为没有信息可以继续提取。如果残差不是白噪声，就说明残差中还有有用的信息，需要修改模型或者进一步提取。

10)非线性(non-leanrity)：是否样本可估计总体。非线性回归检测(样本是否可线性相关总体)，p值小于5％，序列为线性相关，回归方程是对变量的总体间的线性的一个估计，建立的回归方程是建立在样本上的回归方程，只是完成了统计分析中变量关系的统计描述，研究者还必须回答它所来自总体的回归关系是否确实存在，因此要进行回归方程的假设检验。通俗地讲，用样本来估计总体，都要进行假设检验。

11)频率(frequency)：指单位时间内周期性变化的次数，描述周期运动的频繁程度。

12)稳定性(chaotic)：用来判断样本是否稳定。Lyapunov指数描述随机稳定性的边界，是衡量系统动力学特性的一个重要定量指标，它表征了系统在相空间中相邻轨道间收敛或发散的平均指数率。对离散动力系统，或者说是非线性时间序列，往往不需要计算出所有的Lyapunov指数，通常只需计算出其最大的Lyapunov指数即可。“1983年，格里波基证明了只要最大Lyapunov指数大于零，就可以肯定混沌的存在”。判断标准:一个正的Lyapunov指数，意味着在系统相空间中，无论初始两条轨线的间距多么小，其差别都会随着时间的演化而成指数率的增加以致达到无法预测，这就是混沌现象。混沌系统的基本特点就是系统对初始值的极端敏感性，两个相差无几的初值所产生的轨迹，随着时间的推移按指数方式分离，lyapunov指数就是定量的描述这一现象的量。

13)持续性(selfsimilarity)：是否序列可持续。Hurst指数(赫斯特指数)，描述非函数长周期的重要指标。作为判断时间序列数据是随机游走还是有偏的随机游走。它有别于传统单位根检验，可以发现时间序列存在的超长周期性，可以用于判断市场风险当H＝0.5时表示时间序列可以用随机游走来描诉。当0.5<H<＝1，表示黑噪声(持续性)，即暗示长期记忆的时间序列。当0<＝H<0.5，表示粉红噪声(反持续性)，即均值回复过程。

14)趋势(trend)：时间序列随时间而逐渐增加或减少的变化趋势，受某种长期的决定性因素影响。利用Loess(局部加权回归)平滑方法分解出时间序列的趋势项。

15)季节性(seasonality)：时间序列在一定时间内，呈现出固有规则(周期性)的重复变动，一般受到自然条件或社会条件影响而形成。利用Loess(局部加权回归)分解出时间序列的季节项。

S3对待处理数据进行聚类最优K值选取；

K-MEANS聚类最优K的选取

分别计算BWP(BETWEEN-WITHNESS-PROPORTION)指标、Calinski-Harabasz指标和Silhouette指标，对小区话务数据进行聚类，选择聚类效果最好的指标所对应的K值为聚类最优K，即先对三大指标分别求最优k，找出三个最优k中的最小值作为聚类最优k。

具体内容包括：

(a)BWP(BETWEEN-WITHNESS-PROPORTION)：涉及单个样本的类内平均距、类间最小距，BWP是使用类间最小距离与类内平均距离进行计算。

公式：

BWP＝(类间最小距-类内平均距)/(类间最小距+类内平均距[-1，1]

当类内平均距/类间最小距＝渐近为0，即可忽略时，BWP＝(1-0)/(1+0)＝1，说明类间最小距极大，类内极小，符合聚类效果，聚类结果正确；

当类间最小距/类内平均距＝渐近为0，即可忽略时，BWP＝(0-1)/(0+1)＝-1，说明类间最小距极小，类内极大，分类半径过大，不符合聚类效果，聚类结果错误；

以上为单个样本的BWP，在实际中，当K取某个值时，需对所有的样本求取BWP，并取BWP的均值，BWP均值越大(趋近1)，聚类效果越好，找出使BWP均值最大时的k，为最优k。

(b)Calinski-Harabasz指标(CH)：使用类中心距离平方和与类中心、数据集中心之距离平方和比值。

公式：

C H (N C) = \frac{\frac{1}{N C - 1} Σ_{i = 1}^{N C} n_{i} d^{2} (c_{i}, c)}{\frac{1}{n - N C} Σ_{i = 1}^{N C} \underset{x &Element; C_{i}}{Σ} d^{2} (x, c_{i})}

其中，NC是聚类个数，c表示每个类的中心点，用c_i表示第i类的中心点。n_i是第i类所包含的个数，d(x₁,x₂)表示对象之间的距离。n为数据集的行数。

CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度，通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度，CH指标由分离度与紧密度的比值得到。从而，CH越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果。

(c)Silhouette指标(S，轮廓系数)：类与类之间各对象两两之间的距离以及类中各对象两两之间的距离来衡量

公式：

S (N C) = \frac{1}{N C} Σ_{i = 1}^{N C} {\frac{1}{n_{i}} \underset{x &Element; C_{i}}{Σ} \frac{b (x) - a (x)}{m a x [b (x), a (x)]}}

其中，

a (x) = \frac{1}{n_{i} - 1} \underset{x, y &Element; C_{i}, x &NotEqual; y}{Σ} d (x, y), b (x) = \min_{j, j &NotEqual; i} [\frac{1}{n_{j}} \underset{x &Element; C_{i}, y &Element; C_{j}}{Σ} d (x, y)] .

S指标通过计算类与类之间各对象两两之间的距离以及类中各对象两两之间的距离来衡量聚类质量。同时，该指标在取最大值时表示聚类结果最优。

S4利用选取的最优K值运用五种聚类算法对处理数据进行聚类整合

五种聚类方法

对1600个小区的38个话务特征利用新型聚类方法进行多维聚类，得到话务数据相似的小区。五类聚类算法具体内容如下：

(a)K-均值聚类(K-MeansClustering)：k均值聚类最早出现的聚类分析算法之一，是最著名的划分聚类算法，由于简洁和效率使得他成为所有聚类算法中最广泛使用的。K-均值聚类适合处理分布集中的大样本数据，其思路是以随机选取的k(预设类别数)个样本点作为起始中心点，将其余样本点归入相似度最高的中心点所在的簇(cluster)，再确立当前簇中样本坐标的均值为新的中心点，依次循环迭代下去，直至所有的样本所属类别不再变动。K-均值聚类方法在中小规模的数据库中发现球状簇很好使用，但是该算法只能处理数值型数据。

(b)Ward层次聚类(WardHierarchicalClustering)：层次聚类就是通过对数据集按照某种方法进行层次分解，直到满足某种条件为止。按照分类原理的不同，可以分为凝聚和分裂两种方法。凝聚的层次聚类是一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者某个终结条件被满足，绝大多数层次聚类方法属于这一类，它们只是在簇间相似度的定义上有所不同。这里采用离Ward最小方差法(或称Ward离差平方和法，METHOD＝WARD)首先将每个样品各自成一组，每次通过合并减少一组，此时离差平方和出现并逐步增大，选择使离差平方和增加最小的两组合并，知道所有的样品归为一类为止。Ward方法并类时总是使得并类导致的类内离差平方和增量最小。

(c)基于模型的聚类(ModelBasedClustering)：基于模型的方法为每个簇假定了一个模型，寻找数据对此模型的最佳拟合。一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定位聚类，它也可能基于标准的统计数字自动决定聚类的数目，考虑“噪声”数据和孤立点，从而产生健壮的聚类方法。在实际应用中，一些聚类算法可能集成了多种聚类方法的思想，所以有时将某个给定的算法划分为属于某类聚类方法是很困难的。近年来，以模型为基础的数据分析方法，得到了人们的关注。它的主要思想是假设数据空间中的每一个数据都是产生于一个统一的模型。在确定了概率模型之后，需要用数学的方法使模型与数据拟和，这其中最常用的方法是EM方法，M步骤帮助确定概率分布中的各种参数。

(d)基于密度的聚类(DBSCAN)：绝大多数划分方法基于对象之间的距离进行聚类。这样的方法只能发现球状的簇，而在发现任意形状的簇上遇到了困难。随之提出了基于密度的另一类聚类方法，其主要的思想是：只要临近区域的密度(对象或数据点的数目)超出了某个阀值，就继续聚类。也就是说，对给定类中的每个数据点，在一个给定范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤“噪声”孤立点数据，发现任意形状的簇。DBSCAN是一个有代表性的基于密度的方法，它根据一个密度阀值来控制簇的增长。

(e)基于随机搜索的大型应用聚类(CLARANS)：CLARANS是分割方法中基于随机搜索的大型应用聚类算法。在分割方法中最早提出的一些算法大多对小数据集合非常有效，但对大的数据集合没有良好的可伸缩性。如PAM、CLARA能处理比PAM大的数据集合，其有效性取决于样本的大小，但当某个采样得到的中心点不属于最佳的中心点时CLARA不能得到最佳聚类结果。CLARANS是在CLARA算法的基础上提出来的，与CLARA不同CLARANS没有在任一给定的时间局限于任一样本，而是在搜索的每一步都带一定随机性的选取一个样本。此方法的优点是一方面改进了CLARA的聚类质量，另一方面拓展了数据处理量的伸缩范围，具有较好的聚类效果。但它的计算效率较低，且对数据输入顺序敏感，只能聚类凸状或球型边界。

聚类结果的整合

将五类聚类算法的结果由向量转化成聚类结果相似矩阵，把五个聚类结果相似矩阵取均值再根据阈值取值后转回成聚类结果向量，得到此聚类方法的最终结果，这里阈值为0.5，具体内容和步骤包括：

(a)所述结果向量为X＝{x₁,x₂,....,x_i,...,x_n}，其中x_i表示第i个小区所属的聚类类别，n为小区总数。所述相似矩阵为P，P的初始值是一个n*n的全零矩阵，比较两两小区，若在上述结果向量中x_i＝x_j，即第i个小区和第j个小区属于同一类，则P_ij＝P_ji＝1。重复这一过程直至所有的小区都比对完毕。从而生成该算法下的相似矩阵。对五类聚类算法的结果向量分别采用a)步骤的转化方法，分别得到smatrix1、smatrix2、smatrix3、smatrix4、smatrix5这五个聚类结果相似矩阵；

(b)把五个聚类结果相似矩阵取均值

smatrix＝(smatrix1+smatrix2+smatrix3+smatrix4+smatrix5)/5

即P＝(P1+P2+P3+P4+P5)/5

(c)再将矩阵根据阈值取值

smatrix＝round.similarity.matrix(smatrix,round.threshold)

如果相似矩阵smatrix中的值P_ij大于0.5

则将P_ij取为1

否则将P_ij取为0

其中P_ij＝1说明i小区和j小区为一类，P_ij＝0说明i小区和j小区不为一类。

阈值取为0.5的原因：类似投票机制，根据阈值统计是否超过1/2以上的聚类算法将某两小区分为一类。共5个聚类算法，如果多于3个或超一半以上认为两个小区属于同一类则确认该两小区为一类，否则不为一类，故临界值设为0.5；(d)再将相似矩阵转回成聚类结果向量得到新型聚类方法的最终结果

cvector＝to.cluster.vector(smatrix)

最后得到的结果向量形如Y＝{y₁,y₂,....,y_i,...,y_n}，其中y_i表示第i个小区所属的聚类类别。

S5将聚类结果与地理信息系统中的地理信息进行结合，并显示结合后的聚类结果。该地理信息系统可使用本申请人自主研发的DEEPLAN系统，也可以使用现有的其他系统。如图2所示，将聚类结果在地图上显示出来，其中颜色一样的小区表示其属于同一类，在此实施例中我们将1600个小区分为了3类。

本发明提供了一种基于无线网络话务特征的小区聚类系统：

数据库模块，用于导入待处理数据；

特征参数提取模块，用于提取每个待处理数据的“特征参数”；

K值选取模块，通过计算BWP指标、Calinski-Harabasz指标和Silhouette指标三大指标对数据进行聚类，选择聚类效果最好的指标所对应的K值为聚类最优K值；

聚类分析模块，利用选取的最优K值，运用五种聚类算法对待处理数据进行聚类整合；

可视化模块，将聚类结果与地理信息系统中的地理信息进行结合，并显示结合后的聚类结果。

优选地，所述地理信息显示利用地图软件工具包(ArcGIS地图软件工具)，对聚类分析结果进行地理位置信息的整合与输出。

优选地，所述系统还包括界面显示模块，用于显示数据库登陆界面、数据导入界面。

Claims

1.一种基于无线网络话务特征的小区聚类方法，其特征在于包括如下步骤：

S1选择待处理数据；

S2提取每个待处理数据的“特征参数”；

S3对待处理数据进行聚类最优K值选取；

S4利用选取的最优K值运用五种聚类算法对待处理数据进行聚类整合；

S5将聚类结果与地理信息系统中的地理信息进行结合，并显示结合后的聚类结果。

2.根据权利要求1所述的一种基于无线网络话务特征的小区聚类方法，其特征在于：步骤S1中所述待处理数据为有关小区话务在一段时间范围内建立的RSCP和Ec/Io两个关键指标的小区级秒粒度话务统计信息表和对该段时间范围采用时间序列拟合算法建立的小区级秒粒度话务信息时间序列。

3.根据权利要求1所述的一种基于无线网络话务特征的小区聚类方法，其特征在于：步骤S2中所述的特征参数指关于小区话务的两个关键指标RSCP和Ec/Io的话务特征分别提取的最大值、95％分位数、5％分位数、均值、中位数、方差、偏度和峰度、序列关联性、非线性、频率、稳定性和持续性；以及关于小区级秒粒度话务信息时间序列的趋势、季节性、序列关联性、非线性、偏度和峰度。

4.根据权利要求1所述的一种基于无线网络话务特征的小区聚类方法，其特征在于：步骤S3中所述的最优K值选取的方法是通过计算BWP指标、Calinski-Harabasz指标和Silhouette指标，对小区话务数据进行聚类，选择聚类效果最好的指标所对应的K值为聚类最优K值。

5.根据权利要求1所述的一种基于无线网络话务特征的小区聚类方法，其特征在于：步骤S4中所述运用五种聚类算法对待处理数据进行聚类整合是指运用五类聚类算法对所有小区进行聚类，并将结果向量转化成聚类结果相似矩阵，把五个聚类结果相似矩阵取均值再根据阈值取值后转回成聚类结果向量，得到此聚类方法的最终结果。

6.根据权利要求5所述的一种基于无线网络话务特征的小区聚类方法，其特征在于，所述将结果向量转化成聚类结果相似矩阵，具体算法如下：结果向量为X＝{x₁,x₂,....,x_i,...,x_n}，其中x_i表示第i个小区所属的聚类类别，n为小区总数；所述相似矩阵为P，P的初始值是一个n*n的全零矩阵，两两小区比较，若在上述结果向量中x_i＝x_j，即第i个小区和第j个小区属于同一类，则P_ij＝P_ji＝1；重复这一过程直至所有的小区都比对完毕，从而生成该算法下的相似矩阵。

7.根据权利要求5所述的一种基于无线网络话务特征的小区聚类方法，其特征在于：阈值为0.5。

8.一种基于无线网络话务特征的小区聚类系统，其特征在于，该系统包括：

1)数据库模块，用于导入待处理数据；

2)特征参数提取模块，用于提取每个待处理数据的“特征参数”；

3)K值选取模块，通过计算计算BWP指标、Calinski-Harabasz指标和Silhouette指标三大指标对数据进行聚类，选择聚类效果最好的指标所对应的K值为聚类最优K值；

4)聚类分析模块，利用选取的最优K值，运用五种聚类算法对待处理数据进行聚类整合；

5)可视化模块，将聚类结果与地理信息系统中的地理信息进行结合，并显示结合后的聚类结果。

9.根据权利要求8所述的一种基于无线网络话务特征的小区聚类系统，其特征在于，所述地理信息显示利用地图软件工具包，对聚类分析结果进行地理位置信息的整合与输出。

10.根据权利要求8所述的一种基于无线网络话务特征的小区聚类系统，其特征在于，所述系统还包括界面显示模块，用于显示数据库登陆界面、数据导入界面。