CN105163326A - 一种基于无线网络话务特征的小区聚类方法和系统 - Google Patents

一种基于无线网络话务特征的小区聚类方法和系统 Download PDF

Info

Publication number
CN105163326A
CN105163326A CN201510642088.1A CN201510642088A CN105163326A CN 105163326 A CN105163326 A CN 105163326A CN 201510642088 A CN201510642088 A CN 201510642088A CN 105163326 A CN105163326 A CN 105163326A
Authority
CN
China
Prior art keywords
cluster
clustering
community
data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510642088.1A
Other languages
English (en)
Other versions
CN105163326B (zh
Inventor
吴冬华
欧阳晔
胡岳
代心灵
石路路
闫兴秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Hua Su Science And Technology Co Ltd
Original Assignee
Nanjing Hua Su Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Hua Su Science And Technology Co Ltd filed Critical Nanjing Hua Su Science And Technology Co Ltd
Priority to CN201510642088.1A priority Critical patent/CN105163326B/zh
Publication of CN105163326A publication Critical patent/CN105163326A/zh
Application granted granted Critical
Publication of CN105163326B publication Critical patent/CN105163326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/10Scheduling measurement reports ; Arrangements for measurement reports

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于无线网络话务特征的小区聚类方法,主要包括五个步骤:S1选择待处理数据;S2提取每个待处理数据的“特征参数”;S3对待处理数据进行聚类最优K值选取;S4利用选取的最优K值运用五种聚类算法对待处理数据进行聚类整合;S5将聚类结果与地理信息系统中的地理信息进行结合,并显示结合后的聚类结果。本发明通过聚类得到话务数据类似的小区,为移动运营商提供了一个评估和规划网络容量的辅助方案。

Description

一种基于无线网络话务特征的小区聚类方法和系统
技术领域
本发明涉及移动通信领域尤其涉及一种基于无线网络话务特征的小区聚类方法。
背景技术
移动通信技术是一个不断演进的过程,随着4G网络大规模的建设,目前在2/3/4G混合组网的情况下,网络复杂性也在进一步提高,因此,为了适应这样的变革,移动运营商在考虑潜在的4G需求时,应该分析当前不同小区的无线网络话务特征,借以高效低能耗的对网络话务特征的聚类算法,整理出无线网络话务特征相似的小区,从而为运营商提供一种新的网络优化方式基于批处理方式的实现成为可能。
在数据处理过程中,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在对大数据量的小区话务信息进行识别时,对其进行聚类计算,即是根据不同的阈值将不同的小区分成不同的类,以便获取哪些小区属于同一个类别,并最终实现相似小区的聚类。
现有的聚类算法不论在适用范围上还是聚类效果上均会存在一些限制和缺陷。如经典的k-means聚类算法,其结果好坏依赖于对初始聚类中心的选择,并且存在对异常数据较为敏感、只能处理数值属性的数据、聚类结构可能不平衡等问题。而层次聚类也会出现计算复杂度太高、奇异值也能产生很大影响以及算法很可能聚类成链状等问题。因此如何规避现有算法的缺点,减少聚类误差,提高聚类准确性是目前亟需解决的问题。
基于以上原因,为了精确地规划、设计不同小区的2G/3G/4GLTE网络,直观的发现话务数据类似的小区,为不同类型的小区提供有针对性优化方案,本文将提供涉及移动通信领域尤其涉及一种话务量小区级的聚类方法和系统。此方法中的数据来源是基于小区级的话务量。本专利通过聚类得到话务数据类似的小区,为移动运营商提供了一个评估和规划网络容量的辅助方案,此方案不依赖于任何厂商。
发明内容
本发明所解决的技术问题是:采用数据挖掘技术从源数据中挖掘出有用的信息对数据进行聚类,特别是针对移动通讯领域中的小区实现准确的聚类,利用选取的最优K值运用五种聚类算法对待处理数据进行聚类整合,规避现有算法聚类误差大的缺陷;也为移动运营商提供一个评估、规划和设计网络时的参考依据。
为解决以上技术问题,本发明提供了一种基于无线网络话务特征的小区聚类方法,包括如下步骤:S1选择待处理数据;S2提取每个待处理数据的“特征参数”;S3对待处理数据进行聚类最优K值选取;S4利用选取的最优K值运用五种聚类算法对待处理数据进行聚类整合;S5将聚类结果与地理信息系统中的地理信息进行结合,并显示结合后的聚类结果。
步骤S1中所述待处理数据为有关小区话务在一段时间范围内建立的RSCP和Ec/Io两个关键指标的小区级秒粒度话务统计信息表和对该段时间范围采用时间序列拟合算法建立的小区级秒粒度话务信息时间序列。
步骤S2中所述的特征参数是指对小区话务的两个关键指标RSCP和Ec/Io的话务特征分别提取的最大值、95%分位数、5%分位数、均值、中位数、方差、偏度和峰度、序列关联性、非线性、频率、稳定性和持续性;以及关于小区级秒粒度话务信息时间序列的趋势、季节性、序列关联性、非线性、偏度和峰度。
步骤S3中所述的最优K值选取的方法是通过计算BWP指标、Calinski-Harabasz指标和Silhouette指标,选择聚类效果最好的指标所对应的K值为聚类最优K值。
步骤S4中所述运用五种聚类算法对待处理数据进行聚类整合是指运用五类聚类算法对所有小区进行聚类,并将结果向量转化成聚类结果相似矩阵,把五个聚类结果相似矩阵取均值再根据阈值取值后转回成聚类结果向量,得到此聚类方法的最终结果。
一种基于无线网络话务特征的小区聚类系统,其特征在于,该系统包括:1)数据库模块,用于导入待处理数据;2)特征参数提取模块,用于提取每个待处理数据的“特征参数”;3)K值选取模块,通过计算BWP指标、Calinski-Harabasz指标和Silhouette指标三大指标对数据进行聚类,选择聚类效果最好的指标所对应的K值为聚类最优K值;4)聚类分析模块,利用选取的最优K值,运用五种聚类算法对待处理数据进行聚类整合;5)可视化模块,将聚类结果与地理信息系统中的地理信息进行结合,并显示结合后的聚类结果。
本发明的上述技术方案具有如下优点:在无线网络测量报告中选取关键性指标,从大量真实数据样本中剖析出的若干特征值,同时将真实数据进行降粒度分解,从而有利于提高特征值提取的效率和聚类算法实施过程中的速度。取代了传统的仿真模型,利用大数据技术,将海量历史数据利用合适的数据挖掘和机器学习算法,挖掘出无线网络质量的各项特征,从而为小区特征的聚类提供了一套系统化,准确率高的方案系统。传统的电信运营商,设备商利用简单的时间序列算法等进行网络话务的评估,使用单纯的数学方法往往脱离实际。本方法有效的将无线网络质量的各项特征融入了数学聚类计算之中,显著的提高了整套解决方案的可信度、准确率和效度。利用真实的网络大数据,进行大数据的分析处理,是一种基于真实网络范式的类型聚集过程。在这个过程中我们的方法把每一个小区用户的多个无线网络质量特征剥离出来,这样有效的将无线网络质量特征在数据模型里真实的展现出来,使得理论结果产生了实际意义。
附图说明
图1为本发明实施例提供的一种基于无线网络话务特征的小区聚类方法;
图2为采用本发明的发法将聚类结果结合地图显示。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
本发明所介绍的方法可以通过对数据特征的提取,对特征值相似的数据进行聚类,本发明不仅仅可以针对小区话务量的数据处理,还可以处理对其他事物特征数据的聚类,如人群特征、收入特征、消费特征等,这里仅以小区的话务量为例进行具体实施方式的介绍。
S1选择待处理数据;
获取1600个小区网络话务量的历史数据,将各小区在时间粒度上两周8个忙时的两个关键指标(KPI:KeyPerformanceIndicator)抽取进行时间粒度降级,以建立小区级秒粒度话务统计信息表;其关键指标(KPI)是RSCP和Ec/Io。RSCP(ReceivedSignalCodePower)为接收信号码功率(简称电平值),指的是在DPCH、PRACH或PUSCH等物理信道上收到的某一个信号码功率。Ec/Io,E是Energy(能量)简称,c是Chip(码片)指平均能量,I是Interfere(干扰)的简称,o是OtherCell的简称,体现了所接收信号的强度和邻小区干扰水平的比值。采用时间序列拟合算法选取两周8个忙时的时间范围,建立小区级秒粒度话务信息时间序列。
S2提取每个待处理数据的“特征参数”;
根据小区级秒粒度话务统计信息表和小区级秒粒度话务信息时间序列,计算该时间段内各个小区19个无线网络话务特征。分别对小区两个KPI进行话务特征抽取,得到每个小区对应的38个话务特征。特征数据分别是关于小区级秒粒度话务统计信息表的最大值、95%分位数(95%percentile)、5%分位数(5%percentile)、均值(mean)、中位数(median)、方差(variance)、偏度(skewness)和峰度(kurtosis)、序列关联性(Serialcorrelation)、非线性(non-linearity)、频率(Frequency)、稳定性(chaotic)和持续性(selfsimilarity)。以及关于时间序列的趋势(trend)、季节性(seasonality)、序列关联性(Serialcorrelation)、非线性(non-linearity)、偏度(skewness)和峰度(kurtosis)从而得到各个小区的38维数据特征值。
分别提取小区两个指标KPI的19个话务特征,得到38个话务特征值,具体包括如下内容:
1)最大值(max):指在给定情形下可以达到的最大数值。
2)95%分位数(95%percentile):指连续分布函数中位于95%位置的点。
3)5%分位数(5%percentile):指连续分布函数中位于5%位置的点。
4)均值(mean):指一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。
5)中位数(median):指一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
6)方差(variance):方差是各个数据分别与其平均数之差的平方的和的平均数,用来度量随机变量和其数学期望(即均值)之间的偏离程度。
7)偏度(skewness):偏度检验,描述某变量取值分布对称性的统计量。如果是正太分布的话.偏度是三阶中心距,值为0。Skewness=0,分布形态与正态分布偏度相同Skewness>0正偏差数值较大,为正偏或右偏。长尾巴拖在右边。Skewness<0负偏差数值较大,为负偏或左偏。长尾巴拖在左边。计算公式:Skewness=E[((x-E(x))/(\sqrt{D(x)}))^3],|Skewness|越大,分布形态偏移程度越大。
8)峰度(kurtosis):是否陡度较大。尖顶峰、陡度大峰度检验,描述某变量所有取值分布形态陡缓程度的统计量,它是和正态分布相比较的Kurtosis=0与正态分布的陡缓程度相同。Kurtosis>0比正态分布的高峰更加陡峭——尖顶峰。Kurtosis<0比正态分布的高峰来得平坦——平顶峰。计算公式:Kurtosis=E[((x-E(x))/(\sqrt(D(x))))^4]-3四阶中心距-3.如果是正态分布,那么偏度、峰度均为0.
9)序列关联性(serialcorrelation):得到非白噪,是否含有用信息提取。纯随机性检验,p值小于5%,序列为非白噪声(非随机信号或随机过程)。得到白噪声序列,就说明时间序列中有用的信息已经被提取完毕了,剩下的全是随机扰动,是无法预测和使用的,残差序列如果通过了白噪声检验,则建模就可以终止了,因为没有信息可以继续提取。如果残差不是白噪声,就说明残差中还有有用的信息,需要修改模型或者进一步提取。
10)非线性(non-leanrity):是否样本可估计总体。非线性回归检测(样本是否可线性相关总体),p值小于5%,序列为线性相关,回归方程是对变量的总体间的线性的一个估计,建立的回归方程是建立在样本上的回归方程,只是完成了统计分析中变量关系的统计描述,研究者还必须回答它所来自总体的回归关系是否确实存在,因此要进行回归方程的假设检验。通俗地讲,用样本来估计总体,都要进行假设检验。
11)频率(frequency):指单位时间内周期性变化的次数,描述周期运动的频繁程度。
12)稳定性(chaotic):用来判断样本是否稳定。Lyapunov指数描述随机稳定性的边界,是衡量系统动力学特性的一个重要定量指标,它表征了系统在相空间中相邻轨道间收敛或发散的平均指数率。对离散动力系统,或者说是非线性时间序列,往往不需要计算出所有的Lyapunov指数,通常只需计算出其最大的Lyapunov指数即可。“1983年,格里波基证明了只要最大Lyapunov指数大于零,就可以肯定混沌的存在”。判断标准:一个正的Lyapunov指数,意味着在系统相空间中,无论初始两条轨线的间距多么小,其差别都会随着时间的演化而成指数率的增加以致达到无法预测,这就是混沌现象。混沌系统的基本特点就是系统对初始值的极端敏感性,两个相差无几的初值所产生的轨迹,随着时间的推移按指数方式分离,lyapunov指数就是定量的描述这一现象的量。
13)持续性(selfsimilarity):是否序列可持续。Hurst指数(赫斯特指数),描述非函数长周期的重要指标。作为判断时间序列数据是随机游走还是有偏的随机游走。它有别于传统单位根检验,可以发现时间序列存在的超长周期性,可以用于判断市场风险当H=0.5时表示时间序列可以用随机游走来描诉。当0.5<H<=1,表示黑噪声(持续性),即暗示长期记忆的时间序列。当0<=H<0.5,表示粉红噪声(反持续性),即均值回复过程。
14)趋势(trend):时间序列随时间而逐渐增加或减少的变化趋势,受某种长期的决定性因素影响。利用Loess(局部加权回归)平滑方法分解出时间序列的趋势项。
15)季节性(seasonality):时间序列在一定时间内,呈现出固有规则(周期性)的重复变动,一般受到自然条件或社会条件影响而形成。利用Loess(局部加权回归)分解出时间序列的季节项。
S3对待处理数据进行聚类最优K值选取;
K-MEANS聚类最优K的选取
分别计算BWP(BETWEEN-WITHNESS-PROPORTION)指标、Calinski-Harabasz指标和Silhouette指标,对小区话务数据进行聚类,选择聚类效果最好的指标所对应的K值为聚类最优K,即先对三大指标分别求最优k,找出三个最优k中的最小值作为聚类最优k。
具体内容包括:
(a)BWP(BETWEEN-WITHNESS-PROPORTION):涉及单个样本的类内平均距、类间最小距,BWP是使用类间最小距离与类内平均距离进行计算。
公式:
BWP=(类间最小距-类内平均距)/(类间最小距+类内平均距[-1,1]
当类内平均距/类间最小距=渐近为0,即可忽略时,BWP=(1-0)/(1+0)=1,说明类间最小距极大,类内极小,符合聚类效果,聚类结果正确;
当类间最小距/类内平均距=渐近为0,即可忽略时,BWP=(0-1)/(0+1)=-1,说明类间最小距极小,类内极大,分类半径过大,不符合聚类效果,聚类结果错误;
以上为单个样本的BWP,在实际中,当K取某个值时,需对所有的样本求取BWP,并取BWP的均值,BWP均值越大(趋近1),聚类效果越好,找出使BWP均值最大时的k,为最优k。
(b)Calinski-Harabasz指标(CH):使用类中心距离平方和与类中心、数据集中心之距离平方和比值。
公式: C H ( N C ) = 1 N C - 1 &Sigma; i = 1 N C n i d 2 ( c i , c ) 1 n - N C &Sigma; i = 1 N C &Sigma; x &Element; C i d 2 ( x , c i )
其中,NC是聚类个数,c表示每个类的中心点,用ci表示第i类的中心点。ni是第i类所包含的个数,d(x1,x2)表示对象之间的距离。n为数据集的行数。
CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度,通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度,CH指标由分离度与紧密度的比值得到。从而,CH越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果。
(c)Silhouette指标(S,轮廓系数):类与类之间各对象两两之间的距离以及类中各对象两两之间的距离来衡量
公式: S ( N C ) = 1 N C &Sigma; i = 1 N C { 1 n i &Sigma; x &Element; C i b ( x ) - a ( x ) m a x &lsqb; b ( x ) , a ( x ) &rsqb; }
其中, a ( x ) = 1 n i - 1 &Sigma; x , y &Element; C i , x &NotEqual; y d ( x , y ) , b ( x ) = min j , j &NotEqual; i &lsqb; 1 n j &Sigma; x &Element; C i , y &Element; C j d ( x , y ) &rsqb; .
S指标通过计算类与类之间各对象两两之间的距离以及类中各对象两两之间的距离来衡量聚类质量。同时,该指标在取最大值时表示聚类结果最优。
S4利用选取的最优K值运用五种聚类算法对处理数据进行聚类整合
五种聚类方法
对1600个小区的38个话务特征利用新型聚类方法进行多维聚类,得到话务数据相似的小区。五类聚类算法具体内容如下:
(a)K-均值聚类(K-MeansClustering):k均值聚类最早出现的聚类分析算法之一,是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。K-均值聚类适合处理分布集中的大样本数据,其思路是以随机选取的k(预设类别数)个样本点作为起始中心点,将其余样本点归入相似度最高的中心点所在的簇(cluster),再确立当前簇中样本坐标的均值为新的中心点,依次循环迭代下去,直至所有的样本所属类别不再变动。K-均值聚类方法在中小规模的数据库中发现球状簇很好使用,但是该算法只能处理数值型数据。
(b)Ward层次聚类(WardHierarchicalClustering):层次聚类就是通过对数据集按照某种方法进行层次分解,直到满足某种条件为止。按照分类原理的不同,可以分为凝聚和分裂两种方法。凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足,绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。这里采用离Ward最小方差法(或称Ward离差平方和法,METHOD=WARD)首先将每个样品各自成一组,每次通过合并减少一组,此时离差平方和出现并逐步增大,选择使离差平方和增加最小的两组合并,知道所有的样品归为一类为止。Ward方法并类时总是使得并类导致的类内离差平方和增量最小。
(c)基于模型的聚类(ModelBasedClustering):基于模型的方法为每个簇假定了一个模型,寻找数据对此模型的最佳拟合。一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定位聚类,它也可能基于标准的统计数字自动决定聚类的数目,考虑“噪声”数据和孤立点,从而产生健壮的聚类方法。在实际应用中,一些聚类算法可能集成了多种聚类方法的思想,所以有时将某个给定的算法划分为属于某类聚类方法是很困难的。近年来,以模型为基础的数据分析方法,得到了人们的关注。它的主要思想是假设数据空间中的每一个数据都是产生于一个统一的模型。在确定了概率模型之后,需要用数学的方法使模型与数据拟和,这其中最常用的方法是EM方法,M步骤帮助确定概率分布中的各种参数。
(d)基于密度的聚类(DBSCAN):绝大多数划分方法基于对象之间的距离进行聚类。这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难。随之提出了基于密度的另一类聚类方法,其主要的思想是:只要临近区域的密度(对象或数据点的数目)超出了某个阀值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。DBSCAN是一个有代表性的基于密度的方法,它根据一个密度阀值来控制簇的增长。
(e)基于随机搜索的大型应用聚类(CLARANS):CLARANS是分割方法中基于随机搜索的大型应用聚类算法。在分割方法中最早提出的一些算法大多对小数据集合非常有效,但对大的数据集合没有良好的可伸缩性。如PAM、CLARA能处理比PAM大的数据集合,其有效性取决于样本的大小,但当某个采样得到的中心点不属于最佳的中心点时CLARA不能得到最佳聚类结果。CLARANS是在CLARA算法的基础上提出来的,与CLARA不同CLARANS没有在任一给定的时间局限于任一样本,而是在搜索的每一步都带一定随机性的选取一个样本。此方法的优点是一方面改进了CLARA的聚类质量,另一方面拓展了数据处理量的伸缩范围,具有较好的聚类效果。但它的计算效率较低,且对数据输入顺序敏感,只能聚类凸状或球型边界。
聚类结果的整合
将五类聚类算法的结果由向量转化成聚类结果相似矩阵,把五个聚类结果相似矩阵取均值再根据阈值取值后转回成聚类结果向量,得到此聚类方法的最终结果,这里阈值为0.5,具体内容和步骤包括:
(a)所述结果向量为X={x1,x2,....,xi,...,xn},其中xi表示第i个小区所属的聚类类别,n为小区总数。所述相似矩阵为P,P的初始值是一个n*n的全零矩阵,比较两两小区,若在上述结果向量中xi=xj,即第i个小区和第j个小区属于同一类,则Pij=Pji=1。重复这一过程直至所有的小区都比对完毕。从而生成该算法下的相似矩阵。对五类聚类算法的结果向量分别采用a)步骤的转化方法,分别得到smatrix1、smatrix2、smatrix3、smatrix4、smatrix5这五个聚类结果相似矩阵;
(b)把五个聚类结果相似矩阵取均值
smatrix=(smatrix1+smatrix2+smatrix3+smatrix4+smatrix5)/5
即P=(P1+P2+P3+P4+P5)/5
(c)再将矩阵根据阈值取值
smatrix=round.similarity.matrix(smatrix,round.threshold)
如果相似矩阵smatrix中的值Pij大于0.5
则将Pij取为1
否则将Pij取为0
其中Pij=1说明i小区和j小区为一类,Pij=0说明i小区和j小区不为一类。
阈值取为0.5的原因:类似投票机制,根据阈值统计是否超过1/2以上的聚类算法将某两小区分为一类。共5个聚类算法,如果多于3个或超一半以上认为两个小区属于同一类则确认该两小区为一类,否则不为一类,故临界值设为0.5;(d)再将相似矩阵转回成聚类结果向量得到新型聚类方法的最终结果
cvector=to.cluster.vector(smatrix)
最后得到的结果向量形如Y={y1,y2,....,yi,...,yn},其中yi表示第i个小区所属的聚类类别。
S5将聚类结果与地理信息系统中的地理信息进行结合,并显示结合后的聚类结果。该地理信息系统可使用本申请人自主研发的DEEPLAN系统,也可以使用现有的其他系统。如图2所示,将聚类结果在地图上显示出来,其中颜色一样的小区表示其属于同一类,在此实施例中我们将1600个小区分为了3类。
本发明提供了一种基于无线网络话务特征的小区聚类系统:
数据库模块,用于导入待处理数据;
特征参数提取模块,用于提取每个待处理数据的“特征参数”;
K值选取模块,通过计算BWP指标、Calinski-Harabasz指标和Silhouette指标三大指标对数据进行聚类,选择聚类效果最好的指标所对应的K值为聚类最优K值;
聚类分析模块,利用选取的最优K值,运用五种聚类算法对待处理数据进行聚类整合;
可视化模块,将聚类结果与地理信息系统中的地理信息进行结合,并显示结合后的聚类结果。
优选地,所述地理信息显示利用地图软件工具包(ArcGIS地图软件工具),对聚类分析结果进行地理位置信息的整合与输出。
优选地,所述系统还包括界面显示模块,用于显示数据库登陆界面、数据导入界面。

Claims (10)

1.一种基于无线网络话务特征的小区聚类方法,其特征在于包括如下步骤:
S1选择待处理数据;
S2提取每个待处理数据的“特征参数”;
S3对待处理数据进行聚类最优K值选取;
S4利用选取的最优K值运用五种聚类算法对待处理数据进行聚类整合;
S5将聚类结果与地理信息系统中的地理信息进行结合,并显示结合后的聚类结果。
2.根据权利要求1所述的一种基于无线网络话务特征的小区聚类方法,其特征在于:步骤S1中所述待处理数据为有关小区话务在一段时间范围内建立的RSCP和Ec/Io两个关键指标的小区级秒粒度话务统计信息表和对该段时间范围采用时间序列拟合算法建立的小区级秒粒度话务信息时间序列。
3.根据权利要求1所述的一种基于无线网络话务特征的小区聚类方法,其特征在于:步骤S2中所述的特征参数指关于小区话务的两个关键指标RSCP和Ec/Io的话务特征分别提取的最大值、95%分位数、5%分位数、均值、中位数、方差、偏度和峰度、序列关联性、非线性、频率、稳定性和持续性;以及关于小区级秒粒度话务信息时间序列的趋势、季节性、序列关联性、非线性、偏度和峰度。
4.根据权利要求1所述的一种基于无线网络话务特征的小区聚类方法,其特征在于:步骤S3中所述的最优K值选取的方法是通过计算BWP指标、Calinski-Harabasz指标和Silhouette指标,对小区话务数据进行聚类,选择聚类效果最好的指标所对应的K值为聚类最优K值。
5.根据权利要求1所述的一种基于无线网络话务特征的小区聚类方法,其特征在于:步骤S4中所述运用五种聚类算法对待处理数据进行聚类整合是指运用五类聚类算法对所有小区进行聚类,并将结果向量转化成聚类结果相似矩阵,把五个聚类结果相似矩阵取均值再根据阈值取值后转回成聚类结果向量,得到此聚类方法的最终结果。
6.根据权利要求5所述的一种基于无线网络话务特征的小区聚类方法,其特征在于,所述将结果向量转化成聚类结果相似矩阵,具体算法如下:结果向量为X={x1,x2,....,xi,...,xn},其中xi表示第i个小区所属的聚类类别,n为小区总数;所述相似矩阵为P,P的初始值是一个n*n的全零矩阵,两两小区比较,若在上述结果向量中xi=xj,即第i个小区和第j个小区属于同一类,则Pij=Pji=1;重复这一过程直至所有的小区都比对完毕,从而生成该算法下的相似矩阵。
7.根据权利要求5所述的一种基于无线网络话务特征的小区聚类方法,其特征在于:阈值为0.5。
8.一种基于无线网络话务特征的小区聚类系统,其特征在于,该系统包括:
1)数据库模块,用于导入待处理数据;
2)特征参数提取模块,用于提取每个待处理数据的“特征参数”;
3)K值选取模块,通过计算计算BWP指标、Calinski-Harabasz指标和Silhouette指标三大指标对数据进行聚类,选择聚类效果最好的指标所对应的K值为聚类最优K值;
4)聚类分析模块,利用选取的最优K值,运用五种聚类算法对待处理数据进行聚类整合;
5)可视化模块,将聚类结果与地理信息系统中的地理信息进行结合,并显示结合后的聚类结果。
9.根据权利要求8所述的一种基于无线网络话务特征的小区聚类系统,其特征在于,所述地理信息显示利用地图软件工具包,对聚类分析结果进行地理位置信息的整合与输出。
10.根据权利要求8所述的一种基于无线网络话务特征的小区聚类系统,其特征在于,所述系统还包括界面显示模块,用于显示数据库登陆界面、数据导入界面。
CN201510642088.1A 2015-09-30 2015-09-30 一种基于无线网络话务特征的小区聚类方法和系统 Active CN105163326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510642088.1A CN105163326B (zh) 2015-09-30 2015-09-30 一种基于无线网络话务特征的小区聚类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510642088.1A CN105163326B (zh) 2015-09-30 2015-09-30 一种基于无线网络话务特征的小区聚类方法和系统

Publications (2)

Publication Number Publication Date
CN105163326A true CN105163326A (zh) 2015-12-16
CN105163326B CN105163326B (zh) 2018-09-28

Family

ID=54804059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510642088.1A Active CN105163326B (zh) 2015-09-30 2015-09-30 一种基于无线网络话务特征的小区聚类方法和系统

Country Status (1)

Country Link
CN (1) CN105163326B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105491599A (zh) * 2015-12-21 2016-04-13 南京华苏科技股份有限公司 预测lte网络性能指标的新型回归系统
CN108235332A (zh) * 2016-12-22 2018-06-29 中国移动通信有限公司研究院 一种小区覆盖评估方法及装置
WO2019096130A1 (zh) * 2017-11-16 2019-05-23 华为技术有限公司 一种上行信道的发送方法及设备
WO2019134549A1 (zh) * 2018-01-02 2019-07-11 中兴通讯股份有限公司 基于深度学习的定位方法、装置、计算机设备及存储介质
CN110019677A (zh) * 2017-11-30 2019-07-16 南京大学 基于聚类分析的微博广告发布者识别方法及装置
CN110062393A (zh) * 2018-01-18 2019-07-26 董裕艺 一种网络差小区智能分析方法
CN110753053A (zh) * 2019-10-22 2020-02-04 北京鼎兴达信息科技股份有限公司 一种基于大数据分析的流量异常预判方法
CN110851941A (zh) * 2018-07-27 2020-02-28 中兴网鲲信息科技(上海)有限公司 一种网优数据矩阵的快速生成方法
CN111144612A (zh) * 2019-11-27 2020-05-12 北京中交兴路信息科技有限公司 一种加油站位置点预测方法、装置、存储介质及终端
CN111373789A (zh) * 2017-11-16 2020-07-03 三星电子株式会社 无线通信系统中的通信方法和装置
CN111382754A (zh) * 2018-12-27 2020-07-07 中国移动通信集团山西有限公司 用户聚类方法、装置、设备和介质
CN112654063A (zh) * 2020-12-15 2021-04-13 中国联合网络通信集团有限公司 一种上行容量的评估方法及装置
CN112867110A (zh) * 2020-12-31 2021-05-28 河南省信息咨询设计研究有限公司 通信小区的效能识别方法、装置及电子设备
CN116257780A (zh) * 2023-02-22 2023-06-13 中国人民解放军国防科技大学 基于盲信号分离的无监督特征提取和自适应的dbscan聚类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010019907A1 (en) * 2008-08-15 2010-02-18 Qualcomm Incorporated Adaptive clustering framework in frequency-time for network mimo systems
CN101808339A (zh) * 2010-04-06 2010-08-18 哈尔滨工业大学 一种应用k-means和先验知识的话务小区自适应分类方法
CN103927336A (zh) * 2014-03-26 2014-07-16 北京邮电大学 基于地理位置的数据聚类挖掘系统及方法
CN103997783A (zh) * 2014-05-14 2014-08-20 无锡北邮感知技术产业研究院有限公司 一种室外聚类匹配定位方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010019907A1 (en) * 2008-08-15 2010-02-18 Qualcomm Incorporated Adaptive clustering framework in frequency-time for network mimo systems
CN101808339A (zh) * 2010-04-06 2010-08-18 哈尔滨工业大学 一种应用k-means和先验知识的话务小区自适应分类方法
CN103927336A (zh) * 2014-03-26 2014-07-16 北京邮电大学 基于地理位置的数据聚类挖掘系统及方法
CN103997783A (zh) * 2014-05-14 2014-08-20 无锡北邮感知技术产业研究院有限公司 一种室外聚类匹配定位方法和装置

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105491599B (zh) * 2015-12-21 2019-03-08 南京华苏科技有限公司 预测lte网络性能指标的新型回归系统
CN105491599A (zh) * 2015-12-21 2016-04-13 南京华苏科技股份有限公司 预测lte网络性能指标的新型回归系统
CN108235332A (zh) * 2016-12-22 2018-06-29 中国移动通信有限公司研究院 一种小区覆盖评估方法及装置
CN111373789A (zh) * 2017-11-16 2020-07-03 三星电子株式会社 无线通信系统中的通信方法和装置
WO2019096130A1 (zh) * 2017-11-16 2019-05-23 华为技术有限公司 一种上行信道的发送方法及设备
CN111373789B (zh) * 2017-11-16 2023-10-20 三星电子株式会社 无线通信系统中的通信方法和装置
US11496963B2 (en) 2017-11-16 2022-11-08 Huawei Technologies Co., Ltd. Uplink channel sending method and device
CN110019677A (zh) * 2017-11-30 2019-07-16 南京大学 基于聚类分析的微博广告发布者识别方法及装置
WO2019134549A1 (zh) * 2018-01-02 2019-07-11 中兴通讯股份有限公司 基于深度学习的定位方法、装置、计算机设备及存储介质
CN110062393B (zh) * 2018-01-18 2022-04-22 董裕艺 一种网络差小区智能分析方法
CN110062393A (zh) * 2018-01-18 2019-07-26 董裕艺 一种网络差小区智能分析方法
CN110851941A (zh) * 2018-07-27 2020-02-28 中兴网鲲信息科技(上海)有限公司 一种网优数据矩阵的快速生成方法
CN110851941B (zh) * 2018-07-27 2023-11-14 中兴通讯股份有限公司 一种网优数据矩阵的快速生成方法
CN111382754A (zh) * 2018-12-27 2020-07-07 中国移动通信集团山西有限公司 用户聚类方法、装置、设备和介质
CN111382754B (zh) * 2018-12-27 2024-03-01 中国移动通信集团山西有限公司 用户聚类方法、装置、设备和介质
CN110753053A (zh) * 2019-10-22 2020-02-04 北京鼎兴达信息科技股份有限公司 一种基于大数据分析的流量异常预判方法
CN110753053B (zh) * 2019-10-22 2021-07-20 北京鼎兴达信息科技股份有限公司 一种基于大数据分析的流量异常预判方法
CN111144612A (zh) * 2019-11-27 2020-05-12 北京中交兴路信息科技有限公司 一种加油站位置点预测方法、装置、存储介质及终端
CN111144612B (zh) * 2019-11-27 2023-05-09 北京中交兴路信息科技有限公司 一种加油站位置点预测方法、装置、存储介质及终端
CN112654063A (zh) * 2020-12-15 2021-04-13 中国联合网络通信集团有限公司 一种上行容量的评估方法及装置
CN112654063B (zh) * 2020-12-15 2022-09-02 中国联合网络通信集团有限公司 一种上行容量的评估方法及装置
CN112867110B (zh) * 2020-12-31 2023-03-31 河南省信息咨询设计研究有限公司 通信小区的效能识别方法、装置及电子设备
CN112867110A (zh) * 2020-12-31 2021-05-28 河南省信息咨询设计研究有限公司 通信小区的效能识别方法、装置及电子设备
CN116257780A (zh) * 2023-02-22 2023-06-13 中国人民解放军国防科技大学 基于盲信号分离的无监督特征提取和自适应的dbscan聚类方法

Also Published As

Publication number Publication date
CN105163326B (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN105163326B (zh) 一种基于无线网络话务特征的小区聚类方法和系统
CN108171259A (zh) 一种基于NB-IoT的智慧末梢水质监测系统及方法
CN106485089B (zh) 谐波用户典型工况的区间参数获取方法
CN106022614A (zh) 一种基于最近邻聚类的神经网络数据挖掘方法
CN102594904A (zh) 对无线传感器网络异常事件进行分布式检测的方法
CN115774953B (zh) 一种基于数据处理的污染时空风险监管评估系统及方法
CN108985455A (zh) 一种计算机应用神经网络预测方法及系统
Feng et al. A link quality prediction method for wireless sensor networks based on XGBoost
CN104299115A (zh) 基于模糊c均值聚类算法的智能变电站二次系统状态分析方法
CN108288231A (zh) 一种分布式光伏接入对配电台区负荷特性影响的评估方法
Liu et al. Remote malfunctional smart meter detection in edge computing environment
CN110262954A (zh) 基于状态监测数据自动学习系统可靠性模型的方法
CN113780684A (zh) 一种基于lstm神经网络的智慧楼宇用户用能行为预测方法
CN108989092A (zh) 一种无线网络预测方法、电子设备及存储介质
CN115915364A (zh) 通信基站的节能方法、装置、计算机可读介质及设备
CN110716998B (zh) 一种精细尺度人口数据空间化方法
CN103916969A (zh) 联合授权用户感知与链路状态估计方法与装置
Muravyov et al. Multisensor accuracy enhancement on the base of interval voting in form of preference aggregation in WSN for ecological monitoring
Ramesh et al. A swarm intelligence based distributed localization technique for wireless sensor network
Xing et al. Wireless traffic prediction with series fluctuation pattern clustering
CN104821854B (zh) 一种基于随机集的多主用户多维频谱感知方法
He et al. A link quality estimation method for wireless sensor networks based on deep forest
CN106550387B (zh) 一种无线传感器网络路由层服务质量评价方法
Addesso et al. Sequential sampling in sensor networks for detection with censoring nodes
CN115099385A (zh) 基于传感器布局优化和自适应Kriging模型的频谱地图构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 211399 6 Longjing Road, Chun Xi Town, Gaochun, Nanjing, Jiangsu

Applicant after: Nanjing Hua Su Science and Technology Ltd.

Address before: 211399 6 Longjing Road, Chun Xi Town, Gaochun, Nanjing, Jiangsu

Applicant before: Nanjing Hua Su Science and Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant