CN105049286A - 基于层次聚类的云平台测速数据判定方法 - Google Patents

基于层次聚类的云平台测速数据判定方法 Download PDF

Info

Publication number
CN105049286A
CN105049286A CN201510432338.9A CN201510432338A CN105049286A CN 105049286 A CN105049286 A CN 105049286A CN 201510432338 A CN201510432338 A CN 201510432338A CN 105049286 A CN105049286 A CN 105049286A
Authority
CN
China
Prior art keywords
data
cluster
bunch
central point
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510432338.9A
Other languages
English (en)
Inventor
刘欣然
朱春鸽
王勇
张鸿
周润林
孙斌
李焱
李正民
黄道超
沈时军
郑世慧
郭尚瓒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201510432338.9A priority Critical patent/CN105049286A/zh
Publication of CN105049286A publication Critical patent/CN105049286A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0894Packet rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于层次聚类的云平台测速数据判定方法,所述方法包括,在数据源中获取待聚类的一维数据,构成数据集;对所述数据集过滤,并对过滤后的数据进行归并操作;针对归并操作后的数据进行第一次聚类,生成聚类结果;所述聚类结果包括多个簇,每个簇包括至少一个数据;根据第一次聚类结果,确定中心点;根据该中心点进行第二次聚类,获得正常范围与异常范围的边界点,从而实现了对于当前网速是否正常或异常的自动化判定。

Description

基于层次聚类的云平台测速数据判定方法
技术领域
本发明涉及一种判定方法,具体涉及基于层次聚类的云平台测速数据判定方法。
背景技术
目前暂无将无监督聚类技术应用于网速异常检测的解决方案。较为接近的解决方案应用于网络入侵的异常检测领域。使用无监督方法的网络入侵异常检测方案中,结合使用了划分聚类算法与层次凝聚聚类方法,但不同之处在于,先使用划分聚类将样本分为若干簇,再使用凝聚聚类算法合并这些簇,从而得到正常簇与异常簇。方案出处:李娜,钟诚.基于划分和凝聚层次聚类的无监督异常检测[J].计算机工程,2008,(2).
由于网络速度数据与网络入侵检测的数据相比,分布更复杂且变化性大,因此若按照上述方案直接使用划分聚类方法,其聚类结果无法很好的拟合所有的数据分布。
另外,此方案的划分聚类步骤十分依赖某个超参数的设置,这也使得方案在应用与网速异常判定问题中时,不具有较高的鲁棒性。
发明内容
针对现有技术的不足,本发明提供基于层次聚类的云平台测速数据判定方法,实现了对于当前网速是否正常或异常的自动化判定。
本发明的目的是采用下述技术方案实现的:
基于层次聚类的云平台测速数据判定方法,所述方法包括,
在数据源中获取待聚类的一维数据,构成数据集;
对所述数据集过滤,并对过滤后的数据进行归并操作;
针对归并操作后的数据进行第一次聚类,生成聚类结果;所述聚类结果包括多个簇,每个簇包括至少一个数据;
根据第一次聚类结果,确定中心点;
根据该中心点进行第二次聚类,获得正常范围与异常范围的边界点。
优选的,对所述数据集过滤包括,将数据由小到大顺序排列,删除其中最小的5%和最大的5%。
优选的,对所述数据过滤还包括,第一预设阈值为t1,并为t1赋值5,滤掉数据间局部密度小于5的数据;所述局部密度的表达式为:
式(1)中,d为两个数据之间的距离;xj和xi分别为数据集中任意两个相邻数据。
优选的,所述归并操作包括,预设归并半径r,并为r赋值0.0001,将过滤数据中两两之间距离最短的数据合并为一类,由小到大排列后删除两类之间距离小于0.0001的类。
优选的,所述生成聚类结果包括,将两两之间距离最短的两类合并为一簇,并以此循环,直到簇的数量达到预设聚类阈值为止;
所述预设聚类阈值为数据集数据总数的10%。
优选的,所述确定中心点包括,将聚类结果分为k簇,根据每一簇包含的数据个数从高至低排序C1,C2,…Ck,选取前6个簇,分别为C1,C2,C3,…,C6;C1>C6;每个簇的聚类中心为该簇内数据的平均值;
若|C1|/|C2|≥T1,则选择C1的聚类中心为中心点;否则,令S={C1},i=1;若则依次向后遍历S=S∪{Ci+1},i+1→t;否则停止遍历,将S中的簇按照各自聚类中心的高低排序,选择其中最小的聚类中心作为中心点;其中,T1为第二预设阈值。
优选的,所述获得正常范围与异常范围的边界点包括,使用K=2的K均值聚类算法对所有小于所述中心点的数据进行第二次聚类,获取聚类结果;通过相似性度量聚类结果的两个簇X,Y的分界点作为正常范围与异常范围的边界点。
进一步地,所述相似性度量为欧几里德距离度量;其中,两个簇X,Y的欧几里德距离为
与现有技术比,本发明达到的有益效果是:
1、由于各个聚类算法的缺点与局限性,不适合直接应用于该判定问题。在该问题中,由于原始数据分布的不规则性与复杂性,若直接在原始数据中执行K=2的K均值聚类算法,聚类的结果往往不准确。因此,本方案先采用了另外一种层次聚类算法,大大的简化了数据分布,缩小正常与异常边界点的范围,再应用K均值聚类就会取得较好的效果。
2、聚类算法通常对于海量数据的处理不够灵活,当数据量规模较大时,聚类算法的时间性能很差。因此,本方案设计了两种数据筛减方法来减小数据规模:引入了局部密度这个定义,通过局部密度表征样本点的重要性,从而在维持数据分布的基础上减小了样本个数;引入了归并半径,可控的归并距离十分相近的样本,对于局部密度很大的区域可以明显减小数据规模。
附图说明
图1为本发明基于层次聚类的云平台测速数据判定方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
如图1所示,基于层次聚类的云平台测速数据判定方法,所述方法包括,
在数据源中获取待聚类的一维数据,构成数据集;
对所述数据集过滤,并对过滤后的数据进行归并操作,以减小数据规模;对所述数据集过滤包括,将数据由小到大顺序排列,删除其中最小的5%和最大的5%。
所述数据过滤还包括,第一预设阈值为t1,并为t1赋值5,滤掉数据间局部密度小于5的数据;所述局部密度的表达式为:
式(1)中,d为两个数据之间的距离;xj和xi分别为数据集中任意两个相邻数据。所述归并操作包括,预设归并半径r,并为r赋值0.0001,将过滤数据中两两之间距离最短的数据合并为一类,由小到大排列后删除两类之间距离小于0.0001的类。
针对归并操作后的数据进行第一次聚类,生成聚类结果;所述聚类结果包括多个簇,每个簇包括至少一个数据;所述生成聚类结果包括,将两两之间距离最短的两类合并为一簇,并以此循环,直到簇的数量达到预设聚类阈值为止;
所述预设聚类阈值为数据集数据总数的10%。
根据第一次聚类结果,确定中心点;所述确定中心点包括,将聚类结果分为k簇,根据每一簇包含的数据个数从高至低排序C1,C2,…Ck,选取前6个簇,分别为C1,C2,C3,…,C6;C1>C6;每个簇的聚类中心为该簇内数据的平均值;
若|C1|/|C2|≥T1,则选择C1的聚类中心为中心点;否则,令S={C1},i=1;若|Ci|/|Ci+1|<T1,则依次向后遍历S=S∪{Ci+1},i+1→t;否则停止遍历,将S中的簇按照各自聚类中心的高低排序,选择其中最小的聚类中心作为中心点;其中,T1为第二预设阈值。
根据该中心点进行第二次聚类,获得正常范围与异常范围的边界点。所述获得正常范围与异常范围的边界点包括,使用K=2的K均值聚类算法对所有小于所述中心点的数据进行第二次聚类,获取聚类结果;通过相似性度量聚类结果的两个簇X,Y的分界点作为正常范围与异常范围的边界点。
所述相似性度量为欧几里德距离度量;其中,两个簇X,Y的欧几里德距离为
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.基于层次聚类的云平台测速数据判定方法,其特征在于,所述方法包括:
在数据源中获取待聚类的一维数据,构成数据集;
对所述数据集过滤,并对过滤后的数据进行归并操作;
针对归并操作后的数据进行第一次聚类,生成聚类结果;所述聚类结果包括多个簇,每个簇包括至少一个数据;
根据第一次聚类结果,确定中心点;
根据该中心点进行第二次聚类,获得正常范围与异常范围的边界点。
2.如权利要求1所述的方法,其特征在于,对所述数据集过滤包括,将数据由小到大顺序排列,删除其中最小的5%和最大的5%。
3.如权利要求1或2所述的方法,其特征在于,对所述数据过滤还包括,第一预设阈值为t1,并为t1赋值5,滤掉数据间局部密度小于5的数据;所述局部密度的表达式为:
g ( x j , x i ) = 1 ( d ( x j , x i ) &GreaterEqual; t 1 ) 0 ( d ( x j , x i ) < t 1 ) - - - ( 1 )
式(1)中,d为两个数据之间的距离;xj和xi分别为数据集中任意两个相邻数据。
4.如权利要求1所述的方法,其特征在于,所述归并操作包括,预设归并半径r,并为r赋值0.0001,将过滤数据中两两之间距离最短的数据合并为一类,由小到大排列后删除两类之间距离小于0.0001的类。
5.如权利要求1所述的方法,其特征在于,所述生成聚类结果包括,将两两之间距离最短的两类合并为一簇,并以此循环,直到簇的数量达到预设聚类阈值为止;
所述预设聚类阈值为数据集数据总数的10%。
6.如权利要求1所述的方法,其特征在于,所述确定中心点包括,将聚类结果分为k簇,根据每一簇包含的数据个数从高至低排序C1,C2,…Ck,选取前6个簇,分别为C1,C2,C3,…,C6;C1>C6;每个簇的聚类中心为该簇内数据的平均值;
若|C1|/C2|≥T1,则选择C1的聚类中心为中心点;否则,令S={C1},i=1;若|Ci|/|Ci+1|≤T1,则依次向后遍历S=S∪{Ci+1},i+1→i;否则停止遍历,将S中的簇按照各自聚类中心的高低排序,选择其中最小的聚类中心作为中心点;其中,T1为第二预设阈值。
7.如权利要求1所述的方法,其特征在于,所述获得正常范围与异常范围的边界点包括,使用K=2的K均值聚类算法对所有小于所述中心点的数据进行第二次聚类,获取聚类结果;通过相似性度量聚类结果的两个簇X,Y的分界点作为正常范围与异常范围的边界点。
8.如权利要求7所述的方法,其特征在于,所述相似性度量为欧几里德距离度量;其中,两个簇X,Y的欧几里德距离为
CN201510432338.9A 2015-07-21 2015-07-21 基于层次聚类的云平台测速数据判定方法 Pending CN105049286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510432338.9A CN105049286A (zh) 2015-07-21 2015-07-21 基于层次聚类的云平台测速数据判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510432338.9A CN105049286A (zh) 2015-07-21 2015-07-21 基于层次聚类的云平台测速数据判定方法

Publications (1)

Publication Number Publication Date
CN105049286A true CN105049286A (zh) 2015-11-11

Family

ID=54455507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510432338.9A Pending CN105049286A (zh) 2015-07-21 2015-07-21 基于层次聚类的云平台测速数据判定方法

Country Status (1)

Country Link
CN (1) CN105049286A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060039A (zh) * 2016-05-27 2016-10-26 广东工业大学 一种面向网络异常数据流的分类检测方法
CN106640547A (zh) * 2016-11-24 2017-05-10 东北电力大学 监测风电机组状态的方法及系统
CN106991436A (zh) * 2017-03-09 2017-07-28 东软集团股份有限公司 噪声点检测方法及装置
CN108681493A (zh) * 2018-05-29 2018-10-19 深圳乐信软件技术有限公司 数据异常检测方法、装置、服务器和存储介质
CN113095397A (zh) * 2021-04-03 2021-07-09 国家计算机网络与信息安全管理中心 一种基于层次聚类法的图像数据压缩方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831431A (zh) * 2012-02-05 2012-12-19 四川大学 一种基于层次聚类的检测器训练方法
CN103810261A (zh) * 2014-01-26 2014-05-21 西安理工大学 一种基于商空间理论的K-means聚类方法
CN104167092A (zh) * 2014-07-30 2014-11-26 北京市交通信息中心 一种确定出租车上下客热点区域中心的方法以及装置
CN104778355A (zh) * 2015-04-03 2015-07-15 东南大学 基于广域分布交通系统的异常轨迹检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831431A (zh) * 2012-02-05 2012-12-19 四川大学 一种基于层次聚类的检测器训练方法
CN103810261A (zh) * 2014-01-26 2014-05-21 西安理工大学 一种基于商空间理论的K-means聚类方法
CN104167092A (zh) * 2014-07-30 2014-11-26 北京市交通信息中心 一种确定出租车上下客热点区域中心的方法以及装置
CN104778355A (zh) * 2015-04-03 2015-07-15 东南大学 基于广域分布交通系统的异常轨迹检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李娜,钟诚: "基于划分和凝聚层次聚类的无监督异常检测", 《计算机工程》 *
童琳,郭尚瓒,孙斌: "基于改进联合聚类的网速正常范围判定方法", 《信息安全与技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060039A (zh) * 2016-05-27 2016-10-26 广东工业大学 一种面向网络异常数据流的分类检测方法
CN106060039B (zh) * 2016-05-27 2019-08-23 广东工业大学 一种面向网络异常数据流的分类检测方法
CN106640547A (zh) * 2016-11-24 2017-05-10 东北电力大学 监测风电机组状态的方法及系统
CN106640547B (zh) * 2016-11-24 2020-08-18 东北电力大学 监测风电机组状态的方法及系统
CN106991436A (zh) * 2017-03-09 2017-07-28 东软集团股份有限公司 噪声点检测方法及装置
CN108681493A (zh) * 2018-05-29 2018-10-19 深圳乐信软件技术有限公司 数据异常检测方法、装置、服务器和存储介质
CN108681493B (zh) * 2018-05-29 2022-04-19 深圳乐信软件技术有限公司 数据异常检测方法、装置、服务器和存储介质
CN113095397A (zh) * 2021-04-03 2021-07-09 国家计算机网络与信息安全管理中心 一种基于层次聚类法的图像数据压缩方法

Similar Documents

Publication Publication Date Title
CN105049286A (zh) 基于层次聚类的云平台测速数据判定方法
CN107682319B (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
US10176246B2 (en) Fast grouping of time series
CN107038167A (zh) 基于模型评估的大数据挖掘分析系统及其分析方法
CN105873105A (zh) 一种基于网络体验质量的移动通信网异常检测和定位方法
CN105827422B (zh) 一种确定网元告警关联关系的方法及装置
CN109543874B (zh) 一种结合气象条件影响的机场空气质量预测方法
CN111046968B (zh) 一种基于改进dpc算法的道路网络轨迹聚类分析方法
CN106503459A (zh) 一种改进随机森林气温数据质量控制方法
CN110995153B (zh) 一种光伏电站的异常数据检测方法、装置及电子设备
CN106254321A (zh) 一种全网络异常数据流分类方法
CN112825576A (zh) 小区扩容的确定方法、装置以及存储介质
CN112395608A (zh) 网络安全威胁监测方法、装置和可读存储介质
CN111612053A (zh) 一种线损率合理区间的计算方法
CN112800115B (zh) 数据处理方法及数据处理装置
CN116780781B (zh) 智能电网接入的功率管理方法
CN108289302A (zh) 定位td-lte网络大气波导干扰的方法及系统
CN108847022A (zh) 一种微波交通数据采集设备的异常值检测方法
CN105740521A (zh) 油藏数值模拟系统求解过程中的小网格剔除方法和装置
CN117118810B (zh) 一种网络通信异常预警方法及系统
CN113726558A (zh) 基于随机森林算法的网络设备流量预测系统
CN116504314B (zh) 基于细胞动态分化的基因调控网络构建方法
CN109389172A (zh) 一种基于无参数网格的无线电信号数据聚类方法
CN105574363A (zh) 一种基于svm-rfe和重叠度的特征选择方法
CN117033912A (zh) 一种设备故障预测方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151111