CN105049286A - 基于层次聚类的云平台测速数据判定方法 - Google Patents
基于层次聚类的云平台测速数据判定方法 Download PDFInfo
- Publication number
- CN105049286A CN105049286A CN201510432338.9A CN201510432338A CN105049286A CN 105049286 A CN105049286 A CN 105049286A CN 201510432338 A CN201510432338 A CN 201510432338A CN 105049286 A CN105049286 A CN 105049286A
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- bunch
- central point
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
- H04L43/0894—Packet rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/028—Capturing of monitoring data by filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于层次聚类的云平台测速数据判定方法,所述方法包括,在数据源中获取待聚类的一维数据,构成数据集;对所述数据集过滤,并对过滤后的数据进行归并操作;针对归并操作后的数据进行第一次聚类,生成聚类结果;所述聚类结果包括多个簇,每个簇包括至少一个数据;根据第一次聚类结果,确定中心点;根据该中心点进行第二次聚类,获得正常范围与异常范围的边界点,从而实现了对于当前网速是否正常或异常的自动化判定。
Description
技术领域
本发明涉及一种判定方法,具体涉及基于层次聚类的云平台测速数据判定方法。
背景技术
目前暂无将无监督聚类技术应用于网速异常检测的解决方案。较为接近的解决方案应用于网络入侵的异常检测领域。使用无监督方法的网络入侵异常检测方案中,结合使用了划分聚类算法与层次凝聚聚类方法,但不同之处在于,先使用划分聚类将样本分为若干簇,再使用凝聚聚类算法合并这些簇,从而得到正常簇与异常簇。方案出处:李娜,钟诚.基于划分和凝聚层次聚类的无监督异常检测[J].计算机工程,2008,(2).
由于网络速度数据与网络入侵检测的数据相比,分布更复杂且变化性大,因此若按照上述方案直接使用划分聚类方法,其聚类结果无法很好的拟合所有的数据分布。
另外,此方案的划分聚类步骤十分依赖某个超参数的设置,这也使得方案在应用与网速异常判定问题中时,不具有较高的鲁棒性。
发明内容
针对现有技术的不足,本发明提供基于层次聚类的云平台测速数据判定方法,实现了对于当前网速是否正常或异常的自动化判定。
本发明的目的是采用下述技术方案实现的:
基于层次聚类的云平台测速数据判定方法,所述方法包括,
在数据源中获取待聚类的一维数据,构成数据集;
对所述数据集过滤,并对过滤后的数据进行归并操作;
针对归并操作后的数据进行第一次聚类,生成聚类结果;所述聚类结果包括多个簇,每个簇包括至少一个数据;
根据第一次聚类结果,确定中心点;
根据该中心点进行第二次聚类,获得正常范围与异常范围的边界点。
优选的,对所述数据集过滤包括,将数据由小到大顺序排列,删除其中最小的5%和最大的5%。
优选的,对所述数据过滤还包括,第一预设阈值为t1,并为t1赋值5,滤掉数据间局部密度小于5的数据;所述局部密度的表达式为:
式(1)中,d为两个数据之间的距离;xj和xi分别为数据集中任意两个相邻数据。
优选的,所述归并操作包括,预设归并半径r,并为r赋值0.0001,将过滤数据中两两之间距离最短的数据合并为一类,由小到大排列后删除两类之间距离小于0.0001的类。
优选的,所述生成聚类结果包括,将两两之间距离最短的两类合并为一簇,并以此循环,直到簇的数量达到预设聚类阈值为止;
所述预设聚类阈值为数据集数据总数的10%。
优选的,所述确定中心点包括,将聚类结果分为k簇,根据每一簇包含的数据个数从高至低排序C1,C2,…Ck,选取前6个簇,分别为C1,C2,C3,…,C6;C1>C6;每个簇的聚类中心为该簇内数据的平均值;
若|C1|/|C2|≥T1,则选择C1的聚类中心为中心点;否则,令S={C1},i=1;若则依次向后遍历S=S∪{Ci+1},i+1→t;否则停止遍历,将S中的簇按照各自聚类中心的高低排序,选择其中最小的聚类中心作为中心点;其中,T1为第二预设阈值。
优选的,所述获得正常范围与异常范围的边界点包括,使用K=2的K均值聚类算法对所有小于所述中心点的数据进行第二次聚类,获取聚类结果;通过相似性度量聚类结果的两个簇X,Y的分界点作为正常范围与异常范围的边界点。
进一步地,所述相似性度量为欧几里德距离度量;其中,两个簇X,Y的欧几里德距离为
与现有技术比,本发明达到的有益效果是:
1、由于各个聚类算法的缺点与局限性,不适合直接应用于该判定问题。在该问题中,由于原始数据分布的不规则性与复杂性,若直接在原始数据中执行K=2的K均值聚类算法,聚类的结果往往不准确。因此,本方案先采用了另外一种层次聚类算法,大大的简化了数据分布,缩小正常与异常边界点的范围,再应用K均值聚类就会取得较好的效果。
2、聚类算法通常对于海量数据的处理不够灵活,当数据量规模较大时,聚类算法的时间性能很差。因此,本方案设计了两种数据筛减方法来减小数据规模:引入了局部密度这个定义,通过局部密度表征样本点的重要性,从而在维持数据分布的基础上减小了样本个数;引入了归并半径,可控的归并距离十分相近的样本,对于局部密度很大的区域可以明显减小数据规模。
附图说明
图1为本发明基于层次聚类的云平台测速数据判定方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
如图1所示,基于层次聚类的云平台测速数据判定方法,所述方法包括,
在数据源中获取待聚类的一维数据,构成数据集;
对所述数据集过滤,并对过滤后的数据进行归并操作,以减小数据规模;对所述数据集过滤包括,将数据由小到大顺序排列,删除其中最小的5%和最大的5%。
所述数据过滤还包括,第一预设阈值为t1,并为t1赋值5,滤掉数据间局部密度小于5的数据;所述局部密度的表达式为:
式(1)中,d为两个数据之间的距离;xj和xi分别为数据集中任意两个相邻数据。所述归并操作包括,预设归并半径r,并为r赋值0.0001,将过滤数据中两两之间距离最短的数据合并为一类,由小到大排列后删除两类之间距离小于0.0001的类。
针对归并操作后的数据进行第一次聚类,生成聚类结果;所述聚类结果包括多个簇,每个簇包括至少一个数据;所述生成聚类结果包括,将两两之间距离最短的两类合并为一簇,并以此循环,直到簇的数量达到预设聚类阈值为止;
所述预设聚类阈值为数据集数据总数的10%。
根据第一次聚类结果,确定中心点;所述确定中心点包括,将聚类结果分为k簇,根据每一簇包含的数据个数从高至低排序C1,C2,…Ck,选取前6个簇,分别为C1,C2,C3,…,C6;C1>C6;每个簇的聚类中心为该簇内数据的平均值;
若|C1|/|C2|≥T1,则选择C1的聚类中心为中心点;否则,令S={C1},i=1;若|Ci|/|Ci+1|<T1,则依次向后遍历S=S∪{Ci+1},i+1→t;否则停止遍历,将S中的簇按照各自聚类中心的高低排序,选择其中最小的聚类中心作为中心点;其中,T1为第二预设阈值。
根据该中心点进行第二次聚类,获得正常范围与异常范围的边界点。所述获得正常范围与异常范围的边界点包括,使用K=2的K均值聚类算法对所有小于所述中心点的数据进行第二次聚类,获取聚类结果;通过相似性度量聚类结果的两个簇X,Y的分界点作为正常范围与异常范围的边界点。
所述相似性度量为欧几里德距离度量;其中,两个簇X,Y的欧几里德距离为
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.基于层次聚类的云平台测速数据判定方法,其特征在于,所述方法包括:
在数据源中获取待聚类的一维数据,构成数据集;
对所述数据集过滤,并对过滤后的数据进行归并操作;
针对归并操作后的数据进行第一次聚类,生成聚类结果;所述聚类结果包括多个簇,每个簇包括至少一个数据;
根据第一次聚类结果,确定中心点;
根据该中心点进行第二次聚类,获得正常范围与异常范围的边界点。
2.如权利要求1所述的方法,其特征在于,对所述数据集过滤包括,将数据由小到大顺序排列,删除其中最小的5%和最大的5%。
3.如权利要求1或2所述的方法,其特征在于,对所述数据过滤还包括,第一预设阈值为t1,并为t1赋值5,滤掉数据间局部密度小于5的数据;所述局部密度的表达式为:
式(1)中,d为两个数据之间的距离;xj和xi分别为数据集中任意两个相邻数据。
4.如权利要求1所述的方法,其特征在于,所述归并操作包括,预设归并半径r,并为r赋值0.0001,将过滤数据中两两之间距离最短的数据合并为一类,由小到大排列后删除两类之间距离小于0.0001的类。
5.如权利要求1所述的方法,其特征在于,所述生成聚类结果包括,将两两之间距离最短的两类合并为一簇,并以此循环,直到簇的数量达到预设聚类阈值为止;
所述预设聚类阈值为数据集数据总数的10%。
6.如权利要求1所述的方法,其特征在于,所述确定中心点包括,将聚类结果分为k簇,根据每一簇包含的数据个数从高至低排序C1,C2,…Ck,选取前6个簇,分别为C1,C2,C3,…,C6;C1>C6;每个簇的聚类中心为该簇内数据的平均值;
若|C1|/C2|≥T1,则选择C1的聚类中心为中心点;否则,令S={C1},i=1;若|Ci|/|Ci+1|≤T1,则依次向后遍历S=S∪{Ci+1},i+1→i;否则停止遍历,将S中的簇按照各自聚类中心的高低排序,选择其中最小的聚类中心作为中心点;其中,T1为第二预设阈值。
7.如权利要求1所述的方法,其特征在于,所述获得正常范围与异常范围的边界点包括,使用K=2的K均值聚类算法对所有小于所述中心点的数据进行第二次聚类,获取聚类结果;通过相似性度量聚类结果的两个簇X,Y的分界点作为正常范围与异常范围的边界点。
8.如权利要求7所述的方法,其特征在于,所述相似性度量为欧几里德距离度量;其中,两个簇X,Y的欧几里德距离为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510432338.9A CN105049286A (zh) | 2015-07-21 | 2015-07-21 | 基于层次聚类的云平台测速数据判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510432338.9A CN105049286A (zh) | 2015-07-21 | 2015-07-21 | 基于层次聚类的云平台测速数据判定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105049286A true CN105049286A (zh) | 2015-11-11 |
Family
ID=54455507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510432338.9A Pending CN105049286A (zh) | 2015-07-21 | 2015-07-21 | 基于层次聚类的云平台测速数据判定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105049286A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106060039A (zh) * | 2016-05-27 | 2016-10-26 | 广东工业大学 | 一种面向网络异常数据流的分类检测方法 |
CN106640547A (zh) * | 2016-11-24 | 2017-05-10 | 东北电力大学 | 监测风电机组状态的方法及系统 |
CN106991436A (zh) * | 2017-03-09 | 2017-07-28 | 东软集团股份有限公司 | 噪声点检测方法及装置 |
CN108681493A (zh) * | 2018-05-29 | 2018-10-19 | 深圳乐信软件技术有限公司 | 数据异常检测方法、装置、服务器和存储介质 |
CN113095397A (zh) * | 2021-04-03 | 2021-07-09 | 国家计算机网络与信息安全管理中心 | 一种基于层次聚类法的图像数据压缩方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831431A (zh) * | 2012-02-05 | 2012-12-19 | 四川大学 | 一种基于层次聚类的检测器训练方法 |
CN103810261A (zh) * | 2014-01-26 | 2014-05-21 | 西安理工大学 | 一种基于商空间理论的K-means聚类方法 |
CN104167092A (zh) * | 2014-07-30 | 2014-11-26 | 北京市交通信息中心 | 一种确定出租车上下客热点区域中心的方法以及装置 |
CN104778355A (zh) * | 2015-04-03 | 2015-07-15 | 东南大学 | 基于广域分布交通系统的异常轨迹检测方法 |
-
2015
- 2015-07-21 CN CN201510432338.9A patent/CN105049286A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831431A (zh) * | 2012-02-05 | 2012-12-19 | 四川大学 | 一种基于层次聚类的检测器训练方法 |
CN103810261A (zh) * | 2014-01-26 | 2014-05-21 | 西安理工大学 | 一种基于商空间理论的K-means聚类方法 |
CN104167092A (zh) * | 2014-07-30 | 2014-11-26 | 北京市交通信息中心 | 一种确定出租车上下客热点区域中心的方法以及装置 |
CN104778355A (zh) * | 2015-04-03 | 2015-07-15 | 东南大学 | 基于广域分布交通系统的异常轨迹检测方法 |
Non-Patent Citations (2)
Title |
---|
李娜,钟诚: "基于划分和凝聚层次聚类的无监督异常检测", 《计算机工程》 * |
童琳,郭尚瓒,孙斌: "基于改进联合聚类的网速正常范围判定方法", 《信息安全与技术》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106060039A (zh) * | 2016-05-27 | 2016-10-26 | 广东工业大学 | 一种面向网络异常数据流的分类检测方法 |
CN106060039B (zh) * | 2016-05-27 | 2019-08-23 | 广东工业大学 | 一种面向网络异常数据流的分类检测方法 |
CN106640547A (zh) * | 2016-11-24 | 2017-05-10 | 东北电力大学 | 监测风电机组状态的方法及系统 |
CN106640547B (zh) * | 2016-11-24 | 2020-08-18 | 东北电力大学 | 监测风电机组状态的方法及系统 |
CN106991436A (zh) * | 2017-03-09 | 2017-07-28 | 东软集团股份有限公司 | 噪声点检测方法及装置 |
CN108681493A (zh) * | 2018-05-29 | 2018-10-19 | 深圳乐信软件技术有限公司 | 数据异常检测方法、装置、服务器和存储介质 |
CN108681493B (zh) * | 2018-05-29 | 2022-04-19 | 深圳乐信软件技术有限公司 | 数据异常检测方法、装置、服务器和存储介质 |
CN113095397A (zh) * | 2021-04-03 | 2021-07-09 | 国家计算机网络与信息安全管理中心 | 一种基于层次聚类法的图像数据压缩方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105049286A (zh) | 基于层次聚类的云平台测速数据判定方法 | |
CN107682319B (zh) | 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法 | |
US10176246B2 (en) | Fast grouping of time series | |
CN107038167A (zh) | 基于模型评估的大数据挖掘分析系统及其分析方法 | |
CN105873105A (zh) | 一种基于网络体验质量的移动通信网异常检测和定位方法 | |
CN105827422B (zh) | 一种确定网元告警关联关系的方法及装置 | |
CN109543874B (zh) | 一种结合气象条件影响的机场空气质量预测方法 | |
CN111046968B (zh) | 一种基于改进dpc算法的道路网络轨迹聚类分析方法 | |
CN106503459A (zh) | 一种改进随机森林气温数据质量控制方法 | |
CN110995153B (zh) | 一种光伏电站的异常数据检测方法、装置及电子设备 | |
CN106254321A (zh) | 一种全网络异常数据流分类方法 | |
CN111612053A (zh) | 一种线损率合理区间的计算方法 | |
CN112825576A (zh) | 小区扩容的确定方法、装置以及存储介质 | |
CN112800115B (zh) | 数据处理方法及数据处理装置 | |
CN108847022A (zh) | 一种微波交通数据采集设备的异常值检测方法 | |
CN112395608A (zh) | 网络安全威胁监测方法、装置和可读存储介质 | |
CN116780781B (zh) | 智能电网接入的功率管理方法 | |
CN108289302A (zh) | 定位td-lte网络大气波导干扰的方法及系统 | |
CN105827603A (zh) | 未明协议特征库建立方法、未明报文分类方法及相关装置 | |
CN117033912A (zh) | 一种设备故障预测方法、装置、可读存储介质及电子设备 | |
CN105740521A (zh) | 油藏数值模拟系统求解过程中的小网格剔除方法和装置 | |
CN117118810B (zh) | 一种网络通信异常预警方法及系统 | |
CN113726558A (zh) | 基于随机森林算法的网络设备流量预测系统 | |
CN116504314B (zh) | 基于细胞动态分化的基因调控网络构建方法 | |
CN109389172A (zh) | 一种基于无参数网格的无线电信号数据聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151111 |