CN110851414A - 一种以聚类法进行边界数据分析的方法及其系统 - Google Patents
一种以聚类法进行边界数据分析的方法及其系统 Download PDFInfo
- Publication number
- CN110851414A CN110851414A CN201911075244.5A CN201911075244A CN110851414A CN 110851414 A CN110851414 A CN 110851414A CN 201911075244 A CN201911075244 A CN 201911075244A CN 110851414 A CN110851414 A CN 110851414A
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- centroid
- boundary
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims abstract description 35
- 238000007621 cluster analysis Methods 0.000 claims abstract description 33
- 230000002159 abnormal effect Effects 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000002790 cross-validation Methods 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 5
- 238000013524 data verification Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 238000007619 statistical method Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 abstract description 18
- 238000004891 communication Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开一种以聚类法进行边界数据分析的方法及其系统,在边界数据交换行为产生的各类日志数据中预设关键变量和阈值,再用聚类算法将数据进行分类,得出聚类分析结果,再将新的边界数据交换行为产生的数据进行聚类分析,得出结果与所建表单比对,以发现离群点并作标识和统计,在超出阈值后进行告警。其系统包括数据采集模块、变量分析存储模块、聚类分析模块、聚类分析结果存储模块、聚类分析结果对比模块、离群点标识模块、离群点标识次数统计模块和告警模块。本发明能综合边界数据交换平台业务运行状况,及时发现异常高危数据交换行为,保障边界数据交换业务的稳定正常运行,以实现对交换业务进行科学合理的管理和控制。
Description
技术领域
本发明涉及计算机技术及数据处理技术领域,尤其涉及一种以聚类法进行边界数据分析的方法及其系统。
背景技术
公安信息通信网边界接入平台是公安信息通信网开展边界接入业务,与公安信息通信网进行授权访问和数据交换操作的基础平台,提供各类接入业务与公安信息通信网进行数据交换和授权访问的网络通道,为了实现接入业务的安全监控与审计,确保公安信息通信网的安全,需要设计一种边界数据分析的方法。而目前现有技术并没有针对公安信息通信网边界接入平台进行边界分析的方法。
而且,目前各类边界链路承载的业务不尽相同,用于承载边界平台的设备在品牌和功能上也不尽相同,各类设备产生的日志(含设备状态日志、链路状态日志、业务状态日志等)均是按照各厂商自行设计的标准和格式。虽然现阶段已有技术进行了数据格式及数据字段的合并转换,但仅是各类设备的状态日志、链路状态日志、业务状态日志等实现格式和字段的统一,各设备的数据依然是分散的,单个设备的数据无法完整呈现整个边界数据交换平台的状况,依然缺乏统一的监测与预警,难以及时发现数据传输的异常和设备、链路的故障。
公安机关所有需要通过公安信息通信网向外提供信息服务和接收外部信息的业务。按接入对象主要分为三大类:社会企事业单位接入业务,党/政/军机关接入业务,公安机关驻地外接入业务。现在常见的边界数据交换行为的分析,多基于各个厂商设备自带的日志记录进行分析。即使部署了综合日志分析系统,也只是将各个设备的日志全部收集过来进行分析,只能了解到各个设备的运行状况,无法呈现边界数据交换平台业务运行状况,当网络延时过大导致业务传输异常、传输的数据格式及内容异常时,无法及时发现及预警。
为实时掌握边界接入平台所有链路运行情况,便于边界平台的运维,从业务和链路两个角度,急需一种方法用于分析不同边界数据交换行为产生的日志数据,分析相似的业务和链路分布情况。
发明内容
为解决上述问题,本发明提供一种以聚类法进行边界数据分析的方法及其系统,以便于更好地了解数据交换行为习惯,当业务传输异常、传输的数据格式及内容异常时,能及时发现及预警。
本发明通过下列技术方案实现:一种以聚类法进行边界数据分析的方法,经过下列各步骤:
步骤1:采集边界数据交换过程中产生的各类日志数据,获得标准数据合集;
步骤2:结合实际应用,从上述日志数据中确定关键变量,从标准数据合集中提取相对应的关键变量数据;根据先验经验和交叉验证,预设关键变量和阈值K,并选择K个点作为初始质心;初始质心需要分散选择,并提取相对应的数据及产生该数据的时间;
步骤3:将关键变量数据代入以下列式(1)的K-means算法进行聚类分析,计算出关键变量x与每个质心μi(即μ1~μk)的欧式距离E:
式中,x为关键变量,Ci为簇划分后的簇代号,即C1,C2,C3…Ck;
首次计算时,μi为步骤2选择的初始质心数据,通过分别计算出关键变量x与μ1~μk每个质心的欧式距离E,x与哪个质心的欧式距离E最小,则x就属于哪个簇,从而判断x归属于欧式距离E最小的质心所在的簇,当全部关键变量都以式(1)计算后,每个关键变量就被划分到相应的簇C1,C2,C3…Ck里,得到分簇结果;
然后,每个簇采用式(2),μi为簇Ci的均值向量,重新计算簇内的新质心μi:
当K个簇都重新计算出质心后,得到新的质心μ1~μk,此时再采用式(1),重新计算关键变量x归属于的簇;通过不断迭代,直到采用式(1)计算的关键变量x归属的簇稳定,不再发生变化,用式(2)重新计算的簇内质心也稳定,不再发生变化时,则表示迭代计算完成;得到聚类分析结果,即分类结果,包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离;
步骤4:对分类结果按业务可用性进行判断比对,即分类结果能否呈现边界数据交换平台的设备运行状态、链路运行状态以及业务传输状态等,经常规数据验证后,显示分类结果符合预期的,则判断为分类合理;如分类结果不符合预期的,则判断为分类不合理,此时需调整关键变量、K值以及K个初始质心,再重新进行聚类分析,直至结果符合预期;
步骤5:将判断为分类合理的分类结果建表单存储,包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离;作为数据对比的基础以备与新数据进行比较;
步骤6:实时采集单条边界交换数据信息,代入步骤3的K-Means算法表达式进行聚类分析,得到聚类分析结果R;该聚类分析结果R包括该条信息关键变量的数值大小以及所归属的簇,其所归属的簇是上述K个簇中质心离该条信息数据的数值最近的簇,记为簇N;
步骤7:将上述聚类分析结果R与分类结果的表单中簇N的数据进行比对,即将聚类分析结果R中关键变量的数值与簇N质心的距离A,与簇N内原有数据离质心最远的距离B进行比较;
步骤8:根据实际使用需求预设离群点标识的次数阈值Y,并判断比较结果,对异常边界数据交换行为发出告警:
当A小于或等于B,则判断该条信息数据交换结果是正常的;
当A大于B,则判断该条信息数据交换结果是疑似异常数据;并对该疑似异常数据进行离群点标识;进而,再次采集同一来源(同一数据源、同一链路经过相同的设备进行传输)的信息数据进行上述聚类分析并比较结果,再次出现疑似异常数据的情况,则继续标识为离群点;
对疑似异常数据被标识为离群点的次数进行统计,当离群点标识次数超出次数阈值Y,则判断为该边界交换行为异常,对该数据源发出告警显示。
所述步骤1的日志数据是指公安边界交换平台在进行某一业务的数据交换过程中,相关设备、链路以及数据交换系统产生的所有相关日志数据。
所述步骤2的关键变量是能直接反应业务状态和设备运行状态的关键指标,如传输速率、传输数据大小,设备的CPU、内存、端口使用率等。
本发明的另一目的还在于提供一种以聚类法进行边界数据分析的系统,采用上述以聚类法进行边界数据分析的方法,包括数据采集模块、变量分析存储模块、聚类分析模块、聚类分析结果存储模块、聚类分析结果对比模块、离群点标识模块、离群点标识次数统计模块和告警模块,其中:
所述数据采集模块用于采集边界数据交换过程中产生的各类日志数据,如公安边界交换平台在进行某一业务的数据交换过程中,相关设备、链路以及数据交换系统产生的所有相关日志数据;
所述变量分析存储模块用于通过先验经验、统计分析或交叉验证,预设各类日志数据中的关键变量和阈值K,并用于存储及更新关键变量和阈值K;
所述聚类分析模块用于对关键变量数据进行聚类分析,得出聚类分析结果并建表单存储;
所述聚类分析结果存储模块用于存储实时采集的单条边界交换数据信息的聚类分析结果R;
所述聚类分析结果对比模块用于将聚类分析结果R和表单中所属分类簇的质心距离A,与簇内原有数据离质心最远的距离B进行比较;
所述离群点标识模块用于将比较结果中A大于B的疑似异常数据标识为离群点;
所述离群点标识次数统计模块用于预设离群点标识的次数阈值Y,并统计某数据源的数据被标识为离群点的次数,并分析是否超出次数阈值Y;
所述告警模块用于对超出次数阈值Y的数据向工作人员显示告警提醒信息。
本发明采用启发式的迭代方法,聚类分析的完成标志是经过若干轮计算后,数据分成了K个簇,每个簇内的点都已稳定,不会再移向其他簇;每个簇内的质心也不会再有变化,即得到了最小化平方误差E。
本发明采用K-means算法的启发式方式,用附图3进行下列形象描述:
如图3(a)表达了初始的数据集,假设k=2,在图3(b)中,随机选择两个k类所对应的类别质心,即图中的实心点质心和空心点质心,然后分别求样本中所有点到这两个质心的距离,并标记每个样本的类别为与该样本距离最小的质心的类别,如图3(c)所示,经过计算样本与实心点质心和空心点质心的距离,得到所有样本点的第一轮迭代后的类别。此时对当前标记为红色和蓝色的点分别求其新的质心,如图3(d)所示,新的实心点质心和空心点质心的位置已经发生了变动。图3(e)和图3(f)重复了图3(c)和图3(d)的过程,即将所有点的类别标记为距离最近的质心的类别并求新的质心。最终得到的两个类别如图3(f)。
当然在实际K-Mean算法中,一般会多次运行图c和图d,才能达到最终的比较优的类别。对于K-Means算法,首先要根据对数据的先验经验选择一个合适的k值,在没有先验知识的情况下,则可以通过交叉验证选择一个合适的k值。在确定了k的个数后,需要选择k个初始化的质心,就像图3(b)中的随机质心。
本发明使用K-means算法进行聚类分析,其结果是对给定的样本集按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。
本发明具备的优点及效果:本发明通过聚类分析算法,将边界数据交换行为产生的相关日志数据及设备运行状态、链路状态等数据进行收集并进行聚类分析,得出不同边界数据交换行为的特征,综合边界数据交换平台业务运行状况,及时发现异常高危数据交换行为,保障边界数据交换业务的稳定正常运行。通过聚类算法高度抽象不同交换业务相类似的交换行为特征,便于在时间序列上了解公安信息通信网边界接入平台不同业务的交换习惯属性及变换趋势,以实现对交换业务进行科学合理的管理和控制。如果多次都被识别为异常离群点交换行为,则交换业务行为会发出告警,以及可以对交换过程进行溯源分析。
附图说明
为了更清楚地说明本发明的实现过程。下面对本发明描述中所需要的附图做简要的介绍。明显地,下述附图仅仅是本发明的实施方式,并非用于限定本发明的保护范围。
图1为本发明以聚类法进行边界数据分析的实现流程示意图;
图2为本发明以聚类法进行边界数据分析系统的组成结构示意图;
图3是本发明聚类分析算法k-means算法的实现过程示意图。
具体实施方式
下面以公安边界交换平台作为示例进行说明,以方便更直观的理解本发明的实现过程,并非用于限定本发明的保护范围。
实施例1
如图1所示,本发明以聚类法进行边界数据分析的方法具体的实现步骤如下:
步骤1:采集边界数据交换过程中产生的各类日志数据,获得标准数据合集,以公安边界交换平台为例,日志数据的标准数据合集是指公安边界交换平台在进行某一业务的数据交换过程中,相关设备、链路以及数据交换系统产生的所有相关日志数据;
步骤2:本例是在公安边界数据交换平台中,以某旅店上传的旅客住店信息为例,根据先验经验,以上传的文件大小(KB)和对应的传输时长(ms)作为关键变量。从标准数据合集中提取相对应的关键变量数据如下:
{200,500;198,501;210,498;185,490;230,540;189,487;202,503;196,510;211,514;205,495;221,532;222,525;188,497;190,495;192,497;213,516;225,535;193,494;182,532;185,533;184,530;186,535;220,487;221,485;218,480;19,484;221,488}。
并预设阈值K=5,并选择5个点作为初始质心,即{200,500;188,497;225,535;182,532;220,487};
这里,关键变量是结合用户实际应用进行确定的,能直接反应业务状态和设备运行状态的关键指标,如传输速率、传输数据大小,设备的CPU、内存、端口使用率等;阈值K是聚类分析算法k-means算法的K值,是分类的簇数;K值根据先验经验或交叉验证设置,K个初始质心的设置也通过先验经验或交叉验证进行选定;
步骤3:将关键变量数据代入以下列式(1)的K-means算法进行聚类分析,计算出关键变量x与每个质心μi(即μ1~μ4)的欧式距离E:
式中,x为关键变量,Ci为簇划分后的簇代号,即C1,C2,C3,C4,C5;
首次计算时,μi为步骤2选择的初始质心数据,即μi分别为μ1(200,500)、μ2(188,497)、μ3(225,535)、μ4(182,532)、μ5(220,487),通过分别计算出关键变量x与μ1~μ5每个质心的欧式距离E,x与哪个质心的欧式距离E最小,则x就属于哪个簇,从而判断x归属于欧式距离E最小的质心所在的簇,当全部关键变量都以式(1)计算后,每个关键变量就被划分到相应的簇C1,C2,C3,C4,C5里,得到分簇结果;
然后,每个簇采用式(2),μi为簇Ci的均值向量,重新计算簇内的新质心μi:
当5个簇都重新计算出质心后,得到新的质心μ1~μ5,此时再采用式(1),重新计算关键变量x归属于的簇;通过不断迭代,直到采用式(1)计算的关键变量x归属的簇稳定,不再发生变化,用式(2)重新计算的簇内质心也稳定,不再发生变化时,则表示迭代计算完成;得到聚类分析结果,即分类结果,包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离;
本例中,单次迭代运行次数:3
Cluster
Cluster_id=1,center:{Point_id=-1[184.25 532.5]clusterId:0dist:0.0}
Point_id=18[182.0 532.0]clusterId:0dist:2.304886
Point_id=19[185.0 533.0]clusterId:0dist:0.9013878
Point_id=20[184.0 530.0]clusterId:0dist:2.5124688
Point_id=21[186.0 535.0]clusterId:0dist:3.0516388
Cluster
Cluster_id=2,center:{Point_id=-1[218.5 482.0]clusterId:0dist:0.0}
Point_id=24[218.0 480.0]clusterId:1dist:2.0615528
Point_id=25[219.0 484.0]clusterId:1dist:2.0615528
Cluster
Cluster_id=3,center:{Point_id=-1[195.66667 497.25]clusterId:0dist:0.0}
Point_id=0[200.0 500.0]clusterId:2dist:5.1322737
Point_id=1[198.0 501.0]clusterId:2dist:4.416664
Point_id=2[210.0 498.0]clusterId:2dist:14.352937
Point_id=3[185.0 490.0]clusterId:2dist:12.897302
Point_id=5[189.0 487.0]clusterId:2dist:12.227306
Point_id=6[202.0 503.0]clusterId:2dist:8.554153
Point_id=7[196.0 510.0]clusterId:2dist:12.754356
Point_id=9[205.0 495.0]clusterId:2dist:9.600704
Point_id=12[188.0 497.0]clusterId:2dist:7.670747
Point_id=13[190.0 495.0]clusterId:2dist:6.097021
Point_id=14[192.0 497.0]clusterId:2dist:3.6751845
Point_id=17[193.0 494.0]clusterId:2dist:4.204003
Cluster
Cluster_id=4,center:{Point_id=-1[220.66667 486.66666]clusterId:0dist:
0.0}
Point_id=22[220.0 487.0]clusterId:3dist:0.7453651
Point_id=23[221.0 485.0]clusterId:3dist:1.6996622
Point_id=26[221.0 488.0]clusterId:3dist:1.3743771
Cluster
Cluster_id=5,center:{Point_id=-1[220.33333 527.0]clusterId:0dist:0.0}
Point_id=4[230.0 540.0]clusterId:4dist:16.20014
Point_id=8[211.0 514.0]clusterId:4dist:16.00347
Point_id=10[221.0 532.0]clusterId:4dist:5.0442495
Point_id=11[222.0 525.0]clusterId:4dist:2.6034198
Point_id=15[213.0 516.0]clusterId:4dist:13.220352
Point_id=16[225.0 535.0]clusterId:4dist:9.261632
上述计算结果中,Cluster_id表示簇编号,center为每个簇的质心点坐标,Point_id为簇成员的坐标点,dist为簇成员到质心的距离;
步骤4:对于分类结果,按业务可用性进行判断比对,即分类结果能否呈现边界数据交换平台的设备运行状态、链路运行状态以及业务传输状态等,经常规数据验证后,显示分类结果符合预期的,则判断为分类合理;如分类结果不符合预期的,则判断为分类不合理,此时需调整关键变量、K值以及K个初始质心,再重新进行聚类分析,直至结果符合预期;
本例所得结果经判断比对,其分类结果符合预期,分类合理;
步骤5:将判断为分类合理的分类结果建表单存储,包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离;作为数据对比的基础以备与新数据进行比较;
步骤6:实时采集单条边界交换数据信息,即某旅店上传的一条旅客住店信息,提取该信息对应的关键变量数据(文件大小和对应的传输时长),即数据201,508,代入步骤3的K-Means算法表达式进行聚类分析,得到聚类分析结果R;
该聚类分析结果R包括该条信息关键变量的数值大小以及所归属的簇,其所归属的簇是上述K个簇中质心离该条信息数据的数值最近的簇,记为簇N;
步骤7:将上述聚类分析结果R与分类结果的表单中簇N的数据进行比对,即将聚类分析结果R中关键变量的数值与簇N质心的距离A,与簇N内原有数据离质心最远的距离B进行比较;
步骤8:根据实际使用需求预设离群点标识的次数阈值Y,并判断比较结果,对异常边界数据交换行为发出告警:
当A小于或等于B,则判断该条信息数据交换结果是正常的;
当A大于B,则判断该条信息数据交换结果是疑似异常数据;并对该疑似异常数据进行离群点标识;进而,再次采集同一来源(同一数据源、同一链路经过相同的设备进行传输)的信息数据进行上述聚类分析并比较结果,再次出现疑似异常数据的情况,则继续标识为离群点;
对疑似异常数据被标识为离群点的次数进行统计,当离群点标识次数超出次数阈值Y,则判断为该边界交换行为异常,向该数据源发出告警;
本例中,次数阈值Y设置为5,次数的设置与业务相关,如设置过低,则系统容易频繁告警,如设置过高,则容易遗漏重要异常边界数据交换行为;
本例得出其归属于簇3,距离质心的距离为12,小于该簇的最大距离14.352937,属于正常数据。
实施例2
本例是在公安边界数据交换平台中,以数据交换系统为例,以ftp链接数及数据交换系统端口带宽占用率作为关键变量,其关键变量数据如下:
{90,40;86,41;89,40;88,42;86,39;92,42;91,43;87,38;82,36;83,35;81,32;82,33;75,30;74,29;76,32;73,28;74,30;75,29;99,45;98,44;100,46;101,48;97,46;100,47}。
并预设阈值K=4,并选择4个点作为初始质心,即{90,40;82,33;75,30;100,46}。
将关键变量数据代入以下列式(1)的K-means算法进行聚类分析,计算出关键变量x与每个质心μi(即μ1~μ4)的欧式距离E:
式中,x为关键变量,Ci为簇划分后的簇代号,即C1,C2,C3,C4;
首次计算时,μi为步骤2选择的初始质心数据,即μi分别为μ1(90,40)、μ2(82,33)、μ3(75,30)、μ4(100,46),通过分别计算出关键变量x与μ1~μ4每个质心的欧式距离E,x与哪个质心的欧式距离E最小,则x就属于哪个簇,从而判断x归属于欧式距离E最小的质心所在的簇,当全部关键变量都以式(1)计算后,每个关键变量就被划分到相应的簇C1,C2,C3,C4里,得到分簇结果;
然后,每个簇采用式(2),μi为簇Ci的均值向量,重新计算簇内的新质心μi:
当K个簇都重新计算出质心后,得到新的质心μ1~μ4,此时再采用式(1),重新计算关键变量x归属于的簇;通过不断迭代,直到采用式(1)计算的关键变量x归属的簇稳定,不再发生变化,用式(2)重新计算的簇内质心也稳定,不再发生变化时,则表示迭代计算完成;得到聚类分析结果,即分类结果,包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离;
本例得出4组数据分别为:
单次迭代运算次数:8
Cluster
Cluster_id=0,center:{Point_id=-1[88.625 40.625]clusterId:0dist:0.0}
Point_id=0[90.0 40.0]clusterId:0 dist:1.5103807
Point_id=1[86.0 41.0]clusterId:0 dist:2.6516504
Point_id=2[89.0 40.0]clusterId:0 dist:0.72886896
Point_id=3[88.0 42.0]clusterId:0 dist:1.5103807
Point_id=4[86.0 39.0]clusterId:0 dist:3.0872722
Point_id=5[92.0 42.0]clusterId:0 dist:3.644345
Point_id=6[91.0 43.0]clusterId:0 dist:3.3587573
Point_id=7[87.0 38.0]clusterId:0 dist:3.0872722
Cluster
Cluster_id=1,center:{Point_id=-1[82.0 34.0]clusterId:0 dist:0.0}
Point_id=8[82.0 36.0]clusterId:1 dist:2.0
Point_id=9[83.0 35.0]clusterId:1 dist:1.4142135
Point_id=10[81.0 32.0]clusterId:1 dist:2.236068
Point_id=11[82.0 33.0]clusterId:1 dist:1.0
Cluster
Cluster_id=2,center:{Point_id=-1[74.5 29.666666]clusterId:0 dist:0.0}
Point_id=12[75.0 30.0]clusterId:2 dist:0.60092556
Point_id=13[74.0 29.0]clusterId:2 dist:0.83333284
Point_id=14[76.0 32.0]clusterId:2 dist:2.7738867
Point_id=15[73.0 28.0]clusterId:2 dist:2.2422702
Point_id=16[74.0 30.0]clusterId:2 dist:0.60092556
Point_id=17[75.0 29.0]clusterId:2 dist:0.83333284
Cluster
Cluster_id=3,center:{Point_id=-1[99.166664 46.0]clusterId:0 dist:0.0}
Point_id=18[99.0 45.0]clusterId:3 dist:1.0137933
Point_id=19[98.0 44.0]clusterId:3 dist:2.315406
Point_id=20[97.0 46.0]clusterId:3 dist:2.1666641
Point_id=21[100.0 47.0]clusterId:3dist:1.3017099
Point_id=22[100.0 46.0]clusterId:3dist:0.8333359
Point_id=23[101.0 48.0]clusterId:3dist:2.7131386
本例所得结果经常规数据验证后,其分类结果符合预期,分类合理;
将上述分类结果建表单存储,系统接收同一来源的一个新数据85,23,则代入K-Means算法,得出其归属于簇1,距离质心的距离为11.18034,大于该簇的最大距离2.236068,标识为离群点数据。预设次数阈值Y为5,再次采集同一来源的信息数据进行上述聚类分析并比较结果,再次出现疑似异常数据的情况,则继续标识为离群点;当离群点标识次数超出次数阈值5,则判断为该边界交换行为异常,对该数据源发出告警显示,提醒工作人员注意。
明显的,对于本领域技术人员来说,本发明不仅仅局限于上述示范性实施例的细节。在不违背本发明的基本特征或者精神的情况下,能够以其他的具体形式实现本发明。上述内容,仅仅是本发明一种以聚类法进行边界数据分析的方法的实施例,而非用于限定本发明的保护范围。
Claims (4)
1.一种以聚类法进行边界数据分析的方法,其特征在于经过下列各步骤:
步骤1:采集边界数据交换过程中产生的各类日志数据,获得标准数据合集;
步骤2:结合实际应用,从上述日志数据中确定关键变量,从标准数据合集中提取相对应的关键变量数据;根据先验经验和交叉验证,预设关键变量和阈值K,并选择K个点作为初始质心;
步骤3:将关键变量数据代入以下列式(1)的K-means算法进行聚类分析,计算出关键变量x与每个质心μi(即μ1~μk)的欧式距离E:
式中,x为关键变量,Ci为簇划分后的簇代号,即C1,C2,C3…Ck;
首次计算时,μi为步骤2选择的初始质心数据,通过分别计算出关键变量x与μ1~μk每个质心的欧式距离E,从而判断x归属于欧式距离E最小的质心所在的簇,当全部关键变量都以式(1)计算后,每个关键变量就被划分到相应的簇C1,C2,C3…Ck里,得到分簇结果;
然后,每个簇采用式(2),μi为簇Ci的均值向量,重新计算簇内的新质心μi:
当K个簇都重新计算出质心后,得到新的质心μ1~μk,此时再采用式(1),重新计算关键变量x归属于的簇;通过不断迭代,直到采用式(1)计算的关键变量x归属的簇稳定,用式(2)重新计算的簇内质心也稳定,则表示迭代计算完成;得到聚类分析结果,即分类结果,包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离;
步骤4:对分类结果按业务可用性进行判断比对,即分类结果能否呈现边界数据交换平台的设备运行状态、链路运行状态以及业务传输状态等,经常规数据验证后,显示分类结果符合预期的,则判断为分类合理;如分类结果不符合预期的,则判断为分类不合理,此时需调整关键变量、K值以及K个初始质心,再重新进行聚类分析,直至结果符合预期;
步骤5:将判断为分类合理的分类结果建表单存储,包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离;
步骤6:实时采集单条边界交换数据信息,代入步骤3的K-Means算法表达式进行聚类分析,得到聚类分析结果R;该聚类分析结果R包括该条信息关键变量的数值大小以及所归属的簇,其所归属的簇是上述K个簇中质心离该条信息数据的数值最近的簇,记为簇N;
步骤7:将上述聚类分析结果R与分类结果的表单中簇N的数据进行比对,即将聚类分析结果R中关键变量的数值与簇N质心的距离A,与簇N内原有数据离质心最远的距离B进行比较;
步骤8:根据实际使用需求预设离群点标识的次数阈值Y,并判断比较结果,对异常边界数据交换行为发出告警:
当A小于或等于B,则判断该条信息数据交换结果是正常的;
当A大于B,则判断该条信息数据交换结果是疑似异常数据;并对该疑似异常数据进行离群点标识;进而,再次采集同一来源的信息数据进行上述聚类分析并比较结果,再次出现疑似异常数据的情况,则继续标识为离群点;
对疑似异常数据被标识为离群点的次数进行统计,当离群点标识次数超出次数阈值Y,则判断为该边界交换行为异常,对该数据源发出告警显示。
2.根据权利要求1所述的以聚类法进行边界数据分析的方法,其特征在于:所述步骤1的日志数据是指公安边界交换平台在进行某一业务的数据交换过程中,相关设备、链路以及数据交换系统产生的所有相关日志数据。
3.根据权利要求1所述的以聚类法进行边界数据分析的方法,其特征在于:所述步骤2的关键变量是能直接反应业务状态和设备运行状态的关键指标。
4.一种以聚类法进行边界数据分析的系统,采用权利要求1至3任一以聚类法进行边界数据分析的方法,其特征在于:包括数据采集模块、变量分析存储模块、聚类分析模块、聚类分析结果存储模块、聚类分析结果对比模块、离群点标识模块、离群点标识次数统计模块和告警模块,其中:
所述数据采集模块用于采集边界数据交换过程中产生的各类日志数据;
所述变量分析存储模块用于通过先验经验、统计分析或交叉验证,预设各类日志数据中的关键变量和阈值K,并用于存储及更新关键变量和阈值K;
所述聚类分析模块用于对关键变量数据进行聚类分析,得出聚类分析结果并建表单存储;
所述聚类分析结果存储模块用于存储实时采集的单条边界交换数据信息的聚类分析结果R;
所述聚类分析结果对比模块用于将聚类分析结果R和表单中所属分类簇的质心距离A,与簇内原有数据离质心最远的距离B进行比较;
所述离群点标识模块用于将比较结果中A大于B的疑似异常数据标识为离群点;
所述离群点标识次数统计模块用于预设离群点标识的次数阈值Y,并统计某数据源的数据被标识为离群点的次数,并分析是否超出次数阈值Y;
所述告警模块用于对超出次数阈值Y的数据向工作人员显示告警提醒信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911075244.5A CN110851414B (zh) | 2019-11-06 | 2019-11-06 | 一种以聚类法进行边界数据分析的方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911075244.5A CN110851414B (zh) | 2019-11-06 | 2019-11-06 | 一种以聚类法进行边界数据分析的方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851414A true CN110851414A (zh) | 2020-02-28 |
CN110851414B CN110851414B (zh) | 2023-05-05 |
Family
ID=69599753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911075244.5A Active CN110851414B (zh) | 2019-11-06 | 2019-11-06 | 一种以聚类法进行边界数据分析的方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851414B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111953665A (zh) * | 2020-07-28 | 2020-11-17 | 深圳供电局有限公司 | 服务器攻击访问识别方法及系统、计算机设备、存储介质 |
WO2021120782A1 (zh) * | 2020-07-28 | 2021-06-24 | 平安科技(深圳)有限公司 | 日志中关键信息提取方法、装置、终端及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004044236A1 (en) * | 2002-11-14 | 2004-05-27 | Genomics Research Partners Pty Ltd | Status determination |
CN104852992A (zh) * | 2015-06-09 | 2015-08-19 | 湖北天盾电子技术有限公司 | 一种基于多通信网络与传感设备的安全应急在线智能系统 |
CN105654229A (zh) * | 2015-11-26 | 2016-06-08 | 国家电网公司 | 一种电网自动化系统及设备运行状态风险评估算法 |
CN105868266A (zh) * | 2016-01-27 | 2016-08-17 | 电子科技大学 | 一种基于聚类模型的高维数据流离群点检测方法 |
US20170091008A1 (en) * | 2015-09-29 | 2017-03-30 | International Business Machines Corporation | Detecting and analyzing performance anomalies of client-server based applications |
CN106570131A (zh) * | 2016-10-27 | 2017-04-19 | 北京途美科技有限公司 | 一种基于聚类分析的敏感数据异常访问检测方法 |
US20170124478A1 (en) * | 2015-10-30 | 2017-05-04 | Citrix Systems, Inc. | Anomaly detection with k-means clustering and artificial outlier injection |
CN106682079A (zh) * | 2016-11-21 | 2017-05-17 | 云南电网有限责任公司电力科学研究院 | 一种基于聚类分析的用户用电行为检测方法 |
CN109242499A (zh) * | 2018-09-19 | 2019-01-18 | 中国银行股份有限公司 | 一种交易风险预测的处理方法、装置及系统 |
CN109856299A (zh) * | 2018-11-26 | 2019-06-07 | 国家电网有限公司 | 一种变压器在线监测差异化阈值动态设置方法、系统 |
CN110390077A (zh) * | 2018-11-30 | 2019-10-29 | 上海德拓信息技术股份有限公司 | 一种用于识别商品价格异常风险的方法 |
CN110602105A (zh) * | 2019-09-17 | 2019-12-20 | 国家电网有限公司 | 一种基于k-means的大规模并行化网络入侵检测方法 |
-
2019
- 2019-11-06 CN CN201911075244.5A patent/CN110851414B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004044236A1 (en) * | 2002-11-14 | 2004-05-27 | Genomics Research Partners Pty Ltd | Status determination |
CN104852992A (zh) * | 2015-06-09 | 2015-08-19 | 湖北天盾电子技术有限公司 | 一种基于多通信网络与传感设备的安全应急在线智能系统 |
US20170091008A1 (en) * | 2015-09-29 | 2017-03-30 | International Business Machines Corporation | Detecting and analyzing performance anomalies of client-server based applications |
US20170124478A1 (en) * | 2015-10-30 | 2017-05-04 | Citrix Systems, Inc. | Anomaly detection with k-means clustering and artificial outlier injection |
CN105654229A (zh) * | 2015-11-26 | 2016-06-08 | 国家电网公司 | 一种电网自动化系统及设备运行状态风险评估算法 |
CN105868266A (zh) * | 2016-01-27 | 2016-08-17 | 电子科技大学 | 一种基于聚类模型的高维数据流离群点检测方法 |
CN106570131A (zh) * | 2016-10-27 | 2017-04-19 | 北京途美科技有限公司 | 一种基于聚类分析的敏感数据异常访问检测方法 |
CN106682079A (zh) * | 2016-11-21 | 2017-05-17 | 云南电网有限责任公司电力科学研究院 | 一种基于聚类分析的用户用电行为检测方法 |
CN109242499A (zh) * | 2018-09-19 | 2019-01-18 | 中国银行股份有限公司 | 一种交易风险预测的处理方法、装置及系统 |
CN109856299A (zh) * | 2018-11-26 | 2019-06-07 | 国家电网有限公司 | 一种变压器在线监测差异化阈值动态设置方法、系统 |
CN110390077A (zh) * | 2018-11-30 | 2019-10-29 | 上海德拓信息技术股份有限公司 | 一种用于识别商品价格异常风险的方法 |
CN110602105A (zh) * | 2019-09-17 | 2019-12-20 | 国家电网有限公司 | 一种基于k-means的大规模并行化网络入侵检测方法 |
Non-Patent Citations (3)
Title |
---|
ANDERSON FRANCISCO DE OLIVEIRA 等: "Favoring the k-Means Algorithm with Initialization Methods", 《INTELLIGENT SYSTEMS DESIGN AND APPLICATIONS》 * |
GEORG PETERS: "Some refinements of rough k-means clustering", 《PATTERN RECOGNITION》 * |
王丽娜: "基于阴影集和粗糙集的模糊聚类算法研究与应用", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111953665A (zh) * | 2020-07-28 | 2020-11-17 | 深圳供电局有限公司 | 服务器攻击访问识别方法及系统、计算机设备、存储介质 |
WO2021120782A1 (zh) * | 2020-07-28 | 2021-06-24 | 平安科技(深圳)有限公司 | 日志中关键信息提取方法、装置、终端及存储介质 |
CN111953665B (zh) * | 2020-07-28 | 2022-08-30 | 深圳供电局有限公司 | 服务器攻击访问识别方法及系统、计算机设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110851414B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111614690B (zh) | 一种异常行为检测方法及装置 | |
CN113159615B (zh) | 一种工业控制系统信息安全风险智能测定系统及方法 | |
CN111612041B (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
CN113592019B (zh) | 基于多模型融合的故障检测方法、装置、设备及介质 | |
CN109919781A (zh) | 团伙欺诈案件识别方法、电子装置及计算机可读存储介质 | |
CN104883278A (zh) | 一种利用机器学习对网络设备进行分类的方法 | |
CN111176953B (zh) | 一种异常检测及其模型训练方法、计算机设备和存储介质 | |
CN106682835B (zh) | 一种数据驱动的复杂机电系统服役质量状态评估方法 | |
CN116366374B (zh) | 基于大数据的电网网络管理的安全评估方法、系统及介质 | |
CN111652280A (zh) | 基于行为的目标物数据分析方法、装置及存储介质 | |
CN110851414B (zh) | 一种以聚类法进行边界数据分析的方法及其系统 | |
CN113706100B (zh) | 配电网物联终端设备实时探测识别方法与系统 | |
CN107465691A (zh) | 基于路由器日志分析的网络攻击检测系统及检测方法 | |
CN110135171A (zh) | 一种物联网信息安全态势系统 | |
CN114637263A (zh) | 一种异常工况实时监测方法、装置、设备及存储介质 | |
CN111338888A (zh) | 一种数据统计方法、装置、电子设备及存储介质 | |
CN110544047A (zh) | 一种不良数据辨识方法 | |
CN114356900A (zh) | 一种电力数据异常检测方法、装置、设备及介质 | |
CN116127400B (zh) | 基于异构计算的敏感数据识别系统、方法及存储介质 | |
CN112288317A (zh) | 一种基于多源异构数据治理的工业大数据分析平台和方法 | |
CN111913944A (zh) | 一种带有警报功能的高安全性大数据分析方法 | |
CN116760578A (zh) | 一种应用ai的威胁态势预测方法 | |
CN110460452B (zh) | 消息推送方法及相关产品 | |
Vercosa et al. | An Approach for Analysing Law Processes based on Hierarchical Activities and Clustering | |
Sun et al. | Visual analytics for anomaly classification in LAN based on deep convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |