CN110851414A

CN110851414A - 一种以聚类法进行边界数据分析的方法及其系统

Info

Publication number: CN110851414A
Application number: CN201911075244.5A
Authority: CN
Inventors: 金梦; 赵健; 王吉川; 高睿; 张放; 李柏磊; 李嘉; 殷安平; 汪心玲; 金雪娇; 邵微; 段跃; 李绍峰
Original assignee: KUNMING PUBLIC SECURITY BUREAU; Yunnan Aituo Information Technology Co Ltd
Current assignee: KUNMING PUBLIC SECURITY BUREAU; Yunnan Aituo Information Technology Co Ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-02-28
Anticipated expiration: 2039-11-06
Also published as: CN110851414B

Abstract

本发明公开一种以聚类法进行边界数据分析的方法及其系统，在边界数据交换行为产生的各类日志数据中预设关键变量和阈值，再用聚类算法将数据进行分类，得出聚类分析结果，再将新的边界数据交换行为产生的数据进行聚类分析，得出结果与所建表单比对，以发现离群点并作标识和统计，在超出阈值后进行告警。其系统包括数据采集模块、变量分析存储模块、聚类分析模块、聚类分析结果存储模块、聚类分析结果对比模块、离群点标识模块、离群点标识次数统计模块和告警模块。本发明能综合边界数据交换平台业务运行状况，及时发现异常高危数据交换行为，保障边界数据交换业务的稳定正常运行，以实现对交换业务进行科学合理的管理和控制。

Description

一种以聚类法进行边界数据分析的方法及其系统

技术领域

本发明涉及计算机技术及数据处理技术领域，尤其涉及一种以聚类法进行边界数据分析的方法及其系统。

背景技术

公安信息通信网边界接入平台是公安信息通信网开展边界接入业务，与公安信息通信网进行授权访问和数据交换操作的基础平台，提供各类接入业务与公安信息通信网进行数据交换和授权访问的网络通道，为了实现接入业务的安全监控与审计，确保公安信息通信网的安全，需要设计一种边界数据分析的方法。而目前现有技术并没有针对公安信息通信网边界接入平台进行边界分析的方法。

而且，目前各类边界链路承载的业务不尽相同，用于承载边界平台的设备在品牌和功能上也不尽相同，各类设备产生的日志(含设备状态日志、链路状态日志、业务状态日志等)均是按照各厂商自行设计的标准和格式。虽然现阶段已有技术进行了数据格式及数据字段的合并转换，但仅是各类设备的状态日志、链路状态日志、业务状态日志等实现格式和字段的统一，各设备的数据依然是分散的，单个设备的数据无法完整呈现整个边界数据交换平台的状况，依然缺乏统一的监测与预警，难以及时发现数据传输的异常和设备、链路的故障。

公安机关所有需要通过公安信息通信网向外提供信息服务和接收外部信息的业务。按接入对象主要分为三大类：社会企事业单位接入业务，党/政/军机关接入业务，公安机关驻地外接入业务。现在常见的边界数据交换行为的分析，多基于各个厂商设备自带的日志记录进行分析。即使部署了综合日志分析系统，也只是将各个设备的日志全部收集过来进行分析，只能了解到各个设备的运行状况，无法呈现边界数据交换平台业务运行状况，当网络延时过大导致业务传输异常、传输的数据格式及内容异常时，无法及时发现及预警。

为实时掌握边界接入平台所有链路运行情况，便于边界平台的运维，从业务和链路两个角度，急需一种方法用于分析不同边界数据交换行为产生的日志数据，分析相似的业务和链路分布情况。

发明内容

为解决上述问题，本发明提供一种以聚类法进行边界数据分析的方法及其系统，以便于更好地了解数据交换行为习惯，当业务传输异常、传输的数据格式及内容异常时，能及时发现及预警。

本发明通过下列技术方案实现：一种以聚类法进行边界数据分析的方法，经过下列各步骤：

步骤1：采集边界数据交换过程中产生的各类日志数据，获得标准数据合集；

步骤2：结合实际应用，从上述日志数据中确定关键变量，从标准数据合集中提取相对应的关键变量数据；根据先验经验和交叉验证，预设关键变量和阈值K，并选择K个点作为初始质心；初始质心需要分散选择，并提取相对应的数据及产生该数据的时间；

步骤3：将关键变量数据代入以下列式(1)的K-means算法进行聚类分析，计算出关键变量x与每个质心μ_i(即μ₁～μ_k)的欧式距离E：

式中，x为关键变量，C_i为簇划分后的簇代号，即C₁，C₂，C₃…C_k；

首次计算时，μ_i为步骤2选择的初始质心数据，通过分别计算出关键变量x与μ₁～μ_k每个质心的欧式距离E，x与哪个质心的欧式距离E最小，则x就属于哪个簇，从而判断x归属于欧式距离E最小的质心所在的簇，当全部关键变量都以式(1)计算后，每个关键变量就被划分到相应的簇C₁，C₂，C₃…C_k里，得到分簇结果；

然后，每个簇采用式(2)，μ_i为簇C_i的均值向量，重新计算簇内的新质心μ_i：

当K个簇都重新计算出质心后，得到新的质心μ₁～μ_k，此时再采用式(1)，重新计算关键变量x归属于的簇；通过不断迭代，直到采用式(1)计算的关键变量x归属的簇稳定，不再发生变化，用式(2)重新计算的簇内质心也稳定，不再发生变化时，则表示迭代计算完成；得到聚类分析结果，即分类结果，包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离；

步骤4：对分类结果按业务可用性进行判断比对，即分类结果能否呈现边界数据交换平台的设备运行状态、链路运行状态以及业务传输状态等，经常规数据验证后，显示分类结果符合预期的，则判断为分类合理；如分类结果不符合预期的，则判断为分类不合理，此时需调整关键变量、K值以及K个初始质心，再重新进行聚类分析，直至结果符合预期；

步骤5：将判断为分类合理的分类结果建表单存储，包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离；作为数据对比的基础以备与新数据进行比较；

步骤6：实时采集单条边界交换数据信息，代入步骤3的K-Means算法表达式进行聚类分析，得到聚类分析结果R；该聚类分析结果R包括该条信息关键变量的数值大小以及所归属的簇，其所归属的簇是上述K个簇中质心离该条信息数据的数值最近的簇，记为簇N；

步骤7：将上述聚类分析结果R与分类结果的表单中簇N的数据进行比对，即将聚类分析结果R中关键变量的数值与簇N质心的距离A，与簇N内原有数据离质心最远的距离B进行比较；

步骤8：根据实际使用需求预设离群点标识的次数阈值Y，并判断比较结果，对异常边界数据交换行为发出告警：

当A小于或等于B，则判断该条信息数据交换结果是正常的；

当A大于B，则判断该条信息数据交换结果是疑似异常数据；并对该疑似异常数据进行离群点标识；进而，再次采集同一来源(同一数据源、同一链路经过相同的设备进行传输)的信息数据进行上述聚类分析并比较结果，再次出现疑似异常数据的情况，则继续标识为离群点；

对疑似异常数据被标识为离群点的次数进行统计，当离群点标识次数超出次数阈值Y，则判断为该边界交换行为异常，对该数据源发出告警显示。

所述步骤1的日志数据是指公安边界交换平台在进行某一业务的数据交换过程中，相关设备、链路以及数据交换系统产生的所有相关日志数据。

所述步骤2的关键变量是能直接反应业务状态和设备运行状态的关键指标，如传输速率、传输数据大小，设备的CPU、内存、端口使用率等。

本发明的另一目的还在于提供一种以聚类法进行边界数据分析的系统，采用上述以聚类法进行边界数据分析的方法，包括数据采集模块、变量分析存储模块、聚类分析模块、聚类分析结果存储模块、聚类分析结果对比模块、离群点标识模块、离群点标识次数统计模块和告警模块，其中：

所述数据采集模块用于采集边界数据交换过程中产生的各类日志数据，如公安边界交换平台在进行某一业务的数据交换过程中，相关设备、链路以及数据交换系统产生的所有相关日志数据；

所述变量分析存储模块用于通过先验经验、统计分析或交叉验证，预设各类日志数据中的关键变量和阈值K，并用于存储及更新关键变量和阈值K；

所述聚类分析模块用于对关键变量数据进行聚类分析，得出聚类分析结果并建表单存储；

所述聚类分析结果存储模块用于存储实时采集的单条边界交换数据信息的聚类分析结果R；

所述聚类分析结果对比模块用于将聚类分析结果R和表单中所属分类簇的质心距离A，与簇内原有数据离质心最远的距离B进行比较；

所述离群点标识模块用于将比较结果中A大于B的疑似异常数据标识为离群点；

所述离群点标识次数统计模块用于预设离群点标识的次数阈值Y，并统计某数据源的数据被标识为离群点的次数，并分析是否超出次数阈值Y；

所述告警模块用于对超出次数阈值Y的数据向工作人员显示告警提醒信息。

本发明采用启发式的迭代方法，聚类分析的完成标志是经过若干轮计算后，数据分成了K个簇，每个簇内的点都已稳定，不会再移向其他簇；每个簇内的质心也不会再有变化，即得到了最小化平方误差E。

本发明采用K-means算法的启发式方式，用附图3进行下列形象描述：

如图3(a)表达了初始的数据集，假设k＝2，在图3(b)中，随机选择两个k类所对应的类别质心，即图中的实心点质心和空心点质心，然后分别求样本中所有点到这两个质心的距离，并标记每个样本的类别为与该样本距离最小的质心的类别，如图3(c)所示，经过计算样本与实心点质心和空心点质心的距离，得到所有样本点的第一轮迭代后的类别。此时对当前标记为红色和蓝色的点分别求其新的质心，如图3(d)所示，新的实心点质心和空心点质心的位置已经发生了变动。图3(e)和图3(f)重复了图3(c)和图3(d)的过程，即将所有点的类别标记为距离最近的质心的类别并求新的质心。最终得到的两个类别如图3(f)。

当然在实际K-Mean算法中，一般会多次运行图c和图d，才能达到最终的比较优的类别。对于K-Means算法，首先要根据对数据的先验经验选择一个合适的k值，在没有先验知识的情况下，则可以通过交叉验证选择一个合适的k值。在确定了k的个数后，需要选择k个初始化的质心，就像图3(b)中的随机质心。

本发明使用K-means算法进行聚类分析，其结果是对给定的样本集按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。

本发明具备的优点及效果：本发明通过聚类分析算法，将边界数据交换行为产生的相关日志数据及设备运行状态、链路状态等数据进行收集并进行聚类分析，得出不同边界数据交换行为的特征，综合边界数据交换平台业务运行状况，及时发现异常高危数据交换行为，保障边界数据交换业务的稳定正常运行。通过聚类算法高度抽象不同交换业务相类似的交换行为特征，便于在时间序列上了解公安信息通信网边界接入平台不同业务的交换习惯属性及变换趋势，以实现对交换业务进行科学合理的管理和控制。如果多次都被识别为异常离群点交换行为，则交换业务行为会发出告警，以及可以对交换过程进行溯源分析。

附图说明

为了更清楚地说明本发明的实现过程。下面对本发明描述中所需要的附图做简要的介绍。明显地，下述附图仅仅是本发明的实施方式，并非用于限定本发明的保护范围。

图1为本发明以聚类法进行边界数据分析的实现流程示意图；

图2为本发明以聚类法进行边界数据分析系统的组成结构示意图；

图3是本发明聚类分析算法k-means算法的实现过程示意图。

具体实施方式

下面以公安边界交换平台作为示例进行说明，以方便更直观的理解本发明的实现过程，并非用于限定本发明的保护范围。

实施例1

如图1所示，本发明以聚类法进行边界数据分析的方法具体的实现步骤如下：

步骤1：采集边界数据交换过程中产生的各类日志数据，获得标准数据合集，以公安边界交换平台为例，日志数据的标准数据合集是指公安边界交换平台在进行某一业务的数据交换过程中，相关设备、链路以及数据交换系统产生的所有相关日志数据；

步骤2：本例是在公安边界数据交换平台中，以某旅店上传的旅客住店信息为例，根据先验经验，以上传的文件大小(KB)和对应的传输时长(ms)作为关键变量。从标准数据合集中提取相对应的关键变量数据如下：

{200,500；198,501；210,498；185,490；230,540；189,487；202,503；196,510；211,514；205,495；221,532；222,525；188,497；190,495；192,497；213,516；225,535；193,494；182,532；185,533；184,530；186,535；220,487；221,485；218,480；19,484；221,488}。

并预设阈值K＝5，并选择5个点作为初始质心，即{200,500；188,497；225,535；182,532；220,487}；

这里，关键变量是结合用户实际应用进行确定的，能直接反应业务状态和设备运行状态的关键指标，如传输速率、传输数据大小，设备的CPU、内存、端口使用率等；阈值K是聚类分析算法k-means算法的K值，是分类的簇数；K值根据先验经验或交叉验证设置，K个初始质心的设置也通过先验经验或交叉验证进行选定；

步骤3：将关键变量数据代入以下列式(1)的K-means算法进行聚类分析，计算出关键变量x与每个质心μ_i(即μ₁～μ₄)的欧式距离E：

式中，x为关键变量，C_i为簇划分后的簇代号，即C₁，C₂，C₃，C₄，C₅；

首次计算时，μ_i为步骤2选择的初始质心数据，即μ_i分别为μ₁(200,500)、μ₂(188,497)、μ₃(225,535)、μ₄(182,532)、μ₅(220,487)，通过分别计算出关键变量x与μ₁～μ₅每个质心的欧式距离E，x与哪个质心的欧式距离E最小，则x就属于哪个簇，从而判断x归属于欧式距离E最小的质心所在的簇，当全部关键变量都以式(1)计算后，每个关键变量就被划分到相应的簇C₁，C₂，C₃，C₄，C₅里，得到分簇结果；

当5个簇都重新计算出质心后，得到新的质心μ₁～μ₅，此时再采用式(1)，重新计算关键变量x归属于的簇；通过不断迭代，直到采用式(1)计算的关键变量x归属的簇稳定，不再发生变化，用式(2)重新计算的簇内质心也稳定，不再发生变化时，则表示迭代计算完成；得到聚类分析结果，即分类结果，包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离；

本例中，单次迭代运行次数：3

Cluster

Cluster_id＝1,center:{Point_id＝-1[184.25 532.5]clusterId:0dist:0.0}

Point_id＝18[182.0 532.0]clusterId:0dist:2.304886

Point_id＝19[185.0 533.0]clusterId:0dist:0.9013878

Point_id＝20[184.0 530.0]clusterId:0dist:2.5124688

Point_id＝21[186.0 535.0]clusterId:0dist:3.0516388

Cluster

Cluster_id＝2,center:{Point_id＝-1[218.5 482.0]clusterId:0dist:0.0}

Point_id＝24[218.0 480.0]clusterId:1dist:2.0615528

Point_id＝25[219.0 484.0]clusterId:1dist:2.0615528

Cluster

Cluster_id＝3,center:{Point_id＝-1[195.66667 497.25]clusterId:0dist:0.0}

Point_id＝0[200.0 500.0]clusterId:2dist:5.1322737

Point_id＝1[198.0 501.0]clusterId:2dist:4.416664

Point_id＝2[210.0 498.0]clusterId:2dist:14.352937

Point_id＝3[185.0 490.0]clusterId:2dist:12.897302

Point_id＝5[189.0 487.0]clusterId:2dist:12.227306

Point_id＝6[202.0 503.0]clusterId:2dist:8.554153

Point_id＝7[196.0 510.0]clusterId:2dist:12.754356

Point_id＝9[205.0 495.0]clusterId:2dist:9.600704

Point_id＝12[188.0 497.0]clusterId:2dist:7.670747

Point_id＝13[190.0 495.0]clusterId:2dist:6.097021

Point_id＝14[192.0 497.0]clusterId:2dist:3.6751845

Point_id＝17[193.0 494.0]clusterId:2dist:4.204003

Cluster

Cluster_id＝4,center:{Point_id＝-1[220.66667 486.66666]clusterId:0dist:

0.0}

Point_id＝22[220.0 487.0]clusterId:3dist:0.7453651

Point_id＝23[221.0 485.0]clusterId:3dist:1.6996622

Point_id＝26[221.0 488.0]clusterId:3dist:1.3743771

Cluster

Cluster_id＝5,center:{Point_id＝-1[220.33333 527.0]clusterId:0dist:0.0}

Point_id＝4[230.0 540.0]clusterId:4dist:16.20014

Point_id＝8[211.0 514.0]clusterId:4dist:16.00347

Point_id＝10[221.0 532.0]clusterId:4dist:5.0442495

Point_id＝11[222.0 525.0]clusterId:4dist:2.6034198

Point_id＝15[213.0 516.0]clusterId:4dist:13.220352

Point_id＝16[225.0 535.0]clusterId:4dist:9.261632

上述计算结果中，Cluster_id表示簇编号，center为每个簇的质心点坐标，Point_id为簇成员的坐标点，dist为簇成员到质心的距离；

步骤4：对于分类结果，按业务可用性进行判断比对，即分类结果能否呈现边界数据交换平台的设备运行状态、链路运行状态以及业务传输状态等，经常规数据验证后，显示分类结果符合预期的，则判断为分类合理；如分类结果不符合预期的，则判断为分类不合理，此时需调整关键变量、K值以及K个初始质心，再重新进行聚类分析，直至结果符合预期；

本例所得结果经判断比对，其分类结果符合预期，分类合理；

步骤6：实时采集单条边界交换数据信息，即某旅店上传的一条旅客住店信息，提取该信息对应的关键变量数据(文件大小和对应的传输时长)，即数据201,508，代入步骤3的K-Means算法表达式进行聚类分析，得到聚类分析结果R；

该聚类分析结果R包括该条信息关键变量的数值大小以及所归属的簇，其所归属的簇是上述K个簇中质心离该条信息数据的数值最近的簇，记为簇N；

当A小于或等于B，则判断该条信息数据交换结果是正常的；

对疑似异常数据被标识为离群点的次数进行统计，当离群点标识次数超出次数阈值Y，则判断为该边界交换行为异常，向该数据源发出告警；

本例中，次数阈值Y设置为5，次数的设置与业务相关，如设置过低，则系统容易频繁告警，如设置过高，则容易遗漏重要异常边界数据交换行为；

本例得出其归属于簇3，距离质心的距离为12，小于该簇的最大距离14.352937，属于正常数据。

实施例2

本例是在公安边界数据交换平台中，以数据交换系统为例，以ftp链接数及数据交换系统端口带宽占用率作为关键变量，其关键变量数据如下：

{90,40；86,41；89,40；88,42；86,39；92,42；91,43；87,38；82,36；83,35；81,32；82,33；75,30；74,29；76,32；73,28；74,30；75,29；99,45；98,44；100,46；101,48；97,46；100,47}。

并预设阈值K＝4，并选择4个点作为初始质心，即{90,40；82,33；75,30；100,46}。

将关键变量数据代入以下列式(1)的K-means算法进行聚类分析，计算出关键变量x与每个质心μ_i(即μ₁～μ₄)的欧式距离E：

式中，x为关键变量，C_i为簇划分后的簇代号，即C₁，C₂，C₃，C₄；

首次计算时，μ_i为步骤2选择的初始质心数据，即μ_i分别为μ₁(90,40)、μ₂(82,33)、μ₃(75,30)、μ₄(100,46)，通过分别计算出关键变量x与μ₁～μ₄每个质心的欧式距离E，x与哪个质心的欧式距离E最小，则x就属于哪个簇，从而判断x归属于欧式距离E最小的质心所在的簇，当全部关键变量都以式(1)计算后，每个关键变量就被划分到相应的簇C₁，C₂，C₃，C₄里，得到分簇结果；

当K个簇都重新计算出质心后，得到新的质心μ₁～μ₄，此时再采用式(1)，重新计算关键变量x归属于的簇；通过不断迭代，直到采用式(1)计算的关键变量x归属的簇稳定，不再发生变化，用式(2)重新计算的簇内质心也稳定，不再发生变化时，则表示迭代计算完成；得到聚类分析结果，即分类结果，包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离；

本例得出4组数据分别为：

单次迭代运算次数：8

Cluster

Cluster_id＝0,center:{Point_id＝-1[88.625 40.625]clusterId:0dist:0.0}

Point_id＝0[90.0 40.0]clusterId:0 dist:1.5103807

Point_id＝1[86.0 41.0]clusterId:0 dist:2.6516504

Point_id＝2[89.0 40.0]clusterId:0 dist:0.72886896

Point_id＝3[88.0 42.0]clusterId:0 dist:1.5103807

Point_id＝4[86.0 39.0]clusterId:0 dist:3.0872722

Point_id＝5[92.0 42.0]clusterId:0 dist:3.644345

Point_id＝6[91.0 43.0]clusterId:0 dist:3.3587573

Point_id＝7[87.0 38.0]clusterId:0 dist:3.0872722

Cluster

Cluster_id＝1,center:{Point_id＝-1[82.0 34.0]clusterId:0 dist:0.0}

Point_id＝8[82.0 36.0]clusterId:1 dist:2.0

Point_id＝9[83.0 35.0]clusterId:1 dist:1.4142135

Point_id＝10[81.0 32.0]clusterId:1 dist:2.236068

Point_id＝11[82.0 33.0]clusterId:1 dist:1.0

Cluster

Cluster_id＝2,center:{Point_id＝-1[74.5 29.666666]clusterId:0 dist:0.0}

Point_id＝12[75.0 30.0]clusterId:2 dist:0.60092556

Point_id＝13[74.0 29.0]clusterId:2 dist:0.83333284

Point_id＝14[76.0 32.0]clusterId:2 dist:2.7738867

Point_id＝15[73.0 28.0]clusterId:2 dist:2.2422702

Point_id＝16[74.0 30.0]clusterId:2 dist:0.60092556

Point_id＝17[75.0 29.0]clusterId:2 dist:0.83333284

Cluster

Cluster_id＝3,center:{Point_id＝-1[99.166664 46.0]clusterId:0 dist:0.0}

Point_id＝18[99.0 45.0]clusterId:3 dist:1.0137933

Point_id＝19[98.0 44.0]clusterId:3 dist:2.315406

Point_id＝20[97.0 46.0]clusterId:3 dist:2.1666641

Point_id＝21[100.0 47.0]clusterId:3dist:1.3017099

Point_id＝22[100.0 46.0]clusterId:3dist:0.8333359

Point_id＝23[101.0 48.0]clusterId:3dist:2.7131386

本例所得结果经常规数据验证后，其分类结果符合预期，分类合理；

将上述分类结果建表单存储，系统接收同一来源的一个新数据85,23，则代入K-Means算法，得出其归属于簇1，距离质心的距离为11.18034，大于该簇的最大距离2.236068，标识为离群点数据。预设次数阈值Y为5，再次采集同一来源的信息数据进行上述聚类分析并比较结果，再次出现疑似异常数据的情况，则继续标识为离群点；当离群点标识次数超出次数阈值5，则判断为该边界交换行为异常，对该数据源发出告警显示，提醒工作人员注意。

明显的，对于本领域技术人员来说，本发明不仅仅局限于上述示范性实施例的细节。在不违背本发明的基本特征或者精神的情况下，能够以其他的具体形式实现本发明。上述内容，仅仅是本发明一种以聚类法进行边界数据分析的方法的实施例，而非用于限定本发明的保护范围。

Claims

1.一种以聚类法进行边界数据分析的方法，其特征在于经过下列各步骤：

步骤2：结合实际应用，从上述日志数据中确定关键变量，从标准数据合集中提取相对应的关键变量数据；根据先验经验和交叉验证，预设关键变量和阈值K，并选择K个点作为初始质心；

首次计算时，μ_i为步骤2选择的初始质心数据，通过分别计算出关键变量x与μ₁～μ_k每个质心的欧式距离E，从而判断x归属于欧式距离E最小的质心所在的簇，当全部关键变量都以式(1)计算后，每个关键变量就被划分到相应的簇C₁，C₂，C₃…C_k里，得到分簇结果；

当K个簇都重新计算出质心后，得到新的质心μ₁～μ_k，此时再采用式(1)，重新计算关键变量x归属于的簇；通过不断迭代，直到采用式(1)计算的关键变量x归属的簇稳定，用式(2)重新计算的簇内质心也稳定，则表示迭代计算完成；得到聚类分析结果，即分类结果，包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离；

步骤5：将判断为分类合理的分类结果建表单存储，包括示簇编号、每个簇的质心点坐标、簇成员的坐标点、簇成员到质心的距离；

当A小于或等于B，则判断该条信息数据交换结果是正常的；

当A大于B，则判断该条信息数据交换结果是疑似异常数据；并对该疑似异常数据进行离群点标识；进而，再次采集同一来源的信息数据进行上述聚类分析并比较结果，再次出现疑似异常数据的情况，则继续标识为离群点；

2.根据权利要求1所述的以聚类法进行边界数据分析的方法，其特征在于：所述步骤1的日志数据是指公安边界交换平台在进行某一业务的数据交换过程中，相关设备、链路以及数据交换系统产生的所有相关日志数据。

3.根据权利要求1所述的以聚类法进行边界数据分析的方法，其特征在于：所述步骤2的关键变量是能直接反应业务状态和设备运行状态的关键指标。

4.一种以聚类法进行边界数据分析的系统，采用权利要求1至3任一以聚类法进行边界数据分析的方法，其特征在于：包括数据采集模块、变量分析存储模块、聚类分析模块、聚类分析结果存储模块、聚类分析结果对比模块、离群点标识模块、离群点标识次数统计模块和告警模块，其中：

所述数据采集模块用于采集边界数据交换过程中产生的各类日志数据；