CN111898647B

CN111898647B - 一种基于聚类分析的低压配电设备误告警识别方法

Info

Publication number: CN111898647B
Application number: CN202010643325.7A
Authority: CN
Inventors: 冯义; 晋斌; 王彦; 李中文; 徐长宝; 张腾飞; 戴雯菊; 吴巨爱; 胡星; 肖辅盛
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2022-12-09
Anticipated expiration: 2040-07-07
Also published as: CN111898647A

Abstract

本发明公开了一种基于聚类分析的低压配电设备误告警识别方法，包括以下步骤，将低压配电设备的误告警处理模块部署在网络中；使用网络中入侵检测系统事先获得的原始告警事件信息作为输入，所述误告警处理模块对所述原始告警事件集中的告警事件进行聚类分析处理，根据误告警判定策略并删减掉误告警产生的无效告警事件；筛选出真实告警事件后采取相应的安全措施。本发明的有益效果：通过引入对类簇数据分布的不均衡度量，同时通过不均衡模糊k‑means聚类方法，对告警事件样本数据进行聚类，并根据判定策略进行误告警识别处理，提高低压配电设备误告警信息的识别能力。

Description

一种基于聚类分析的低压配电设备误告警识别方法

技术领域

本发明涉及低压配电设备误告警识别的技术领域，尤其涉及一种基于聚类分析的低压配电设备误告警识别方法。

背景技术

低压配电网是指1kV及以下的配电网，直接与用电设备连接，具有分布广、网点多、线路长及事故多等特点。由于部分低压配电设备本身质量问题和环境、通信等因素的影响，出现大量误报、频繁上报等现象，而需要监控的信息都淹没在无用信息中，严重影响调控人员正常监视[1]。另外，低压电网运行存在极大的安全隐患，若不及时排除，甚至可能引发人身触电事故。因此，需要对低压配电网原始告警数据进行误告警识别，优化信息处置功能，减少监控告警信息量，使调控人员能够高效、快速、准确地监视到可用信息，全面提升低压配电设备误告警识别效率。如何有效地去除大量的冗余告警，提高告警质量是大规模网络安全防护亟待解决的问题。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：提出一种基于聚类分析的低压配电设备误告警识别方法，提高低压配电设备误告警信息的识别能力。

为解决上述技术问题，本发明提供如下技术方案：一种基于聚类分析的低压配电设备误告警识别方法，包括以下步骤，将低压配电设备的误告警处理模块部署在网络中；使用网络中入侵检测系统事先获得的原始告警事件信息作为输入，所述误告警处理模块对所述原始告警事件集中的告警事件进行聚类分析处理，根据误告警判定策略并删减掉误告警产生的无效告警事件；筛选出真实告警事件后采取相应的安全措施。

作为本发明所述的基于聚类分析的低压配电设备误告警识别方法的一种优选方案，其中：所述误告警处理模块设置模糊隶属度模型，包括以下步骤，构建考虑类簇规模不均衡度量的模糊隶属度模型；采用模糊K-means的聚类算法考虑模糊隶属度以控制数据样本在聚类中心更新过程中的贡献程度；定义样本的x_j模糊隶属度量如下式：

其中距离d_ij(d_zj)表示聚类中心v_i(v_z)和样本x_j之间的距离、所述模糊隶属度的值取决于样本x_j和所有聚类中心之间的相对距离和模糊器m的选择；对于存在类簇规模不均衡分布的样本x_j，采用如下的公式对类簇规模的不均衡程度进行度量：

其中|C_i|表示落入第i个类簇样本个数、C_z表示数据样本x_j目前所在的交叉类簇，将式(2)融入式(1)中得到模糊隶属度的模型如下：

基于模型，当有交叉区域的数据样本x_j时，不再考虑样本x_j到所有类簇的距离度量，则通过∑x_j∈C_z仅仅考虑x_j到所属交叉类簇的距离度量。

作为本发明所述的基于聚类分析的低压配电设备误告警识别方法的一种优选方案，其中：包括以下误告警识别的算法处理步骤，利用基于模糊k-means聚类构建的模糊隶属度模型进行聚类操作；对原始告警事件样本集进行聚类，生成告警分类树；对每个聚类后的子类别，统计分析其先验误告警概率p、告警事件个数N以及对原始告警事件进行处理后的期望损失E；求解期望损失差方程，得到判定阈值p^*；生成判定策略为，当p＜p^*时，事件为真实告警事件，当p＞p^*时，事件为误告警事件；根据判定策略的结果进行误告警处理。

作为本发明所述的基于聚类分析的低压配电设备误告警识别方法的一种优选方案，其中：所述聚类包括以下步骤，在原始告警事件数据集C中随机选择k个对象，作为一个簇的中心；计算所有告警事件到各个簇类中心的隶属度，并根据求得的所述隶属度将每个告警事件划分到与之最近的簇类中；模糊隶属度模型迭代地改善簇内误差，即将每个簇内所有告警事件信息的均值作为新的类簇中心，并重新分配所有对象到最近的簇类中；上述过程一直迭代到簇类内误差小于给定值或不再变化为止。

作为本发明所述的基于聚类分析的低压配电设备误告警识别方法的一种优选方案，其中：所述聚类的结构包括，原始告警信息数据集C，进行模糊K-means聚类后的子类分为k类，记为：类簇1、类簇2、…、类簇k，其中每个类别分别占总的告警的比例为r_1、r_2、…、r_k。

作为本发明所述的基于聚类分析的低压配电设备误告警识别方法的一种优选方案，其中：所述误告警处理模块包括告警分析模块，所述告警分析模块内设置所述误告警判定策略，其包括以下定义步骤，定义误告警事件认定损益矩阵，定义告警状态集为：Q＝{FP，TP}，其中FP表示误告警、TP表示真实告警；告警分析模块对告警事件采取的措施包括删除和审查，即定义所述告警分析模块对告警事件的对策集为：D＝{delete，checkup}；根据告警的状态集和分析人员的对策集，定义对一个告警事件的决策过程的损益矩阵为：

Delete Checkup

FP A₁ -A₂

TP -B₁ B₂

其中A₁、A₂、B₁、B₂均为大于0的常数，能够根据先验信息提前求出或自行定义，正的表示在统一的计量单位下，各个决策结果的收益，负的收益表示采取决策相应的损失。

作为本发明所述的基于聚类分析的低压配电设备误告警识别方法的一种优选方案，其中：所述告警分析模块还包括最优告警事件处理策略的定义步骤，

假设总的告警个数为N，对于原始告警事件，采用直接删除告警的损失主要来自漏报导致的损失为E[Ω/delete]＝N(1-p)B₁；针对审查告警的损失主要是审查的成本，如下式：

其中p表示系统的先验误告警概率值、1-α表示系统的安全置信水平；则有如下策略：若当E[Ω/checkup]＜E[Ω/delete]时，最优策略是checkup(审查)，即认定为真实告警事件，若当E[Ω/checkup]＞E[Ω/delete]时，最优策略是delete(删除)，即告警事件是误告警事件。

作为本发明所述的基于聚类分析的低压配电设备误告警识别方法的一种优选方案，其中：考察策略函数对所述最优告警事件处理策略的具体化，包括定义策略函数：

所述策略函数为定义在(0，1)上的连续可导函数；对函数f(p)求导，并根据解的存在性定理，即存在p^*，使得f(p^*)＝0，称p^*误告警事件认定损失阈值；则此时对告警事件的最优处理策略变为：若当p＜p^*时，最优策略是checkup(审查)，即认定为真实告警事件，若当p＞p^*时，最优策略是delete(删除)，即告警事件是误告警事件，其中p为每个聚类子类的先验误告警概率。

作为本发明所述的基于聚类分析的低压配电设备误告警识别方法的一种优选方案，其中：所述最优告警事件处理策略还包括，由于阈值p^*的确定受到系统的安全置信水平1-α的影响，则记为p^*＝p^*(α)，则最优策略能够由删除告警记录的概率来表示，如下：

定义策略整体收益为：

上式说明策略整体收益由p和p^*(α)决定，最终由先验信息θ和误告警概率阈值p^*(α)决定。

作为本发明所述的基于聚类分析的低压配电设备误告警识别方法的一种优选方案，其中：由于根据方程f(p^*)＝0很难求出p^*，则对方程进行变形，记为：

比较p的函数g(p)与lgα的关系，即：

把g(p)从(0，1)上扩展到[0,1]上，即为：

将扩展后的上式转换为：

以上即为最终策略，此时安全成本为审查告警的期望损失E[Ω/checkup]。

本发明的有益效果：通过引入对类簇数据分布的不均衡度量，同时通过不均衡模糊k-means聚类方法，对告警事件样本数据进行聚类，并根据判定策略进行误告警识别处理，提高低压配电设备误告警信息的识别能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一种实施例所述基于聚类分析的低压配电设备误告警识别方法的整体流程示意图；

图2为本发明第一种实施例所述模糊隶属度变化曲线的示意图；

图3为本发明第二种实施例所述告警分类树的结构示意图；

图4为本发明第三种所述聚类结果二维可视化的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

低压配电设备是电网系统的重要组成部分。配电侧数据误告警识别可有效判断故障类型，提高供电可靠性。由于泛在感知节点的大规模部署，原始告警数据中存在大量冗余告警信息，影响了对真实告警事件的响应处理。为了从低压配电设备监测告警数据中有效挖掘提取误告警信息，引入了对类簇数据分布的不均衡度量，提出了基于大数据不均衡聚类分析的低压配电设备误告警识别方法，通过不均衡模糊k-means聚类方法，对告警事件样本数据进行聚类，并根据判定策略进行误告警识别处理。

针对低压配电设备误告警，通过一些安全工具记录相关告警事件，并对其进行后续分析从而发现异常。近年异常行为检测与识别本身的技术理论已基本成熟，但是围绕着异常行为识别，还有很多其它方面的问题需要解决，这其中就包括对误告警的分析判定技术。因为在实际的应用中所使用的相关工具产生的安全数据质量很低，包含大量的冗余告警，需要大量的人工分析处理。这对于大规模网络更为麻烦，一个100Mbps接入的网络往往每小时可产生10多万条告警，人工根本不可能及时处理。这也导致了一个非常严重的问题：即使网络中出现了异常行为操作，并且安全工具也进行了告警，但是由于同一时间也存在大量的其它冗余告警事件信息，真实异常事件告警往往就湮没在大量的冗余告警中。因此如何有效地去除大量的冗余告警，提高告警质量是大规模网络安全防护亟待解决的问题。

基于以上问题，本实施例提出了基于聚类分析的低压配电设备误告警识别方法，使用模糊k-means聚类的方法对告警事件集进行聚类操作得到若干子类，通过生成判定策略，根据判定策略对告警事件是否为误告警进行判定。

更加具体的，参照图1的示意，该一种基于聚类分析的低压配电设备误告警识别方法，包括以下步骤，

S1：将低压配电设备的误告警处理模块部署在网络中；

S2：使用网络中入侵检测系统事先获得的原始告警事件信息作为输入，

S3：误告警处理模块对原始告警事件集中的告警事件进行聚类分析处理，根据误告警判定策略并删减掉误告警产生的无效告警事件；

S4：筛选出真实告警事件后采取相应的安全措施。

本实施例提出误告警处理模块内设置模糊隶属度模型，包括以下步骤，

构建考虑类簇规模不均衡度量的模糊隶属度模型；

采用模糊K-means的聚类算法考虑模糊隶属度以控制数据样本在聚类中心更新过程中的贡献程度；

定义样本的x_j模糊隶属度量如下式：

其中距离d_ij(d_zj)表示聚类中心v_i(v_z)和样本x_j之间的距离、模糊隶属度的值取决于样本x_j和所有聚类中心之间的相对距离和模糊器m的选择；

由于类簇样本个数包含了所有归属于该类簇的数据样本，描述了类簇的规模大小，对于存在类簇规模不均衡分布的样本x_j，采用如下的公式对类簇规模的不均衡程度进行度量：

需要说明的是，本实施例模糊K-means的聚类算法即为模糊K均值聚类，传统的K-means迭代算法是基于目标函数的聚类算法，可以最小化类簇样本和聚类中心之间的聚类，形成K个聚类。一般簇内样本距离相近而簇间样本较远的情况，可以使用K-means获得期望的聚类结果，然而现实应用中很难遇到这样理想的数据集群。现实情况是，数据集中距离聚类中心较远的点对聚类中心更新的贡献和距离较近的点贡献相同从而可能导致不理想的聚类结果，这是因为在硬聚类算法思想中，它们的“权重”都为1。因此为了克服K-means这个缺点，本实施例提出了基于模糊K-means的聚类算法，其考虑权重(隶属度)以控制数据样本在聚类中心更新过程中的贡献程度。分配到较大隶属度值的样本对更新聚类中心的贡献较大，而对于那些远离聚类中心的样本被赋予较低的隶属度值以减少其对聚类结果的影响。

FKM算法(即模糊K-means的聚类算法)是把聚类归结成带约束的非线性规划问题，通过优化求解获得模式集的模糊划分和聚类。FKM算法通过对目标函数进行迭代优化，其将模糊隶属度分配给样本数据并根据分配的隶属度更新类簇。分配的隶属度起着权重值的作用，也就是说，它们代表样本对更新聚类中心的贡献程度。

贡献量取决于模糊器m的选择，FKM算法步骤如下：

其中，距离d_ij(d_zj)表示聚类中心v_i(v_z)和样本x_j之间的距离，上述等式(1)表示样本x_j的模糊隶属度，该值取决于样本x_j和所有聚类中心之间的相对距离和模糊器m的选择。参照图2给出了不同m值下根据相对距离变化而变化的隶属度曲线。

以模糊隶属度矩阵U表示分类结果，FKM算法的目标函数定义为：

则模糊K-均值聚类算法的一般步骤为：

Step1：确定分类数、指数、迭代次数、迭代停止阈值；

Step2：初始化聚类中心；

Step3：根据式(1)计算隶属度矩阵U；

Step4：根据式(4)计算目标函数。如果它相对上次目标函数的改变量小于阈值，则算法停止。

Step5：根据式(3)修正聚类中心。返回Step3。

进一步的，本实施例将式(2)融入式(1)中，是因为误告警样本信息不均衡度量。从隶属度的计算及中心均值的迭代公式可以看出，模糊K-means算法通过模糊关系对各个类簇内的数据对象进行差异性度量，较好地弥补了硬聚类统一度量数据对象的缺陷。但从模糊关系的度量可以看出，传统模糊K-means主要聚焦于对簇内不确定性信息的描述与处理，而忽略了类簇规模不均衡的影响。因为在实际的低压配电中所使用的相关设备产生的安全数据质量很低，包含大量的冗余告警信息，而真实异常事件告警往往就湮没在这大量的冗余告警信息中。

因此针对上述问题，本实施例则首先提出一种类簇规模不均衡的度量方法。由于类簇样本个数包含了所有归属于该类簇的数据样本，描述了类簇的规模大小，对于存在类簇规模不均衡分布的数据对象(即样本)x_j，可以采用上述式(2)对类簇规模的不均衡程度进行度量。

在模糊K-means算法中，类簇数据样本对类簇中心迭代计算的贡献大小是通过模糊隶属度量来进行描述的，为了能够在类簇中心点的迭代过程中体现类簇规模的不均衡程度，最终得到上述模糊隶属度的模型。对比公式(1)和模糊隶属度的模型，本实施例的隶属度计算不但考虑了类簇规模不均衡的度量，而且对于有交叉区域的数据对象x_j，也不再考虑x_j到所有类簇的距离度量，而是仅仅考虑x_j到所属交叉类簇的距离度量，消除了具有明确不归属关系的类簇对该隶属度计算的影响。

但是改进算法在迭代过程中可以根据数据样本划分到不同类簇的变化对类簇规模进行自适应度量，并对不均衡类簇数据对象参与所属交叉类簇中心点计算的贡献度进行调整，减小了类簇规模不均衡对少数类类簇的不利影响。

另一方面，当类簇规模大致均衡时，即当两个类簇|C₁|＝|C₂|时，此时f_1j＝f_2j，则模糊隶属度的模型的公式退化为常规的模糊度量，因此，也可以将传统的模糊K-means算法看成是本实施例算法的一个特例。因此，本实施例提出的算法具有更好的适应性，在低压配电误告警识别中可以有效区分大量的冗余告警，提高告警质量。

实施例2

本实施例针对聚类分析和误告警识别模型进行详细说明，对于一个实际的低压配电设备误告警处理模块，其在网络部署中使用入侵检测系统事先获得的告警事件信息作为输入；经过该模块，采用一定的策略对原始告警事件集中的告警事件进行分析处理，删减掉误告警产生的无效告警事件，从而筛选出真实告警事件；进而产生真实告警事件集，交给后续分析模块进一步处理。

本实施例首先使用模糊k-means聚类的方法对告警事件集进行聚类操作，得到若干个告警事件子类别；为了后续判定策略的生成，对每一个聚类子类，统计分析其先验误告警概率p、告警事件个数N以及对原始告警事件进行处理后的期望损失E；接着通过期望损失差方程得到判定阈值p^*，最终可以通过p^*生成的判定策略对告警事件是否为误告警进行判定。

具体的处理算法如下：

使用模糊k-means聚类方法，对原始告警事件样本集进行聚类，生成告警分类树；

对每一个聚类子类，统计分析其先验误告警概率p、告警事件个数N以及对原始告警事件进行处理后的期望损失E；

解期望损失差方程，得到判定阈值p^*；

生成判定策略：当p＜p^*时，事件为真实告警事件；当p＞p^*时，事件为误告警事件。并根据判定策略进行误告警处理。

进一步的，基于模糊k-means的告警事件集聚类

为了对原始告警事件进行有效分类处理，首先使用模糊K-means聚类方法对原始告警事件集进行聚类处理。聚类分析是一个把较大的数据集划分成多个子集的过程。聚类得到的每一个子类内部是彼此相似的，但是子类之间是彼此差异较大的。模糊K-means算法处理流程为：

首先在原始告警事件数据集C中随机选择k个对象，作为一个簇的中心。然后计算所有告警事件到各个簇类中心的隶属度，并根据求得的隶属度将每个告警事件划分到与之最近的簇类中。然后模糊K-means算法迭代地改善簇内误差，即将每个簇内所有告警事件信息的均值作为新的类簇中心，并重新分配所有对象到最近的簇类中，这个过程一直迭代到簇类内误差小于给定值或不再变化。

参照图3的示意，示意为告警分类树的结构，对于原始告警信息数据集C，进行模糊K-means聚类后的子类分为k类，记为：类簇1，类簇2，…，类簇k；其中每一个类别分别占总的告警的比例为r_1，r_2，…，r_k。

进一步的，误告警识别模型包括误告警判定策略、告警分析模块，其中告警分析模块包括，其包括定义误告警事件认定损益矩阵：

在低压配电设备误告警分析活动中，网络安全分析人员或者处理模块首先根据一定的经验和知识对告警进行真伪的判别，进而采取一定的安全措施。对告警判别的过程实质上是一个决策过程，通过各方面的信息来判断告警的真假与否。为了对告警行为建模从而来刻画告警分析行为，作如下假设：

低压配电设备产生的任何一个告警都有两种可能：误告警和真实告警。定义告警状态集为：Q＝{FP，TP}，其中FP表示误告警(False Positive)，TP表示真实告警(TruePositive)；

告警分析模块对告警事件能够采取的措施包括删除和审查，即设分析模块对告警事件的对策集为：D＝{delete，checkup}。删除表示该告警事件被认为是误告警，直接去除，但同时带有去掉真实告警的可能性，所以删除的成本表现为漏报引起的安全损失。审查表示对告警事件可以进行后续分析，审查可以发现真实的告警，所以其告警安全损失为零，但是其代价表现为较高的操作成本。因此根据告警的状态集和分析人员的对策集，定义对一个告警事件的决策过程的损益矩阵为：

Delete Checkup

FP A₁ -A₂

TP -B₁ B₂

针对最优告警事件处理策略：

对于告警事件真实性的分析，如果删除全部的告警，则会漏报其中真实的告警，从而导致严重的损失；同样如果审查全部的告警，则审查的成本会迅速增加，而且由于攻击的实时性发现的要求也是不允许的。此时最优的告警事件分析策略就是想找到一个折中的分析方法，根据一定的策略删除最有可能是无效告警的告警事件，这样就可以即保证了网络的安全性，又能够节约审查成本。最终目标是：通过一定的策略删除误告警事件，使得总体误告警概率值最小。

基于以上分析，对一个告警事件的处理方式有两种：一是直接删除告警；二是对告警进行后续分析。则下面考察两种处理方式的期望损失：

假设总的告警个数为N，那么对于一个原始告警事件，直接删除该告警的损失主要来自漏报导致的损失：E[Ω/delete]＝N(1-p)B₁；

而审查告警的损失主要是审查的成本：

其中p表示系统的先验误告警概率值，1-α表示系统的安全置信水平，显然，可以有如下策略：

若当E[Ω/checkup]＜E[Ω/delete]时，最优策略是checkup(审查，也即后续分析)，即认定为真实告警事件；

若当E[Ω/checkup]＞E[Ω/delete]时，最优策略是delete(删除)，即告警事件是误告警事件。

本实施例为了具体化该策略，进一步考察策略函数：

该函数是定义在(0，1)上的连续可导函数。对函数f(p)求导，并根据解的存在性定理，则得到存在p^*，使得f(p^*)＝0，称p^*误告警事件认定损失阈值。则此时对告警事件的最优处理策略变为：

若当p＜p^*时，最优策略是checkup，即认定为真实告警事件；

若当p＞p^*时，最优策略是delete，即告警事件是误告警事件；

其中p为每个聚类子类的先验误告警概率。又由于阈值p^*的确定受到系统的安全置信水平1-α的影响，记为p^*＝p^*(α)，于是该策略可由删除告警记录的概率来表示：

定义策略整体收益为：

上式说明：策略整体收益由p和p^*(α)决定，最终由先验信息θ和误告警概率阈值p^*(α)决定。由于根据方程f(p^*)＝0很难求出p^*，因此继续对方程进行变形，记为：

则可以比较p的函数g(p)与lgα的关系，即：

把g(p)从(0，1)上扩展到[0，1]上，则有：

上式可转换为：

以上即为最终策略，不难发现此时安全成本就是审查告警的期望损失E[Ω/checkup]，所以在实际的告警分析中目的是要尽可能地减少先验误告警概率从而来降低安全成本。

实施例3

为验证本文算法的有效性，本实施例将一组包含469,010条记录的实验日志作为检测样本，该实验日志格式如下表1所示。

表1：实验数据日志格式。

编号	字段名称	描述
			1	Timestamp	告警时间
2	Description	告警描述：ID+Description组成
			3	Classification	告警分类
4	Priority	优先级(威胁程度)
			5	Source	设备源IP地址:源端口

对实验样本在数值化并标准化后的特征组上使用模糊k-means进行聚类，对聚类结果使用PCA方法降维并可视化如图4所示。

参照图4的示意，通过进行模糊k-means聚类，相关的报警信息被聚集到了相同的聚类子类中，同时大量无用的误告警记录也被归到了一起。其中误告警信息为空心圆状的多数类类簇，星形、方形和实心圆形等少数类类簇代表真实告警信息，不同形状的少数类类簇代表着不同类型的真实告警信息。此时我们可以通过对各个聚类子类进行分析，得到每个子类的误告警先验概率p。根据以往的安全经验，易知在如下情况下误告警的概率将大大增加：

聚类子类中连续出现大量的相似度极高的告警；

聚类子类中所有记录的平均Priority越大(Priority越大威胁等级越低)；

所有记录中的Classification字段包含的高危类别越少；

时间分布越长；

故对每个聚类子类计算上述误告警标识指标，并记为如下表2。

表2：聚类子类误告警识别指标

指标ID	指标描述
		F1	总记录数
F2	间隔大于5天的不同时间数
		F3	平均Priority值
F4	不同的源IP数量
		F5	主要Description字段统计
F6	主要Classification字段统计

对每一个聚类子类统计出一组统计指标，用来表征该聚类子类的误告警先验概率值，同时根据Priority定义，取值为1、2、3，重要程度依次降低，那么对于一个聚类子类，求如下概率值：

作为先验误告警值p，F30＝1.5829，则对于以上两个子类，其对应的p分别为：

那么策略函数式中，1-α表示系统的安全置信水平，根据经验取其中：

求出各子类的先验误告警概率p_i，由于对于告警个数为N，抽取的样本集个数为n的子类，该子类中含有的误告警个数服从Bernoulli分布：B(N,p)，则抽取样本的个数需要满足条件：pⁿ≤α，解此以下方程：

即可得到p值。结合判定策略：

对不同的的情况：α＝0.1，α＝0.01，α＝0.001，分别进行了详细分析如下表3。

表3：不同的置信度α。

即对于不同的置信度α，同一子类对应不同的处理方式，如对于子类1，当α＝0.1时不应丢弃该子类，而应继续进行后续处理，而其它情况下则处理该子类的收益小于成本，故应该丢弃该子类。

低压配电设备告警信息一直是电力系统维护人员关注的焦点，误告警判定是告警数据关联分析的一个重要方面，对于提升告警数据质量、优化告警分析结果有着重要意义。本文提出了一种基于聚类的误告警判定方法，该方法通过对原始告警事件集进行模糊K-means聚类，生成告警分类树，然后对每个聚类子类统计分析其先验误告警概率、告警事件数、剔除子类后的期望损失值，并通过解期望损失差方程得到判定阈值，从而进行误告警判定。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于聚类分析的低压配电设备误告警识别方法，其特征在于：包括以下步骤，

将低压配电设备的误告警处理模块部署在网络中；

使用网络中入侵检测系统事先获得的原始告警事件信息作为输入；

所述误告警处理模块对所述原始告警事件集中的告警事件进行聚类分析处理，根据误告警判定策略并删减掉误告警产生的无效告警事件；

筛选出真实告警事件后采取相应的安全措施；

所述误告警处理模块设置模糊隶属度模型，包括以下步骤：

构建考虑类簇规模不均衡度量的模糊隶属度模型；

定义样本的x_j模糊隶属度量如下式：

其中距离d_ij(d_zj)表示聚类中心v_i(v_z)和样本x_j之间的距离、所述模糊隶属度的值取决于样本x_j和所有聚类中心之间的相对距离和模糊器m的选择；

对于存在类簇规模不均衡分布的样本x_j，采用如下的公式对类簇规模的不均衡程度进行度量：

基于模型，当有交叉区域的数据样本x_j时，不再考虑样本x_j到所有类簇的距离度量，则通过

仅仅考虑x_j到所属交叉类簇的距离度量；

包括以下误告警识别的算法处理步骤：

利用基于模糊k-means聚类构建的模糊隶属度模型进行聚类操作；

对原始告警事件样本集进行聚类，生成告警分类树；

对每个聚类后的子类别，统计分析其先验误告警概率p、告警事件个数N以及对原始告警事件进行处理后的期望损失E；

求解期望损失差方程，得到判定阈值p^*；

生成判定策略为，当p＜p^*时，事件为真实告警事件，当p＞p^*时，事件为误告警事件；

根据判定策略的结果进行误告警处理。

2.如权利要求1所述的基于聚类分析的低压配电设备误告警识别方法，其特征在于：所述聚类包括以下步骤，

在原始告警事件数据集C中随机选择k个对象，作为一个簇的中心；

计算所有告警事件到各个簇类中心的隶属度，并根据求得的所述隶属度将每个告警事件划分到与之最近的簇类中；

模糊隶属度模型迭代地改善簇内误差，即将每个簇内所有告警事件信息的均值作为新的类簇中心，并重新分配所有对象到最近的簇类中；

上述过程一直迭代到簇类内误差小于给定值或不再变化为止。

3.如权利要求2所述的基于聚类分析的低压配电设备误告警识别方法，其特征在于：所述聚类的结构包括，

原始告警信息数据集C，进行模糊K-means聚类后的子类分为k类，记为：类簇1、类簇2、…、类簇k，其中每个类别分别占总的告警的比例为r_1、r_2、…、r_k。

4.如权利要求3所述的基于聚类分析的低压配电设备误告警识别方法，其特征在于：所述误告警处理模块包括告警分析模块，所述告警分析模块内设置所述误告警判定策略，其包括以下定义步骤，

定义误告警事件认定损益矩阵，

定义告警状态集为：Q＝{FP，TP}，其中FP表示误告警、TP表示真实告警；

告警分析模块对告警事件采取的措施包括删除和审查，即定义所述告警分析模块对告警事件的对策集为：D＝{delete，checkup}；

根据告警的状态集和分析人员的对策集，定义对一个告警事件的决策过程的损益矩阵为：

Delete Checkup

FP A₁ -A₂

TP -B₁ B₂

5.如权利要求4所述的基于聚类分析的低压配电设备误告警识别方法，其特征在于：所述告警分析模块还包括最优告警事件处理策略的定义步骤，

假设总的告警个数为N，对于原始告警事件，采用直接删除告警的损失主要来自漏报导致的损失为E[Ω/delete]＝N(1-p)B₁；

针对审查告警的损失主要是审查的成本，如下式：

其中p表示系统的先验误告警概率值、1-α表示系统的安全置信水平；

则有如下策略：若当E[Ω/checkup]＜E[Ω/delete]时，最优策略是checkup(审查)，即认定为真实告警事件，若当E[Ω/checkup]＞E[Ω/delete]时，最优策略是delete(删除)，即告警事件是误告警事件。

6.如权利要求5所述的基于聚类分析的低压配电设备误告警识别方法，其特征在于：考察策略函数对所述最优告警事件处理策略的具体化，包括，

定义策略函数：

所述策略函数为定义在(0，1)上的连续可导函数；

对函数f(p)求导，并根据解的存在性定理，即存在p^*，使得f(p^*)＝0，称p^*误告警事件认定损失阈值；

则此时对告警事件的最优处理策略变为：若当p＜p^*时，最优策略是checkup(审查)，即认定为真实告警事件，若当p＞p^*时，最优策略是delete(删除)，即告警事件是误告警事件，其中p为每个聚类子类的先验误告警概率。

7.如权利要求6所述的基于聚类分析的低压配电设备误告警识别方法，其特征在于：所述最优告警事件处理策略还包括，

由于阈值p^*的确定受到系统的安全置信水平1-α的影响，则记为p^*＝p^*(α)，则最优策略能够由删除告警记录的概率来表示，如下：

定义策略整体收益为：

8.如权利要求7所述的基于聚类分析的低压配电设备误告警识别方法，其特征在于：由于根据方程f(p^*)＝0很难求出p^*，则对方程进行变形，记为：

比较p的函数g(p)与lgα的关系，即：

把g(p)从(0，1)上扩展到[0,1]上，即为：

将扩展后的上式转换为：