CN116257806A

CN116257806A - 基于半监督与孤立森林的大比例异常数据检测方法及系统

Info

Publication number: CN116257806A
Application number: CN202211104441.7A
Authority: CN
Inventors: 安玲玲; 韩潇哲; 李琳; 周睿康; 赵梓桐
Original assignee: China Electronics Standardization Institute; Guangzhou Institute of Technology of Xidian University
Current assignee: China Electronics Standardization Institute; Guangzhou Institute of Technology of Xidian University
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2023-06-13

Abstract

本发明公开了一种基于半监督与孤立森林的大比例异常数据检测方法，包括以下步骤:步骤一：数据采集、预处理阶段：采集实际生产过程中的数据，进行预处理形成混合数据集与纯净数据集；步骤二：模型训练阶段：运用混合数据集训练孤立森林，将纯净数据集输入孤立森林得到节点白名单；步骤三：异常检测阶段：结合孤立森林与节点白名单进行异常检测。本发明提供的基于半监督与孤立森林的大比例异常数据检测方法，以孤立森林算法为基础，结合半监督、白名单机制等技术，从异常得分与节点白名单两个角度进行异常检测，既保留了无监督异常检测方法节省人工的优势，又提高了异常数据占比较大时的检测效果。

Description

基于半监督与孤立森林的大比例异常数据检测方法及系统

技术领域

本发明涉及机器学习技术领域，具体涉及基于半监督与孤立森林的大比例异常数据检测方法及系统。

背景技术

异常检测是机器学习常见的应用之一，旨在检测数据中的特殊点，适用于网络入侵检测、故障诊断、疾病检测、身份识别、欺诈检测等场景。

当前，异常检测技术根据训练集的不同大致分为三类：全监督异常检测、半监督异常检测、无监督异常检测。其中，全监督与半监督异常检测技术需要对全部或部分训练样本进行标记，之后根据训练集进行模型训练，可以得到较为精确的检测效果，但在现实情况中，由于标记样本是非常复杂的过程，需要耗费大量的人力，因此，这两种检测技术应用范围受到限制。无监督异常检测技术不需要对数据集进行标记，该技术以异常数据在总体数据样本中占比小、与正常数据差异性大的特性为理论基础，使用不含标签的样本数据集进行训练得到检测模型，其优点在于省去了大量的人力劳动，符合实际生产需求，应用较为广泛，其缺点在于若异常数据占比较大时模型的检测精度会有较大程度的影响。在当前工业化和信息化融合的背景下，工业控制系统遭受网络攻击的事故频繁发生，因此，亟需设计一种在异常数据占比较大情形下，在节省人工的同时，仍能保持较高检测精度的异常检测方法。

孤立森林是刘飞、周志华等人提出的一种基于树结构的无监督异常检测算法，其通过循环使用随机超平面对数据空间进行切割的方式将异常数据“孤立”，从而实现异常数据检测，该算法是基于Ensemb l e的异常检测方法，因此具有线性的时间复杂度，精准度较高，处理数据速度快，在工业界的应用范围比较广。

该方法的本质是通过切割样本空间识别分布较为“离散”的样本数据，当异常数据在数据集中占比很小时(0-10％)，异常数据相较于正常数据分布“离散”，易于被“孤立”出来，因而能取得较好的检测效果。随着异常数据在数据集中占比增大，异常数据在样本空间中逐渐表现为“集群”特性，不再呈现为“离散”的分布状态，依照孤立森林的设计原理，将“集群”分布的数据视作正常数据，因而检测效果较差。

通过上述分析，现有技术存在的问题及缺陷为：

(1)全监督与半监督异常检测方法需要大量人工标记数据集，无法满足大多数应用场景的需求；

(2)无监督异常检测方法在异常数据占比较大的场景下检测能力薄弱。

发明内容

本发明的目的在于提供基于半监督与孤立森林的大比例异常数据检测方法及系统，本发明为无监督异常检测方法提供了一种新的改进思路，即基于算法原理，少量使用有标签的数据集，发现新的检测方式，配合原算法检测方式共同完成异常检测：

一种基于半监督与孤立森林的大比例异常数据检测方法，包括以下步骤:

步骤一：数据采集、预处理阶段：采集实际生产过程中的数据，进行预处理形成混合数据集与纯净数据集；

步骤二：模型训练阶段：运用混合数据集训练孤立森林，将纯净数据集输入孤立森林得到节点白名单；

步骤三：异常检测阶段：结合孤立森林与节点白名单进行异常检测。作为本发明进一步的方案：步骤一中，数据采集、预处理阶段包括：

Q1：采集实际生产过程中的数据，其中包含正常数据与异常数据，并进行预处理形成混合数据集；

Q2：通过人工从混合数据集中筛选出部分正常数据形成纯净数据集。

作为本发明进一步的方案：步骤二中，模型训练阶段包括：

W1：将步骤一中的混合数据集作为输入数据，并初始化孤立森林；

W2：对于步骤一中的输入数据，随机选择若个样本点作为子样本集，放入一棵孤立树的根节点；

W3：随机指定一个维度，在当前节点数据中随机产生一个分割点，分割点位于当前指定维度的最大值与最小值之间；

W4：以W3中随机产生的分割点生成一个超平面，将当前节点的数据空间划分为2个子空间，将当前节点在指定维度上小于W3分割点的样本放在左子树的根节点上，将大于分割点的样本放到右子树的根节点上；

W5：在子节点中递归W3和W4，不断构造新的子树，直至满足终止条件：①数据本身不可再分，只包含一个样本或该节点全部样本都相同；②树达到指定的最大深度；

W6:重复步骤W2到步骤W5，构造t棵孤立树构成孤立森林；

W7：将步骤一中的纯净数据集输入孤立森林；

W8：以X_k＝{X₀,X₁,…，X_P}的形式输出纯净数据集在每棵孤立树叶子节点中的分布情况，其中k＝0，1，2，...，t为孤立树的编号，X_i＝[a,b]为二维向量，其中X_i[0]＝a为叶子节点编号，X_i[1]＝b为该节点中所包含的正常样本数量，且X_i依照样本数量从高到低排序；

W9：设定正常度参数m，m处于0到1之间，依照

得出每棵孤立树的白名单节点X_k’＝{X₀[0],X₁[0],…,X_n[0]}，其中n<＝p。

作为本发明进一步的方案：W5中，终止条件包括

①数据本身不可再分，只包含一个样本或该节点全部样本都相同；

②树达到指定的最大深度。

作为本发明进一步的方案：步骤三中异常检测阶段包括：

E1：异常分数检测：将需要检测的数据输入已经训练好的孤立森林中，按照数据从各孤立树根节点到叶子节点的路径长度计算得到异常分数，路径长度越短，异常分数越高，异常分数大于0.5的样本为异常数据；

E2：节点白名单检测：对照E1中检测数据在每棵孤立树上所处叶子节点是否在相应的节点白名单中，得到白名单检测结果{Y₀,Y₁,...Y_t}，并统计白名单检测结果中“0”和“1”的数量，若“1”的数量大于“0”的数量，则认为该数据为异常数据；

E3：最终检测为异常的数据包括：E1异常且E2异常、E1异常或E2正常、E1正常或E2异常。

作为本发明进一步的方案：E2中Y_i的值为0或1，Y_i＝0表示数据在第i棵孤立树的节点白名单中，反之，则不在。

作为本发明进一步的方案：一种基于半监督与孤立森林的大比例异常数据检测系统,包括：

数据采集模块，用于采集实际生产活动中的数据；

数据预处理模块，用于对数据进行预处理并形成数据集；

模型训练模块，用于进行孤立森林训练；

异常检测模块，用于基于训练好的孤立森林，对于被测数据进行异常检测。

作为本发明进一步的方案：一种计算机设备,所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述权利要求1-6的基于半监督与孤立森林的大比例异常数据检测方法。

作为本发明进一步的方案：一种计算机可读存储介质,存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述权利要求1-6的基于半监督与孤立森林的大比例异常数据检测方法。

作为本发明进一步的方案：一种信息数据处理终端,所述信息数据处理终端用于实现上述的基于半监督与孤立森林的大比例异常数据检测系统。

本发明的有益效果：

1、本发明针对现有无监督异常检测方法在异常数据比例较大时检测精度低的问题，着眼于当前使用频繁的孤立森林算法，通过对其改进创新，使得检测模型在大比例异常数据的场景下也能有较好的表现；

本发明在原算法的基础上，引入半监督与白名单机制，针对所述的第二类叶子节点，训练时将部分纯净的正常样本输入，得到正常样本在叶子节点中的分布情况，结合设定的正常度参数，得到每棵孤立树的节点白名单。在异常检测时，将被测样本输入到孤立森林中，得到被测样本是否在每棵孤立树的节点白名单中，结合集成学习的思想，采用投票法得出异常数据；本发明通过异常分数检测与节点白名单检测两个阶段降低异常数据比例较大时产生的上述第三类叶子节点的影响，从而达到较好的检测效果；

2、本发明提供的基于半监督与孤立森林的大比例异常数据检测方法，以孤立森林算法为基础，结合半监督、白名单机制等技术，从异常得分与节点白名单两个角度进行异常检测，既保留了无监督异常检测方法节省人工的优势，又提高了异常数据占比较大时的检测效果；

3、本发明提供的基于半监督与孤立森林的大比例异常数据检测方法，具有训练速度快、检测速度快、检测效果好、应用范围广的优点，适合于工业控制系统入侵检测等难以标记标签且攻击渐趋频繁的复杂场景。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明实施例提供的基于半监督与孤立森林的大比例异常数据检测方法流程图；

图2是本发明实施例提供的孤立森林的结构示意图；

图3是本发明实施例提供的基于半监督与孤立森林的大比例异常数据检测方法数据采集、预处理阶段流程图；

图4是本发明实施例提供的基于半监督与孤立森林的大比例异常数据检测方法模型训练阶段流程图；

图5是本发明实施例提供的基于半监督与孤立森林的大比例异常数据检测方法异常检测阶段流程图；

图6是本发明与原孤立森林算法在异常数据比例不同时的精确度对比图；

图7是本发明与原孤立森林算法在异常数据比例不同时的准确率对比图；

图8是本发明与原孤立森林算法在异常数据比例不同时的召回率对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

如图1所示，一种基于半监督与孤立森林的大比例异常数据检测方法，包括如下步骤：

S101：数据采集、预处理阶段：采集实际生产过程中的数据，进行预处理形成混合数据集与纯净数据集；

S102：模型训练阶段：运用混合数据集训练孤立森林，将纯净数据集输入孤立森林得到节点白名单；

S103：异常检测阶段：结合孤立森林与节点白名单进行异常检测。

其中，本发明实施例提供的孤立森林的结构示意图如图2所示。

如图3所示，优选的，S101中的数据采集、预处理阶段包含：

S1：采集实际生产过程中的数据，其中包含正常数据与异常数据，并进行预处理形成混合数据集；

S2：通过人工从混合数据集中筛选出部分正常数据形成纯净数据集。

如图4所示，优选的，S102中的模型训练阶段包括：

S3：将S1中的混合数据集作为输入数据，并初始化孤立森林；

S4：对于S3中的输入数据，随机选择若个样本点作为子样本集，放入一棵孤立树的根节点；

S5：随机指定一个维度，在当前节点数据中随机产生一个分割点，分割点位于当前指定维度的最大值与最小值之间；

S6：以S5中随机产生的分割点生成一个超平面，将当前节点的数据空间划分为2个子空间，将当前节点在指定维度上小于S5分割点的样本放在左子树的根节点上，将大于分割点的样本放到右子树的根节点上；

S7：在子节点中递归S5和S6，不断构造新的子树，直至满足终止条件：①数据本身不可再分，只包含一个样本或该节点全部样本都相同；②树达到指定的最大深度；

S8：重复S4到S7，构造t棵孤立树构成孤立森林；

S9：将步S2中的纯净数据集输入孤立森林；

S10：以X_k＝{X₀,X₁,…，X_P}的形式输出纯净数据集在每棵孤立树叶子节点中的分布情况，其中k＝0，1，2，...，t为孤立树的编号，X_i＝[a,b]为二维向量，其中X_i[0]＝a为叶子节点编号，X_i[1]＝b为该节点中所包含的正常样本数量，且X_i依照样本数量从高到低排序；

S11：设定正常度参数m，m处于0到1之间，依照

如图5所示，优选的，S103中的异常检测阶段包括：

S12：异常分数检测：将需要检测的数据输入已经训练好的孤立森林中，按照数据从各孤立树根节点到叶子节点的路径长度计算得到异常分数，路径长度越短，异常分数越高，异常分数大于0.5的样本为异常数据；

S13：节点白名单检测：对照S12中检测数据在每棵孤立树上所处叶子节点是否在相应的节点白名单中，得到白名单检测结果{Y₀,Y₁,...Y_t}，其中Y_i的值为0或1，Y_i＝0表示数据在第i棵孤立树的节点白名单中，反之，则不在；

统计白名单检测结果中“0”和“1”的数量，若“1”的数量大于“0”的数量，则认为该数据为异常数据；

S14：最终检测为异常的数据包括：S12异常且S13异常、S12异常或S13正常、S12正常或S13异常。

在一个具体实施方式中，本发明的基于半监督与孤立森林的大比例异常数据检测方法，通过Python语言实现；

本发明实验用的数据集来自美国密西西比大学的SCADA入侵检测数据集，表1为该数据集的特征，步骤如下：

步骤一：对数据进行预处理，运用主成分分析法降维；

步骤二：利用数据集标签，将数据集拆分为正常数据集与异常数据集；

步骤三：将正常数据集与异常数据集以一定的比例抽样混合；

步骤四：将步骤三中的混合数据集拆分为训练集、测试集，其中训练集包括混合训练集与只含有部分正常数据的纯净训练集；

步骤五：运用混合训练集通过S3到S11完成模型训练阶段；

步骤六：将测试集数据输入检测模型，通过异常分数检测与节点白名单检测发现异常数据；

步骤七：利用测试集中的标签算出检测的准确率、精确度和召回率，与原算法进行对比；

步骤八：调整异常数据与正常数据的比例，重复步骤三到步骤七，查看本发明在异常数据占比不同的场景下的检测效果。

表1

/>

表2、表3、图6-图8为本发明实施例的实验结果，可以看出，本发明在异常数据比例较小时，与孤立森林检测方法检测效果基本一致，随着异常数据比例的增大，本发明相较于原方法有较大的优越性。

表2

表3

实施例2

一种基于半监督与孤立森林的大比例异常数据检测系统，包括：

数据采集模块，用于采集实际生产活动中的数据；

数据预处理模块，用于对数据进行预处理并形成数据集；

模型训练模块，用于进行孤立森林训练；

实施例3

本发明的另一目的在于提供计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的基于半监督与孤立森林的大比例异常数据检测方法。

实施例4

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述的基于半监督与孤立森林的大比例异常数据检测方法。

实施例5

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的基于半监督与孤立森林的大比例异常数据检测系统。

本发明的核心点之一：本发明针对现有无监督异常检测方法在异常数据比例较大时检测精度低的问题，着眼于当前使用频繁的孤立森林算法，通过对其改进创新，使得检测模型在大比例异常数据的场景下也能有较好的表现；

依据算法原理，每一棵孤立树训练时节点不可再分的条件为：

②树达到指定的最大深度，该节点的样本分布过于“集中”，相当于不可再分。

因此，当异常数据比例较大时，以至于在样本空间中呈现出“集群”的分布状态，依照上述②的情况，会有一些叶子节点中的样本均为异常数据，达到树的指定的最大深度，从而不可分割。由此训练而成的孤立森林含有三类叶子节点：第一类是路径短，异常得分高的节点；第二类是路径长，异常得分低的“正常”节点；第三类是路径长，异常得分低的“异常”节点。

原算法针对第一类叶子节点，将被测数据输入已训练好的孤立森林后，输出得到每个数据在孤立森林中的平均路径长度，路径长度越短，数据越“孤立”，异常得分越高。本发明在原算法的基础上，引入半监督与白名单机制，针对所述的第二类叶子节点，训练时将部分纯净的正常样本输入，得到正常样本在叶子节点中的分布情况，结合设定的正常度参数，得到每棵孤立树的节点白名单。在异常检测时，将被测样本输入到孤立森林中，得到被测样本是否在每棵孤立树的节点白名单中，结合集成学习的思想，采用投票法得出异常数据。本发明通过异常分数检测与节点白名单检测两个阶段降低异常数据比例较大时产生的上述第三类叶子节点的影响，从而达到较好的检测效果；

本发明的核心点之二：本发明提供的基于半监督与孤立森林的大比例异常数据检测方法，以孤立森林算法为基础，结合半监督、白名单机制等技术，从异常得分与节点白名单两个角度进行异常检测，既保留了无监督异常检测方法节省人工的优势，又提高了异常数据占比较大时的检测效果；

本发明的核心点之三：本发明提供的基于半监督与孤立森林的大比例异常数据检测方法，具有训练速度快、检测速度快、检测效果好、应用范围广的优点，适合于工业控制系统入侵检测等难以标记标签且攻击渐趋频繁的复杂场景；

本发明的核心点之四：无监督的异常检测方法由于其特定的理论基础(异常数据相较于正常数据比例很小且与正常数据差异性较大)，使得其难以应对异常数据占比较大的应用场景，本发明为无监督异常检测方法提供了一种新的改进思路，即基于算法原理，少量使用有标签的数据集，发现新的检测方式，配合原算法检测方式共同完成异常检测。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。

本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。

本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于半监督与孤立森林的大比例异常数据检测方法，其特征在于，包括以下步骤:

步骤三：异常检测阶段：结合孤立森林与节点白名单进行异常检测。

2.根据权利要求1所述的一种基于半监督与孤立森林的大比例异常数据检测方法,其特征在于，步骤一中，数据采集、预处理阶段包括：

3.根据权利要求1所述的一种基于半监督与孤立森林的大比例异常数据检测方法,其特征在于，步骤二中，模型训练阶段包括：

W6:重复步骤W2到步骤W5，构造t棵孤立树构成孤立森林；

W7：将步骤一中的纯净数据集输入孤立森林；

W9：设定正常度参数m，m处于0到1之间，依照

4.根据权利要求3所述的一种基于半监督与孤立森林的大比例异常数据检测方法,其特征在于，W5中，终止条件包括

②树达到指定的最大深度。

5.根据权利要求1所述的一种基于半监督与孤立森林的大比例异常数据检测方法,其特征在于，步骤三中异常检测阶段包括：

6.根据权利要求5所述的一种基于半监督与孤立森林的大比例异常数据检测方法,其特征在于，E2中Y_i的值为0或1，Y_i＝0表示数据在第i棵孤立树的节点白名单中，反之，则不在。

7.一种基于半监督与孤立森林的大比例异常数据检测系统,其特征在于，包括：

数据采集模块，用于采集实际生产活动中的数据；

数据预处理模块，用于对数据进行预处理并形成数据集；

模型训练模块，用于进行孤立森林训练；

8.一种计算机设备,其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述权利要求1-6的基于半监督与孤立森林的大比例异常数据检测方法。

9.一种计算机可读存储介质,其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述权利要求1-6的基于半监督与孤立森林的大比例异常数据检测方法。

10.一种信息数据处理终端,其特征在于，所述信息数据处理终端用于实现上述的基于半监督与孤立森林的大比例异常数据检测系统。