CN113645098B

CN113645098B - 一种无监督的基于增量学习的动态物联网异常检测方法

Info

Publication number: CN113645098B
Application number: CN202110918457.0A
Authority: CN
Inventors: 许艳; 葛江涛; 仲红; 崔杰; 刘辉
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2022-08-09
Anticipated expiration: 2041-08-11
Also published as: CN113645098A

Abstract

本发明公开了一种无监督的基于增量学习的动态物联网异常检测方法，包括：1获取历史数据，并筛选出高置信度正常样本来训练聚类模型，对异常进行初步识别；2将当前待检测数据训练孤立森林模型，对异常进行进一步识别；3根据训练好的聚类和孤立森林模型，分别构建相应的2个异常检测结果集；4根据数据分布的相似程度在当前和历史数据间建立连接，将2个异常检测结果集进行融合以准确识别异常；5检测完成后，从当前数据中筛选适量的高置信度正常样本来更新已有的聚类模型，以达到持续学习数据中最新出现的正常行为模式的目的。本发明能够有效的从动态变化的物联网数据中持续学习有价值信息，并提高异常检测的准确率。

Description

一种无监督的基于增量学习的动态物联网异常检测方法

技术领域

本发明涉及异常检测领域，具体地说是一种无监督的基于增量学习的动态物联网异常检测方法。

背景技术

近年来，数据传感设备随着物联网的快速发展广泛应用于智能家居、智慧交通、智慧农业等诸多领域。这些设备的出现改变了人们的日常生活方式，同时也产生了海量的数据资源。从数据中衍生出的有价值信息可以服务于各种应用，如设备开关控制、城市交通分析、环境质量检测等。但在数据收集的过程中，由于设备故障、恶意攻击、环境干扰等因素，不可避免地会出现数据异常的情况。这种异常数据会导致错误的决策和决定，从而降低了物联网应用的可靠性、可伸缩性和互操作性。特别是一些关键性安全应用，这个问题甚至会造成灾难性的后果。因此，需要有效的异常检测方法为物联网应用提供高质量数据的保障。

在物联网应用中，数据传感设备生成的数据通常以流的形式持续到达，需要及时区分那些与正常行为不同的异常。但实际物联网应用中存在环境和操作条件等因素经常性变化的问题。该问题将导致物联网数据底层分布会随着时间发生一些不确定性的变化。这意味着过去收集的正常行为模式会随着时间发生演变，即当前的正常行为概念在未来可能不再具有足够的代表性。一旦物联网异常检测模型不能跟随数据的分布的变化进行相应的调整，将会导致其无法精确地识别出异常。因此，物联网异常检测任务面临着数据的动态变化而导致的模型预测精度不佳的问题。

发明内容

本发明是为了避免上述现有技术所存在的问题，提出了一种无监督的基于增量学习的动态物联网异常检测方法，以期能够有效从物联网数据中持续学习有价值信息，并充分利用物联网时序数据间的关联来检测异常，从而适应物联网数据的动态变化，并提高异常检测的精度和准确率。

本发明为解决技术问题采用如下技术方案：

本发明一种无监督的基于增量学习的动态物联网异常检测方法的特点是按如下步骤进行：

步骤1、按照时间顺序获取物联网场景中的数据集记为

其中，

为初始数据块，

表示第t时间段的原始数据，t＝1,2,...,T；T表示总时间；

对所述数据集X^O进行预处理，得到预处理后的数据集X＝{X_S,X₁,X₂,…,X_t,…,X_T}；X_S为预处理后的初始数据块，且X_S＝{x_s1,x_s2,...,x_sm,...,x_sM}，x_sm表示预处理后的初始数据块X_S中第m个样本；M表示样本总量；X_t表示预处理后的第t时间段的原始数据，且X_t＝{x_t1,x_t2,...,x_tn,...,x_tN}，x_tn表示预处理后的第t时间段的原始数据X_t中第n个样本；N表示样本总量；

步骤2、构建高置信度正常样本集；

步骤2.1、对预处理后的初始数据块X_S进行k-means聚类，从而划分为K个簇，记为C＝{C₁,C₂,...,C_k,...,C_K}；C_k表示将预处理后的初始数据块X_S聚类后的第k个簇，k＝1,2,...,K；

步骤2.2、根据式(1)计算从第k个簇C_k中筛选的高置信度正常样本数量N_k：

N_k＝|C_k|×θ (1)

式(1)中，参数θ是筛选的高置信度正常样本数量所占预处理后的初始数据块X_S中样本总量M的百分比；|C_k|为第k个簇C_k中对应的样本数量；

步骤2.3、利用核密度估计方法计算第k个簇C_k中所包含样本的密度值，并根据样本的密度值大小进行降序排序，从而选择密度值最高的前N_k个样本并构成第k个高置信度正常样本集合，记为

表示第k个高置信度正常样本集合

中第n_k个正常样本；

步骤2.4、按照步骤2.2和步骤2.3的过程依次选择K个簇的高置信度正常样本集合，并构建高置信度正常样本集

表示从第k个簇C_k中筛选出的高置信度正常样本集；

步骤2.5、根据高置信度正常样本集X^H来训练k-means模型，从而划分为K′个簇，并得到聚类结果记为C′＝{C′₁,C′₂,...,C′_k′,...,C′_K′}，C′_k′表示将高置信度正常样本集X^H聚类后的第k′个簇；令聚类中心为U＝{u₁,u₂,...,u_k′,...,u_K′}；u_k′表示为高置信度正常样本集X^H中第k′个簇C′_k′的聚类中心；

步骤3、利用式(2)计算预处理后的第t时间段的原始数据X_t中第n个样本x_tn的异常程度PS(x_tn)：

步骤4、通过预处理后的第t时间段的原始数据X_t训练孤立森林模型，并通过训练好的孤立森林模型对预处理后的第t时间段的原始数据X_t中的异常样本进行进一步识别：

步骤4.1、训练孤立森林模型：

步骤4.1.1、从预处理后的第t时间段的原始数据X_t中随机抽取ψ个样本构成预处理后的第t时间段的原始数据X_t的子集

放入根节点；

表示子集X′_t中的第

个样本；

步骤4.1.2、随机指定子集X′_t中第

个样本

的一个维度，并用于在当前样本

中随机产生一个切割点p；

步骤4.1.3、将预处理后的第t时间段的原始数据X_t中其余样本的维度依次与p进行比较，若小于p，则将相应样本放入第

个样本

的左子节点，否则放入第

个样本

的右子节点；

步骤4.1.4、按照步骤4.1.2和步骤4.1.3的过程对左右子节点进行递归操作，直至所有的叶子节点都只有一个样本点或者孤立树已经达到指定的高度；从而得到一棵孤立树；

步骤4.1.5、按照步骤4.1.1至步骤4.1.4的过程进行循环操作，直至生成指定数目的孤立树并构成训练好的孤立森林模型；

步骤4.2、根据训练好的孤立森林模型，对预处理后的第t时间段的原始数据X_t中第n个样本x_tn的异常程度进行计算：

步骤4.2.1、遍历训练好的每一棵孤立树，并计算第n个样本x_tn在孤立森林模型中的平均高度h(x_tn)；

步骤4.2.2、利用式(3)计算第n个样本x_tn的异常分数CS(x_tn)：

式(3)中，N是参与构建森林的样本总数，H(·)为调和级数；

步骤5、将两种异常模型检测结果进行融合，识别预处理后的第t时间段的原始数据X_t中的异常样本：

步骤5.1、根据式(4)计算高置信度正常样本集X^H与预处理后的第t时间段的原始数据X_t的数据分布的相似度S(P,Q)：

式(4)中，P表示所筛选出的高置信度正常样本数据集X^H的概率分布；Q表示预处理后的第t时间段的原始数据X_t的概率分布；且S(P,Q)∈[0,1]；

步骤5.2、利用式(5)得到调节参数ω：

ω＝min(max(S(P,Q),σ),ρ) (5)

式(5)中，σ和ρ均是预定义的参数，且σ和ρ分别是参数ω的下界和上界，ω∈[0,1]；

步骤5.3、利用式(6)得到第n个样本x_tn的综合异常分数AS(x_tn)并作为两种异常检测模型的融合结果：

AS(x_tn)＝(1-ω)×PS(x_tn)+ω×CS(x_tn) (6)

步骤5.4、根据预先设定的异常阈值对预处理后的第t时间段的原始数据X_t中包含的所有样本进行异常检测，从而得到X_t的预测结果；

步骤6、从预处理后的第t时间段的原始数据X_t以及所述高置信度正常样本集X^H中筛选出新的高置信度正常样本：

步骤6.1、根据式(7)计算从所述高置信度正常样本集X^H中进行进一步筛选的数量N_k′：

N_k′＝|C′_k′|×(1-S(P,Q)) (7)

式(7)中，|C′_k′|为第k′个簇C′_k′中对应的样本数量；

步骤6.2、根据X_t的预测结果，筛选出预测结果为正常的样本，并形成正常数据集

步骤6.3、对正常数据集

进行k-means聚类，从而划分为K″个簇，并记为C″＝{C″₁,C″₂,...,C″_k″,...,C″_K″}；C″_k″表示将正常数据集

聚类后的第k″个簇；

步骤6.4、根据式(8)计算从第k″个簇C″_k″中筛选的高置信度正常样本数目N_k″：

N_k″＝|C″_k″|×θ (8)

式(8)中，|C″_k″|为第k″个簇C″_k″中对应的样本数量，参数θ是提取的高置信度正常样本数量所占正常数据集

中样本总数的百分比；

步骤6.5、利用核密度估计方法分别计算第k′个簇C′_k′以及第k″个簇C″_k″中所包含的样本密度值，并根据样本密度值大小分别进行降序排序，分别依次选择第k′个簇C′_k′和第k″个簇C″_k″簇中的密度值最高的前N_k′和前N_k″个样本作为相应的高置信度正常样本，从而构成第k′个高置信度正常样本集合

和第k″个高置信度正常样本集合

其中，

表示为第k′个高置信度正常样本集合

中的第n_k′个样本，

表示为第k″个高置信度正常样本集合

中的第n_k″个样本；

步骤6.6、重复步骤6.1和步骤6.5的过程依次选择K′个簇和K″个簇的高置信度正常样本集合，并相应构建高置信度正常样本集和；从而构成第t时间段的高置信度正常样本集；

步骤7、对第t时间段k-means模型的聚类结果进行更新，以检测第t+1时间段的原始数据X_t+1；

步骤7.1、对X^H′和X^H″分别进行k-means聚类，相应获得历史高置信度样本聚类

和当前高置信度样本聚类

表示历史高置信度样本聚类C^h′中的第k′个簇，

表示当前高置信度样本聚类C^h″中的第k″个簇；

步骤7.2、根据式(9)计算历史高置信度样本聚类C^h'中第k′个簇

中的第n_k′个样本

到其聚类中心

的最大距离T_k′并作为合并阈值；

式(9)中，

表示历史高置信度样本聚类C^h'中第k′个簇

的聚类中心；

步骤7.3、初始化k″＝1；

步骤7.4、分别计算第k″个簇

到历史高置信度样本聚类C^h′中各个聚类中心之间的距离，并找出最小距离，若最小距离小于合并阈值T_k′，则将最小距离所对应的簇

以及第k″个簇

进行合并后，加入更新后的高置信度样本聚类

否则将最小距离所对应的簇

以及第k″个簇

分别加入更新后的高置信度样本聚类

步骤7.5、将k″+1赋值给k″，将

赋值给C^h′，并返回步骤7.4执行，直到k″＞K″为止；从而得到第t时间段的高置信度正常样本集

的更新后的高置信度样本聚类

以及更新后的高置信度样本聚类

的聚类中心

其中，

表示更新后的高置信度样本聚类

中的第q个簇，

表示第q个簇

的距离中心；Q′表示

中的簇的数量；

步骤7.6、将

赋值给C′，将t+1赋值给t后，返回步骤3执行，直到t＝T为止，从而完成物联网场景中数据的异常检测。

与已有技术相比，本发明有益效果体现在：

1、本发明通过分别使用历史数据和当前数据来训练模型，并将两个模型的预测结果进行巧妙地融合，以当前和过去两个角度来综合考虑数据的异常程度，充分考虑了物联网数据中的时间因素，实现了对物联网异常的高效识别。

2、本发明通过聚类和概率密度函数相结合的方法来筛选数据流中的高置信度样本，该处理方式使筛选的正常样本更具有代表性，为后续的模型的更新持续提供大量有价值数据。

3、本发明通过不断从数据流中筛选出的高置信度正常样本来更新聚类模型，该处理模式考虑到了物联网数据的行为模式的动态变化，实现了在不忘记过去所学知识的基础上学习了新的知识。

4、本发明通过数据分布的相似度在当前与历史数据间建立连接，该处理模式可以平衡当前和历史数据所训练模型的检测结果集的重要性进行融合，使模型能够跟随数据分布的变化进行动态调整，实现了对物联网异常更精确的检测。

附图说明

图1为本发明一种无监督的基于增量学习的动态物联网异常检测方法流程图；

图2为本发明异常检测方法示意图。

具体实施方式

本实施例中，参见图1，一种无监督的基于增量学习的动态物联网异常检测方法是按如下步骤进行：

步骤1、按照时间顺序获取物联网场景中的数据集记为

其中，

为初始数据块，

表示第t时间段的原始数据，t＝1,2,...,T；T表示总时间；

对所述数据集X^O进行预处理，得到预处理后的数据集X＝{X_S,X₁,X₂,...,X_t,...,X_T}；X_S为预处理后的初始数据块，且X_S＝{x_s1,x_s2,...,x_sm,...,x_sM}，x_sm表示预处理后的初始数据块X_S中第m个样本；M表示样本总量；X_t表示预处理后的第t时间段的原始数据，且X_t＝{x_t1,x_t2,...,x_tn,...,x_tN}，x_tn表示预处理后的第t时间段的原始数据X_t中第n个样本；N表示样本总量；该真实智能家居异常数据集为DS2OS，其中异常样本中包含7种攻击类型，其分别是网络扫描，间谍，恶意控制，恶意操作，拒绝服务，数据类型探测和错误设置；在本实例中按照数据收集的时间顺序，将前9％的数据作为初始化数据块X_S；余下数据按照时间顺序等量分为十个批次，即T＝10；

步骤2、构建高置信度正常样本集；

步骤2.1、对预处理后的初始数据块X_S进行k-means聚类，从而划分为K个簇，记为C＝{C₁,C₂,…,C_k,...,C_K}；C_k表示将预处理后的初始数据块X_S聚类后的第k个簇，k＝1,2,...,K；在本实施例中，K取值为5；

N_k＝|C_k|×θ (1)

式(1)中，参数θ是筛选的高置信度正常样本数量所占预处理后的初始数据块X_S中样本总量M的百分比，本例中参数θ默认为0.2；|C_k|为第k个簇C_k中对应的样本数量；

表示第k个高置信度正常样本集合

中第n_k个正常样本；

表示从第k个簇C_k中筛选出的高置信度正常样本集；

步骤2.5、根据高置信度正常样本集X^H来训练k-means模型，从而划分为K′个簇，此时K′取值为5；并得到聚类结果记为C′＝{C′₁,C′₂,...,C′_k′,...,C′_K′}，C′_k′表示将高置信度正常样本集X^H聚类后的第k′个簇；令聚类中心为U＝{u₁,u₂,...,u_k′,...,u_K′}；u_k′表示为高置信度正常样本集X^H中第k′个簇C′_k′的聚类中心；

步骤4.1、训练孤立森林模型：

放入根节点；

表示子集X′_t中的第

个样本；

步骤4.1.2、随机指定子集X′_t中第

个样本

的一个维度，并用于在当前样本

中随机产生一个切割点p；

个样本

的左子节点，否则放入第

个样本

的右子节点；

步骤4.2.2、利用式(3)计算第n个样本x_tn的异常分数CS(x_tn)：

式(3)中，N是参与构建森林的样本总数，H(·)为调和级数，在本实施例中，H(N)被估计为ln(N)+0.5772156649；

步骤5、如图2所示，将两种异常模型检测结果进行融合，识别预处理后的第t时间段的原始数据X_t中的异常样本：

式(4)中，P表示所筛选出的高置信度正常样本集X^H的概率分布；Q表示预处理后的第t时间段的原始数据X_t的概率分布；当高置信度正常样本集X^H与预处理后的第t时间段的原始数据X_t的数据分布的相似度越高，则S(P,Q)值越小，且S(P,Q)∈[0,1]；

步骤5.2、利用式(5)得到调节参数ω：

ω＝min(max(S(P,Q),σ),ρ) (5)

式(5)中，σ和ρ均是预定义的参数，且σ和ρ分别是参数ω的下界和上界，ω∈[0,1]；在本实施例中，σ默认为0.6，ρ默认为0.9；

AS(x_tn)＝(1-ω)×PS(x_tn)+ω×CS(x_tn) (6)

步骤5.4、根据预先设定的异常阈值对预处理后的第t时间段的原始数据X_t中包含的所有样本进行异常检测，当从而得到X_t的预测结果；通过分布相似度来将两种异常模型的预测结果进行融合可以有效避免数据分布变化而导致的模型检测效果下降问题，使检测结果更加准确可靠；

N_k′＝|C_k″|×(1-S(P,Q)) (7)

式(7)中，|C′_k′|为第k′个簇C′_k′中对应的样本数量；当高置信度正常样本集X^H与预处理后的第t时间段的原始数据X_t的数据分布的相似度越高，即S(P,Q)值越小时，则从X^H中选取更多数量的高置信度样本进行保留；

步骤6.2、根据X_t的预测结果，筛选出预测结果为正常的样本，并形成正常数据集X_t ^P；

步骤6.3、对正常数据集

进行k-means聚类，从而划分为K″个簇，K″的值在本实施例中默认为5，并记为C″＝{C″₁,C″₂,...,C″_k″,...,C″_K″}；C″_k″表示将正常数据集

聚类后的第k″个簇；

N_k″＝|C″_k″|×θ (8)

中样本总数的百分比；参数θ的值在本实施例中默认为0.2；

和第k″个高置信度正常样本集合

其中，

表示为第k′个高置信度正常样本集合

中的第n_k′个样本，

表示为第k″个高置信度正常样本集合

中的第n_k″个样本；

步骤6.6、重复步骤6.1和步骤6.5的过程依次选择K′个簇和K″个簇的高置信度正常样本集合，并相应构建高置信度正常样本集

和

从而构成第t时间段的高置信度正常样本集

步骤7.1、对X^H′和X^H″分别进行k-means聚类，其中聚类数目K′与K″在本实施例中取值均为5，并相应获得历史高置信度样本聚类

和当前高置信度样本聚类

表示历史高置信度样本聚类C^h′中的第k′个簇，

表示当前高置信度样本聚类C^h″中的第k″个簇；

中的第n_k′个样本

到其聚类中心

的最大距离T_k′并作为合并阈值；

式(9)中，

表示历史高置信度样本聚类C^h'中第k′个簇

的聚类中心；

步骤7.3、初始化k″＝1；

步骤7.4、分别计算第k″个簇

以及第k″个簇

进行合并后，加入更新后的高置信度样本聚类

否则将最小距离所对应的簇

以及第k″个簇

分别加入更新后的高置信度样本聚类

步骤7.5、将k″+1赋值给k″，将

的更新后的高置信度样本聚类

以及更新后的高置信度样本聚类

的聚类中心

其中，

表示更新后的高置信度样本聚类

中的第q个簇，

表示第q个簇

的距离中心；Q′表示

中的簇的数量；

步骤7.6、将

赋值给C′，将t+1赋值给t后返回步骤3执行，直到t＝T为止，从而完成物联网场景中数据的异常检测。

实施例：

为了验证本方法中的有效性，本文选用了Kaggle网站中公开的智能家居通信异常检测时序数据集DS2OS。对于该数据集而言，其中异常样本约占3％。此外，在本实例中并采用准确率和F1分数作为定量评价标准。

本实施例中选用五种方法和本发明方法进行效果对比，所选方法分别是OC-SVM、孤立森林(IF)、COPOD、LODA、UIDAD-P，UIDAD为发明方法，UIDAD-P为UIDAD去掉孤立森林部分的方法，即仅通过历史数据训练的模型对异常进行识别；根据实验结果可得出结果如表1和表2所示：

表1本发明方法与选用的五种对比方法在智能家居数据集上10个批次进行异常检测的准确率

表2本发明方法与选用的五种对比方法在智能家居数据集上10个批次进行异常检测的F1分数

实验结果显示本发明方法与其它五种方法相比效果都要更好,从而证明了本发明提出方法的可行性。

Claims

1.一种无监督的基于增量学习的动态物联网异常检测方法，其特征是按如下步骤进行：

步骤1、按照时间顺序获取物联网场景中的数据集记为

其中，

为初始数据块，

表示第t时间段的原始数据，t＝1,2,...,T；T表示总时间；

对所述数据集X^O进行预处理，得到预处理后的数据集X＝{X_S,X₁,X₂,...,X_t,...,X_T}；X_S为预处理后的初始数据块，且X_S＝{x_s1,x_s2,...,x_sm,...,x_sM}，x_sm表示预处理后的初始数据块X_S中第m个样本；M表示样本总量；X_t表示预处理后的第t时间段的原始数据，且X_t＝{x_t1,x_t2,...,x_tn,...,x_tN}，x_tn表示预处理后的第t时间段的原始数据X_t中第n个样本；N表示样本总量；

步骤2、构建高置信度正常样本集；