CN110348480A

CN110348480A - 一种非监督异常数据检测算法

Info

Publication number: CN110348480A
Application number: CN201910485030.9A
Authority: CN
Inventors: 张智; 刘子瑜
Original assignee: Hangzhou Lichen Technology Co Ltd
Current assignee: Hangzhou Lichen Technology Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-10-18

Abstract

本发明提供了一种非监督异常数据检测算法，涉及技术领域，包括将输入的数据点与历史数据进行比较，获取历史记录中相关的条目，剔除不相关条目；通过若干静态统计算法分别对比较之后的数据点进行评分并输出分数；通过归一化算法集成上述各个静态统计算法的分数，并产生最终分数输出；将最终分数和阈值进行比较后，对数据进行分类标记。本发明采用多种算法组合的形式实现数据异常检测，结果通过多种算法进行独立评分最后共同决策，提高了异常检测的可靠性。

Description

一种非监督异常数据检测算法

技术领域

本发明涉及一种基于上下文的非监督异常检测机器学习算法，尤其是一种联合使用统计方法和分类归并方法由多种算法得到共识结果的非监督异常检测算法，属于数据异常检测技术领域。

背景技术

越来越多的数据通过网络传输使得网络变得越来越拥挤，这种数据的增长可能会导致异常，比如从一端发送的数据是否能在另一端及时、恰当地接收到。随着现代数字通信领域的发展，异常检测方面的技术进步已经成为非常重要的一方面，亟需找到更快、更有效的方法来解决异常检测问题。

随着互联网的发展，网络中的数据流量越来越大，针对这种现象，现已有一种概率统计方法是使用自适应阈值检测方法来进行数据检测的，可以测量数值是否超过阈值的方法，这个阈值是自适应的，由过去测量值的平均值计算得到，使用一个变量来计算超过阈值的连续测量值，在连续超过一定数量的测量值后，会触发警报。在分级的数据异常检测方面，有另一种概率型方法被称为“Tiresias”，该方法将传入的数据集过滤并聚集在某些区域，其中某个区域意味着该区域中包含的数据具有较高的异常概率。Tiresias的工作原理是抽象一组传入的数据点，将其组织在网格中，然后将其划分为时间单位，一旦数据在时域中分离，异常的识别就开始了，然后对数据进行分析，以发现季节性的模式。考虑到时间序列及其季节性，该方案具有发现任何潜在异常所需的所有参数，并对所有数据集重复此过程。用该方法进行异常检测时，如果有一个非常小的子集，可能是一个单点，应该被认为是异常的，但由于它是在一个低异常的区域，那么它将被错误地归类为正常。

但类似于上述提到的概率统计方法存在以下缺陷：这种方法可以得到它所访问的数据中某个区域的异常概率，或者得出数据的分布图，但是无法检测数据是否错误或分类错误。

异常检测通常分为三类：监督异常检测、半监督异常检测和非监督异常检测。在监督异常检测中，将异常检测方案作为一组选定的参考值作为输入，该方案可以立即知道任何与参考数据的值或模式不匹配的传入数据是异常的，但是监督异常检测方案不适合分析具有多个或多个不同“正确性”级别的数据，除非专家的迭代参与和参考数据的更新是可维护的。半监督异常检测可以看作是监督和非监督异常检测方案的混合，因为它同时使用有标记数据和无标记数据，然而，半监督技术的可信度依赖于模型，也就是依赖于算法中的学习机制。非监督异常检测中，参考数据(如果有的话是)是不用给定标签的，它的工作是在给定的输入数据中查找与其他输入数据中呈现的值或模式不匹配的值或模式。

现有很多非监督异常检测方法都是基于聚类方法的，但是所有单一的算法检测的结果都是片面的。

基于此，本案由此产生。

发明内容

为了解决现有技术中存在的上述缺陷，本发明提供了一种非监督异常数据检测算法，以提高检测的可靠性。

为了实现上述目的，本发明采取的技术方案如下：

一种非监督异常数据检测算法，包括以下：

(1)将输入的数据点与历史数据进行比较，获取历史记录中相关的条目，剔除不相关条目；

(2)通过若干静态统计算法分别对比较之后的数据点进行评分并输出分数；

(3)通过归一化算法集成上述各个静态统计算法的分数，并产生最终分数输出；

(4)将最终分数和阈值进行比较后，对数据进行分类标记。

作为优选，所述步骤(2)中，所述静态算法采用泊松算法、桶聚类算法、均值算法和中值算法。

作为优选，所述泊松算法评分是将数据建模为带有X个箱子的直方图，其中 X是被建模的数据集中所有条目的最大值，具体步骤如下：

第一步：通过概率质量函数计算检测值的可能性概率，计算方法如公式1：

公式1：

当前检测值表示为x，λ为集合的平均值；

第二步：计算引用概率Pref，计算方法如公式2：

公式2：

第三步：计算分数，去除Pref和P(x，λ)的比值为1的值，对相似的值给出较低的分数，而对不相似的值给出较高的分数，评分方法如公式3：

公式3：

其中S代表分数值，P代表第一步中的可能性概率。

作为优选，所述桶聚类算法评分步骤中，遍历所有历史数据，并创建十个同样宽的桶，每个桶都被位于a和b之间的每个值“填充”，通过计算输入数据点所在桶的高度与所有高度之和的比较，建立0到1之间的评分值，该评分值表示与传入数据点的集群匹配的历史点的数量。

作为优选，所述均值算法评分包括以下步骤：

第一步：计算标准差，计算方法如公式4：

公式4：

其中N是集合中元素的个数，y_i表示分布集合中每个单独的值，μ是匹配集中的均值；

第二步：计算分数，计算方法如公式5：

公式5：

其中x是被检测的值，μ是匹配集中的均值，σ是第一步中计算出的标准差， c是一个常数。

作为优选，所述中值算法评分包括以下步骤：

第一步：计算绝对中位差，计算方法如公式6：

公式6：MAD＝median(|Y_i-median(Y)|)

第二步：计算分数，计算方法如公式7：

公式7：

其中，m是匹配集的中值，Y代表匹配集中所有的值，y_i表示集合Y中的单独的值，c表示调节中值算法灵敏度的参数。

作为优选，所述步骤(3)中具体包括以下步骤：

第一步：分别为各个静态统计算法创建分数，将每个单独算法的分数a_i作为每个级别和每个度量的输入，以及每个分布集中元素个数N作为输入，并通过公式8为每一级L和各个算法分数的度量M创建分数；

公式8：

第二步：计算一致意见的最终分数，将结果f_i放入集合F中，计算公式如公式9：

公式9：

其中表示F中所有值的平均值，V是F的方差。

作为优选，所述步骤(4)中，用t表示阈值，0≤t≤1，S(x)表示最终分数， S(x)≥t，该检测值为异常，标记为正结果，如果该检测是正确的则标记为真正，如果发现实际情况下应该是负结果则标记为假正；S(x)<t时，该检测值为正常，标记为负结果，如果该检测是正确的则标记为真负，如果发现在实际情况下应该是正结果则标记为假负。

作为优选，所述步骤(4)中，将没有标记的数据添加到历史数据中。

本发明的工作原理：本发明通过多种算法共同决策从而实现异常检测，本发明中算法集成了泊松(Poisson)算法、桶聚类(Bucket clustering)算法、均值算法(Meanalgorithm)、中值算法(Median algorithm)和一种归一化算法 (NormalizationAlgorithm)。前四种算法会访问历史数据，独立的给出自己的评分，在归一化算法中对每级算法的评分都会输出一个标签分数。异常检测有“评分”和“分类”两个部分组成，归一化算法得出的一致性意见得分的分数被用来分类。采用算法集成可以不同的角度分析数据，在一组数据中以不同的方式寻找异常，一种算法的可靠性可以与其他算法进行验证，并以在线方式创建更精确的分类。

本发明能实现如下技术效果：

(1)本发明采用多种算法组合的形式实现异常检测，结果需要多种算法进行独立评分最后共同决策，提高了异常检测的可靠性。

(2)本发明为数字通信中数据的不规则问题提供解决方案，实现一个基于上下文内容的支持非监督异常检测的自动异常检测方案，该方案将是一个新的概念验证框架的一部分，该框架支持已实现的异常检测技术的测试、仿真和可视化。各种异常检测方法的功能被合并到本发明的异常检测框架中，以便收集关于任意异常检测技术有效的结果。

(3)本发明是基于非监督学习的异常检测，检测过程中无需为数据给定标签，因此可以避免标签数据影响未来的预测。

(4)本发明在数据处理过程中是基于上下文的异常检测，对历史数据是可以完全访问的，只需要提供被检测的数据，不用再给定历史记录的时间范围相关信息。

(5)本发明中只要数据是结构化的，都可以进行异常数据的检测，而不仅仅可以得到异常概率，还可以检测数据是否错误或分类错误，并显示发生异常之处。

(6)本发明的框架是通用的，能够适应不同的系统与微调参数，本发明不仅使用非常基本的统计度量来提供合理的输出，而且足够模块化，可以在任何操作时间序列数据的设置中工作，模块化可以满足其他系统的设计需求，方便后续维护或者更换。

附图说明

图1为本实施例一种非监督异常数据检测算法的可视化框架图；

图2为本实施例一种非监督异常数据检测算法在特定地址和特定服务网络的情况下对所有消息的接收数量统计图；

图3为本实施例一种非监督异常数据检测算法中的桶聚类算法的可视化表示图；

图4为本实施例一种非监督异常数据检测算法中的中值算法的可视化表示图。

其中，图2中横轴表示接收数量，纵轴表示交互次数，虚线表示平均值(37.44)，实线表示中值(24.0)；图3中横轴表示消息的接收数量，纵轴表示交互次数；如图4中横轴表示所检测数据的时间，纵轴表示消息接收次数。

具体实施方式

为了使本发明的技术手段及其所能达到的技术效果，能够更清楚更完善的披露，兹提供了以下实施例，并结合附图作如下详细说明：

本实施例的一种由多种算法集成的非监督异常检测算法的目的是为数字通信中数据的不规则问题提供解决方案。如图1所示，本实施例通过集成泊松 (Poisson)算法、桶聚类(Bucket clustering)算法、均值算法(Mean algorithm)、中值算法(Medianalgorithm)和一种归一化算法(Normalization Algorithm)实现一个基于上下文内容的支持非监督异常检测的自动异常检测方案。前四种算法独立工作，会访问历史数据，给出自己的评分，在归一化算法中会生成分数并且每级算法都会输出一个分数标签。

本实施例数据结构中每条数据有6个属性，索引值分别为0,1,2,3,4,5。第一列及索引值为0，该列属性可以修改。本实施例使用的案例数据中，每条数据有 6个属性分别是：发生时间、地址、服务网络、程序类型、接收数量和交互次数。设置索引值是{1,2,3}的为级别指标，{4,5}为度量指标，就是指第二、三、四列为级别指标，第五、六列是度量指标。非常相似的数值会分布在相似的时间周期内，如图2所示为在特定地址和特定服务网络的情况下，对所有消息的接收数量进行计数的条形统计图，横轴表示接收数量，纵轴表示交互次数，平均值(37.44)用虚线表示，中值(24.0)用实线表示。从图中可以看出，分布呈右偏态，在任意给定的时间段内，低值较多，高值较少，并且大多数点都位于中值附近，可见中值对异常检测具有重要作用。归一化算法在生成分数之后，通过将分数与阈值进行比较从而输出分类标签，传入的数据点是在每个算法中使用后添加到历史记录中的。基于本实施例使用各种属性组合和消息发送时间点访问数据的方式，本实施例使用一种基于数据可以使用单变量回归分析建模的概率方法来扩展异常检测方案，这样可以创建计数数据的样本，其中每个样本都表示期望值。

本实施例方法的解决方案具体如下：

1、将输入的数据点与历史数据进行比较；

在特定上下文的历史数据中选择性地匹配与特定时间间隔t相关的值，即对于任何正在检测的给定数据，获取历史记录中与某个时间间隔相关的条目，涉及到的方法如下：

(1)给定数字通信数据q的发生时间即为提取的时间戳，表示为T；

(2)给定需要检测的数据q的标识符键值用于查找数据结构的哪个部分，以及树中的哪个节点要访问。历史数据中与q键匹配的所有条目被临时复制到列表L中；

(3)所有在L中的时间戳与T在工作日相同的条目都保存在L中，其余的则被舍弃。L中与T的小时、分钟和秒数相差超过±t/2秒的所有项都被丢弃；

(4)在L中剩下的都是历史记录，它们与某个键组合匹配，在不同周的同一工作日的同一时间和q相匹配。

2、泊松算法、桶聚类算法、均值算法、中值算法分别在与历史数据进行比较之后输出评分，传入的数据点使用之后将添加到历史记录中；

(1)泊松算法进行评分

泊松算法将数据建模为带有X个箱子的直方图，其中X是被建模的数据集中所有条目的最大值，即一个条目所匹配到的历史记录。

第一步：通过概率质量函数(PMF)计算检测值的可能性概率，如公式1所示。

泊松分布的概率质量函数定义。

公式1：

当前检测值表示为x，λ为集合的平均值。本实施例中以两个类似的集合为例，集合1：0,1,2,3,3,3,3,3,5,6,7,9；集合2：0,1,2,3,3,3,3,3,4,5,6,22。将这些集合建模为随机泊松变量，使用公式1确定一个值的可能性的概率，其中取集合的平均值作为参数，即λ₁＝3.75，λ₂≈4.58。所以当x＝3时，可以算出P₁＝P(3,3.75) ≈0.21，P₂＝P(3,4.58)≈0.16。

第二步：计算引用概率P_ref，用于和第一步中计算的可能性概率作比较。如果两者近似，即P_ref≈P(x，λ)，比值将接近或等于1，如果它们相差很大，比值将接近于0。计算方法如公式2所示。

公式2：

第三步：计算分数，去除P_ref和P(x，λ)的比值为1的值，对相似的值给出较低的分数，而对不相似的值给出较高的分数。评分方法如公式3所示，S代表分数值，P代表第一步中的可能性概率。

公式3：

通过上述计算，在本实施例中可得到P_ref1≈0.21，P_ref2≈0.19。对于x＝3的情况，此时是出现概率最高的情况。将上述数据带入公式3计算，可得S₁＝1 -0.21/0.21＝0，S₂＝1-0.16/0.19≈1–0.84＝0.16。S₂和PMF的结果一致，但是如果此时x＝2时，计算结果会产生较大偏差，意味着此时的被检测值是偏离频率最高的值的。

(2)桶聚类算法

如图3所示为桶聚类算法的可视化表示，横轴表示消息的接收数量，纵轴表示交互次数。该算法遍历了所有历史数据，并创建十个同样宽的桶，每个桶都被位于a和b之间的每个值“填充”。桶越高，传入的新数据点在桶中着陆的可能性就越大。通过计算输入数据点所在桶的高度与所有高度之和的比较，可以建立 0到1之间的评分值。此值表示与传入数据点的集群匹配的历史点的数量。

(3)均值算法评分

第一步：计算标准差，计算方式如公式4所示。其中N是集合中元素的个数，y_i表示分布集合中每个单独的值，μ是匹配集中的均值。

公式4：

第二步：计算分数，计算方式如公式5所示。其中x是被检测的值，μ是匹配集中的均值，σ是第一步中计算出的标准差，c是一个常数。本实施例中c取 1.96，当x超过1.96*σ是异常值，x接近均值时是非异常值。

公式5：

(4)中值算法评分

第一步：计算绝对中位差(MAD)，计算方式如公式6所示。

公式6：MAD＝median(|Y_i-median(Y)|)

第二步：计算分数，计算方式如公式7所示。

公式7：

其中，m是匹配集的中值，Y代表匹配集中所有的值，y_i表示集合Y中的单独的值。本实施例中c取1.96，在此处的含义是调节中值算法灵敏度的参数。如图4所示为中值算法的可视化表示，横轴表示所检测数据的时间，纵轴表示数据通过特定服务网络发送到特定地址的消息接收次数。

3、归一化算法集成4种静态统计算法的分数产生最终的分数输出；

如果所有的算法得分一致，那分数就固定在这个得分上，如果不一致就通过以下步骤计算一个一致意见得分。

第一步：为前面所述的每级算法输出分数。该算法将每个单独算法的得分 a_i作为每个级别和每个度量的输入，以及每个分布集中元素个数N作为输入。通过公式8为该算法为每一级L和各个算法得分的度量M创建分数。

公式8：

第二步：计算一致意见得分。将结果f_i放入集合F中，如公式9所示，表示F中所有值的平均值，V是F的方差。

公式9：

4、通过将分数和阈值进行比较，对数据进行分类；

用t表示阈值，0≤t≤1，如果S(x)≥t则该检测值为异常，标记为正结果，如果该检测是正确的则标记为真正，如果发现实际情况下应该是负结果则标记为假正。S(x)<t时，标记为负结果，表示该值是正常值，如果该检测是正确的则标记为真负，如果发现在实际情况下应该是正结果则标记为假负。本实施例中阈值设置为10％，表示一致意见得分低于0.1的被视为真负，而一致意见得分高于0.9 的被视为真正，若一致意见得分在这些值之间则表示不确定，不进行分类。

以上内容是结合本发明的优选实施方式对所提供技术方案所作的进一步详细说明，不能认定本发明具体实施只局限于上述这些说明，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种非监督异常数据检测算法，包括以下：

(4)将最终分数和阈值进行比较后，对数据进行分类标记。

2.如权利要求1所述的一种非监督异常数据检测算法，其特征在于：所述步骤(2)中，所述静态算法采用泊松算法、桶聚类算法、均值算法和中值算法。

3.如权利要求2所述的一种非监督异常数据检测算法，其特征在于：所述泊松算法评分是将数据建模为带有X个箱子的直方图，其中X是被建模的数据集中所有条目的最大值，具体步骤如下：

公式1：

当前检测值表示为x，λ为集合的平均值；

第二步：计算引用概率Pref，计算方法如公式2：

公式2：

公式3：

其中S代表分数值，P代表第一步中的可能性概率。

4.如权利要求2所述的一种非监督异常数据检测算法，其特征在于：所述桶聚类算法评分步骤中，遍历所有历史数据，并创建十个同样宽的桶，每个桶都被位于a和b之间的每个值“填充”，通过计算输入数据点所在桶的高度与所有高度之和的比较，建立0到1之间的评分值，该评分值表示与传入数据点的集群匹配的历史点的数量。

5.如权利要求2所述的一种非监督异常数据检测算法，其特征在于：所述均值算法评分包括以下步骤：

第一步：计算标准差，计算方法如公式4：

公式4：

第二步：计算分数，计算方法如公式5：

公式5：

其中x是被检测的值，μ是匹配集中的均值，σ是第一步中计算出的标准差，c是一个常数。

6.如权利要求2所述的一种非监督异常数据检测算法，其特征在于：所述中值算法评分包括以下步骤：

第一步：计算绝对中位差，计算方法如公式6：

公式6：MAD＝median(|Y_i-median(Y)|)

第二步：计算分数，计算方法如公式7：

公式7：

7.如权利要求1所述的一种非监督异常数据检测算法，其特征在于：所述步骤(3)中具体包括以下步骤：

公式8：

公式9：

其中表示F中所有值的平均值，V是F的方差。

8.如权利要求1所述的一种非监督异常数据检测算法，其特征在于：所述步骤(4)中，用t表示阈值，0≤t≤1，S(x)表示最终分数，S(x)≥t，该检测值为异常，标记为正结果，如果该检测是正确的则标记为真正，如果发现实际情况下应该是负结果则标记为假正；S(x)<t时，该检测值为正常，标记为负结果，如果该检测是正确的则标记为真负，如果发现在实际情况下应该是正结果则标记为假负。

9.如权利要求1所述的一种非监督异常数据检测算法，其特征在于：所述步骤(4)中，将没有标记的数据添加到历史数据中。