CN104794192A

CN104794192A - 基于指数平滑、集成学习模型的多级异常检测方法

Info

Publication number: CN104794192A
Application number: CN201510185479.5A
Authority: CN
Inventors: 吴骏; 陈飞宇; 彭岳; 吴和生; 李宁; 谢俊元
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2015-04-17
Filing date: 2015-04-17
Publication date: 2015-07-22
Anticipated expiration: 2035-04-17
Also published as: CN104794192B

Abstract

一种基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,包括如下步骤：统计检测阶段：a)根据应用场景确定关键特征集合；b)对于离散特征，用滑动窗口分布直方图建模，对于连续特征用指数平滑建模；c)周期性输入各个关键特征的观测值；d)结束。集成学习训练阶段：a)利用已经标记的正常和异常样例，组成训练数据集合；b)训练随机森林分类模型；和集成学习分类阶段；本发明为包含时序特性和复杂行为模式的异常检测问题提供了一个通用框架，适合在线常驻检测，集成学习阶段使用随机森林模型具有可并行化、泛化能力强的特点，该方法可运用于如电信行业业务违规检测、金融行业信用卡欺诈检测、网络攻击检测等多个场景。

Description

基于指数平滑、集成学习模型的多级异常检测方法

技术领域

本发明涉及一种对异常模式建模的检测方法，尤其包含适用于海量数据场景下常驻快速筛选的指数平滑、统计检测技术和适用于并行检测的集成学习分类技术。

背景技术

利用机器学习和数据挖掘技术可以智能发掘大数据中的异常模式。异常检测也是数据挖掘中有着广泛实用场景的热点问题，例如网络环境中的入侵检测、金融行业中的信用卡欺诈检测、电信行业中的业务违规检测、医疗健康行业中的新型流行病发现等，合理有效的应用异常检测可以为相关组织或个人挽回高额的资金损失甚至保护人的生命安全。

常用的异常检测技术主要有如下几大类：基于分类的异常检测、基于聚类的异常检测、基于统计理论的异常检测、基于信息论的异常检测和基于谱方法的异常检测。其中基于统计的方法依赖于理想化的概率分布假设，虽然计算速度最快，但是很多情形下，由于假设不能很好的刻画应用问题的本质结构，导致准确性不高，尤其是假警报的比例过高。基于分类、聚类、信息论等方式的异常检测算法可以使用较为复杂的机器学习模型，预测的准确性能得到模型泛化能力的保障，但是多数模型训练过程计算复杂度较高，无法适用于在线实时的检测。

集成学习是近年来机器学习领域的热点，也是实际应用中最为强大工具之一。作为最为有名的数据挖掘竞赛KDD-Cup，从1997年开始，每年举办一届，而从2009年至今，每年至少前两名都使用了集成学习的思想；另外一个同样著名的推荐算法竞赛Netflix Prize，成为冠军并获得100万美金奖励的Pragmatic Chaos团队就使用了集成学习的方法，而屈居亚军的团队队名就是The Ensemble(集成学习的英文名)。集成学习的思想是就是训练多个预测模型，通过对多个预测模型预测结果的合成来得到最终结果。理论和实践两方面都能证明，多个弱分类器集成学习的效果甚至可以大大超过一个强分类器。

随机森林就是应用集成学习思想的一个分类器模型，它通过将多个子决策树的集成得到一个强分类器。集成学习效果一方面取决于子分类器本身的能力强弱，另一方面取决于子分类器之间的关联程度。提高子分类器的预测能力、减少子分类器之间的关联性都可以优化集成学习的效果。随机森林模型通过

①有放回的随机构造每个子决策树的训练集合，

②随机选取属性子集来划分每个子决策树的内部节点，这两种方式来降低子决策树之间的关联性，因此该模型具有良好的泛化能力。不仅如此，子分类器的独立性使得多个子决策树的构造可以利用并行计算方式提高训练速度，随机选取特征子集的做法进一步减少了子决策树的训练时间。

本发明将异常检测的过程分为粗粒度和细粒度两个层次进行，第一级采用统计的方式，快速筛选潜在异常记录，该层次的处理技术可以做到实时和常驻，第二级，将上述的潜在异常记录输入到用给定训练数据集训练出来的随机森林模型，进行细粒度的检测，输出最终的判定结果。其中第二级的模型训练能以较长的周期进行离线更新，当新检测出的异常记录超过一定数目后，可以再次训练。两级结合的建模和预测方式，在实时性和准确性两个方面做了平衡，打破了传统异常检测方法的单一性，并行训练的方式可以更有效的运用当今多核处理器的运算能力，提高异常检测的速度。

发明内容

本发明所要解决的技术问题是，大数据异常检测建模，并在该模型下实现具有在线常驻能力兼顾准确性的异常检测方法。

为解决上述问题，本发明的技术方案，基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法，包括如下步骤：

1)统计检测阶段：

a根据应用场景确定关键特征集合；

b对离散特征，用滑动窗口分布直方图建模，对连续特征，用指数平滑建模；

c实时监测并输入各个关键特征的观测值，以阈值规则判定潜在异常样例，并作标记输出；

d结束。

2)集成学习训练阶段：

a利用已经标记正常和异常样例，组成训练数据集合；

b训练构造随机森林分类模型；

c结束。

3)集成学习分类阶段：

a获取步骤1-c阶段得到的潜在异常样例；

b将每一个异常样例输入到2阶段得到的随机森林分类模型中；

c模型给出针对每个样例的预测；

d结束。

步骤1)-a中所述的关键特征为抽取数据样例中与异常检测相关的维度，即电信违规业务检测中的用户类型、入网、过户、停复机、补卡、销户、积分兑换、账户消费、国际长途、漫游、资料变更以及各项操作的时间等关键特征。

步骤1)-b中所述的离散特征指的是取值为离散数值或类别名称的特征(例如用户类型这个特征可以有普通号、预配号、吉祥号、非吉祥号等几个类别)，所述的连续特征指的是取值为连续无界数值的特征(例如账本消费记录)。

进一步，滑动窗口分布统计和指数平滑的建模具体过程如下：

1)对关键特征集合中的每项特征x_i∈{x_s|s≤N}，判断其所属类型，如果是离散特征，则执行2)，如果是连续特征，则执行3)；

2)指定时间窗口[t₀，t₀+k]，在该时间窗口上统计其在各个取值上的概率分布这里c∈R(x_i)，并统计时间窗口内所包含样例的总数目

3)读取对应的时序数据序列{c_s(x_i)|s≤k}，采用指数平滑公式对未来取值进行建模：

其中α为平滑参数；

4)结束。

步骤1)-c的具体过程如下：

1)实时监测新的记录，读入每条新记录r_new，迭代监测r_new的每项关键特征x_i∈{x_s|s≤N}，若x_i为离散特征，则执行2)，否则，执行3)；

2)对离散特征取值r_new(x_i)，进行阈值判定则将其存入潜在异常集合C_abn＝C_abn∪{r_new}，否则，将其加入待定集合C_w＝C_w∪{r_new}，并将新样例计数加一，进行阈值判定，若则将待定集合C_w中的所有记录标记为潜在异常C_abn＝C_abn∪C_w；

3)对连续特征取值r_new(x_i)，计算指数平滑模型的预测误差，进行阈值判定，若则将该记录加入潜在异常集合C_abn＝C_abn∪{r_new}；

4)输出潜在异常集合C_abn；

5)结束。

步骤2集成学习训练阶段具体过程如下：

1)设定随机森林模型参数n(随机森林模型所包含并行决策树个数)和 (随机森林模型每个节点分裂时所选的随机特征子集大小)；

2)并行训练每个随机决策树T_i∈{T_j|j≤n}，对于T_i，采用有放回的采样算法从给定异常集合C_RF上构造出一个等大小的训练集；

3)从根节点开始递归构造随机决策树，对于每个节点，从关键特征集合中随机选取大小为的子特征集合其中|F|＝m；

4)基于步骤4)中选取的特征子集F，F中每个特征的取值构成一个向量参数 θ_F，求出

θ_{F}^{*} = \arg \max_{θ_{F}} I_{F},

其中

I_{F} = H (C_{T_{i}}) - Σ_{s &Element; {L, R}} \frac{| C_{T_{i}}^{s} |}{| C_{T_{i}} |} H (C_{T_{i}}^{s}),

这里L、R分别表示节点的左右两个孩子节点，即是分入某个孩子节点中的潜在异常集合，其中

H (C_{T_{i}}) = - Σ_{s &Element; S} p (s) \log (p (s)),

即信息熵；

5)终止条件判定，如果步骤5)得到的子节点全部属于同一个类别(异常或者正常)，则该节点形成叶子，递归终止，否则执行4)；

6)将训练得到的随机森林分类模型写入文件系统；

7)结束。

步骤3集成学习的分类阶段具体过程如下：

1)从文件系统中读取训练得到的随机森林分类模型；

2)读取统计检测阶段输出的潜在异常集合C_abn；

3)遍历潜在异常集合中的每一个记录r_i∈C_abn，将每一个r_i作为随机森林分类模型中每个随机决策树的输入，随机森林输出一个分类向量

4)分类向量中每个元素取值都是{0,1}中的一个(异常或者正常)，随机森林将

l = \arg \max_{s &Element; {0,1}} | {c_{i} = s | i \leq n} |

作为分类器的输出，即如果输出0则标记为正常，如果输出1则标记为异常。

5)结束。

本发明的有益效果，本发明基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法分两级分别建立了基于指数平滑、滑动窗口分布统计异常检测模型，以及基于集成学习的随机森林分类模型，两个层次分别针对实时常驻检测和离线高准确性检测的问题，做到实时性和准确性的平衡，利用并行化技术提高了随机森林的训练速度，并且能有效挖掘大数据的异常行为模式规律。

本发明的基于指数平滑、滑动窗口分布统计和集成学习模型的两级异常检测方法为包含时序特性和复杂行为模式的异常检测问题提供了一个通用框架，初级检测采用统计方法能高效捕获潜在异常，适合在线常驻检测，集成学习阶段使用随机森林模型具有可并行化、泛化能力强的特点，能显著提升训练速度和识别准确度，框架的一般性使得该方法可运用于如电信行业业务违规检测、金融行业信用卡欺诈检测、网络攻击检测等多个场景。

附图说明

图1为本发明的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法。

图2为统计检测阶段中步骤2的处理流程图。

图3为统计检测阶段中步骤3的处理流程图。

图4为集成学习训练阶段的流程图。

图5为集成学习分类阶段的流程图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

本发明的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法的流程图如图1所示。

步骤0位本发明的异常检测方法的起始状态；

在统计检测阶段(步骤1-3)：

步骤1是根据应用场景和领域知识构建关键监控特征集合；

步骤2是根据特征的类型(离散或连续)对每个关键特征进行建模(指数平滑或者滑动窗口分布统计)；

步骤3是实时监控新的记录，对新记录的每一个关键特征，判断特征的类型，离散类型的关键特征输入给上一步建立的指数平滑模型进行两层阈值判定，连续类型的关键特征输入给上一步建立的滑动窗口分布统计模型进行阈值判定，最后输出潜在异常记录集合，供后续检测使用；

在集成学习的训练阶段(步骤4-5)：

步骤4是将已知的异常记录和正常记录以关键特征为属性构建训练数据集合；

步骤5是利用步骤4构建的训练数据集训练随机森林分类模型；

在集成学习的分类阶段(步骤6-7)：

步骤6是读入步骤3输出并保存在文件系统中的潜在异常记录集合；

步骤7是遍历步骤6读入的潜在异常记录集合，将每一个异常记录输入到随机森林分类模型，并输出每一个异常记录的分类结果，即异常或者正常；

步骤8是本发明的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法的结束步骤。

图2是对图1中统计检测阶段中的步骤2的详细流程描述：

步骤9为图2的起始步骤；

步骤10和11为对关键特征集合中的每项特征x_i∈{x_s|s≤N}，判断其所属类型，如果是离散特征，则执行步骤12，否则执行步骤13；

步骤14为将建立的模型保存至文件系统中；

步骤15为图2的结束步骤。

图3是对图1中统计检测阶段中的步骤3的详细流程描述：

步骤16为图3的起始步骤；

步骤17为实时监测新的记录，读入每条新记录r_new；

步骤18和19为迭代监测r_new的每项关键特征x_i∈{x_s|s≤N}，若x_i为离散特征，则执行步骤20，否则执行步骤21；

步骤22对离散特征取值r_new(x_i)，进行阈值判定，若

p_{k}^{(t_{0})} (r_{new} (x_{i}) | x_{i}) < 10 %

则执行步骤22，否则执行步骤23；

步骤21对连续特征取值r_new(x_i)，计算指数平滑模型的预测误差：进行阈值判定，若则执行步骤22，否则返回步骤18继续处理下一个记录；

步骤22将通过阈值判定的记录加入到潜在异常集合中：

C_abn＝C_abn∪{r_new}；

步骤23将未通过离散特征阈值判定的记录加入待定集合C_w＝C_w∪{r_new}，并将新样例计数器加一，接下来执行步骤24；

步骤24对未通过离散特征阈值判定的记录进行二次阈值判定，若则执行步骤25，否则返回步骤18继续处理下一个记录；

步骤25将待定集合C_w中的所有记录加入到潜在异常集合中：

C_abn＝C_abn∪C_w；

步骤26将得到的所有潜在异常集合输入并写入文件系统；

步骤27为图3的结束步骤。

图4为集成学习训练阶段的流程图：

步骤28为图4的起始步骤；

步骤29为设定随机森林模型的参数n和其中n为随机森林模型所包含的子决策树个数，其中m为随机森林模型每个节点分裂时所选的随机特征子集大小；

步骤30为开始并行训练每个随机决策树T_i∈{T_j|j≤n}；

步骤31为对于T_i，采用有放回的采样算法从给定异常集合C_RF上构造出一个等大小的训练集；

步骤32为从根节点开始递归构造随机决策树，从关键特征集合中随机选取大小为的子特征集合其中|F|＝m；

步骤33为基于步骤32中选取的特征子集F，F中每个特征的取值构成一个向量参数θ_F，求出其中

I_{F} = H (C_{T_{i}}) - Σ_{s &Element; {L, R}} \frac{| C_{T_{i}}^{s} |}{| C_{T_{i}} |} H (C_{T_{i}}^{s}),

H (C_{T_{i}}) = - Σ_{s &Element; S} p (s) \log (p (s)),

即信息熵；

步骤34为根据求出将划分至该内部节点的训练记录分入左右两个孩子节点训练集合和中去；

C_{T_{i}}^{s}, s &Element; {L, R}

步骤35为对左右两个孩子节点s∈{L，R}分别使用终止条件进行判定，如果该孩子节点的所有训练记录都属于同一个类别(异常或者正常)，满足终止条件，则转入步骤36，否则转入步骤37；

步骤36将满足终止条件的孩子节点设定为叶子节点；

步骤37将不满足终止条件的孩子节点加入到待处理的内部节点队列中：

IN_w＝IN_w∪{s}；

步骤38判定待处理内部节点队列是否为空，如果为空，则执行步骤39，否则取出队首的待处理内部节点作为下一步处理的根节点，继续执行步骤32；

步骤39将训练好的随机森林模型存入文件系统；

步骤40为图4的结束步骤。

图5为集成学习分类阶段的流程图：

步骤41为图5的起始步骤；

步骤42为从文件系统中读取训练得到的随机森林分类模型；

步骤43为读取统计检测阶段输出的潜在异常集合C_abn；

步骤44为遍历潜在异常集合中的每一个记录r_i∈C_abn，输入至随机森林分类模型中；

步骤45为得到随机森林分类模型输出的分类向量

步骤46为综合分类向量，给出最终输出：

l = \arg \max_{s &Element; {0,1}} | {c_{i} = s | i \leq n} |

即如果输出0则标记为正常，如果输出1则标记为异常；

步骤47为图4的结束步骤。

综上所述，本发明综合利用统计和集成学习两级结合的方式，在异常检测实时性和准确性两方面性达到了一个平衡，基于指数平滑和滑动窗口统计分布直方图的建模方法能高速筛选潜在异常记录，而基于集成学习的随机森林分类技术可以并行化实现，进一步提高了异常检测的速度和准确性。

本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法，其特征在于，包括如下步骤：

1)统计检测阶段：

a根据应用场景确定关键特征集合；

d结束；

2)集成学习训练阶段：

a利用已经标记的正常和异常样例，组成训练数据集合；

b训练构造随机森林分类模型；

c结束；

3)集成学习分类阶段：

a获取步骤1-c阶段得到的潜在异常样例；

c模型给出针对每个样例的预测；

d结束。

2.根据权利要求1所述的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法，其特征在于，其中步骤1)-a中所述的关键特征为抽取数据样例中与异常检测相关的维度，即电信违规业务检测中的用户类型、入网、过户、停复机、补卡、销户、积分兑换、账户消费、国际长途、漫游、资料变更以及各项操作的时间等关键特征。

3.根据权利要求1所述的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法，其特征在于，其中步骤1)-b中所述的离散特征指的是取值为离散数值的特征(例如用户类型这个特征可以有普通号、预配号、吉祥号、非吉祥号等几个类别)，所述的连续特征指的是取值为连续无界数值的特征(例如账本消费记录)，滑动窗口分布统计和指数平滑的建模具体过程如下：

1)对关键特征集合中的每项特征x_i∈{x_s|s≤N}，判断其类型，如果是离散特征，则执行2)，如果是连续特征，则执行3)；

\hat{c_{t}} (x_{i}) = Σ_{j = 0}^{t} α {(1 - α)}^{j} c_{t - j} (x_{i}), (t > k),

其中α为平滑参数；

4)结束。

4.根据权利要求1所述的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法，其特征在于，其中步骤1)-c的具体过程如下：

2)对离散特征取值r_new(x_i)，进行阈值判定，若则将其存入潜在异常集合C_abn＝C_abn∪{r_new}，否则，将其加入待定集合C_w＝C_w∪{r_new}，并将新样例计数加一，进行阈值判定，若则将待定集合C_w中的所有记录标记为潜在异常C_abn＝C_abn∪C_w；

3)对连续特征取值r_new(x_i)，计算指数平滑模型的预测误差进行阈值判定，若则将该记录加入潜在异常集合C_abn＝C_abn∪{r_new}；

4)输出潜在异常集合C_abn；

5)结束。

5.根据权利要求1所述的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法，其特征在于，其中步骤2的集成学习训练阶段具体过程如下：

1)设定随机森林模型参数n(随机森林模型所包含并行决策树个数)和(随机森林模型每个节点分裂时所选的随机特征子集大小)；

2)并行训练每个随机决策树T_i∈{T_j|j≤n}，对于T_i，采用有放回的采样算法从给定异常集合C_RF上构造出一个等大小的训练集

4)基于步骤4)中选取的特征子集F，F中每个特征的取值构成一个向量参数θ_F，求出

θ_{F}^{*} = \arg \max_{θ_{F}} I_{F},

其中

I_{F} = H (C_{T_{i}}) - Σ_{s &Element; {L, R}} \frac{| C_{T_{i}}^{s} |}{| C_{T_{i}} |} H (C_{T_{i}}^{s}),

即信息熵；

6)将训练得到的随机森林分类模型写入文件系统；

7)结束。

6.根据权利要求1所述的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法，其特征在于，其中步骤3的集成学习分类阶段具体过程如下：

1)从文件系统中读取训练得到的随机森林分类模型；

2)读取统计检测阶段输出的潜在异常集合C_abn；

l = \arg \max_{s &Element; {0,1}} | {c_{i} = s | i \leq n} |

5)结束。