CN104794192A - 基于指数平滑、集成学习模型的多级异常检测方法 - Google Patents

基于指数平滑、集成学习模型的多级异常检测方法 Download PDF

Info

Publication number
CN104794192A
CN104794192A CN201510185479.5A CN201510185479A CN104794192A CN 104794192 A CN104794192 A CN 104794192A CN 201510185479 A CN201510185479 A CN 201510185479A CN 104794192 A CN104794192 A CN 104794192A
Authority
CN
China
Prior art keywords
model
random forest
feature
exponential smoothing
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510185479.5A
Other languages
English (en)
Other versions
CN104794192B (zh
Inventor
吴骏
陈飞宇
彭岳
吴和生
李宁
谢俊元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201510185479.5A priority Critical patent/CN104794192B/zh
Publication of CN104794192A publication Critical patent/CN104794192A/zh
Application granted granted Critical
Publication of CN104794192B publication Critical patent/CN104794192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

一种基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,包括如下步骤:统计检测阶段:a)根据应用场景确定关键特征集合;b)对于离散特征,用滑动窗口分布直方图建模,对于连续特征用指数平滑建模;c)周期性输入各个关键特征的观测值;d)结束。集成学习训练阶段:a)利用已经标记的正常和异常样例,组成训练数据集合;b)训练随机森林分类模型;和集成学习分类阶段;本发明为包含时序特性和复杂行为模式的异常检测问题提供了一个通用框架,适合在线常驻检测,集成学习阶段使用随机森林模型具有可并行化、泛化能力强的特点,该方法可运用于如电信行业业务违规检测、金融行业信用卡欺诈检测、网络攻击检测等多个场景。

Description

基于指数平滑、集成学习模型的多级异常检测方法
技术领域
本发明涉及一种对异常模式建模的检测方法,尤其包含适用于海量数据场景下常驻快速筛选的指数平滑、统计检测技术和适用于并行检测的集成学习分类技术。
背景技术
利用机器学习和数据挖掘技术可以智能发掘大数据中的异常模式。异常检测也是数据挖掘中有着广泛实用场景的热点问题,例如网络环境中的入侵检测、金融行业中的信用卡欺诈检测、电信行业中的业务违规检测、医疗健康行业中的新型流行病发现等,合理有效的应用异常检测可以为相关组织或个人挽回高额的资金损失甚至保护人的生命安全。
常用的异常检测技术主要有如下几大类:基于分类的异常检测、基于聚类的异常检测、基于统计理论的异常检测、基于信息论的异常检测和基于谱方法的异常检测。其中基于统计的方法依赖于理想化的概率分布假设,虽然计算速度最快,但是很多情形下,由于假设不能很好的刻画应用问题的本质结构,导致准确性不高,尤其是假警报的比例过高。基于分类、聚类、信息论等方式的异常检测算法可以使用较为复杂的机器学习模型,预测的准确性能得到模型泛化能力的保障,但是多数模型训练过程计算复杂度较高,无法适用于在线实时的检测。
集成学习是近年来机器学习领域的热点,也是实际应用中最为强大工具之一。作为最为有名的数据挖掘竞赛KDD-Cup,从1997年开始,每年举办一届,而从2009年至今,每年至少前两名都使用了集成学习的思想;另外一个同样著名的推荐算法竞赛Netflix Prize,成为冠军并获得100万美金奖励的Pragmatic Chaos团队就使用了集成学习的方法,而屈居亚军的团队队名就是The Ensemble(集成学习的英文名)。集成学习的思想是就是训练多个预测模型,通过对多个预测模型预测结果的合成来得到最终结果。理论和实践两方面都能证明,多个弱分类器集成学习的效果甚至可以大大超过一个强分类器。
随机森林就是应用集成学习思想的一个分类器模型,它通过将多个子决策树的集成得到一个强分类器。集成学习效果一方面取决于子分类器本身的能力强弱,另一方面取决于子分类器之间的关联程度。提高子分类器的预测能力、减少子分类器之间的关联性都可以优化集成学习的效果。随机森林模型通过
①有放回的随机构造每个子决策树的训练集合,
②随机选取属性子集来划分每个子决策树的内部节点,这两种方式来降低子决策树之间的关联性,因此该模型具有良好的泛化能力。不仅如此,子分类器的独立性使得多个子决策树的构造可以利用并行计算方式提高训练速度,随机选取特征子集的做法进一步减少了子决策树的训练时间。
本发明将异常检测的过程分为粗粒度和细粒度两个层次进行,第一级采用统计的方式,快速筛选潜在异常记录,该层次的处理技术可以做到实时和常驻,第二级,将上述的潜在异常记录输入到用给定训练数据集训练出来的随机森林模型,进行细粒度的检测,输出最终的判定结果。其中第二级的模型训练能以较长的周期进行离线更新,当新检测出的异常记录超过一定数目后,可以再次训练。两级结合的建模和预测方式,在实时性和准确性两个方面做了平衡,打破了传统异常检测方法的单一性,并行训练的方式可以更有效的运用当今多核处理器的运算能力,提高异常检测的速度。
发明内容
本发明所要解决的技术问题是,大数据异常检测建模,并在该模型下实现具有在线常驻能力兼顾准确性的异常检测方法。
为解决上述问题,本发明的技术方案,基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,包括如下步骤:
1)统计检测阶段:
a根据应用场景确定关键特征集合;
b对离散特征,用滑动窗口分布直方图建模,对连续特征,用指数平滑建模;
c实时监测并输入各个关键特征的观测值,以阈值规则判定潜在异常样例,并作标记输出;
d结束。
2)集成学习训练阶段:
a利用已经标记正常和异常样例,组成训练数据集合;
b训练构造随机森林分类模型;
c结束。
3)集成学习分类阶段:
a获取步骤1-c阶段得到的潜在异常样例;
b将每一个异常样例输入到2阶段得到的随机森林分类模型中;
c模型给出针对每个样例的预测;
d结束。
步骤1)-a中所述的关键特征为抽取数据样例中与异常检测相关的维度,即电信违规业务检测中的用户类型、入网、过户、停复机、补卡、销户、积分兑 换、账户消费、国际长途、漫游、资料变更以及各项操作的时间等关键特征。
步骤1)-b中所述的离散特征指的是取值为离散数值或类别名称的特征(例如用户类型这个特征可以有普通号、预配号、吉祥号、非吉祥号等几个类别),所述的连续特征指的是取值为连续无界数值的特征(例如账本消费记录)。
进一步,滑动窗口分布统计和指数平滑的建模具体过程如下:
1)对关键特征集合中的每项特征xi∈{xs|s≤N},判断其所属类型,如果是离散特征,则执行2),如果是连续特征,则执行3);
2)指定时间窗口[t0,t0+k],在该时间窗口上统计其在各个取值上的概率分布这里c∈R(xi),并统计时间窗口内所包含样例的总数目
3)读取对应的时序数据序列{cs(xi)|s≤k},采用指数平滑公式对未来取值进行建模:
其中α为平滑参数;
4)结束。
步骤1)-c的具体过程如下:
1)实时监测新的记录,读入每条新记录rnew,迭代监测rnew的每项关键特征xi∈{xs|s≤N},若xi为离散特征,则执行2),否则,执行3);
2)对离散特征取值rnew(xi),进行阈值判定则将其存入潜在异常集合Cabn=Cabn∪{rnew},否则,将其加入待定集合Cw=Cw∪{rnew},并将新样例计数加一,进行阈值判定,若 则将待定集合Cw中的所有记录标记为潜在异常Cabn=Cabn∪Cw
3)对连续特征取值rnew(xi),计算指数平滑模型的预测误差 ,进行阈值判定,若 则将该记录加入潜在异常集合Cabn=Cabn∪{rnew};
4)输出潜在异常集合Cabn
5)结束。
步骤2集成学习训练阶段具体过程如下:
1)设定随机森林模型参数n(随机森林模型所包含并行决策树个数)和 (随机森林模型每个节点分裂时所选的随机特征子集大小);
2)并行训练每个随机决策树Ti∈{Tj|j≤n},对于Ti,采用有放回的采样算法从给定异常集合CRF上构造出一个等大小的训练集
3)从根节点开始递归构造随机决策树,对于每个节点,从关键特征集合中随机选取大小为的子特征集合其中|F|=m;
4)基于步骤4)中选取的特征子集F,F中每个特征的取值构成一个向量参数 θF,求出 θ F * = arg max θ F I F , 其中
I F = H ( C T i ) - Σ s ∈ { L , R } | C T i s | | C T i | H ( C T i s ) ,
这里L、R分别表示节点的左右两个孩子节点,即是分入某个孩子节点中的潜在异常集合,其中
H ( C T i ) = - Σ s ∈ S p ( s ) log ( p ( s ) ) , 即信息熵;
5)终止条件判定,如果步骤5)得到的子节点全部属于同一个类别(异常或者正常),则该节点形成叶子,递归终止,否则执行4);
6)将训练得到的随机森林分类模型写入文件系统;
7)结束。
步骤3集成学习的分类阶段具体过程如下:
1)从文件系统中读取训练得到的随机森林分类模型;
2)读取统计检测阶段输出的潜在异常集合Cabn
3)遍历潜在异常集合中的每一个记录ri∈Cabn,将每一个ri作为随机森林分类模型中每个随机决策树的输入,随机森林输出一个分类向量
4)分类向量中每个元素取值都是{0,1}中的一个(异常或者正常),随机森林将 
l = arg max s ∈ { 0,1 } | { c i = s | i ≤ n } |
作为分类器的输出,即如果输出0则标记为正常,如果输出1则标记为异常。
5)结束。
本发明的有益效果,本发明基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法分两级分别建立了基于指数平滑、滑动窗口分布统计异常检测模型,以及基于集成学习的随机森林分类模型,两个层次分别针对实时常驻检测和离线高准确性检测的问题,做到实时性和准确性的平衡,利用并行化技术提高了随机森林的训练速度,并且能有效挖掘大数据的异常行为模式规律。
本发明的基于指数平滑、滑动窗口分布统计和集成学习模型的两级异常检测方法为包含时序特性和复杂行为模式的异常检测问题提供了一个通用框架,初级检测采用统计方法能高效捕获潜在异常,适合在线常驻检测,集成学习阶段使用随机森林模型具有可并行化、泛化能力强的特点,能显著提升训练速度和识别准确度,框架的一般性使得该方法可运用于如电信行业业务违规检测、金融行业信用卡欺诈检测、网络攻击检测等多个场景。
附图说明
图1为本发明的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法。
图2为统计检测阶段中步骤2的处理流程图。
图3为统计检测阶段中步骤3的处理流程图。
图4为集成学习训练阶段的流程图。
图5为集成学习分类阶段的流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
本发明的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法的流程图如图1所示。
步骤0位本发明的异常检测方法的起始状态;
在统计检测阶段(步骤1-3):
步骤1是根据应用场景和领域知识构建关键监控特征集合;
步骤2是根据特征的类型(离散或连续)对每个关键特征进行建模(指数平滑或者滑动窗口分布统计);
步骤3是实时监控新的记录,对新记录的每一个关键特征,判断特征的类型,离散类型的关键特征输入给上一步建立的指数平滑模型进行两层阈值判定,连续类型的关键特征输入给上一步建立的滑动窗口分布统计模型进行阈值判定,最后输出潜在异常记录集合,供后续检测使用;
在集成学习的训练阶段(步骤4-5):
步骤4是将已知的异常记录和正常记录以关键特征为属性构建训练数据集合;
步骤5是利用步骤4构建的训练数据集训练随机森林分类模型;
在集成学习的分类阶段(步骤6-7):
步骤6是读入步骤3输出并保存在文件系统中的潜在异常记录集合;
步骤7是遍历步骤6读入的潜在异常记录集合,将每一个异常记录输入到随机森林分类模型,并输出每一个异常记录的分类结果,即异常或者正常;
步骤8是本发明的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法的结束步骤。
图2是对图1中统计检测阶段中的步骤2的详细流程描述:
步骤9为图2的起始步骤; 
步骤10和11为对关键特征集合中的每项特征xi∈{xs|s≤N},判断其所属类型,如果是离散特征,则执行步骤12,否则执行步骤13;
步骤14为将建立的模型保存至文件系统中;
步骤15为图2的结束步骤。 
图3是对图1中统计检测阶段中的步骤3的详细流程描述:
步骤16为图3的起始步骤; 
步骤17为实时监测新的记录,读入每条新记录rnew
步骤18和19为迭代监测rnew的每项关键特征xi∈{xs|s≤N},若xi为离散特征,则执行步骤20,否则执行步骤21;
步骤22对离散特征取值rnew(xi),进行阈值判定,若
p k ( t 0 ) ( r new ( x i ) | x i ) < 10 %
则执行步骤22,否则执行步骤23;
步骤21对连续特征取值rnew(xi),计算指数平滑模型的预测误差: 进行阈值判定,若 则执行步骤22,否则返回步骤18继续处理下一个记录;
步骤22将通过阈值判定的记录加入到潜在异常集合中:
Cabn=Cabn∪{rnew};
步骤23将未通过离散特征阈值判定的记录加入待定集合Cw=Cw∪{rnew},并将新样例计数器加一,接下来执行步骤24;
步骤24对未通过离散特征阈值判定的记录进行二次阈值判定,若 则执行步骤25,否则返回步骤18继续处理下一个记录;
步骤25将待定集合Cw中的所有记录加入到潜在异常集合中:
Cabn=Cabn∪Cw
步骤26将得到的所有潜在异常集合输入并写入文件系统;
步骤27为图3的结束步骤。 
图4为集成学习训练阶段的流程图:
步骤28为图4的起始步骤; 
步骤29为设定随机森林模型的参数n和其中n为随机森林模型所包含的子决策树个数,其中m为随机森林模型每个节点分裂时所选的随机特征子集大小;
步骤30为开始并行训练每个随机决策树Ti∈{Tj|j≤n};
步骤31为对于Ti,采用有放回的采样算法从给定异常集合CRF上构造出一个等大小的训练集
步骤32为从根节点开始递归构造随机决策树,从关键特征集合中随机选取大小为的子特征集合其中|F|=m;
步骤33为基于步骤32中选取的特征子集F,F中每个特征的取值构成一个向量参数θF,求出其中
I F = H ( C T i ) - &Sigma; s &Element; { L , R } | C T i s | | C T i | H ( C T i s ) ,
这里L、R分别表示节点的左右两个孩子节点,即是分入某个孩子节点中的潜在异常集合,其中
H ( C T i ) = - &Sigma; s &Element; S p ( s ) log ( p ( s ) ) , 即信息熵;
步骤34为根据求出将划分至该内部节点的训练记录分入左右两个孩子节点训练集合中去;
C T i s , s &Element; { L , R }
步骤35为对左右两个孩子节点s∈{L,R}分别使用终止条件进行判定,如果该孩子节点的所有训练记录都属于同一个类别(异常或者正常),满足终止条件,则转入步骤36,否则转入步骤37;
步骤36将满足终止条件的孩子节点设定为叶子节点;
步骤37将不满足终止条件的孩子节点加入到待处理的内部节点队列中:
INw=INw∪{s};
步骤38判定待处理内部节点队列是否为空,如果为空,则执行步骤39,否则取出队首的待处理内部节点作为下一步处理的根节点,继续执行步骤32;
步骤39将训练好的随机森林模型存入文件系统;
步骤40为图4的结束步骤。 
图5为集成学习分类阶段的流程图:
步骤41为图5的起始步骤; 
步骤42为从文件系统中读取训练得到的随机森林分类模型;
步骤43为读取统计检测阶段输出的潜在异常集合Cabn
步骤44为遍历潜在异常集合中的每一个记录ri∈Cabn,输入至随机森林分类模型中;
步骤45为得到随机森林分类模型输出的分类向量
步骤46为综合分类向量,给出最终输出:
l = arg max s &Element; { 0,1 } | { c i = s | i &le; n } |
即如果输出0则标记为正常,如果输出1则标记为异常;
步骤47为图4的结束步骤。 
综上所述,本发明综合利用统计和集成学习两级结合的方式,在异常检测实时性和准确性两方面性达到了一个平衡,基于指数平滑和滑动窗口统计分布直方图的建模方法能高速筛选潜在异常记录,而基于集成学习的随机森林分类技术可以并行化实现,进一步提高了异常检测的速度和准确性。
本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (6)

1.一种基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,其特征在于,包括如下步骤:
1)统计检测阶段:
a根据应用场景确定关键特征集合;
b对离散特征,用滑动窗口分布直方图建模,对连续特征,用指数平滑建模;
c实时监测并输入各个关键特征的观测值,以阈值规则判定潜在异常样例,并作标记输出;
d结束;
2)集成学习训练阶段:
a利用已经标记的正常和异常样例,组成训练数据集合;
b训练构造随机森林分类模型;
c结束;
3)集成学习分类阶段:
a获取步骤1-c阶段得到的潜在异常样例;
b将每一个异常样例输入到2阶段得到的随机森林分类模型中;
c模型给出针对每个样例的预测;
d结束。
2.根据权利要求1所述的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,其特征在于,其中步骤1)-a中所述的关键特征为抽取数据样例中与异常检测相关的维度,即电信违规业务检测中的用户类型、入网、过户、停复机、补卡、销户、积分兑换、账户消费、国际长途、漫游、资料变更以及各项操作的时间等关键特征。
3.根据权利要求1所述的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,其特征在于,其中步骤1)-b中所述的离散特征指的是取值为离散数值的特征(例如用户类型这个特征可以有普通号、预配号、吉祥号、非吉祥号等几个类别),所述的连续特征指的是取值为连续无界数值的特征(例如账本消费记录),滑动窗口分布统计和指数平滑的建模具体过程如下:
1)对关键特征集合中的每项特征xi∈{xs|s≤N},判断其类型,如果是离散特征,则执行2),如果是连续特征,则执行3);
2)指定时间窗口[t0,t0+k],在该时间窗口上统计其在各个取值上的概率分布这里c∈R(xi),并统计时间窗口内所包含样例的总数目
3)读取对应的时序数据序列{cs(xi)|s≤k},采用指数平滑公式对未来取值进行建模:
c t ^ ( x i ) = &Sigma; j = 0 t &alpha; ( 1 - &alpha; ) j c t - j ( x i ) , ( t > k ) ,
其中α为平滑参数;
4)结束。
4.根据权利要求1所述的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,其特征在于,其中步骤1)-c的具体过程如下:
1)实时监测新的记录,读入每条新记录rnew,迭代监测rnew的每项关键特征xi∈{xs|s≤N},若xi为离散特征,则执行2),否则,执行3);
2)对离散特征取值rnew(xi),进行阈值判定,若则将其存入潜在异常集合Cabn=Cabn∪{rnew},否则,将其加入待定集合Cw=Cw∪{rnew},并将新样例计数加一,进行阈值判定,若则将待定集合Cw中的所有记录标记为潜在异常Cabn=Cabn∪Cw
3)对连续特征取值rnew(xi),计算指数平滑模型的预测误差进行阈值判定,若则将该记录加入潜在异常集合Cabn=Cabn∪{rnew};
4)输出潜在异常集合Cabn
5)结束。
5.根据权利要求1所述的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,其特征在于,其中步骤2的集成学习训练阶段具体过程如下:
1)设定随机森林模型参数n(随机森林模型所包含并行决策树个数)和(随机森林模型每个节点分裂时所选的随机特征子集大小);
2)并行训练每个随机决策树Ti∈{Tj|j≤n},对于Ti,采用有放回的采样算法从给定异常集合CRF上构造出一个等大小的训练集
3)从根节点开始递归构造随机决策树,对于每个节点,从关键特征集合中随机选取大小为的子特征集合其中|F|=m;
4)基于步骤4)中选取的特征子集F,F中每个特征的取值构成一个向量参数θF,求出 &theta; F * = arg max &theta; F I F , 其中
I F = H ( C T i ) - &Sigma; s &Element; { L , R } | C T i s | | C T i | H ( C T i s ) ,
这里L、R分别表示节点的左右两个孩子节点,即是分入某个孩子节点中的潜在异常集合,其中
即信息熵;
5)终止条件判定,如果步骤5)得到的子节点全部属于同一个类别(异常或者正常),则该节点形成叶子,递归终止,否则执行4);
6)将训练得到的随机森林分类模型写入文件系统;
7)结束。
6.根据权利要求1所述的基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,其特征在于,其中步骤3的集成学习分类阶段具体过程如下:
1)从文件系统中读取训练得到的随机森林分类模型;
2)读取统计检测阶段输出的潜在异常集合Cabn
3)遍历潜在异常集合中的每一个记录ri∈Cabn,将每一个ri作为随机森林分类模型中每个随机决策树的输入,随机森林输出一个分类向量
4)分类向量中每个元素取值都是{0,1}中的一个(异常或者正常),随机森林将
l = arg max s &Element; { 0,1 } | { c i = s | i &le; n } |
作为分类器的输出,即如果输出0则标记为正常,如果输出1则标记为异常。
5)结束。
CN201510185479.5A 2015-04-17 2015-04-17 基于指数平滑、集成学习模型的多级异常检测方法 Active CN104794192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510185479.5A CN104794192B (zh) 2015-04-17 2015-04-17 基于指数平滑、集成学习模型的多级异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510185479.5A CN104794192B (zh) 2015-04-17 2015-04-17 基于指数平滑、集成学习模型的多级异常检测方法

Publications (2)

Publication Number Publication Date
CN104794192A true CN104794192A (zh) 2015-07-22
CN104794192B CN104794192B (zh) 2018-06-08

Family

ID=53558984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510185479.5A Active CN104794192B (zh) 2015-04-17 2015-04-17 基于指数平滑、集成学习模型的多级异常检测方法

Country Status (1)

Country Link
CN (1) CN104794192B (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337985A (zh) * 2015-11-19 2016-02-17 北京师范大学 一种攻击检测方法及系统
CN105407103A (zh) * 2015-12-19 2016-03-16 中国人民解放军信息工程大学 一种基于多粒度异常检测的网络威胁评估方法
CN105656886A (zh) * 2015-12-29 2016-06-08 北京邮电大学 一种基于机器学习的网站攻击行为的检测方法及装置
CN106060043A (zh) * 2016-05-31 2016-10-26 北京邮电大学 一种异常流量的检测方法及装置
CN106789912A (zh) * 2016-11-22 2017-05-31 清华大学 基于分类回归决策树的路由器数据平面异常行为检测方法
CN107392644A (zh) * 2017-06-19 2017-11-24 华南理工大学 一种商品购买预测建模方法
CN107391569A (zh) * 2017-06-16 2017-11-24 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
CN107515876A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种特征模型的生成、应用方法及装置
CN107872460A (zh) * 2017-11-10 2018-04-03 重庆邮电大学 一种基于随机森林的无线传感网dos攻击轻量级检测方法
CN108075906A (zh) * 2016-11-08 2018-05-25 上海有云信息技术有限公司 一种用于云计算数据中心的管理方法及系统
CN108109673A (zh) * 2018-01-22 2018-06-01 阿呆科技(北京)有限公司 一种人体感官数据测量系统及方法
CN108268467A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于属性的异常数据检测方法和装置
CN108304315A (zh) * 2017-12-14 2018-07-20 国家计算机网络与信息安全管理中心 一种软件老化异常行为的分类方法及系统
CN108540451A (zh) * 2018-03-13 2018-09-14 北京理工大学 一种用机器学习技术对网络攻击行为进行分类检测的方法
CN108696543A (zh) * 2018-08-24 2018-10-23 海南大学 基于深度森林的分布式反射拒绝服务攻击检测、防御方法
CN108718296A (zh) * 2018-04-27 2018-10-30 广州西麦科技股份有限公司 基于sdn网络的网络管控方法、装置与计算机可读存储介质
CN109447180A (zh) * 2018-11-14 2019-03-08 山东省通信管理局 一种基于大数据和机器学习的电信诈骗上当人发现方法
CN109472610A (zh) * 2018-11-09 2019-03-15 福建省农村信用社联合社 一种银行交易反欺诈方法及系统、设备和存储介质
CN109739846A (zh) * 2018-12-27 2019-05-10 国电南瑞科技股份有限公司 一种电网数据质量分析方法
CN109739904A (zh) * 2018-12-30 2019-05-10 北京城市网邻信息技术有限公司 一种时间序列的标记方法、装置、设备和存储介质
CN109753408A (zh) * 2018-12-11 2019-05-14 江阴逐日信息科技有限公司 一种基于机器学习的流程异常预测方法
CN109767225A (zh) * 2018-12-12 2019-05-17 同济大学 一种基于自学习滑动时间窗口的网络支付欺诈检测方法
CN109978689A (zh) * 2019-03-11 2019-07-05 杭州复杂美科技有限公司 汇率异常检测方法、设备和存储介质
CN110059889A (zh) * 2019-03-28 2019-07-26 国家计算机网络与信息安全管理中心 基于无监督学习的诈骗呼叫序列检测方法
CN110189134A (zh) * 2019-05-17 2019-08-30 同济大学 基于疑似欺诈交易参照序位的网络支付反欺诈系统架构设计方法
WO2019200739A1 (zh) * 2018-04-17 2019-10-24 平安科技(深圳)有限公司 数据欺诈识别方法、装置、计算机设备和存储介质
CN110520874A (zh) * 2017-03-31 2019-11-29 H2O人工智能公司 基于时间的全体机器学习模型
CN110785816A (zh) * 2017-06-29 2020-02-11 豪夫迈·罗氏有限公司 用于检测传感器的操作状态的方法和状态机系统
CN110971488A (zh) * 2019-11-27 2020-04-07 软通动力信息技术有限公司 一种数据处理方法、装置、服务器和存储介质
CN111126622A (zh) * 2019-12-19 2020-05-08 中国银联股份有限公司 一种数据异常检测方法与装置
CN111709790A (zh) * 2020-06-19 2020-09-25 广东电网有限责任公司 一种日前市场异常电价辨识方法、装置、设备和存储介质
US10885469B2 (en) 2017-10-02 2021-01-05 Cisco Technology, Inc. Scalable training of random forests for high precise malware detection
CN113516189A (zh) * 2021-07-16 2021-10-19 广西师范大学 基于两阶段随机森林算法的网站恶意用户预测方法
CN113704409A (zh) * 2021-08-31 2021-11-26 上海师范大学 一种基于级联森林的虚假招聘信息检测方法
CN115760484A (zh) * 2022-12-07 2023-03-07 湖北华中电力科技开发有限责任公司 一种配电台区隐患辨识能力提升方法、装置、系统及存储介质
CN116303626A (zh) * 2023-05-18 2023-06-23 西南石油大学 一种基于特征优化和在线学习的固井泵压预测方法
US12106319B2 (en) 2021-11-19 2024-10-01 Target Brands, Inc. Hierarchical demand forecasting modeling

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408769A (zh) * 2008-11-21 2009-04-15 冶金自动化研究设计院 一种基于乘积arima模型的在线能源预测系统及方法
US20130282896A1 (en) * 2011-08-27 2013-10-24 At&T Intellectual Property I, L.P. Passive And Comprehensive Hierarchical Anomaly Detection System And Method
CN103487411A (zh) * 2013-09-01 2014-01-01 西北大学 一种随机森林算法结合激光诱导击穿光谱识别钢材牌号的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408769A (zh) * 2008-11-21 2009-04-15 冶金自动化研究设计院 一种基于乘积arima模型的在线能源预测系统及方法
US20130282896A1 (en) * 2011-08-27 2013-10-24 At&T Intellectual Property I, L.P. Passive And Comprehensive Hierarchical Anomaly Detection System And Method
CN103487411A (zh) * 2013-09-01 2014-01-01 西北大学 一种随机森林算法结合激光诱导击穿光谱识别钢材牌号的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁文彬等: ""基于决策树分类的网络异常流基于决策树分类的网络异常流检测与过滤"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
刘仁山等: ""基于时间特征的网络流量异常检测"", 《辽宁工程技术大学学报(自然科学版)》 *

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337985A (zh) * 2015-11-19 2016-02-17 北京师范大学 一种攻击检测方法及系统
CN105407103B (zh) * 2015-12-19 2018-06-29 中国人民解放军信息工程大学 一种基于多粒度异常检测的网络威胁评估方法
CN105407103A (zh) * 2015-12-19 2016-03-16 中国人民解放军信息工程大学 一种基于多粒度异常检测的网络威胁评估方法
CN105656886A (zh) * 2015-12-29 2016-06-08 北京邮电大学 一种基于机器学习的网站攻击行为的检测方法及装置
CN106060043A (zh) * 2016-05-31 2016-10-26 北京邮电大学 一种异常流量的检测方法及装置
CN106060043B (zh) * 2016-05-31 2019-06-07 北京邮电大学 一种异常流量的检测方法及装置
CN107515876A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种特征模型的生成、应用方法及装置
CN107515876B (zh) * 2016-06-16 2020-12-04 阿里巴巴集团控股有限公司 一种特征模型的生成、应用方法及装置
CN108075906A (zh) * 2016-11-08 2018-05-25 上海有云信息技术有限公司 一种用于云计算数据中心的管理方法及系统
CN106789912A (zh) * 2016-11-22 2017-05-31 清华大学 基于分类回归决策树的路由器数据平面异常行为检测方法
CN108268467A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于属性的异常数据检测方法和装置
CN108268467B (zh) * 2016-12-30 2021-08-06 广东精点数据科技股份有限公司 一种基于属性的异常数据检测方法和装置
US12045733B2 (en) 2017-03-31 2024-07-23 H2O.Ai Inc. Time-based ensemble machine learning model
CN110520874A (zh) * 2017-03-31 2019-11-29 H2O人工智能公司 基于时间的全体机器学习模型
CN110520874B (zh) * 2017-03-31 2023-11-21 H2O人工智能公司 基于时间的全体机器学习模型
US11100220B2 (en) 2017-06-16 2021-08-24 Advanced New Technologies Co., Ltd. Data type recognition, model training and risk recognition methods, apparatuses and devices
WO2018228428A1 (zh) * 2017-06-16 2018-12-20 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
US11113394B2 (en) * 2017-06-16 2021-09-07 Advanced New Technologies Co., Ltd. Data type recognition, model training and risk recognition methods, apparatuses and devices
CN107391569A (zh) * 2017-06-16 2017-11-24 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
CN107391569B (zh) * 2017-06-16 2020-09-15 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
CN107392644A (zh) * 2017-06-19 2017-11-24 华南理工大学 一种商品购买预测建模方法
CN110785816A (zh) * 2017-06-29 2020-02-11 豪夫迈·罗氏有限公司 用于检测传感器的操作状态的方法和状态机系统
US10885469B2 (en) 2017-10-02 2021-01-05 Cisco Technology, Inc. Scalable training of random forests for high precise malware detection
CN107872460A (zh) * 2017-11-10 2018-04-03 重庆邮电大学 一种基于随机森林的无线传感网dos攻击轻量级检测方法
CN107872460B (zh) * 2017-11-10 2019-09-24 重庆邮电大学 一种基于随机森林的无线传感网DoS攻击轻量级检测方法
CN108304315A (zh) * 2017-12-14 2018-07-20 国家计算机网络与信息安全管理中心 一种软件老化异常行为的分类方法及系统
CN108109673A (zh) * 2018-01-22 2018-06-01 阿呆科技(北京)有限公司 一种人体感官数据测量系统及方法
WO2019141017A1 (zh) * 2018-01-22 2019-07-25 阿呆科技(北京)有限公司 一种人体感官数据测量系统及方法
CN108540451A (zh) * 2018-03-13 2018-09-14 北京理工大学 一种用机器学习技术对网络攻击行为进行分类检测的方法
WO2019200739A1 (zh) * 2018-04-17 2019-10-24 平安科技(深圳)有限公司 数据欺诈识别方法、装置、计算机设备和存储介质
CN108718296A (zh) * 2018-04-27 2018-10-30 广州西麦科技股份有限公司 基于sdn网络的网络管控方法、装置与计算机可读存储介质
CN108696543B (zh) * 2018-08-24 2021-01-05 海南大学 基于深度森林的分布式反射拒绝服务攻击检测、防御方法
CN108696543A (zh) * 2018-08-24 2018-10-23 海南大学 基于深度森林的分布式反射拒绝服务攻击检测、防御方法
CN109472610A (zh) * 2018-11-09 2019-03-15 福建省农村信用社联合社 一种银行交易反欺诈方法及系统、设备和存储介质
CN109447180A (zh) * 2018-11-14 2019-03-08 山东省通信管理局 一种基于大数据和机器学习的电信诈骗上当人发现方法
CN109753408A (zh) * 2018-12-11 2019-05-14 江阴逐日信息科技有限公司 一种基于机器学习的流程异常预测方法
CN109753408B (zh) * 2018-12-11 2022-03-25 江阴逐日信息科技有限公司 一种基于机器学习的流程异常预测方法
CN109767225B (zh) * 2018-12-12 2022-12-27 同济大学 一种基于自学习滑动时间窗口的网络支付欺诈检测方法
CN109767225A (zh) * 2018-12-12 2019-05-17 同济大学 一种基于自学习滑动时间窗口的网络支付欺诈检测方法
CN109739846A (zh) * 2018-12-27 2019-05-10 国电南瑞科技股份有限公司 一种电网数据质量分析方法
CN109739904A (zh) * 2018-12-30 2019-05-10 北京城市网邻信息技术有限公司 一种时间序列的标记方法、装置、设备和存储介质
CN109739904B (zh) * 2018-12-30 2021-08-10 北京城市网邻信息技术有限公司 一种时间序列的标记方法、装置、设备和存储介质
CN109978689A (zh) * 2019-03-11 2019-07-05 杭州复杂美科技有限公司 汇率异常检测方法、设备和存储介质
CN110059889B (zh) * 2019-03-28 2021-05-28 国家计算机网络与信息安全管理中心 基于无监督学习的诈骗呼叫序列检测方法
CN110059889A (zh) * 2019-03-28 2019-07-26 国家计算机网络与信息安全管理中心 基于无监督学习的诈骗呼叫序列检测方法
CN110189134A (zh) * 2019-05-17 2019-08-30 同济大学 基于疑似欺诈交易参照序位的网络支付反欺诈系统架构设计方法
CN110971488A (zh) * 2019-11-27 2020-04-07 软通动力信息技术有限公司 一种数据处理方法、装置、服务器和存储介质
CN111126622B (zh) * 2019-12-19 2023-11-03 中国银联股份有限公司 一种数据异常检测方法与装置
CN111126622A (zh) * 2019-12-19 2020-05-08 中国银联股份有限公司 一种数据异常检测方法与装置
CN111709790A (zh) * 2020-06-19 2020-09-25 广东电网有限责任公司 一种日前市场异常电价辨识方法、装置、设备和存储介质
CN113516189A (zh) * 2021-07-16 2021-10-19 广西师范大学 基于两阶段随机森林算法的网站恶意用户预测方法
CN113704409B (zh) * 2021-08-31 2023-08-04 上海师范大学 一种基于级联森林的虚假招聘信息检测方法
CN113704409A (zh) * 2021-08-31 2021-11-26 上海师范大学 一种基于级联森林的虚假招聘信息检测方法
US12106319B2 (en) 2021-11-19 2024-10-01 Target Brands, Inc. Hierarchical demand forecasting modeling
CN115760484A (zh) * 2022-12-07 2023-03-07 湖北华中电力科技开发有限责任公司 一种配电台区隐患辨识能力提升方法、装置、系统及存储介质
CN116303626A (zh) * 2023-05-18 2023-06-23 西南石油大学 一种基于特征优化和在线学习的固井泵压预测方法
CN116303626B (zh) * 2023-05-18 2023-08-04 西南石油大学 一种基于特征优化和在线学习的固井泵压预测方法

Also Published As

Publication number Publication date
CN104794192B (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
CN104794192A (zh) 基于指数平滑、集成学习模型的多级异常检测方法
Wu et al. Net: Degree-specific graph neural networks for node and graph classification
Wang et al. Heterogeneous network representation learning approach for ethereum identity identification
CN101645069B (zh) 一种多模式匹配中正则表达式存储压缩方法
CN107766883A (zh) 一种基于加权决策树的优化随机森林分类方法及系统
CN106600115A (zh) 一种企业信息系统运维智能分析方法
CN106228398A (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN108768986A (zh) 一种加密流量分类方法及服务器、计算机可读存储介质
Mao et al. Anomaly detection for power consumption data based on isolated forest
CN111538741B (zh) 一种面向警情大数据的深度学习分析方法及系统
WO2019172848A1 (en) Method and apparatus for predicting occurrence of an event to facilitate asset maintenance
Zhang et al. CNN and LSTM based encoder-decoder for anomaly detection in multivariate time series
CN113657896A (zh) 一种基于图神经网络的区块链交易拓扑图分析方法和装置
CN106649527A (zh) 基于Spark Streaming的广告点击异常检测系统及检测方法
CN114372803A (zh) 一种基于交易图谱的快速反洗钱检测方法
CN106251241A (zh) 一种基于特征选择改进的LR‑Bagging算法
Zhang Financial data anomaly detection method based on decision tree and random forest algorithm
CN117082118A (zh) 基于数据推导及端口预测的网络连接方法
CN118070201A (zh) 基于区块链的第三方支付异常交易检测方法
Sun et al. Graph community infomax
Zhang et al. A hierarchical clustering strategy of processing class imbalance and its application in fraud detection
CN114298712A (zh) 一种加密货币异常交易检测方法及应用
CN110650130B (zh) 基于多分类GoogLeNet-LSTM模型的工控入侵检测方法
CN115438751A (zh) 一种基于图神经网络的区块链钓鱼诈骗识别的方法
CN115965466A (zh) 一种基于子图对比的以太坊账户身份推理方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant