CN115423027A - 一种针对复杂数据流的异常检测集成方法及系统 - Google Patents

一种针对复杂数据流的异常检测集成方法及系统 Download PDF

Info

Publication number
CN115423027A
CN115423027A CN202211131399.8A CN202211131399A CN115423027A CN 115423027 A CN115423027 A CN 115423027A CN 202211131399 A CN202211131399 A CN 202211131399A CN 115423027 A CN115423027 A CN 115423027A
Authority
CN
China
Prior art keywords
detector
time
anomaly
instances
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211131399.8A
Other languages
English (en)
Inventor
袁圆
倪葎
金澈清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202211131399.8A priority Critical patent/CN115423027A/zh
Publication of CN115423027A publication Critical patent/CN115423027A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Technology Law (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种针对复杂数据流的异常检测集成方法,所述异常检测集成方法以有监督分类器作为基学习器,结合stacking集成思想对原始数据进行压缩。在检测器集成部分同时选择离线检测器和在线检测器,使模型兼具稳定性与可塑性,其中自适应权重更新机制使模型可应对概念漂移现象。最后设计分层重放机制应对增量学习过程中的灾难性遗忘,同时结合过采样思想,改善类不平衡问题。本发明还公开了实现上述异常检测集成方法的检测系统,包括特征压缩模块、检测器集成模块、范例集构建模块、自适应权重更新模块。

Description

一种针对复杂数据流的异常检测集成方法及系统
技术领域
本发明属于数据挖掘技术领域,涉及一种针对复杂数据流的异常检测集成方法及系统。
背景技术
异常检测是数据挖掘领域的一个重要研究方向,它的目的是将少数异常实例与大量正常实例区分开来。异常检测的应用领域非常广泛,例如,随着线上交易的普及,提供线上支付的公司通常会高度重视风险控制,希望能够及时捕捉到刷分、赌博、欺诈、被动销赃等异常交易行为。异常交易行为虽然发生频率很低,但通常会带来很大的负面影响,需要及时干预以避免高昂的损失,通过异常检测模型及时抛出异常记录就是很好的处理手段。
根据可用数据,当前异常检测算法可被分为两类。一类是离线检测器,其研究对象是静态数据。离线检测器在训练时需要全部数据,这种训练方式能够最大程度集成所有数据信息,但在面对海量数据时,模型训练需要高昂的时间和内存资源。另一类是在线检测器,其研究对象是常规数据流,常规数据流中的实例按固定的时间间隔逐个到达。在线模型在每个时间点基于新到达的实例对模型进行更新调整。由于每次更新时可用信息过少,这类算法无法保证最终得到的模型能达到最优结构,这使得在线模型的检测性能偏低。
目前在工业场景中静态数据与常规数据流都不再适用,工业场景中当前的新型数据结构称为复杂数据流,它在每个时间点都会有一批实例同时到达。复杂数据流存在三个重要特征:
1)高维且稀疏;
2)数据增长规模多变。每个时间点都会有一批数据同时到达,且每次到达的实例数量是不断变化的;
3)异常比例极低。现有异常检测技术主要应对静态数据与常规数据流,都无法在复杂数据流上达到预期效果。
综上所述,适用于复杂数据流的高效异常检测技术尚未出现。
发明内容
为了解决现有技术存在的不足,本发明的目的是提供一种针对复杂数据流的异常检测集成方法。具体地,本发明提供了一种基于集成学习,结合stacking思想对原始数据进行特征压缩,集成离线检测器与在线检测器,使算法兼具稳定性与可塑性,同时结合分层重放机制与自适应权重更新机制,得到一个高效准确可抵抗概念漂移的用于复杂数据流异常检测的方法。
所述集成学习是指通过构建并结合多个机器学习器(基学习器)来完成学习任务。集成学习可以用于分类问题、回归问题、特征选取、异常点检测等等。通过一定的结合策略,集成若干个个体弱学习器,就可以最终形成一个强学习器,以达到博采众长的目的。
所述stacking是指将一系列模型(也称基模型)的输出结果作为新特征输入到其他模型,实现模型的层叠,即第一层的模型输出作为第二层模型的输入,第二层模型的输出作为第三层模型的输入,依次类推,最后一层模型输出的结果作为最终结果。
所述特征压缩是将高维数据转化为低维数据的过程,在此过程中基于原有数据创造新的变量,在保留数据信息的前提下,尽可能降低数据的维度。
所述分层重放机制对不同类别的历史样本采取不同规则进行筛选,而后以原始格式存储筛选所得范例样本。这些范例样本在模型学习新样本时,被重新用作模型输入以减轻遗忘。
所述自适应权重更新机制是指在获取当前时刻样本真实标签后,计算检测器集成部分的各个检测器的性能,提高那些前一时刻分类错误率小的检测器权重,降低分类错误率大的弱检测器权重。
所述概率漂移是指目标变量的统计特征随着时间的推移以不可预见的方式变化的现象。
实现本发明目的的具体技术方案是:
本发明提供了一种针对复杂数据流的异常检测集成方法,包含以下步骤:
输入t-1时刻的范例集εt-1和t时刻的实例集
Figure BDA0003850448070000021
S1:特征压缩:
使用有监督分类器对合并后的t-1时刻的范例集和t时刻到达的实例集
Figure BDA0003850448070000022
进行压缩,获得压缩后的数据;
S2:检测器集成:
使用步骤S1中获得的压缩后的数据,同时训练离线检测器与在线检测器;
S3:分层重放机制:
对正常实例与异常实例采取不同筛选规则进行分层筛选,构建范例集;
S4:异常分数预测及自适应权重更新:
得到更新完毕的模型后,可对t+1时刻到达的实例进行预测。在获得t+1时刻的所有实例的标签后,更新不同检测器的权重,更新检测模型。
为优化上述技术方案,采取的具体措施还包括:
给出符号定义:复杂数据流中每个实例表示为d=(x,y)',其中x为p维特征向量,y为实例的二分类标签(正常实例、异常实例)。在t时刻到达的实例集表示为
Figure BDA0003850448070000023
其中
Figure BDA0003850448070000024
表示
Figure BDA0003850448070000025
中所有正常实例,
Figure BDA0003850448070000026
表示
Figure BDA0003850448070000027
中所有异常实例。
本发明所述的异常检测集成方法配备了四个组件:特征压缩部分、检测器集成部分、分层重放机制和自适应权重更新机制。
特征压缩部分由m个有监督分类器构成,其中t时刻第j(j=1,2,···,m)个有监督分类器表示为
Figure BDA0003850448070000031
由实例d=(x,y)'经压缩后的数据表示为
Figure BDA0003850448070000032
其中z为2m维特征向量,y为实例的二分类标签。检测器集成部分由noff个离线检测器和non个在线检测器构成,其中t时刻第j(j=1,2,···,noff+non)个检测器表示为
Figure BDA0003850448070000033
t时刻第j(j=1,2,···,noff+non)个检测器的权重表示为
Figure BDA0003850448070000034
第j(j=1,2,···,noff+non)个检测器对t+1时刻到达的实例进行检测,输出的异常分数表示为
Figure BDA0003850448070000035
最终所有检测器对t+1时刻到达的实例的加权异常分数为
Figure BDA0003850448070000036
分层重放机制最重要的部分则是构建范例集,t时刻的范例集表示为εt,范例集εt是以t-1时刻的范例集εt-1与t时刻到达的实例集
Figure BDA0003850448070000037
作为候选样本集,对候选样本集中的正常样本和异常样本采取不同的筛选规则,分层筛选所得,其中
Figure BDA0003850448070000038
表示εt中所有正常范例,
Figure BDA0003850448070000039
表示εt中所有异常范例。分层重放机制从抵抗灾难性遗忘和缓解样本不平衡两方面提高了模型精度:对于正常样本,选择在特征空间中最接近类均值的k个优质样本,在保留历史样本信息的同时控制了内存资源消耗,对于异常样本则选择全部保留,一是由于异常样本数量很少,全部保留也不会对内存产生威胁,二是随着异常样本的累积,可以有效缓解样本不平衡现象,此处借鉴了过采样思想;
步骤S1中,合并t-1时刻的范例集和t时刻到达的实例集,
Figure BDA00038504480700000310
作为训练集,训练m个有监督分类器
Figure BDA00038504480700000311
j=1,···,m,此处所有训练数据均为原始维度,实例d=(x,y)'。训练完毕后,利用第j个分类器
Figure BDA00038504480700000318
得到后验概率,分别为实例d为异常样本的概率
Figure BDA00038504480700000312
和实例d为正常样本的概率
Figure BDA00038504480700000313
分别记为
Figure BDA00038504480700000314
Figure BDA00038504480700000315
j=1,2,···,m;
每个分类器获得2维后验概率,分别是实例为正常样本的概率和实例为异常样本的概率,故合并m个分类器的后验概率可得到2m维特征向量,即
Figure BDA00038504480700000316
最终获得压缩后的数据表示
Figure BDA00038504480700000317
上述步骤S2包括:
步骤2.1)训练离线异常检测器
离线异常检测器的训练一般需要全部实例,但这种传统的训练方式并不契合不断增长的复杂数据流。由于复杂数据流随着时间的推移规模不断扩大,很容易导致离线异常检测器的训练时间及成本过于高昂,因此本发明选择将合并后的t-1时刻的范例集和t时刻到达的实例集
Figure BDA00038504480700000418
作为训练集,而非t时刻之前的所有实例
Figure BDA0003850448070000041
εt-1只包含了
Figure BDA0003850448070000042
中全部异常实例,和最接近正常类质心的k个正常实例,
Figure BDA0003850448070000043
中大多数正常实例被排除在训练集外。离线异常检测器训练集由t-1时刻的范例集εt-1和t时刻到达的实例集
Figure BDA0003850448070000044
构成,即
Figure BDA0003850448070000045
训练集在经过特征压缩后,训练noff个离线异常检测器
Figure BDA0003850448070000046
j=1,···,noff。在工程实现时,noff通常设定为1或2。有监督或无监督异常检测技术都可以作为离线异常检测器使用。
步骤2.2)训练在线异常检测器
大多数现有的在线异常检测器,都是为一次只有一个实例到达的常规流数据而设计,其特点是模型可保留先前的数据流中的信息。在线检测器在t时刻的更新流程如下:将当前时刻到达的实例集
Figure BDA0003850448070000047
与上一时刻的范例集εt-1同时作为训练集,使训练集中的实例逐个进入模型,不断更新每个在线异常检测器中的参数。在线异常检测器可以是半空间树,快速决策树(VFDT),极端快速决策树(EFDT)等采取增量更新模式的检测器。以半空间树为例,检测器在训练之前,提前构建了原始特征空间的随机树结构。接下来各实例逐个到达不断更新半空间树中每个节点的质量,直到更新至
Figure BDA0003850448070000048
的最后一个实例。与训练离线检测器类似,也可以训练多个在线异常检测器,记为
Figure BDA0003850448070000049
j=noff+1,noff+2,···,noff+non
步骤2.3)计算各检测器的异常分数并加权
第j个检测器
Figure BDA00038504480700000410
对t+1时刻到达实例进行预测,异常分数表示为
Figure BDA00038504480700000411
所有检测器对t+1时刻到达的实例的加权异常分数为
Figure BDA00038504480700000412
其中
Figure BDA00038504480700000413
为离线异常检测器或在线异常检测器,
Figure BDA00038504480700000414
为离线异常检测器或在线异常检测器的权重;
上述步骤S3包括:
步骤3.1)构建异常范例集
对于异常实例,保留t时刻之前的所有异常实例,即
Figure BDA00038504480700000415
步骤3.2)构建正常范例集
对于正常实例,选择具有代表性的实例构建范例集。假设范例集最大可为k,当k大于t-1时刻的正常范例集
Figure BDA00038504480700000416
和t时刻到达的所有正常实例
Figure BDA00038504480700000417
的数量之和时,则所有正常实例都被保留。否则,需要对这些实例进行筛选,筛选规则如下。首先,确定这些实例的均值向量,即
Figure BDA0003850448070000051
其中|A|是集合A中的元素数。然后,计算每个候选实例与均值向量
Figure BDA0003850448070000052
之间的距离,并从小到大排序。最后,距离均值向量最近的前k个实例被挑选为当前正常范例集
Figure BDA0003850448070000053
的元素。
步骤3.3)合并完整范例集
异常范例集
Figure BDA00038504480700000519
和正常范例集
Figure BDA0003850448070000054
合并构成完整范例集εt,完整范例集εt在t+1时刻与到达的实例集
Figure BDA0003850448070000055
合并,共同构成特征压缩部分的训练集。
Figure BDA0003850448070000056
上述步骤S4包括:
步骤4.1)在t+1时刻前,已经训练了m个分类器
Figure BDA0003850448070000057
和noff+non个检测器
Figure BDA0003850448070000058
一旦未标记的实例
Figure BDA0003850448070000059
到达(目前标签y未知),可以通过以下步骤对其进行预测。首先,使用分类器
Figure BDA00038504480700000510
t=1,···,m对未标记实例进行预测,得到后验概率z=(f1(x),1-f1(x),···,fm(x),1-fm(x))作为新特征。然后,使用训练好的离线检测器和/或在线检测器对压缩后的数据进行检测,每个检测器输出其异常分数。各检测器输出的异常分数分别表示为
Figure BDA00038504480700000511
j=1,2,···,noff+non。接下来,计算加权得分
Figure BDA00038504480700000512
其中
Figure BDA00038504480700000513
是第j个检测器在t时刻的权重,各检测器权重之和为1。最后给定一个阈值c,通常是之前所有实例的异常比例,如果实例加权分数st+1大于c,模型判定该实例异常;否则,认为它是正常的。
步骤4.2)在模型初始化时,每个检测器都被分配了相同的权重。在获得t+1时刻的所有实例的标签后,可更新不同检测器的权重。假设得到预测实例的标签为y,计算得到的第j个检测器的得分为
Figure BDA00038504480700000514
每个检测器权重更新为
Figure BDA00038504480700000515
Figure BDA00038504480700000516
为交叉熵损失函数,用于衡量真实标签y与异常得分
Figure BDA00038504480700000517
之间的差异。
Figure BDA00038504480700000518
最后,将各检测器权重进行归一化
Figure BDA0003850448070000061
更新模型。
本发明还提供了一种实现上述检测集成方法的检测系统,所述检测系统包括特征压缩模块、检测器集成模块、范例集构建模块、自适应权重更新模块。
所述特征压缩模块由2个有监督分类器构成,分别为随机森林
Figure BDA0003850448070000062
和自适应提升森林
Figure BDA0003850448070000063
随机森林
Figure BDA0003850448070000064
和自适应提升森林
Figure BDA0003850448070000065
都以合并后的t-1时刻的范例集和t时刻到达的实例集,
Figure BDA0003850448070000066
作为其训练集,此时所有训练实例均为原始维度d=(x,y)'。之后分别使用训练完毕的随机森林
Figure BDA0003850448070000067
和自适应提升森林
Figure BDA0003850448070000068
对训练集
Figure BDA0003850448070000069
中所有实例进行预测。以随机森林
Figure BDA00038504480700000610
为例,随机森林
Figure BDA00038504480700000611
可预测每个实例d属于异常类别的概率
Figure BDA00038504480700000612
和属于正常类别的概率
Figure BDA00038504480700000613
将这2维后验概率作为新特征,分别记为
Figure BDA00038504480700000614
Figure BDA00038504480700000615
同理自适应提升森林
Figure BDA00038504480700000616
对每个实例d进行预测,也可获得2维新特征,分别记为
Figure BDA00038504480700000617
Figure BDA00038504480700000618
合并两个分类器的后验概率后可得到4维特征向量,即
Figure BDA00038504480700000619
最终获得压缩后的数据表示
Figure BDA00038504480700000620
所述检测器集成模块由一个离线异常检测器孤立森林
Figure BDA00038504480700000621
和一个在线异常检测器半空间树
Figure BDA00038504480700000622
构成。对于离线异常检测器孤立森林,在t时刻系统会舍弃t-1时刻的孤立森林
Figure BDA00038504480700000623
使用合并的t-1时刻的范例集和t时刻到达的实例集
Figure BDA00038504480700000624
作为训练集,重新训练得到全新的孤立森林
Figure BDA00038504480700000625
此时所有训练实例均为压缩后的数据
Figure BDA00038504480700000626
对于在线异常检测器半空间树
Figure BDA00038504480700000627
系统会保留t-1时刻的半空间树
Figure BDA00038504480700000628
使用
Figure BDA00038504480700000629
中的实例不断更新半空间树
Figure BDA00038504480700000630
中每个节点的参数,直到更新至
Figure BDA00038504480700000631
的最后一个实例,得到更新完毕的
Figure BDA00038504480700000632
在t+1时刻,实例集
Figure BDA00038504480700000633
到达后,使用训练完毕离线异常检测器孤立森林
Figure BDA00038504480700000634
和更新完毕的在线异常检测器半空间树
Figure BDA00038504480700000635
分别对
Figure BDA00038504480700000636
中各实例进行预测(预测前需对
Figure BDA00038504480700000637
中各实例进行特征压缩),得到孤立森林
Figure BDA00038504480700000638
预测异常分数
Figure BDA00038504480700000639
和半空间树
Figure BDA00038504480700000640
预测异常分数
Figure BDA00038504480700000641
两个检测器的加权异常分数为
Figure BDA00038504480700000642
其中
Figure BDA00038504480700000643
为孤立森林的权重,
Figure BDA00038504480700000644
为半空间树的权重。
所述范例集构建模块采取分层思想,对正常实例和异常实例采取不同的筛选规则。当t时刻数据集
Figure BDA00038504480700000645
到达后,将其与t-1时刻范例集εt-1合并,得到完整的候选实例集
Figure BDA00038504480700000646
对于候选实例集
Figure BDA00038504480700000647
中的异常实例,选择全部保留至t时刻范例集εt中。按照此规则,数据流中所有异常实例都会被保存下来,即
Figure BDA00038504480700000648
为范例集εt中所有异常实例。对于候选实例集
Figure BDA00038504480700000649
中的正常实例,只保留最接近均值向量的k个实例,作为优质实例入选范例集εt。首先计算正常实例的均值向量
Figure BDA0003850448070000071
而后计算
Figure BDA0003850448070000072
中每个候选实例与均值向量
Figure BDA0003850448070000073
之间的距离,距离
Figure BDA0003850448070000074
最近的前k个实例被挑选为正常范例集
Figure BDA0003850448070000075
最后将异常范例集
Figure BDA0003850448070000076
和正常范例集
Figure BDA0003850448070000077
合并后得到t时刻完整范例集εt,即
Figure BDA0003850448070000078
t时刻完整范例集εt会在t+1时刻作为特征压缩部分训练集的一部分,也会在构造εt+1作为候选实例集的一部分。
所述自适应权重更新模块是通过损失函数评价检测器集成模块中离线异常检测器孤立森林
Figure BDA0003850448070000079
和在线异常检测器半空间树
Figure BDA00038504480700000710
的准确性,而后通过对损失值进行变换后得到更新后的权重值,以达到提高前一时刻分类错误率小的分类器权重,降低分类错误率大的弱分类器权重的效果,具体计算过程如下。在t+1时刻实例集
Figure BDA00038504480700000711
到达,此时
Figure BDA00038504480700000712
中各实例处于未标记的状态
Figure BDA00038504480700000713
到达(目前标签y未知),首先使用特征压缩模块中随机森林
Figure BDA00038504480700000714
和自适应提升森林
Figure BDA00038504480700000715
Figure BDA00038504480700000716
中实例进行特征压缩,得到压缩后数据z=(f1(x),1-f1(x),f2(x),1-f2(x))。再使用检测器集成模块中离线异常检测器孤立森林
Figure BDA00038504480700000717
和在线异常检测器半空间树
Figure BDA00038504480700000718
对压缩后数据进行检测,获取孤立森林
Figure BDA00038504480700000719
异常分数
Figure BDA00038504480700000720
半空间树异常分数
Figure BDA00038504480700000721
对两个异常分数加权求和得最终预测结果
Figure BDA00038504480700000722
(两个检测器权重初始化为0.5,即
Figure BDA00038504480700000723
)。在获取实例集
Figure BDA00038504480700000724
中各实例标签y后,分别对两个检测器权重进行更新:
Figure BDA00038504480700000725
Figure BDA00038504480700000726
Figure BDA00038504480700000727
Figure BDA00038504480700000728
其中
Figure BDA00038504480700000729
为交叉熵损失函数,用于衡量真实标签y与异常得分
Figure BDA00038504480700000730
之间的差异。
Figure BDA00038504480700000731
本发明的有益效果包括:本发明在复杂数据流的异常检测任务上,相比于现有的检测模型,特征压缩部分降低了模型训练开销,离线检测器与在线检测器的集成使模型在稳定性与可塑性上都具备竞争力,同时分层重放和自适应权重更新机制增强了模型抵抗灾难性遗忘和概念漂移的能力。本发明方法相对于现有方法,在准确率与召回率上均提升了数十个百分点。
附图说明
图1为本发明异常检测训练及预测过程示意图;
图2为本发明模型构建流程图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明对复杂数据流采取增量学习的方式进行训练,使用t时刻更新所得模型,对t+1时刻到达实例集进行检测。具体的更新流程:首先使用特征压缩部分的随机森林
Figure BDA0003850448070000081
和自适应提升森林
Figure BDA0003850448070000082
对原始特征空间进行压缩,而后使用压缩后的数据分别训练离线异常检测器孤立森林
Figure BDA0003850448070000083
和在线异常检测器半空间树
Figure BDA0003850448070000084
接着以t-1时刻范例集εt-1和t时刻
Figure BDA0003850448070000085
为候选实例,分层筛选得到更新后的范例集εt。t+1时刻实例到达后,使用更新完毕的模型进行检测,在获得t+1时刻的所有实例的标签后,对离线异常检测器孤立森林
Figure BDA0003850448070000086
和在线异常检测器半空间树
Figure BDA0003850448070000087
的权重进行更新。
具体地,本发明提出了一种针对复杂数据流的异常检测集成方法,所述异常检测集成方法是一种基于集成学习,结合stacking思想对原始数据进行特征压缩,集成离线检测器与在线检测器,使算法兼具稳定性与可塑性,同时结合分层重放机制与自适应权重更新机制,获得的一个高效准确可抵抗概念漂移的用于复杂数据流异常检测的方法。包括如下步骤:
S1:特征压缩:输入t-1时刻的范例集εt-1和t时刻的实例集
Figure BDA0003850448070000088
使用有监督分类器对合并后的t-1时刻的范例集和t时刻到达的实例集
Figure BDA0003850448070000089
进行压缩,获得压缩后的数据;
S2:检测器集成:使用步骤S1中获得的压缩后的数据,同时训练离线检测器与在线检测器;
S3:分层重放机制:对正常实例与异常实例采取不同筛选规则进行分层筛选,构建范例集;
S4:异常分数预测及自适应权重更新:模型中参数更新完成后,对t+1时刻到达的实例进行预测;在获得t+1时刻的所有实例的标签后,更新不同检测器的权重,并更新检测模型。
通过以下具体实施例对本发明作进一步的详细说明。
实施例
以调查企业日常支付交易中是否存在欺诈行为为例。从一家线上支付公司收集了2021年8月某地区餐饮行业1个月的交易数据,使用本发明实现的检测系统检测各商户在日常支付交易中是否存在欺诈活动,其中包括套现、刷分、洗钱等。商户每日交易记录包括620维特征,如每日交易数量、每日活跃交易比例、错误交易数量等。
参阅图2,按下述步骤,以天为时间单位(t)对模型进行增量更新:
S1:以第t天数据
Figure BDA0003850448070000091
及第t-1天的范例集εt-1为训练集,对特征压缩部分的随机森林
Figure BDA0003850448070000092
和自适应提升森林
Figure BDA0003850448070000093
进行训练,而后使用训练完毕的分类器对训练集进行预测,拼接两分类器的后验概率,得4维压缩特征z=(f1(x),1-f1(x),f2(x),1-f2(x)),如[0.82,0.18,0.85,0.15];
S2:使用压缩后的训练集
Figure BDA0003850448070000094
分别训练离线异常检测器孤立森林
Figure BDA0003850448070000095
和在线异常检测器半空间树
Figure BDA0003850448070000096
S3:以第t天数据
Figure BDA0003850448070000097
及第t-1天的范例集εt-1为候选实例,筛选更新范例集。
S4:使用S2步所得两个异常检测模型,
Figure BDA0003850448070000098
对第t+1天到达实例进行检测,得加权异常分数
Figure BDA0003850448070000099
以一正常实例为例,孤立森林
Figure BDA00038504480700000910
的预测异常分数为
Figure BDA00038504480700000911
Figure BDA00038504480700000912
半空间树
Figure BDA00038504480700000913
的预测异常分数为
Figure BDA00038504480700000914
在t时刻孤立森林
Figure BDA00038504480700000915
的权重为
Figure BDA00038504480700000916
半空间树
Figure BDA00038504480700000917
的权重为
Figure BDA00038504480700000918
故最终加权异常分数为st+1=0.4*0.11+0.6*0.28=0.212,异常分数st+1小于阈值c=0.5,故判为正常实例。在获取第t+1天所有实例的标签后,使用交叉熵损失函数衡量孤立森林
Figure BDA00038504480700000919
和半空间树
Figure BDA00038504480700000920
检测性能,并以检测器的检测性能为基准更新各检测器的权重,使检测性能优秀的检测器获得更高的权重。
后续将本发明实现的检测系统(SADEN)结果与半空间树(HS-Trees),应对变化特征数据流的实时异常检测器(xStream),基于随机散列的子空间异常检测器(RS-Hash)进行对比,以操作特性曲线下面积(AUROC)和精确召回曲线下面积(AUPRC)为衡量指标,报告了在8月观察到的所有实例的预测结果,结果见表1。
操作特性曲线下面积(AUROC)的值越大,模型效果越好;精确召回曲线下面积(AUPRC)的值越大,模型效果越好。
本发明实现的检测系统(SADEN)在精度和召回率上都优于与半空间树(HS-Trees),应对变化特征数据流的实时异常检测器(xStream),基于随机散列的子空间异常检测器(RS-Hash)。其中本发明实现的检测系统(SADEN)在指标AUPRC相较于其他模型提升了近两个数量级,在指标AUROC也提升了数十个百分点。
表1不同检测器AUROC和AUPRC的对比
Figure BDA00038504480700000921
Figure BDA0003850448070000101
本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (7)

1.一种针对复杂数据流的异常检测集成方法,其特征在于,所述异常检测集成方法是一种基于集成学习,结合stacking思想对原始数据进行特征压缩,集成离线检测器与在线检测器,使算法兼具稳定性与可塑性,同时结合分层重放机制与自适应权重更新机制,获得的一个高效准确可抵抗概念漂移的用于复杂数据流异常检测的方法。
2.根据权利要求1所述的异常检测集成方法,其特征在于,所述异常检测集成方法包括以下步骤:
S1:特征压缩:输入t-1时刻的范例集εt-1和t时刻的实例集
Figure FDA0003850448060000011
使用有监督分类器对合并后的t-1时刻的范例集和t时刻到达的实例集
Figure FDA0003850448060000012
进行压缩,获得压缩后的数据;
S2:检测器集成:使用步骤S1中获得的压缩后的数据,同时训练离线检测器与在线检测器;
S3:分层重放机制:对正常实例与异常实例采取不同筛选规则进行分层筛选,构建范例集;
S4:异常分数预测及自适应权重更新:模型中参数更新完成后,对t+1时刻到达的实例进行预测;在获得t+1时刻的所有实例的标签后,更新不同检测器的权重,并更新检测模型。
3.根据权利要求2所述的异常检测集成方法,其特征在于,所述步骤S1具体包括:
步骤1.1)、给出符号定义:复杂数据流中每个实例表示为d=(x,y)',其中x为p维特征向量,y为实例是否正常的二分类标签;在t时刻到达的实例集表示为
Figure FDA0003850448060000013
其中
Figure FDA0003850448060000014
表示
Figure FDA0003850448060000015
中所有异常实例,
Figure FDA0003850448060000016
表示
Figure FDA0003850448060000017
中所有正常实例;
步骤1.2)、合并t-1时刻的范例集和t时刻到达的实例集,
Figure FDA0003850448060000018
作为训练集,训练m个有监督分类器
Figure FDA0003850448060000019
训练完毕后,利用第j个分类器
Figure FDA00038504480600000110
得到后验概率,分别为实例d为异常样本的概率
Figure FDA00038504480600000111
和实例d为正常样本的概率
Figure FDA00038504480600000112
Figure FDA00038504480600000113
分别记为
Figure FDA00038504480600000114
Figure FDA00038504480600000115
步骤1.3)、合并所有分类器的后验概率得到2m维特征向量,即
Figure FDA00038504480600000116
Figure FDA00038504480600000117
最终获得压缩后的数据表示
Figure FDA00038504480600000118
4.根据权利要求2所述的异常检测集成方法,其特征在于,所述步骤S2具体包括:
步骤2.1)、训练离线异常检测器:将合并后的t-1时刻的范例集和t时刻到达的实例集
Figure FDA00038504480600000119
作为训练集,训练集在经过特征压缩后,训练noff个离线检测器
Figure FDA00038504480600000120
Figure FDA00038504480600000121
步骤2.2)、训练在线异常检测器:将当前时刻到达的实例集
Figure FDA0003850448060000021
与上一时刻的范例集εt-1同时作为训练集,使训练集中的实例逐个进入在线异常检测器的模型,不断更新每个在线异常检测器中的参数,训练多个在线异常检测器,记为
Figure FDA0003850448060000022
步骤2.3)、计算各检测器的异常分数并加权:第j个检测器
Figure FDA0003850448060000023
对t+1时刻到达实例进行预测,异常分数表示为
Figure FDA0003850448060000024
所有检测器对t+1时刻到达的实例的加权异常分数为
Figure FDA0003850448060000025
Figure FDA0003850448060000026
其中
Figure FDA0003850448060000027
为离线异常检测器或在线异常检测器,
Figure FDA0003850448060000028
为离线异常检测器或在线异常检测器的权重。
5.根据权利要求2所述的异常检测集成方法,其特征在于,所述步骤S3具体包括:
步骤3.1)、构建异常范例集:对于异常实例,保留t时刻之前的所有异常实例,即
Figure FDA0003850448060000029
步骤3.2)、构建正常范例集:对于正常实例,选择具有代表性的实例构建范例集,假设范例集最大可为k,当k大于t-1时刻的正常范例集
Figure FDA00038504480600000210
和t时刻到达的所有正常实例
Figure FDA00038504480600000211
的数量之和时,则所有正常实例都被保留;否则,需要对这些实例进行筛选,筛选规则如下,首先,确定这些实例的均值向量,即
Figure FDA00038504480600000212
其中|A|是集合A中的元素数;
然后,计算每个候选实例与均值向量
Figure FDA00038504480600000213
之间的距离,并从小到大排序;最后,距离均值向量最近的前k个实例被挑选为当前范例集
Figure FDA00038504480600000214
的元素;
步骤3.3)、合并完整范例集:异常范例集
Figure FDA00038504480600000215
和正常范例集
Figure FDA00038504480600000216
合并构成完整范例集εt
Figure FDA00038504480600000217
完整范例集εt在t+1时刻与到达的实例集
Figure FDA00038504480600000218
合并,共同构成特征压缩部分的训练集。
6.根据权利要求2所述的异常检测集成方法,其特征在于,所述步骤S4具体包括:
步骤4.1)、在t+1时刻前,已经训练了m个分类器
Figure FDA00038504480600000219
和noff+non个检测器
Figure FDA00038504480600000220
一旦目前标签y未知的未标记的实例
Figure FDA00038504480600000221
Figure FDA00038504480600000222
到达,通过以下步骤对其进行预测:首先,使用分类器
Figure FDA00038504480600000223
对未标记示例进行预测,得到后验概率z=(f1(x),1-f1(x),···,fm(x),1-fm(x))作为新特征;然后,使用训练好的离线异常检测器和/或在线异常检测器对压缩后的数据进行检测,每个检测器输出其异常分数;各检测器输出的异常分数分别表示为
Figure FDA00038504480600000224
接下来,计算加权得分:
Figure FDA0003850448060000031
其中
Figure FDA0003850448060000032
是第j个检测器在t时刻的权重,各检测器权重之和为1;最后给定一个阈值c,如果实例加权分数st+1大于c,模型判定该实例异常;否则,模型判定该实例正常;所述阈值是之前所有实例的异常比例;
步骤4.2)、在模型初始化时,每个检测器都被分配了相同的权重,在获得t+1时刻的所有实例的标签后,更新不同检测器的权重;假设得到预测实例的标签为y,计算得到的第j个检测器的得分为
Figure FDA0003850448060000033
每个检测器权重更新为
Figure FDA0003850448060000034
Figure FDA0003850448060000035
Figure FDA0003850448060000036
为交叉熵损失函数,用于衡量真实标签y与异常得分
Figure FDA0003850448060000037
之间的差异;交叉熵损失函数表示如下:
Figure FDA0003850448060000038
最后,将各检测器权重进行归一化
Figure FDA0003850448060000039
更新模型。
7.一种实现如权利要求1-6之任一项所述的异常检测集成方法的检测系统,所述检测系统包括特征压缩模块、检测器集成模块、范例集构建模块、自适应权重更新模块;
所述特征压缩模块由2个有监督分类器构成,分别为随机森林
Figure FDA00038504480600000310
和自适应提升森林
Figure FDA00038504480600000311
随机森林
Figure FDA00038504480600000312
和自适应提升森林
Figure FDA00038504480600000313
都以合并后的t-1时刻的范例集和t时刻到达的实例集,
Figure FDA00038504480600000314
作为其训练集,此时所有训练实例均为原始维度d=(x,y)';之后分别使用训练完毕的随机森林
Figure FDA00038504480600000315
和自适应提升森林
Figure FDA00038504480600000316
对训练集
Figure FDA00038504480600000317
中所有实例进行预测;记随机森林
Figure FDA00038504480600000318
的2维后验概率分别记为
Figure FDA00038504480600000319
Figure FDA00038504480600000320
自适应提升森林
Figure FDA00038504480600000321
的2维后验概率分别记为
Figure FDA00038504480600000322
Figure FDA00038504480600000323
合并两个分类器的后验概率后得到4维特征向量,即
Figure FDA00038504480600000324
最终获得压缩后的数据表示
Figure FDA00038504480600000325
所述检测器集成模块由一个离线异常检测器孤立森林
Figure FDA00038504480600000326
和一个在线异常检测器半空间树
Figure FDA00038504480600000327
构成;对于离线异常检测器孤立森林,在t时刻系统会舍弃t-1时刻的孤立森林
Figure FDA00038504480600000328
使用合并的t-1时刻的范例集和t时刻到达的实例集
Figure FDA00038504480600000329
作为训练集,重新训练得到全新的孤立森林
Figure FDA00038504480600000330
对于在线异常检测器半空间树
Figure FDA00038504480600000331
系统会保留t-1时刻的半空间树
Figure FDA00038504480600000332
使用
Figure FDA00038504480600000333
中的实例不断更新半空间树
Figure FDA00038504480600000334
中每个节点的参数,直到更新至
Figure FDA00038504480600000335
的最后一个实例,得到更新完毕的
Figure FDA00038504480600000336
在t+1时刻,实例集
Figure FDA00038504480600000337
到达后,使用训练完毕离线异常检测器孤立森林
Figure FDA0003850448060000041
和更新完毕的在线异常检测器半空间树
Figure FDA0003850448060000042
分别对
Figure FDA0003850448060000043
中各实例进行预测,得到孤立森林
Figure FDA0003850448060000044
预测异常分数
Figure FDA0003850448060000045
和半空间树
Figure FDA0003850448060000046
预测异常分数
Figure FDA0003850448060000047
两个检测器的加权异常分数为
Figure FDA0003850448060000048
其中
Figure FDA0003850448060000049
为孤立森林的权重,
Figure FDA00038504480600000410
为半空间树的权重;
所述范例集构建模块采取分层思想,对正常实例和异常实例采取不同的筛选规则;当t时刻数据集
Figure FDA00038504480600000411
到达后,将其与t-1时刻范例集εt-1合并,得到完整的候选实例集
Figure FDA00038504480600000412
对于候选实例集
Figure FDA00038504480600000413
中的异常实例,选择全部保留至t时刻范例集εt中,即
Figure FDA00038504480600000414
Figure FDA00038504480600000415
Figure FDA00038504480600000416
为范例集εt中所有异常实例;对于候选实例集
Figure FDA00038504480600000417
中的正常实例,只保留最接近均值向量的k个实例,作为优质实例入选范例集εt;首先计算正常实例的均值向量
Figure FDA00038504480600000418
而后计算
Figure FDA00038504480600000419
中每个候选实例与均值向量
Figure FDA00038504480600000420
之间的距离,距离
Figure FDA00038504480600000421
最近的前k个实例被挑选为正常范例集
Figure FDA00038504480600000422
最后将异常范例集
Figure FDA00038504480600000423
和正常范例集
Figure FDA00038504480600000424
合并后得到t时刻完整范例集εt,即
Figure FDA00038504480600000425
所述自适应权重更新模块是通过损失函数评价检测器集成模块中离线异常检测器孤立森林
Figure FDA00038504480600000426
和在线异常检测器半空间树
Figure FDA00038504480600000427
的准确性,而后通过对损失值进行变换后得到更新后的权重值,以达到提高前一时刻分类错误率小的分类器权重,降低分类错误率大的弱分类器权重的效果;在t+1时刻实例集
Figure FDA00038504480600000428
到达,此时
Figure FDA00038504480600000429
中各实例处于未标记的状态
Figure FDA00038504480600000430
Figure FDA00038504480600000431
到达,首先使用特征压缩模块中随机森林
Figure FDA00038504480600000432
和自适应提升森林
Figure FDA00038504480600000433
Figure FDA00038504480600000434
中实例进行特征压缩,得到压缩后数据z=(f1(x),1-f1(x),f2(x),1-f2(x));再使用检测器集成模块中离线异常检测器孤立森林
Figure FDA00038504480600000435
和在线异常检测器半空间树
Figure FDA00038504480600000436
对压缩后数据进行检测,获取孤立森林
Figure FDA00038504480600000437
异常分数
Figure FDA00038504480600000438
半空间树异常分数
Figure FDA00038504480600000439
对两个异常分数加权求和得最终预测结果
Figure FDA00038504480600000440
在获取实例集
Figure FDA00038504480600000441
中各实例标签y后,分别对两个检测器权重进行更新:
Figure FDA00038504480600000442
Figure FDA00038504480600000443
Figure FDA00038504480600000444
Figure FDA00038504480600000445
其中
Figure FDA00038504480600000446
为交叉熵损失函数,
Figure FDA00038504480600000447
CN202211131399.8A 2022-09-16 2022-09-16 一种针对复杂数据流的异常检测集成方法及系统 Pending CN115423027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211131399.8A CN115423027A (zh) 2022-09-16 2022-09-16 一种针对复杂数据流的异常检测集成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211131399.8A CN115423027A (zh) 2022-09-16 2022-09-16 一种针对复杂数据流的异常检测集成方法及系统

Publications (1)

Publication Number Publication Date
CN115423027A true CN115423027A (zh) 2022-12-02

Family

ID=84203631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211131399.8A Pending CN115423027A (zh) 2022-09-16 2022-09-16 一种针对复杂数据流的异常检测集成方法及系统

Country Status (1)

Country Link
CN (1) CN115423027A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580029A (zh) * 2023-07-12 2023-08-11 浙江海威汽车零件有限公司 铝合金铸造成品的质检管控系统及其方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580029A (zh) * 2023-07-12 2023-08-11 浙江海威汽车零件有限公司 铝合金铸造成品的质检管控系统及其方法
CN116580029B (zh) * 2023-07-12 2023-10-13 浙江海威汽车零件有限公司 铝合金铸造成品的质检管控系统及其方法

Similar Documents

Publication Publication Date Title
CN110472817B (zh) 一种结合深度神经网络的XGBoost集成信用评价系统及其方法
Bertolini et al. Machine Learning for industrial applications: A comprehensive literature review
Li et al. An overview of personal credit scoring: techniques and future work
Bellotti et al. Support vector machines for credit scoring and discovery of significant features
Sadatrasoul et al. Credit scoring in banks and financial institutions via data mining techniques: A literature review
Yang Adaptive credit scoring with kernel learning methods
Yotsawat et al. A novel method for credit scoring based on cost-sensitive neural network ensemble
Ortego et al. Evolutionary LSTM-FCN networks for pattern classification in industrial processes
Faraji A review of machine learning applications for credit card fraud detection with a case study
CN113256409A (zh) 基于机器学习的银行零售客户流失预测方法
Oliveira et al. Detecting novelties in time series through neural networks forecasting with robust confidence intervals
CN115423027A (zh) 一种针对复杂数据流的异常检测集成方法及系统
CN112232604A (zh) 基于Prophet模型提取网络流量的预测方法
Tsai Two‐stage hybrid learning techniques for bankruptcy prediction
Yahaya et al. An enhanced bank customers churn prediction model using a hybrid genetic algorithm and k-means filter and artificial neural network
Leevy et al. The effect of time on the maintenance of a predictive model
Mehrmolaei et al. A brief survey on event prediction methods in time series
Labiad et al. Short term prediction framework for moroccan stock market using artificial neural networks
Li et al. Neural network credit-risk evaluation model based on back-propagation algorithm
Shaheen et al. Predictive analytics for loan default in banking sector using machine learning techniques
Osowski et al. Prediction of customer status in corporate banking using neural networks
CN113609480B (zh) 基于大规模网络流的多路学习入侵检测方法
Vasu et al. Bankruptcy prediction in banks by principal component analysis threshold accepting trained wavelet neural network hybrid
Sengupta et al. A review of payment card fraud detection methods using artificial intelligence
Dattachaudhuri et al. Transparent neural based expert system for credit risk (TNESCR): an automated credit risk evaluation system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination