CN115423027A

CN115423027A - 一种针对复杂数据流的异常检测集成方法及系统

Info

Publication number: CN115423027A
Application number: CN202211131399.8A
Authority: CN
Inventors: 袁圆; 倪葎; 金澈清
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-12-02

Abstract

本发明公开了一种针对复杂数据流的异常检测集成方法，所述异常检测集成方法以有监督分类器作为基学习器，结合stacking集成思想对原始数据进行压缩。在检测器集成部分同时选择离线检测器和在线检测器，使模型兼具稳定性与可塑性，其中自适应权重更新机制使模型可应对概念漂移现象。最后设计分层重放机制应对增量学习过程中的灾难性遗忘，同时结合过采样思想，改善类不平衡问题。本发明还公开了实现上述异常检测集成方法的检测系统，包括特征压缩模块、检测器集成模块、范例集构建模块、自适应权重更新模块。

Description

一种针对复杂数据流的异常检测集成方法及系统

技术领域

本发明属于数据挖掘技术领域，涉及一种针对复杂数据流的异常检测集成方法及系统。

背景技术

异常检测是数据挖掘领域的一个重要研究方向，它的目的是将少数异常实例与大量正常实例区分开来。异常检测的应用领域非常广泛，例如，随着线上交易的普及，提供线上支付的公司通常会高度重视风险控制，希望能够及时捕捉到刷分、赌博、欺诈、被动销赃等异常交易行为。异常交易行为虽然发生频率很低，但通常会带来很大的负面影响，需要及时干预以避免高昂的损失，通过异常检测模型及时抛出异常记录就是很好的处理手段。

根据可用数据，当前异常检测算法可被分为两类。一类是离线检测器，其研究对象是静态数据。离线检测器在训练时需要全部数据，这种训练方式能够最大程度集成所有数据信息，但在面对海量数据时，模型训练需要高昂的时间和内存资源。另一类是在线检测器，其研究对象是常规数据流，常规数据流中的实例按固定的时间间隔逐个到达。在线模型在每个时间点基于新到达的实例对模型进行更新调整。由于每次更新时可用信息过少，这类算法无法保证最终得到的模型能达到最优结构，这使得在线模型的检测性能偏低。

目前在工业场景中静态数据与常规数据流都不再适用，工业场景中当前的新型数据结构称为复杂数据流，它在每个时间点都会有一批实例同时到达。复杂数据流存在三个重要特征：

1)高维且稀疏；

2)数据增长规模多变。每个时间点都会有一批数据同时到达，且每次到达的实例数量是不断变化的；

3)异常比例极低。现有异常检测技术主要应对静态数据与常规数据流，都无法在复杂数据流上达到预期效果。

综上所述，适用于复杂数据流的高效异常检测技术尚未出现。

发明内容

为了解决现有技术存在的不足，本发明的目的是提供一种针对复杂数据流的异常检测集成方法。具体地，本发明提供了一种基于集成学习，结合stacking思想对原始数据进行特征压缩，集成离线检测器与在线检测器，使算法兼具稳定性与可塑性，同时结合分层重放机制与自适应权重更新机制，得到一个高效准确可抵抗概念漂移的用于复杂数据流异常检测的方法。

所述集成学习是指通过构建并结合多个机器学习器(基学习器)来完成学习任务。集成学习可以用于分类问题、回归问题、特征选取、异常点检测等等。通过一定的结合策略，集成若干个个体弱学习器，就可以最终形成一个强学习器，以达到博采众长的目的。

所述stacking是指将一系列模型(也称基模型)的输出结果作为新特征输入到其他模型，实现模型的层叠，即第一层的模型输出作为第二层模型的输入，第二层模型的输出作为第三层模型的输入，依次类推，最后一层模型输出的结果作为最终结果。

所述特征压缩是将高维数据转化为低维数据的过程，在此过程中基于原有数据创造新的变量，在保留数据信息的前提下，尽可能降低数据的维度。

所述分层重放机制对不同类别的历史样本采取不同规则进行筛选，而后以原始格式存储筛选所得范例样本。这些范例样本在模型学习新样本时，被重新用作模型输入以减轻遗忘。

所述自适应权重更新机制是指在获取当前时刻样本真实标签后，计算检测器集成部分的各个检测器的性能，提高那些前一时刻分类错误率小的检测器权重，降低分类错误率大的弱检测器权重。

所述概率漂移是指目标变量的统计特征随着时间的推移以不可预见的方式变化的现象。

实现本发明目的的具体技术方案是：

本发明提供了一种针对复杂数据流的异常检测集成方法，包含以下步骤：

输入t-1时刻的范例集ε^t-1和t时刻的实例集

S1：特征压缩：

使用有监督分类器对合并后的t-1时刻的范例集和t时刻到达的实例集

进行压缩，获得压缩后的数据；

S2：检测器集成：

使用步骤S1中获得的压缩后的数据，同时训练离线检测器与在线检测器；

S3：分层重放机制：

对正常实例与异常实例采取不同筛选规则进行分层筛选，构建范例集；

S4：异常分数预测及自适应权重更新：

得到更新完毕的模型后，可对t+1时刻到达的实例进行预测。在获得t+1时刻的所有实例的标签后，更新不同检测器的权重，更新检测模型。

为优化上述技术方案，采取的具体措施还包括：

给出符号定义：复杂数据流中每个实例表示为d＝(x,y)'，其中x为p维特征向量，y为实例的二分类标签(正常实例、异常实例)。在t时刻到达的实例集表示为

其中

表示

中所有正常实例，

表示

中所有异常实例。

本发明所述的异常检测集成方法配备了四个组件：特征压缩部分、检测器集成部分、分层重放机制和自适应权重更新机制。

特征压缩部分由m个有监督分类器构成，其中t时刻第j(j＝1,2,···,m)个有监督分类器表示为

由实例d＝(x,y)'经压缩后的数据表示为

其中z为2m维特征向量，y为实例的二分类标签。检测器集成部分由n_off个离线检测器和n_on个在线检测器构成，其中t时刻第j(j＝1,2,···,n_off+n_on)个检测器表示为

t时刻第j(j＝1,2,···,n_off+n_on)个检测器的权重表示为

第j(j＝1,2,···,n_off+n_on)个检测器对t+1时刻到达的实例进行检测，输出的异常分数表示为

最终所有检测器对t+1时刻到达的实例的加权异常分数为

分层重放机制最重要的部分则是构建范例集，t时刻的范例集表示为ε^t，范例集ε^t是以t-1时刻的范例集ε^t-1与t时刻到达的实例集

作为候选样本集，对候选样本集中的正常样本和异常样本采取不同的筛选规则，分层筛选所得，其中

表示ε^t中所有正常范例，

表示ε^t中所有异常范例。分层重放机制从抵抗灾难性遗忘和缓解样本不平衡两方面提高了模型精度：对于正常样本，选择在特征空间中最接近类均值的k个优质样本，在保留历史样本信息的同时控制了内存资源消耗，对于异常样本则选择全部保留，一是由于异常样本数量很少，全部保留也不会对内存产生威胁，二是随着异常样本的累积，可以有效缓解样本不平衡现象，此处借鉴了过采样思想；

步骤S1中，合并t-1时刻的范例集和t时刻到达的实例集，

作为训练集，训练m个有监督分类器

j＝1,···,m，此处所有训练数据均为原始维度，实例d＝(x,y)'。训练完毕后，利用第j个分类器

得到后验概率，分别为实例d为异常样本的概率

和实例d为正常样本的概率

分别记为

和

j＝1,2,···,m；

每个分类器获得2维后验概率，分别是实例为正常样本的概率和实例为异常样本的概率，故合并m个分类器的后验概率可得到2m维特征向量，即

最终获得压缩后的数据表示

上述步骤S2包括：

步骤2.1)训练离线异常检测器

离线异常检测器的训练一般需要全部实例，但这种传统的训练方式并不契合不断增长的复杂数据流。由于复杂数据流随着时间的推移规模不断扩大，很容易导致离线异常检测器的训练时间及成本过于高昂，因此本发明选择将合并后的t-1时刻的范例集和t时刻到达的实例集

作为训练集，而非t时刻之前的所有实例

ε^t-1只包含了

中全部异常实例，和最接近正常类质心的k个正常实例，

中大多数正常实例被排除在训练集外。离线异常检测器训练集由t-1时刻的范例集ε^t-1和t时刻到达的实例集

构成，即

训练集在经过特征压缩后，训练n_off个离线异常检测器

j＝1,···,n_off。在工程实现时，n_off通常设定为1或2。有监督或无监督异常检测技术都可以作为离线异常检测器使用。

步骤2.2)训练在线异常检测器

大多数现有的在线异常检测器，都是为一次只有一个实例到达的常规流数据而设计，其特点是模型可保留先前的数据流中的信息。在线检测器在t时刻的更新流程如下：将当前时刻到达的实例集

与上一时刻的范例集ε^t-1同时作为训练集，使训练集中的实例逐个进入模型，不断更新每个在线异常检测器中的参数。在线异常检测器可以是半空间树，快速决策树(VFDT)，极端快速决策树(EFDT)等采取增量更新模式的检测器。以半空间树为例，检测器在训练之前，提前构建了原始特征空间的随机树结构。接下来各实例逐个到达不断更新半空间树中每个节点的质量，直到更新至

的最后一个实例。与训练离线检测器类似，也可以训练多个在线异常检测器，记为

j＝n_off+1,n_off+2,···,n_off+n_on。

步骤2.3)计算各检测器的异常分数并加权

第j个检测器

对t+1时刻到达实例进行预测，异常分数表示为

所有检测器对t+1时刻到达的实例的加权异常分数为

其中

为离线异常检测器或在线异常检测器，

为离线异常检测器或在线异常检测器的权重；

上述步骤S3包括：

步骤3.1)构建异常范例集

对于异常实例，保留t时刻之前的所有异常实例，即

步骤3.2)构建正常范例集

对于正常实例，选择具有代表性的实例构建范例集。假设范例集最大可为k，当k大于t-1时刻的正常范例集

和t时刻到达的所有正常实例

的数量之和时，则所有正常实例都被保留。否则，需要对这些实例进行筛选，筛选规则如下。首先，确定这些实例的均值向量，即

其中|A|是集合A中的元素数。然后，计算每个候选实例与均值向量

之间的距离，并从小到大排序。最后，距离均值向量最近的前k个实例被挑选为当前正常范例集

的元素。

步骤3.3)合并完整范例集

异常范例集

和正常范例集

合并构成完整范例集ε^t，完整范例集ε^t在t+1时刻与到达的实例集

合并，共同构成特征压缩部分的训练集。

上述步骤S4包括：

步骤4.1)在t+1时刻前，已经训练了m个分类器

和n_off+n_on个检测器

一旦未标记的实例

到达(目前标签y未知)，可以通过以下步骤对其进行预测。首先，使用分类器

t＝1,···,m对未标记实例进行预测，得到后验概率z＝(f₁(x),1-f₁(x),···,f_m(x),1-f_m(x))作为新特征。然后，使用训练好的离线检测器和/或在线检测器对压缩后的数据进行检测，每个检测器输出其异常分数。各检测器输出的异常分数分别表示为

j＝1,2,···,n_off+n_on。接下来，计算加权得分

其中

是第j个检测器在t时刻的权重，各检测器权重之和为1。最后给定一个阈值c，通常是之前所有实例的异常比例，如果实例加权分数s^t+1大于c，模型判定该实例异常；否则，认为它是正常的。

步骤4.2)在模型初始化时，每个检测器都被分配了相同的权重。在获得t+1时刻的所有实例的标签后，可更新不同检测器的权重。假设得到预测实例的标签为y，计算得到的第j个检测器的得分为

每个检测器权重更新为

为交叉熵损失函数，用于衡量真实标签y与异常得分

之间的差异。

最后，将各检测器权重进行归一化

更新模型。

本发明还提供了一种实现上述检测集成方法的检测系统，所述检测系统包括特征压缩模块、检测器集成模块、范例集构建模块、自适应权重更新模块。

所述特征压缩模块由2个有监督分类器构成，分别为随机森林

和自适应提升森林

随机森林

和自适应提升森林

都以合并后的t-1时刻的范例集和t时刻到达的实例集，

作为其训练集，此时所有训练实例均为原始维度d＝(x,y)'。之后分别使用训练完毕的随机森林

和自适应提升森林

对训练集

中所有实例进行预测。以随机森林

为例，随机森林

可预测每个实例d属于异常类别的概率

和属于正常类别的概率

将这2维后验概率作为新特征，分别记为

和

同理自适应提升森林

对每个实例d进行预测，也可获得2维新特征，分别记为

和

合并两个分类器的后验概率后可得到4维特征向量，即

最终获得压缩后的数据表示

所述检测器集成模块由一个离线异常检测器孤立森林

和一个在线异常检测器半空间树

构成。对于离线异常检测器孤立森林，在t时刻系统会舍弃t-1时刻的孤立森林

使用合并的t-1时刻的范例集和t时刻到达的实例集

作为训练集，重新训练得到全新的孤立森林

此时所有训练实例均为压缩后的数据

对于在线异常检测器半空间树

系统会保留t-1时刻的半空间树

使用

中的实例不断更新半空间树

中每个节点的参数，直到更新至

的最后一个实例，得到更新完毕的

在t+1时刻，实例集

到达后，使用训练完毕离线异常检测器孤立森林

和更新完毕的在线异常检测器半空间树

分别对

中各实例进行预测(预测前需对

中各实例进行特征压缩)，得到孤立森林

预测异常分数

和半空间树

预测异常分数

两个检测器的加权异常分数为

其中

为孤立森林的权重，

为半空间树的权重。

所述范例集构建模块采取分层思想，对正常实例和异常实例采取不同的筛选规则。当t时刻数据集

到达后，将其与t-1时刻范例集ε^t-1合并，得到完整的候选实例集

对于候选实例集

中的异常实例，选择全部保留至t时刻范例集ε^t中。按照此规则，数据流中所有异常实例都会被保存下来，即

为范例集ε^t中所有异常实例。对于候选实例集

中的正常实例，只保留最接近均值向量的k个实例，作为优质实例入选范例集ε^t。首先计算正常实例的均值向量

而后计算

中每个候选实例与均值向量

之间的距离，距离

最近的前k个实例被挑选为正常范例集

最后将异常范例集

和正常范例集

合并后得到t时刻完整范例集ε^t，即

t时刻完整范例集ε^t会在t+1时刻作为特征压缩部分训练集的一部分，也会在构造ε^t+1作为候选实例集的一部分。

所述自适应权重更新模块是通过损失函数评价检测器集成模块中离线异常检测器孤立森林

和在线异常检测器半空间树

的准确性，而后通过对损失值进行变换后得到更新后的权重值，以达到提高前一时刻分类错误率小的分类器权重，降低分类错误率大的弱分类器权重的效果，具体计算过程如下。在t+1时刻实例集

到达，此时

中各实例处于未标记的状态

到达(目前标签y未知)，首先使用特征压缩模块中随机森林

和自适应提升森林

对

中实例进行特征压缩，得到压缩后数据z＝(f₁(x),1-f₁(x),f₂(x),1-f₂(x))。再使用检测器集成模块中离线异常检测器孤立森林

和在线异常检测器半空间树

对压缩后数据进行检测，获取孤立森林

异常分数

半空间树异常分数

对两个异常分数加权求和得最终预测结果

(两个检测器权重初始化为0.5，即

)。在获取实例集

中各实例标签y后，分别对两个检测器权重进行更新：

其中

为交叉熵损失函数，用于衡量真实标签y与异常得分

之间的差异。

本发明的有益效果包括：本发明在复杂数据流的异常检测任务上，相比于现有的检测模型，特征压缩部分降低了模型训练开销，离线检测器与在线检测器的集成使模型在稳定性与可塑性上都具备竞争力，同时分层重放和自适应权重更新机制增强了模型抵抗灾难性遗忘和概念漂移的能力。本发明方法相对于现有方法，在准确率与召回率上均提升了数十个百分点。

附图说明

图1为本发明异常检测训练及预测过程示意图；

图2为本发明模型构建流程图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明对复杂数据流采取增量学习的方式进行训练，使用t时刻更新所得模型，对t+1时刻到达实例集进行检测。具体的更新流程：首先使用特征压缩部分的随机森林

和自适应提升森林

对原始特征空间进行压缩，而后使用压缩后的数据分别训练离线异常检测器孤立森林

和在线异常检测器半空间树

接着以t-1时刻范例集ε^t-1和t时刻

为候选实例，分层筛选得到更新后的范例集ε^t。t+1时刻实例到达后，使用更新完毕的模型进行检测，在获得t+1时刻的所有实例的标签后，对离线异常检测器孤立森林

和在线异常检测器半空间树

的权重进行更新。

具体地，本发明提出了一种针对复杂数据流的异常检测集成方法，所述异常检测集成方法是一种基于集成学习，结合stacking思想对原始数据进行特征压缩，集成离线检测器与在线检测器，使算法兼具稳定性与可塑性，同时结合分层重放机制与自适应权重更新机制，获得的一个高效准确可抵抗概念漂移的用于复杂数据流异常检测的方法。包括如下步骤：

S1：特征压缩：输入t-1时刻的范例集ε^t-1和t时刻的实例集

进行压缩，获得压缩后的数据；

S2：检测器集成：使用步骤S1中获得的压缩后的数据，同时训练离线检测器与在线检测器；

S3：分层重放机制：对正常实例与异常实例采取不同筛选规则进行分层筛选，构建范例集；

S4：异常分数预测及自适应权重更新：模型中参数更新完成后，对t+1时刻到达的实例进行预测；在获得t+1时刻的所有实例的标签后，更新不同检测器的权重，并更新检测模型。

通过以下具体实施例对本发明作进一步的详细说明。

实施例

以调查企业日常支付交易中是否存在欺诈行为为例。从一家线上支付公司收集了2021年8月某地区餐饮行业1个月的交易数据，使用本发明实现的检测系统检测各商户在日常支付交易中是否存在欺诈活动，其中包括套现、刷分、洗钱等。商户每日交易记录包括620维特征，如每日交易数量、每日活跃交易比例、错误交易数量等。

参阅图2，按下述步骤，以天为时间单位(t)对模型进行增量更新：

S1：以第t天数据

及第t-1天的范例集ε^t-1为训练集，对特征压缩部分的随机森林

和自适应提升森林

进行训练，而后使用训练完毕的分类器对训练集进行预测，拼接两分类器的后验概率，得4维压缩特征z＝(f₁(x),1-f₁(x),f₂(x),1-f₂(x))，如[0.82，0.18，0.85，0.15]；

S2：使用压缩后的训练集

分别训练离线异常检测器孤立森林

和在线异常检测器半空间树

S3：以第t天数据

及第t-1天的范例集ε^t-1为候选实例，筛选更新范例集。

S4：使用S2步所得两个异常检测模型,

对第t+1天到达实例进行检测，得加权异常分数

以一正常实例为例，孤立森林

的预测异常分数为

半空间树

的预测异常分数为

在t时刻孤立森林

的权重为

半空间树

的权重为

故最终加权异常分数为s^t+1＝0.4*0.11+0.6*0.28＝0.212，异常分数s^t+1小于阈值c＝0.5，故判为正常实例。在获取第t+1天所有实例的标签后，使用交叉熵损失函数衡量孤立森林

和半空间树

检测性能，并以检测器的检测性能为基准更新各检测器的权重，使检测性能优秀的检测器获得更高的权重。

后续将本发明实现的检测系统(SADEN)结果与半空间树(HS-Trees)，应对变化特征数据流的实时异常检测器(xStream)，基于随机散列的子空间异常检测器(RS-Hash)进行对比，以操作特性曲线下面积(AUROC)和精确召回曲线下面积(AUPRC)为衡量指标，报告了在8月观察到的所有实例的预测结果，结果见表1。

操作特性曲线下面积(AUROC)的值越大，模型效果越好；精确召回曲线下面积(AUPRC)的值越大，模型效果越好。

本发明实现的检测系统(SADEN)在精度和召回率上都优于与半空间树(HS-Trees)，应对变化特征数据流的实时异常检测器(xStream)，基于随机散列的子空间异常检测器(RS-Hash)。其中本发明实现的检测系统(SADEN)在指标AUPRC相较于其他模型提升了近两个数量级，在指标AUROC也提升了数十个百分点。

表1不同检测器AUROC和AUPRC的对比

本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种针对复杂数据流的异常检测集成方法，其特征在于，所述异常检测集成方法是一种基于集成学习，结合stacking思想对原始数据进行特征压缩，集成离线检测器与在线检测器，使算法兼具稳定性与可塑性，同时结合分层重放机制与自适应权重更新机制，获得的一个高效准确可抵抗概念漂移的用于复杂数据流异常检测的方法。

2.根据权利要求1所述的异常检测集成方法，其特征在于，所述异常检测集成方法包括以下步骤：

S1：特征压缩：输入t-1时刻的范例集ε^t-1和t时刻的实例集

进行压缩，获得压缩后的数据；

3.根据权利要求2所述的异常检测集成方法，其特征在于，所述步骤S1具体包括：

步骤1.1)、给出符号定义：复杂数据流中每个实例表示为d＝(x,y)'，其中x为p维特征向量，y为实例是否正常的二分类标签；在t时刻到达的实例集表示为

其中

表示

中所有异常实例，

表示

中所有正常实例；

步骤1.2)、合并t-1时刻的范例集和t时刻到达的实例集，

作为训练集，训练m个有监督分类器

训练完毕后，利用第j个分类器

得到后验概率，分别为实例d为异常样本的概率

和实例d为正常样本的概率

分别记为

和

步骤1.3)、合并所有分类器的后验概率得到2m维特征向量，即

最终获得压缩后的数据表示

4.根据权利要求2所述的异常检测集成方法，其特征在于，所述步骤S2具体包括：

步骤2.1)、训练离线异常检测器：将合并后的t-1时刻的范例集和t时刻到达的实例集

作为训练集，训练集在经过特征压缩后，训练n_off个离线检测器

步骤2.2)、训练在线异常检测器：将当前时刻到达的实例集

与上一时刻的范例集ε^t-1同时作为训练集，使训练集中的实例逐个进入在线异常检测器的模型，不断更新每个在线异常检测器中的参数，训练多个在线异常检测器，记为

步骤2.3)、计算各检测器的异常分数并加权：第j个检测器

对t+1时刻到达实例进行预测，异常分数表示为

所有检测器对t+1时刻到达的实例的加权异常分数为

其中

为离线异常检测器或在线异常检测器，

为离线异常检测器或在线异常检测器的权重。

5.根据权利要求2所述的异常检测集成方法，其特征在于，所述步骤S3具体包括：

步骤3.1)、构建异常范例集：对于异常实例，保留t时刻之前的所有异常实例，即

步骤3.2)、构建正常范例集：对于正常实例，选择具有代表性的实例构建范例集，假设范例集最大可为k，当k大于t-1时刻的正常范例集

和t时刻到达的所有正常实例

的数量之和时，则所有正常实例都被保留；否则，需要对这些实例进行筛选，筛选规则如下，首先，确定这些实例的均值向量，即

其中|A|是集合A中的元素数；

然后，计算每个候选实例与均值向量

之间的距离，并从小到大排序；最后，距离均值向量最近的前k个实例被挑选为当前范例集

的元素；

步骤3.3)、合并完整范例集：异常范例集

和正常范例集

合并构成完整范例集ε^t，

完整范例集ε^t在t+1时刻与到达的实例集

合并，共同构成特征压缩部分的训练集。

6.根据权利要求2所述的异常检测集成方法，其特征在于，所述步骤S4具体包括：

步骤4.1)、在t+1时刻前，已经训练了m个分类器

和n_off+n_on个检测器

一旦目前标签y未知的未标记的实例

到达，通过以下步骤对其进行预测：首先，使用分类器

对未标记示例进行预测，得到后验概率z＝(f₁(x),1-f₁(x),···,f_m(x),1-f_m(x))作为新特征；然后，使用训练好的离线异常检测器和/或在线异常检测器对压缩后的数据进行检测，每个检测器输出其异常分数；各检测器输出的异常分数分别表示为

接下来，计算加权得分：

其中

是第j个检测器在t时刻的权重，各检测器权重之和为1；最后给定一个阈值c，如果实例加权分数s^t+1大于c，模型判定该实例异常；否则，模型判定该实例正常；所述阈值是之前所有实例的异常比例；

步骤4.2)、在模型初始化时，每个检测器都被分配了相同的权重，在获得t+1时刻的所有实例的标签后，更新不同检测器的权重；假设得到预测实例的标签为y，计算得到的第j个检测器的得分为

每个检测器权重更新为

为交叉熵损失函数，用于衡量真实标签y与异常得分

之间的差异；交叉熵损失函数表示如下：

最后，将各检测器权重进行归一化

更新模型。

7.一种实现如权利要求1-6之任一项所述的异常检测集成方法的检测系统，所述检测系统包括特征压缩模块、检测器集成模块、范例集构建模块、自适应权重更新模块；

所述特征压缩模块由2个有监督分类器构成，分别为随机森林

和自适应提升森林

随机森林

和自适应提升森林

都以合并后的t-1时刻的范例集和t时刻到达的实例集，

作为其训练集，此时所有训练实例均为原始维度d＝(x,y)'；之后分别使用训练完毕的随机森林

和自适应提升森林

对训练集

中所有实例进行预测；记随机森林

的2维后验概率分别记为

和

自适应提升森林

的2维后验概率分别记为

和

合并两个分类器的后验概率后得到4维特征向量，即

最终获得压缩后的数据表示

所述检测器集成模块由一个离线异常检测器孤立森林

和一个在线异常检测器半空间树

构成；对于离线异常检测器孤立森林，在t时刻系统会舍弃t-1时刻的孤立森林

使用合并的t-1时刻的范例集和t时刻到达的实例集

作为训练集，重新训练得到全新的孤立森林

对于在线异常检测器半空间树

系统会保留t-1时刻的半空间树

使用

中的实例不断更新半空间树

中每个节点的参数，直到更新至

的最后一个实例，得到更新完毕的

在t+1时刻，实例集

到达后，使用训练完毕离线异常检测器孤立森林

和更新完毕的在线异常检测器半空间树

分别对

中各实例进行预测，得到孤立森林

预测异常分数

和半空间树

预测异常分数

两个检测器的加权异常分数为

其中

为孤立森林的权重，

为半空间树的权重；

所述范例集构建模块采取分层思想，对正常实例和异常实例采取不同的筛选规则；当t时刻数据集

对于候选实例集

中的异常实例，选择全部保留至t时刻范例集ε^t中，即

为范例集ε^t中所有异常实例；对于候选实例集

中的正常实例，只保留最接近均值向量的k个实例，作为优质实例入选范例集ε^t；首先计算正常实例的均值向量

而后计算

中每个候选实例与均值向量

之间的距离，距离

最近的前k个实例被挑选为正常范例集

最后将异常范例集

和正常范例集

合并后得到t时刻完整范例集ε^t，即

和在线异常检测器半空间树

的准确性，而后通过对损失值进行变换后得到更新后的权重值，以达到提高前一时刻分类错误率小的分类器权重，降低分类错误率大的弱分类器权重的效果；在t+1时刻实例集

到达，此时

中各实例处于未标记的状态

到达，首先使用特征压缩模块中随机森林

和自适应提升森林

对

中实例进行特征压缩，得到压缩后数据z＝(f₁(x),1-f₁(x),f₂(x),1-f₂(x))；再使用检测器集成模块中离线异常检测器孤立森林

和在线异常检测器半空间树

对压缩后数据进行检测，获取孤立森林

异常分数

半空间树异常分数

对两个异常分数加权求和得最终预测结果

在获取实例集

中各实例标签y后，分别对两个检测器权重进行更新：

其中

为交叉熵损失函数，