CN115423027A - 一种针对复杂数据流的异常检测集成方法及系统 - Google Patents
一种针对复杂数据流的异常检测集成方法及系统 Download PDFInfo
- Publication number
- CN115423027A CN115423027A CN202211131399.8A CN202211131399A CN115423027A CN 115423027 A CN115423027 A CN 115423027A CN 202211131399 A CN202211131399 A CN 202211131399A CN 115423027 A CN115423027 A CN 115423027A
- Authority
- CN
- China
- Prior art keywords
- detector
- time
- anomaly
- instances
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种针对复杂数据流的异常检测集成方法,所述异常检测集成方法以有监督分类器作为基学习器,结合stacking集成思想对原始数据进行压缩。在检测器集成部分同时选择离线检测器和在线检测器,使模型兼具稳定性与可塑性,其中自适应权重更新机制使模型可应对概念漂移现象。最后设计分层重放机制应对增量学习过程中的灾难性遗忘,同时结合过采样思想,改善类不平衡问题。本发明还公开了实现上述异常检测集成方法的检测系统,包括特征压缩模块、检测器集成模块、范例集构建模块、自适应权重更新模块。
Description
技术领域
本发明属于数据挖掘技术领域,涉及一种针对复杂数据流的异常检测集成方法及系统。
背景技术
异常检测是数据挖掘领域的一个重要研究方向,它的目的是将少数异常实例与大量正常实例区分开来。异常检测的应用领域非常广泛,例如,随着线上交易的普及,提供线上支付的公司通常会高度重视风险控制,希望能够及时捕捉到刷分、赌博、欺诈、被动销赃等异常交易行为。异常交易行为虽然发生频率很低,但通常会带来很大的负面影响,需要及时干预以避免高昂的损失,通过异常检测模型及时抛出异常记录就是很好的处理手段。
根据可用数据,当前异常检测算法可被分为两类。一类是离线检测器,其研究对象是静态数据。离线检测器在训练时需要全部数据,这种训练方式能够最大程度集成所有数据信息,但在面对海量数据时,模型训练需要高昂的时间和内存资源。另一类是在线检测器,其研究对象是常规数据流,常规数据流中的实例按固定的时间间隔逐个到达。在线模型在每个时间点基于新到达的实例对模型进行更新调整。由于每次更新时可用信息过少,这类算法无法保证最终得到的模型能达到最优结构,这使得在线模型的检测性能偏低。
目前在工业场景中静态数据与常规数据流都不再适用,工业场景中当前的新型数据结构称为复杂数据流,它在每个时间点都会有一批实例同时到达。复杂数据流存在三个重要特征:
1)高维且稀疏;
2)数据增长规模多变。每个时间点都会有一批数据同时到达,且每次到达的实例数量是不断变化的;
3)异常比例极低。现有异常检测技术主要应对静态数据与常规数据流,都无法在复杂数据流上达到预期效果。
综上所述,适用于复杂数据流的高效异常检测技术尚未出现。
发明内容
为了解决现有技术存在的不足,本发明的目的是提供一种针对复杂数据流的异常检测集成方法。具体地,本发明提供了一种基于集成学习,结合stacking思想对原始数据进行特征压缩,集成离线检测器与在线检测器,使算法兼具稳定性与可塑性,同时结合分层重放机制与自适应权重更新机制,得到一个高效准确可抵抗概念漂移的用于复杂数据流异常检测的方法。
所述集成学习是指通过构建并结合多个机器学习器(基学习器)来完成学习任务。集成学习可以用于分类问题、回归问题、特征选取、异常点检测等等。通过一定的结合策略,集成若干个个体弱学习器,就可以最终形成一个强学习器,以达到博采众长的目的。
所述stacking是指将一系列模型(也称基模型)的输出结果作为新特征输入到其他模型,实现模型的层叠,即第一层的模型输出作为第二层模型的输入,第二层模型的输出作为第三层模型的输入,依次类推,最后一层模型输出的结果作为最终结果。
所述特征压缩是将高维数据转化为低维数据的过程,在此过程中基于原有数据创造新的变量,在保留数据信息的前提下,尽可能降低数据的维度。
所述分层重放机制对不同类别的历史样本采取不同规则进行筛选,而后以原始格式存储筛选所得范例样本。这些范例样本在模型学习新样本时,被重新用作模型输入以减轻遗忘。
所述自适应权重更新机制是指在获取当前时刻样本真实标签后,计算检测器集成部分的各个检测器的性能,提高那些前一时刻分类错误率小的检测器权重,降低分类错误率大的弱检测器权重。
所述概率漂移是指目标变量的统计特征随着时间的推移以不可预见的方式变化的现象。
实现本发明目的的具体技术方案是:
本发明提供了一种针对复杂数据流的异常检测集成方法,包含以下步骤:
S1:特征压缩:
S2:检测器集成:
使用步骤S1中获得的压缩后的数据,同时训练离线检测器与在线检测器;
S3:分层重放机制:
对正常实例与异常实例采取不同筛选规则进行分层筛选,构建范例集;
S4:异常分数预测及自适应权重更新:
得到更新完毕的模型后,可对t+1时刻到达的实例进行预测。在获得t+1时刻的所有实例的标签后,更新不同检测器的权重,更新检测模型。
为优化上述技术方案,采取的具体措施还包括:
本发明所述的异常检测集成方法配备了四个组件:特征压缩部分、检测器集成部分、分层重放机制和自适应权重更新机制。
特征压缩部分由m个有监督分类器构成,其中t时刻第j(j=1,2,···,m)个有监督分类器表示为由实例d=(x,y)'经压缩后的数据表示为其中z为2m维特征向量,y为实例的二分类标签。检测器集成部分由noff个离线检测器和non个在线检测器构成,其中t时刻第j(j=1,2,···,noff+non)个检测器表示为t时刻第j(j=1,2,···,noff+non)个检测器的权重表示为第j(j=1,2,···,noff+non)个检测器对t+1时刻到达的实例进行检测,输出的异常分数表示为最终所有检测器对t+1时刻到达的实例的加权异常分数为分层重放机制最重要的部分则是构建范例集,t时刻的范例集表示为εt,范例集εt是以t-1时刻的范例集εt-1与t时刻到达的实例集作为候选样本集,对候选样本集中的正常样本和异常样本采取不同的筛选规则,分层筛选所得,其中表示εt中所有正常范例,表示εt中所有异常范例。分层重放机制从抵抗灾难性遗忘和缓解样本不平衡两方面提高了模型精度:对于正常样本,选择在特征空间中最接近类均值的k个优质样本,在保留历史样本信息的同时控制了内存资源消耗,对于异常样本则选择全部保留,一是由于异常样本数量很少,全部保留也不会对内存产生威胁,二是随着异常样本的累积,可以有效缓解样本不平衡现象,此处借鉴了过采样思想;
步骤S1中,合并t-1时刻的范例集和t时刻到达的实例集,作为训练集,训练m个有监督分类器j=1,···,m,此处所有训练数据均为原始维度,实例d=(x,y)'。训练完毕后,利用第j个分类器得到后验概率,分别为实例d为异常样本的概率和实例d为正常样本的概率分别记为和j=1,2,···,m;
上述步骤S2包括:
步骤2.1)训练离线异常检测器
离线异常检测器的训练一般需要全部实例,但这种传统的训练方式并不契合不断增长的复杂数据流。由于复杂数据流随着时间的推移规模不断扩大,很容易导致离线异常检测器的训练时间及成本过于高昂,因此本发明选择将合并后的t-1时刻的范例集和t时刻到达的实例集作为训练集,而非t时刻之前的所有实例εt-1只包含了中全部异常实例,和最接近正常类质心的k个正常实例,中大多数正常实例被排除在训练集外。离线异常检测器训练集由t-1时刻的范例集εt-1和t时刻到达的实例集构成,即训练集在经过特征压缩后,训练noff个离线异常检测器j=1,···,noff。在工程实现时,noff通常设定为1或2。有监督或无监督异常检测技术都可以作为离线异常检测器使用。
步骤2.2)训练在线异常检测器
大多数现有的在线异常检测器,都是为一次只有一个实例到达的常规流数据而设计,其特点是模型可保留先前的数据流中的信息。在线检测器在t时刻的更新流程如下:将当前时刻到达的实例集与上一时刻的范例集εt-1同时作为训练集,使训练集中的实例逐个进入模型,不断更新每个在线异常检测器中的参数。在线异常检测器可以是半空间树,快速决策树(VFDT),极端快速决策树(EFDT)等采取增量更新模式的检测器。以半空间树为例,检测器在训练之前,提前构建了原始特征空间的随机树结构。接下来各实例逐个到达不断更新半空间树中每个节点的质量,直到更新至的最后一个实例。与训练离线检测器类似,也可以训练多个在线异常检测器,记为j=noff+1,noff+2,···,noff+non。
步骤2.3)计算各检测器的异常分数并加权
上述步骤S3包括:
步骤3.1)构建异常范例集
对于异常实例,保留t时刻之前的所有异常实例,即
步骤3.2)构建正常范例集
对于正常实例,选择具有代表性的实例构建范例集。假设范例集最大可为k,当k大于t-1时刻的正常范例集和t时刻到达的所有正常实例的数量之和时,则所有正常实例都被保留。否则,需要对这些实例进行筛选,筛选规则如下。首先,确定这些实例的均值向量,即
步骤3.3)合并完整范例集
上述步骤S4包括:
步骤4.1)在t+1时刻前,已经训练了m个分类器和noff+non个检测器一旦未标记的实例到达(目前标签y未知),可以通过以下步骤对其进行预测。首先,使用分类器t=1,···,m对未标记实例进行预测,得到后验概率z=(f1(x),1-f1(x),···,fm(x),1-fm(x))作为新特征。然后,使用训练好的离线检测器和/或在线检测器对压缩后的数据进行检测,每个检测器输出其异常分数。各检测器输出的异常分数分别表示为j=1,2,···,noff+non。接下来,计算加权得分
步骤4.2)在模型初始化时,每个检测器都被分配了相同的权重。在获得t+1时刻的所有实例的标签后,可更新不同检测器的权重。假设得到预测实例的标签为y,计算得到的第j个检测器的得分为每个检测器权重更新为 为交叉熵损失函数,用于衡量真实标签y与异常得分之间的差异。
本发明还提供了一种实现上述检测集成方法的检测系统,所述检测系统包括特征压缩模块、检测器集成模块、范例集构建模块、自适应权重更新模块。
所述特征压缩模块由2个有监督分类器构成,分别为随机森林和自适应提升森林随机森林和自适应提升森林都以合并后的t-1时刻的范例集和t时刻到达的实例集,作为其训练集,此时所有训练实例均为原始维度d=(x,y)'。之后分别使用训练完毕的随机森林和自适应提升森林对训练集中所有实例进行预测。以随机森林为例,随机森林可预测每个实例d属于异常类别的概率和属于正常类别的概率将这2维后验概率作为新特征,分别记为和同理自适应提升森林对每个实例d进行预测,也可获得2维新特征,分别记为和合并两个分类器的后验概率后可得到4维特征向量,即最终获得压缩后的数据表示
所述检测器集成模块由一个离线异常检测器孤立森林和一个在线异常检测器半空间树构成。对于离线异常检测器孤立森林,在t时刻系统会舍弃t-1时刻的孤立森林使用合并的t-1时刻的范例集和t时刻到达的实例集作为训练集,重新训练得到全新的孤立森林此时所有训练实例均为压缩后的数据对于在线异常检测器半空间树系统会保留t-1时刻的半空间树使用中的实例不断更新半空间树中每个节点的参数,直到更新至的最后一个实例,得到更新完毕的在t+1时刻,实例集到达后,使用训练完毕离线异常检测器孤立森林和更新完毕的在线异常检测器半空间树分别对中各实例进行预测(预测前需对中各实例进行特征压缩),得到孤立森林预测异常分数和半空间树预测异常分数两个检测器的加权异常分数为其中为孤立森林的权重,为半空间树的权重。
所述范例集构建模块采取分层思想,对正常实例和异常实例采取不同的筛选规则。当t时刻数据集到达后,将其与t-1时刻范例集εt-1合并,得到完整的候选实例集对于候选实例集中的异常实例,选择全部保留至t时刻范例集εt中。按照此规则,数据流中所有异常实例都会被保存下来,即为范例集εt中所有异常实例。对于候选实例集中的正常实例,只保留最接近均值向量的k个实例,作为优质实例入选范例集εt。首先计算正常实例的均值向量而后计算中每个候选实例与均值向量之间的距离,距离最近的前k个实例被挑选为正常范例集最后将异常范例集和正常范例集合并后得到t时刻完整范例集εt,即t时刻完整范例集εt会在t+1时刻作为特征压缩部分训练集的一部分,也会在构造εt+1作为候选实例集的一部分。
所述自适应权重更新模块是通过损失函数评价检测器集成模块中离线异常检测器孤立森林和在线异常检测器半空间树的准确性,而后通过对损失值进行变换后得到更新后的权重值,以达到提高前一时刻分类错误率小的分类器权重,降低分类错误率大的弱分类器权重的效果,具体计算过程如下。在t+1时刻实例集到达,此时中各实例处于未标记的状态到达(目前标签y未知),首先使用特征压缩模块中随机森林和自适应提升森林对中实例进行特征压缩,得到压缩后数据z=(f1(x),1-f1(x),f2(x),1-f2(x))。再使用检测器集成模块中离线异常检测器孤立森林和在线异常检测器半空间树对压缩后数据进行检测,获取孤立森林异常分数半空间树异常分数对两个异常分数加权求和得最终预测结果(两个检测器权重初始化为0.5,即)。在获取实例集中各实例标签y后,分别对两个检测器权重进行更新:
本发明的有益效果包括:本发明在复杂数据流的异常检测任务上,相比于现有的检测模型,特征压缩部分降低了模型训练开销,离线检测器与在线检测器的集成使模型在稳定性与可塑性上都具备竞争力,同时分层重放和自适应权重更新机制增强了模型抵抗灾难性遗忘和概念漂移的能力。本发明方法相对于现有方法,在准确率与召回率上均提升了数十个百分点。
附图说明
图1为本发明异常检测训练及预测过程示意图;
图2为本发明模型构建流程图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明对复杂数据流采取增量学习的方式进行训练,使用t时刻更新所得模型,对t+1时刻到达实例集进行检测。具体的更新流程:首先使用特征压缩部分的随机森林和自适应提升森林对原始特征空间进行压缩,而后使用压缩后的数据分别训练离线异常检测器孤立森林和在线异常检测器半空间树接着以t-1时刻范例集εt-1和t时刻为候选实例,分层筛选得到更新后的范例集εt。t+1时刻实例到达后,使用更新完毕的模型进行检测,在获得t+1时刻的所有实例的标签后,对离线异常检测器孤立森林和在线异常检测器半空间树的权重进行更新。
具体地,本发明提出了一种针对复杂数据流的异常检测集成方法,所述异常检测集成方法是一种基于集成学习,结合stacking思想对原始数据进行特征压缩,集成离线检测器与在线检测器,使算法兼具稳定性与可塑性,同时结合分层重放机制与自适应权重更新机制,获得的一个高效准确可抵抗概念漂移的用于复杂数据流异常检测的方法。包括如下步骤:
S2:检测器集成:使用步骤S1中获得的压缩后的数据,同时训练离线检测器与在线检测器;
S3:分层重放机制:对正常实例与异常实例采取不同筛选规则进行分层筛选,构建范例集;
S4:异常分数预测及自适应权重更新:模型中参数更新完成后,对t+1时刻到达的实例进行预测;在获得t+1时刻的所有实例的标签后,更新不同检测器的权重,并更新检测模型。
通过以下具体实施例对本发明作进一步的详细说明。
实施例
以调查企业日常支付交易中是否存在欺诈行为为例。从一家线上支付公司收集了2021年8月某地区餐饮行业1个月的交易数据,使用本发明实现的检测系统检测各商户在日常支付交易中是否存在欺诈活动,其中包括套现、刷分、洗钱等。商户每日交易记录包括620维特征,如每日交易数量、每日活跃交易比例、错误交易数量等。
参阅图2,按下述步骤,以天为时间单位(t)对模型进行增量更新:
S1:以第t天数据及第t-1天的范例集εt-1为训练集,对特征压缩部分的随机森林和自适应提升森林进行训练,而后使用训练完毕的分类器对训练集进行预测,拼接两分类器的后验概率,得4维压缩特征z=(f1(x),1-f1(x),f2(x),1-f2(x)),如[0.82,0.18,0.85,0.15];
S4:使用S2步所得两个异常检测模型,对第t+1天到达实例进行检测,得加权异常分数以一正常实例为例,孤立森林的预测异常分数为 半空间树的预测异常分数为在t时刻孤立森林的权重为半空间树的权重为故最终加权异常分数为st+1=0.4*0.11+0.6*0.28=0.212,异常分数st+1小于阈值c=0.5,故判为正常实例。在获取第t+1天所有实例的标签后,使用交叉熵损失函数衡量孤立森林和半空间树检测性能,并以检测器的检测性能为基准更新各检测器的权重,使检测性能优秀的检测器获得更高的权重。
后续将本发明实现的检测系统(SADEN)结果与半空间树(HS-Trees),应对变化特征数据流的实时异常检测器(xStream),基于随机散列的子空间异常检测器(RS-Hash)进行对比,以操作特性曲线下面积(AUROC)和精确召回曲线下面积(AUPRC)为衡量指标,报告了在8月观察到的所有实例的预测结果,结果见表1。
操作特性曲线下面积(AUROC)的值越大,模型效果越好;精确召回曲线下面积(AUPRC)的值越大,模型效果越好。
本发明实现的检测系统(SADEN)在精度和召回率上都优于与半空间树(HS-Trees),应对变化特征数据流的实时异常检测器(xStream),基于随机散列的子空间异常检测器(RS-Hash)。其中本发明实现的检测系统(SADEN)在指标AUPRC相较于其他模型提升了近两个数量级,在指标AUROC也提升了数十个百分点。
表1不同检测器AUROC和AUPRC的对比
本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (7)
1.一种针对复杂数据流的异常检测集成方法,其特征在于,所述异常检测集成方法是一种基于集成学习,结合stacking思想对原始数据进行特征压缩,集成离线检测器与在线检测器,使算法兼具稳定性与可塑性,同时结合分层重放机制与自适应权重更新机制,获得的一个高效准确可抵抗概念漂移的用于复杂数据流异常检测的方法。
4.根据权利要求2所述的异常检测集成方法,其特征在于,所述步骤S2具体包括:
步骤2.2)、训练在线异常检测器:将当前时刻到达的实例集与上一时刻的范例集εt-1同时作为训练集,使训练集中的实例逐个进入在线异常检测器的模型,不断更新每个在线异常检测器中的参数,训练多个在线异常检测器,记为
5.根据权利要求2所述的异常检测集成方法,其特征在于,所述步骤S3具体包括:
步骤3.1)、构建异常范例集:对于异常实例,保留t时刻之前的所有异常实例,即
步骤3.2)、构建正常范例集:对于正常实例,选择具有代表性的实例构建范例集,假设范例集最大可为k,当k大于t-1时刻的正常范例集和t时刻到达的所有正常实例的数量之和时,则所有正常实例都被保留;否则,需要对这些实例进行筛选,筛选规则如下,首先,确定这些实例的均值向量,即
其中|A|是集合A中的元素数;
6.根据权利要求2所述的异常检测集成方法,其特征在于,所述步骤S4具体包括:
步骤4.1)、在t+1时刻前,已经训练了m个分类器和noff+non个检测器一旦目前标签y未知的未标记的实例 到达,通过以下步骤对其进行预测:首先,使用分类器对未标记示例进行预测,得到后验概率z=(f1(x),1-f1(x),···,fm(x),1-fm(x))作为新特征;然后,使用训练好的离线异常检测器和/或在线异常检测器对压缩后的数据进行检测,每个检测器输出其异常分数;各检测器输出的异常分数分别表示为接下来,计算加权得分:
步骤4.2)、在模型初始化时,每个检测器都被分配了相同的权重,在获得t+1时刻的所有实例的标签后,更新不同检测器的权重;假设得到预测实例的标签为y,计算得到的第j个检测器的得分为每个检测器权重更新为 为交叉熵损失函数,用于衡量真实标签y与异常得分之间的差异;交叉熵损失函数表示如下:
7.一种实现如权利要求1-6之任一项所述的异常检测集成方法的检测系统,所述检测系统包括特征压缩模块、检测器集成模块、范例集构建模块、自适应权重更新模块;
所述特征压缩模块由2个有监督分类器构成,分别为随机森林和自适应提升森林随机森林和自适应提升森林都以合并后的t-1时刻的范例集和t时刻到达的实例集,作为其训练集,此时所有训练实例均为原始维度d=(x,y)';之后分别使用训练完毕的随机森林和自适应提升森林对训练集中所有实例进行预测;记随机森林的2维后验概率分别记为和自适应提升森林的2维后验概率分别记为和合并两个分类器的后验概率后得到4维特征向量,即最终获得压缩后的数据表示
所述检测器集成模块由一个离线异常检测器孤立森林和一个在线异常检测器半空间树构成;对于离线异常检测器孤立森林,在t时刻系统会舍弃t-1时刻的孤立森林使用合并的t-1时刻的范例集和t时刻到达的实例集作为训练集,重新训练得到全新的孤立森林对于在线异常检测器半空间树系统会保留t-1时刻的半空间树使用中的实例不断更新半空间树中每个节点的参数,直到更新至的最后一个实例,得到更新完毕的在t+1时刻,实例集到达后,使用训练完毕离线异常检测器孤立森林和更新完毕的在线异常检测器半空间树分别对中各实例进行预测,得到孤立森林预测异常分数和半空间树预测异常分数两个检测器的加权异常分数为其中为孤立森林的权重,为半空间树的权重;
所述范例集构建模块采取分层思想,对正常实例和异常实例采取不同的筛选规则;当t时刻数据集到达后,将其与t-1时刻范例集εt-1合并,得到完整的候选实例集对于候选实例集中的异常实例,选择全部保留至t时刻范例集εt中,即 为范例集εt中所有异常实例;对于候选实例集中的正常实例,只保留最接近均值向量的k个实例,作为优质实例入选范例集εt;首先计算正常实例的均值向量而后计算中每个候选实例与均值向量之间的距离,距离最近的前k个实例被挑选为正常范例集最后将异常范例集和正常范例集合并后得到t时刻完整范例集εt,即
所述自适应权重更新模块是通过损失函数评价检测器集成模块中离线异常检测器孤立森林和在线异常检测器半空间树的准确性,而后通过对损失值进行变换后得到更新后的权重值,以达到提高前一时刻分类错误率小的分类器权重,降低分类错误率大的弱分类器权重的效果;在t+1时刻实例集到达,此时中各实例处于未标记的状态 到达,首先使用特征压缩模块中随机森林和自适应提升森林对中实例进行特征压缩,得到压缩后数据z=(f1(x),1-f1(x),f2(x),1-f2(x));再使用检测器集成模块中离线异常检测器孤立森林和在线异常检测器半空间树对压缩后数据进行检测,获取孤立森林异常分数半空间树异常分数对两个异常分数加权求和得最终预测结果在获取实例集中各实例标签y后,分别对两个检测器权重进行更新:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211131399.8A CN115423027A (zh) | 2022-09-16 | 2022-09-16 | 一种针对复杂数据流的异常检测集成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211131399.8A CN115423027A (zh) | 2022-09-16 | 2022-09-16 | 一种针对复杂数据流的异常检测集成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115423027A true CN115423027A (zh) | 2022-12-02 |
Family
ID=84203631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211131399.8A Pending CN115423027A (zh) | 2022-09-16 | 2022-09-16 | 一种针对复杂数据流的异常检测集成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115423027A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116580029A (zh) * | 2023-07-12 | 2023-08-11 | 浙江海威汽车零件有限公司 | 铝合金铸造成品的质检管控系统及其方法 |
-
2022
- 2022-09-16 CN CN202211131399.8A patent/CN115423027A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116580029A (zh) * | 2023-07-12 | 2023-08-11 | 浙江海威汽车零件有限公司 | 铝合金铸造成品的质检管控系统及其方法 |
CN116580029B (zh) * | 2023-07-12 | 2023-10-13 | 浙江海威汽车零件有限公司 | 铝合金铸造成品的质检管控系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472817B (zh) | 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 | |
Bertolini et al. | Machine Learning for industrial applications: A comprehensive literature review | |
Li et al. | An overview of personal credit scoring: techniques and future work | |
Bellotti et al. | Support vector machines for credit scoring and discovery of significant features | |
Sadatrasoul et al. | Credit scoring in banks and financial institutions via data mining techniques: A literature review | |
Yang | Adaptive credit scoring with kernel learning methods | |
Yotsawat et al. | A novel method for credit scoring based on cost-sensitive neural network ensemble | |
Ortego et al. | Evolutionary LSTM-FCN networks for pattern classification in industrial processes | |
Faraji | A review of machine learning applications for credit card fraud detection with a case study | |
CN113256409A (zh) | 基于机器学习的银行零售客户流失预测方法 | |
Oliveira et al. | Detecting novelties in time series through neural networks forecasting with robust confidence intervals | |
CN115423027A (zh) | 一种针对复杂数据流的异常检测集成方法及系统 | |
CN112232604A (zh) | 基于Prophet模型提取网络流量的预测方法 | |
Tsai | Two‐stage hybrid learning techniques for bankruptcy prediction | |
Yahaya et al. | An enhanced bank customers churn prediction model using a hybrid genetic algorithm and k-means filter and artificial neural network | |
Leevy et al. | The effect of time on the maintenance of a predictive model | |
Mehrmolaei et al. | A brief survey on event prediction methods in time series | |
Labiad et al. | Short term prediction framework for moroccan stock market using artificial neural networks | |
Li et al. | Neural network credit-risk evaluation model based on back-propagation algorithm | |
Shaheen et al. | Predictive analytics for loan default in banking sector using machine learning techniques | |
Osowski et al. | Prediction of customer status in corporate banking using neural networks | |
CN113609480B (zh) | 基于大规模网络流的多路学习入侵检测方法 | |
Vasu et al. | Bankruptcy prediction in banks by principal component analysis threshold accepting trained wavelet neural network hybrid | |
Sengupta et al. | A review of payment card fraud detection methods using artificial intelligence | |
Dattachaudhuri et al. | Transparent neural based expert system for credit risk (TNESCR): an automated credit risk evaluation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |