CN114726749A - 数据异常检测模型获取方法、装置、设备、介质及产品 - Google Patents
数据异常检测模型获取方法、装置、设备、介质及产品 Download PDFInfo
- Publication number
- CN114726749A CN114726749A CN202210200139.5A CN202210200139A CN114726749A CN 114726749 A CN114726749 A CN 114726749A CN 202210200139 A CN202210200139 A CN 202210200139A CN 114726749 A CN114726749 A CN 114726749A
- Authority
- CN
- China
- Prior art keywords
- index
- time sequence
- data
- type
- classifiers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 171
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000011156 evaluation Methods 0.000 claims abstract description 142
- 230000005856 abnormality Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 230000002159 abnormal effect Effects 0.000 claims description 40
- 238000000354 decomposition reaction Methods 0.000 claims description 14
- 238000003062 neural network model Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Environmental & Geological Engineering (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本公开实施例公开了一种数据异常检测模型获取方法、装置、设备、介质及产品,该方法包括:使用CDN内多个预设时序指标中每个时序指标对应的待测时序数据,分别训练预设的多种类型的初始弱分类器,得到每个时序指标对应的多种类型指标分类器;从各时序指标中抽样得到预设数量的样本时序指标对应的样本时序数据及其数据类型;基于样本时序数据及其数据类型,对各类型指标分类器进行评估,得到各类型指标分类器的评估结果;基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重;生成的数据异常检测模型包括时序指标对应的多种类型的指标分类器及其投票权重。该技术方案可以快速生成接入监测且准确地对大规模时序数据进行异常检测。
Description
技术领域
本公开实施例涉及数据处理技术领域,具体涉及一种数据异常检测模型获取方法、装置、设备、介质及产品。
背景技术
数据,已经渗透到当今每一个行业和应用职能领域,成为重要的生产因素。在数据技术时代,数据主要都是随时间变化的时序数据,日常的时序数据异常检测非常重要,一旦发生数据异常影响不可估量。所谓异常检测就是监测并发现数据中不符合正常行为的异常模式。它已广泛用于交易监测、故障诊断、疾病检测、入侵检测、身份辨识等领域。例如商家退货比例飙升可能是竞争对手恶意刷单,网络流量的异常可能意味着受攻击主机上敏感信息的泄密,信用卡的异常消费等欺诈行为会导致巨大的经济损失。目前,业界常用的数据异常检测方法是基于统计方法的异常检测和基于深度学习的异常检测,这两种方法都是应用服务运行后采集历史时序数据、对历史时序数据进行分析和打标后进行时序预测模型的训练,通过训练好的时序预测模型来预测当前时序数据是否出现异常。这类方案使用的时序预测模型是定制化的模型,只有对特定类型的时序数据的预测可以达到很好的准确性,但在实际应用中,需要检测的时序数据体量规模很大,不同时序指标的时序数据的特征有很大差别,甚至不同维度对象的同一类时序数据的特征差别都很大,仅使用特定类型的时序预测模型无法取得准确的检测结果;而且应用功能变化快,服务指标接入检测的周期很短,使用现有的方案需要进行长时间的训练才能得到准确的预测模型进行数据检测,无法快速接入检测。
发明内容
本公开实施例提供一种数据异常检测模型获取方法、装置、设备、介质及产品。
第一方面,本公开实施例中提供了一种数据异常检测模型获取方法。
具体的,所述数据异常检测模型获取方法,包括:
使用内容分发网络CDN内多个预设时序指标中每个时序指标对应的待测时序数据,分别训练预设的多种类型的初始弱分类器,得到每个时序指标对应的多种类型指标分类器;
从各时序指标中抽样得到预设数量的样本时序指标,获取所述样本时序指标对应的样本时序数据及其数据类型,所述数据类型包括异常数据和正常数据;
基于所述样本时序指标对应的样本时序数据及其数据类型,对各类型指标分类器进行评估,得到各类型指标分类器的评估结果;
基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重;
生成数据异常检测模型,所述数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重。
结合第一方面,本公开在第一方面的第一种实现方式中,其中,所述基于所述样本时序指标对应的样本时序数据及其数据类型,对各类型指标分类器进行评估,得到各类型指标分类器的评估结果,包括:
基于所述样本时序指标对应的样本时序数据及其数据类型,对所述样本时序指标对应的多种类型指标分类器进行评估,得到所述样本时序指标对应的多种类型指标分类器的评估结果;
基于各样本时序指标对应的同一类型的各指标分类器的评估结果,确定同一类型指标分类器的综合评估结果。
结合第一方面和第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,其中,所述基于所述样本时序指标对应的样本时序数据及其数据类型,对所述样本时序指标对应的多种类型指标分类器进行评估,得到所述样本时序指标对应的多种类型指标分类器的评估结果,包括:
使用所述样本时序指标对应的多种类型指标分类器分别对所述样本时序指标对应的样本时序数据进行数据类型预测,得到预测结果;
基于所述样本时序指标对应的多种类型指标分类器的预测结果和数据类型的匹配情况,确定所述样本时序指标对应的多种类型指标分类器的评估结果,所述评估结果包括准确率和/或召回率。
结合第一方面和第一方面的各种实现方式,本公开在第一方面的第三种实现方式中,其中,所述评估结果包括准确率和召回率时,所述基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重,包括:
按照预设的准确率和召回率的权重值,对同一类型的指标分类器的准确率和召回率进行加权计算,得到所述同一类型的指标分类器的综合评估值;
基于各类型指标分类器的综合评估值,确定各类型指标分类器的投票权重,其中,所述综合评估值与所述投票权重成正比。
结合第一方面和第一方面的各种实现方式,本公开在第一方面的第三种实现方式中,其中,所述初始弱分类器包括时序分解模型、无监督模型、神经网络模型中的两种或两种以上。
第二方面,本公开实施例中提供了一种数据异常检测方法,
具体的,应用数据异常检测模型进行检测,所述数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重,所述数据异常检测方法,包括:
将时序指标对应的待测时序数据分别输入至所述时序指标对应的多种类型指标分类器,得到所述多种类型指标分类器对应的预测结果;
按照各类型指标分类器的投票权重对各类型指标分类器对应的预测结果进行投票,得到所述时序指标对应的待测时序数据的检测结果。
第三方面,本公开实施例中提供了一种数据异常检测模型获取装置。
具体的,所述数据异常检测模型获取装置,包括:
训练模块,被配置为使用内容分发网络CDN内多个预设时序指标中每个时序指标对应的待测时序数据,分别训练预设的多种类型的初始弱分类器,得到每个时序指标对应的多种类型指标分类器;
抽样模块,被配置为从各时序指标中抽样得到预设数量的样本时序指标,获取所述样本时序指标对应的样本时序数据及其数据类型,所述数据类型包括异常数据和正常数据;
评估模块,被配置为基于所述样本时序指标对应的样本时序数据及其数据类型,对各类型指标分类器进行评估,得到各类型指标分类器的评估结果;
确定模块,被配置为基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重;
生成模块,被配置为生成数据异常检测模型,所述数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重。
结合第三方面,本公开在第三方面的第一种实现方式中,其中,所述评估模块被配置为:
基于所述样本时序指标对应的样本时序数据及其数据类型,对所述样本时序指标对应的多种类型指标分类器进行评估,得到所述样本时序指标对应的多种类型指标分类器的评估结果;
基于各样本时序指标对应的同一类型的各指标分类器的评估结果,确定同一类型指标分类器的综合评估结果。
结合第三方面和第三方面的第一种实现方式,本公开在第三方面的第二种实现方式中,其中,所述评估模块中基于所述样本时序指标对应的样本时序数据及其数据类型,对所述样本时序指标对应的多种类型指标分类器进行评估,得到所述样本时序指标对应的多种类型指标分类器的评估结果的部分被配置为:
使用所述样本时序指标对应的多种类型指标分类器分别对所述样本时序指标对应的样本时序数据进行数据类型预测,得到预测结果;
基于所述样本时序指标对应的多种类型指标分类器的预测结果和数据类型的匹配情况,确定所述样本时序指标对应的多种类型指标分类器的评估结果,所述评估结果包括准确率和/或召回率。
结合第三方面和第三方面的各种实现方式,本公开在第三方面的第三种实现方式中,其中,所述评估结果包括准确率和召回率时,所述确定模块被配置为:
按照预设的准确率和召回率的权重值,对同一类型的指标分类器的准确率和召回率进行加权计算,得到所述同一类型的指标分类器的综合评估值;
基于各类型指标分类器的综合评估值,确定各类型指标分类器的投票权重,其中,所述综合评估值与所述投票权重成正比。
结合第三方面和第三方面的各种实现方式,本公开在第三方面的第三种实现方式中,其中,所述初始弱分类器包括时序分解模型、无监督模型、神经网络模型中的两种或两种以上。
第四方面,本公开实施例中提供了一种数据异常检测装置,
具体的,应用数据异常检测模型进行检测,所述数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重,所述数据异常检测装置,包括:
预测模块,被配置为将时序指标对应的待测时序数据分别输入至所述时序指标对应的多种类型指标分类器,得到所述多种类型指标分类器对应的预测结果;
投票模块,被配置为按照各类型指标分类器的投票权重对各类型指标分类器对应的预测结果进行投票,得到所述时序指标对应的待测时序数据的检测结果。
第五方面,本公开实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条支持上述装置执行上述方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。
第六方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现上述任一方面所述的方法步骤。
第七方面,本公开实施例提供了一种计算机程序产品,包括计算机程序/指令,其中,该计算机程序/指令被处理器执行时实现上述任一方面所述的方法步骤。
本公开实施例提供的技术方案可包括以下有益效果:
上述技术方案可以先使用每个时序指标对应的待测时序数据,分别训练预设的多种类型的初始弱分类器,得到每个时序指标对应的多种类型指标分类器,然后,用打标有数据类型的预设数量的样本时序指标对应的样本时序数据对各类型指标分类器进行效果评估,得到各类型指标分类器的评估结果,这样就可以基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重;进而生成数据异常检测模型,所述数据异常检测模型中集成有每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重,可以应用于大规模的具有海量时序指标的待测时序数据,在对每个时序指标对应的待测时序数据进行异常检测时,可以让该时序指标对应的多个类型的指标分类器相互竞争,相互弥补错误,投票得到最终的检测结果,准确率较高,且这些指标分类器都是弱分类器,对于大规模时序数据可以较快地训练得到,接入检测的周期更短。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开实施例。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开实施例的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的数据异常检测模型获取方法的流程图。
图2示出根据本公开一实施方式的数据异常检测模型生成过程示意图。
图3示出根据本公开一实施方式的数据异常检测方法的流程图。
图4示出根据本公开一实施方式的数据异常检测模型获取装置的结构框图。
图5示出根据本公开一实施方式的数据异常检测装置的结构框图。
图6示出根据本公开一实施方式的电子设备的结构框图。
图7是适于用来实现根据本公开实施例所述方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开实施例的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开实施例中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开实施例。
上文提及,数据,已经渗透到当今每一个行业和应用职能领域,成为重要的生产因素。在数据技术时代,数据主要都是随时间变化的时序数据,日常的时序数据异常检测非常重要,一旦发生数据异常影响不可估量。所谓异常检测就是监测并发现数据中不符合正常行为的异常模式。它已广泛用于交易监测、故障诊断、疾病检测、入侵检测、身份辨识等领域。例如商家退货比例飙升可能是竞争对手恶意刷单,网络流量的异常可能意味着受攻击主机上敏感信息的泄密,信用卡的异常消费等欺诈行为会导致巨大的经济损失。目前,业界常用的数据异常检测方法是基于统计方法的异常检测和基于深度学习的异常检测,这两种方法都是应用服务运行后采集历史时序数据、对历史时序数据进行分析和打标后进行时序预测模型的训练,通过训练好的时序预测模型来预测当前时序数据是否出现异常。这类方案使用的时序预测模型是定制化的模型,只有对特定类型的时序数据的预测可以达到很好的准确性,但在实际应用中,需要检测的时序数据体量规模很大,不同时序指标的时序数据的特征有很大差别,甚至不同维度对象的同一类时序数据的特征差别都很大,仅使用特定类型的时序预测模型无法取得准确的检测结果;而且应用功能变化快,服务指标接入检测的周期很短,使用现有的方案需要进行长时间的训练才能得到准确的预测模型进行数据检测,无法快速接入检测。
考虑到上述问题,本公开提出一种数据异常检测模型获取方法,可以先使用每个时序指标对应的待测时序数据,分别训练预设的多种类型的初始弱分类器,得到每个时序指标对应的多种类型指标分类器,然后,用打标有数据类型的预设数量的样本时序指标对应的样本时序数据对各类型指标分类器进行效果评估,得到各类型指标分类器的评估结果,这样就可以基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重;进而生成数据异常检测模型,所述数据异常检测模型中集成有每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重,可以应用于大规模的具有海量时序指标的待测时序数据,在对每个时序指标对应的待测时序数据进行异常检测时,可以让该时序指标对应的多个类型的指标分类器相互竞争,相互弥补错误,投票得到最终的检测结果,准确率较高,且这些指标分类器都是弱分类器,对于大规模时序数据可以较快地训练得到,接入检测的周期更短。
图1示出根据本公开一实施方式的数据异常检测模型获取方法的流程图,如图1所示,所述数据异常检测模型获取方法包括以下步骤S101-S105:
在步骤S101中,使用内容分发网络CDN内多个预设时序指标中每个时序指标对应的待测时序数据,分别训练预设的多种类型的初始弱分类器,得到每个时序指标对应的多种类型指标分类器;
在步骤S102中,从各时序指标中抽样得到预设数量的样本时序指标,获取所述样本时序指标对应的样本时序数据及其数据类型,所述数据类型包括异常数据和正常数据;
在步骤S103中,基于所述样本时序指标对应的样本时序数据及其数据类型,对各类型指标分类器进行评估,得到各类型指标分类器的评估结果;
在步骤S104中,基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重;
在步骤S105中,生成数据异常检测模型,所述数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重。
在本公开一实施方式中,所述数据异常检测模型获取方法可适用于能够进行数据异常检测模型的服务器及服务器集群中,获取的数据异常检测模型主要用于大规模时序数据的异常检测。
在本公开一实施方式中,时序指标指的是检测的数据类型,如在CDN(ContentDelivery Network,内容分发网络)系统中,需要检测的数据类型即时序指标可以是各服务节点的卡顿率(buffer_rate)、丢帧率(fail_rate)、首帧播放延时等等。各时序指标对应的数值会按照时间顺序产生,形成时序数据。
在本公开一实施方式中,分类器(classifier)是机器学习模型的一种,模型目标是将具有类似特征的对象聚集在一起,反之则将对象区分开。弱分类器(weak classifier)指的是未经过参数调优的分类器,预期准确性仅比随机分类要好一些,弱分类器体量小、训练快。
在本公开一实施方式中,预设的初始弱分类器的类型都是在此前已经验证过的、适用于时序数据的异常检测的模型,可以是时序分解模型、无监督模型、神经网络模型中的两种或两种以上。示例的,假设预设的初始弱分类器的类型有100种,则可以30种属于时序分解模型、30种属于无监督模型、40种属于神经网路模型,该时序分解模型可以是STL(Seasonal-Trend decomposition procedure based on Loess)模型,该无监督模型可以是KDE(Kernel Density Estimation,核密度估计)模型,该神经网络模型可以是LSTM(LongShort Term Memory Network,长短时记忆网络)模型等等。
在本公开一实施方式中,对于大规模时序数据来说,存在有海量的时序指标,例如CDN系统中,服务域名就多于100万个,每个服务器域名下还有多种时序指标如10个时序指标,则该CDN系统中就会存在100万*10=1000万个时序指标。假设需要对这1000万个时序指标对应的待测时序数据进行异常检测,预设有3种类型的初始弱分类器A、B、C时,可以先使用每个时序指标如第1个时序指标对应的待测时序数据分别对这3种类型的初始弱分类器进行训练,得到第1个时序指标对应的3种类型的指标分类器A1、B1、C1,如此,就可以得到每个时序指标对应的多种类型指标分类器,可以记第i个时序指标对应的3种类型的指标分类器为Ai、Bi、Ci,此时就训练得到1000万*3=3000万个指标分类型,这3000万个指标分类器分为A、B、C这3种类型。
在本公开一实施方式中,对于同一时序指标,不同类型的分类器的预测效果有好有坏差异显著,同一类型的分类型对不同类型的时序指标的预测效果也有好有坏差异显著,为了找到各类型的分类器对当前的待测时序数据的评估效果,可以从各时序指标中随机抽样得到预设数量的样本时序指标,比如从该1000万个时序指标中抽取100个时序指标作为样本时序指标;获取这些样本时序指标对应的样本时序数据及其对应的数据类型,该数据类型可以由用户分析样本时序数据后输入,由于抽取的样本时序数据的数量较少,用户可以快速进行分析打标。
在本公开一实施方式中,抽取的这些样本时序指标中,每个样本时序指标对应有多种类型的指标分类器,仍按上述示例,如图2所示,假设共有100个样本时序指标,样本时序指标j对应有3个类型的指标分类器Aj、Bj、Cj,j可以取值为1至100,则可以用这100个样本时序指标对应的样本时序数据及其数据类型,对类型A的指标分类器即A1…Aj…A100进行评估,评估类型A的指标分类器对这100个样本时序指标的预测效果的好坏,得到类型A的指标分类器的综合评估结果;同理,还要用这100个样本时序指标对应的样本时序数据及其数据类型,对类型B的指标分类器进行评估,用这100个样本时序指标对应的样本时序数据及其数据类型,对类型C的指标分类器进行评估。如此,可以得到类型A、B、C的指标分类器的综合评估结果,该评估结果包括各种表征该类指标分类器的分类效果好坏的参数,如可以是准确率、召回率等等。
在一种可能的实施方式中,如图2所示,可以基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重,评估结果越好,说明该类型的指标分类器对这些待测时序数据的检测效果越好,此时,可以为该类型的指标分类器配置较高的投票权重,各类型指标分类器的权重之和为1。示例的,假设评估结果为召回率,其中A类指标分类器的召回率为90%,B类指标分类器的召回率为50%,C类指标分类器的召回率为20%,则可以配置该A类指标分类器的投票权重为0.6,B类指标分类器的投票权重为0.3,C类指标分类器的投票权重为0.1。
在一种可能的实施方式中,生成的数据异常检测模型包括时序指标i对应的多种类型的指标分类器Ai、Bi、Ci以及Ai对应的投票权重0.6、Bi对应的投票权重0.3、Ci对应的投票权重0.1,i的取值是1至1000万。这样在使用该数据异常检测模型进行数据异常检测时,针对时序指标i对应的待测时序数据,可以将该时序指标i对应的待测时序数据分别输入至该时序指标i对应的指标分类器Ai、Bi、Ci,得到指标分类器Ai、Bi、Ci输出的预测结果,可以按照Ai、Bi、Ci的投票权重对该Ai、Bi、Ci输出的预测结果进行投票,得到所述时序指标对应的待测时序数据的检测结果。示例的,假设指标分类器Ai输出的预测结果是80%为异常数据,指标分类器Bi输出的预测结果是90%为异常数据,指标分类器Ci输出的预测结果是20%为异常数据,则可以得到该数据异常检测模型的检测结果为80%*0.6+90%*0.3+20%*0.1=77%为异常数据。
本实施方式可以先使用每个时序指标对应的待测时序数据,分别训练预设的多种类型的初始弱分类器,得到每个时序指标对应的多种类型指标分类器,此处训练的指标分类器输入弱分类器,可以快速训练完成,然后,用打标有数据类型的预设数量的样本时序指标对应的样本时序数据对各类型指标分类器进行效果评估,得到各类型指标分类器的评估结果,这样就可以基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重,进而生成数据异常检测模型,所述数据异常检测模型中包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重,可以应用于大规模的具有海量时序指标的待测时序数据,在对每个时序指标对应的待测时序数据进行异常检测时,可以让该时序指标对应的多个类型的指标分类器相互竞争,相互弥补错误,投票得到最终的检测结果,准确率较高,且这些指标分类器都是弱分类器,可以较快地训练得到,接入检测的周期更短。示例的,在对CDN系统中的服务器域名、节点指标进行异常检测时,使用本实施方式提供的数据异常检测模型可以将检测的准确性从60%~75%(现有方案,即定制化的预测模型)提升到93%以上,检测的接入周期从2周(现有方案,)降低到1~2天左右。
在本公开一实施方式中,所述基于所述样本时序指标对应的样本时序数据及其数据类型,对各类型指标分类器进行评估,得到各类型指标分类器的评估结果,可以包括以下步骤:
基于所述样本时序指标对应的样本时序数据及其数据类型,对所述样本时序指标对应的多种类型指标分类器进行评估,得到所述样本时序指标对应的多种类型指标分类器的评估结果;
基于各样本时序指标对应的同一类型的各指标分类器的评估结果,确定同一类型指标分类器的综合评估结果。
在该实施方式中,仍按上述示例,可以用样本时序指标j对应的样本时序数据及其数据类型,对所述样本时序指标j对应的指标分类器Aj进行评估,得到该指标分类器Aj的评估结果,对所述样本时序指标j对应的指标分类器Bj进行评估,得到该指标分类器Bj的评估结果,对所述样本时序指标j对应的指标分类器Cj进行评估,得到该指标分类器Cj的评估结果。这样就可以得到指标分类器A1-A100这100个A类型的指标分类器的评估结果,指标分类器B1-B100这100个B类型的指标分类器的评估结果,指标分类器C1-C100这100个C类型的指标分类的评估结果。
在该实施方式中,该评估结果可以是评估值,如准确率和/或召回率,可以对100个A类型的指标分类器A1-A100的评估值做数学平均计算得到该A类型的指标分类器的综合评估值,对100个B类型的指标分类器B1-B100的评估值做数学平均计算得到该B类型的指标分类器的综合评估值,对100个C类型的指标分类器C1-C100的评估值做数学平均计算得到该C类型的指标分类器的综合评估值。
在本公开一实施方式中,所述基于所述样本时序指标对应的样本时序数据及其数据类型,对所述样本时序指标对应的多种类型指标分类器进行评估,得到所述样本时序指标对应的多种类型指标分类器的评估结果,可以包括以下步骤:
使用所述样本时序指标对应的多种类型指标分类器分别对所述样本时序指标对应的样本时序数据进行数据类型预测,得到预测结果;
基于所述样本时序指标对应的多种类型指标分类器的预测结果和数据类型的匹配情况,确定所述样本时序指标对应的多种类型指标分类器的评估结果,所述评估结果包括准确率和/或召回率。
在该实施方式中,可以将样本时序指标j对应的样本时序数据输入至样本时序指标j对应的指标分类器Aj,得到该指标分类器Aj输出的预测结果,比较该预测结果与该数据类型的匹配情况,如果预测结果表明某样本时序数据为正常数据,该样本时序数据的数据类型也为正常数据,或者预测结果表明某样本时序数据为异常数据,该样本时序数据的数据类型也为异常数据,则确定预测结果与该数据类型匹配,否则不匹配,基于该匹配情况,可以得到该指标分类器Aj的准确率和/或召回率,该准确率指的是指标分类器Aj分类正确的概率,也即匹配的概率,该召回率用户度量有多少个异常数据被分为异常类型。示例的,假设样本时序指标j对应有100条样本时序数据,其中共有10条异常数据,若指标分类器Aj的预测结果匹配的有90条,则表明该指标分类器Aj的准确率为90%,若指标分类器Aj的预测结果为异常数据时匹配的有5条,则表明该指标分类器Aj的召回率为5/10=50%。
同理,可以将样本时序指标j对应的样本时序数据输入至样本时序指标j对应的指标分类器Bj,得到该指标分类器Bj输出的预测结果,比较该预测结果与该数据类型的匹配情况,得到指标分类器Bj的准确率和/或召回率;可以将样本时序指标j对应的样本时序数据输入至样本时序指标j对应的指标分类器Cj,得到该指标分类器Cj输出的预测结果,比较该预测结果与该数据类型的匹配情况,得到指标分类器Cj的准确率和/或召回率。
在一种可能的实施方式中,所述评估结果包括准确率和召回率时,所述基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重,可以包括以下步骤:
按照预设的准确率和召回率的权重值,对同一类型的指标分类器的准确率和召回率进行加权计算,得到所述同一类型的指标分类器的评估值;
基于各类型指标分类器的评估值,确定各类型指标分类器的投票权重,其中,所述评估值与所述投票权重成正比。
在该实施方式中,该评估结果可以只包括准确率,或者只包括召回率,此时可以直接基于该各类型指标分类器的评估结果,确定各类型指标分类器的投票权重。该评估结果也可以包括准确率和召回率,此时,需要先按照预设的准确率和召回率的权重值,对该类指标分类器的准确率和召回率进行加权计算,得到该类指标分类器的评估值;然后再基于各类指标分类器的评估值,确定各类指标分类器的投票权重。通常情况下,在进行数据异常检测时,比较看重的评价指标是召回率,故可以为该召回率设置较高的权重,为准确率设置较低的权重,比如召回率的权重值为0.75,准确率的权重值为0.25,当然,在以下场景下,比较看重的评价指标是准确率,此时可以该召回率设置较低的权重,为准确率设置较高的权重,可以根据实际情况由用户设置。
在该实施方式中,为各类型指标分类器设置的投票权重与其评估值成正比,评估值越高,说明该类型的指标分类器对这些待测时序数据的检测效果越好,此时,可以为该类型的指标分类器配置较高的投票权重,各类型指标分类器的权重之和为1。
在一种可能的实施方式中,所述初始弱分类器包括时序分解模型、无监督模型、神经网络模型中的两种或两种以上。
在该实施方式中,可以获取多种预测原理不同的初始弱分类器,时序分解模型、无监督模型、神经网络模型中的两种或两种以上,这样,可能各类模型分对的时序数据都不多,但是他们可以分对的时序数据不一样,这样集成为数据异常检测模型做预测的时候可以综合多种弱分类器的优点提高分类准确率,要达到这个效果就需要基弱分类器之间合而不同,即都可以进行时序数据的异常检测,但是检测用到的算法原理不同。
图3示出根据本公开一实施方式的数据异常检测方法的流程图,如图3所示,所述数据异常检测方法包括以下步骤S301-S302:
在步骤S301中,将时序指标对应的待测时序数据分别输入至所述时序指标对应的多种类型指标分类器,得到所述多种类型指标分类器对应的预测结果;
在步骤S302中,按照各类型指标分类器的投票权重对各类型指标分类器对应的预测结果进行投票,得到所述时序指标对应的待测时序数据的检测结果。
在本公开一实施方式中,所述数据异常检测方法可适用于能够进行数据异常检测的服务器及服务器集群中,该服务器及服务器集群中设置有上述的数据异常检测模型,该数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重,该数据异常检测方法主要用于大规模时序数据的异常检测。
在本公开一实施方式中,假设在CDN系统中有1000万个时序指标时,i的取值为1至1000万,该数据异常检测模型包括时序指标i对应的多种类型的指标分类器Ai、Bi、Ci以及Ai对应的投票权重0.6、Bi对应的投票权重0.3、Ci对应的投票权重0.1,这样在使用该数据异常检测模型进行数据异常检测时,针对时序指标i对应的待测时序数据,可以将该时序指标i对应的待测时序数据分别输入至该时序指标i对应的指标分类器Ai、Bi、Ci,得到指标分类器Ai、Bi、Ci输出的预测结果,可以按照Ai、Bi、Ci的投票权重对该Ai、Bi、Ci输出的预测结果进行投票,得到所述时序指标对应的待测时序数据的检测结果。示例的,假设Ai对应的投票权重0.6、Bi对应的投票权重0.3、Ci对应的投票权重0.1,则指标分类器Ai输出的预测结果是80%为异常数据,指标分类器Bi输出的预测结果是90%为异常数据,指标分类器Ci输出的预测结果是20%为异常数据,则可以得到该数据异常检测模型的检测结果为80%*0.6+90%*0.3+20%*0.1=77%为异常数据。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图4示出根据本公开一实施方式的数据异常检测模型获取装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图4所示,所述数据异常检测模型获取装置包括:
训练模块401,被配置为使用内容分发网络CDN内多个预设时序指标中每个时序指标对应的待测时序数据,分别训练预设的多种类型的初始弱分类器,得到每个时序指标对应的多种类型指标分类器;
抽样模块402,被配置为从各时序指标中抽样得到预设数量的样本时序指标,获取所述样本时序指标对应的样本时序数据及其数据类型,所述数据类型包括异常数据和正常数据;
评估模块403,被配置为基于所述样本时序指标对应的样本时序数据及其数据类型,对各类型指标分类器进行评估,得到各类型指标分类器的评估结果;
确定模块404,被配置为基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重;
生成模块405,被配置为生成数据异常检测模型,所述数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重。
在本公开一实施方式中,所述数据异常检测模型获取装置可适用于能够进行数据异常检测模型的服务器及服务器集群中,获取的数据异常检测模型主要用于大规模时序数据的异常检测。
在本公开一实施方式中,时序指标指的是检测的数据类型,如在CDN系统中,需要检测的数据类型即时序指标可以是各服务节点的卡顿率、丢帧率、首帧播放延时等等。各时序指标对应的数值会按照时间顺序产生,形成时序数据。
在本公开一实施方式中,分类器是机器学习模型的一种,模型目标是将具有类似特征的对象聚集在一起,反之则将对象区分开。弱分类器指的是未经过参数调优的分类器,预期准确性仅比随机分类要好一些,弱分类器体量小、训练快。
在本公开一实施方式中,预设的初始弱分类器的类型都是在此前已经验证过的、适用于时序数据的异常检测的模型,可以是时序分解模型、无监督模型、神经网络模型中的两种或两种以上。示例的,假设预设的初始弱分类器的类型有100种,则可以30种属于时序分解模型、30种属于无监督模型、40种属于神经网路模型,该时序分解模型可以是STL模型,该无监督模型可以是KDE模型,该神经网络模型可以是LSTM模型等等。
在本公开一实施方式中,对于大规模时序数据来说,存在有海量的时序指标,例如CDN系统中,服务域名就多于100万个,每个服务器域名下还有多种时序指标如10个时序指标,则该CDN系统中就会存在100万*10=1000万个时序指标。假设需要对这1000万个时序指标对应的待测时序数据进行异常检测,预设有3种类型的初始弱分类器A、B、C时,可以先使用每个时序指标如第1个时序指标对应的待测时序数据分别对这3种类型的初始弱分类器进行训练,得到第1个时序指标对应的3种类型的指标分类器A1、B1、C1,如此,就可以得到每个时序指标对应的多种类型指标分类器,可以记第i个时序指标对应的3种类型的指标分类器为Ai、Bi、Ci,此时就训练得到1000万*3=3000万个指标分类型,这3000万个指标分类器分为A、B、C这3种类型。
在本公开一实施方式中,对于同一时序指标,不同类型的分类器的预测效果有好有坏差异显著,同一类型的分类型对不同类型的时序指标的预测效果也有好有坏差异显著,为了找到各类型的分类器对当前的待测时序数据的评估效果,可以从各时序指标中随机抽样得到预设数量的样本时序指标,比如从该1000万个时序指标中抽取100个时序指标作为样本时序指标;获取这些样本时序指标对应的样本时序数据及其对应的数据类型,该数据类型可以由用户分析样本时序数据后输入,由于抽取的样本时序数据的数量较少,用户可以快速进行分析打标。
在本公开一实施方式中,抽取的这些样本时序指标中,每个样本时序指标对应有多种类型的指标分类器,仍按上述示例,如图2所示,假设共有100个样本时序指标,样本时序指标j对应有3个类型的指标分类器Aj、Bj、Cj,j可以取值为1至100,则可以用这100个样本时序指标对应的样本时序数据及其数据类型,对类型A的指标分类器即A1…Aj…A100进行评估,评估类型A的指标分类器对这100个样本时序指标的预测效果的好坏,得到类型A的指标分类器的综合评估结果;同理,还要用这100个样本时序指标对应的样本时序数据及其数据类型,对类型B的指标分类器进行评估,用这100个样本时序指标对应的样本时序数据及其数据类型,对类型C的指标分类器进行评估。如此,可以得到类型A、B、C的指标分类器的综合评估结果,该评估结果包括各种表征该类指标分类器的分类效果好坏的参数,如可以是准确率、召回率等等。
在一种可能的实施方式中,如图2所示,可以基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重,评估结果越好,说明该类型的指标分类器对这些待测时序数据的检测效果越好,此时,可以为该类型的指标分类器配置较高的投票权重,各类型指标分类器的权重之和为1。示例的,假设评估结果为召回率,其中A类指标分类器的召回率为90%,B类指标分类器的召回率为50%,C类指标分类器的召回率为20%,则可以配置该A类指标分类器的投票权重为0.6,B类指标分类器的投票权重为0.3,C类指标分类器的投票权重为0.1。
在一种可能的实施方式中,生成的数据异常检测模型包括时序指标i对应的多种类型的指标分类器Ai、Bi、Ci以及Ai对应的投票权重0.6、Bi对应的投票权重0.3、Ci对应的投票权重0.1,i的取值是1至1000万。这样在使用该数据异常检测模型进行数据异常检测时,针对时序指标i对应的待测时序数据,可以将该时序指标i对应的待测时序数据分别输入至该时序指标i对应的指标分类器Ai、Bi、Ci,得到指标分类器Ai、Bi、Ci输出的预测结果,可以按照Ai、Bi、Ci的投票权重对该Ai、Bi、Ci输出的预测结果进行投票,得到所述时序指标对应的待测时序数据的检测结果。示例的,假设指标分类器Ai输出的预测结果是80%为异常数据,指标分类器Bi输出的预测结果是90%为异常数据,指标分类器Ci输出的预测结果是20%为异常数据,则可以得到该数据异常检测模型的检测结果为80%*0.6+90%*0.3+20%*0.1=77%为异常数据。
本实施方式可以先使用每个时序指标对应的待测时序数据,分别训练预设的多种类型的初始弱分类器,得到每个时序指标对应的多种类型指标分类器,此处训练的指标分类器输入弱分类器,可以快速训练完成,然后,用打标有数据类型的预设数量的样本时序指标对应的样本时序数据对各类型指标分类器进行效果评估,得到各类型指标分类器的评估结果,这样就可以基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重,进而生成数据异常检测模型,所述数据异常检测模型中包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重,可以应用于大规模的具有海量时序指标的待测时序数据,在对每个时序指标对应的待测时序数据进行异常检测时,可以让该时序指标对应的多个类型的指标分类器相互竞争,相互弥补错误,投票得到最终的检测结果,准确率较高,且这些指标分类器都是弱分类器,可以较快地训练得到,接入检测的周期更短。示例的,在对CDN系统中的服务器域名、节点指标进行异常检测时,使用本实施方式提供的数据异常检测模型可以将检测的准确性从60%~75%(现有方案,即定制化的预测模型)提升到93%以上,检测的接入周期从2周(现有方案,)降低到1~2天左右。
在本公开一实施方式中,所述评估模块403被配置为:
基于所述样本时序指标对应的样本时序数据及其数据类型,对所述样本时序指标对应的多种类型指标分类器进行评估,得到所述样本时序指标对应的多种类型指标分类器的评估结果;
基于各样本时序指标对应的同一类型的各指标分类器的评估结果,确定同一类型指标分类器的综合评估结果。
在该实施方式中,仍按上述示例,可以用样本时序指标j对应的样本时序数据及其数据类型,对所述样本时序指标j对应的指标分类器Aj进行评估,得到该指标分类器Aj的评估结果,对所述样本时序指标j对应的指标分类器Bj进行评估,得到该指标分类器Bj的评估结果,对所述样本时序指标j对应的指标分类器Cj进行评估,得到该指标分类器Cj的评估结果。这样就可以得到指标分类器A1-A100这100个A类型的指标分类器的评估结果,指标分类器B1-B100这100个B类型的指标分类器的评估结果,指标分类器C1-C100这100个C类型的指标分类的评估结果。
在该实施方式中,该评估结果可以是评估值,如准确率和/或召回率,可以对100个A类型的指标分类器A1-A100的评估值做数学平均计算得到该A类型的指标分类器的综合评估值,对100个B类型的指标分类器B1-B100的评估值做数学平均计算得到该B类型的指标分类器的综合评估值,对100个C类型的指标分类器C1-C100的评估值做数学平均计算得到该C类型的指标分类器的综合评估值。
在本公开一实施方式中,所述评估模块403中基于所述样本时序指标对应的样本时序数据及其数据类型,对所述样本时序指标对应的多种类型指标分类器进行评估,得到所述样本时序指标对应的多种类型指标分类器的评估结果的部分被配置为:
使用所述样本时序指标对应的多种类型指标分类器分别对所述样本时序指标对应的样本时序数据进行数据类型预测,得到预测结果;
基于所述样本时序指标对应的多种类型指标分类器的预测结果和数据类型的匹配情况,确定所述样本时序指标对应的多种类型指标分类器的评估结果,所述评估结果包括准确率和/或召回率。
在该实施方式中,可以将样本时序指标j对应的样本时序数据输入至样本时序指标j对应的指标分类器Aj,得到该指标分类器Aj输出的预测结果,比较该预测结果与该数据类型的匹配情况,如果预测结果表明某样本时序数据为正常数据,该样本时序数据的数据类型也为正常数据,或者预测结果表明某样本时序数据为异常数据,该样本时序数据的数据类型也为异常数据,则确定预测结果与该数据类型匹配,否则不匹配,基于该匹配情况,可以得到该指标分类器Aj的准确率和/或召回率,该准确率指的是指标分类器Aj分类正确的概率,也即匹配的概率,该召回率用户度量有多少个异常数据被分为异常类型。示例的,假设样本时序指标j对应有100条样本时序数据,其中共有10条异常数据,若指标分类器Aj的预测结果匹配的有90条,则表明该指标分类器Aj的准确率为90%,若指标分类器Aj的预测结果为异常数据时匹配的有5条,则表明该指标分类器Aj的召回率为5/10=50%。
同理,可以将样本时序指标j对应的样本时序数据输入至样本时序指标j对应的指标分类器Bj,得到该指标分类器Bj输出的预测结果,比较该预测结果与该数据类型的匹配情况,得到指标分类器Bj的准确率和/或召回率;可以将样本时序指标j对应的样本时序数据输入至样本时序指标j对应的指标分类器Cj,得到该指标分类器Cj输出的预测结果,比较该预测结果与该数据类型的匹配情况,得到指标分类器Cj的准确率和/或召回率。
在本公开一实施方式中,所述评估结果包括准确率和召回率时,所述确定模块404被配置为:
按照预设的准确率和召回率的权重值,对同一类型的指标分类器的准确率和召回率进行加权计算,得到所述同一类型的指标分类器的综合评估值;
基于各类型指标分类器的综合评估值,确定各类型指标分类器的投票权重,其中,所述综合评估值与所述投票权重成正比。
在该实施方式中,该评估结果可以只包括准确率,或者只包括召回率,此时可以直接基于该各类型指标分类器的评估结果,确定各类型指标分类器的投票权重。该评估结果也可以包括准确率和召回率,此时,需要先按照预设的准确率和召回率的权重值,对该类指标分类器的准确率和召回率进行加权计算,得到该类指标分类器的评估值;然后再基于各类指标分类器的评估值,确定各类指标分类器的投票权重。通常情况下,在进行数据异常检测时,比较看重的评价指标是召回率,故可以为该召回率设置较高的权重,为准确率设置较低的权重,比如召回率的权重值为0.75,准确率的权重值为0.25,当然,在以下场景下,比较看重的评价指标是准确率,此时可以该召回率设置较低的权重,为准确率设置较高的权重,可以根据实际情况由用户设置。
在该实施方式中,为各类型指标分类器设置的投票权重与其评估值成正比,评估值越高,说明该类型的指标分类器对这些待测时序数据的检测效果越好,此时,可以为该类型的指标分类器配置较高的投票权重,各类型指标分类器的权重之和为1。
在本公开一实施方式中,所述初始弱分类器包括时序分解模型、无监督模型、神经网络模型中的两种或两种以上。
在该实施方式中,可以获取多种预测原理不同的初始弱分类器,时序分解模型、无监督模型、神经网络模型中的两种或两种以上,这样,可能各类模型分对的时序数据都不多,但是他们可以分对的时序数据不一样,这样集成为数据异常检测模型做预测的时候可以综合多种弱分类器的优点提高分类准确率,要达到这个效果就需要基弱分类器之间合而不同,即都可以进行时序数据的异常检测,但是检测用到的算法原理不同。
图5示出根据本公开一实施方式的数据异常检测装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该装置应用数据异常检测模型进行检测,所述数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重,如图5所示,所述数据异常检测装置包括:
预测模块501,被配置为将时序指标对应的待测时序数据分别输入至所述时序指标对应的多种类型指标分类器,得到所述多种类型指标分类器对应的预测结果;
投票模块502,被配置为按照各类型指标分类器的投票权重对各类型指标分类器对应的预测结果进行投票,得到所述时序指标对应的待测时序数据的检测结果。
在本公开一实施方式中,所述数据异常检测方法可适用于能够进行数据异常检测的服务器及服务器集群中,该服务器及服务器集群中设置有上述的数据异常检测模型,该数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重,该数据异常检测方法主要用于大规模时序数据的异常检测。
在本公开一实施方式中,该数据异常检测模型包括时序指标i对应的多种类型的指标分类器Ai、Bi、Ci以及Ai对应的投票权重0.6、Bi对应的投票权重0.3、Ci对应的投票权重0.1,若应用在CDN系统中有1000万个时序指标时,i的取值就是1至1000万。这样在使用该数据异常检测模型进行数据异常检测时,针对时序指标i对应的待测时序数据,可以将该时序指标i对应的待测时序数据分别输入至该时序指标i对应的指标分类器Ai、Bi、Ci,得到指标分类器Ai、Bi、Ci输出的预测结果,可以按照Ai、Bi、Ci的投票权重对该Ai、Bi、Ci输出的预测结果进行投票,得到所述时序指标对应的待测时序数据的检测结果。示例的,假设Ai对应的投票权重0.6、Bi对应的投票权重0.3、Ci对应的投票权重0.1,则指标分类器Ai输出的预测结果是80%为异常数据,指标分类器Bi输出的预测结果是90%为异常数据,指标分类器Ci输出的预测结果是20%为异常数据,则可以得到该数据异常检测模型的检测结果为80%*0.6+90%*0.3+20%*0.1=77%为异常数据。
本公开还公开了一种电子设备,图6示出根据本公开一实施方式的电子设备的结构框图,如图6所示,所述电子设备600包括存储器601和处理器602;其中,
所述存储器601用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器602执行以实现上述方法步骤。
图7是适于用来实现根据本公开实施例所述方法的计算机系统的结构示意图。
如图7所示,计算机系统700包括处理单元701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行上述实施方式中的各种处理。在RAM703中,还存储有系统700操作所需的各种程序和数据。处理单元701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。其中,所述处理单元701可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
特别地,根据本公开的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行上文描述的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开实施例的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (11)
1.一种数据异常检测模型获取方法,其中,所述方法由计算机执行,包括:
使用内容分发网络CDN内多个预设时序指标中每个时序指标对应的待测时序数据,分别训练预设的多种类型的初始弱分类器,得到每个时序指标对应的多种类型指标分类器;
从各时序指标中抽样得到预设数量的样本时序指标,获取所述样本时序指标对应的样本时序数据及其数据类型,所述数据类型包括异常数据和正常数据;
基于所述样本时序指标对应的样本时序数据及其数据类型,对各类型指标分类器进行评估,得到各类型指标分类器的评估结果;
基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重;
生成数据异常检测模型,所述数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重。
2.根据权利要求1所述的方法,其中,所述基于所述样本时序指标对应的样本时序数据及其数据类型,对各类型指标分类器进行评估,得到各类型指标分类器的评估结果,包括:
基于所述样本时序指标对应的样本时序数据及其数据类型,对所述样本时序指标对应的多种类型指标分类器进行评估,得到所述样本时序指标对应的多种类型指标分类器的评估结果;
基于各样本时序指标对应的同一类型的各指标分类器的评估结果,确定同一类型指标分类器的综合评估结果。
3.根据权利要求2所述的方法,其中,所述基于所述样本时序指标对应的样本时序数据及其数据类型,对所述样本时序指标对应的多种类型指标分类器进行评估,得到所述样本时序指标对应的多种类型指标分类器的评估结果,包括:
使用所述样本时序指标对应的多种类型指标分类器分别对所述样本时序指标对应的样本时序数据进行数据类型预测,得到预测结果;
基于所述样本时序指标对应的多种类型指标分类器的预测结果和数据类型的匹配情况,确定所述样本时序指标对应的多种类型指标分类器的评估结果,所述评估结果包括准确率和/或召回率。
4.根据权利要求3所述的方法,其中,所述评估结果包括准确率和召回率时,所述基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重,包括:
按照预设的准确率和召回率的权重值,对同一类型的指标分类器的准确率和召回率进行加权计算,得到所述同一类型的指标分类器的综合评估值;
基于各类型指标分类器的综合评估值,确定各类型指标分类器的投票权重,其中,所述综合评估值与所述投票权重成正比。
5.根据权利要求1所述的方法,其中,所述初始弱分类器包括时序分解模型、无监督模型、神经网络模型中的两种或两种以上。
6.一种数据异常检测方法,其中,应用权利要求1至5任一项获取的数据异常检测模型进行检测,所述数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重,所述方法包括:
将时序指标对应的待测时序数据分别输入至所述时序指标对应的多种类型指标分类器,得到所述多种类型指标分类器对应的预测结果;
按照各类型指标分类器的投票权重对各类型指标分类器对应的预测结果进行投票,得到所述时序指标对应的待测时序数据的检测结果。
7.一种数据异常检测模型获取装置,其中,包括:
训练模块,被配置为使用内容分发网络CDN内多个预设时序指标中每个时序指标对应的待测时序数据,分别训练预设的多种类型的初始弱分类器,得到每个时序指标对应的多种类型指标分类器;
抽样模块,被配置为从各时序指标中抽样得到预设数量的样本时序指标,获取所述样本时序指标对应的样本时序数据及其数据类型,所述数据类型包括异常数据和正常数据;
评估模块,被配置为基于所述样本时序指标对应的样本时序数据及其数据类型,对各类型指标分类器进行评估,得到各类型指标分类器的评估结果;
确定模块,被配置为基于各类型指标分类器的评估结果,确定各类型指标分类器的投票权重;
生成模块,被配置为生成数据异常检测模型,所述数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重。
8.一种数据异常检测装置,其中,应用权利要求1至5任一项获取的数据异常检测模型进行检测,所述数据异常检测模型包括每个时序指标对应的多种类型的指标分类器以及各类型指标分类器的投票权重,所述装置包括:
预测模块,被配置为将时序指标对应的待测时序数据分别输入至所述时序指标对应的多种类型指标分类器,得到所述多种类型指标分类器对应的预测结果;
投票模块,被配置为按照各类型指标分类器的投票权重对各类型指标分类器对应的预测结果进行投票,得到所述时序指标对应的待测时序数据的检测结果。
9.一种电子设备,包括存储器和至少一个处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述至少一个处理器执行以实现权利要求1-6任一项所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现权利要求1-6任一项所述的方法步骤。
11.一种计算机程序产品,包括计算机程序/指令,其中,该计算机程序/指令被处理器执行时实现权利要求1-6任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210200139.5A CN114726749B (zh) | 2022-03-02 | 2022-03-02 | 数据异常检测模型获取方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210200139.5A CN114726749B (zh) | 2022-03-02 | 2022-03-02 | 数据异常检测模型获取方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114726749A true CN114726749A (zh) | 2022-07-08 |
CN114726749B CN114726749B (zh) | 2023-10-31 |
Family
ID=82235084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210200139.5A Active CN114726749B (zh) | 2022-03-02 | 2022-03-02 | 数据异常检测模型获取方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114726749B (zh) |
Citations (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010076832A1 (en) * | 2008-12-31 | 2010-07-08 | Telecom Italia S.P.A. | Anomaly detection for packet-based networks |
CN104270392A (zh) * | 2014-10-24 | 2015-01-07 | 中国科学院信息工程研究所 | 一种基于三分类器协同训练学习的网络协议识别方法及系统 |
CN107612938A (zh) * | 2017-10-27 | 2018-01-19 | 朱秋华 | 一种网络用户异常行为检测方法、装置、设备及存储介质 |
CN109474483A (zh) * | 2019-01-08 | 2019-03-15 | Oppo广东移动通信有限公司 | 一种设备异常情况的检测方法、检测装置及终端设备 |
US20190098035A1 (en) * | 2017-09-28 | 2019-03-28 | Yokogawa Electric Corporation | Systems, methods and computer program products for anomaly detection |
US20190138938A1 (en) * | 2017-11-06 | 2019-05-09 | Cisco Technology, Inc. | Training a classifier used to detect network anomalies with supervised learning |
WO2019114947A1 (en) * | 2017-12-13 | 2019-06-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Technique for analyzing quality of service in a telecommunications network |
US20190303569A1 (en) * | 2017-06-16 | 2019-10-03 | Alibaba Group Holding Limited | Data type recognition, model training and risk recognition methods, apparatuses and devices |
WO2019237523A1 (zh) * | 2018-06-11 | 2019-12-19 | 平安科技(深圳)有限公司 | 安全风险评估方法、装置、计算机设备和存储介质 |
US20200007566A1 (en) * | 2016-12-29 | 2020-01-02 | NSFOCUS Information Technology Co., Ltd. | Network traffic anomaly detection method and apparatus |
WO2020098030A1 (zh) * | 2018-11-12 | 2020-05-22 | 网宿科技股份有限公司 | 一种请求任务的调度方法及调度中心服务器 |
CN111562996A (zh) * | 2020-04-11 | 2020-08-21 | 北京交通大学 | 一种关键性能指标数据的时序异常检测方法及系统 |
CN111652253A (zh) * | 2019-03-04 | 2020-09-11 | 中石化石油工程技术服务有限公司 | 一种基于大数据的井漏事故检测预警方法 |
WO2020248291A1 (en) * | 2019-06-11 | 2020-12-17 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for anomaly detection |
CN112651823A (zh) * | 2020-12-23 | 2021-04-13 | 天津大学 | 信用评估模型建立方法和装置及信用评估方法和设备 |
WO2021068513A1 (zh) * | 2019-10-12 | 2021-04-15 | 平安科技(深圳)有限公司 | 异常对象识别方法、装置、介质及电子设备 |
CN112800116A (zh) * | 2021-04-08 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 一种业务数据的异常检测方法及装置 |
CN112818066A (zh) * | 2019-11-15 | 2021-05-18 | 深信服科技股份有限公司 | 一种时序数据异常检测方法、装置及电子设备和存储介质 |
CN113282876A (zh) * | 2021-07-20 | 2021-08-20 | 中国人民解放军国防科技大学 | 异常检测中一维时间序列数据生成方法、装置和设备 |
CN113420777A (zh) * | 2021-05-14 | 2021-09-21 | 中国民航大学 | 异常日志检测方法、装置存储介质及设备 |
WO2021184554A1 (zh) * | 2020-03-18 | 2021-09-23 | 平安科技(深圳)有限公司 | 数据库异常监测方法、装置、计算机装置及存储介质 |
CN113537337A (zh) * | 2021-07-13 | 2021-10-22 | 中国工商银行股份有限公司 | 训练方法、异常检测方法、装置、设备和存储介质 |
WO2021222495A1 (en) * | 2020-04-30 | 2021-11-04 | Bae Systems Information And Electronic Systems Integration Inc. | Anomaly detection system using multi-layer support vector machines and method thereof |
CN113746686A (zh) * | 2020-05-27 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 一种网络流量的状态确定方法、计算设备及存储介质 |
WO2021244249A1 (zh) * | 2020-05-30 | 2021-12-09 | 华为技术有限公司 | 一种分类器的训练方法、数据处理方法、系统以及设备 |
CN113822366A (zh) * | 2021-09-29 | 2021-12-21 | 平安医疗健康管理股份有限公司 | 业务指标异常检测方法及装置、电子设备、存储介质 |
CN113852603A (zh) * | 2021-08-13 | 2021-12-28 | 京东科技信息技术有限公司 | 网络流量的异常检测方法、装置、电子设备和可读介质 |
CN113887616A (zh) * | 2021-09-30 | 2022-01-04 | 海看网络科技(山东)股份有限公司 | 一种epg连接数的实时异常检测系统及方法 |
WO2022037191A1 (zh) * | 2020-08-17 | 2022-02-24 | 鹏城实验室 | 一种网络流异常检测模型的生成方法和计算机设备 |
WO2022037130A1 (zh) * | 2020-08-21 | 2022-02-24 | 杭州安恒信息技术股份有限公司 | 网络流量异常的检测方法、装置、电子装置和存储介质 |
-
2022
- 2022-03-02 CN CN202210200139.5A patent/CN114726749B/zh active Active
Patent Citations (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010076832A1 (en) * | 2008-12-31 | 2010-07-08 | Telecom Italia S.P.A. | Anomaly detection for packet-based networks |
CN104270392A (zh) * | 2014-10-24 | 2015-01-07 | 中国科学院信息工程研究所 | 一种基于三分类器协同训练学习的网络协议识别方法及系统 |
US20200007566A1 (en) * | 2016-12-29 | 2020-01-02 | NSFOCUS Information Technology Co., Ltd. | Network traffic anomaly detection method and apparatus |
US20190303569A1 (en) * | 2017-06-16 | 2019-10-03 | Alibaba Group Holding Limited | Data type recognition, model training and risk recognition methods, apparatuses and devices |
US20190098035A1 (en) * | 2017-09-28 | 2019-03-28 | Yokogawa Electric Corporation | Systems, methods and computer program products for anomaly detection |
CN107612938A (zh) * | 2017-10-27 | 2018-01-19 | 朱秋华 | 一种网络用户异常行为检测方法、装置、设备及存储介质 |
US20190138938A1 (en) * | 2017-11-06 | 2019-05-09 | Cisco Technology, Inc. | Training a classifier used to detect network anomalies with supervised learning |
WO2019114947A1 (en) * | 2017-12-13 | 2019-06-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Technique for analyzing quality of service in a telecommunications network |
WO2019237523A1 (zh) * | 2018-06-11 | 2019-12-19 | 平安科技(深圳)有限公司 | 安全风险评估方法、装置、计算机设备和存储介质 |
WO2020098030A1 (zh) * | 2018-11-12 | 2020-05-22 | 网宿科技股份有限公司 | 一种请求任务的调度方法及调度中心服务器 |
CN109474483A (zh) * | 2019-01-08 | 2019-03-15 | Oppo广东移动通信有限公司 | 一种设备异常情况的检测方法、检测装置及终端设备 |
CN111652253A (zh) * | 2019-03-04 | 2020-09-11 | 中石化石油工程技术服务有限公司 | 一种基于大数据的井漏事故检测预警方法 |
WO2020248291A1 (en) * | 2019-06-11 | 2020-12-17 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for anomaly detection |
WO2021068513A1 (zh) * | 2019-10-12 | 2021-04-15 | 平安科技(深圳)有限公司 | 异常对象识别方法、装置、介质及电子设备 |
CN112818066A (zh) * | 2019-11-15 | 2021-05-18 | 深信服科技股份有限公司 | 一种时序数据异常检测方法、装置及电子设备和存储介质 |
WO2021184554A1 (zh) * | 2020-03-18 | 2021-09-23 | 平安科技(深圳)有限公司 | 数据库异常监测方法、装置、计算机装置及存储介质 |
CN111562996A (zh) * | 2020-04-11 | 2020-08-21 | 北京交通大学 | 一种关键性能指标数据的时序异常检测方法及系统 |
WO2021222495A1 (en) * | 2020-04-30 | 2021-11-04 | Bae Systems Information And Electronic Systems Integration Inc. | Anomaly detection system using multi-layer support vector machines and method thereof |
US20210342652A1 (en) * | 2020-04-30 | 2021-11-04 | Bae Systems Information And Electronic Systems Integration Inc. | Anomaly detection system using multi-layer support vector machines and method thereof |
CN113746686A (zh) * | 2020-05-27 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 一种网络流量的状态确定方法、计算设备及存储介质 |
WO2021244249A1 (zh) * | 2020-05-30 | 2021-12-09 | 华为技术有限公司 | 一种分类器的训练方法、数据处理方法、系统以及设备 |
WO2022037191A1 (zh) * | 2020-08-17 | 2022-02-24 | 鹏城实验室 | 一种网络流异常检测模型的生成方法和计算机设备 |
WO2022037130A1 (zh) * | 2020-08-21 | 2022-02-24 | 杭州安恒信息技术股份有限公司 | 网络流量异常的检测方法、装置、电子装置和存储介质 |
CN112651823A (zh) * | 2020-12-23 | 2021-04-13 | 天津大学 | 信用评估模型建立方法和装置及信用评估方法和设备 |
CN112800116A (zh) * | 2021-04-08 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 一种业务数据的异常检测方法及装置 |
CN113420777A (zh) * | 2021-05-14 | 2021-09-21 | 中国民航大学 | 异常日志检测方法、装置存储介质及设备 |
CN113537337A (zh) * | 2021-07-13 | 2021-10-22 | 中国工商银行股份有限公司 | 训练方法、异常检测方法、装置、设备和存储介质 |
CN113282876A (zh) * | 2021-07-20 | 2021-08-20 | 中国人民解放军国防科技大学 | 异常检测中一维时间序列数据生成方法、装置和设备 |
CN113852603A (zh) * | 2021-08-13 | 2021-12-28 | 京东科技信息技术有限公司 | 网络流量的异常检测方法、装置、电子设备和可读介质 |
CN113822366A (zh) * | 2021-09-29 | 2021-12-21 | 平安医疗健康管理股份有限公司 | 业务指标异常检测方法及装置、电子设备、存储介质 |
CN113887616A (zh) * | 2021-09-30 | 2022-01-04 | 海看网络科技(山东)股份有限公司 | 一种epg连接数的实时异常检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114726749B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389145B (zh) | 基于计量大数据聚类模型的电能表生产厂商评价方法 | |
CN114638688A (zh) | 一种用于信贷反欺诈的拦截策略衍生方法、系统 | |
CN114266289A (zh) | 一种复杂装备健康状态评估方法 | |
CN108763966A (zh) | 一种尾气检测作弊监管系统及方法 | |
Karthikeyan et al. | Partial discharge pattern classification using composite versions of probabilistic neural network inference engine | |
CN115617784A (zh) | 一种信息化配电的数据处理系统及其处理方法 | |
CN111767192A (zh) | 基于人工智能的业务数据检测方法、装置、设备和介质 | |
CN111461923A (zh) | 一种基于深度卷积神经网络的窃电监测系统和方法 | |
Vermetten et al. | Is there anisotropy in structural bias? | |
CN117368651B (zh) | 一种配电网故障综合分析系统及方法 | |
CN111091194B (zh) | 一种基于cavwnb_kl算法的操作系统识别方法 | |
CN114726749B (zh) | 数据异常检测模型获取方法、装置、设备及介质 | |
CN116662186A (zh) | 基于逻辑回归的日志回放断言方法及其装置、电子设备 | |
Yang et al. | A semantic information decomposition network for accurate segmentation of texture defects | |
EP3910564A1 (en) | Impact calculation program, impact calculation device, and impact calculation method | |
CN108053093A (zh) | 一种基于平均影响值数据变换的k-近邻故障诊断方法 | |
CN114972273A (zh) | 流水化产品数据集增强方法、系统、设备及存储介质 | |
CN113239075A (zh) | 一种施工数据自检方法及系统 | |
CN114140246A (zh) | 模型训练方法、欺诈交易识别方法、装置和计算机设备 | |
CN114580982B (zh) | 一种工业设备的数据质量的评估方法、装置及设备 | |
Otudi et al. | Training Machine Learning Models with Simulated Data for Improved Line Fault Events Classification From 3-Phase PMU Field Recordings | |
Zaini et al. | Implementation of Mahalanobis-Taguchi system to evaluate the normal and abnormal samples in academic faculties | |
CN115758101A (zh) | 一种变压器故障类型的判断方法、系统、设备和介质 | |
Susanto | THE EFFECT OF ECONOMIC STRENGTH, GOVERNMENT DEBT, LEVEL OF DEMOCRACY, PUBLIC TRUST, AND LEVEL OF HAPPINESS ON CORRUPTION PERCEPTION | |
CN115935191A (zh) | 一种基于大数据分析的能力测量方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |