CN111783883A - 一种异常数据的检测方法及装置 - Google Patents

一种异常数据的检测方法及装置 Download PDF

Info

Publication number
CN111783883A
CN111783883A CN202010622212.9A CN202010622212A CN111783883A CN 111783883 A CN111783883 A CN 111783883A CN 202010622212 A CN202010622212 A CN 202010622212A CN 111783883 A CN111783883 A CN 111783883A
Authority
CN
China
Prior art keywords
data
result
detection
model
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010622212.9A
Other languages
English (en)
Inventor
陈敏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202010622212.9A priority Critical patent/CN111783883A/zh
Publication of CN111783883A publication Critical patent/CN111783883A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Abstract

本申请适用于人工智能技术领域,提供了异常数据的检测方法及装置,包括:获取待检测的数据;将所述数据分别输入至少两个模型中,得到至少两个检测结果,其中,所述模型包括基于曲线拟合检测的第一模型、基于时间序列检测的第二模型;基于每个所述模型对应的实时权重,对所述至少两个检测结果进行投票归总,得到归总结果;根据所述归总结果判断所述数据是否异常。通过基于多异常检测算法投票,来实现数据异常检测的自动化,并通过投票机制降低了计算错误的风险。

Description

一种异常数据的检测方法及装置
技术领域
本申请属于人工智能技术领域,尤其涉及一种异常数据的检测方法及装置。
背景技术
在互联网服务的异常检测过程中,一般通过人为设定阈值的方式来判定采集到的数据是否正常,对于某条业务曲线,当它的值大于或小于某个运维人员根据经验设定的阈值时,系统会发出告警,提醒运维人员服务可能出现了异常情况,运维人员再进行更进一步的分析。但在实际应用中,这种方法的弊端显而易见,一个固定的阈值并不能代表所有的异常情况,也并不是所有异常情况都可以用既定的阈值来衡量。这种方式存在一定的片面性,进而导致在数据异常检测的结果不精确的问题。
发明内容
本申请实施例提供了异常数据的检测方法及装置,可以解决数据异常检测的结果不精确的问题。
第一方面,本申请实施例提供了一种异常数据的检测方法,包括:获取待检测的数据;将所述数据分别输入至少两个模型中,得到至少两个检测结果,其中,所述模型包括基于曲线拟合检测的第一模型、基于时间序列检测的第二模型;基于每个所述模型对应的实时权重,对所述至少两个检测结果进行投票归总,得到归总结果;根据所述归总结果判断所述数据是否异常。
在第一方面的一种可能的实现方式中,所述模型还包括基于孤立森林的第三模型、基于高斯分布的第四模型;所述至少两个检测结果包括第一检测结果和第二检测结果;将所述数据分别输入至少两个模型中,得到至少两个检测结果,包括:将所述数据输入所述第三模型中,得到所述数据是否异常的第一检测结果;将所述数据输入所述第四模型中,得到所述数据对应的高斯分布;基于所述高斯分布对所述数据进行分析,得到所述数据对应的概率函数;基于所述概率函数计算所述数据在高斯分布中的概率;根据所述概率以及通过交叉校验集得到的阈值,得到所述数据是否异常的第二检测结果。
在第一方面的一种可能的实现方式中,所述归总结果包括异常指数和正常指数;基于每个所述模型对应的实时权重,对所述至少两个检测结果进行投票归总,得到归总结果,包括:基于各所述模型对应的实时权重与对应的所述检测结果之间的乘积,得到加权检测参数;统计各所述模型对应的加权检测参数,得到异常指数和正常指数。
在第一方面的一种可能的实现方式中,所述方法还包括:获取所述模型的历史检测结果以及每次得到的所述历史检测结果对应的历史归总结果;基于所述历史归总结果和所述历史检测结果,更新所述模型的权重,得到所述实时权重。
在第一方面的一种可能的实现方式中,基于所述历史归总结果和所述历史检测结果,更新所述模型的权重之后,还包括:获取所述模型的更新权重,并基于所述更新权重对各所述模型进行优先级排队,得到模型队列;根据设定的模型数量阈值,剔除所述模型队列中更新权重较低的模型。
在第一方面的一种可能的实现方式中,基于所述历史归总结果和所述历史检测结果,更新所述模型的权重,包括:根据所述历史归总结果和所述历史检测结果,确定所述历史检测结果与所述历史归总结果一致的次数;根据所述历史检测结果与所述历史归总结果一致的次数生成指数函数;根据所述指数函数,更新所述模型的权重,得到所述实时权重。
在第一方面的一种可能的实现方式中,根据所述历史检测结果与所述历史归总结果一致的次数生成的指数函数,包括:根据所述次数生成的指数函数为:
Figure BDA0002563412640000031
其中,i表示所述模型的标识,m表示模型的总数,x表示所述历史检测结果与所述历史归总结果一致的次数;wi表示更新之前的权重;Wi表示更新之后之前的实时权重。
第二方面,本申请实施例提供了一种异常数据的检测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待检测的数据;将所述数据分别输入至少两个模型中,得到至少两个检测结果,其中,所述模型包括基于曲线拟合检测的第一模型、基于时间序列检测的第二模型;基于每个所述模型对应的实时权重,对所述至少两个检测结果进行投票归总,得到归总结果;根据所述归总结果判断所述数据是否异常。
第三方面,本申请实施例提供了一种异常数据的检测装置,包括:
获取单元,用于获取待检测的数据;输入单元,用于将所述数据分别输入至少两个模型中,得到至少两个检测结果,其中,所述模型包括基于曲线拟合检测的第一模型、基于时间序列检测的第二模型;归总单元,用于基于每个所述模型对应的实时权重,对所述至少两个检测结果进行投票归总,得到归总结果;确定单元,用于根据所述归总结果判断所述数据是否异常。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的异常数据的检测方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
本申请实施例与现有技术相比存在的有益效果是:通过将待检测的数据输入不同的检测模型中得到至少两个检测结果,并基于检测模型的实时权重对检测结果进行投票归总,用最后的投票结果作为数据的异常检测结果。通过基于多异常检测算法投票,来实现数据异常检测的自动化,并通过投票机制降低了计算错误的风险。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的异常数据的检测方法的流程图;
图2是本申请实施例二提供的异常数据的检测方法的流程图;
图3是本申请实施例三提供的异常数据的检测装置的示意图;
图4是本申请实施例四提供的异常数据的检测装置的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
参见图1,图1是本申请实施例一提供的一种异常数据的检测方法的流程图。本实施例中异常数据的检测方法的执行主体为具有异常数据的检测功能的装置,包括但不限于计算机、服务器、平板电脑或者终端等装置。如图所示的异常数据的检测方法可以包括以下步骤:
S110:获取待检测的数据。
在本申请的一个实施例中,待检测的数据为以时间为基准所采集到的数据。其采集方式可以是通过埋点的方式、也可以是实时获取的方式,还可以是从存储空间中直接获取的方式得到等。
例如,在对待检测系统进行检测过程中,需要采集待检测系统的运行数据,以通过分析运行数据确定待检测系统的运行是否正常。除此之外,监控关键绩效指标(KeyPerformance Indicator,KPI)曲线并发现KPI曲线中出现的异常,是运维人员的重要工作,此处可以通过实时获取KPI数据,当累计一定时间或者一定周期之后,对当前时段内的KPI数据进行分析,得到分析结论。
S120:将数据分别输入至少两个模型中,得到至少两个检测结果,其中,模型包括基于曲线拟合检测的第一模型、基于时间序列检测的第二模型。
在本申请的一个实施例中,本实施例中的模型可以包括但不限于:基于曲线拟合检测的第一模型、基于时间序列检测的第二模型、基于孤立森林的第三模型、基于高斯分布的第四模型等,除此之外,还包括其他类型的模型。
在本申请的一个实施例中,在基于曲线拟合检测的第一模型中,设定一个0~1之间的参数作为平滑因子(α),以数据子组(标识为i)平均值或单个观测值为基础;当数据在子组中时,计算每个子组中所有观测值的平均值;最后根据这些平均值得出加权移动平均值,以基于加权移动平均值判断数据的异常情况。
在本申请的一个实施例中,使用合并标准差估计得到过程标准差EMWA(i),即加权移动平均值:
Figure BDA0002563412640000061
其中,α表示平滑因子,i表示数据子组的标识。通过计算得到的过程标准差以及标准阈值,得到数据是否异常的判断结果。
在本申请的一个实施例中,在基于时间序列检测的第二模型中,第二模型可以为基于一次指数平滑、二次指数平滑或者三次指数平滑生成的模型,除此之外,还可以为其他类型的线性规划等方式生成的模型。其中,一次指数平滑一般应用于直线型数据,且一次指数平滑具有滞后性,可以说明有明显的时间性、季节性。二次指数平滑一般也应用于直线型,但是效果会比一次指数平滑好很多,也就相当于加强版的一次指数平滑。三次指数平滑可以应用于抛物线型的数据,因为数据在二次平滑过后还是具有斜率,那么可以继续使用三次。
本实施例中应用时间序列平滑法的前提条件是:所预测的客观事物发展属于渐进式,无跳跃性的变化;过去和目前影响客观事物发展的因素也决定着客观事物未来的发展。由于客观事物的发展变动受多种因素的影响,而各种影响因素又可能是不断发展或不断变动的,因此,时间序列平滑法在一般情况下仅适用于短期的与近期的预测。当预测如果需要延伸至较远未来,时间序列平滑法则存在较大的局限性。时间序列平滑法在客观影响因素发生较大变化可能产生较大的预测误差。为降低这些可能的预测误差,本实施例将定性分析和定量研究结合起来,以提高预测的精度。
具体的,给定平滑系数α,三次指数平滑的计算公式为:
Figure BDA0002563412640000071
其中,xt表示原始数据,
Figure BDA0002563412640000072
分别表示指数平滑之前的数据,
Figure BDA0002563412640000073
Figure BDA0002563412640000074
以及
Figure BDA0002563412640000075
表示指数平滑之后的数据。
预测未来T期的数据值xt+T的计算公式为:
xt+T=AT+BTT+CTT2
其中:
Figure BDA0002563412640000076
Figure BDA0002563412640000077
Figure BDA0002563412640000078
本实施例中三次指数平滑算法属于季节性周期异常检测算法,反应采样点的季节性及周期性,可以确保出现重大故障一定能够及时发现,但是过于依赖周期数据,不敏感,小波动可能无法发现异常。
在本申请的一个实施例中,模型还包括基于孤立森林的第三模型、基于高斯分布的第四模型;所述至少两个检测结果包括第一检测结果和第二检测结果;步骤S120中将数据分别输入至少两个模型中,得到至少两个检测结果的过程,包括如下步骤:
将数据输入第三模型中,得到数据是否异常的第一检测结果。
在本申请的一个实施例中,在基于孤立森林的第三模型中,假设T是孤立树的一个节点,它要么是没有子节点的叶子节点,要么是只有两个子节点(Tl,Tr)的内部节点。每一步分割,都包含特征q和分割值p,将q<p的数据分到Tl,将q≥p的数据分到Tr。给定n个样本数据X={x1,x2,···,xn,},特征的维度为d。为了构建一棵孤立树,需要随机选择一个特征q及其分割值p,递归地分割数据集X,直到满足以下任意一个条件:(1)树达到了限制的高度;(2)节点上只有一个样本;(3)节点上的样本所有特征都相同。异常检测的任务是给出一个反应异常程度的排序,常用的排序方法是根据样本点的路径长度或异常得分来排序,异常点就是排在最前面的那些点,以将这些点特征作为第一检测结果。
步骤S120中将数据分别输入至少两个模型中,得到至少两个检测结果的过程,包括如下步骤:将数据输入第四模型中,得到所述数据对应的高斯分布;基于高斯分布对数据进行分析,得到数据对应的概率函数;基于概率函数计算数据在高斯分布中的概率;根据概率以及通过交叉校验集得到的阈值,得到数据是否异常的第二检测结果。
在本申请的一个实施例中,在基于高斯分布的第四模型中,通过给定一个m*n维训练集,将训练集转换为n维的高斯分布;通过高斯分布对m个训练样例的数据样本进行分布分析,得出数据训练集对应的概率函数。其中,概率函数可以为训练集在各个维度上的数学期望μ和方差σ2。本实施例中利用少量的交叉校验集来确定一个阈值ε,以基于阈值ε来判定数据的正常还是异常。具体的,本实施例中基于数据构成的训练集,将训练集分成若干个互补子集,即交叉校验集,然后每组数据对应的高斯分布都通过这些交叉校验集来进行训练,避免验证集浪费太多的训练数据。
具体的,在第四模型中,对于一组数据,我们根据概率函数在高斯分布上计算得到数据在高斯分布中的概率p,具体可以通过基于数学期望μ和方差σ2计算概率密度函数的方式计算得到;当p<ε判定数据异常,当p>ε判定数据正常。
需要说明的是,上述模型中每个模型都有自己的优势和缺陷,因此单单只是通过一种算法来分析数据是否发生异常往往存在很大的片面性,因此,本实施例中基于上述模型得到的检测结果,通过投票的方式来得到最终的数据判断结果。
S130:基于每个模型对应的实时权重,对至少两个检测结果进行投票归总,得到归总结果。
在本申请的一个实施例中,基于每个模型对应的实时权重,对至少两个检测结果进行投票归总,得到归总结果。因为本实施例中的各个模型输出的检测结果可能是异常,也可以是正常。即,可能存在检测结果为正常的模型、也可能存在检测结果为异常的模型。因此本实施例中,归总结果可以包括存在异常的检测结果的个数、以及检测到异常的模型名称。
步骤S130中基于每个模型对应的实时权重,对至少两个检测结果进行投票归总,得到归总结果的过程,包括步骤:基于各模型对应的实时权重与对应的检测结果之间的乘积,得到加权检测参数;统计各模型对应的加权检测参数,得到异常指数和正常指数。
在本申请的一个实施例中,每个模型都有其对应的实时权重,通过将实时权重与检测结果进行相乘,得到加权检测参数。本实施例通过加权参数来表示一个模型最终带有权重信息和检测结果信息的数据。
示例性的,本实施例中的检测结果为正常时,则其对应的数值为正数,例如1,检测结果为异常时,其对应的数值为负数,例如-1。若一个模型的实时权重为1.23,其检测结果为1时,则其对应的加权检测参数即为1.23与1的乘积,即1.23;若一个模型的实时权重为0.95,其检测结果为-1时,则其对应的加权检测参数即为0.95与-1的乘积,即-0.95。
在本申请的一个实施例中,在得到加权检测参数之后,对这些参数进行统计,最后得到包含异常指数和正常指数的归总结果。其中,异常指数表示异常检测结果之间的和,正常指数表示正常检测结果之间的和。
示例性的,各个模型得到的加权检测参数分别为1.23、-0.95、1、-1.15,基于加权检测参数得到的正常指数为1.23和1之间的和,即2.23;基于加权检测参数得到的异常指数为-0.95与-1.15之间的和,即-2.1。
需要说明的是,由于本实施例中为通过投票的方式确定最终的判断结果,虽然可以基于每个模型的权重来衡量判断过程中每个模型的权威性,但为了保证投票的公平性,本实施例中参与数据分析判断的模型的数量可以为奇数,保证最后投票结果的确定性。
S140:根据归总结果判断数据是否异常。
在本申请的一个实施例中,通过包含异常指数和正常指数的归总结果,便可以判定数据是否正常。具体的,本实施例中将异常指数和正常指数进行矢量相加,根据最后的矢量和,确定数据是否异常。
示例性的,若正常指数为2.23、异常指数为-2.1,将两者相加得到0.13,为正值对应的检测结果,即判定数据正常。
由于本实施例中各模型得到的检测结果可能各不相同,本实施例中在得到异常判断结果之后,各模型得到的检测结果可能与最后的异常判断结果也不同,考虑到这种情况,本实施例中通过基于最终的异常判断结果对模型的权重进行修正,以使得检测结果与最终判断结果一致的模型具有较高的权重,进而在之后的投票判断中具有较强的威信度,以提高整个异常检测方法的精确度。
具体的,在更新权重时,将归总结果与每个模型的检测结果进行对比,得到对比结果,其中,对比结果分为两种:一致或者不一致。根据对比结果调整模型在上一轮检测时的权重,得到更新权重。具体的调整方式为,若对比结果为一致,则增大之前的权重得到更新权重,若对比结果不一致,则减小之前的权重得到更新权重。
在本申请的一个实施例中,如图2所示,步骤S140中根据归总结果判断数据是否异常的过程,包括步骤S141~S142,详细说明如下:
在步骤S141中,获取模型的历史检测结果以及每次得到的历史检测结果对应的历史归总结果。
在本申请的一个实施例中,各个模型在检测数据过程中,获取每次的历史检测结果,以及每次得到的历史检测结果对应的历史归总结果。以基于历史归总结果和历史检测结果来统计各模型在每次检测过程中的准确程度,最后基于准确程度来调整各模型的权重。
在步骤S142中,基于历史归总结果和历史检测结果,更新模型的权重,得到实时权重。
在本申请的一个实施例中,步骤S142中基于历史归总结果和历史检测结果,更新模型的权重,得到实时权重的过程,包括如下步骤:
根据历史归总结果和历史检测结果,确定历史检测结果与历史归总结果一致的次数;根据历史检测结果与历史归总结果一致的次数生成的指数函数,更新模型的权重。
在本申请的一个实施例中,根据历史归总结果和历史检测结果,确定历史检测结果与历史归总结果一致的次数,通过次数来衡量该模型检测的正确率。在得到历史检测结果与历史归总结果一致的次数之后,根据次数生成的指数函数和更新之前的权重,计算得到模型的实时权重。
具体的,根据次数生成的指数函数为:
Figure BDA0002563412640000111
其中,i表示模型的标识,m表示模型的总数,x表示历史检测结果与历史归总结果一致的次数;wi表示更新之前的权重;Wi表示更新之后之前的实时权重。
在本申请的一个实施例中,步骤S142中基于历史归总结果和历史检测结果,更新模型的权重,得到实时权重的过程之后,还包括如下步骤:获取模型的更新权重,并基于更新权重对各模型进行优先级排队,得到模型队列;根据设定的模型数量阈值,剔除模型队列中更新权重较低的模型。
在本申请的一个实施例中,由于各个模型的检测准确率不同,因此,当存在一个模型的检测准确率较低时,则可以考虑剔除掉该模型。具体的,本实施例中可以先获取模型的更新权重,以基于各个模型的更新权重,对各模型进行优先级排队,得到由高到低或者由低到高的模型队列。通过设定的模型数量阈值,剔除掉模型队列中更新权重较低的模型。
具体的,本实施例中的更新权重可以是基于历史归总结果和历史检测结果生成的新权重,以通过更新权重来体现模型最新的数据检测能力。
进一步的,除了剔除掉更新权重较低的模型,本实施例中还可以增加其他新的模型,并在新加入模型之后,继续生成并更新模型的权重,以此保证其中模型检测数据的准确度。本实施例中遵循优胜劣汰的原则,通过设定一个模型数量阈值,在固定的时间周期内,将权重较低的模型剔除,并引入新的检测模型来。同过这种优胜劣汰的原则,提高模型的异常检测精度。
上述方案,通过获取待检测的数据;将数据分别输入至少两个模型中,得到至少两个检测结果,其中,模型包括基于曲线拟合检测的第一模型、基于时间序列检测的第二模型;基于每个模型对应的实时权重,对至少两个检测结果进行投票归总,得到归总结果;根据归总结果判断数据是否异常。通过基于多异常检测算法投票,来实现数据异常检测的自动化,并通过投票机制降低了计算错误的风险,同时基于实时更新的权重,更加提高了异常数据检测的精确性和效率。
参见图3,图3是本申请实施例三提供的一种异常数据的检测装置的示意图。异常数据的检测装置300可以为智能手机、平板电脑等移动终端。本实施例的异常数据的检测装置300包括的各单元用于执行图1对应的实施例中的各步骤,具体请参阅图1及图1对应的实施例中的相关描述,此处不赘述。
本实施例的异常数据的检测装置300包括:获取单元301,用于获取待检测的数据;输入单元302,用于将所述数据分别输入至少两个模型中,得到至少两个检测结果,其中,所述模型包括基于曲线拟合检测的第一模型、基于时间序列检测的第二模型;归总单元303,用于基于每个所述模型对应的实时权重,对所述至少两个检测结果进行投票归总,得到归总结果;确定单元304,用于根据所述归总结果判断所述数据是否异常。
在本申请的一些实施例中,基于前述方案,所述模型还包括基于孤立森林的第三模型、基于高斯分布的第四模型;所述至少两个检测结果包括第一检测结果和第二检测结果;所述输入单元302具体用于:将所述数据输入所述第三模型中,得到所述数据是否异常的第一检测结果;将所述数据输入所述第四模型中,得到所述数据对应的高斯分布;基于所述高斯分布对所述数据进行分析,得到所述数据对应的概率函数;基于所述概率函数计算所述数据在高斯分布中的概率;根据所述概率以及通过交叉校验集得到的阈值,得到所述数据是否异常的第二检测结果。
在本申请的一些实施例中,基于前述方案,所述归总结果包括异常指数和正常指数;所述归总单元303具体用于:基于各所述模型对应的实时权重与对应的所述检测结果之间的乘积,得到加权检测参数;统计各所述模型对应的加权检测参数,得到异常指数和正常指数。
在本申请的一些实施例中,基于前述方案,所述异常数据的检测装置300还包括:结果获取单元,用于获取所述模型的历史检测结果以及每次得到的所述历史检测结果对应的历史归总结果;权重更新单元,用于基于所述历史归总结果和所述历史检测结果,更新所述模型的权重,得到所述实时权重。
在本申请的一些实施例中,基于前述方案,所述异常数据的检测装置300还包括:获取所述模型的更新权重,并基于所述更新权重对各所述模型进行优先级排队,得到模型队列;根据设定的模型数量阈值,剔除所述模型队列中更新权重较低的模型。
在本申请的一些实施例中,基于前述方案,所述权重更新单元包括:统计单元,用于根据所述历史归总结果和所述历史检测结果,确定所述历史检测结果与所述历史归总结果一致的次数;第一更新单元,用于根据所述历史检测结果与所述历史归总结果一致的次数生成指数函数;第二更新单元,用于根据所述指数函数,更新所述模型的权重,得到所述实时权重。
在本申请的一些实施例中,基于前述方案,所述更新单元中根据所述次数生成的指数函数为:
Figure BDA0002563412640000141
其中,i表示所述模型的标识,m表示模型的总数,x表示所述历史检测结果与所述历史归总结果一致的次数;wi表示更新之前的权重;Wi表示更新之后之前的实时权重。
上述方案,通过获取待检测的数据;将数据分别输入至少两个模型中,得到至少两个检测结果,其中,模型包括基于曲线拟合检测的第一模型、基于时间序列检测的第二模型;基于每个模型对应的实时权重,对至少两个检测结果进行投票归总,得到归总结果;根据归总结果判断数据是否异常。通过基于多异常检测算法投票,来实现数据异常检测的自动化,并通过投票机制降低了计算错误的风险,同时基于实时更新的权重,更加提高了异常数据检测的精确性和效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图4是本申请实施例四提供的异常数据的检测装置的示意图。如图4所示,该实施例的异常数据的检测装置4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个异常数据的检测方法实施例中的步骤,例如图1所示的步骤。或者,所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能,例如图3所示各个单元的功能。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述异常数据的检测装置4中的执行过程。
所述异常数据的检测装置4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是异常数据的检测装置4的示例,并不构成对异常数据的检测装置4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述异常数据的检测装置4的内部存储单元,例如异常数据的检测装置4的硬盘或内存。所述存储器41也可以是所述异常数据的检测装置4的外部存储设备,例如所述异常数据的检测装置4上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card,FC)等。进一步地,所述存储器41还可以既包括所述异常数据的检测装置4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种异常数据的检测方法,其特征在于,包括:
获取待检测的数据;
将所述数据分别输入至少两个模型中,得到至少两个检测结果,其中,所述模型包括基于曲线拟合检测的第一模型、基于时间序列检测的第二模型;
基于每个所述模型对应的实时权重,对所述至少两个检测结果进行投票归总,得到归总结果;
根据所述归总结果判断所述数据是否异常。
2.如权利要求1所述的异常数据的检测方法,其特征在于,所述模型还包括基于孤立森林的第三模型、基于高斯分布的第四模型;所述至少两个检测结果包括第一检测结果和第二检测结果;
所述将所述数据分别输入至少两个模型中,得到至少两个检测结果,包括:
将所述数据输入所述第三模型中,得到所述数据是否异常的所述第一检测结果;
将所述数据输入所述第四模型中,得到所述数据对应的高斯分布;
基于所述高斯分布对所述数据进行分析,得到所述数据对应的概率函数;
基于所述概率函数计算所述数据在所述高斯分布中的概率;
根据所述概率以及通过交叉校验集得到的阈值,得到所述数据是否异常的所述第二检测结果。
3.如权利要求1所述的异常数据的检测方法,其特征在于,所述归总结果包括异常指数和正常指数;
所述基于每个所述模型对应的实时权重,对所述至少两个检测结果进行投票归总,得到归总结果,包括:
基于各所述模型对应的实时权重与对应的所述检测结果之间的乘积,得到加权检测参数;
统计各所述模型对应的加权检测参数,得到所述异常指数和所述正常指数。
4.如权利要求1所述的异常数据的检测方法,其特征在于,所述方法还包括:
获取所述模型的历史检测结果以及每次得到的所述历史检测结果对应的历史归总结果;
基于所述历史归总结果和所述历史检测结果,更新所述模型的权重,得到所述实时权重。
5.如权利要求4所述的异常数据的检测方法,其特征在于,所述基于所述历史归总结果和所述历史检测结果,更新所述模型的权重,得到所述实时权重之后,还包括:
获取所述模型的更新权重,并基于所述更新权重对各所述模型进行优先级排队,得到模型队列;
根据设定的模型数量阈值,剔除所述模型队列中更新权重较低的模型。
6.如权利要求4所述的异常数据的检测方法,其特征在于,所述基于所述历史归总结果和所述历史检测结果,更新所述模型的权重,得到所述实时权重,包括:
根据所述历史归总结果和所述历史检测结果,确定所述历史检测结果与所述历史归总结果一致的次数;
根据所述历史检测结果与所述历史归总结果一致的次数生成指数函数;
根据所述指数函数,更新所述模型的权重,得到所述实时权重。
7.如权利要求6所述的异常数据的检测方法,其特征在于,所述根据所述历史检测结果与所述历史归总结果一致的次数生成指数函数,包括:
根据所述次数生成的指数函数为:
Figure FDA0002563412630000021
其中,i表示所述模型的标识,m表示模型的总数,x表示所述历史检测结果与所述历史归总结果一致的次数;wi表示更新之前的权重;Wi表示更新之后的实时权重。
8.一种异常数据的检测装置,其特征在于,包括:
获取单元,用于获取待检测的数据;
输入单元,用于将所述数据分别输入至少两个模型中,得到至少两个检测结果,其中,所述模型包括基于曲线拟合检测的第一模型、基于时间序列检测的第二模型;
归总单元,用于基于每个所述模型对应的实时权重,对所述至少两个检测结果进行投票归总,得到归总结果;
确定单元,用于根据所述归总结果判断所述数据是否异常。
9.一种异常数据的检测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202010622212.9A 2020-06-30 2020-06-30 一种异常数据的检测方法及装置 Pending CN111783883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010622212.9A CN111783883A (zh) 2020-06-30 2020-06-30 一种异常数据的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010622212.9A CN111783883A (zh) 2020-06-30 2020-06-30 一种异常数据的检测方法及装置

Publications (1)

Publication Number Publication Date
CN111783883A true CN111783883A (zh) 2020-10-16

Family

ID=72760692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010622212.9A Pending CN111783883A (zh) 2020-06-30 2020-06-30 一种异常数据的检测方法及装置

Country Status (1)

Country Link
CN (1) CN111783883A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255792A (zh) * 2021-06-01 2021-08-13 广东粤港澳大湾区硬科技创新研究院 一种数据异常点检测方法、装置、系统、以及存储介质
CN114553451A (zh) * 2020-11-25 2022-05-27 中国移动通信有限公司研究院 数据处理方法、系统、数据检测装置及区块链平台

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109587008A (zh) * 2018-12-28 2019-04-05 华为技术服务有限公司 检测异常流量数据的方法、装置及存储介质
CN109936470A (zh) * 2017-12-18 2019-06-25 中国电子科技集团公司第十五研究所 一种异常检测方法
CN110166462A (zh) * 2019-05-25 2019-08-23 深圳市元征科技股份有限公司 访问控制方法、系统、电子设备及计算机存储介质
CN110443274A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 异常检测方法、装置、计算机设备及存储介质
CN110888788A (zh) * 2019-10-16 2020-03-17 平安科技(深圳)有限公司 异常检测方法、装置、计算机设备及存储介质
CN111061620A (zh) * 2019-12-27 2020-04-24 福州林科斯拉信息技术有限公司 一种混合策略的服务器异常智能检测方法及检测系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109936470A (zh) * 2017-12-18 2019-06-25 中国电子科技集团公司第十五研究所 一种异常检测方法
CN109587008A (zh) * 2018-12-28 2019-04-05 华为技术服务有限公司 检测异常流量数据的方法、装置及存储介质
CN110166462A (zh) * 2019-05-25 2019-08-23 深圳市元征科技股份有限公司 访问控制方法、系统、电子设备及计算机存储介质
CN110443274A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 异常检测方法、装置、计算机设备及存储介质
CN110888788A (zh) * 2019-10-16 2020-03-17 平安科技(深圳)有限公司 异常检测方法、装置、计算机设备及存储介质
CN111061620A (zh) * 2019-12-27 2020-04-24 福州林科斯拉信息技术有限公司 一种混合策略的服务器异常智能检测方法及检测系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114553451A (zh) * 2020-11-25 2022-05-27 中国移动通信有限公司研究院 数据处理方法、系统、数据检测装置及区块链平台
CN113255792A (zh) * 2021-06-01 2021-08-13 广东粤港澳大湾区硬科技创新研究院 一种数据异常点检测方法、装置、系统、以及存储介质

Similar Documents

Publication Publication Date Title
CN112258093A (zh) 风险等级的数据处理方法及装置、存储介质、电子设备
CN109165691B (zh) 用于识别作弊用户的模型的训练方法、装置及电子设备
CN111625516A (zh) 检测数据状态的方法、装置、计算机设备和存储介质
CN111080117A (zh) 设备风险标签的构建方法、装置、电子设备及存储介质
CN113837596B (zh) 一种故障确定方法、装置、电子设备及存储介质
CN115801463B (zh) 工业互联网平台入侵检测的方法、装置和电子设备
CN112882889A (zh) 异常监控方法、系统、电子设备和存储介质
CN111783883A (zh) 一种异常数据的检测方法及装置
CN114399321A (zh) 一种业务系统稳定性分析方法、装置和设备
CN110795324A (zh) 一种数据处理方法及装置
CN112182056A (zh) 一种数据检测方法、装置、设备及存储介质
CN113296992A (zh) 异常原因确定方法、装置、设备和存储介质
RU2632124C1 (ru) Способ прогнозной оценки эффективности многоэтапных процессов
CN110717653B (zh) 风险识别方法及装置和电子设备
CN115630708A (zh) 一种模型更新方法、装置、电子设备、存储介质及产品
CN115203556A (zh) 一种评分预测模型训练方法、装置、电子设备及存储介质
CN110929849B (zh) 一种基于神经网络模型压缩的视频检测方法和装置
CN114416462A (zh) 一种机器行为识别方法及装置、电子设备、存储介质
CN113052509A (zh) 模型评估方法、模型评估装置、电子设备和存储介质
CN112308294A (zh) 违约概率预测方法及装置
CN111309716A (zh) 应用于pas案例库的维护方法、装置及计算机设备
CN112395179B (zh) 一种模型训练方法、磁盘预测方法、装置及电子设备
CN116661954B (zh) 虚拟机异常预测方法、装置、通信设备及存储介质
CN111522678B (zh) 故障检测方法和装置
CN111368887B (zh) 雷雨天气预测模型的训练方法及雷雨天气预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination