CN116361695A - 异常数据检测方法以及装置 - Google Patents

异常数据检测方法以及装置 Download PDF

Info

Publication number
CN116361695A
CN116361695A CN202310340336.1A CN202310340336A CN116361695A CN 116361695 A CN116361695 A CN 116361695A CN 202310340336 A CN202310340336 A CN 202310340336A CN 116361695 A CN116361695 A CN 116361695A
Authority
CN
China
Prior art keywords
sequence
data
analyzed
determining
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310340336.1A
Other languages
English (en)
Inventor
杨洪鑫
范晓宁
郑岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Nova Technology Singapore Holdings Ltd
Original Assignee
Alipay Labs Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Labs Singapore Pte Ltd filed Critical Alipay Labs Singapore Pte Ltd
Priority to CN202310340336.1A priority Critical patent/CN116361695A/zh
Publication of CN116361695A publication Critical patent/CN116361695A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本说明书实施例提供异常数据检测方法以及装置,其中异常数据检测方法包括:从待测数据序列中提取第一时间段内的第一待分析序列、第二时间段内的第二待分析序列和第三时间段内的第三待分析序列,该第一时间段、第二时间段和第三时间段对应不同的时间尺度,该时间尺度是指截取待分析序列的时间长度,从而可以同时对不同时间尺度下的待分析序列进行时序统计特征分析,结合各个时间尺度下的识别结果,确定该待测数据序列是否为异常数据。如此,考虑了待测数据本身的时序统计特征,以及不同时间尺度下的数据特征,实现了多尺度确定待测数据序列是否为异常数据,可以适应不同时间尺度下的输入数据,提高了确定异常数据的准确率。

Description

异常数据检测方法以及装置
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种异常数据检测方法及装置。
背景技术
随着计算机技术和互联网技术的不断发展,为满足人们的工作生活所需,各种线上项目应用而生,涉及到的领域也越来越广泛,相应产生了大量的线上数据。为了保障数据安全,以及能够及时监测项目的进展情况,往往需要对数据进行检测,以便对异常数据进行告警,从而及时处理异常。
现有技术中,往往是单纯依靠固定的时间尺度进行异常数据检测,抑或是依靠大量打标和深度学习的黑盒式的判断,异常数据识别准确率较低,因而需要更准确或者更可靠的异常数据检测方法。
发明内容
有鉴于此,本说明书实施例提供了一种异常数据检测方法。本说明书一个或者多个实施例同时涉及一种异常数据检测装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种异常数据检测方法,包括:
获取待测数据序列;
从待测数据序列中获取第一时间段内的第一待分析序列、第二时间段内的第二待分析序列和第三时间段内的第三待分析序列,其中,第一时间段、第二时间段和第三时间段对应不同的时间尺度,时间尺度是指截取待分析序列的时间长度;
分别根据第一待分析序列、第二待分析序列和第三待分析序列的时序统计特征,确定对应的第一识别结果、第二识别结果和第三识别结果;
根据第一识别结果、第二识别结果和第三识别结果,确定待测数据序列是否为异常数据。
本说明书一个可选的实施例中,获取待测数据序列,包括:
获取初始数据序列,并对初始数据序列进行平滑处理,获得平滑数据序列;
确定初始数据序列和平滑数据序列的残差数据序列;
根据残差数据序列确定平滑阈值,根据平滑阈值筛除残差数据序列中的离群点,并补充缺失值,获得平滑曲线;
将平滑曲线作为待测数据序列。
本说明书一个可选的实施例中,分别根据第一待分析序列、第二待分析序列和第三待分析序列的时序统计特征,确定对应的第一识别结果、第二识别结果和第三识别结果,包括:
确定第一待分析序列的数据变点,根据数据变点确定待测数据序列的第一识别结果;
确定第二待分析序列的第一周期,根据第一周期确定第二待分析序列的同比变化序列;根据同比变化序列确定待测数据序列的第二识别结果;
确定第三待分析序列的核密度估计序列,根据核密度估计序列,确定待测数据序列的第三识别结果。
本说明书一个可选的实施例中,确定第一待分析序列的数据变点,包括:
确定第一时间点之前各第一数据点以及第一时间点之后各第二数据点的方差和,其中,第一时间点为第一待分析序列中的任一时间点;
将第一待分析序列中方差和最小、且各第一数据点均值低于各第二数据点均值的目标时间点作为上升变点;
将第一待分析序列中方差和最小、且各第一数据点均值高于各第二数据点均值的目标时间点作为下降变点。
本说明书一个可选的实施例中,根据数据变点确定待测数据序列的第一识别结果,包括:
确定上升变点和下降变点是否满足冲高回落噪声的约束条件,其中,约束条件基于冲高回落噪声的分布特点配置;
若是,则确定第一识别结果为冲高回落噪声;
若否,则确定第一识别结果不为冲高回落噪声。
本说明书一个可选的实施例中,根据第一周期确定第二待分析序列的同比变化序列,包括:
从第二待分析序列中确定当前周期的第一时序数据,以及当前周期之前的历史周期的第二时序数据;
将第一时序数据减去第二时序数据,获得同比变化序列。
本说明书一个可选的实施例中,根据同比变化序列确定待测数据序列的第二识别结果,包括:
确定同比变化序列的数据变点,根据数据变点确定待测数据序列的第二识别结果。
本说明书一个可选的实施例中,确定第三待分析序列的核密度估计序列,包括:
确定第三待分析数据中目标数据点的数据值,其中,目标数据点为第三待分析序列中的任一数据点;
根据参考数据点对目标数据点的影响力参数,确定目标数据点的估计值,其中,参考数据点为第三待分析序列中除目标数据点之外其他各数据点;
根据第三待分析序列中各数据点对应的估计值,生成核密度估计序列。
本说明书一个可选的实施例中,根据核密度估计序列,确定待测数据序列的第三识别结果,包括:
确定核密度估计序列的第二周期;
从第三待分析序列中确定当前周期的第三时序数据,以及当前周期之前的历史周期的第四时序数据;
计算第三时序数据和第四时序数据的相似度;
若相似度满足相似度阈值,则确定第三识别结果为冲高回落噪声;若相似度不满足相似度阈值,则确定第三识别结果不为冲高回落噪声。
本说明书一个可选的实施例中,第一识别结果、第二识别结果和第三识别结果用于指示待测数据序列是否为冲高回落噪声;根据第一识别结果、第二识别结果和第三识别结果,确定待测数据序列是否为异常数据,包括:
若第一识别结果、第二识别结果和第三识别结果中任一识别结果为冲高回落噪声,则确定待测数据不为异常数据。
根据本说明书实施例的第二方面,提供了一种异常数据检测装置,包括:
第一获取模块,被配置为获取待测数据序列;
第二获取模块,被配置为从待测数据序列中获取第一时间段内的第一待分析序列、第二时间段内的第二待分析序列和第三时间段内的第三待分析序列,其中,第一时间段、第二时间段和第三时间段对应不同的时间尺度,时间尺度是指截取待分析序列的时间长度;
第一确定模块,被配置为分别根据第一待分析序列、第二待分析序列和第三待分析序列的时序统计特征,确定对应的第一识别结果、第二识别结果和第三识别结果;
第二确定模块,被配置为根据第一识别结果、第二识别结果和第三识别结果,确定待测数据序列是否为异常数据。
本说明书一个可选的实施例中,第一获取模块,进一步被配置为:
获取初始数据序列,并对初始数据序列进行平滑处理,获得平滑数据序列;
确定初始数据序列和平滑数据序列的残差数据序列;
根据残差数据序列确定平滑阈值,根据平滑阈值筛除残差数据序列中的离群点,并补充缺失值,获得平滑曲线;
将平滑曲线作为待测数据序列。
本说明书一个可选的实施例中,第一确定模块,进一步被配置为:
确定第一待分析序列的数据变点,根据数据变点确定待测数据序列的第一识别结果;
确定第二待分析序列的第一周期,根据第一周期确定第二待分析序列的同比变化序列;根据同比变化序列确定待测数据序列的第二识别结果;
确定第三待分析序列的核密度估计序列,根据核密度估计序列,确定待测数据序列的第三识别结果。
本说明书一个可选的实施例中,第一确定模块,进一步被配置为:
确定第一时间点之前各第一数据点以及第一时间点之后各第二数据点的方差和,其中,第一时间点为第一待分析序列中的任一时间点;
将第一待分析序列中方差和最小、且各第一数据点均值低于各第二数据点均值的目标时间点作为上升变点;
将第一待分析序列中方差和最小、且各第一数据点均值高于各第二数据点均值的目标时间点作为下降变点。
本说明书一个可选的实施例中,第一确定模块,进一步被配置为:
确定上升变点和下降变点是否满足冲高回落噪声的约束条件,其中,约束条件基于冲高回落噪声的分布特点配置;
若是,则确定第一识别结果为冲高回落噪声;
若否,则确定第一识别结果不为冲高回落噪声。
本说明书一个可选的实施例中,第一确定模块,进一步被配置为:
从第二待分析序列中确定当前周期的第一时序数据,以及当前周期之前的历史周期的第二时序数据;
将第一时序数据减去第二时序数据,获得同比变化序列。
本说明书一个可选的实施例中,第一确定模块,进一步被配置为:
确定同比变化序列的数据变点,根据数据变点确定待测数据序列的第二识别结果。
本说明书一个可选的实施例中,第一确定模块,进一步被配置为:
确定第三待分析数据中目标数据点的数据值,其中,目标数据点为第三待分析序列中的任一数据点;
根据参考数据点对目标数据点的影响力参数,确定目标数据点的估计值,其中,参考数据点为第三待分析序列中除目标数据点之外其他各数据点;
根据第三待分析序列中各数据点对应的估计值,生成核密度估计序列。
本说明书一个可选的实施例中,第一确定模块,进一步被配置为:
确定核密度估计序列的第二周期;
从第三待分析序列中确定当前周期的第三时序数据,以及当前周期之前的历史周期的第四时序数据;
计算第三时序数据和第四时序数据的相似度;
若相似度满足相似度阈值,则确定第三识别结果为冲高回落噪声;若相似度不满足相似度阈值,则确定第三识别结果不为冲高回落噪声。
本说明书一个可选的实施例中,第一识别结果、第二识别结果和第三识别结果用于指示待测数据序列是否为冲高回落噪声;第二确定模块,进一步被配置为:
若第一识别结果、第二识别结果和第三识别结果中任一识别结果为冲高回落噪声,则确定待测数据不为异常数据。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,该计算机可执行指令被处理器执行时实现上述异常数据检测方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述异常数据检测方法的步骤。
根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当计算机程序在计算机中执行时,令计算机执行上述异常数据检测方法的步骤。
本说明书一个或多个实施例提供了一种异常数据检测方法,可以获取待测数据序列;从待测数据序列中获取第一时间段内的第一待分析序列、第二时间段内的第二待分析序列和第三时间段内的第三待分析序列,其中,第一时间段、第二时间段和第三时间段对应不同的时间尺度,时间尺度是指截取待分析序列的时间长度;分别根据第一待分析序列、第二待分析序列和第三待分析序列的时序统计特征,确定对应的第一识别结果、第二识别结果和第三识别结果;根据第一识别结果、第二识别结果和第三识别结果,确定待测数据序列是否为异常数据。
这种情况下,从待测数据序列中提取第一时间段内的第一待分析序列、第二时间段内的第二待分析序列和第三时间段内的第三待分析序列,该第一时间段、第二时间段和第三时间段对应不同的时间尺度,可以同时对不同时间尺度下的待分析序列进行时序统计特征分析,结合各个时间尺度下的识别结果,确定该待测数据序列是否为异常数据。如此,考虑了待测数据本身的时序统计特征,并且考虑了不同时间尺度下的数据特征,实现了多尺度确定待测数据序列是否为异常数据,可以适应不同时间尺度下的输入数据,提高了确定异常数据的准确率,避免了误报,节约了异常排查时间。
附图说明
图1是本说明书一个实施例提供的一种异常数据检测方法的流程图;
图2a是本说明书一个实施例提供的一种待测数据序列的示意图;
图2b是本说明书一个实施例提供的一种数据变点的示意图;
图2c是本说明书一个实施例提供的一种同比变化序列的示意图;
图2d是本说明书一个实施例提供的一种核密度估计序列的示意图;
图2e是本说明书一个实施例提供的一种异常数据检测方法的处理过程示意图;
图3是本说明书一个实施例提供的一种应用于交易数据场景下的异常数据检测方法的处理过程流程图;
图4是本说明书一个实施例提供的一种异常数据检测装置的结构示意图;
图5是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
冲高回落:由于时间序列的短暂上升导致的当前时间下降,是一种噪声类型,会造成下跌检验的误报。
动态阈值:基于统计属性动态调整阈值的技术方法。
多尺度算法:不同的时间尺度,比如“分钟”级、“小时”级、“天”级。多尺度算法同时考虑不同的时间尺度进行检验。
时间序列平滑:时间序列由于其随机性带有毛刺等不平滑因素,时间序列的平滑算法将这些不平滑毛刺消除,作为下一步算法的输入。
需要说明的是,冲高回落作为一种噪声,如何识别是告警降噪的难点和重点之一。冲高回落有其特定模式,即由于过去一段时间的短暂升高造成当前时间点的下跌。冲高回落的检测是时序异常检测中的重点和难点。在时间序列的异常检测中,总是出现冲高回落的噪声模式,它们有着不同的时间尺度,不同的统计特征,因此很难以一套固定规则覆盖,因而需要引入不同时间尺度下冲高回落噪声的识别能力。在这种特定模式中,如何确定合适的时间尺度,是冲高回落检测中的难点。大部分的冲高回落检测采用固定阈值和单点检测的方式,也即针对任意一个数据点,判断该数据点是大于阈值还是小于阈值,从而判断其是否属于下跌异常,这样面对实际的应用场景可以很快的给出检测结果,但准确率相对较差,没有考虑时间序列本身的特性,也没有考虑不同时间尺度下的冲高回落。
在变化多端的时间序列中确定进行异常分析的合适的时间尺度,自适应的调整冲高回落的阈值,需要对项目深入挖掘和对统计算法具有深入理解。大多数的冲高回落检测基于过去一段时间的时间序列基线,以此为基准计算阈值,并将近期的数值和基线做对比,如此可能会造成阈值过低时大量误降噪,阈值过高时降噪效果较差,导致噪音、漏报率的总和指标较差。
大部分的冲高回落检测可以基于固定规则的冲高回落降噪,单纯依靠固定的时间尺度检测进行降噪,抑或是依靠大量打标和深度学习的黑盒式的判断。其中,基于固定规则的冲高回落降噪,这种方案直接基于设定规则和近期时序,通过近几个点(一般为3个)来判断当前状态是否为冲高回落,如使用时间序列预测的方法通过历史数据预测当前一段时间的数值,如果实际数值和预测数值差异很大,并且实际数值低于预测数值很多,则认为是冲高回落,如此简单的规则易于调整,适应专家经验,但不能自适应的调整,对于各个流量不同的商户、渠道数据覆盖能力不足,同时对长时间尺度的冲高回落不敏感,容易造成遗漏。基于深度学习的方案,使用深度学习技术,将冲高回落建模为二分类问题,通过深度学习的强大学习能力和海量数据标签实现分类,但是深度学习的方案需要的训练数据要求很高,除了要求数据量大之外,数据本身标签的噪音也会影响模型效果,会造成模型得到错误的结果,需要大量高质量的打标数据作为训练语料,而如此高质量的数据难以获得,需要投入更大的时间和人力成本,对标签噪音敏感,因此难以落地,同时深度学习难以引入专家信息,对于某些需要专家约束的特殊场景或是对解释性要求较高的场景实际应用效果较差。
本说明书一个或多个实施例中提出了一种自适应、多尺度冲高回落噪声的识别方案,依据时间序列本身的统计特性,可以自适应的调整冲高回落的判断阈值,并且可以并行考虑多个不同的时间尺度,使得针对输入的任意时间尺度的时间序列,都能判断该序列是否为冲高回落噪声,对于冲高回落这种噪声类别不进行异常告警,以对冲高回落这种噪声类别进行针对性的降噪,防止由于过量误报告警造成的损失,以作出降噪操作,防止告警噪音过大,大大降低了告警数量和噪音率,节约了异常排查时间,可以将告警噪音从50%降低到15%,也避免了异常遗漏。
在本说明书中,提供了一种异常数据检测方法,本说明书同时涉及一种异常数据检测装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一个实施例提供的一种异常数据检测方法的流程图,具体包括以下步骤102-步骤108。
步骤102:获取待测数据序列。
需要说明的是,待测数据序列是从线上项目平台获取到的用户数据的时间序列,也即各个用户数据按照时间先后顺序构成的序列,后续可以对该待检测数据序列进行检测,确定是否出现异常,从而对异常数据进行告警。例如,在交易场景下,该待测数据序列可以是指用户交易量、交易成功率或交易额等交易数据构成的时间序列;又如,在应用程序的用户监测场景下,该待测数据序列可以是指用户登录量、用户注册量、用户下载量等使用数据构成的时间序列。
其中,该待测数据序列可以为各个用户数据按照时间排列后,生成的数据曲线,该数据曲线的横轴为时间,纵轴为用户数据的具体数值。当然,该待测数据序列也可以不为曲线形式,而是按照时间顺序存储的一系列数据点。
本实施例一个可选的实施方式中,由于直接获取到的时间序列有随机性,带有毛刺等不平滑因素,因而还可以对获取到的时间序列数据进行预处理,获得该待测数据序列,也即获取待测数据序列,具体实现过程可以如下:
获取初始数据序列,并对初始数据序列进行平滑处理,获得平滑数据序列;
确定初始数据序列和平滑数据序列的残差数据序列;
根据残差数据序列确定平滑阈值,根据平滑阈值筛除残差数据序列中的离群点,并补充缺失值,获得平滑曲线;
将平滑曲线作为待测数据序列。
其中,该初始数据序列即为从线上项目平台获取到的原始用户数据,通过平滑算法对该初始数据序列进行平滑处理,可以获得平滑数据序列。
需要说明的是,获取到的初始数据序列可以为曲线形式,该平滑算法可以是指EMA(ExponentialMovingAverage,指数移动平均值),也叫EXPMA指标,它是一种趋向类指标,指数移动平均值是以指数式递减加权的移动平均,通过EMA可以平滑和美观曲线。当然,也可以通过其他平滑算法对初始数据序列进行平滑处理,本说明书实施例对此不进行限定,如还可以通过savitzkyu-golay滤波器对初始数据序列进行平滑处理,savitzkyu-golay滤波器是一种常用的滤波方法,可保留相对极值和宽度等分布特性,可以用于数据平滑除噪。
另外,获得平滑数据序列后,可以确定初始数据序列和平滑数据序列的残差数据序列,该残差数据序列是指初始数据序列和平滑数据序列之间的残差分布;具体的,使用初始数据序列减去平滑数据序列,可以获得每个时间点下初始数据序列和平滑数据序列之间数据值的差值,各个时间点下的差值可以构成残差数据序列。
本说明书一个或多个实施例中,可以根据残差数据序列中各个数据点的标准差动态设定平滑阈值,并将残差数据序列中大于该平滑阈值的数据点确定为离群点,该离群点是指一个时间序列中,远离序列的一般水平的极端大值和极端小值,去除该离群点可以使得生成的曲线更为平滑,如可以取3倍标准差为该平滑阈值。另外,去除离群点之后,以线性填充的方式补充缺失值,也即时间点t处的数据值为时间点t-1和时间点t+1处数据值的均值,使得生成的曲线更为连贯,获得预处理后的平滑曲线,该预处理后的平滑曲线即为待测数据序列,后续可以对该待测数据序列进行识别分析,识别其是否为冲高回落噪声,进而识别其是否为异常数据,是否需要进行异常告警。
示例的,图2a是本说明书一个实施例提供的一种待测数据序列的示意图,如图2a所示,横轴为时间,纵轴为数据值,如图2a所示,各个离散的点构成残差数据序列,圆圈内为确定出的离群点,筛除离群点,并补全缺失值后,获得的预处理后的待测数据序列可以如图2a中所示。
本说明书一个或多个实施例中,可以对获取到的初始数据序列进行平滑处理,获得平滑数据序列,然后基于初始数据序列和平滑数据序列之间的残差数据序列,可以动态调整平滑阈值,使得离群点去除的过程中平滑阈值可以基于初始数据序列和平滑数据序列的数据分布情况动态调整,能更好地适应不同的数据,且确定出平滑阈值后,可以根据该平滑阈值筛除残差数据序列中的离群点,并补充缺失值,获得平滑曲线,将该预处理后的平滑曲线作为待测数据序列,进行后续的数据识别,去除了时间序列带有毛刺等不平滑因素,使得获得的待测数据序列较为平滑、稳定,为后续数据识别分析提供平滑、稳定的数据,保证了后续异常数据检测的准确性。
步骤104:从待测数据序列中获取第一时间段内的第一待分析序列、第二时间段内的第二待分析序列和第三时间段内的第三待分析序列,其中,第一时间段、第二时间段和第三时间段对应不同的时间尺度,该时间尺度是指截取待分析序列的时间长度。
其中,待测数据序列可以是当前时间之前大量的用户数据构成的序列,在对待测数据序列进行识别分析时,可以基于不同的时间尺度,从待测数据序列中截取不同时间尺度下的待分析序列,后续对不同时间尺度下的待分析序列同时进行分析识别,综合确定待测数据序列是否为异常数据,如该时间尺度可以是指“分钟”级、“小时”级、“天”级等,“分钟”级是指获取近几分钟的数据序列进行分析,“小时”级是指获取近几小时的数据序列进行分析,“天”级是指获取近几天的数据序列进行分析。上述时间尺度仅为举例说明,也可以为其他更长或更短的时间尺度。
作为一种示例,可以从待测数据序列中获取当前时间前100分钟内的数据作为第一待分析序列,从待测数据序列中获取当前时间前48个小时内的数据作为第二待分析序列,从待测数据序列中获取当前时间前50天的数据作为第三待分析序列。
本说明书实施例中,可以从待测数据序列中获取不同时间尺度下的待分析序列,便于后续同时对不同时间尺度下的待分析序列进行时序统计特征分析,结合各个时间尺度下的识别结果,确定该待测数据序列是否为异常数据,考虑了不同时间尺度下的数据特征,从而实现了多尺度确定待测数据序列是否为异常数据,能够适应不同时间尺度下的输入数据,提高了确定异常数据的准确率,避免了误报,节约了异常排查时间。
步骤106:分别根据第一待分析序列、第二待分析序列和第三待分析序列的时序统计特征,确定对应的第一识别结果、第二识别结果和第三识别结果。
需要说明的是,第一待分析序列、第二待分析序列和第三待分析序列是不同时间尺度下获取到的待分析序列,不同时间尺度下可以有对应的设定处理规则,分别基于第一待分析序列、第二待分析序列和第三待分析序列对应的设定处理规则,分析其时序统计特征,该时序统计特征可以是指待分析序列中各个数据在时序上的分布特点,如上升、下降、周期、是否为同分布、不同周期间的分布是否相似等,各个时间尺度下均可以获得对应的识别结果,后续可以根据各个识别结果,确定待测数据序列是否为实际的异常数据,还是为冲高回落的噪声数据。
本实施例一个可选的实施方式中,可以基于不同时间尺度下对应的设定处理规则,对相应的待分析序列的时序统计特征进行分析,确定出对应的识别结果,也即分别根据第一待分析序列、第二待分析序列和第三待分析序列的时序统计特征,确定对应的第一识别结果、第二识别结果和第三识别结果,具体实现过程可以如下:
确定第一待分析序列的数据变点,根据数据变点确定待测数据序列的第一识别结果;
确定第二待分析序列的第一周期,根据第一周期确定第二待分析序列的同比变化序列;根据同比变化序列确定待测数据序列的第二识别结果;
确定第三待分析序列的核密度估计序列,根据核密度估计序列,确定待测数据序列的第三识别结果。
需要说明的是,对于最小时间尺度来说,设定处理规则可以为分析对应的待分析序列的数据变点,该数据变点可以指示一段序列在时序分布上的数值升降情况,根据该数据变点可以确定该待分析序列是否为冲高回落噪声,获得第一识别结果。对于中间时间尺度来说,设定处理规则可以为分析对应的待分析序列的周期,根据确定出的周期可以分析时序分布上的同比变化序列,该同比变化序列是指当前周期与之前的历史周期之间的变化情况,进而可以确定该待分析序列是否为冲高回落噪声,获得第二识别结果。对于最长时间尺度来说,设定处理规则可以为计算对应的待分析序列的核密度估计序列,基于核密度估计序列确定该待分析序列是否为冲高回落噪声,获得第三识别结果。
一种可能的实现方式中,可以设置第三时间段的时间尺度大于第二时间段的时间尺度大于第一时间段的时间尺度,也即第三待分析序列的时间长度大于第二待分析序列的时间长度大于第一待分析序列的时间长度。因而,可以确定第一待分析序列的数据变点,根据数据变点确定待测数据序列的第一识别结果;确定第二待分析序列的第一周期,根据第一周期确定第二待分析序列的同比变化序列,根据同比变化序列确定待测数据序列的第二识别结果;确定第三待分析序列的核密度估计序列,根据核密度估计序列,确定待测数据序列的第三识别结果。
本说明书一个或多个实施例中,不同时间尺度可以通过不同的设定处理规则,识别分析对应的时序统计特征,对不同时间尺度的数据序列同时进行识别分析,后续可以综合各个时间尺度下的识别结果,确定该待测数据序列是否为异常数据,考虑了不同时间尺度下的数据特征,从而实现了多尺度确定待测数据序列是否为异常数据,能够适应不同时间尺度下的输入数据,提高了确定异常数据的准确率,避免了误报,节约了异常排查时间。
本实施例一个可选的实施方式中,确定第一待分析序列的数据变点,具体实现过程可以如下:
确定第一时间点之前各第一数据点以及第一时间点之后各第二数据点的方差和,其中,第一时间点为第一待分析序列中的任一时间点;
将第一待分析序列中方差和最小、且各第一数据点均值低于各第二数据点均值的目标时间点作为上升变点;
将第一待分析序列中方差和最小、且各第一数据点均值高于各第二数据点均值的目标时间点作为下降变点。
需要说明的是,第一待分析序列中的任一时间点t均可以作为第一时间点,确定该时间点t之前的各第一数据点的第一方差,以及该时间点t之后的各第二数据点的第二方差,然后确定第一方差和第二方差的方差和。第一待分析序列中的各个时间点t均可以作为第一时间点,计算出对应的方差和,以筛选出方差和最小的数据变点。
本说明书一个或多个实施例中,数据变点可以分为上升变点和下降变点,上升变点的分布特点是该点之前各数据点的均值应当低于之后各数据点的均值,而下降变点的分布特点是该点之前各数据点的均值应当高于之后各数据点的均值。因而,可以确定方差和最小、且之前各数据点的均值低于之后各数据点的均值的时间点作为上升变点,并将方差和最小、且之前各数据点的均值高于之后各数据点的均值的时间点作为下降变点。
示例的,图2b是本说明书一个实施例提供的一种数据变点的示意图,如图2b所示,确定出的上升变点为M1,下降变点为M2。
本说明书一个或多个实施例中,可以分析第一待分析序列中各时间点之前数据点和之后数据点的方差和,以及之前数据点的均值、之后数据点的均值,确定出上升变点和下降变点,从而便于后续基于确定出的上升和变化趋势,判断对应的待分析序列是否为冲高回落噪声。
本实施例一个可选的实施方式中,根据数据变点确定待测数据序列的第一识别结果,具体实现过程可以如下:
确定上升变点和下降变点是否满足冲高回落噪声的约束条件,其中,约束条件基于冲高回落噪声的分布特点配置;
若是,则确定第一识别结果为冲高回落噪声;
若否,则确定第一识别结果不为冲高回落噪声。
需要说明的是,冲高回落噪声有对应的分布特点,具体可以为上升变点应在下降变点之前,下降变点之后的时间序列T2,与上升变点之前的时间序列T1应当为同分布或T1显著大于T2,避免漏告警。因而,可以根据冲高回落噪声对应的分布特点设置对应的约束条件,如该约束条件为上升变点在下降变点之前、且下降变点之后的第二时间序列与上升变点之前的第一时间序列为同分布或第一时间序列的均值显著大于第二时间序列。
一种可能的实现方式中,确定出第一待分析序列的上升变点和下降变点之后,可以确定上升变点是否在下降变点之前,若否,则确定该第一待分析序列不是冲高回落噪声;若是,则可以进一步获取下降变点之后的时间序列T2,与上升变点之前的时间序列T1,对T1和T2进行T检验,确定T1是否显著大于T2,或T1和T2是否为同分布,若是,则说明第一待分析序列是冲高回落噪声,若否,则说明第一待分析序列不是冲高回落噪声。其中,T(Student'sttest)检验是指用于小样本的两个平均值差异程度的检验方法,用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。
本说明书一个或多个实施例中,提供了一种针对小时间尺度下、自适应环比冲高回落的识别分析方式,可以确定上升变点和下降变点是否满足冲高回落噪声的约束条件,从而确定第一待分析序列的上升变点和下降变点是否满足冲高回落的时序分布特点,以确定第一待分析序列是否为冲高回落噪声,获得第一时间段对应的第一时间尺度下(即最小时间尺度下)的第一待分析序列是否为冲高回落噪声,获得该时间尺度下的第一识别结果,从而便于后续综合不同时间尺度下的识别结果,确定待测数据序列是否为异常数据。
本实施例一个可选的实施方式中,根据第一周期确定第二待分析序列的同比变化序列,包括:
从第二待分析序列中确定当前周期的第一时序数据,以及当前周期之前的历史周期的第二时序数据;
将第一时序数据减去第二时序数据,获得同比变化序列。
需要说明的是,可以通过自回归模型、FFT(FastFourierTransform,快速傅里叶变换)算法等时序分析算法,确定第二待分析序列的周期t。其中,自回归模型是统计上一种处理时间序列的方法,是用同一变数之前各期的表现情况,来预测该变数本期的表现情况,并假设它们为线性关系,因为这是从回归分析中的线性回归发展而来,只是不是用来预测其他变数,而是用来预测自己,所以叫做自回归。FFT是快速计算序列的离散傅里叶变换(DFT)或其逆变换的方法,傅里叶分析可以将数据从原始域(通常是时间或空间)转换到频域的表示或者逆过来转换。
一种可能的实现方式中,确定出第二待分析序列的周期t后,可以确定当前周期的第一时序数据,以及当前周期之前的历史周期的第二时序数据,其中,该历史周期可以为当前周期的前一个周期,或者第前N个周期。然后,将第一时序数据减去第二时序数据,可以获得当前周期相比该历史周期的同比变化序列。也即是,同比变化序列Y(t)=X(t)–X(t-NT),其中,t为第二待分析序列的周期,X(t)为当前周期的第一时序数据;N表示历史周期与当前周期的差值,如N为1,表示历史周期为当前周期的前一个周期,N为2,表示历史周期为当前周期向前数第二个周期;X(t-NT)表示历史周期的第二时序数据。
示例的,图2c是本说明书一个实施例提供的一种同比变化序列的示意图,如图2c所示,当前周期的第一时序数据减去历史周期的第二时序数据可以获得当前周期相对于历史周期的同比变化序列。
本说明书一个或多个实施例中,可以基于当前周期的第一时序数据和历史周期的第二时序数据,确定出当前周期相对于历史周期的同比变化序列,该同比变化序列可以表示从历史周期至当前周期数据点的变化情况,后续可以分析该同比变化序列,确定出第二待分析序列是否为冲高回落噪声。
本实施例一个可选的实施方式中,根据同比变化序列确定待测数据序列的第二识别结果,具体实现过程可以如下:
确定同比变化序列的数据变点,根据数据变点确定待测数据序列的第二识别结果。
需要说明的是,同比变化序列表示从历史周期至当前周期数据点的变化情况,在获得同比变化序列后,可以对同比变化序列重复进行自适应环比冲高回落的识别分析,也即确定同比变化序列的数据变点,根据数据变点确定待测数据序列的第二识别结果。确定同比变化序列的数据变点,根据数据变点确定待测数据序列的第二识别结果,与上述的确定第一待分析序列的数据变点,根据数据变点确定待测数据序列的第一识别结果,具体实现过程类似,可以参见上述详细内容,本说明书实施例在此不再赘述。
本说明书一个或多个实施例中,提供了一种针对中度时间尺度下、自适应同比冲高回落的识别分析方式,可以确定第二待分析序列的周期,然后基于当前周期的第一时序数据和历史周期的第二时序数据,确定出当前周期相对于历史周期的同比变化序列,对该同比变化序列执行上述小时间尺度下的自适应环比冲高回落的识别分析步骤,确定第二待分析序列是否满足冲高回落的时序分布特点,以确定第二待分析序列是否为冲高回落噪声,获得第二时间段对应的第二时间尺度下(即中度时间尺度下)的第二待分析序列是否为冲高回落噪声,获得该时间尺度下的第二识别结果,从而便于后续综合不同时间尺度下的识别结果,确定待测数据序列是否为异常数据。
本实施例一个可选的实施方式中,确定第三待分析序列的核密度估计序列,包括:
确定第三待分析数据中目标数据点的数据值,其中,目标数据点为第三待分析序列中的任一数据点;
根据参考数据点对目标数据点的影响力参数,确定目标数据点的估计值,其中,参考数据点为第三待分析序列中除目标数据点之外其他各数据点;
根据第三待分析序列中各数据点对应的估计值,生成核密度估计序列。
需要说明的是,可以对第三待分析序列进行核密度估计,是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,核密度估计可以看成是对直方图的一个自然拓展,可以在一定假设条件(特别是光滑性条件)下,对数据的密度函数做非参数的估计。本说明书实施例中进行核密度估计的第三待分析序列的,按照时间顺序排列,可以获得对应的核密度估计序列,也按照时间排列,从而便于后续分析核密度估计序列的时序分布特点。
一种可能的实现方式中,可以在核密度估计算法中配置带宽参数,核密度估计算法可以基于配置的带宽参数,生成一个数据点对周期其他数据点的影响力参数,该影响力参数服从正态分布,将每个数据点从一个单点连续化为一个钟形分布,分布总和为1,且满足距离点越远则影响力参数越小,也即是一个数据点对自己的影响力最大,越向两边分散,影响力参数越小。在进行核密度估计时,采用第三待分析序列中具体的数据值,也即针对第三待分析序列中的目标数据点的数据值,结合第三待分析序列中除该目标数据点之外其他各数据点对该目标数据点的影响力参数,确定该目标数据点的预估值。以此类推,第三待分析序列中的各个数据点均可以作为该目标数据点,计算出对应的预估值,基于第三待分析序列中各数据点对应的估计值,即可生成该核密度估计序列。
本说明书一个或多个实施例中,可以对第三待分析序列进行核密度估计,对长期序列数据进行分析,提供了对大时间尺度下待分析序列的分析方法,从而便于后续综合不同时间尺度下的识别结果,确定待测数据序列是否为异常数据。
本实施例一个可选的实施方式中,根据核密度估计序列,确定待测数据序列的第三识别结果,具体实现过程可以如下:
确定核密度估计序列的第二周期;
从第三待分析序列中确定当前周期的第三时序数据,以及当前周期之前的历史周期的第四时序数据;
计算第三时序数据和第四时序数据的相似度;
若相似度满足相似度阈值,则确定第三识别结果为冲高回落噪声;若相似度不满足相似度阈值,则确定第三识别结果不为冲高回落噪声。
需要说明的是,类似于上述对中度时间尺度下第二待分析序列的分析过程,可以确定核密度估计序列的周期t,从第三待分析序列中确定当前周期的第三时序数据,以及当前周期之前的历史周期的第四时序数据,其中,该历史周期也可以为当前周期的前一个周期,或者第前N个周期。之后,可以计算第三时序数据和第四时序数据的相似度,以确定当前周期和历史周期之间数据的相似度,若该相似度满足相似度阈值,则可以确定第三待分析序列为冲高回落噪声;若该相似度不满足相似度阈值,则可以确定第三待分析序列不为冲高回落噪声。
示例的,图2d是本说明书一个实施例提供的一种核密度估计序列的示意图,如图2d所示,该直方图的顶点为第三待分析序列中的数据点,对第三待分析序列进行核密度估计,可以获得如图2d所示的核密度估计序列。图2d中左侧为历史周期(即前两天)的第四时序数据,右侧为当前周期(即当天)的第三时序数据,对比该第三时序数据和第四时序数据,可以计算相似度,在相似度满足相似度阈值时,确定第三待分析序列为冲高回落噪声。
本说明书一个或多个实施例中,提供了一种针对大时间尺度下、自适应长期冲高回落的识别分析方式,可以确定对第三待分析序列进行核密度估计,确定核密度估计序列,然后确定核密度估计序列的周期,然后基于当前周期的第三时序数据和历史周期的第四时序数据之间的相似度,确定当前周期和历史周期的分布是否相似,以确定第三待分析序列是否满足冲高回落的时序分布特点,从而确定第三待分析序列是否为冲高回落噪声,获得第三时间段对应的第三时间尺度下(即大时间尺度下)的第三待分析序列是否为冲高回落噪声,获得该时间尺度下的第三识别结果,从而便于后续综合不同时间尺度下的识别结果,确定待测数据序列是否为异常数据。
步骤108:根据第一识别结果、第二识别结果和第三识别结果,确定待测数据序列是否为异常数据。
需要说明的是,第一识别结果、第二识别结果和第三识别结果是不同时间尺度下的识别结果,因而可以综合第一识别结果、第二识别结果和第三识别结果,确定待测数据序列是否为异常数据,该异常数据是指待测数据序列不是冲高回落噪声、需要进行异常告警的数据。
本实施例一个可选的实施方式中,第一识别结果、第二识别结果和第三识别结果用于指示待测数据序列是否为冲高回落噪声,根据第一识别结果、第二识别结果和第三识别结果,确定待测数据序列是否为异常数据,具体实现过程可以如下:
若第一识别结果、第二识别结果和第三识别结果中任一识别结果为冲高回落噪声,则确定待测数据序列不为异常数据。
本说明书一个或多个实施例中,若第一识别结果、第二识别结果和第三识别结果均指示其对应的待分析序列不为冲高回落噪声,则说明该待测数据序列是异常数据,需要进行异常告警;若第一识别结果、第二识别结果和第三识别结果中任一识别结果指示其对应的待分析序列为冲高回落噪声,则说明待测数据序列出现下跌异常可能是由于时间序列的短暂上升导致的当前时间下降,也即待测数据序列可能是一种冲高回落噪声,并不是发生了异常,无需进行告警,也即该待测数据序列不是异常数据,针对数据下跌故障,可以分析去除冲高回落噪声,对于其他异常下跌故障进行告警,大幅度降低冲高回落噪声类型的时序告警噪音。另外,还可以输出冲高回落噪声对应的时间段,以对冲高回落噪声进行定位,便于后续处理。
需要说明的是,本说明书实施例提供了序列预处理、自适应环比冲高回落、自适应同比冲高回落和自适应长期冲高回落等四个处理过程,能够进行基于时间序列本身的统计特征分析,自动确定出多尺度冲高回落噪声的识别结果,更容易配置和理解,整个实现异常数据检测的中控系统的运行维护成本也很低,所需的运行维护人员少。通过上述方法,可以动态自适应的对大分部时间尺度下的时间序列起效,没有复杂的规则构建,可以快速上线产出,同时不需要大量时间对数据打标,也就对标签噪音不敏感。同时,可以给出冲高回落噪声对应的具体时间段,方便后续跟进和算法调整。
示例的,图2e是本说明书一个实施例提供的一种异常数据检测方法的处理过程示意图,如图2e所示,可以获取待测数据序列,对该待测数据序列进行序列预处理,然后提取第一时间尺度下的第一待分析序列、第二时间尺度下的第二待分析序列、第三时间尺度下的第三待分析序列。针对第一待分析序列进行自适应环比冲高回落的判断,针对第二待分析序列进行自适应同比冲高回落的判断,针对第三待分析序列进行自适应长期冲高回落的判断,若任一判断满足条件,则确定待测数据序列为冲高回落噪声;若均不满足条件,则确定待测数据序列不为冲高回落噪声。
本说明书一个或多个实施例提供了一种异常数据检测方法,从待测数据序列中提取第一时间段内的第一待分析序列、第二时间段内的第二待分析序列和第三时间段内的第三待分析序列,该第一时间段、第二时间段和第三时间段对应不同的时间尺度,可以同时对不同时间尺度下的待分析序列进行时序统计特征分析,结合各个时间尺度下的识别结果,确定该待测数据序列是否为异常数据。如此,考虑了待测数据本身的时序统计特征,并且考虑了不同时间尺度下的数据特征,实现了多尺度确定待测数据序列是否为异常数据,可以适应不同时间尺度下的输入数据,提高了确定异常数据的准确率,避免了误报,节约了异常排查时间。
下述结合附图3,以本说明书提供的异常数据检测方法在交易数据场景下的应用为例,对异常数据检测方法进行进一步说明。其中,图3示出了本说明书一个实施例提供的一种应用于交易数据场景下的异常数据检测方法的处理过程流程图,应用于异常数据检测的中控系统,具体包括以下步骤。
步骤302:获取初始交易数据序列,并对初始交易数据序列进行平滑处理,获得平滑交易数据序列;确定初始交易数据序列和平滑交易数据序列的残差数据序列;根据残差数据序列确定平滑阈值,根据平滑阈值筛除残差数据序列中的离群点,并补充缺失值,获得平滑交易曲线,将平滑交易曲线作为待测交易数据序列。
其中,上述步骤302为序列预处理的相关步骤。
步骤304:从待测交易数据序列中获取第一时间尺度下的第一待分析序列、第二时间尺度下的第二待分析序列和第三时间尺度下的第三待分析序列。
步骤306:确定第一待分析序列的上升变点M1和下降变点M2,若M1不在M2之前,则确定第一待分析序列不为冲高回落噪声;若M1在M2之前,则取M2之后的时间序列T2和M1之前的时间序列T1做统计检验,如果T1显著大于T2或同分布,则确定第一待分析序列为冲高回落噪声,否则不是冲高回落噪声。
其中,上述步骤306为自适应环比冲高回落处理的相关步骤。
步骤308:确定第二待分析序列的周期,从第二待分析序列中确定当前周期的第一时序数据,以及当前周期之前的历史周期的第二时序数据;将第一时序数据减去第二时序数据,获得同比变化序列,针对该同比变化序列执行上述步骤306对应的自适应环比冲高回落处理步骤。
其中,上述步骤308为自适应同比冲高回落处理的相关步骤。针对该同比变化序列执行上述步骤306对应的自适应环比冲高回落处理步骤时,可以将同比变化序列作为该第一待分析序列,分析其上升变点和下降变点。
步骤310:确定第三待分析序列的核密度估计序列,确定核密度估计序列的周期;从第三待分析序列中确定当前周期的第三时序数据,以及当前周期之前的历史周期的第四时序数据;计算第三时序数据和第四时序数据的相似度;若相似度满足相似度阈值,则确定第三待分析序列为冲高回落噪声;若相似度不满足相似度阈值,则确定第三待分析序列不为冲高回落噪声。
步骤312:若第一待分析序列、第二待分析序列和第三待分析序列中任一待分析序列为冲高回落噪声,则确定待测数据不为异常数据;若第一待分析序列、第二待分析序列和第三待分析序列均不为冲高回落噪声,则确定待测数据为异常数据,对异常数据进行告警。
本说明书一个或多个实施例提供了一种异常数据检测方法,从待测交易数据序列中提取第一时间尺度下的第一待分析序列、第二时间尺度下的第二待分析序列和第三时间尺度下的第三待分析序列,可以同时对不同时间尺度下的待分析序列进行时序统计特征分析,结合各个时间尺度下的识别结果,确定该待测交易数据序列是否为异常数据。如此,考虑了待测交易数据本身的时序统计特征,并且考虑了不同时间尺度下的数据特征,实现了多尺度确定待测交易数据序列是否为异常数据,可以适应不同时间尺度下的输入数据,提高了确定异常数据的准确率,避免了误报,节约了异常排查时间。
与上述方法实施例相对应,本说明书还提供了异常数据检测装置实施例,图4示出了本说明书一个实施例提供的一种异常数据检测装置的结构示意图。如图4所示,该装置包括:
第一获取模块402,被配置为获取待测数据序列;
第二获取模块404,被配置为从待测数据序列中获取第一时间段内的第一待分析序列、第二时间段内的第二待分析序列和第三时间段内的第三待分析序列,其中,第一时间段、第二时间段和第三时间段对应不同的时间尺度,时间尺度是指截取待分析序列的时间长度;
第一确定模块406,被配置为分别根据第一待分析序列、第二待分析序列和第三待分析序列的时序统计特征,确定对应的第一识别结果、第二识别结果和第三识别结果;
第二确定模块408,被配置为根据第一识别结果、第二识别结果和第三识别结果,确定待测数据序列是否为异常数据。
本说明书一个可选的实施例中,第一获取模块402,进一步被配置为:
获取初始数据序列,并对初始数据序列进行平滑处理,获得平滑数据序列;
确定初始数据序列和平滑数据序列的残差数据序列;
根据残差数据序列确定平滑阈值,根据平滑阈值筛除残差数据序列中的离群点,并补充缺失值,获得平滑曲线;
将平滑曲线作为待测数据序列。
本说明书一个可选的实施例中,第一确定模块406,进一步被配置为:
确定第一待分析序列的数据变点,根据数据变点确定待测数据序列的第一识别结果;
确定第二待分析序列的第一周期,根据第一周期确定第二待分析序列的同比变化序列;根据同比变化序列确定待测数据序列的第二识别结果;
确定第三待分析序列的核密度估计序列,根据核密度估计序列,确定待测数据序列的第三识别结果。
本说明书一个可选的实施例中,第一确定模块406,进一步被配置为:
确定第一时间点之前各第一数据点以及第一时间点之后各第二数据点的方差和,其中,第一时间点为第一待分析序列中的任一时间点;
将第一待分析序列中方差和最小、且各第一数据点均值低于各第二数据点均值的目标时间点作为上升变点;
将第一待分析序列中方差和最小、且各第一数据点均值高于各第二数据点均值的目标时间点作为下降变点。
本说明书一个可选的实施例中,第一确定模块406,进一步被配置为:
确定上升变点和下降变点是否满足冲高回落噪声的约束条件,其中,约束条件基于冲高回落噪声的分布特点配置;
若是,则确定第一识别结果为冲高回落噪声;
若否,则确定第一识别结果不为冲高回落噪声。
本说明书一个可选的实施例中,第一确定模块406,进一步被配置为:
从第二待分析序列中确定当前周期的第一时序数据,以及当前周期之前的历史周期的第二时序数据;
将第一时序数据减去第二时序数据,获得同比变化序列。
本说明书一个可选的实施例中,第一确定模块406,进一步被配置为:
确定同比变化序列的数据变点,根据数据变点确定待测数据序列的第二识别结果。
本说明书一个可选的实施例中,第一确定模块406,进一步被配置为:
确定第三待分析数据中目标数据点的数据值,其中,目标数据点为第三待分析序列中的任一数据点;
根据参考数据点对目标数据点的影响力参数,确定目标数据点的估计值,其中,参考数据点为第三待分析序列中除目标数据点之外其他各数据点;
根据第三待分析序列中各数据点对应的估计值,生成核密度估计序列。
本说明书一个可选的实施例中,第一确定模块406,进一步被配置为:
确定核密度估计序列的第二周期;
从第三待分析序列中确定当前周期的第三时序数据,以及当前周期之前的历史周期的第四时序数据;
计算第三时序数据和第四时序数据的相似度;
若相似度满足相似度阈值,则确定第三识别结果为冲高回落噪声;若相似度不满足相似度阈值,则确定第三识别结果不为冲高回落噪声。
本说明书一个可选的实施例中,第一识别结果、第二识别结果和第三识别结果用于指示待测数据序列是否为冲高回落噪声;第二确定模块408,进一步被配置为:
若第一识别结果、第二识别结果和第三识别结果中任一识别结果为冲高回落噪声,则确定待测数据不为异常数据。
本说明书一个或多个实施例提供了一种异常数据检测装置,可以从待测数据序列中提取第一时间段内的第一待分析序列、第二时间段内的第二待分析序列和第三时间段内的第三待分析序列,该第一时间段、第二时间段和第三时间段对应不同的时间尺度,可以同时对不同时间尺度下的待分析序列进行时序统计特征分析,结合各个时间尺度下的识别结果,确定该待测数据序列是否为异常数据。如此,考虑了待测数据本身的时序统计特征,并且考虑了不同时间尺度下的数据特征,实现了多尺度确定待测数据序列是否为异常数据,可以适应不同时间尺度下的输入数据,提高了确定异常数据的准确率,避免了误报,节约了异常排查时间。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于异常数据检测装置而言,由于其基本相似于异常数据检测方法实施例,所以描述的比较简单,相关之处参见异常数据检测方法实施例的部分说明即可。
图5示出了根据本说明书一个实施例提供的一种计算设备的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN,PublicSwitchedTelephoneNetwork)、局域网(LAN,LocalAreaNetwork)、广域网(WAN,WideAreaNetwork)、个域网(PAN,PersonalAreaNetwork)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterfacecontroller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocalAreaNetwork)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperabilityforMicrowaveAccess)接口、以太网接口、通用串行总线(USB,UniversalSerialBus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,NearFieldCommunication)。
在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,PersonalComputer)的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述异常数据检测方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于计算设备实施例而言,由于其基本相似于异常数据检测方法实施例,所以描述的比较简单,相关之处参见异常数据检测方法实施例的部分说明即可。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述异常数据检测方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于计算机可读存储介质实施例而言,由于其基本相似于异常数据检测方法实施例,所以描述的比较简单,相关之处参见异常数据检测方法实施例的部分说明即可。
本说明书一实施例还提供一种计算机程序,其中,当计算机程序在计算机中执行时,令计算机执行上述异常数据检测方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于计算机程序实施例而言,由于其基本相似于异常数据检测方法实施例,所以描述的比较简单,相关之处参见异常数据检测方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
计算机指令包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (22)

1.一种异常数据检测方法,包括:
获取待测数据序列;
从所述待测数据序列中获取第一时间段内的第一待分析序列、第二时间段内的第二待分析序列和第三时间段内的第三待分析序列,其中,所述第一时间段、所述第二时间段和所述第三时间段对应不同的时间尺度,所述时间尺度是指截取待分析序列的时间长度;
分别根据所述第一待分析序列、所述第二待分析序列和所述第三待分析序列的时序统计特征,确定对应的第一识别结果、第二识别结果和第三识别结果;
根据所述第一识别结果、所述第二识别结果和所述第三识别结果,确定所述待测数据序列是否为异常数据。
2.根据权利要求1所述的方法,所述获取待测数据序列,包括:
获取初始数据序列,并对所述初始数据序列进行平滑处理,获得平滑数据序列;
确定所述初始数据序列和所述平滑数据序列的残差数据序列;
根据所述残差数据序列确定平滑阈值,根据所述平滑阈值筛除所述残差数据序列中的离群点,并补充缺失值,获得平滑曲线;
将所述平滑曲线作为所述待测数据序列。
3.根据权利要求1所述的方法,所述分别根据所述第一待分析序列、所述第二待分析序列和所述第三待分析序列的时序统计特征,确定对应的第一识别结果、第二识别结果和第三识别结果,包括:
确定所述第一待分析序列的数据变点,根据所述数据变点确定所述待测数据序列的第一识别结果;
确定所述第二待分析序列的第一周期,根据所述第一周期确定所述第二待分析序列的同比变化序列;根据所述同比变化序列确定所述待测数据序列的第二识别结果;
确定所述第三待分析序列的核密度估计序列,根据所述核密度估计序列,确定所述待测数据序列的第三识别结果。
4.根据权利要求3所述的方法,所述确定所述第一待分析序列的数据变点,包括:
确定第一时间点之前各第一数据点以及第一时间点之后各第二数据点的方差和,其中,所述第一时间点为所述第一待分析序列中的任一时间点;
将所述第一待分析序列中方差和最小、且各第一数据点均值低于各第二数据点均值的目标时间点作为上升变点;
将所述第一待分析序列中方差和最小、且各第一数据点均值高于各第二数据点均值的目标时间点作为下降变点。
5.根据权利要求4所述的方法,所述根据所述数据变点确定所述待测数据序列的第一识别结果,包括:
确定所述上升变点和所述下降变点是否满足冲高回落噪声的约束条件,其中,所述约束条件基于所述冲高回落噪声的分布特点配置;
若是,则确定所述第一识别结果为冲高回落噪声;
若否,则确定所述第一识别结果不为冲高回落噪声。
6.根据权利要求3所述的方法,所述根据所述第一周期确定所述第二待分析序列的同比变化序列,包括:
从所述第二待分析序列中确定当前周期的第一时序数据,以及当前周期之前的历史周期的第二时序数据;
将所述第一时序数据减去所述第二时序数据,获得所述同比变化序列。
7.根据权利要求3所述的方法,所述根据所述同比变化序列确定所述待测数据序列的第二识别结果,包括:
确定所述同比变化序列的数据变点,根据所述数据变点确定所述待测数据序列的第二识别结果。
8.根据权利要求3所述的方法,所述确定所述第三待分析序列的核密度估计序列,包括:
确定所述第三待分析数据中目标数据点的数据值,其中,所述目标数据点为所述第三待分析序列中的任一数据点;
根据参考数据点对所述目标数据点的影响力参数,确定所述目标数据点的估计值,其中,所述参考数据点为所述第三待分析序列中除所述目标数据点之外其他各数据点;
根据所述第三待分析序列中各数据点对应的估计值,生成所述核密度估计序列。
9.根据权利要求3所述的方法,所述根据所述核密度估计序列,确定所述待测数据序列的第三识别结果,包括:
确定所述核密度估计序列的第二周期;
从所述第三待分析序列中确定当前周期的第三时序数据,以及当前周期之前的历史周期的第四时序数据;
计算所述第三时序数据和所述第四时序数据的相似度;
若所述相似度满足相似度阈值,则确定所述第三识别结果为冲高回落噪声;若所述相似度不满足相似度阈值,则确定所述第三识别结果不为冲高回落噪声。
10.根据权利要求1-9任一项所述的方法,所述第一识别结果、所述第二识别结果和所述第三识别结果用于指示所述待测数据序列是否为冲高回落噪声;所述根据所述第一识别结果、所述第二识别结果和所述第三识别结果,确定所述待测数据序列是否为异常数据,包括:
若所述第一识别结果、所述第二识别结果和所述第三识别结果中任一识别结果为冲高回落噪声,则确定所述待测数据不为异常数据。
11.一种异常数据检测装置,包括:
第一获取模块,被配置为获取待测数据序列;
第二获取模块,被配置为从所述待测数据序列中获取第一时间段内的第一待分析序列、第二时间段内的第二待分析序列和第三时间段内的第三待分析序列,其中,所述第一时间段、所述第二时间段和所述第三时间段对应不同的时间尺度,所述时间尺度是指截取待分析序列的时间长度;
第一确定模块,被配置为分别根据所述第一待分析序列、所述第二待分析序列和所述第三待分析序列的时序统计特征,确定对应的第一识别结果、第二识别结果和第三识别结果;
第二确定模块,被配置为根据所述第一识别结果、所述第二识别结果和所述第三识别结果,确定所述待测数据序列是否为异常数据。
12.根据权利要求11所述的装置,所述第一获取模块,进一步被配置为:
获取初始数据序列,并对所述初始数据序列进行平滑处理,获得平滑数据序列;
确定所述初始数据序列和所述平滑数据序列的残差数据序列;
根据所述残差数据序列确定平滑阈值,根据所述平滑阈值筛除所述残差数据序列中的离群点,并补充缺失值,获得平滑曲线;
将所述平滑曲线作为所述待测数据序列。
13.根据权利要求11所述的装置,所述第一确定模块,进一步被配置为:
确定所述第一待分析序列的数据变点,根据所述数据变点确定所述待测数据序列的第一识别结果;
确定所述第二待分析序列的第一周期,根据所述第一周期确定所述第二待分析序列的同比变化序列;根据所述同比变化序列确定所述待测数据序列的第二识别结果;
确定所述第三待分析序列的核密度估计序列,根据所述核密度估计序列,确定所述待测数据序列的第三识别结果。
14.根据权利要求13所述的装置,所述第一确定模块,进一步被配置为:
确定第一时间点之前各第一数据点以及第一时间点之后各第二数据点的方差和,其中,所述第一时间点为所述第一待分析序列中的任一时间点;
将所述第一待分析序列中方差和最小、且各第一数据点均值低于各第二数据点均值的目标时间点作为上升变点;
将所述第一待分析序列中方差和最小、且各第一数据点均值高于各第二数据点均值的目标时间点作为下降变点。
15.根据权利要求14所述的装置,所述第一确定模块,进一步被配置为:
确定所述上升变点和所述下降变点是否满足冲高回落噪声的约束条件,其中,所述约束条件基于所述冲高回落噪声的分布特点配置;
若是,则确定所述第一识别结果为冲高回落噪声;
若否,则确定所述第一识别结果不为冲高回落噪声。
16.根据权利要求13所述的装置,所述第一确定模块,进一步被配置为:
从所述第二待分析序列中确定当前周期的第一时序数据,以及当前周期之前的历史周期的第二时序数据;
将所述第一时序数据减去所述第二时序数据,获得所述同比变化序列。
17.根据权利要求13所述的装置,所述第一确定模块,进一步被配置为:
确定所述同比变化序列的数据变点,根据所述数据变点确定所述待测数据序列的第二识别结果。
18.根据权利要求13所述的装置,所述第一确定模块,进一步被配置为:
确定所述第三待分析数据中目标数据点的数据值,其中,所述目标数据点为所述第三待分析序列中的任一数据点;
根据参考数据点对所述目标数据点的影响力参数,确定所述目标数据点的估计值,其中,所述参考数据点为所述第三待分析序列中除所述目标数据点之外其他各数据点;
根据所述第三待分析序列中各数据点对应的估计值,生成所述核密度估计序列。
19.根据权利要求13所述的装置,所述第一确定模块,进一步被配置为:
确定所述核密度估计序列的第二周期;
从所述第三待分析序列中确定当前周期的第三时序数据,以及当前周期之前的历史周期的第四时序数据;
计算所述第三时序数据和所述第四时序数据的相似度;
若所述相似度满足相似度阈值,则确定所述第三识别结果为冲高回落噪声;若所述相似度不满足相似度阈值,则确定所述第三识别结果不为冲高回落噪声。
20.根据权利要求11-19任一项所述的装置,所述第一识别结果、所述第二识别结果和所述第三识别结果用于指示所述待测数据序列是否为冲高回落噪声;第二确定模块,进一步被配置为:
若所述第一识别结果、所述第二识别结果和所述第三识别结果中任一识别结果为冲高回落噪声,则确定所述待测数据不为异常数据。
21.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述异常数据检测方法的步骤。
22.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述异常数据检测方法的步骤。
CN202310340336.1A 2023-03-31 2023-03-31 异常数据检测方法以及装置 Pending CN116361695A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310340336.1A CN116361695A (zh) 2023-03-31 2023-03-31 异常数据检测方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310340336.1A CN116361695A (zh) 2023-03-31 2023-03-31 异常数据检测方法以及装置

Publications (1)

Publication Number Publication Date
CN116361695A true CN116361695A (zh) 2023-06-30

Family

ID=86919369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310340336.1A Pending CN116361695A (zh) 2023-03-31 2023-03-31 异常数据检测方法以及装置

Country Status (1)

Country Link
CN (1) CN116361695A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117352094A (zh) * 2023-12-04 2024-01-05 山东恒信科技发展有限公司 一种用于原料油的物性预测分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117352094A (zh) * 2023-12-04 2024-01-05 山东恒信科技发展有限公司 一种用于原料油的物性预测分析方法及系统
CN117352094B (zh) * 2023-12-04 2024-03-08 山东恒信科技发展有限公司 一种用于原料油的物性预测分析方法及系统

Similar Documents

Publication Publication Date Title
US20190261204A1 (en) Method and system for abnormal value detection in lte network
CN107491970B (zh) 实时反作弊检测监控方法和系统以及计算设备
CN111538311B (zh) 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置
CN110912737A (zh) 一种基于混合模型的动态感知性能预告警方法
CN111796957B (zh) 基于应用日志的交易异常根因分析方法及系统
Mohamadi et al. Arima-garch modeling for epileptic seizure prediction
CN116361695A (zh) 异常数据检测方法以及装置
CN109255395A (zh) 一种滚珠丝杠副的寿命预测方法
CN113705726A (zh) 流量的分类方法、装置、电子设备及计算机可读介质
CN115185760A (zh) 异常检测方法以及装置
CN111768287A (zh) 周期识别方法、装置、服务器及可读存储介质
CN113918433A (zh) 一种自适应的智慧网络设备性能指标异常检测装置及方法
CN116184988B (zh) 基于多模态数据的故障预测方法、装置、设备及存储介质
CN117094184A (zh) 基于内网平台的风险预测模型的建模方法、系统及介质
CN116819352A (zh) 电池阈值的自适应设定方法、装置、设备及存储介质
CN114938339A (zh) 一种数据处理方法和相关装置
CN111368837A (zh) 一种图像质量评价方法、装置、电子设备及存储介质
CN115423370A (zh) 一种继电保护设备健康状态评估方法及装置
CN112862019A (zh) 一种动态筛选非周期性异常方法
Luca et al. Anomaly detection using the Poisson process limit for extremes
Debbabi et al. Combining algebraic approach with extreme value theory for spike detection
CN114039837A (zh) 告警数据处理方法、装置、系统、设备和存储介质
CN111507578A (zh) 风险评估方法及相关装置、设备
CN117357104B (zh) 一种基于用户特征的音频分析方法
CN111798237B (zh) 基于应用日志的异常交易诊断方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240218

Address after: Guohao Times City # 20-01, 128 Meizhi Road, Singapore

Applicant after: Advanced Nova Technology (Singapore) Holdings Ltd.

Country or region after: Singapore

Address before: 51 Wurasbasha Road, Laizanda No.1 # 04-08

Applicant before: Alipay laboratories (Singapore) Ltd.

Country or region before: Singapore

TA01 Transfer of patent application right