CN112988536B - 一种数据异常检测方法、装置、设备及存储介质 - Google Patents

一种数据异常检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112988536B
CN112988536B CN202110257545.0A CN202110257545A CN112988536B CN 112988536 B CN112988536 B CN 112988536B CN 202110257545 A CN202110257545 A CN 202110257545A CN 112988536 B CN112988536 B CN 112988536B
Authority
CN
China
Prior art keywords
data
period
index
similarity
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110257545.0A
Other languages
English (en)
Other versions
CN112988536A (zh
Inventor
施晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202110257545.0A priority Critical patent/CN112988536B/zh
Publication of CN112988536A publication Critical patent/CN112988536A/zh
Application granted granted Critical
Publication of CN112988536B publication Critical patent/CN112988536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种数据异常检测方法、装置、设备及存储介质,包括:获取待检测指标在第一时段的第一数据及每个候选指标在第二时段的第二数据,候选指标与待检测指标的周期相同,第一时段的时长小于周期,第二时段覆盖第一时段且第二时段的时长大于周期;计算第一数据与第二数据之间的相似度,将相似度最高的预设数量的第二数据对应的候选指标作为相似指标;利用相似指标的第二数据拟合第一数据,得到预测数据;根据预测数据,对待检测指标在第一时段之后的数据进行异常检测。这样,在获取到的待检测指标的数据不足一周期的情况下,利用相似指标大于一周期的数据拟合待检测指标的预测数据,从而可以及时进行数据异常检测。

Description

一种数据异常检测方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据异常检测方法、装置、设备及存储介质。
背景技术
在互联网平台中,每天都会产生大量各种指标的数据,其中,一些指标的数据具有时域规律性,也就是说,该指标的数据在不同周期的变化趋势是相同的。这样,通过对这些指标在过去一个周期内的历史数据进行分析,获取该指标的数据特征,可以对新的周期内获取的数据进行检测,从而发现异常数据,采取措施消除或削弱异常,减小异常所造成的损失,保证各项业务正常运转。
但是,目前的数据异常检测方法均依赖于其历史数据,对于任一指标而言,通常需要至少一个周期的历史数据,才能进行特征提取,得到该指标的数据特征并进行异常检测,这种情况下,对新指标而言,由于无法获取到足够的历史数据,也就无法确定该指标的数据特征,进而,无法及时对该指标的数据进行异常检测。
以服务性能监控指标为例,每个服务性能监控指标的周期至少是一天,甚至是一周,那么,需要稳定获取新指标的数据一天甚至是一周后,才能获取到足够的数据进行特征提取,在此期间,即使所获取的新指标的数据发生异常,也无法检测到。
发明内容
本发明实施例的目的在于提供一种数据异常检测方法、装置、设备及存储介质,以实现在获取到的待检测指标的数据不足一周期的情况下,及时对待检测指标的数据进行异常检测。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种数据异常检测方法,所述方法包括:
获取待检测指标在第一时段的第一数据及每个候选指标在第二时段的第二数据,所述候选指标为与所述待检测指标的周期相同的数据指标,所述第一时段的时长小于所述周期,所述第二时段覆盖所述第一时段且所述第二时段的时长大于所述周期;
计算所述第一数据与每个第二数据之间的相似度,将相似度最高的预设数量的第二数据对应的候选指标作为相似指标;
利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据;
根据所述预测数据,对所述待检测指标在所述第一时段之后的数据进行异常检测。
可选的,所述第二数据为经过去噪处理的数据,所述计算所述第一数据与每个第二数据之间的相似度,包括:
对所述第一数据进行去噪处理,得到去噪数据及噪声信息;
计算所述去噪数据与每个第二数据之间的相似度;
所述利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据,包括:
利用所述相似指标的第二数据拟合所述第一数据,根据所述噪声信息,对拟合结果进行加噪处理,得到所述待检测指标的预测数据。
可选的,所述第二数据为经过归一化处理的数据,计算所述第一数据与每个第二数据之间的相似度,包括:
对所述第一数据进行归一化处理,按照预设采样规则,对归一化处理后的第一数据进行下采样,得到多个样本第一数据;
针对每个第二数据,将该第二数据中与任一所述样本第一数据的时间戳相同的数据作为样本第二数据,计算所述样本第一数据和所述样本第二数据之间的相似度,作为所述第一数据与该第二数据之间的相似度。
可选的,所述利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据,包括:
利用所述相似指标的第二数据拟合所述样本第一数据,得到所述待检测指标的样本预测数据;
按照所述预设采样规则,对所述样本预测数据进行上采样,并对上采样结果进行反归一化处理,得到所述待检测指标的预测数据。
可选的,所述利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据,包括:
根据每个相似指标的第二数据与所述第一数据之间的相似度,计算该相似指标的权重,所述权重与所述相似度成正比;
利用所述相似指标的第二数据及所述权重,拟合所述第一数据,得到所述待检测指标的预测数据。
在本发明实施的第二方面,还提供了一种数据异常检测装置,所述装置包括:
获取模块,用于获取待检测指标在第一时段的第一数据及每个候选指标在第二时段的第二数据,所述候选指标为与所述待检测指标的周期相同的数据指标,所述第一时段的时长小于所述周期,所述第二时段覆盖所述第一时段且所述第二时段的时长大于所述周期;
相似度计算模块,用于计算所述第一数据与每个第二数据之间的相似度,将相似度最高的预设数量的第二数据对应的候选指标作为相似指标;
拟合模块,用于利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据;
异常检测模块,用于根据所述预测数据,对所述待检测指标在所述第一时段之后的数据进行异常检测。
可选的,所述第二数据为经过去噪处理的数据,所述相似度计算模块,具体用于:
对所述第一数据进行去噪处理,得到去噪数据及噪声信息;
计算所述去噪数据与每个第二数据之间的相似度;
所述利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据,包括:
利用所述相似指标的第二数据拟合所述第一数据,根据所述噪声信息,对拟合结果进行加噪处理,得到所述待检测指标的预测数据。
可选的,所述第二数据为经过归一化处理的数据,所述相似度计算模块,具体用于:
对所述第一数据进行归一化处理,按照预设采样规则,对归一化处理后的第一数据进行下采样,得到多个样本第一数据;
针对每个第二数据,将该第二数据中与任一所述样本第一数据的时间戳相同的数据作为样本第二数据,计算所述样本第一数据和所述样本第二数据之间的相似度,作为所述第一数据与该第二数据之间的相似度。
可选的,所述拟合模块,具体用于:
利用所述相似指标的第二数据拟合所述样本第一数据,得到所述待检测指标的样本预测数据;
按照所述预设采样规则,对所述样本预测数据进行上采样,并对上采样结果进行反归一化处理,得到所述待检测指标的预测数据。
可选的,所述拟合模块,具体用于:
根据每个相似指标的第二数据与所述第一数据之间的相似度,计算该相似指标的权重,所述权重与所述相似度成正比;
利用所述相似指标的第二数据及所述权重,拟合所述第一数据,得到所述待检测指标的预测数据。
在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的数据异常检测方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的数据异常检测方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据异常检测方法。
本发明实施例提供的数据异常检测方法、装置、设备及存储介质,首先,获取待检测指标在第一时段的第一数据及每个候选指标在第二时段的第二数据,候选指标为与待检测指标的周期相同的数据指标,第一时段的时长小于周期,第二时段包括第一时段且第二时段的时长大于周期;然后,计算第一数据与每个第二数据之间的相似度,将相似度最高的预设数量的第二数据对应的候选指标作为相似指标;利用相似指标的第二数据拟合第一数据,得到待检测指标的预测数据;进而,根据预测数据,对待检测指标在第一时段之后的数据进行异常检测。这样,在获取到的待检测指标的数据不足一周期的情况下,利用可以获取到的待检测指标的第一数据,确定与待检测指标周期相同的相似指标,并利用相似指标大于一周期的第二数据对待检测指标进行拟合,得到待检测指标的预测数据,从而可以及时利用预测数据对待检测指标的数据进行异常检测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中一种数据异常检测方法的步骤流程图;
图2为本发明实施例中另一种数据异常检测方法的步骤流程图;
图3为本发明实施例中一种数据异常检测装置的结构示意图;
图4为本发明实施例中一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
相关技术中,目前的数据异常检测方法均依赖于其历史数据,对于任一指标而言,通常需要至少一个周期的历史数据,才能进行特征提取,得到该指标的数据特征并进行异常检测,这种情况下,对新指标而言,由于无法获取到足够的历史数据,也就无法确定该指标的数据特征,进而,无法及时对该指标的数据进行异常检测。
为了解决上述问题,本发明实施例提出了一种数据异常检测方法,下面从总体上对本发明实施例提供的敏感信息识别方法进行说明,该方法包括如下步骤:
获取待检测指标在第一时段的第一数据及每个候选指标在第二时段的第二数据,候选指标为与待检测指标的周期相同的数据指标,第一时段的时长小于周期,第二时段包括第一时段且第二时段的时长大于周期;
计算第一数据与每个第二数据之间的相似度,将相似度最高的预设数量的第二数据对应的候选指标作为相似指标;
利用相似指标的第二数据拟合第一数据,得到待检测指标的预测数据;
根据预测数据,对待检测指标在第一时段之后的数据进行异常检测。
由以上可见,本发明实施例提供的数据异常检测方法中,在获取到的待检测指标的数据不足一周期的情况下,利用可以获取到的待检测指标的第一数据,确定与待检测指标周期相同的相似指标,并利用相似指标大于一周期的第二数据对待检测指标进行拟合,得到待检测指标的预测数据,从而可以及时利用预测数据对待检测指标的数据进行异常检测。
下面将通过具体的实施例,对本发明实施例提供的敏感信息识别方法进行详细描述。
参照图1,示出了本发明实施例的一种数据异常检测方法的步骤流程图,具体可以包括如下步骤:
S101:获取待检测指标在第一时段的第一数据及每个候选指标在第二时段的第二数据。
本发明实施例提供的数据异常检测方法可以应用于用户终端或服务器等电子设备中,这些电子设备可以获取到大量各种指标的数据,这些数据可以是电子设备通过对某些特定指标进行监控获得的,比如,用户终端在向数据库上传数据时,可以对数据上传速率这一指标进行监控,得到相应的数据,或者,这些数据也可以是从其他设备处获取的,比如,服务器可以从各个用户终端获取对应的数据上传速率等,具体不作限定。
其中,候选指标为与待检测指标的周期相同的数据指标,第一时段的时长小于周期,第二时段覆盖第一时段且第二时段的时长大于周期。也就是说,第一数据为在第一时段采集的待检测指标的数据,第二数据的时长至少为一个周期,而且,第二数据中包括在第一时段中采集的候选指标的数据。候选指标和待检测指标的数据具有时域规律性,也就是说,针对同一指标的数据,在不同周期的变化趋势是相同的,周期可以是一天,也可以是一个小时、一分钟,等等,可以根据需求进行设定,比如,对于访问量这一指标而言,若以一天为一个周期,通常呈现出日间访问量低而夜间访问量高的趋势,若以一周为一个周期,则通常呈现出工作日访问量低而周末访问量高的趋势。
第一时段的时长越长,第一数据越能够体现待检测指标的数据变化趋势,举例而言,可以预设第一时段的时长不小于周期的四分之一,这样,所获取的第一数据可以较好的体现待检测指标的数据变化趋势,减少数据异常检测的失败。
在本步骤中,第二数据可以是各个候选指标的历史数据,可以从存量数据集中获取。候选指标和待检测指标均可以为任意一种数据指标,比如,可以为服务性能监控指标,如吞吐率、并发连接数、查询率等,具体不作限定。其中,存量数据集中存储着各个候选指标的历史数据,可以存储在本地存储,也可以存储在互联网中。
S102:计算第一数据与每个第二数据之间的相似度,将相似度最高的预设数量的第二数据对应的候选指标作为相似指标。
在本步骤中,预设数量可以为根据最后拟合的效果遍历出合适的经验值,也可以根据用户的需求进行设定。
举例而言,可以采用如下公式计算第一数据与每个第二数据之间的相似度:
其中,ρ表示相似度,X表示第一数据,Y表示任一第二数据,Var(X)表示第一数据的方差,Var(Y)表示该任一第二数据的方差,Cov(X,Y)表示第一数据与该任一第二数据之间的协方差。
一种实现方式中,第二数据可以为经过去噪处理的数据,在这种情况下,计算第一数据与每个第二数据之间的相似度的步骤,可以包括:对第一数据进行去噪处理,得到去噪数据及噪声信息;计算去噪数据与每个第二数据之间的相似度。
其中,去噪处理可采取常规的低通滤波器滤波、移动平均滤波或中值滤波等方式进行,本发明实施例对此不做限定,通过去噪处理,可以消除待检测指标的随机噪声,使得相似度计算更精确。一种实现方式中,对第一数据和第二数据采用相同的去噪处理方法,这样,第一数据和第二数据去除了相同因素的噪声信息,两者的拟合结果会更准确。
一种实现方式中,第二数据可以为经过归一化处理的数据,在这种情况下,计算第一数据与每个第二数据之间的相似度的步骤,可以包括:
对第一数据进行归一化处理,按照预设采样规则,对归一化处理后的第一数据进行下采样,得到多个样本第一数据;针对每个第二数据,将该第二数据中与样本第一数据的时间戳相同的数据作为样本第二数据,计算样本第一数据和样本第二数据之间的相似度,作为第一数据与该第二数据之间的相似度。
其中,归一化处理可以采用如下公式,对第一数据进行归一化:
其中,x*表示任一第一数据归一化后的取值,x表示该任一第一数据的原始取值,min表示第一数据中的最小值,max表示第一数据中的最大值,这样,各个第一数据的取值归一化在0到1之间;
或者,也可以采用如下公式,将各个第一数据的取值归一化在0到1之间:
其中,x*表示任一第一数据归一化后的取值,x表示该任一第一数据的原始取值,μ表示各个第一数据取值的均值,σ表示各个第一数据取值的标准差,这样,经过归一化处理的第一数据的均值为0,标准差为1;
或者,还可以采用其他的方式进行归一化,本发明实施例对此不做限定。通过归一化处理,可以把待检测指标的数据的量纲属性消除,也就是说,经过归一化处理后,第一数据与该第二数据的计量单位消除,采用纯数字的形式进行后续的拟合,也可以提高拟合的准确度。
采样规则也可以根据用户的设定确定,比如,可以采用多个间隔点采样一个均值的方式,具体不做限定。这样,可以减少后续拟合过程中的计算量,提高数据异常检测的效率。
另外,一种实现方式中,可以分别对第一数据和第二数据依次进行去噪处理、归一化处理和下采样,进而再计算经过上述处理的第一数据与经过上述处理的每个第二数据之间的相似度,使得拟合结果更准确。
S103:利用相似指标的第二数据拟合第一数据,得到待检测指标的预测数据。
在本步骤中,可以根据每个相似指标的第二数据与第一数据之间的相似度,计算该相似指标的权重,权重与相似度成正比;进而,利用相似指标的第二数据及权重,拟合第一数据,得到待检测指标的预测数据。其中,可通过softmax函数计算该相似指标的权重。
一种实现方式中,第二数据为经过去噪处理的数据,在这种情况下,利用相似指标的第二数据拟合第一数据,得到待检测指标的预测数据的步骤,可以包括:利用相似指标的第二数据拟合第一数据,根据噪声信息,对拟合结果进行加噪处理,得到待检测指标的预测数据。这样,使得得到的待检测指标的预测数据更接近待检测指标的真实值。
一种实现方式中,第二数据为经过归一化处理的数据,在这种情况下,利用相似指标的第二数据拟合第一数据,得到待检测指标的预测数据的步骤,可以包括:
利用相似指标的第二数据拟合样本第一数据,得到待检测指标的样本预测数据;按照预设采样规则,对样本预测数据进行上采样,并对上采样结果进行反归一化处理,得到待检测指标的预测数据。这样,得到的预测数据具有对应的计量单位,而且能够与时间戳一一对应,更接近待检测指标的真实值。
其中,可以采用如下公式,利用相似指标的第二数据拟合样本第一数据:
Y=b0+b1x1+…+bkxk
其中,Y表示第二数据对第一数据的拟合结果,k表示相似指标的数量,b0为常数项,b1表示相似指标x1对拟合结果的效应,bk表示相似指标xk对拟合结果的效应,等等;
然后,对上述公式求偏导,得到下列方程组:
∑(yi-b0-b1xi1-…-bkxik)=0
∑(yi-b0-b1xi1-…-bkxik)xi1=0
∑(yi-b0-b1xi1-…-bkxik)xik=0
其中,i表示各个相似指标中数据的数量,xi1表示相似指标x1的数据,以此类推,xik表示相似指标xk的数据,这样,通过矩阵运算求解上述方程组,可以计算出b0、b1、…、bk的值,也就实现了利用相似指标的第二数据拟合样本第一数据。
S104:根据预测数据,对待检测指标在第一时段之后的数据进行异常检测。
在得到预测数据之后,通过对预测数据进行分析,可以获取待检测指标的数据特征,进而,可以对待检测指标在第一时段之后的数据进行检测,从而发现异常数据,采取措施消除或削弱异常,减小异常所造成的损失
由以上可见,本发明实施例提供的数据异常检测方法,在获取到的待检测指标的数据不足一周期的情况下,利用可以获取到的待检测指标的第一数据,确定与待检测指标周期相同的相似指标,并利用相似指标大于一周期的第二数据对待检测指标进行拟合,得到待检测指标的预测数据,从而可以及时利用预测数据对待检测指标的数据进行异常检测。
参照图2,示出了本发明实施例的另一种数据异常检测方法的步骤流程图,具体可以包括如下步骤:
S201:获取待检测指标在第一时段的第一数据及每个候选指标在第二时段的第二数据。
其中,候选指标为与待检测指标的周期相同的数据指标,第一时段的时长小于周期,第二时段覆盖第一时段且第二时段的时长大于周期,第二数据可以为经过去噪处理和归一化处理的数据。
在本步骤中,第二数据也就是各个候选指标的历史数据,可以从存量数据集中获取。
S202:对第一数据进行去噪处理,得到去噪数据及噪声信息。
其中,去噪处理可采取常规的低通滤波器滤波、移动平均滤波或中值滤波等方式进行,本发明实施例对此不做限定,通过去噪处理,可以消除待检测指标的随机噪声,使得相似度计算更精确。
S203:对去噪数据进行归一化处理,按照预设采样规则,对归一化处理后的去噪数据进行下采样,得到多个样本第一数据。
其中,归一化处理可以采用min-max标准化(Min-Max Normalization)或者0均值标准化(Z-score standardlization)等方式进行,本发明实施例对此不做限定,通过归一化处理,可以把待检测指标的数据的量纲属性消除。
采样规则也可以根据用户的设定确定,比如,可以采用多个间隔点采样一个均值的方式,具体不做限定。
S204:针对每个第二数据,将该第二数据中与任一样本第一数据的时间戳相同的数据作为样本第二数据,计算样本第一数据和样本第二数据之间的相似度,作为第一数据与该第二数据之间的相似度,将相似度最高的预设数量的第二数据对应的候选指标作为相似指标。
在本步骤中,预设数量可以为根据最后拟合的效果遍历出合适的经验值,也可以根据用户的需求进行设定。
举例而言,可以通过Pearson系数(Pearson Coefficient)等方法计算第一数据与每个第二数据之间的相似度。
S205:根据每个相似指标的第二数据与第一数据之间的相似度,计算该相似指标的权重,权重与相似度成正比。
S206:利用相似指标的第二数据及权重,拟合拟合样本第一数据,得到待检测指标的样本预测数据。
S207:按照预设采样规则,对样本预测数据进行上采样,并对上采样结果进行反归一化处理,得到拟合结果。
S208:根据噪声信息,对拟合结果进行加噪处理,得到待检测指标的预测数据。
S209:根据预测数据,对待检测指标在第一时段之后的数据进行异常检测。
在得到预测数据之后,通过对预测数据进行分析,可以获取待检测指标的数据特征,进而,可以对待检测指标在第一时段之后的数据进行检测,从而发现异常数据,采取措施消除或削弱异常,减小异常所造成的损失
由以上可见,本发明实施例提供的数据异常检测方法,在获取到的待检测指标的数据不足一周期的情况下,利用可以获取到的待检测指标的第一数据,确定与待检测指标周期相同的相似指标,并利用相似指标大于一周期的第二数据对待检测指标进行拟合,得到待检测指标的预测数据,从而可以及时利用预测数据对待检测指标的数据进行异常检测。
参照图3,示出了本发明实施例的一种数据异常检测装置的结构示意图,具体可以包括:
获取模块301,用于获取待检测指标在第一时段的第一数据及每个候选指标在第二时段的第二数据,候选指标为与待检测指标的周期相同的数据指标,第一时段的时长小于周期,第二时段覆盖第一时段且第二时段的时长大于周期;
相似度计算模块302,用于计算第一数据与每个第二数据之间的相似度,将相似度最高的预设数量的第二数据对应的候选指标作为相似指标;
拟合模块303,用于利用相似指标的第二数据拟合第一数据,得到待检测指标的预测数据;
异常检测模块304,用于根据预测数据,对待检测指标在第一时段之后的数据进行异常检测。
一种实现方式中,所述第二数据为经过去噪处理的数据,所述相似度计算模块302,具体用于:
对所述第一数据进行去噪处理,得到去噪数据及噪声信息;
计算所述去噪数据与每个第二数据之间的相似度;
所述利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据,包括:
利用所述相似指标的第二数据拟合所述第一数据,根据所述噪声信息,对拟合结果进行加噪处理,得到所述待检测指标的预测数据。
一种实现方式中,所述第二数据为经过归一化处理的数据,所述相似度计算模块302,具体用于:
对所述第一数据进行归一化处理,按照预设采样规则,对归一化处理后的第一数据进行下采样,得到多个样本第一数据;
针对每个第二数据,将该第二数据中与任一所述样本第一数据的时间戳相同的数据作为样本第二数据,计算所述样本第一数据和所述样本第二数据之间的相似度,作为所述第一数据与该第二数据之间的相似度。
一种实现方式中,所述拟合模块303,具体用于:
利用所述相似指标的第二数据拟合所述样本第一数据,得到所述待检测指标的样本预测数据;
按照所述预设采样规则,对所述样本预测数据进行上采样,并对上采样结果进行反归一化处理,得到所述待检测指标的预测数据。
一种实现方式中,所述拟合模块303,具体用于:
根据每个相似指标的第二数据与所述第一数据之间的相似度,计算该相似指标的权重,所述权重与所述相似度成正比;
利用所述相似指标的第二数据及所述权重,拟合所述第一数据,得到所述待检测指标的预测数据。
由以上可见,本发明实施例提供的数据异常检测装置,在获取到的待检测指标的数据不足一周期的情况下,利用可以获取到的待检测指标的第一数据,确定与待检测指标周期相同的相似指标,并利用相似指标大于一周期的第二数据对待检测指标进行拟合,得到待检测指标的预测数据,从而可以及时利用预测数据对待检测指标的数据进行异常检测。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
获取待检测指标在第一时段的第一数据及每个候选指标在第二时段的第二数据,候选指标为与待检测指标的周期相同的数据指标,第一时段的时长小于周期,第二时段覆盖第一时段且第二时段的时长大于周期;
计算第一数据与每个第二数据之间的相似度,将相似度最高的预设数量的第二数据对应的候选指标作为相似指标;
利用相似指标的第二数据拟合第一数据,得到待检测指标的预测数据;
根据预测数据,对待检测指标在第一时段之后的数据进行异常检测。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(RandomAccess Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable GateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据异常检测方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据异常检测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种数据异常检测方法,其特征在于,所述方法包括:
获取待检测指标在第一时段的第一数据及每个候选指标在第二时段的第二数据,所述候选指标为与所述待检测指标的周期相同的数据指标,所述第一时段的时长小于所述周期,所述第二时段覆盖所述第一时段且所述第二时段的时长大于所述周期;
计算所述第一数据与每个第二数据之间的相似度,将相似度最高的预设数量的第二数据对应的候选指标作为相似指标;
利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据;
根据所述预测数据,对所述待检测指标在所述第一时段之后的数据进行异常检测。
2.根据权利要求1所述的方法,其特征在于,所述第二数据为经过去噪处理的数据,所述计算所述第一数据与每个第二数据之间的相似度,包括:
对所述第一数据进行去噪处理,得到去噪数据及噪声信息;
计算所述去噪数据与每个第二数据之间的相似度;
所述利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据,包括:
利用所述相似指标的第二数据拟合所述第一数据,根据所述噪声信息,对拟合结果进行加噪处理,得到所述待检测指标的预测数据。
3.根据权利要求1所述的方法,其特征在于,所述第二数据为经过归一化处理的数据,计算所述第一数据与每个第二数据之间的相似度,包括:
对所述第一数据进行归一化处理,按照预设采样规则,对归一化处理后的第一数据进行下采样,得到多个样本第一数据;
针对每个第二数据,将该第二数据中与任一所述样本第一数据的时间戳相同的数据作为样本第二数据,计算所述样本第一数据和所述样本第二数据之间的相似度,作为所述第一数据与该第二数据之间的相似度。
4.根据权利要求3所述的方法,其特征在于,所述利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据,包括:
利用所述相似指标的第二数据拟合所述样本第一数据,得到所述待检测指标的样本预测数据;
按照所述预设采样规则,对所述样本预测数据进行上采样,并对上采样结果进行反归一化处理,得到所述待检测指标的预测数据。
5.根据权利要求1所述的方法,其特征在于,所述利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据,包括:
根据每个相似指标的第二数据与所述第一数据之间的相似度,计算该相似指标的权重,所述权重与所述相似度成正比;
利用所述相似指标的第二数据及所述权重,拟合所述第一数据,得到所述待检测指标的预测数据。
6.一种数据异常检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测指标在第一时段的第一数据及每个候选指标在第二时段的第二数据,所述候选指标为与所述待检测指标的周期相同的数据指标,所述第一时段的时长小于所述周期,所述第二时段覆盖所述第一时段且所述第二时段的时长大于所述周期;
相似度计算模块,用于计算所述第一数据与每个第二数据之间的相似度,将相似度最高的预设数量的第二数据对应的候选指标作为相似指标;
拟合模块,用于利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据;
异常检测模块,用于根据所述预测数据,对所述待检测指标在所述第一时段之后的数据进行异常检测。
7.根据权利要求6所述的装置,其特征在于,所述第二数据为经过去噪处理的数据,所述相似度计算模块,具体用于:
对所述第一数据进行去噪处理,得到去噪数据及噪声信息;
计算所述去噪数据与每个第二数据之间的相似度;
所述利用所述相似指标的第二数据拟合所述第一数据,得到所述待检测指标的预测数据,包括:
利用所述相似指标的第二数据拟合所述第一数据,根据所述噪声信息,对拟合结果进行加噪处理,得到所述待检测指标的预测数据。
8.根据权利要求6所述的装置,其特征在于,所述第二数据为经过归一化处理的数据,所述相似度计算模块,具体用于:
对所述第一数据进行归一化处理,按照预设采样规则,对归一化处理后的第一数据进行下采样,得到多个样本第一数据;
针对每个第二数据,将该第二数据中与任一所述样本第一数据的时间戳相同的数据作为样本第二数据,计算所述样本第一数据和所述样本第二数据之间的相似度,作为所述第一数据与该第二数据之间的相似度。
9.根据权利要求8所述的装置,其特征在于,所述拟合模块,具体用于:
利用所述相似指标的第二数据拟合所述样本第一数据,得到所述待检测指标的样本预测数据;
按照所述预设采样规则,对所述样本预测数据进行上采样,并对上采样结果进行反归一化处理,得到所述待检测指标的预测数据。
10.根据权利要求6所述的装置,其特征在于,所述拟合模块,具体用于:
根据每个相似指标的第二数据与所述第一数据之间的相似度,计算该相似指标的权重,所述权重与所述相似度成正比;
利用所述相似指标的第二数据及所述权重,拟合所述第一数据,得到所述待检测指标的预测数据。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN202110257545.0A 2021-03-09 2021-03-09 一种数据异常检测方法、装置、设备及存储介质 Active CN112988536B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110257545.0A CN112988536B (zh) 2021-03-09 2021-03-09 一种数据异常检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110257545.0A CN112988536B (zh) 2021-03-09 2021-03-09 一种数据异常检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112988536A CN112988536A (zh) 2021-06-18
CN112988536B true CN112988536B (zh) 2023-08-22

Family

ID=76334648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110257545.0A Active CN112988536B (zh) 2021-03-09 2021-03-09 一种数据异常检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112988536B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370898B (zh) * 2023-12-08 2024-03-12 钛合联(深圳)科技有限公司 一种电子数据安全管控系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140100A (ja) * 2006-12-01 2008-06-19 Mitsubishi Electric Corp 情報処理装置及びデータ判定方法及びプログラム
CN105893213A (zh) * 2016-06-22 2016-08-24 北京蓝海讯通科技股份有限公司 一种异常检测方法、应用和监控设备
WO2018077152A1 (zh) * 2016-10-24 2018-05-03 中国银联股份有限公司 一种主机变量异常检测方法及系统
CN108228428A (zh) * 2018-02-05 2018-06-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8892960B2 (en) * 2011-01-19 2014-11-18 Oracle International Corporation System and method for determining causes of performance problems within middleware systems
US11341374B2 (en) * 2018-05-29 2022-05-24 Microsoft Technology Licensing, Llc Data anomaly detection
US11061796B2 (en) * 2019-02-19 2021-07-13 Vmware, Inc. Processes and systems that detect object abnormalities in a distributed computing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140100A (ja) * 2006-12-01 2008-06-19 Mitsubishi Electric Corp 情報処理装置及びデータ判定方法及びプログラム
CN105893213A (zh) * 2016-06-22 2016-08-24 北京蓝海讯通科技股份有限公司 一种异常检测方法、应用和监控设备
WO2018077152A1 (zh) * 2016-10-24 2018-05-03 中国银联股份有限公司 一种主机变量异常检测方法及系统
CN108228428A (zh) * 2018-02-05 2018-06-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Also Published As

Publication number Publication date
CN112988536A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN109558295B (zh) 一种性能指标异常检测方法及装置
CN109587001B (zh) 一种性能指标异常检测方法及装置
US10248528B2 (en) System monitoring method and apparatus
US10528533B2 (en) Anomaly detection at coarser granularity of data
CN110830450A (zh) 基于统计的异常流量监测方法、装置、设备及存储介质
CN106611023B (zh) 网站访问异常的检测方法及装置
CN109873832B (zh) 流量识别方法、装置、电子设备和存储介质
EP2613263B1 (en) Operations management device, operations management method, and program
CN112988536B (zh) 一种数据异常检测方法、装置、设备及存储介质
CN110991761B (zh) 一种供热负荷预测方法及装置
CN113723861A (zh) 异常用电行为检测方法、装置、计算机设备和存储介质
CN112100037B (zh) 告警级别识别方法、装置、电子设备及存储介质
CN110971435A (zh) 一种报警方法及装置
CN117437019A (zh) 信用卡逾期风险预测方法、装置、设备、介质和程序产品
CN116448219A (zh) 油位异常检测方法、装置、设备及计算机可读存储介质
Miao et al. Automatic baseline correction of strain gauge signals
CN112395179B (zh) 一种模型训练方法、磁盘预测方法、装置及电子设备
CN111210070A (zh) 一种数据分析方法、装置、电子设备及可读取存储介质
CN115168159A (zh) 异常检测方法、装置、电子设备及存储介质
CN113065234B (zh) 一种智能电表的批次可靠性风险等级评估方法及系统
CN111695829B (zh) 一种指标波动周期计算方法、装置、存储介质及电子设备
CN111767938B (zh) 一种异常数据检测方法、装置及电子设备
CN113094615B (zh) 消息推送方法、装置、设备和存储介质
CN111797088A (zh) 一种数据质量检查方法及装置
CN113129127A (zh) 预警方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant