CN108664603A - 一种修复时序数据的异常聚合值的方法及装置 - Google Patents

一种修复时序数据的异常聚合值的方法及装置 Download PDF

Info

Publication number
CN108664603A
CN108664603A CN201810438561.8A CN201810438561A CN108664603A CN 108664603 A CN108664603 A CN 108664603A CN 201810438561 A CN201810438561 A CN 201810438561A CN 108664603 A CN108664603 A CN 108664603A
Authority
CN
China
Prior art keywords
value
polymerization
time series
series data
polymerizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810438561.8A
Other languages
English (en)
Other versions
CN108664603B (zh
Inventor
郝滋雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810438561.8A priority Critical patent/CN108664603B/zh
Publication of CN108664603A publication Critical patent/CN108664603A/zh
Application granted granted Critical
Publication of CN108664603B publication Critical patent/CN108664603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Polymerisation Methods In General (AREA)

Abstract

本发明实施例提供了一种修复时序数据的异常聚合值的方法,所述方法包括:获取时间标签连续的多个待检测聚合值;其中,每个待检测聚合值由时间标签相同的实时时序数据按照第一预设规则进行聚合得到、且携带与所述实时时序数据相对应的时间标签;基于所述多个待检测聚合值的数值变化,对所述多个待检测聚合值进行异常点检测;如果检测到所述多个待检测聚合值中存在异常聚合值,则获取与所述异常聚合值所携带的时间标签相对应的历史时序数据;将所获取的历史时序数据按照所述第一预设规则进行聚合处理,得到修复聚合值。应用本发明实施例提供的方法,不必定期对所有的时序数据重新进行聚合处理,可以提高修复时序数据异常聚合值的效率。

Description

一种修复时序数据的异常聚合值的方法及装置
技术领域
本发明涉及数据修复技术领域,特别是涉及一种修复时序数据的异常聚合值的方法及装置。
背景技术
时序数据是一种携带有时间标签的数据,时序数据通常存储在时序数据库中,例如Graphite数据库。
时序数据库具有写时聚合功能,可以在写入原始时序数据的同时,根据预设的规则,将所携带的时间标签相同的时序数据聚合,生成聚合值。但写时聚合功能受数据延时的影响很大,例如,如果网络发生故障或延迟,导致时序数据的延时超过某一阈值,则生成的聚合值中就会出现异常聚合值。
现有的对异常聚合值进行修复的方案通常包括:在得到聚合值之后,定期运行批处理任务,通过批处理任务重新对时序数据进行聚合,生成新的聚合值,将新的聚合值对原有聚合值进行覆盖,如果原有聚合值中包含异常聚合值,那么该覆盖过程便实现了对异常聚合值的修复。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
时序数据的数据量通常较大,在上述方案中,批处理任务需要对所有的时序数据重新进行聚合处理,由于该过程的数据处理量较大,使得修复异常聚合值的效率很低。
发明内容
本发明实施例的目的在于提供一种修复时序数据的异常聚合值的方法及装置,从而提高修复时序数据异常聚合值的效率。
具体技术方案如下:
本发明实施例提供了一种修复时序数据的异常聚合值的方法,所述方法包括:
获取时间标签连续的多个待检测聚合值;其中,每个待检测聚合值由时间标签相同的实时时序数据按照第一预设规则进行聚合得到、且携带与所述实时时序数据相对应的时间标签;
基于所述多个待检测聚合值的数值变化,对所述多个待检测聚合值进行异常点检测;
如果检测到所述多个待检测聚合值中存在异常聚合值,则获取与所述异常聚合值所携带的时间标签相对应的历史时序数据;
将所获取的历史时序数据按照所述第一预设规则进行聚合处理,得到修复聚合值。
可选的,所述获取时间标签连续的多个待检测聚合值,包括:
获取初始聚合值;
确定滑动窗口;
在所述初始聚合值中,滑动所述滑动窗口,获取所述滑动窗口中的多个初始聚合值,作为待检测聚合值。
可选的,所述方法还包括:
如果检测到所述滑动窗口中的多个待检测聚合值中不存在异常聚合值,则继续执行所述滑动所述滑动窗口,获取所述滑动窗口中的多个初始聚合值,作为待检测聚合值的步骤,直至所述初始聚合值全部检测完毕。
可选的,在所述将所获取的时序数据按照所述第一预设规则进行聚合处理,得到修复聚合值之后,还包括:
将所述异常聚合值更新为所述修复聚合值。
可选的:在所述将所获取的时序数据按照所述第一预设规则进行聚合处理,得到修复聚合值之后,还包括:
将所述滑动窗口中的异常聚合值以及所述初始聚合值中的异常聚合值均更新为所述修复聚合值。
本发明实施例还提供了一种修复时序数据的异常聚合值的装置,所述装置包括:
聚合值获取模块,用于获取时间标签连续的多个待检测聚合值;其中,每个待检测聚合值由时间标签相同的实时时序数据按照第一预设规则进行聚合得到、且携带与所述实时时序数据相对应的时间标签;
异常点检测模块,用于基于所述多个待检测聚合值的数值变化,对所述多个待检测聚合值进行异常点检测;如果检测到所述多个待检测聚合值中存在异常聚合值,将所述异常聚合值发送至时序数据获取模块;
所述时序数据获取模块,用于获取与所述异常聚合值所携带的时间标签相对应的历史时序数据;
聚合值计算模块,用于将所获取的历史时序数据按照所述第一预设规则进行聚合处理,得到修复聚合值。
可选的,所述聚合值获取模块,具体用于获取初始聚合值,确定滑动窗口,在所述初始聚合值中,滑动所述滑动窗口,获取所述滑动窗口中的多个聚合值,作为待检测聚合值。
可选的,所述异常点检测模块,还用于如果检测到所述滑动窗口中的多个待检测聚合值中不存在异常聚合值,则触发所述聚合值获取模块;
所述聚合值获取模块,还用于继续执行所述滑动所述滑动窗口,获取所述滑动窗口中的多个初始聚合值,作为待检测聚合值的步骤,直至所述初始聚合值全部检测完毕。
可选的,所述装置还包括:
聚合值更新模块,用于将所述异常聚合值更新为所述修复聚合值。
可选的,所述聚合值更新模块,具体用于将所述滑动窗口中的异常聚合值以及所述初始聚合值中的异常聚合值均更新为所述修复聚合值。
本发明实施例还提供了一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的修复时序数据的异常聚合值的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的修复时序数据的异常聚合值的方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的修复时序数据的异常聚合值的方法。
本发明实施例提供的修复时序数据的异常聚合值的方法及装置,通过获取时间标签连续的多个待检测聚合值,基于待检测聚合值的变化情况,进行异常点检测,再根据对应的时间标签,重新对聚合异常的时序数据进行聚合处理,得到修复聚合值,不必定期对所有的时序数据重新进行聚合处理,减少了数据处理量,从而提高修复时序数据异常聚合值的效率。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种修复时序数据的异常聚合值的方法的流程示意图;
图2为本发明实施例提供的另一种修复时序数据的异常聚合值的方法的流程示意图;
图3为本发明实施例提供的修复时序数据的异常聚合值的一种算法示意图;
图4为本发明实施例提供的一种修复时序数据的异常聚合值的装置的结构示意图;
图5为本发明实施例提供的一种电子设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
时序数据即为时间序列数据,是一组按时间顺序记录的、且具有可比性的数据列,例如:无人车在运行时,无人车对自身所处的各种状态进行监控,按照时间顺序记录自身坐标、运行速度、方向、环境温度、湿度等监控数据,这些数据即可作为时序数据。时序数据的数据量通常较大,以上述无人车在运行时的监控数据为例,每辆无人车每天可以采集将近8T的数据。再例如,终端设备接收到的按照时间顺序记录的视频帧数据,这些数据即可作为时序数据。
基于时序数据数据量大的特点,传统的关系型数据库难以满足时序数据的应用需求,因此设计产生了用于处理时序数据的时序数据库,例如:InfluxDB数据库、RRDtool数据库和Graphite数据库等。
其中,Graphite数据库具有写时聚合功能,可以在写入原始时序数据的同时,根据预设的规则,将所携带的时间标签相同的时序数据聚合,生成聚合值,从而满足时序数据的处理需求,但Graphite数据库写时聚合功能受数据延时的影响很大,例如,如果网络发生故障或延迟,导致时序数据的延时超过某一阈值,则生成的聚合值中就会出现异常聚合值。
现有技术中,为了解决上述问题,对时序数据的异常聚合值进行修复,通常利用批处理任务,定期对全部聚合值进行覆盖,而该方法由于需要对所有的时序数据重新进行聚合处理,因此存在修复异常聚合值的效率很低的问题。因此,本发明提出了一种修复时序数据的异常聚合值的方法。
下面从总体上对本发明实施例提供的修复时序数据的异常聚合值的方法进行说明。
一种实现方式中,上述修复时序数据的异常聚合值的方法包括:
获取时间标签连续的多个待检测聚合值;其中,每个待检测聚合值由时间标签相同的实时时序数据按照第一预设规则进行聚合得到、且携带与所述实时时序数据相对应的时间标签;
基于所述多个待检测聚合值的数值变化,对所述多个待检测聚合值进行异常点检测;
如果检测到所述多个待检测聚合值中存在异常聚合值,则获取与所述异常聚合值所携带的时间标签相对应的历史时序数据;
将所获取的历史时序数据按照所述第一预设规则进行聚合处理,得到修复聚合值。
由以上可见,应用本发明实施例提供的修复时序数据的异常聚合值的方法,通过获取时间标签连续的多个待检测聚合值,基于待检测聚合值的变化情况,进行异常点检测,再根据对应的时间标签,重新对聚合异常的时序数据进行聚合处理,得到修复聚合值,不必定期对所有的时序数据重新进行聚合处理,减少了数据处理量,从而提高了修复时序数据异常聚合值的效率。
下面通过具体实施例,对本发明实施例提供的修复时序数据的异常聚合值的方法进行详细说明。
如图1所示,为本发明实施例提供的一种修复时序数据的异常聚合值的方法的流程示意图,包括如下步骤:
步骤S101:获取时间标签连续的多个待检测聚合值。其中,每个待检测聚合值由时间标签相同的实时时序数据按照第一预设规则进行聚合得到、且携带与所述实时时序数据相对应的时间标签。
对时序数据进行聚合,即为按照预设的第一规则,对时间标签相同的时序数据进行分析处理,其中,预设的第一规则可以是简单的求和、求差,也可以是对数据进行分类、筛选,或者其他任何能够利用一组数据生成一个标量值的数据转换过程。聚合得到的结果即为聚合值,每个聚合值都携带与生成该聚合值的时序数据对应的时间标签。
在本步骤中,待检测聚合值是指由时间标签相同的实时时序数据按照第一预设规则进行聚合得到的聚合值,而且待检测聚合值携带与实时时序数据相对应的时间标签。实时时序数据是指在原始时序数据写入时能够获取到的时序数据,由于数据延时的影响,例如,如果网络发生故障或延迟等等,导致时序数据的延时超过某一阈值,原始时序数据中可能存在无法及时写入的数据,这样,实时时序数据很可能就会存在误差,待检测聚合值中也可能会存在异常聚合值。
获取时间标签连续的多个待检测聚合值,可以是按照预设的时间长度,获取一段时间长度内的所有聚合值,例如:获取时间标签距当前时间在5分钟内的聚合值。也可以是获取在预设时间段内的所有聚合值,例如:获取时间标签在2008年8月8日8:00至2008年8月8日8:05之间的聚合值,还可以是获取预设数量个聚合值,例如:以某一聚合值为起点,获取时间标签连续的、且在该聚合值之后的20个聚合值,或者还可以通过其他的方式获取时间标签连续的多个待检测聚合值,本发明实施例对此不做限定。
在一种实现方式中,可以先确定一个固定大小的滑动窗口,在预先获取的初始聚合值中,滑动该滑动窗口,获取该滑动窗口中的多个初始聚合值,作为待检测聚合值。
步骤S102:基于多个待检测聚合值的数值变化,对多个待检测聚合值进行异常点检测。
由以上描述可知,时序数据是一组时间连续的、且具有可比性的数据,可以反映出数据的统计特性和发展规律,因此,在获取到时间标签连续的多个待检测聚合值之间,时序数据具有一定的规律,或者说,在一段较短的时间内的、或一组较少数量的时序数据之间的变化是平稳的,不会存在很大的差异性。延续上述例子,例如:在一段较短的时间内,无人车在运行时的自身坐标、运行速度、方向、以及周围环境温度、湿度等等信息,不会产生很大的变化。
通常,异常聚合值是由于实时时序数据中存在没有及时写入的原始时序数据而导致的,原始时序数据的缺失会导致实时时序数据聚合得到的待检测聚合值的数值变化较大,也就是说,异常聚合值与其相邻的其他聚合值差异较大。也就是说,如果某聚合值与其相邻的聚合值差异较大,则可以认为该聚合值为异常聚合值。
举例而言,假设有两组时序数据,其中,第一组的数据为:[5,5,5,5,5],第二组的数据为:[1,1,1,1,1],获取数据的间隔为1秒,而预设的第一规则为简单的加和处理,也就是说,上述两组时序数据的正确聚合值为:[6,6,6,6,6],当采集过程中,产生了数据延时,则会导致时序数据缺失,在这里,假设第一组数据中的第三秒获取的时序数据缺失,即实时获取的第一组数据为:[5,5,0,5,5],则最终聚合得到的聚合值为:[6,6,1,6,6],可以看出,聚合得到的聚合值中,时间标签为第三秒的聚合值与其相邻的聚合值差异较大,也就是说,该聚合值为异常聚合值。
因此,在获取到时间标签连续的多个待检测聚合值之后,可以利用异常点检测算法,基于多个连续的待检测聚合值的变化情况,计算出在所获取的聚合值中可能存在的异常聚合值。
在一种实现方式中,异常点检测算法可以是简单统计量分析算法,具体的:先对所获取的聚合值做一个描述性统计,进而判断哪些聚合值是不合理的,例如,三倍标准差法则,即假设所获取的聚合值服从正态分布,则距离这些聚合值的平均值3倍标准差之外的值出现的概率小于0.003,因此,在这些聚合值中,与平均值的偏差超过3倍标准差的值即被判定为异常聚合值。
或者,异常点检测算法还可以是基于距离的算法,具体的:异常聚合值远离大部分其他聚合值,例如:基于KNN(K-NearestNeighbor,K最邻近)的密度检测算法,针对所获取的每个聚合值,利用与该聚合值最接近的k个聚合值来计算该聚合值的预测值,如果预测值与该聚合值的实际值之间的误差大于预设阈值,则该聚合值被判定为异常聚合值。
或者,还可以是其他的异常点检测算法,本发明实施例对此不做限定。
步骤S103:如果检测到多个待检测聚合值中存在异常聚合值,则获取与异常聚合值所携带的时间标签相对应的历史时序数据。
由于每个聚合值都携带与生成该聚合值的时序数据对应的时间标签,因此,检测到异常聚合值之后,可以根据该异常聚合值所携带的时间标签,从未经过聚合的原始的时序数据中获取与该时间标签对应的历史时序数据。
其中,历史时序数据是指距离实时时序数据写入经过一段较长的时间后,能够获取到的时序数据。可以理解,时序数据的延时不会太长,经过一段时间后,已经能够获取到缺失的时序数据,因此,S103中获取的历史时序数据中一般不存在缺失。
延续步骤S102中的例子,经过一段时间后,根据异常聚合值所携带的时间标签,从未经过聚合的原始的时序数据中获取与该时间标签对应的历史时序数据,即根据异常聚合值的时间标签“第三秒”,获取对应的时序数据,即第一组时序数据中的第三秒的数据和第二组时序数据中的第三秒的数据,分别为:5和1,可见,此时获取的历史时序数据不存在缺失。
步骤S104:将所获取的历史时序数据按照第一预设规则进行聚合处理,得到修复聚合值。
通常,数据的延时时间很短,也就是说,经过一段时间后,根据异常聚合值所携带的时间标签,从未经过聚合的原始的时序数据中获取的与该时间标签对应的历史时序数据中,由于数据延时而缺失的时序数据也会被获取到。
如上所述,S103中获取的历史时序数据可以理解为与异常聚合值所携带的时间标签相对应的完整的时序数据,因此,可以按照第一预设规则,对所获取的时序数据重新进行聚合,从而得到正确的聚合值,作为修复聚合值。
在一种实现方式中,进一步的,可以将异常聚合值更新为修复聚合值,从而方便后续的对聚合值的分析利用。
或者,还可以在不改变原有的聚合值的基础上,新建一个补充文件,记录该异常聚合值及对应的修复异常值,从而保存更为完整的信息,便于对数据延时情况等信息的综合分析。
由以上可见,应用本发明实施例提供的修复时序数据的异常聚合值的方法,通过获取时间标签连续的多个待检测聚合值,基于待检测聚合值的变化情况,进行异常点检测,再根据对应的时间标签,重新对聚合异常的时序数据进行聚合处理,得到修复聚合值,不必定期对所有的时序数据重新进行聚合处理,从而减少了数据处理量,提高了修复时序数据异常聚合值的效率。
如图2所示,为本发明实施例提供的另一种修复时序数据的异常聚合值的方法的流程示意图,包括如下步骤:
步骤S201:获取初始聚合值;确定滑动窗口;在初始聚合值中,滑动G该滑动窗口,获取滑动窗口中的多个初始聚合值,作为待检测聚合值。每个待检测聚合值由时间标签相同的实时时序数据按照第一预设规则进行聚合得到、且携带与实时时序数据相对应的时间标签。
对时序数据进行聚合,即为按照预设的第一规则,对时间标签相同的时序数据进行分析处理,其中,预设的第一规则可以是简单的求和、求差,也可以是对数据进行分类、筛选,或者其他任何能够利用一组数据生成一个标量值的数据转换过程。聚合得到的结果即为聚合值,每个聚合值都携带与生成该聚合值的时序数据对应的时间标签。
在一种实现方式中,预设滑动窗口的大小可以是一个预设的时间长度区间,例如:滑动窗口每次可以获取在某一5分钟时间长度内的所有聚合值,在另一种实现方式中,预设滑动窗口的大小还可以是一定的预设数量,例如:滑动窗口每次可以获取时间标签连续的20个聚合值,本发明实施例对此不做限定。
同时,预设滑动窗口的初始位置可以是距离当前最新生成的聚合值最近的位置,例如:滑动窗口可以获取距当前时间的时间差在5分钟内的所有聚合值,或者也可以获取距当前最新生成的聚合值最近的连续20个聚合值;或者,预设滑动窗口的初始位置也可以是预设的某一位置,例如:滑动窗口可以从当天8点开始生成的聚合值开始,获取多个聚合值;又或者,滑动窗口的初始位置还可以是在每个记录时序数据聚合值的文件的起始位置,本发明实施例对此不做限定。
步骤S202:基于多个待检测聚合值的数值变化,对多个待检测聚合值进行异常点检测。
如果在时序数据的采集过程中,产生了数据延时,例如,如果网络发生故障或延迟等等,导致时序数据的延时超过某一阈值,就会使得在聚合时,延时的时序数据缺失,缺失的时序数据会使与该时序数据的时间标签对应的聚合值产生较大的误差,与其他与该聚合值连续的聚合值连续性较差。
因此,在获取到时间标签连续的多个待检测聚合值之后,可以利用异常点检测算法,基于多个连续的待检测聚合值的变化情况,计算出在所获取的聚合值中可能存在的异常聚合值。
延续上述实施例,在一种实现方式中,异常点检测算法可以是简单统计量分析算法,还可以是基于距离的算法,或者,还可以是其他的异常点检测算法,本发明实施例对此不做限定。
步骤S203:如果检测到多个待检测聚合值中存在异常聚合值,则获取与异常聚合值所携带的时间标签相对应的历史时序数据。如果检测到滑动窗口中的多个待检测聚合值中不存在异常聚合值,则继续执行步骤S201中在初始聚合值中,滑动该滑动窗口,获取滑动窗口中的多个初始聚合值,作为待检测聚合值的步骤,直至所获取的初始聚合值全部检测完毕。
由于每个聚合值都携带与生成该聚合值的时序数据对应的时间标签,因此,如果通过异常点检测,检测到所获取的多个待检测聚合值中存在异常聚合值,那么,可以根据该异常聚合值所携带的时间标签,从未经过聚合的原始的时序数据中获取与该时间标签对应的历史时序数据。
由于在本实施例中,先确定了滑动窗口,因此,如果检测到滑动窗口中的多个待检测聚合值中不存在异常聚合值,则继续执行步骤S201中在初始聚合值中,滑动该滑动窗口,获取滑动窗口中的多个初始聚合值,作为待检测聚合值的步骤,直至所获取的初始聚合值全部检测完毕,这样,通过滑动窗口的滑动,可以实现对时序数据聚合值的动态检测,实现对所有初始聚合值的遍历,使得时序数据的异常聚合值的修复更全面。
其中,在一种实现方式中,滑动窗口的滑动可以是按照预设的周期,例如:每隔1分钟,滑动窗口滑动一次,也可以是随着新的聚合值的生成,随时滑动,例如:滑动窗口获取距当前最新生成的聚合值最近的连续20个聚合值,即每当有新的聚合值生成,则滑动窗口滑动一次,或者每当有20个新的聚合值生成,则滑动窗口滑动一次,本发明实施例对此不做限定。
步骤S204:将所获取的历史时序数据按照第一预设规则进行聚合处理,得到修复聚合值。
虽然数据延时会导致时序数据的聚合值产生异常,但是却不会影响原始时序数据的正确性,而且,通常数据的延时时间很短,也就是说,经过一段时间后,根据异常聚合值所携带的时间标签,从未经过聚合的原始的时序数据中获取的与该时间标签对应的时序数据中,由于数据延时而缺失的时序数据也会被获取到。因此,可以按照第一预设规则,对所获取的时序数据重新进行聚合,从而得到正确的聚合值,作为修复聚合值。
步骤S205:将滑动窗口中的异常聚合值以及初始聚合值中的异常聚合值均更新为修复聚合值。
通过对异常聚合值的更新,从而方便后续的对聚合值的分析利用,同时,由于滑动窗口中的异常聚合值更新为修复聚合值,因此在后续滑动窗口滑动后,再进行异常点检测时,避免了该异常值带来的误差,使得异常点检测的结果更准确。
由以上可见,应用本发明实施例提供的修复时序数据的异常聚合值的方法,通过预设的滑动窗口获取时间标签连续的多个待检测聚合值,基于待检测聚合值的变化情况,进行异常点检测,再根据对应的时间标签,重新对聚合异常的时序数据进行聚合处理,得到修复聚合值,不必定期对所有的时序数据重新进行聚合处理,从而减少了数据处理量,提高了修复时序数据异常聚合值的效率。
为了便于理解,下面通过一个具体的例子对本发明实施例提供的修复时序数据的异常聚合值的方法进行描述:
如图3所示,为本发明实施例提供的修复时序数据的异常聚合值的一种算法示意图。如图所示,P1、P2……P7为初始聚合值中的一部分,先确定了一个窗口大小为4个聚合值的滑动窗口,通过该滑动窗口,从初始聚合值中获取了多个聚合值,分别为:P2、P3、P4和P5,作为待检测聚合值,基于这几个连续的待检测聚合值的变化情况,对这些待检测聚合值进行异常点检测,可以检测出与其他聚合值相比,变化情况明显的异常聚合值,可以看出,P4相比于临近的其他聚合值差异较大,因此,可以将P4确定为异常聚合值。然后,通过P4携带的时间标签,获取对应的历史时序数据,根据所获取的历史时序数据,按照与之前相同的第一预设规则进行聚合处理,得到P4的修复聚合值,并在滑动窗口及原始的聚合值中将异常聚合值更新为修复聚合值,更新后,获取的历史时序数据中不存在缺失,因此得到的聚合值中不再存在异常聚合值。
如图4所示,为本发明实施例提供的一种修复时序数据的异常聚合值的装置的结构示意图,该装置包括:
聚合值获取模块410,用于获取时间标签连续的多个待检测聚合值;其中,每个待检测聚合值由时间标签相同的实时时序数据按照第一预设规则进行聚合得到、且携带与时序数据相对应的时间标签。
在一种实现方式中,聚合值获取模块410具体用于获取初始聚合值,确定滑动窗口,在所述初始聚合值中,滑动所述滑动窗口,获取所述滑动窗口中的多个初始聚合值,作为待检测聚合值。
异常点检测模块420,用于基于多个待检测聚合值的数值变化,对多个待检测聚合值进行异常点检测;如果检测到多个待检测聚合值中存在异常聚合值,将异常聚合值发送至时序数据获取模块430。
在一种实现方式中,所述异常点检测模块420,还用于如果检测到所述滑动窗口中的多个待检测聚合值中不存在异常聚合值,则触发所述聚合值获取模块410;所述聚合值获取模块410,还用于继续执行所述滑动预设滑动窗口,获取所述滑动窗口中的多个聚合值,作为待检测聚合值的步骤,直至所述预先获取的聚合值全部检测完毕。
时序数据获取模块430,用于获取与异常聚合值所携带的时间标签相对应的历史时序数据。
聚合值计算模块440,用于将所获取的历史时序数据按照第一预设规则进行聚合处理,得到修复聚合值。
在一种实现方式,本发明实施例提供的修复时序数据的异常聚合值的装置还包括聚合值更新模块450,用于将所述异常聚合值更新为所述修复聚合值。
在一种实现方式中,聚合值更新模块450具体用于将所述滑动窗口中的异常聚合值以及初始聚合值中的异常聚合值均更新为所述修复聚合值。
由以上可见,应用本发明实施例提供的修复时序数据的异常聚合值的方法,通过预设的滑动窗口获取时间标签连续的多个待检测聚合值,基于待检测聚合值的变化情况,进行异常点检测,再根据对应的时间标签,重新对聚合异常的时序数据进行聚合处理,得到修复聚合值,不必定期对所有的时序数据重新进行聚合处理,从而减少了数据处理量,提高了修复时序数据异常聚合值的效率。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
获取时间标签连续的多个待检测聚合值;其中,每个待检测聚合值由时间标签相同的实时时序数据按照第一预设规则进行聚合得到、且携带与所述实时时序数据相对应的时间标签;
基于所述多个待检测聚合值的数值变化,对所述多个待检测聚合值进行异常点检测;
如果检测到所述多个待检测聚合值中存在异常聚合值,则获取与所述异常聚合值所携带的时间标签相对应的历史时序数据;
将所获取的历史时序数据按照所述第一预设规则进行聚合处理,得到修复聚合值。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由以上可见,应用本发明实施例提供的修复时序数据的异常聚合值的方法,通过获取时间标签连续的多个待检测聚合值,基于待检测聚合值的变化情况,进行异常点检测,再根据对应的时间标签,重新对聚合异常的时序数据进行聚合处理,得到修复聚合值,不必定期对所有的时序数据重新进行聚合处理,从而减少了数据处理量,提高了修复时序数据异常聚合值的效率。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的修复时序数据的异常聚合值的方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的修复时序数据的异常聚合值的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种修复时序数据的异常聚合值的方法,其特征在于,所述方法包括:
获取时间标签连续的多个待检测聚合值;其中,每个待检测聚合值由时间标签相同的实时时序数据按照第一预设规则进行聚合得到、且携带与所述实时时序数据相对应的时间标签;
基于所述多个待检测聚合值的数值变化,对所述多个待检测聚合值进行异常点检测;
如果检测到所述多个待检测聚合值中存在异常聚合值,则获取与所述异常聚合值所携带的时间标签相对应的历史时序数据;
将所获取的历史时序数据按照所述第一预设规则进行聚合处理,得到修复聚合值。
2.根据权利要求1所述的方法,其特征在于,所述获取时间标签连续的多个待检测聚合值,包括:
获取初始聚合值;
确定滑动窗口;
在所述初始聚合值中,滑动所述滑动窗口,获取所述滑动窗口中的多个初始聚合值,作为待检测聚合值。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
如果检测到所述滑动窗口中的多个待检测聚合值中不存在异常聚合值,则继续执行所述滑动所述滑动窗口,获取所述滑动窗口中的多个初始聚合值,作为待检测聚合值的步骤,直至所述初始聚合值全部检测完毕。
4.根据权利要求1所述的方法,其特征在于,在所述将所获取的时序数据按照所述第一预设规则进行聚合处理,得到修复聚合值之后,还包括:
将所述异常聚合值更新为所述修复聚合值。
5.根据权利要求2所述的方法,其特征在于:在所述将所获取的时序数据按照所述第一预设规则进行聚合处理,得到修复聚合值之后,还包括:
将所述滑动窗口中的异常聚合值以及所述初始聚合值中的异常聚合值均更新为所述修复聚合值。
6.一种修复时序数据的异常聚合值的装置,其特征在于,所述装置包括:
聚合值获取模块,用于获取时间标签连续的多个待检测聚合值;其中,每个待检测聚合值由时间标签相同的实时时序数据按照第一预设规则进行聚合得到、且携带与所述时序数据相对应的时间标签;
异常点检测模块,用于基于所述多个待检测聚合值的数值变化,对所述多个待检测聚合值进行异常点检测;如果检测到所述多个待检测聚合值中存在异常聚合值,将所述异常聚合值发送至时序数据获取模块;
所述时序数据获取模块,用于获取与所述异常聚合值所携带的时间标签相对应的历史时序数据;
聚合值计算模块,用于将所获取的历史时序数据按照所述第一预设规则进行聚合处理,得到修复聚合值。
7.根据权利要求6所述的装置,其特征在于,
所述聚合值获取模块,具体用于获取初始聚合值,确定滑动窗口,在所述初始聚合值中,滑动所述滑动窗口,获取所述滑动窗口中的多个初始聚合值,作为待检测聚合值。
8.根据权利要求7所述的装置,其特征在于,
所述异常点检测模块,还用于如果检测到所述滑动窗口中的多个待检测聚合值中不存在异常聚合值,则触发所述聚合值获取模块;
所述聚合值获取模块,还用于继续执行所述滑动所述滑动窗口,获取所述滑动窗口中的多个初始聚合值,作为待检测聚合值的步骤,直至所述初始聚合值全部检测完毕。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
聚合值更新模块,用于将所述异常聚合值更新为所述修复聚合值。
10.根据权利要求7所述的装置,其特征在于,
所述聚合值更新模块,具体用于将所述滑动窗口中的异常聚合值以及所述初始聚合值中的异常聚合值均更新为所述修复聚合值。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
CN201810438561.8A 2018-05-09 2018-05-09 一种修复时序数据的异常聚合值的方法及装置 Active CN108664603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810438561.8A CN108664603B (zh) 2018-05-09 2018-05-09 一种修复时序数据的异常聚合值的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810438561.8A CN108664603B (zh) 2018-05-09 2018-05-09 一种修复时序数据的异常聚合值的方法及装置

Publications (2)

Publication Number Publication Date
CN108664603A true CN108664603A (zh) 2018-10-16
CN108664603B CN108664603B (zh) 2022-06-03

Family

ID=63778944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810438561.8A Active CN108664603B (zh) 2018-05-09 2018-05-09 一种修复时序数据的异常聚合值的方法及装置

Country Status (1)

Country Link
CN (1) CN108664603B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274256A (zh) * 2020-01-20 2020-06-12 远景智能国际私人投资有限公司 基于时序数据库的资源管控方法、装置、设备及存储介质
CN111581185A (zh) * 2020-05-12 2020-08-25 四川大学 基于规则的数据相对时效修复与异常检测方法
CN112214533A (zh) * 2020-10-20 2021-01-12 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 时序数据聚合方法及装置
CN112363893A (zh) * 2021-01-11 2021-02-12 杭州涂鸦信息技术有限公司 时序指标异常检测方法、设备及装置
CN115158399A (zh) * 2022-06-14 2022-10-11 通号城市轨道交通技术有限公司 时序信号异常检测方法及系统
CN117076322A (zh) * 2023-08-30 2023-11-17 合芯科技(苏州)有限公司 一种研发技术服务供应商异常工作模式检测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598822A (zh) * 2015-10-15 2017-04-26 华为技术有限公司 一种用于容量评估的异常数据检测方法及装置
CN107094207A (zh) * 2017-06-26 2017-08-25 携程旅游信息技术(上海)有限公司 一种话务指标异常的自动检测方法及其自动检测装置
CN107528722A (zh) * 2017-07-06 2017-12-29 阿里巴巴集团控股有限公司 一种时间序列中异常点检测方法及装置
CN107566665A (zh) * 2017-08-15 2018-01-09 携程旅游信息技术(上海)有限公司 话务异常检测方法及其设备
CN107864063A (zh) * 2017-12-12 2018-03-30 北京奇艺世纪科技有限公司 一种异常监控方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598822A (zh) * 2015-10-15 2017-04-26 华为技术有限公司 一种用于容量评估的异常数据检测方法及装置
CN107094207A (zh) * 2017-06-26 2017-08-25 携程旅游信息技术(上海)有限公司 一种话务指标异常的自动检测方法及其自动检测装置
CN107528722A (zh) * 2017-07-06 2017-12-29 阿里巴巴集团控股有限公司 一种时间序列中异常点检测方法及装置
CN107566665A (zh) * 2017-08-15 2018-01-09 携程旅游信息技术(上海)有限公司 话务异常检测方法及其设备
CN107864063A (zh) * 2017-12-12 2018-03-30 北京奇艺世纪科技有限公司 一种异常监控方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONCHANOK KHAOKAEW 等: "《Time series anomaly detection using recessive subsequence》", 《THE INTERNATIONAL CONFERENCE ON INFORMATION NETWORK 2012》 *
钟清流: "《基于统计特征的时序数据符号化算法》", 《计算机学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021150165A1 (en) * 2020-01-20 2021-07-29 Envision Digital International Pte. Ltd. Method and apparatus for managing and controlling resource, device and storage medium
CN111274256A (zh) * 2020-01-20 2020-06-12 远景智能国际私人投资有限公司 基于时序数据库的资源管控方法、装置、设备及存储介质
CN111274256B (zh) * 2020-01-20 2023-09-12 远景智能国际私人投资有限公司 基于时序数据库的资源管控方法、装置、设备及存储介质
US11954133B2 (en) 2020-01-20 2024-04-09 Envision Digital International Pte. Ltd. Method and apparatus for managing and controlling resource, device and storage medium
CN111581185A (zh) * 2020-05-12 2020-08-25 四川大学 基于规则的数据相对时效修复与异常检测方法
CN112214533A (zh) * 2020-10-20 2021-01-12 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 时序数据聚合方法及装置
CN112214533B (zh) * 2020-10-20 2024-06-14 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 时序数据聚合方法及装置
US11940890B2 (en) 2021-01-11 2024-03-26 Hangzhou Tuya Information Technology Co., Ltd. Timing index anomaly detection method, device and apparatus
CN112363893A (zh) * 2021-01-11 2021-02-12 杭州涂鸦信息技术有限公司 时序指标异常检测方法、设备及装置
CN112363893B (zh) * 2021-01-11 2021-04-27 杭州涂鸦信息技术有限公司 时序指标异常检测方法、设备及装置
CN115158399A (zh) * 2022-06-14 2022-10-11 通号城市轨道交通技术有限公司 时序信号异常检测方法及系统
CN115158399B (zh) * 2022-06-14 2023-10-17 通号城市轨道交通技术有限公司 时序信号异常检测方法及系统
CN117076322A (zh) * 2023-08-30 2023-11-17 合芯科技(苏州)有限公司 一种研发技术服务供应商异常工作模式检测方法及系统

Also Published As

Publication number Publication date
CN108664603B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN108664603A (zh) 一种修复时序数据的异常聚合值的方法及装置
US11403164B2 (en) Method and device for determining a performance indicator value for predicting anomalies in a computing infrastructure from values of performance indicators
US7676522B2 (en) Method and system for including data quality in data streams
US9424157B2 (en) Early detection of failing computers
US10410135B2 (en) Systems and/or methods for dynamic anomaly detection in machine sensor data
WO2019224694A1 (en) Anomaly detection
US20150347268A1 (en) Bottleneck Detector Application Programming Interface
US11307916B2 (en) Method and device for determining an estimated time before a technical incident in a computing infrastructure from values of performance indicators
US20080263096A1 (en) Method and system for managing data quality
WO2017139046A1 (en) System and method for unsupervised root cause analysis of machine failures
CN105071983A (zh) 一种面向云计算在线业务的异常负载检测方法
US20160255109A1 (en) Detection method and apparatus
US20210216386A1 (en) Time-sequential data diagnosis device, additional learning method, and recording medium
US20180307218A1 (en) System and method for allocating machine behavioral models
US10868741B2 (en) Anchor shortening across streaming nodes
CN106598822A (zh) 一种用于容量评估的异常数据检测方法及装置
US7797264B2 (en) Detecting and displaying exceptions in tabular data
CN112800061B (zh) 一种数据存储方法、装置、服务器及存储介质
Alevizos et al. Complex event recognition under uncertainty: A short survey
Lujic et al. Adaptive recovery of incomplete datasets for edge analytics
CN116821646A (zh) 数据处理链构建方法、数据缩减方法、装置、设备及介质
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
CN118378155A (zh) 一种智能化中间件的故障检测方法及系统
CN112380073B (zh) 一种故障位置的检测方法、装置及可读存储介质
CN112128950B (zh) 一种基于多种模型对比的机房温湿度预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant