CN111563078B - 基于时序数据的数据质量检测方法、检测装置及存储装置 - Google Patents

基于时序数据的数据质量检测方法、检测装置及存储装置 Download PDF

Info

Publication number
CN111563078B
CN111563078B CN202010680801.2A CN202010680801A CN111563078B CN 111563078 B CN111563078 B CN 111563078B CN 202010680801 A CN202010680801 A CN 202010680801A CN 111563078 B CN111563078 B CN 111563078B
Authority
CN
China
Prior art keywords
data
detected
time sequence
detection method
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010680801.2A
Other languages
English (en)
Other versions
CN111563078A (zh
Inventor
吉文标
何林强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202010680801.2A priority Critical patent/CN111563078B/zh
Publication of CN111563078A publication Critical patent/CN111563078A/zh
Application granted granted Critical
Publication of CN111563078B publication Critical patent/CN111563078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种基于时序数据的数据质量检测方法、检测装置及存储装置,所述数据质量检测方法包括:接收当前时刻下的待检测时序数据;判断所述待检测时序数据中所包含的周期个数是否小于等于阈值;若是,则利用短周期检测方法对所述待检测时序数据进行检测;否则,利用长周期检测方法对所述待检测时序数据进行检测。通过上述方式,本申请能够根据待检测时序数据的周期个数选择合适的检测方法。

Description

基于时序数据的数据质量检测方法、检测装置及存储装置
技术领域
本申请涉及数据检测技术领域,特别是涉及一种基于时序数据的数据质量检测方法、检测装置及存储装置。
背景技术
数据质量是指在业务环境中,数据满足用户需求的程度以及在完整性、有效性、一致性等方面的完善程度。目前,在大数据计算平台中,可以采取一些数据质量检测方法对采集到平台的数据做实时数据质量(例如,数据缺失、数据异常值等)监控。但是,现有的一些数据质量检测方法只考虑短周期的数据质量检测,对于长周期大批量数据的异常并未涉及。
发明内容
本申请主要解决的技术问题是提供一种基于时序数据的数据质量检测方法、检测装置及存储装置,能够根据待检测时序数据的周期个数选择合适的检测方法。
为了解决上述技术问题,本申请第一方面提供了一种基于时序数据的数据质量检测方法,包括:接收当前时刻下的待检测时序数据;判断所述待检测时序数据中所包含的周期个数是否小于等于阈值;若是,则利用短周期检测方法对所述待检测时序数据进行检测;否则,利用长周期检测方法对所述待检测时序数据进行检测。
为了解决上述技术问题,本申请第二方面提供了一种时序数据的数据质量检测装置,包括相互耦接的存储器和处理器,所述存储器内存储有程序指令,所述处理器用于执行所述程序指令以实现上述第一方面中的数据质量检测方法。
为了解决上述技术问题,本申请第三方面提供了一种存储装置,存储有能够被处理器运行的程序指令,所述程序指令用于上述第一方面中的数据质量检测方法。
上述方案,通过判断当前时刻下的待检测时序数据中所包含的周期个数与阈值的关系,来确定是采用短周期检测方法还是长周期检测方法对其进行检测,从而可以提高对复杂数据的检测效率,且能够及时检测出异常。
此外,本申请中短周期检测方法采用高斯模型,长周期检测方法采用SVR模型,可以根据时序数据本身的分布特征做更深层次的质量监测,且短周期检测方法可以精确到单个数据异常检测,长周期检测方法可以对批量数据进行整体异常检测。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1为本申请基于时序数据的数据质量检测方法一实施方式的流程示意图;
图2为图1中步骤S103对应的一实施方式的流程示意图;
图3为图1中步骤S104对应的一实施方式的流程示意图;
图4为本申请时序数据的数据质量检测装置一实施方式的框架示意图;
图5为本申请时序数据的数据质量检测装置一实施方式的结构示意图;
图6为本申请存储装置一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请基于时序数据的数据质量检测方法一实施方式的流程示意图,该数据质量检测方法包括:
S101:接收当前时刻下的待检测时序数据。
具体地,时序数据是针对同一现象在不同时间上的相继观察值排列而形成的一组数字序列,时序数据一般具有趋势性、季节性和周期性,且前后时刻的时序数据一般具有某种程度的相关性,时序数据排列的时间可以以年份、季度、月份、天数、小时、分钟等任何时间形式。上述步骤S101中所接收的当前时刻下的待检测时序数据,可以理解为是上一个时刻至当前时刻时间段范围内所接收的待检测时序数据。
S102:判断待检测时序数据中所包含的周期个数是否小于等于阈值。
具体地,在本实施例中,该阈值可以为预先人为设定的超参数,后续系统可通过自我学习或人为修改等方式进行修改。上述步骤S102中可以通过现有技术中任一方式来分析获得待检测时序数据的周期性,以确定出该待检测时序数据中所包含的周期个数。
S103:若是,则利用短周期检测方法对待检测时序数据进行检测。
在一个实施方式中,请参阅图2,图2为图1中步骤S103对应的一实施方式的流程示意图。上述步骤S103中利用短周期检测方法对待检测时序数据进行检测具体包括:
S201:从待检测时序数据中获取当前滑动窗口时间段内的所有数据。
具体地,在该步骤S201之前,还可以包括:预设滑动窗口和滑动步长的大小,该滑动窗口和滑动步长的大小可由用户自行设置。一般而言,滑动步长的大小小于等于滑动窗口的大小,该方式可以使得相邻两个滑动窗口之间不会有间隔的时序数据,以使得每个时序数据都可以被检测。例如,当滑动窗口的大小为10时,滑动步长的大小可以为小于等于10的任意整数。
假设当前为第i个滑动窗口,上述步骤S201中获取的当前第i个滑动窗口时间段内的n个所有数据可以表示为win{x1,x2,……,xn}。其中,当i=1时,第1个滑动窗口可以包含待检测时序数据中的第一个数据或最后一个数据。
S202:利用当前滑动窗口时间段内的所有数据拟合获得对应的一维高斯分布模型。
具体地,上述步骤S202具体包括:
A、获得当前第i个滑动窗口时间段内的所有数据对应的均值μ和标准差σ,其中均值
Figure DEST_PATH_IMAGE001
,标准差
Figure DEST_PATH_IMAGE002
B、利用均值μ和标准差σ获得一维高斯分布模型的概率密度函数f(x),其中,概率密度函数
Figure DEST_PATH_IMAGE003
S203:逐个判断当前滑动窗口周围的数据是否符合一维高斯分布模型。
具体地,逐个判断的当前滑动窗口周围的数据范围可由人为限定,例如,可以是与该当前滑动窗口内的末尾数据靠近的2个数据、3个数据等。例如,当前滑动窗口的大小为10,滑动窗口内的数据x1,x2,……,x10,上述步骤S203逐个判断的数据对象可以是与x10相邻的下2个数据x11、x12
当然,也可通过其他方法来界定出步骤S203逐个判断的数据对象范围,例如,当滑动步长小于等于当前滑动窗口的大小时,上述步骤S203具体包括:逐个判断与当前滑动窗口相邻的下一个滑动窗口内的非重叠数据是否符合一维高斯分布模型。例如,当前滑动窗口的大小为10,滑动窗口内的数据x1,x2,……,x10,滑动步长为5,下一个滑动窗口的大小也为10,下一个滑动窗口内的数据为x6,x7,……,x15,则上述步骤S203中逐个判断的数据对象为x11-x15
进一步,上述步骤S203的具体实现过程可以为:利用单样本K-S校验检测方法和概率密度函数逐个判断当前滑动窗口周围的数据是否符合一维高斯分布模型。例如,假设当前需要判断的数据为xi,则可以将xi代入步骤S202中获得的概率密度函数f(x)以获得对应的数值,然后通过单样本K-S校验检测方法和该数值获得其对应的P-value值,根据该P-Value值来判断当前数据xi是否为异常。一般而言,业界规范定义当P-value值小于0.05时,则可以判定当前数据xi异常。
或者,上述步骤S203的具体实现过程可以为:利用3σ校验方法和概率密度函数逐个判断当前滑动窗口周围的数据是否符合一维高斯分布模型。例如,假设当前需要判断的数据为xi,利用步骤S202中获得的概率密度函数f(x)判断xi是否在μ±3σ范围内,若不在,则可以判定当前数据xi为异常数据。
上述两种步骤S203的具体实现过程较为简单、成熟,易于实现。
此外,当步骤S203中判断出有异常数据时,系统可以发出数据质量异常报警,异常报警方式可以为声、光等。
S204:若当前滑动窗口周围的数据中存在不符合一维高斯分布模型的数据,则将不符合的数据判定为异常数据,且将异常数据跳过后,按照预设滑动步长滑动至下一个滑动窗口,并返回至从待检测时序数据中获取当前滑动窗口时间段内的所有数据的步骤。
具体地,例如,假设xi、xi+2被判定为异常数据,则下一个第i+1个滑动窗口内的数据则不包含xi、xi+2
S205:若当前滑动窗口周围的数据中不存在不符合一维高斯分布模型的数据,则按照预设滑动步长滑动至下一个滑动窗口,并返回至从待检测时序数据中获取当前滑动窗口时间段内的所有数据的步骤。
需要说明的是,下一个滑动窗口的大小与上一个滑动窗口的大小可以不同,且每次进行步骤S204或者步骤S205时,滑动步长也可以不同,只要满足滑动步长小于等于当前滑动窗口的大小即可。
此外,在上述步骤S204之前,还包括:若滑动窗口从小时刻对应的时序数据向大时刻对应的时序数据方向滑动,则判断当前时刻的待检测时序数据中的最后一个数据是否被步骤S203判断,若是,则结束;否则,进入步骤S204或步骤S205。或者,若滑动窗口从大时刻对应的时序数据向小时刻对应的时序数据方向滑动,则判断当前时刻的待检测时序数据中的第一个数据是否被步骤S203判断,若是,则结束;否则,进入步骤S204或步骤S205。总而言之,上述利用一维高斯分布模型对短周期数据进行检测可以根据时序数据本身的分布特征做更深层次的质量监测,且短周期检测方法可以精确到单个数据的异常检测。
S104:否则,利用长周期检测方法对待检测时序数据进行检测。
在一个实施方式中,请参阅图3,图3为图1中步骤S104对应的一实施方式的流程示意图。上述步骤S104具体包括:
S301:将当前时刻之前的N个时刻内的数据按照有监督格式输入至训练后的SVR模型,以获得当前时刻下的输出预测值。
具体地,在一个实施方式中,上述步骤S301之前还包括提供训练后的SVR模型,具体过程可以为:
A、获得所有利用短周期检测方法检测后的非异常数据,以形成历史数据集。
一般而言,时序数据的接收遵循由少到多的过程,若当前时刻下接收到的待检测时序数据的周期数超过阈值,则在当前时刻之前的某些时刻内接收到的待检测时序数据的周期数小于等于阈值,进一步当前时刻之前的某些时刻内利用短周期检测方法检测后的非异常数据可以作为训练SVR模型的历史数据集。
B、将历史数据集中的数据转化为有监督格式,以形成训练数据集,其中,训练数据集包括多个时序数据子集,以及与各个时序数据子集对应的预测值,且任一时序数据子集和其对应的预测值属于历史数据集。
具体地,历史数据集一般是无监督格式,即是一批随时间序列排列的数据集。例如,历史数据集中的数据为x(k),k代表时刻,取值可以为0,1,2,…t。由该历史数据集可以获得T个训练数据集,第j个训练数据集可以用Sj表示,Sj对应的输入量(即多个时序数据子集)可以为x(k-d+1),…x(k-d+N),Sj对应的输出量(即预测值)可以为x(k-d+N+1),其中,N可以称之为时延,且上述Sj对应的输入量和输出量中的数据均属于历史数据集。
C、将训练数据集输入至初始SVR模型,对初始SVR模型进行训练,以获得训练后的SVR模型。
在本实施例中,假设所有训练数据在精度ε下拟合函数,SVR基本模型优化目标为:
Figure DEST_PATH_IMAGE004
,其中,
Figure DEST_PATH_IMAGE005
是松弛因子,C为惩罚系数,该问题转化为求优化目标函数最小化问题:用Lagrange乘子法,引入拉格朗日乘子
Figure DEST_PATH_IMAGE006
,形成下式:
Figure DEST_PATH_IMAGE007
分别对
Figure DEST_PATH_IMAGE008
求偏导,并令其为0可得:
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
可求的非线性拟合函数的预测值表示式为:
Figure DEST_PATH_IMAGE011
上述利用训练数据集获得训练后的SVR模型的过程可以理解为训练获得上述f(x)公式中的wb的值。
进一步,上述步骤S301具体包括:将当前时刻之前的N个时刻内的数据作为输入值输入到训练后的SVR模型中,以获得当前时刻下的输出预测值,其中N为时延。
此外,在某些场景下,当前时刻之前的某个或某几个时刻内的接收的时序数据的周期数可能与当前时刻接收的时序数据的周期数不同,则在上述步骤S301之前还可以包括:将当前时刻之前的N个时刻内的所有时序数据转换成与当前时刻内接收的周期数相同的格式排布。例如,当前时刻下接收了15个周期的时序数据,而当前时刻之前的某个时刻只接收了10个周期的时序数据;在在上述步骤S301之前还可以包括:将当前时刻之前的所有数据转换成每15个周期间隔排布的数据集,且所有时序数据的时间排布不变。
S302:获得当前时刻下的输出预测值和当前时刻下的待检测时序数据之间的均方根误差值。
S303:判断均方根误差值是否大于预设值。
S304:若是,则判定当前时刻下的待检测时序数据属于异常。
需要说明的是,当判定出待检测时序数据属于异常后,系统可以发出数据质量异常报警,异常报警方式可以为声、光等。
S305:否则,判定当前时刻下的待检测时序数据正常。
当然,在其他实施例中,上述步骤S302-步骤S305也可更换为:获得当前时刻下的输出预测值与当前时刻下的待检测时序数据之间的平均误差或平均绝对误差或平均百分比误差或平均绝对百分比误差,利用均误差或平均绝对误差或平均百分比误差或平均绝对百分比误差来评估该待检测时序数据是否异常。
此外,为了进一步优化训练后的SVR模型,在上述判断当前时刻下的待检测时序数据正常之后,还包括:将当前时刻下的待检测时序数据并入历史数据集;利用更新后的历史数据集形成更新后的训练数据集;利用更新后的训练数据集重新训练SVR模型。具体重新训练过程与上述类似,在此不再赘述。
另外,为了进一步精确判断出当前时刻下的待检测时序中具体哪个数据异常,上述判断当前时刻下的待检测时序数据属于异常后,还包括:将当前时刻下的待检测时序数据拆分为多个待检测子集,每个待检测子集所包含的周期个数小于等于阈值;利用短周期检测方法对待检测子集进行检测,具体实现过程可参见上述实施例,在此不再赘述。
总而言之,上述利用SVR模型对长周期数据进行检测的方法可以根据时序数据本身的分布特征做更深层次的质量监测,且长周期检测方法可以对批量数据进行整体异常检测。
请参阅图4,图4为本申请时序数据的数据质量检测装置一实施方式的框架示意图。该数据质量检测装置10包括接收模块100、判断模块102、第一执行模块104和第二执行模块106。其中,接收模块100用于接收当前时刻下的待检测时序数据。判断模块102用于判断待检测时序数据中所包含的周期个数是否小于等于阈值。第一执行模块104用于在待检测时序数据中所包含的周期个数小于等于阈值时,利用短周期检测方法对待检测时序数据进行检测。第二执行模块106用于在待检测时序数据中所包含的周期个数大于阈值时,利用长周期检测方法对所述待检测时序数据进行检测。
上述方案,通过判断当前时刻下的待检测时序数据中所包含的周期个数与阈值的关系,来确定是采用短周期检测方法还是长周期检测方法对其进行检测,从而可以提高对复杂数据的检测效率,且能够及时检测出异常。
在一个实施方式中,上述第一执行模块104包括:第一获取子模块、第一拟合子模块、第一判断子模块、第一滑动子模块和第一返回子模块。其中,第一获取子模块用于从待检测时序数据中获取当前滑动窗口时间段内的所有数据。第一拟合子模块用于利用当前滑动窗口时间段内的所有数据拟合获得对应的一维高斯分布模型。第一判断子模块用于逐个判断当前滑动窗口周围的数据是否符合一维高斯分布模型。第一滑动子模块用于在当前滑动窗口周围的数据中存在不符合一维高斯分布模型的数据时,将不符合的数据判定为异常数据,且将异常数据跳过后,按照预设滑动步长滑动至下一个滑动窗口,或者,在当前滑动窗口周围的数据中不存在不符合一维高斯分布模型的数据时,按照预设滑动步长滑动至下一个滑动窗口。第一返回子模块与第一滑动子模块连接,用于返回第一获取子模块。
上述利用一维高斯分布模型对短周期数据进行检测可以根据时序数据本身的分布特征做更深层次的质量监测,且短周期检测方法可以精确到单个数据的异常检测。
在一个应用场景中,上述第一拟合子模块具体用于获得当前滑动窗口时间段内的所有数据对应的均值和标准差;利用均值和标准差获得一维高斯分布模型的概率密度函数。进一步上述第一判断子模块具体用于利用单样本K-S校验检测方法和概率密度函数逐个判断当前滑动窗口周围的数据是否符合一维高斯分布模型,或者,利用3σ校验方法和概率密度函数逐个判断当前滑动窗口周围的数据是否符合一维高斯分布模型。
上述两种判断具体数据是否异常的方法较为成熟,易于实现,且可信度较高。
一般而言,滑动步长小于等于当前滑动窗口的大小,上述第一判断子模块具体用于逐个判断与当前滑动窗口相邻的下一个滑动窗口内的非重叠数据是否符合一维高斯分布模型。该方式可以缩短判断时间,提高系统效率。
在一个实施方式中,上述第二执行模块106包括第一预测子模块、第一处理子模块和第二判断子模块。其中,第一预测子模块用于将当前时刻之前的N个时刻内的数据按照有监督格式输入至训练后的SVR模型,以获得当前时刻下的输出预测值。第二处理子模块用于获得当前时刻下的输出预测值和当前时刻下的待检测时序数据之间的均方根误差值。第二判断子模块用于判断均方根误差值是否大于预设值;若是,则判定当前时刻下的待检测时序数据属于异常;否则,判定当前时刻下的待检测时序数据正常。
在一个应用场景中,上述第二执行模块106还包括:第二获取子模块、第一转换子模块和第一训练子模块。其中,第二获取子模块用于获得所有利用短周期检测方法检测后的非异常数据,以形成历史数据集。第一转换子模块用于将历史数据集中的数据转化为有监督格式,以形成训练数据集,其中,训练数据集包括多个时序数据子集,以及与各个时序数据子集对应的预测值,且任一时序数据子集和其对应的预测值属于历史数据集。第一训练子模块用于将训练数据集输入至初始SVR模型,对初始SVR模型进行训练,以获得训练后的SVR模型。
进一步,为了优化训练后的SVR模型,在上述第二判断子模块判断出当前时刻下的待检测时序数据非异常时,上述第二获取子模块还用于获取当前时刻下的待检测时序数据并入历史数据集。上述第一转化子模块还用于利用更新后的历史数据集形成更新后的训练数据集。上述第一训练子模块还用于利用更新后的训练数据集重新训练SVR模型。
进一步,为了精确获得当前时刻下的待检测时序数据中的异常数据,在上述第二判断子模块判断出当前时刻下的待检测时序数据异常时,上述第二执行模块106还包括第一拆分子模块,用于将当前时刻下的待检测时序数据拆分为多个待检测子集,每个待检测子集所包含的周期个数小于等于阈值。第一执行模块104还用于对拆分后的每个待检测子集进行检测。
请参阅图5,图5为本申请时序数据的数据质量检测装置一实施方式的结构示意图。该数据检测装置20包括相互耦接的存储器200和处理器202,存储器200内存储有程序指令,处理器202用于执行程序指令以实现上述任一实施例中的数据质量检测方法。
具体而言,处理器202用于控制其自身以及存储器200以实现上述任一数据质量检测方法实施例中的步骤。处理器202还可以称为CPU(Central Processing Unit,中央处理单元)。处理器202可能是一种集成电路芯片,具有信号的处理能力。处理器202还可以是通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application Specific Integrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable Gate Array, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器202可以由多个集成电路芯片共同实现。
请参阅图6,图6为本申请存储装置一实施方式的结构示意图。存储装置30存储有能够被处理器运行的程序指令300,程序指令300用于实现上述任一数据质量检测方法实施例中的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (8)

1.一种基于时序数据的数据质量检测方法,其特征在于,包括:
接收当前时刻下的待检测时序数据;
判断所述待检测时序数据中所包含的周期个数是否小于等于阈值;
若是,则利用短周期检测方法对所述待检测时序数据进行检测;否则,利用长周期检测方法对所述待检测时序数据进行检测;
其中,所述利用短周期检测方法对所述待检测时序数据进行检测,包括:从所述待检测时序数据中获取当前滑动窗口时间段内的所有数据;利用所述当前滑动窗口时间段内的所有数据拟合获得对应的一维高斯分布模型;逐个判断当前滑动窗口周围的数据是否符合所述一维高斯分布模型;若所述当前滑动窗口周围的数据中存在不符合所述一维高斯分布模型的数据,则将不符合的数据判定为异常数据,且将所述异常数据跳过后,按照预设滑动步长滑动至下一个滑动窗口,并返回至从所述待检测时序数据中获取当前滑动窗口时间段内的所有数据的步骤;若所述当前滑动窗口周围的数据中不存在不符合所述一维高斯分布模型的数据,则按照预设滑动步长滑动至下一个滑动窗口,并返回至从所述待检测时序数据中获取当前滑动窗口时间段内的所有数据的步骤;
所述利用长周期检测方法对所述待检测时序数据进行检测,包括:将当前时刻之前的N个时刻内的数据按照有监督格式输入至训练后的SVR模型,以获得当前时刻下的输出预测值;获得所述当前时刻下的输出预测值和所述当前时刻下的待检测时序数据之间的均方根误差值;判断所述均方根误差值是否大于预设值;若是,则判定所述当前时刻下的所述待检测时序数据属于异常;否则,判定所述当前时刻下的所述待检测时序数据正常。
2.根据权利要求1所述的数据质量检测方法,其特征在于,
所述利用所述当前滑动窗口时间段内的所有数据拟合获得对应的一维高斯分布模型,包括:
获得所述当前滑动窗口时间段内的所有数据对应的均值和标准差;
利用所述均值和标准差获得所述一维高斯分布模型的概率密度函数;
所述逐个判断所述当前滑动窗口周围的数据是否符合所述一维高斯分布模型,包括:
利用单样本K-S校验检测方法和所述概率密度函数逐个判断当前滑动窗口周围的数据是否符合所述一维高斯分布模型,或者,利用3σ校验方法和所述概率密度函数逐个判断当前滑动窗口周围的数据是否符合所述一维高斯分布模型。
3.根据权利要求1所述的数据质量检测方法,其特征在于,
所述预设滑动步长小于等于所述当前滑动窗口的大小,所述逐个判断所述当前滑动窗口周围的数据是否符合所述一维高斯分布模型,包括:
逐个判断与所述当前滑动窗口相邻的下一个滑动窗口内的非重叠数据是否符合所述一维高斯分布模型。
4.根据权利要求1所述的数据质量检测方法,其特征在于,所述将当前时刻之前的N个时刻内的数据按照有监督格式输入至训练后的SVR模型之前,还包括:
获得所有利用所述短周期检测方法检测后的非异常数据,以形成历史数据集;
将所述历史数据集中的数据转化为有监督格式,以形成训练数据集,其中,所述训练数据集包括多个时序数据子集,以及与各个时序数据子集对应的预测值,且任一时序数据子集和其对应的预测值属于所述历史数据集;
将所述训练数据集输入至初始SVR模型,对所述初始SVR模型进行训练,以获得训练后的SVR模型。
5.根据权利要求4所述的数据质量检测方法,其特征在于,所述判断所述当前时刻下的所述待检测时序数据正常,之后,还包括:
将所述当前时刻下的所述待检测时序数据并入所述历史数据集;
利用更新后的历史数据集形成更新后的训练数据集;
利用更新后的训练数据集重新训练所述SVR模型。
6.根据权利要求1所述的数据质量检测方法,其特征在于,所述判断所述当前时刻下的所述待检测时序数据属于异常后,还包括:
将所述当前时刻下的所述待检测时序数据拆分为多个待检测子集,每个待检测子集所包含的周期个数小于等于所述阈值;
利用所述短周期检测方法对所述待检测子集进行检测。
7.一种时序数据的数据质量检测装置,其特征在于,包括相互耦接的存储器和处理器,所述存储器内存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至6任一项所述的数据质量检测方法。
8.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至6任一项所述的数据质量检测方法。
CN202010680801.2A 2020-07-15 2020-07-15 基于时序数据的数据质量检测方法、检测装置及存储装置 Active CN111563078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010680801.2A CN111563078B (zh) 2020-07-15 2020-07-15 基于时序数据的数据质量检测方法、检测装置及存储装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010680801.2A CN111563078B (zh) 2020-07-15 2020-07-15 基于时序数据的数据质量检测方法、检测装置及存储装置

Publications (2)

Publication Number Publication Date
CN111563078A CN111563078A (zh) 2020-08-21
CN111563078B true CN111563078B (zh) 2020-11-10

Family

ID=72075482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010680801.2A Active CN111563078B (zh) 2020-07-15 2020-07-15 基于时序数据的数据质量检测方法、检测装置及存储装置

Country Status (1)

Country Link
CN (1) CN111563078B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309736B (zh) * 2022-10-10 2023-03-24 北京航空航天大学 基于自监督学习多头注意力网络的时序数据异常检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080086283A1 (en) * 2006-10-05 2008-04-10 Siemens Corporate Research, Inc. Bayesian Sensor Estimation For Machine Condition Monitoring
CN108319981A (zh) * 2018-02-05 2018-07-24 清华大学 一种基于密度的时序数据异常检测方法及装置
CN109697247A (zh) * 2018-12-30 2019-04-30 北京奇艺世纪科技有限公司 一种数据准确性的检测方法及装置
CN111141879A (zh) * 2020-02-21 2020-05-12 防灾科技学院 一种深度学习的空气质量监测方法以及装置、设备
CN111314329A (zh) * 2020-02-03 2020-06-19 杭州迪普科技股份有限公司 流量入侵检测系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080086283A1 (en) * 2006-10-05 2008-04-10 Siemens Corporate Research, Inc. Bayesian Sensor Estimation For Machine Condition Monitoring
CN108319981A (zh) * 2018-02-05 2018-07-24 清华大学 一种基于密度的时序数据异常检测方法及装置
CN109697247A (zh) * 2018-12-30 2019-04-30 北京奇艺世纪科技有限公司 一种数据准确性的检测方法及装置
CN111314329A (zh) * 2020-02-03 2020-06-19 杭州迪普科技股份有限公司 流量入侵检测系统和方法
CN111141879A (zh) * 2020-02-21 2020-05-12 防灾科技学院 一种深度学习的空气质量监测方法以及装置、设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于滑动窗口预测的水文时间序列异常检测;余宇峰 等;《计算机应用》;20140810;第2217-2220、2226页 *

Also Published As

Publication number Publication date
CN111563078A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN110851338B (zh) 异常检测方法、电子设备及存储介质
CN111368890A (zh) 故障检测方法及装置、信息物理融合系统
US10228994B2 (en) Information processing system, information processing method, and program
US20210042585A1 (en) Abnormality detection device, abnormality detection method and computer readable medium
CN111949496B (zh) 一种数据检测方法及装置
CN111626360B (zh) 用于检测锅炉故障类型的方法、装置、设备和存储介质
Wielgosz et al. The model of an anomaly detector for HiLumi LHC magnets based on Recurrent Neural Networks and adaptive quantization
CN112395179B (zh) 一种模型训练方法、磁盘预测方法、装置及电子设备
CN117041017A (zh) 数据中心的智能运维管理方法及系统
CN114978956A (zh) 智慧城市网络设备性能异常突变点检测方法及装置
CN114356734A (zh) 服务异常检测方法和装置、设备、存储介质
CN111563078B (zh) 基于时序数据的数据质量检测方法、检测装置及存储装置
CN116451081A (zh) 数据漂移的检测方法、装置、终端及存储介质
CN112463564B (zh) 确定影响主机状态的关联指标的方法及装置
CN110874601A (zh) 识别设备运行状态的方法、状态识别模型训练方法及装置
CN113123955B (zh) 柱塞泵异常检测方法、装置、存储介质及电子设备
CN112801315A (zh) 电力二次设备的状态诊断方法、装置及终端
CN115618206B (zh) 干扰数据确定方法、装置、电子设备及存储介质
CN111783883A (zh) 一种异常数据的检测方法及装置
CN110764975B (zh) 设备性能的预警方法、装置及监控设备
CN116170200A (zh) 电力监控系统时间序列异常检测方法、系统、设备及存储介质
CN115648592A (zh) 挤出机运行状态的评估方法、系统及存储介质
CN111027680B (zh) 基于变分自编码器的监控量不确定性预测方法及系统
CN117407264B (zh) 内存老化剩余时间的预测方法、装置、计算机设备及介质
CN117851953B (zh) 用水异常检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant