CN115310049B - 一种时间序列数据的周期检测方法、装置及设备 - Google Patents

一种时间序列数据的周期检测方法、装置及设备 Download PDF

Info

Publication number
CN115310049B
CN115310049B CN202211223813.8A CN202211223813A CN115310049B CN 115310049 B CN115310049 B CN 115310049B CN 202211223813 A CN202211223813 A CN 202211223813A CN 115310049 B CN115310049 B CN 115310049B
Authority
CN
China
Prior art keywords
data
time sequence
time
sequence
trend
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211223813.8A
Other languages
English (en)
Other versions
CN115310049A (zh
Inventor
徐昕军
严川
张博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudwise Beijing Technology Co Ltd
Original Assignee
Cloudwise Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudwise Beijing Technology Co Ltd filed Critical Cloudwise Beijing Technology Co Ltd
Priority to CN202211223813.8A priority Critical patent/CN115310049B/zh
Publication of CN115310049A publication Critical patent/CN115310049A/zh
Application granted granted Critical
Publication of CN115310049B publication Critical patent/CN115310049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种时间序列数据的周期检测方法、装置及设备。方法包括:获得运维系统的不含趋势成分的目标时间序列数据;根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分;将所述预设数量个频率成分转换到时域,得到时域数据;根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定原始时间序列数据的周期。本发明的方案可有效解决运维时间序列周期性检测过程中的周期漂移问题,提高时间序列数据周期检测的准确率。

Description

一种时间序列数据的周期检测方法、装置及设备
技术领域
本发明涉及运维系统时间序列数据处理技术领域,特别是指一种时间序列数据的周期检测方法、装置及设备。
背景技术
伴随人工智能、云计算、大数据、物联网等技术创新,运维系统从传统运维流程化管理逐步向智能化演进,如今智能运维已被广泛应用于多个领域。在智能运维领域的海量运维数据中,由一系列时间戳和对应数值组成的时间序列数据是最重要的数据类型之一。时间序列数据的周期性检测是指运用算法判断一维时间序列中是否存在周期,存在几个周期及每个周期的长度,可广泛的应用于时间序列周期性检测、周期性提取以及与异常检测相结合等多种运维场景。
在运维场景中,时序数据通常只包含天周期、周周期和月周期三种类型的周期。但在实际应用中,运维时间序列数据存在着另一个严重问题:周期漂移问题。例如,天周期的长度本应为24小时,但由于具体业务的原因,一条数据检测出的实际周期长度可能同时包含23.9小时、24小时以及24.1小时等,这导致现有技术中的时间序列周期性检测方法均无法准确检测出存在周期漂移的运维时间序列数据的所有周期。
发明内容
本发明提供一种时间序列数据的周期检测方法、装置及设备,解决现有技术中对运维系统的时间序列数据的周期检测无法有效处理周期漂移的问题。
为解决上述技术问题,本发明的技术方案如下:
一种时间序列数据的周期检测方法,包括:
获得运维系统的不含趋势成分的目标时间序列数据;
根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分;
将所述预设数量个频率成分转换到时域,得到时域数据;
根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定原始时间序列数据的周期。
可选的,获得运维系统的不含趋势成分的目标时间序列数据,包括:
获得运维系统的原始时间序列数据;
对所述原始时间序列数据进行预处理,得到预处理后的时间序列数据;
对所述预处理后的时间序列数据进行趋势检测,在存在趋势成分的情况下,获得趋势成分;
将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据。
可选的,将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据,包括:
利用过滤器从原始时间序列数据中分解出趋势成分数据,并将原始时间序列数据与趋势成分数据逐点计算差值,以将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据。
可选的,根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分,包括:
对所述目标时间序列数据进行傅立叶变换,将所述目标时间序列数据从时域转化到频域,得到频域数据;
计算所述频域数据的能量密度谱;
将所述能量密度谱中,按照能量占比按从大到小顺序排列,获得前预设数量个频率成分。
可选的,将所述预设数量个频率成分转换到时域,得到时域数据,包括:
将所述预设数量个频率成分进行傅立叶逆变换,得到时域数据。
可选的,根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定所述原始时间序列数据的周期,包括:
计算时域数据的自相关函数值,得到自相关序列;
提取所述自相关序列的峰值并计算峰值间隔;
将所述自相关序列的峰值间隔,按照峰值间隔的长度进行聚类处理,得到至少一个类簇;
将具有最多峰值间隔的类簇的聚类中心的值,确定为原始时间序列数据的周期。
可选的,时间序列数据的周期检测方法,还包括:
若所述至少一个类簇中的目标类簇中的所有峰值间隔均低于预设阈值,则确定所述原始时间序列数据的周期不存在。
本发明的实施例还提供一种时间序列数据的周期检测装置,包括:
获取模块,用于获得运维系统的不含趋势成分的目标时间序列数据;
处理模块,用于根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分;将所述预设数量个频率成分转换到时域,得到时域数据;根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定原始时间序列数据的周期。
本发明的实施例还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的方法。
本发明的实施例还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上所述的方法。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过获得运维系统的不含趋势成分的目标时间序列数据;根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分;将所述预设数量个频率成分转换到时域,得到时域数据;根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定所述原始时间序列数据的周期,从而可以将存在漂移的周期聚成一类,可有效解决运维时间序列周期性检测过程中的周期漂移问题,提高周期检测准确率。
附图说明
图1为本发明实施例提供的时间序列数据的周期检测方法流程图;
图2为本发明实施例提供的时间序列数据的周期检测方法的一具体实现流程图;
图3为本发明实施例中,输入的包含缺失值的原始时间序列数据的示意图;
图4为本发明实施例中,填充缺失值后得到的预处理后的时间序列数据的示意图;
图5为本发明实施例中,拟合的趋势与输入的时间序列数据对比图;
图6为本发明实施例中,剔除趋势成分后的数据示意图;
图7为本发明实施例中,数据转换到频域后的能量密度谱;
图8为本发明实施例中,能量最高的频率成分转化到时域后的数据;
图9为本发明实施例中,时域数据的自相关ACF序列图;
图10为本发明实施例提供的时间序列数据的周期检测装置的模块示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的实施例提供一种时间序列数据的周期检测方法,包括:
步骤11,获得运维系统的不含趋势成分的目标时间序列数据;
步骤12,根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分;
步骤13,将所述预设数量个频率成分转换到时域,得到时域数据;
步骤14,根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定原始时间序列数据的周期。
本发明的该实施例,通过获得运维系统的不含趋势成分的目标时间序列数据;根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分;将所述预设数量个频率成分转换到时域,得到时域数据;根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定所述原始时间序列数据的周期,从而可以将存在漂移的周期聚成一类,可有效解决运维时间序列周期性检测过程中的周期漂移问题,提高时间序列数据周期检测准确率。
本发明的一可选的实施例中,步骤11可以包括:
步骤111,获得运维系统的原始时间序列数据;
步骤112,对所述原始时间序列数据进行预处理,得到预处理后的时间序列数据;这里,对输入的原始时间序列数据进行预处理,包括但不限于处理缺失值、去除噪声等处理;
步骤113,对预处理后的时间序列数据进行趋势检测,在存在趋势成分的情况下,获得趋势成分;
具体实现时,可以采用如下公式进行时间序列数据进行趋势检测:
计算方差公式:
将S变换为检验统计量Z公式:
其中,表示第j个原始时间序列数据的数据点,/>表示第k个数据点,S表示符号函数值为正的数量减去符号函数值为负的数量,VAR(S)表示S的方差,/>表示第k个组内的样本数值,k表示相同样本的组序号,p表示相同样本点构成的组数,n表示数据长度,Z表示检验统计量。
步骤114,将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据;
具体的,利用过滤器从原始时间序列数据中分解出趋势成分数据,并将原始时间序列数据与趋势成分数据逐点计算差值,以将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据;
具体实现时,可以根据以下函数:
将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据;
其中,表示原始时间序列数据的第i个数据点,/>表示趋势成分的第i个数据点,/>表示惩罚项参数,用于惩罚趋势成分中的变化性,/>表示趋势成分的第i+1个数据点,N为数据长度。
本发明的一可选的实施例中,步骤12可以包括:
步骤121,对所述目标时间序列数据进行傅立叶变换,将所述目标时间序列数据从时域转化到频域,得到频域数据;
步骤122,计算所述频域数据的能量密度谱;
步骤123,将所述能量密度谱中,按照能量占比按从大到小顺序排列,获得前预设数量个频率成分。
该实施例中,对不含趋势成分的时间序列数据进行傅立叶变换,将数据从时域转化到频域,并计算频域数据的能量密度谱。
寻找能量谱中能量占比前Topk的频率成分。由于运维领域的时间序列数据中所包含的周期通常为天周期、周周期和月周期三类居多,所以k通常设置为3。
这里,频域能量密度谱的计算公式如下:
其中,
表示频谱中k/N处的频率,k表示第k个数据点,N表示数据长度,/>表示/>的频谱函数值,/>表示频域能量密度谱。
本发明的一可选的实施例中,步骤13可以包括:将所述预设数量个频率成分进行傅立叶逆变换,得到时域数据。
该实施例中,利用傅立叶逆变换将Topk的频率成分逐一提取并转化回时域,并计算其自相关函数(Autocorrelation Function,ACF),获取ACF序列。
本发明的一可选的实施例中,步骤14可以包括:
步骤141,计算时域数据的自相关函数值,得到自相关序列;
步骤142,提取所述自相关序列的峰值并计算峰值间隔;
步骤143,对所述自相关序列的峰值间隔,按照峰值间隔的长度进行聚类处理,得到至少一个类簇;
步骤144,将具有最多峰值间隔的类簇的聚类中心的值,确定为原始时间序列数据的周期。
该实施例中,计算时域数据的自相关ACF序列的峰值,并计算峰值间隔,峰值间隔即为周期长度,如果存在周期漂移现象,则一条ACF序列的峰值间隔会表现出长度不一致的波动。
ACF计算公式如下:
其中,表示第t个数据点,/>表示数据点的均值,k表示滞后阶数,T表示数据点数量,/>表示计算得到的自相关函数值。
ACF序列峰值获取方法包括但不限于以下方法,计算ACF序列的一阶差分,在一阶差分序列中寻找连续出现的大于零和小于零的数值对,反推回ACF序列找到构成数值对的三点中的中间点,同时筛选该值点需要大于ACF序列的均值,则该值点为ACF序列的峰值。
对一条ACF序列的峰值间隔输入周期聚类模块,该周期聚类模块利用聚类算法将长度接近的峰值间隔(即周期长度)聚集到同一类簇,通过计算具有最多数据对象的类簇的聚类中心,即可得到准确的周期长度;
该模块可有效加强周期提取的鲁棒性。周期聚类模块所采用的聚类方法包括但不限于:Mean Shift,K-means,DBSCAN等。
Mean Shift的均值中心计算公式如下:
其中,表示计算得到的聚类中心,x表示当前计算的数据点,/>表示数据集中的第i个样本点,/>表示第i个样本点的权重,n表示样本点的数量,/>表示核函数,可选高斯核等。
Mean Shift算法流程如下:
1)在所设置的聚类半径范围内计算均值中心
2)将均值中心作为新的中心点划定半径范围,令
3)如果,结束循环,否则,重复上述步骤。
本发明的一可选的实施例中,上述时间序列数据的周期检测方法,还可以包括:
步骤15,若所述至少一个类簇中的目标类簇中的所有峰值间隔均低于预设阈值,则确定所述原始时间序列数据的周期不存在。
该实施例中,可设置合理的阈值,如果筛选出的类簇的数据对象数据低于阈值,则视为该条ACF序列对应的周期不存在,这里的数据对象可以是上述峰值间隔。
本发明的上述实施例,在周期检测流程中采用聚类算法将存在漂移的周期聚成一类,可有效解决运维时间序列周期性检测过程中的周期漂移问题,提高周期检测准确率。其次,本发明的上述实施例所述的方法无需先验设定需要检测的周期长度,实现了周期的全自动检测。此外,本发明的上述实施例对时间序列数据的预处理和去趋势等步骤可让周期检测流程具有更强的鲁棒性,可直接应用于实践。最后,本发明可进一步将周期判定结果与时间序列分类、时间序列异常检测和时间序列预测等相结合,可提高相应算法的准确率。
下面结合图2说明本发明的上述方法的具体实现过程:以一条生产运维环境中的网关接口访问量数据为例,该方法包括:
步骤1:获取该网关接口访问量数据,该数据为时间序列数据,数据可视化如图3所示;
步骤2:对输入数据进行预处理,由图3可见,数据中存在缺失值,利用线性插值方法填充缺失值,预处理后的时间序列数据如图4所示;
步骤3:检测输入的时间序列数据是否包含趋势成分,此处可以使用Mann-Kendall检验对时间序列数据进行趋势检验,检测结果表明该时间序列数据存在趋势成分,从图5中贯穿时间维度的曲线也能够显而易见的看到;
步骤4:去除时间序列数据的趋势成分,此处使用Hodrick-Prescott (HP)滤波方法,拟合的趋势与输入的时间序列数据的对比图如图5所示,去除趋势后的数据如图6所示;这里,需要说明的是,图3至图6中的横坐标为时间数据;
步骤5:计算去趋势后的数据的能量密度谱,即利用傅立叶变换将数据转化到频率,并计算数据的周期图,数据的能量密度谱如图7所示;从能量密度谱中获取能量最高的前k个频率,此处选取能量最高的频率,并利用傅立叶逆变换转化回时域,转化回时域的数据如图8所示;
步骤6:计算能量最高的频率的时域数据的自相关函数,得到ACF序列,ACF序列如图9所示;
步骤7:获取ACF序列的峰值,计算ACF序列的一阶差分,在一阶差分序列中寻找连续出现的大于零和小于零的数值对,反推回ACF序列找到构成数值对的三点中的中间点,同时筛选该值点需要大于ACF序列的均值,则该值点为ACF序列的峰值。
该ACF序列峰值列表为[288 577 865 1153 1442 1729 2016 2304 2592 28803168 3456 3744 4031 4319 4607 4895 5184 5472 5760 6047 6335 6623 6911 71997487 7775 8062 8350 8638 8926 9215 9505 9793 10082 10370 10657 10948 1123611525 11813 12099];峰值间距列表为[289 288 288 289 287 287 288 288 288 288 288288 287 288 288 288 289 288 288 287 288 288 288 288 288 288 287 288 288 288289 290 288 289 288 287 291 288 289 288 286 275];
步骤8:利用上述Mean Shift方法对峰值间距列表进行聚类,共得到两个类簇,聚类中心分别为[288.1,275.0],类簇元素数量分别为[41,1],则数量最大的类簇为[288.1],选取的类簇阈值为总元素数量的一半即21,该最大类簇超过所设阈值,作为检测到的周期输出。最后将峰值间距288.1和数据采样间隔5分钟相乘,得到周期长度为24.01小时。所以检测结果为该条数据包含一个周期,周期长度为24.01小时。
本发明的上述实施例所述的运维场景下时间序列数据的周期性检测方法,在周期检测过程中的聚类可解决现有方法无法解决的周期漂移问题。
如图10所示,本发明的实施例还提供一种时间序列数据的周期检测装置100,包括:
获取模块101,用于获得运维系统的不含趋势成分的目标时间序列数据;
处理模块102,用于根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分;将所述预设数量个频率成分转换到时域,得到时域数据;根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定原始时间序列数据的周期。
可选的,获得运维系统的不含趋势成分的目标时间序列数据,包括:
获得运维系统的原始时间序列数据;
对所述原始时间序列数据进行预处理,得到预处理后的时间序列数据;
对所述预处理后的时间序列数据进行趋势检测,在存在趋势成分的情况下,获得趋势成分;
将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据。
可选的,将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据,包括:
利用过滤器从原始时间序列数据中分解出趋势成分数据,并将原始时间序列数据与趋势成分数据逐点计算差值,以将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据。
可选的,根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分,包括:
对所述目标时间序列数据进行傅立叶变换,将所述目标时间序列数据从时域转化到频域,得到频域数据;
计算所述频域数据的能量密度谱;
将所述能量密度谱中,按照能量占比按从大到小顺序排列,获得前预设数量个频率成分。
可选的,将所述预设数量个频率成分转换到时域,得到时域数据,包括:
将所述预设数量个频率成分进行傅立叶逆变换,得到时域数据。
可选的,根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定所述原始时间序列数据的周期,包括:
计算时域数据的自相关函数值,得到自相关序列;
提取所述自相关序列的峰值并计算峰值间隔;
对所述自相关序列的峰值间隔,按照峰值间隔的长度进行聚类处理,得到至少一个类簇;
将具有最多峰值间隔的类簇的聚类中心的值,确定为原始时间序列数据的周期。
可选的,所述处理模块102还用于若所述至少一个类簇中的目标类簇中的所有峰值间隔均低于预设阈值,则确定所述原始时间序列数据的周期不存在。
需要说明的是,该实施例是与上述方法实施例对应的装置实施例,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本实施例还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的方法。
本实施例还提供一种计算机可读存储介质,其存储指令,当所述指令在计算机上运行时,使得计算机执行如上所述的方法。
该计算设备可以包括:处理器(processor)、通信接口(CommunicationsInterface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的方法。程序中各步骤的具体实现可以参见上述实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (6)

1.一种时间序列数据的周期检测方法,其特征在于,包括:
获得运维系统的不含趋势成分的目标时间序列数据;
根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分;
将所述预设数量个频率成分转换到时域,得到时域数据;
根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定原始时间序列数据的周期;
其中,根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定所述原始时间序列数据的周期,包括:
计算时域数据的自相关函数值,得到自相关序列;
提取所述自相关序列的峰值并计算峰值间隔;
将所述自相关序列的峰值间隔,按照峰值间隔的长度进行聚类处理,得到至少一个类簇;
将具有最多峰值间隔的类簇的聚类中心的值,确定为原始时间序列数据的周期;
其中,获得运维系统的不含趋势成分的目标时间序列数据,包括:
获得运维系统的原始时间序列数据;
对所述原始时间序列数据进行预处理,得到预处理后的时间序列数据;
对所述预处理后的时间序列数据进行趋势检测,在存在趋势成分的情况下,获得趋势成分;
将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据;
其中,采用如下公式对时间序列数据进行趋势检测:
计算方差公式:
将S变换为检验统计量Z公式:
其中,Xj表示第j个原始时间序列数据的数据点,Xi表示第i个数据点,S表示符号函数值为正的数量减去符号函数值为负的数量,VAR(S)表示S的方差,qa表示第a个组内的样本数值,a表示相同样本的组序号,p表示相同样本点构成的组数,N表示数据长度,Z表示检验统计量;
其中,将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据,包括:
利用过滤器从原始时间序列数据中分解出趋势成分数据,并将原始时间序列数据与趋势成分数据逐点计算差值,以将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据;
其中,根据以下函数:
将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据;
其中,yi表示原始时间序列数据的第i个数据点,gi表示趋势成分的第i个数据点,λ表示惩罚项参数,用于惩罚趋势成分中的变化性,gi+1表示趋势成分的第i+1个数据点,N为数据长度;
其中,根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分,包括:
对所述目标时间序列数据进行傅立叶变换,将所述目标时间序列数据从时域转化到频域,得到频域数据;
计算所述频域数据的能量密度谱;
将所述能量密度谱中,按照能量占比按从大到小顺序排列,获得前预设数量个频率成分;
其中,频域能量密度谱的计算公式如下:
P(fk/N)=||X(fk/N)||2
其中,
fk/N表示频谱中k/N处的频率,k表示第k个数据点,N表示数据长度,X(fk/N)表示fk/N的频谱函数值,P(fk/N)表示频域能量密度谱;
其中,所述自相关函数计算公式如下:
其中,yt表示第t个数据点,表示数据点的均值,v表示滞后阶数,T表示数据点数量,rτ表示计算得到的自相关函数值。
2.根据权利要求1所述的时间序列数据的周期检测方法,其特征在于,将所述预设数量个频率成分转换到时域,得到时域数据,包括:
将所述预设数量个频率成分进行傅立叶逆变换,得到时域数据。
3.根据权利要求1所述的时间序列数据的周期检测方法,其特征在于,还包括:
若所述至少一个类簇中的目标类簇中的所有峰值间隔均低于预设阈值,则确定所述原始时间序列数据的周期不存在。
4.一种时间序列数据的周期检测装置,其特征在于,包括:
获取模块,用于获得运维系统的不含趋势成分的目标时间序列数据;
处理模块,用于根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分;将所述预设数量个频率成分转换到时域,得到时域数据;根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定原始时间序列数据的周期;
其中,根据所述时域数据的自相关序列的峰值间隔的聚类结果,确定所述原始时间序列数据的周期,包括:
计算时域数据的自相关函数值,得到自相关序列;
提取所述自相关序列的峰值并计算峰值间隔;
将所述自相关序列的峰值间隔,按照峰值间隔的长度进行聚类处理,得到至少一个类簇;
将具有最多峰值间隔的类簇的聚类中心的值,确定为原始时间序列数据的周期;
其中,获得运维系统的不含趋势成分的目标时间序列数据,包括:
获得运维系统的原始时间序列数据;
对所述原始时间序列数据进行预处理,得到预处理后的时间序列数据;
对所述预处理后的时间序列数据进行趋势检测,在存在趋势成分的情况下,获得趋势成分;
将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据;
其中,采用如下公式对时间序列数据进行趋势检测:
计算方差公式:
将S变换为检验统计量Z公式:
其中,Xj表示第j个原始时间序列数据的数据点,Xi表示第i个数据点,S表示符号函数值为正的数量减去符号函数值为负的数量,VAR(S)表示S的方差,qa表示第a个组内的样本数值,a表示相同样本的组序号,p表示相同样本点构成的组数,N表示数据长度,Z表示检验统计量;
其中,将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据,包括:
利用过滤器从原始时间序列数据中分解出趋势成分数据,并将原始时间序列数据与趋势成分数据逐点计算差值,以将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据;
其中,根据以下函数:
将所述趋势成分从所述预处理后的时间序列数据中去除,得到目标时间序列数据;
其中,yi表示原始时间序列数据的第i个数据点,gi表示趋势成分的第i个数据点,λ表示惩罚项参数,用于惩罚趋势成分中的变化性,gi+1表示趋势成分的第i+1个数据点,N为数据长度;
其中,根据所述目标时间序列数据的能量密度谱,确定能量占比按从大到小顺序排列的预设数量个频率成分,包括:
对所述目标时间序列数据进行傅立叶变换,将所述目标时间序列数据从时域转化到频域,得到频域数据;
计算所述频域数据的能量密度谱;
将所述能量密度谱中,按照能量占比按从大到小顺序排列,获得前预设数量个频率成分;
其中,频域能量密度谱的计算公式如下:
P(fk/N)=||X(fk/N)||2
其中,
fk/N表示频谱中k/N处的频率,k表示第k个数据点,N表示数据长度,X(fk/N)表示fk/N的频谱函数值,P(fk/N)表示频域能量密度谱;
其中,所述自相关函数计算公式如下:
其中,yt表示第t个数据点,表示数据点的均值,v表示滞后阶数,T表示数据点数量,rτ表示计算得到的自相关函数值。
5.一种计算设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如权利要求1至3任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,存储指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至3任一项所述的方法。
CN202211223813.8A 2022-10-09 2022-10-09 一种时间序列数据的周期检测方法、装置及设备 Active CN115310049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211223813.8A CN115310049B (zh) 2022-10-09 2022-10-09 一种时间序列数据的周期检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211223813.8A CN115310049B (zh) 2022-10-09 2022-10-09 一种时间序列数据的周期检测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN115310049A CN115310049A (zh) 2022-11-08
CN115310049B true CN115310049B (zh) 2023-10-27

Family

ID=83866093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211223813.8A Active CN115310049B (zh) 2022-10-09 2022-10-09 一种时间序列数据的周期检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115310049B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109450488A (zh) * 2018-10-30 2019-03-08 重庆邮电大学 窄带干扰下带脉冲成形扩频信号伪码周期盲估计
CN111339986A (zh) * 2020-03-06 2020-06-26 北京波尔通信技术股份有限公司 基于时域/频域分析的装备用频规律挖掘方法和系统
CN112989266A (zh) * 2019-12-02 2021-06-18 阿里巴巴集团控股有限公司 时间序列中的周期性检测和周期长度估计
CN113052053A (zh) * 2021-03-18 2021-06-29 中国人民解放军战略支援部队信息工程大学 一种坐标时间序列周期项的提取方法
US11061934B1 (en) * 2018-04-06 2021-07-13 Intuit Inc. Method and system for characterizing time series
CN113536042A (zh) * 2021-07-28 2021-10-22 云智慧(北京)科技有限公司 一种时间序列异常检测方法、装置及设备
CN114492670A (zh) * 2022-02-17 2022-05-13 平安科技(深圳)有限公司 基于多模态混杂的数据分析方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11061934B1 (en) * 2018-04-06 2021-07-13 Intuit Inc. Method and system for characterizing time series
CN109450488A (zh) * 2018-10-30 2019-03-08 重庆邮电大学 窄带干扰下带脉冲成形扩频信号伪码周期盲估计
CN112989266A (zh) * 2019-12-02 2021-06-18 阿里巴巴集团控股有限公司 时间序列中的周期性检测和周期长度估计
CN111339986A (zh) * 2020-03-06 2020-06-26 北京波尔通信技术股份有限公司 基于时域/频域分析的装备用频规律挖掘方法和系统
CN113052053A (zh) * 2021-03-18 2021-06-29 中国人民解放军战略支援部队信息工程大学 一种坐标时间序列周期项的提取方法
CN113536042A (zh) * 2021-07-28 2021-10-22 云智慧(北京)科技有限公司 一种时间序列异常检测方法、装置及设备
CN114492670A (zh) * 2022-02-17 2022-05-13 平安科技(深圳)有限公司 基于多模态混杂的数据分析方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于谱分析的非平稳时间序列中的潜周期研究;郑安迪等;《数学的实践与认识》;20160923(第18期);全文 *
谱密度、功率谱、能量谱的基本概念;应怀樵;《第二十三届全国振动与噪声控制学术会议论文集》;20101231;全文 *

Also Published As

Publication number Publication date
CN115310049A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
US20160140208A1 (en) Fast Grouping of Time Series
CN104807534B (zh) 基于在线振动数据的设备固有振动模式自学习识别方法
CN110362612A (zh) 由电子设备执行的异常数据检测方法、装置和电子设备
CN111307438A (zh) 一种基于信息熵的旋转机械振动故障诊断方法及其系统
CN114637263B (zh) 一种异常工况实时监测方法、装置、设备及存储介质
Jiang et al. A novel method for self-adaptive feature extraction using scaling crossover characteristics of signals and combining with LS-SVM for multi-fault diagnosis of gearbox
CN111597399A (zh) 基于数据融合的计算机数据处理系统及方法
CN113627539A (zh) 滚动轴承复合故障诊断方法、系统、存储介质及计算设备
CN115310049B (zh) 一种时间序列数据的周期检测方法、装置及设备
CN111626360B (zh) 用于检测锅炉故障类型的方法、装置、设备和存储介质
CN117290679A (zh) 电流互感器的运行状态检测方法、装置及电子设备
CN111339986A (zh) 基于时域/频域分析的装备用频规律挖掘方法和系统
CN110866840A (zh) 基于知识图谱的电力负荷特征量训练的数据库建模方法
CN109829132A (zh) 一种嵌入式环境下长数据序列快速谱分析方法
CN116359201A (zh) 一种药品鉴定方法、系统、存储介质和电子设备
CN113743519B (zh) 电网母线典型负荷曲线识别方法
CN112613521A (zh) 基于数据转换的多层次数据分析系统及方法
CN113884761B (zh) 一种提高测频精度的方法、装置、设备及介质
CN117273547B (zh) 基于边缘计算的生产设备运行数据处理方法
CN113609207B (zh) 一种边坡形变监测数据的数据预处理方法
CN105306098B (zh) 一种第二代小波核函数构造的方法及装置
CN117166996B (zh) 地质参数门槛值的确定方法、装置、设备及存储介质
CN117851760B (zh) 一种基于频带预处理的波浪智能预报模型优化方法及系统
Chen et al. Feature extraction and evaluation of electricity load data with high precision
Cui et al. Research on Fault Detection Technology of Air-to-Air Missile Based on Data Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant