CN115935208B - 一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质 - Google Patents

一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质 Download PDF

Info

Publication number
CN115935208B
CN115935208B CN202211586511.7A CN202211586511A CN115935208B CN 115935208 B CN115935208 B CN 115935208B CN 202211586511 A CN202211586511 A CN 202211586511A CN 115935208 B CN115935208 B CN 115935208B
Authority
CN
China
Prior art keywords
data
segmentation
time window
time
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211586511.7A
Other languages
English (en)
Other versions
CN115935208A (zh
Inventor
董亮
郭岳
柯旺松
李想
黄超
李德识
庄严
胡耀东
梁源
朱兆宇
周正
廖荣涛
贺亮
冯伟东
王婕
刘芬
王逸兮
罗弦
李磊
胡欢君
魏晓燕
宁昊
代荡荡
孟浩华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Original Assignee
Wuhan University WHU
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU, Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd filed Critical Wuhan University WHU
Priority to CN202211586511.7A priority Critical patent/CN115935208B/zh
Publication of CN115935208A publication Critical patent/CN115935208A/zh
Application granted granted Critical
Publication of CN115935208B publication Critical patent/CN115935208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质,方法包括设定初始时间窗口长度为W,将数据中心设备运行所产生的多元时间序列数据读入到窗口内;输入分割点数和每个分割点的位置;对处于窗口中的多元时间序列数据建立似然函数模型;使用模拟退火算法迭代求解当前最优分割点的位置使得似然函数最大;计算相邻两段数据的差距;保留最后一段数据,取出前面所有的已分好段的数据即为的分割结果,动态调整时间窗的长度和位置,继续向时间窗内读入数据进行后续数据的在线分割。本申请使得多元时间序列数据分割的实时性和准确性得到了提升,利用其分割结果,有助于设备运行状态变化规律的挖掘。

Description

一种数据中心设备多元时间序列运行数据在线分割方法、设 备及介质
技术领域
本申请涉及数据中心设备数据挖掘领域,具体涉及一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质。
背景技术
随着大数据时代的到来,越来越多的领域受到了更为全面的监测与分析,数据中心内存在着大量的网络和计算设备,服务器是其中最基础和最典型的设备,由于其处理的业务量极其庞大,因此也是数据中心数量最多的设备,对服务器的运行数据进行监控和挖掘又有助于分析服务器的健康状态以及变化情况,从而保障数据中心业务的稳定运行。
通常情况下,服务器处于不间断的工作状态,由此会产生大量的时间序列运行数据,传统的通过人工设定阈值的方式监测服务器的运行状态效率较低且忽略了数据中的潜在规律,是对数据资源的一种浪费。考虑到设备的运行状态可能会随着时间的变化而发生变化,因此根据时间序列数据将其分为不同的时段,一方面有利于对同一时段内的单个一研究对象和整体研究对象进行分析以及不同时段内的所研究的对象的区别的分析,另一方面有利于挖掘其背后的潜在模式从而分析设备运行状态的变化规律。然而,随着数据中心的规模越来越大,其设备运行时所产生的时间序列数据的维数也越来越高,且通常是实时产生的,因此对多元时间序列进行高效的在线分割对于进一步挖掘时间序列的信息具有重要的意义。
发明内容
本申请实施例的目的在于提供一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质,结合最大似然函数和自适应滑动窗口的优点,使得多元时间序列数据分割的实时性和准确性得到了提升,利用其分割结果,有助于设备运行状态变化规律的挖掘。
为实现上述目的,本申请提供如下技术方案:
第一方面,本申请实施例提供一种数据中心设备多元时间序列运行数据在线分割方法,包括如下步骤:
步骤1:设定初始时间窗口长度为W,设定初始化分割点数为K,随机初始化分割点的位置,分割点集为{b1,b2,…,bK},将数据中心设备运行所产生的多元时间序列数据读入到窗口内;
其中,数据中心的设备运行数据包括不同服务器运行时的CPU利用率;
步骤2:输入分割点数和每个分割点的位置;
步骤3:对处于窗口中的多元时间序列数据建立似然函数模型,将每一时间段内数据的经验均值和经验协方差代入似然函数模型,使得似然函数只与分割点的位置有关;
步骤4:使用模拟退火算法迭代求解当前最优分割点的位置使得似然函数最大;
步骤5:计算相邻两段数据的差距,若满足合并条件,则将两段数据合并,并根据现存分段数计算分割点数,若计算当前分割点数大于0,则设定分割点数为当前分割点数;若计算当前分割点数为0,则先将时间窗口长度扩大1倍并继续读入数据,然后重新设定分割点数为初始分割点数K;设定好分割点数后重复运行步骤2至步骤5;若两个差值不满足均小于设定阈值的条件,则继续往下运行;
步骤6:保留最后一段数据,取出前面所有的已分好段的数据即为的分割结果,动态调整时间窗的长度和位置,继续向时间窗内读入数据进行后续数据的在线分割。
所述步骤2中分割点的位置应该满足:
Ws=b0<b1<b2<b3<…<bK<bK+1=We
其中,Ws为时间窗的起始位置,We为时间窗的结束位置,b1至bK为分割点的位置。
所述步骤5中相邻两段数据的差距为均值的差值和协方差的差值,合并条件为两个差值均小于预先设定的阈值:
i=1,2,...,K
其中||μ(i)(i+1)||2为相邻两段数据的均值向量差值的二范数,||∑(i)-∑(i+1)||F为相邻两段数据的协方差矩阵差值的F范数,通过所述两项指标与设定阈值的比较衡量相邻两段数据的相似程度。
所述步骤6中动态调整时间窗的长度和位置为在保留最后一段数据,取出前面所有的已分好段的数据后,将时间窗口长度设定为全局已有最长时间分段长度的2倍,并将时间窗口整体平移至其起始位置与最后一段数据的起始点对齐。
第二方面,本申请实施例提供一种电子设备,所述电子设备包括处理器、存储器以及通信电路,所述处理器分别耦接所述存储器、所述通信电路,所述存储器中存储有程序数据,所述处理器通过执行所述存储器内的所述程序数据以实现如上所述数据中心设备多元时间序列运行数据在线分割方法中的步骤。
第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序代码,所述程序代码被处理器执行时,实现如上所述的数据中心设备多元时间序列运行数据在线分割方法的步骤。
与现有技术相比,本发明的有益效果是:
通过计算相邻两段数据之间的差距可以使得差距较小的两段数据进行合并,然后通过启发式算法重新寻找最优分割点的位置,通过多次相似数据段合并和最优分割点寻找得到最优分割点的数量和位置,提升分割的准确性;
通过最优分割结果和全局最大分段长度,动态设定下一次读取数据的时间窗口的长度和位置,使得时间窗口内的数据在保证可分割的条件下尽量具有较短的长度,提升分割的速度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明方法的流程图;
图2是本发明方法的动态调整时间窗的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
如图1和图2所示,本申请实施例提供的一种数据中心设备多元时间序列运行数据在线分割方法,包括以下具体步骤:
步骤1:初始化时间窗口的长度为W,初始化分割点数为K,随机初始化分割点的位置,分割点集为{b1,b2,…,bK},将数据中心的服务器运行产生的多元时间序列数据读入到时间窗口内,多元时间序列数据表示为{x1,x2,…,xt,…,xW},其中xt表示t时刻数据中心的服务器设备运行时产生的多元运行数据其中/>表示t时刻数据中心某台服务器运行时的CPU利用率;
步骤2:输入分割点数和分割点的位置;
步骤3:对处于窗口中的多元时间序列数据建立似然函数模型:
为简化计算,将上式变为对数形式:
其中μt和Σt为t时刻的多元数据所服从的均值向量和协方差矩阵;
t|表示协方差矩阵的行列式;
根据分割点集对多元时间序列数据进行划分,可将数据划分为K+1段,则第i段数据的经验均值和经验协方差为:
(i)(i)),i=1,2,...,K+1
其中,μ(i)和Σ(i)可分别由第i段时间内的数据计算得到:
Ws=b0<b1<b2<b3<…<bK<bK+1=We
其中b0和bK+1分别对应时间窗口的起始位置Ws和结束位置We,b1至bK为分割点的位置;
将每一段数据的均值和协方差带入似然函数中,则对数似然函数模型可转化为与分割点相关的函数:
化简为:
其中:
i=1,2,...,K+1
步骤4:使用模拟退火算法迭代求解当前最优分割点的位置使得似然函数最大;
优化目标为:
步骤5:计算相邻两段数据的差距,若满足合并条件,则将两段数据合并,并根据现存分段数计算分割点数,若计算当前分割点数大于0,则设定分割点数为当前分割点数;若计算当前分割点数为0,则先将时间窗口长度扩大1倍并继续读入数据,然后重新设定分割点数为初始分割点数K;设定好分割点数后重复运行步骤2至步骤5;若两个差值不满足均小于设定阈值的条件,则继续往下运行;
其中合并条件为:
i=1,2,...,K
其中||μ(i)(i+1)||2为相邻两段数据的均值向量差值的二范数,||Σ(i)(i+1)||F为相邻两段数据的协方差矩阵差值的F范数,通过所述两项指标与设定阈值的比较衡量相邻两段数据的相似程度,μthre和Σthre为人工设定的阈值,可根据经验调整;
步骤6:保留最终分割结果的最后一段数据,取出前面所有的已分好段的数据后,将时间窗口长度设定为全局已有最长时间分段长度的2倍,并将时间窗口整体平移至其起始位置与最后一段数据的起始点对齐,继续向时间窗内读入数据进行后续数据的在线分割。
设最终时间窗内的数据分割结果为M+1段,分割点数为M,则从时间窗内提取出的数据为前M段,此时动态调整时间窗的位置和长度:
Ws=bM
j=1,2,...,M
其中length(segment(j))表示第j段数据的长度。
相较于现有技术,本发明提出一种数据中心设备多元时间序列运行数据在线分割方法。通过计算相邻两段数据之间的差距可以使得差距较小的两段数据进行合并,然后通过启发式算法重新寻找最优分割点的位置,通过多次相似数据段合并和最优分割点寻找得到最优分割点的数量和位置,提升分割的准确性;通过最优分割结果和全局最大分段长度,动态设定下一次读取数据的时间窗口的长度和位置,使得时间窗口内的数据在保证可分割的条件下尽量具有较短的长度,提升分割的速度。
本申请实施例提供一种电子设备,所述电子设备包括处理器、存储器以及通信电路,所述处理器分别耦接所述存储器、所述通信电路,所述存储器中存储有程序数据,所述处理器通过执行所述存储器内的所述程序数据以实现如上所述数据中心设备多元时间序列运行数据在线分割方法中的步骤。
本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序代码,所述程序代码被处理器执行时,实现如上所述的数据中心设备多元时间序列运行数据在线分割方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (4)

1.一种数据中心设备多元时间序列运行数据在线分割方法,其特征在于,包括如下步骤:
步骤1:设定初始时间窗口长度为W,设定初始化分割点数为K,随机初始化分割点的位置,分割点集为{b1,b2,…,bK},将数据中心设备运行所产生的多元时间序列数据读入到窗口内;
其中,数据中心的设备运行数据包括不同服务器运行时的CPU利用率;
步骤2:输入分割点数和每个分割点的位置;
步骤3:对处于窗口中的多元时间序列数据建立似然函数模型,将每一时间段内数据的经验均值和经验协方差代入似然函数模型,使得似然函数只与分割点的位置有关;
步骤4:使用模拟退火算法迭代求解当前最优分割点的位置使得似然函数最大;
步骤5:计算相邻两段数据的差距,若满足合并条件,则将两段数据合并,并根据现存分段数计算分割点数,若计算当前分割点数大于0,则设定分割点数为当前分割点数;若计算当前分割点数为0,则先将时间窗口长度扩大1倍并继续读入数据,然后重新设定分割点数为初始分割点数K;设定好分割点数后重复运行步骤2至步骤5;若两个差值不满足均小于设定阈值的条件,则继续往下运行;
步骤6:保留最后一段数据,取出前面所有的已分好段的数据即为的分割结果,动态调整时间窗的长度和位置,继续向时间窗内读入数据进行后续数据的在线分割;
所述步骤5中相邻两段数据的差距为均值的差值和协方差的差值,合并条件为两个差值均小于预先设定的阈值:
其中||μ(i)(i+1)||2为相邻两段数据的均值向量差值的二范数,||Σ(i)(i+1)F为相邻两段数据的协方差矩阵差值的F范数,通过两项指标与设定阈值的比较衡量相邻两段数据的相似程度;
所述步骤6中动态调整时间窗的长度和位置为在保留最后一段数据,取出前面所有的已分好段的数据后,将时间窗口长度设定为全局已有最长时间分段长度的2倍,并将时间窗口整体平移至其起始位置与最后一段数据的起始点对齐。
2.根据权利要求1所述的一种数据中心设备多元时间序列运行数据在线分割方法,其特征在于,所述步骤2中分割点的位置应该满足:
Ws=b0<b1<b2<b3<…<bK<bK+1=We
其中,Ws为时间窗的起始位置,We为时间窗的结束位置,b1至bK为分割点的位置。
3.一种电子设备,其特征在于,所述电子设备包括处理器、存储器以及通信电路,所述处理器分别耦接所述存储器、所述通信电路,所述存储器中存储有程序数据,所述处理器通过执行所述存储器内的所述程序数据以实现如权利要求1-2任一项所述数据中心设备多元时间序列运行数据在线分割方法中的步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序代码,所述程序代码被处理器执行时,实现如权利要求1-2任一所述的数据中心设备多元时间序列运行数据在线分割方法的步骤。
CN202211586511.7A 2022-12-09 2022-12-09 一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质 Active CN115935208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211586511.7A CN115935208B (zh) 2022-12-09 2022-12-09 一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211586511.7A CN115935208B (zh) 2022-12-09 2022-12-09 一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质

Publications (2)

Publication Number Publication Date
CN115935208A CN115935208A (zh) 2023-04-07
CN115935208B true CN115935208B (zh) 2024-02-02

Family

ID=86650454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211586511.7A Active CN115935208B (zh) 2022-12-09 2022-12-09 一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质

Country Status (1)

Country Link
CN (1) CN115935208B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361678B (zh) * 2023-05-26 2023-08-25 西南石油大学 基于图增强结构的准周期时间序列分割方法及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928918A (zh) * 2019-11-13 2020-03-27 深圳大学 时间序列数据组成模式的提取方法、装置及终端设备
CN112214533A (zh) * 2020-10-20 2021-01-12 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 时序数据聚合方法及装置
CN114372689A (zh) * 2021-12-29 2022-04-19 同济大学 一种基于动态规划的路网运行特征变点识别方法
CN115438727A (zh) * 2022-08-29 2022-12-06 北京思维实创科技有限公司 基于改进象群算法的时间序列高斯分割方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965825B2 (en) * 2012-11-13 2015-02-24 International Business Machines Corporation Mode determination for multivariate time series data
US20160282821A1 (en) * 2015-03-25 2016-09-29 Nec Laboratories America, Inc. Management of complex physical systems using time series segmentation to determine behavior switching

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928918A (zh) * 2019-11-13 2020-03-27 深圳大学 时间序列数据组成模式的提取方法、装置及终端设备
CN112214533A (zh) * 2020-10-20 2021-01-12 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 时序数据聚合方法及装置
CN114372689A (zh) * 2021-12-29 2022-04-19 同济大学 一种基于动态规划的路网运行特征变点识别方法
CN115438727A (zh) * 2022-08-29 2022-12-06 北京思维实创科技有限公司 基于改进象群算法的时间序列高斯分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Greedy Gaussian Segmentation of Multivariate Time Series;David Hallac etc.;《arXiv:1610.07435v6》;第2-3、5节 *
在线分割时间序列数据;李爱国, 覃征;软件学报(11);全文 *

Also Published As

Publication number Publication date
CN115935208A (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN107292186B (zh) 一种基于随机森林的模型训练方法和装置
US11915104B2 (en) Normalizing text attributes for machine learning models
US20160378809A1 (en) Massive time series correlation similarity computation
US8051021B2 (en) System and method for resource adaptive classification of data streams
US20200059689A1 (en) Query processing in data analysis
US11144506B2 (en) Compression of log data using field types
CN113435602A (zh) 确定机器学习样本的特征重要性的方法及系统
US11853877B2 (en) Training transfer-focused models for deep learning
Prudius et al. Analysis of machine learning methods to improve efficiency of big data processing in Industry 4.0
CN111309614A (zh) A/b测试方法、装置及电子设备
CN111143578B (zh) 基于神经网络抽取事件关系的方法、装置和处理器
US11340924B2 (en) Machine-learning based heap memory tuning
CN107392311B (zh) 序列切分的方法和装置
CN115935208B (zh) 一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质
US20200134029A1 (en) Compression of Log Data Using Pattern Recognition
CN108629358B (zh) 对象类别的预测方法及装置
Gowtham Sethupathi et al. Efficient rainfall prediction and analysis using machine learning techniques
Yi-bin et al. Improvement of ID3 algorithm based on simplified information entropy and coordination degree
CN114037059A (zh) 预训练模型、模型的生成方法、数据处理方法及装置
US20160189026A1 (en) Running Time Prediction Algorithm for WAND Queries
CN113839799A (zh) 一种告警关联规则挖掘方法及装置
CN115081630A (zh) 多任务模型的训练方法、信息推荐方法、装置和设备
US11709798B2 (en) Hash suppression
CN111368864A (zh) 识别方法、可用性评估方法及装置、电子设备、存储介质
Arputhamary et al. Performance Improved Holt-Winter's (PIHW) Prediction Algorithm for Big Data Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant