CN112328464A - 指标数据存储、相关性分析方法及计算机可读存储介质 - Google Patents
指标数据存储、相关性分析方法及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112328464A CN112328464A CN202110005522.0A CN202110005522A CN112328464A CN 112328464 A CN112328464 A CN 112328464A CN 202110005522 A CN202110005522 A CN 202110005522A CN 112328464 A CN112328464 A CN 112328464A
- Authority
- CN
- China
- Prior art keywords
- index data
- index
- correlation coefficient
- time
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Abstract
本申请涉及一种指标数据存储、相关性分析方法及计算机可读存储介质,其中指标数据存储方法包括:按照固定窗口大小对指标数据流进行流式分块处理,得到沿时间轴的多个指标数据分块;对每个指标数据分块进行聚类,得到每个指标数据分块对应的聚类模型;根据每个指标数据分块对应的聚类模型,确定每个指标数据分块内每个指标数据对应的中心片段索引;以指标数据分块为单位,存储指标数据分块的分块起始时间、聚类模型,以及指标数据分块内每个指标数据对应的中心片段索引。该指标数据相关性分析方法,使用聚类后的指标数据分析指标数据相关性。通过本申请,降低了指标数据存储空间,提高了指标数据分析效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种指标数据存储、相关性分析方法及计算机可读存储介质。
背景技术
诸如应用性能管理(Application Performance Management,简称为APM)等网络管理技术中,采集应用程序、网络设备等的指标数据,指标数据是时间序列数据,其可包括延时、CPU利用率、丢包率等。
相关技术中,通过分析指标数据进行性能管理,例如检测系统异常、定位异常原因等。然而,对于海量指标数据,由于其包括含海量的指标数据,指标数据的存储和检索会大大降低时间性能,指标数据分析大大提高内存需求。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种指标数据存储、相关性分析方法及计算机可读存储介质。
第一方面,本申请提供了一种指标数据存储方法,包括:按照固定窗口大小和相对固定窗口起始时间对指标数据流进行流式分块处理,得到沿时间轴的多个指标数据分块,其中,指标数据流包括M个指标数据,每个指标数据分块包括M个指标数据在固定窗口大小内的指标值时间序列;对每个指标数据分块进行聚类,得到每个指标数据分块对应的聚类模型,其中,聚类模型包括K个中心片段,K小于M;根据每个指标数据分块对应的聚类模型,确定每个指标数据分块内每个指标数据对应的中心片段索引;以指标数据分块为单位,存储指标数据分块的分块起始时间、聚类模型,以及指标数据分块内每个指标数据对应的中心片段索引。
第二方面,本申请提供了一种指标数据相关性分析方法,包括:接收指标相关性分析请求,其中,指标相关性分析请求携带的信息包括:请求分析的指标数据和时间范围;在存储的指标索引数据中查询该时间范围对应的n个指标数据分块,其中,指标索引数据对应于M个指标数据,指标索引数据包括:指标数据分块的分块起始时间、聚类模型,以及指标数据分块内每个指标数据对应的中心片段索引,其中,指标数据分块具有固定窗口大小和相对固定窗口起始时间,聚类模型包括K个中心片段,K小于M;按照上述固定窗口大小和上述相对固定窗口起始时间,对上述时间范围内的请求分析的指标数据进行分段,得到请求分析的指标数据对应的n个分段;对于请求分析的指标数据的n个分段,确定每个分段与对应指标数据分块中每个指标数据对应的中心片段之间的相关性系数值,得到请求分析的指标数据与每个指标数据之间的n个相关性系数值;按照分位数法确定请求分析的指标数据与每个指标数据之间的相关性系数值。
在某些实施例中,在确定每个分段与对应指标数据分块中每个指标数据对应的中心片段之间的相关性系数值之前,还包括:对n个分段以及查询得到的n个指标数据分块中每个指标数据对应的中心片段进行移动平滑,其中,时刻t时,指标数据X取值为xt,基于前m-1时刻及当前时刻值,进行加权平均计算,得到经移动平滑处理后指标X在时刻t的值Fxt,其中,Fxt=(w1*xt + w2*xt-1 +…+ wm*xt-m-1 )/m,其中,w1至wm为移动平滑的权重,m为移动平滑的窗口大小。
在某些实施例中,确定每个分段与对应指标数据分块中每个指标数据对应的中心片段之间的相关性系数值,包括:对每个分段与对应指标数据分块中每个指标数据对应的中心片段,向左和向右分别滑动N次,每次滑动取两者重叠部分的数据,得到2N对序列其中N为预设的最大时间延迟;确定滑动前的相关性系数值和滑动后每对序列的相关性系数值,得到2N+1个相关性系数值;确定2N+1个相关性系数值中的最大值作为每个分段与对应指标数据分块中每个指标数据的相关性系数值。
在某些实施例中,上述相关性系数值为距离相关性系数值。
在某些实施例中,按照固定窗口大小和相对固定窗口起始时间,对时间范围内的请求分析的指标数据进行分段,得到请求分析的指标数据对应的n个分段,包括:按照固定窗口大小和相对固定窗口起始时间,对时间范围进行扩展,得到与时间范围对应的扩展后的时间范围;对扩展得到的时间范围内的请求分析的指标数据进行分段,得到请求分析的指标数据对应的n个分段。
在某些实施例中,按照分位数法确定请求分析的指标数据与每个指标数据之间的相关性系数值,包括:确定请求分析的指标数据与每个指标数据之间的n个相关性系数值中的95分位值,为请求分析的指标数据与每个指标数据之间的相关性系数值。
第三方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质上存储有指标数据存储程序,该指标数据存储程序被处理器执行时实现上述指标数据存储方法的步骤。
第四方面,本申请提供了一种计算机设备,该计算机设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;该计算机程序被处理器执行时实现上述的指标数据相关性分析方法的步骤。
第五方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质上存储有指标数据相关性分析程序,该指标数据相关性分析程序被处理器执行时实现指标数据相关性分析方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,对指标数据流进行流式分块处理,并通过聚类压缩,存储将聚类压缩后的指标数据,降低了指标数据的数据量,从而降低了指标数据的存储成本,并且降低了指标数据分析的计算量,提高指标分析的计算速度和效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的指标数据存储方法一种实施方式的流程图;
图2为本申请实施例中流式分块处理的示意图;
图3为本申请实施例中聚类处理的示意图;
图4为本申请实施例提供的指标数据相关性分析方法一种实施方式的流程图;
图5为本申请实施例提供的指标数据存储装置一种实施方式的结构框图;
图6为本申请实施例提供的指标数据相关性分析装置一种实施方式的结构框图;
图7为本申请实施例提供的指标数据处理装置一种实施方式的结构框图;
图8为本申请实施例提供的计算机设备一种实施方式的硬件结构示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
在本申请实施例中,指标数据包括对应用程序(APP)、浏览器(Browser)APP及网络设施(Infra)进行监测的指标数据,但不限于此。APP的指标数据包括不限于:响应时间、吞吐量、错误率、网络时间、客户端时间、DNS时间、TCP时间、SSL时间、首包时间等;Browser的指标数据包括不限于:响应时间、吞吐量、错误率、网络时间、客户端时间、DNS时间、TCP时间、SSL时间、首包时间等;Infra的指标数据包括不限于:CPU利用率、内存占用率、IO读写速率、数据库吞吐量、数据库响应时间、中间件吞吐量、中间件响应时间等。
应当理解,本申请实施例的指标数据并不限于上述示例性说明,其可包括对软件、硬件及其结合的设备、系统等进行监测的各项指标数据,包括性能指标、用户体验指标等。本申请实施例对此不作限定。
本申请实施例提供了一种指标数据存储方法,该方法对指标数据进行流式分块处理,并对分块处理所得的指标数据分块进行聚类压缩,从而降低指标数据的存储成本,提高指标数据分析的速度和效率。尤其是对于海量指标数据,极大地提高了指标数据存储和指标数据相关性分析的速度和效率。
图1为本申请实施例提供的指标数据存储方法一种实施方式的流程图,如图1所示,该方法包括步骤S102至步骤S108。
步骤S102,按照固定窗口大小和相对固定窗口起始时间对指标数据流进行流式分块处理,得到沿时间轴的多个指标数据分块。
其中,指标数据流包括M个指标数据,每个指标数据分块包括M个指标数据在固定窗口大小内的指标值时间序列。
步骤S104,对每个指标数据分块进行聚类,得到每个指标数据分块对应的聚类模型,其中,聚类模型包括K个中心片段,K小于M。
步骤S106,根据每个指标数据分块对应的聚类模型,确定每个指标数据分块内每个指标数据对应的中心片段索引。
步骤S108,以指标数据分块为单位,存储指标数据分块的分块起始时间、聚类模型,以及指标数据分块内每个指标数据对应的中心片段索引。
在本申请实施例中,持续不断地采集应用程序、浏览器、网络设施的多项指标数据,同一时刻可检测到多项指标数据的指标值,持续不断的采集形成由指标值构成的时间序列数据,即指标数据流,对指标数据流持续不断地进分块处理。在流式计算模型中,指标数据输入是持续的。同时,分块处理结果是持续输出的。在应用中可采用KafKa Streaming进行指标数据的流式处理,但本申请实施例并不限于此,其他的流式处理系统也是可行的,本申请实施例对此不做赘述。
在本申请实施例中,按照固定窗口大小(fixed_win_size)和相对固定窗口起始时间,对指标数据流进行流式分块处理。指标数据流包括M个指标数据,在本文中表示为V:[v1, v2, …, vi, …,vM],其中i取值为[1,M],指标数据流的大小为M,每一个指标vi为一个时间序列,M个指标数据构成一个指标数据集。
参考图2所示,指标数据流(例如,按照分钟粒度的指标数据流),经流式固定窗口处理,生成沿时间轴的固定长度大小的指标数据分块B,作为示例性说明,fixed_win_size为15,指标数据分块B(图2中示出了B1至B4)大小为M*15,即包含M个指标数据,每个指标数据的长度为15。参考图2所示,fixed_win_size为15,相对固定窗口起始时间为“XX:00”、“XX:15”、“XX:30”、“XX:45”,其中“XX”为时,“00”等为分,即在固定窗口大小下,窗口起始时间相对固定。
对生成的每一个指标数据分块B进行聚类,得到指标数据分块B对应的聚类模型,其中,该聚类模型包含K个中心片段(Centroids)。参考图3所示,指标数据分块B包括M个指标数据,每个指标数据包括15个指标值的时间序列,为一个M*15的矩阵,聚类得到的聚类模型包括K个中心片段,每个中心片段包括15个值,为一个K*15的矩阵。
对生成每一个指标数据分块B,根据其对应的聚类模型,对指标数据分块B内每一个指标数据进行矢量量化(Vector Quantization,简称为VQ),生成每个指标数据的中心片段索引,得到指标数据分块的指标索引集,其中每一个中心片段索引取值范围为[1,K]。
在本申请实施例中,聚类可包括但不限于K均值聚类(K-Means Clustering)。
本申请实施例提供了一种指标数据相关性分析方法,用于分析指标之间的相关性。
图4为本申请实施例提供的指标数据相关性分析方法一种实施方式的流程图,如图4所示,该方法包括步骤S402至步骤S410。
步骤S402,接收指标相关性分析请求,其中,指标相关性分析请求携带的信息包括:请求分析的指标数据和时间范围。
步骤S404,在存储的指标索引数据中查询该时间范围对应的n个指标数据分块。
其中,指标索引数据对应于M个指标数据,指标索引数据包括:指标数据分块的分块起始时间、聚类模型,以及指标数据分块内每个指标数据对应的中心片段索引,其中,指标数据分块具有固定窗口大小和相对固定窗口起始时间,聚类模型包括K个中心片段,K小于M。指标数据的存储参见本申请前述指标数据存储方法的说明,在此不做赘述。
步骤S406,按照上述固定窗口大小和上述相对固定窗口起始时间,对上述时间范围内的请求分析的指标数据进行分段,得到请求分析的指标数据对应的n个分段。
步骤S408,对于请求分析的指标数据的n个分段,确定每个分段与对应指标数据分块中每个指标数据对应的中心片段之间的相关性系数值,得到请求分析的指标数据与每个指标数据之间的n个相关性系数值。
步骤S410,按照分位数法确定请求分析的指标数据与每个指标数据之间的相关性系数值。
在本申请实施例中,请求分析的指标数据可为上述M个指标数据中的指标数据,也可为上述M个指标数据之外的其他指标数数据。
在某些实施例中,上述相关性系数值为距离相关性系数值,由此适用于线性关系和非线性关系的指标数据。
指标分析请求中的时间范围表示为[t1,t2],在上述步骤S406中,按照固定窗口大小和相对固定窗口起始时间,对时间范围进行扩展,得到与时间范围对应的时间范围,表示为[t3,t4]。对扩展得到的时间范围内的请求分析的指标数据进行分段,得到请求分析的指标数据对应的n个分段。例如,以固定窗口大小为15分钟为例,t=10:05,就近扩展更新为10:00;t=10:33,外扩更新为10:30;t=10:39,外扩更新为10:45。
在某些实施例中,上述步骤S410中,确定请求分析的指标数据与每个指标数据之间的n个相关性系数值中的95分位值,为请求分析的指标数据与每个指标数据之间的相关性系数值。
作为一个示例性说明,用户选定指标时序数据为Ts,时间范围为[t1,t2]。指标数据集V:[v1, v2, …, vi, …,vM],其中i取值为[1,M],fixed_win_size为15,聚类模型的中心片段为K个。指标数据相关性分析包括以下过程:
A、指标时序数据外扩:将Ts按照相对时间xx:00,xx:15,xx:30,xx:45进行就近扩展对齐,时间范围更新为[t1’, t2’]。例如,t=10:05,就近扩展更新为10:00,t=10:33,外扩更新为10:30, t=10:39,外扩更新为10:45。
B、指标时序数据分段:将Ts按照指标流式分块处理中的固定窗口大小fixed_win_size进行分段,假设分为n段,[Ts1,Ts2,…,Tsi, …,Tsn ],其中Tsi长度为fixed_win_size。
C、检索指标数据分块:检索时间范围为[t1’,t2’]内的n个指标索引数据,计算Ts各分段与相应的分块压缩后的聚类模型的中心片段的相关性系数值,生成一个分段相关系数矩阵M,其大小为:K*n。
D、某指标vi在n个经压缩后的指标索引中的索引值分别为[i0, i1, i2, ……,ij, in],其中j取值范围为[0, K-1],则指标vi的经压缩后的n个分段与指标Ts的n个分段依次进行相关性系数计算,结果为dcorrs :[M[i0,0], M[i1,1], ……,M[ij, j], M[in,n]]。
E指标相关性确定:指标数据vi与指标数据Ts的相关性系数为dcorrs的95分位值。
在某些实施例中,上述步骤S408确定每个分段与对应指标数据分块中每个指标数据对应的中心片段之间的相关性系数值之前,还包括:对n个分段以及查询得到的n指标数据分块中每个指标数据对应的中心片段进行移动平滑,其中,时刻t时,指标数据X取值为xt,基于前m-1时刻及当前时刻值,进行加权平均计算,得到经移动平滑处理后指标X在时刻t的值Fxt,其中,Fxt=(w1*xt + w2*xt-1 +…+ wm*xt-m-1 )/m,其中,w1至wm为移动平滑的权重,m为移动平滑的窗口大小。由此,消除指标值的随机波动或异常值,提高相关性分析的准确度。
在某些实施例中,上述步骤S408中进行交叉计算以确定相关性系数值,以消除时间延迟带来的计算结果不正确。交叉计算,包括:对每个分段(表示为Ai,其中,i的取值为1至n)与对应指标数据分块中每个指标数据(表示为Bi,其中,i的取值为1至n,即包含n个指标数据分块)对应的中心片段(表示为Bij,其中,i的取值为1至n,即有n个;j的取值为1至M,即有M个指标数据,Bij表示第i个指标数据分块中的第j个指标数据对应的中心片段),向左和向右分别滑动N次,每次滑动取两者重叠部分的数据,得到2N对序列,N为预设的最大时间延迟;确定滑动前的相关性系数值和滑动后每对序列的相关性系数值,得到2N+1个相关性系数值;确定2N+1个相关性系数值中的最大值作为每个分段与对应指标数据分块中每个指标数据的相关性系数值。在本申请实施例中,每个分段与一个指标的中心片段,进行滑动后得到2N个序列,计算得到2N+1个相关性系数值。可选地,上述相关性系数值为距离相关性系数值,由此适用于线性关系和非线性关系的指标数据。
作为一个示例性说明,预设最大时间延迟为N=2,计算2*N+1=5次相关性系数值,具体如下:时间延迟lag取值为:[-N, N];当lag=0时,直接计算指标X和指标Y的相关性系数值,获得一个相关性系数值。当lag<0时,指标X右移-lag个长度得到X’,指标Y截取掉最右侧-lag长度得到Y’,计算X’和Y’的相关性系数值,获得N个相关性系数值。当lag>0时,指标Y右移lag个长度Y’,指标X截取掉最右侧lag长度得到X’,计算X’和Y’的相关性系数值,获得N个距离相关性系数值最后,取计算所得的2*N+1个相关性系数值的最大值,作为指标X和指标Y的相关性系数值。可选地,上述相关性系数值为距离相关性系数值,由此适用于线性关系和非线性关系的指标数据。
在某些实施例中,首先进行移动平滑,再对移动平滑后的序列进行交叉计算,确定相关性系数值。
可选地,上述相关性系数值为距离相关性系数值,由此适用于线性关系和非线性关系的指标数据。距离相关系数克服了Pearson相关系数的弱点:Pearson相关系数只能表征2个变量间的线性相关性,当Pearson相关系数是0时,我们不能判断两个变量是独立的或不相关的,因为有可能两个变量是非线性相关的;当距离相关系数是0时,那么我们可以说两个变量时独立的或不相关的。下面对距离相关性系数值确定过程进行说明。
以GáborJ.Székely提出的距离相关系数公式为例,设2个量变u和v,记dcorr(u,v)为两变量的距离相关系数,当dcorr(u, v)=0时,说明u和v相互独立;当dcorr(u, v)越大,说明u和v的相关性越强。dcorr(u, v)取值范围为:[0, 1]。设{ (ui, vi), i=1, 2, …,n}是2个变量的样本序列,两变量u和v的距离相关系数计算公式如下:
在上述计算中,ui、uj的取值为分段中的指标值时间序列,或者中心片段中的取值序列;vi、vj为指标数据分块中每个指标数据对应的中心片段的取值序列(参考图2所示的Ci_1至Ci_15)。在进行移动平滑时,为移动平滑后的取值;在交叉计算时,为滑动后的取值。
本申请实施例还提供了一种指标数据存储装置,如图5所示,指标数据存储装置500包括:流式分块处理模块510,用于按照固定窗口大小和相对固定窗口起始时间对指标数据流进行流式分块处理,得到沿时间轴的多个指标数据分块,其中,指标数据流包括M个指标数据,每个指标数据分块包括M个指标数据在固定窗口大小内的指标值时间序列;聚类处理模块520,与流式分块处理模块510相连,用于对每个指标数据分块进行聚类,得到每个指标数据分块对应的聚类模型,其中,聚类模型包括K个中心片段,K小于M;索引建立模块530,与聚类处理模块520相连,用于根据每个指标数据分块对应的聚类模型,确定每个指标数据分块内每个指标数据对应的中心片段索引;存储模块540,与索引建立模块530相连,用于以指标数据分块为单位,存储指标数据分块的分块起始时间、聚类模型,以及指标数据分块内每个指标数据对应的中心片段索引。
在本本申请实施例中,流式分块处理模块510,用于按照固定窗口大小(fixed_win_size)和相对固定窗口起始时间,对指标数据流进行流式分块处理。指标数据流包括M个指标数据,在本文中表示为V:[v1, v2, …, vi, …,vM],其中i取值为[1,M],指标数据流的大小为M,每一个指标vi为一个时间序列,M个指标数据构成一个指标数据集。
参考图2所示,指标数据流(例如,按照分钟粒度的指标数据流),经流式固定窗口处理,生成沿时间轴的固定长度大小的指标数据分块B,作为示例性说明,fixed_win_size为15,指标数据分块B(图2中示出了B1至B4)大小为M*15,即包含M个指标数据,每个指标数据的长度为15。参考图2所示,fixed_win_size为15,相对固定窗口起始时间为“XX:00”、“XX:15”、“XX:30”、“XX:45”,其中“XX”为时,“00”等为分,即在固定窗口大小下,窗口起始时间相对固定。
聚类处理模块520,对生成的每一个指标数据分块B进行聚类,得到指标数据分块B对应的聚类模型,其中,该聚类模型包含K个中心片段(Centroids)。参考图3所示,指标数据分块B包括M个指标数据,每个指标数据包括15个指标值的时间序列,为一个M*15的矩阵,聚类得到的聚类模型包括K个中心片段,每个中心片段包括15个值,为一个K*15的矩阵。
索引建立模块530,对生成每一个指标数据分块B,根据其对应的聚类模型,对指标数据分块B内每一个指标数据进行矢量量化(Vector Quantization,简称为VQ),生成每个指标数据的中心片段索引,得到指标数据分块的指标索引集,其中每一个中心片段索引取值范围为[1,K]。
存储模块540,用于以指标数据分块为单位,存储指标数据分块的分块起始时间、聚类模型,以及指标数据分块内每个指标数据对应的中心片段索引。通过指标数据的中心片段索引,可以在聚类模型的K个中心片段中得到指标数据压缩后的指标值时间序列。
本申请实施例还提供了一种指标数相关性分析装置,如图6所示,指标数相关性分析装置600,包括:接收模块610、查询模块620、分段模块630、分段相关性确定模块640,以及指标相关性确定模块650。
接收模块610,用于接收指标相关性分析请求,其中,指标相关性分析请求携带的信息包括:请求分析的指标数据和时间范围。
查询模块620,与接收模块610相连,用于在存储的指标索引数据中查询该时间范围对应的n个指标数据分块。其中,指标索引数据对应于M个指标数据,指标索引数据包括:指标数据分块的分块起始时间、聚类模型,以及指标数据分块内每个指标数据对应的中心片段索引,其中,指标数据分块具有固定窗口大小和相对固定窗口起始时间,聚类模型包括K个中心片段,K小于M。
分段模块630,与接收模块610相连,用于按照上述固定窗口大小和上述相对固定窗口起始时间,对上述时间范围内的请求分析的指标数据进行分段,得到请求分析的指标数据对应的n个分段。
分段相关性确定模块640,与查询模块620和分段模块630相连,用于对于请求分析的指标数据的n个分段,确定每个分段与对应指标数据分块中每个指标数据对应的中心片段之间的相关性系数值,得到请求分析的指标数据与每个指标数据之间的n个相关性系数值。
指标相关性确定模块650,与分段相关性确定模块640相连,用于按照分位数法确定请求分析的指标数据与每个指标数据之间的相关性系数值。在某些实施例中,指标相关性确定模块650,确定请求分析的指标数据与每个指标数据之间的n个相关性系数值中的95分位值,为请求分析的指标数据与每个指标数据之间的相关性系数值。
本申请实施例,还提供了一种指标数据处理系统,如图7所示,指标数据处理系统包括:指标数据采集装置400、指标数据存储装置500、指标数据相关性分析装置600,以及数据库700。
指标数据采集装置400通过探针等方式实时采集多项指标数据,形成指标数据流,指标数据的采集参见本领域公知技术,本申请实施例对此不做赘述。
指标数据存储装置500接收指标数据采集装置400传输的指标数据流,对指标数据进行存储,产生指标索引数据存储于数据库700中。指标数据存储方法参见本文前述说明,在此不再赘述。
指标数据相关性分析装置600,分析指标数据之间的相关性。指标数据相关性分析参见本文前述说明,在此不再赘述。
本实施例还提供一种计算设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图8所示,本实施例的计算设备80至少包括但不限于:可通过系统总线相互通信连接的存储器81和处理器82。需要指出的是,图8仅示出了具有组件81-82的计算设备80,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器81(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器81可以是计算机设备80的内部存储单元,例如该计算设备80的硬盘或内存。在另一些实施例中,存储器81也可以是计算设备80的外部存储设备,例如该计算机设备80上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,存储器81还可以既包括计算设备80的内部存储单元也包括其外部存储设备。本实施例中,存储器81通常用于存储安装于计算设备80的操作系统和各类应用软件,例如本申请实施例的指标数据存储方法、装置,以及指标数据相关分析方法、装置的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器82在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制计算设备80的总体操作。本实施例中,处理器82用于运行存储器81中存储的程序代码或者处理数据,例如指标数据存储方法、装置,或指标数据相关分析方法、装置的程序代码,以实现指标数据存储方法,以及指标数据相关分析方法。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于指标数据存储方法,以及指标数据相关分析方法的程序代码,被处理器执行时实现指标数据存储方法,或指标数据相关分析方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种指标数据存储方法,其特征在于,包括:
按照固定窗口大小和相对固定窗口起始时间对指标数据流进行流式分块处理,得到沿时间轴的多个指标数据分块,其中,所述指标数据流包括M个指标数据,每个指标数据分块包括所述M个指标数据在所述固定窗口大小内的指标值时间序列;
对每个指标数据分块进行聚类,得到每个指标数据分块对应的聚类模型,其中,所述聚类模型包括K个中心片段,K小于M;
根据每个指标数据分块对应的聚类模型,确定每个指标数据分块内每个指标数据对应的中心片段索引;
以指标数据分块为单位,存储指标数据分块的分块起始时间、聚类模型,以及指标数据分块内每个指标数据对应的中心片段索引。
2.一种指标数据相关性分析方法,其特征在于,包括:
接收指标相关性分析请求,其中,所述指标相关性分析请求携带的信息包括:请求分析的指标数据和时间范围;
在存储的指标索引数据中查询所述时间范围对应的n个指标数据分块,其中,所述指标索引数据对应于M个指标数据,所述指标索引数据包括:指标数据分块的分块起始时间、聚类模型,以及指标数据分块内每个指标数据对应的中心片段索引,其中,所述指标数据分块具有固定窗口大小和相对固定窗口起始时间,所述聚类模型包括K个中心片段,K小于M;
按照所述固定窗口大小和所述相对固定窗口起始时间,对所述时间范围内的所述请求分析的指标数据进行分段,得到所述请求分析的指标数据对应的n个分段;
对于所述请求分析的指标数据的n个分段,确定每个分段与对应指标数据分块中每个指标数据对应的中心片段之间的相关性系数值,得到所述请求分析的指标数据与每个指标数据之间的n个相关性系数值;
按照分位数法确定所述请求分析的指标数据与每个指标数据之间的相关性系数值。
3.根据权利要求2所述的指标数据相关性分析方法,其特征在于,在确定每个分段与对应指标数据分块中每个指标数据对应的中心片段之间的相关性系数值之前,还包括:
对所述n个分段以及查询得到的n个指标数据分块中每个指标数据对应的中心片段进行移动平滑,其中,时刻t时,指标数据X取值为xt,基于前m-1时刻及当前时刻值,进行加权平均计算,得到经移动平滑处理后指标X在时刻t的值Fxt,其中,
Fxt=(w1*xt + w2*xt-1 +…+ wm*xt-m-1 )/m,其中,w1至wm为移动平滑的权重,m为移动平滑的窗口大小。
4.根据权利要求2或3所述的指标数据相关性分析方法,其特征在于,确定每个分段与对应指标数据分块中每个指标数据对应的中心片段之间的相关性系数值,包括:
对每个分段与对应指标数据分块中每个指标数据对应的中心片段,向左和向右分别滑动N次,每次滑动取两者重叠部分的数据,得到2N对序列,其中N为预设的最大时间延迟;
确定滑动前的相关性系数值和滑动后每对序列的相关性系数值,得到2N+1个相关性系数值;
确定所述2N+1个相关性系数值中的最大值作为每个分段与对应指标数据分块中每个指标数据的相关性系数值。
5.根据权利要求2所述的指标数据相关性分析方法,其特征在于,所述相关性系数值为距离相关性系数值。
6.根据权利要求2所述的指标数据相关性分析方法,其特征在于,按照所述固定窗口大小和所述相对固定窗口起始时间,对所述时间范围内的所述请求分析的指标数据进行分段,得到所述请求分析的指标数据对应的n个分段,包括:
按照所述固定窗口大小和所述相对固定窗口起始时间,对所述时间范围进行扩展,得到与所述时间范围对应的扩展后的时间范围;
对扩展得到的时间范围内的所述请求分析的指标数据进行分段,得到所述请求分析的指标数据对应的n个分段。
7.根据权利要求2所述的指标数据相关性分析方法,其特征在于,按照分位数法确定所述请求分析的指标数据与每个指标数据之间的相关性系数值,包括:
确定所述请求分析的指标数据与每个指标数据之间的n个相关性系数值中的95分位值,为所述请求分析的指标数据与每个指标数据之间的相关性系数值。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指标数据存储程序,所述指标数据存储程序被处理器执行时实现如权利要求1所述的指标数据存储方法的步骤。
9.一种计算机设备,其特征在于,所述计算机设备包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;
所述计算机程序被所述处理器执行时实现如权利要求2至7中任一项所述的指标数据相关性分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指标数据相关性分析程序,所述指标数据相关性分析程序被处理器执行时实现如权利要求2至7中任一项所述的指标数据相关性分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110005522.0A CN112328464B (zh) | 2021-01-05 | 2021-01-05 | 指标数据存储、相关性分析方法及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110005522.0A CN112328464B (zh) | 2021-01-05 | 2021-01-05 | 指标数据存储、相关性分析方法及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112328464A true CN112328464A (zh) | 2021-02-05 |
CN112328464B CN112328464B (zh) | 2021-03-26 |
Family
ID=74302073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110005522.0A Active CN112328464B (zh) | 2021-01-05 | 2021-01-05 | 指标数据存储、相关性分析方法及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328464B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704334A (zh) * | 2021-08-23 | 2021-11-26 | 富途网络科技(深圳)有限公司 | 标的数据的显示方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7346734B2 (en) * | 2005-05-25 | 2008-03-18 | Microsoft Corporation | Cluster storage collection based data management |
CN102013040A (zh) * | 2009-09-07 | 2011-04-13 | 索尼公司 | 信息处理设备、信息处理方法以及程序 |
CN104199821A (zh) * | 2014-07-08 | 2014-12-10 | 浙江大学城市学院 | 一种基于概要结构的流数据立方体构建方法 |
CN108763956A (zh) * | 2018-05-24 | 2018-11-06 | 辽宁工业大学 | 一种基于分形维数的流式数据差分隐私保护发布方法 |
CN108964023A (zh) * | 2018-06-29 | 2018-12-07 | 国网上海市电力公司 | 一种用于电网的母线电压态势短期预测方法及系统 |
-
2021
- 2021-01-05 CN CN202110005522.0A patent/CN112328464B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7346734B2 (en) * | 2005-05-25 | 2008-03-18 | Microsoft Corporation | Cluster storage collection based data management |
CN102013040A (zh) * | 2009-09-07 | 2011-04-13 | 索尼公司 | 信息处理设备、信息处理方法以及程序 |
CN104199821A (zh) * | 2014-07-08 | 2014-12-10 | 浙江大学城市学院 | 一种基于概要结构的流数据立方体构建方法 |
CN108763956A (zh) * | 2018-05-24 | 2018-11-06 | 辽宁工业大学 | 一种基于分形维数的流式数据差分隐私保护发布方法 |
CN108964023A (zh) * | 2018-06-29 | 2018-12-07 | 国网上海市电力公司 | 一种用于电网的母线电压态势短期预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
葛君伟 等: "一种存储和索引历史数据流数据的方法", 《计算机应用研究》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704334A (zh) * | 2021-08-23 | 2021-11-26 | 富途网络科技(深圳)有限公司 | 标的数据的显示方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112328464B (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11526799B2 (en) | Identification and application of hyperparameters for machine learning | |
KR102511271B1 (ko) | 시계열 데이터 저장 및 쿼리 방법 및 장치, 및 그 서버 및 저장 매체 | |
CN105718502B (zh) | 用于高效特征匹配的方法和设备 | |
US20110231399A1 (en) | Clustering Method and System | |
CN106294219B (zh) | 一种设备识别、数据处理方法、装置及系统 | |
CN112116436B (zh) | 一种智能推荐方法、装置、计算机设备及可读存储介质 | |
Yang et al. | A scalable data chunk similarity based compression approach for efficient big sensing data processing on cloud | |
CN112613938B (zh) | 模型训练方法、装置及计算机设备 | |
CN110163061B (zh) | 用于提取视频指纹的方法、装置、设备和计算机可读介质 | |
CN110569179A (zh) | 数据采集系统及数据采集方法 | |
CN112328464B (zh) | 指标数据存储、相关性分析方法及计算机可读存储介质 | |
CN112800197A (zh) | 一种目标故障信息的确定方法和装置 | |
CN113315851A (zh) | 域名检测方法、装置及存储介质 | |
CN113132267B (zh) | 一种分布式系统、数据聚合方法和计算机可读存储介质 | |
CN114780710A (zh) | 文本匹配方法和装置、存储介质及电子设备 | |
CN112560939B (zh) | 模型验证方法、装置及计算机设备 | |
CN104580109A (zh) | 生成点选验证码的方法及装置 | |
WO2017065795A1 (en) | Incremental update of a neighbor graph via an orthogonal transform based indexing | |
CN115357609B (zh) | 物联网数据的处理方法、装置、设备和介质 | |
CN108229585B (zh) | 一种日志的归类方法及系统 | |
CN109213972B (zh) | 确定文档相似度的方法、装置、设备和计算机存储介质 | |
CN115269998A (zh) | 信息推荐方法、装置、电子设备及存储介质 | |
US10803053B2 (en) | Automatic selection of neighbor lists to be incrementally updated | |
CN115186164A (zh) | 搜索请求控制方法及其装置、设备、介质、产品 | |
CN114154006A (zh) | 一种图像搜索方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |