CN111767324B

CN111767324B - 一种智能关联的自适应数据分析方法及装置

Info

Publication number: CN111767324B
Application number: CN202010914904.0A
Authority: CN
Inventors: 李国良; 柴成亮; 王正国; 张宏达; 金连源; 李飞飞; 叶翔; 肖涛; 石赟超; 张维; 朱斌; 胡瑛俊
Original assignee: Tsinghua University; State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Tsinghua University; State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-11-17
Anticipated expiration: 2040-09-03
Also published as: CN111767324A

Abstract

本申请实施例提出了一种智能关联的自适应数据分析方法及装置，包括处理初始高维时间序列得到时序数据，构建每条时序数据相对于与其他时序数据的关联性向量，基于关联性向量构造时间序列关系图模型；对于每一条时序数据关联性向量进行动态异常监测，基于监测结果对关联性向量进行更新；根据关联性向量的更新结果判断是否需要更新关系图模型，如果需要则执行更新关系图模型的操作；基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求，给出查询结果。根据全局向量和局部向量残差来调整更新速度的策略能对短暂的时序数据异常有较强的抵抗能力，也能对时序数据潜在分布变化有较好的适应力，很好的满足了需求。

Description

一种智能关联的自适应数据分析方法及装置

技术领域

本申请属于数据挖掘领域，尤其涉及一种智能关联的自适应数据分析方法及装置。

背景技术

随着计算机技术的不断发展，计算机系统朝着不断复杂化的方向发展，伴随着云计算、大数据行业的蓬勃生长，越来越多的企业选择通过购买计算、存储服务的方式完成对于业务的部署。这种现象也导致了服务提供商对系统稳定性的较高要求，一般来说复杂系统在运行过程中往往会出现大量的监控数据，这些数据往往是反映系统运行状态的时间序列数据，以MySQL为例，单机的MySQL数据库在全局维护着300个以上的监控数据，而对于基于MySQL搭建的InnoDB Cluster维护的监控数据，从以往的经验来说，一些计算机、互联网行业的大企业往往会聘请有丰富经验的运维人员手动的对复杂系统进行维护，但是这种经验的可行性正变得越来越低。一方面，随着系统的复杂性不断的增大，人工的完成对系统的维护显得越来越困难。另一方面，雇佣有经验的运维人员需要高昂的成本，这是许多公司无法负担的。在这种环境下智能运维这个概念开始走进人们的视野，智能运维，指的是使用大数据、机器学习技术来支持 IT 运维，机器学习可以处理海量的监控数据并且提供强大的推断能力。目前已经有许多公司和研究机构使用智能运维技术取得了非常显著的进展，包括磁盘故障的预测，微服务故障的定位等等。

如何对于这些时间序列进行有效的关联分析是一个具有挑战性的问题，以往已经有许多关于时间序列聚类、关联分析的方法，但是这些方法往往不适用于实时处理数据的环境，一方面实时数据的处理需要时效性，之前的方法复杂度和存储空间开销往往过高，无法实时地完成时间序列之前关联分析的任务。另一方面，对于长时间时序数据的关联分析，既要考虑局部时序数据的关联性，同时也要考虑到在一个较长的时间段里时序数据的关联性，这是传统静态场景的算法无法做到的。

发明内容

为了解决现有技术中存在的缺点和不足，本申请公开了一种智能关联的自适应数据分析方法，根据全局向量和局部向量残差来调整更新速度的策略能对短暂的时序数据异常有较强的抵抗能力，也能对时序数据潜在分布变化有较好的适应力，很好的满足了需求。

一方面，本实施例提出的一种智能关联的自适应数据分析方法，所述方法包括：

处理初始高维时间序列得到时序数据，构建每条时序数据相对于与其他时序数据的关联性向量，基于关联性向量构造时间序列关系图模型；

对于每一条时序数据关联性向量进行动态异常监测，基于监测结果对关联性向量进行更新；

根据关联性向量的更新结果判断是否需要更新关系图模型，如果需要则执行更新关系图模型的操作；

基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求，给出查询结果。

可选的，所述方法还包括：

对得到的时序数据进行预处理操作，基于预处理结果进行关联向量计算。

可选的，所述对得到的时序数据进行预处理的操作，包括：

异常监测模型的构造和动态标准化处理。

可选的，所述对于每一条时序数据关联性向量进行动态异常监测，包括：

对时序数据中的极端数据点进行更新；

基于更新结果计算广义帕累托分布的参数估计值；

将得到的参数估计值与异常阈值进行对比，基于对比结果判定是否存在异常。

可选的，所述基于监测结果对关联性向量进行更新包括：

获取当前关联向量和局部关联向量，计算二者的差值；

结合当前关联向量、关联向量更新幅度以及控制更新速度参数进行全局向量更新。

另一方面，本实施例提出的一种智能关联的自适应数据分析装置，所述装置包括：

模型构建单元，用于处理初始高维时间序列得到时序数据，构建每条时序数据相对于与其他时序数据的关联性向量，基于关联性向量构造时间序列关系图模型；

向量更新单元，用于对于每一条时序数据关联性向量进行动态异常监测，基于监测结果对关联性向量进行更新；

更新判断单元，用于根据关联性向量的更新结果判断是否需要更新关系图模型，如果需要则执行更新关系图模型的操作；

结果查询单元，用于基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求，给出查询结果。

可选的，所述装置还包括：

向量计算单元，用于对得到的时序数据进行预处理操作，基于预处理结果进行关联向量计算。

可选的，所述向量计算单元，还用于：

异常监测模型的构造和动态标准化处理。

可选的，所述向量更新单元，包括：

数据点更新子单元，用于对时序数据中的极端数据点进行更新；

参数估计子单元，用于基于更新结果计算广义帕累托分布的参数估计值；

结果判断子单元，用于将得到的参数估计值与异常阈值进行对比，基于对比结果判定是否存在异常。

可选的，所述向量更新单元还包括：

差值计算子单元，用于获取当前关联向量和局部关联向量，计算二者的差值；

参数更新子单元，用于结合当前关联向量、关联向量更新幅度以及控制更新速度参数进行全局向量更新。

本申请提供的技术方案带来的有益效果是：

针对如何定义时序数据之间的关联性，并且使得这种关联性尽可能小的受到异常值等因素的影响。本申请实施例采用了一种优化动态时间规整的方法，并且在使用该方法之前对输入的一维时序数据进行了预处理，保证了方法的有效性。

针对如何动态的捕捉时序数据间的相关性，即既要考虑时序数据在较长时间里的相关性，同时也要对时序数据潜在分布变化做出及时的反应。本申请实施例采用了一种自适应的关联向量更新机制，这种根据全局向量和局部向量残差来调整更新速度的策略能对短暂的时序数据异常有较强的抵抗能力，也能对时序数据潜在分布变化有较好的适应力，很好的满足了以上需求。

针对如何快速对于用户的请求做出应答，在这里实时维护了每一条一维时序数据相关联的其他一维时序数据以及整体时序数据的聚类图，并且更新的代价较低，因此用户的请求不会造成很大的计算资源开销。

综上所述，本申请实施例提出了一种智能关联的自适应数据分析方法，主要解决了高维时序数据在实时的环境下受干扰因素较多、分析困难的问题，为大型复杂的计算机系统的在线智能运维提供了坚实的保障。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提出的一种智能关联的自适应数据分析方法的流程示意图；

图2为本申请实施例提出的一组任意分布的数据在极端的情形下满足广义帕累托分布的示意图；

图3为本申请实施例提出的一种智能关联的自适应数据分析装置的结构示意图。

具体实施方式

本申请实施例所涉及到的名词解释包括：

数据分析指的是针对实时高维时间序列数据的关联分析和异常监测。

所述高维时间序列数据指的是由多条时间对齐的一维时间序列所组成的数据。

所述实时指的是在一开始没有或者只有一部分高维时间序列数据，其余的数据将会随着时间推移产生。

所述一维时间序列指的是一系列包含时间戳和具体数值的点的集合，在这里时间戳用一个正整数表示，具体数值由一个浮点数表示。

关联分析指的是全局高维时间序列聚类和对于某一条一维时间序列相关时间序列查询。

全局高维时间序列聚类指的是将所有的一维时间序列划分成若干个组，每一组内的时间序列具有较高的相似度。

一维时间序列相关时间序列查询指的是给定一条时序找出和它关联性较强的时间序列。

异常监测指实时找出高维时间序列中行为模式异常的时间序列，包含了分布异常和关联异常。

分布异常指的是对于高维时间序列中某些一维的时间序列数据，它们新产生的数据和之前的数据有较大的数学分布差异。

关联异常指的是对于高维时间序列中某些一维的时间序列数据，它们和其他一维时间序列的相关性发生了较大的改变。

数据分析包含了四个模块，分别是初始时序数据关联聚类图的构建模块、实时数据更新模块、全局聚类图的更新模块和请求应答模块。

初始时序数据关联图构建模块指的是在框架执行任务的开始需要分析已有的多维时序数据构建初始的模型，其中包含了高维时序数据预处理、时序数据关联性计算、关联聚类图的构建。

高维时序数据预处理指的是针对嘈杂的高维时序数据进行异常监测初始化和动态标准化的操作保证后续方法的有效性。

异常监测初始化指的是使用极值理论（Extreme Value Theory）构造针对一维时序数据点异常监测的模型，可以精确的找出一维时序数据中的异常值。

动态标准化指的是将时间序列数据的每一个点

变换成

，在这里

指的是时序数据的一个动态均值，

则是动态标准差。

时序数据关联性计算指的是基于动态时间规整（Dynamic Time Warping）完成时序数据关联性计算，在这里动态时间规整是一种常用的计算时序数据之间相似度的方法，它的主要思路是找到一个时序数据间最优的连续对应关系，在这里使用了优化策略提高了算法的效率。

关联聚类图的构建指的是基于密度峰值聚类方法的构建方法，其中每一条时间序列是该图的顶点，该图顶点之间的边是时间序列之间的相似关联程度。在图构建的开始对于每一个顶点会计算它的局部密度

以及与它最近的并且局部密度高于他的点的距离

，然后计算这两项的乘积

，算法会根据

的大小排序结果确定聚类的中心，

的值越大越有机会成为聚类的中心，在确定聚类的中心以后进行标签的分配。

实时数据更新模块指的是对于到来的实时高维时序数据，系统会使用新到来的局部时序数据进行关联相似度计算，并且使用它们完成全局相似度的更新，这种更新采用了一种自适应的策略，更新的幅度取决于上一次局部关联向量和全局关联向量的差值，尽可能减少了数据波动的影响。如果存在全局下差异较大的一维时序数据，进行图的更新。此外对于这部分数据同样会应用之前构造的数据点异常监测模型进行。

图的更新指的是将原有的时间序列对应点删除并且重新插入新的顶点，并且对于图中其他顶点，需要重新计算相应的局部密度

并进行聚类结果的更新。

请求应答模块指的是对于用户的查询请求，解析并返回执行结果。

为使本申请的结构和优点更加清楚，下面将结合附图对本申请的结构作进一步地描述。

实施例一

一方面，本实施例提出的一种智能关联的自适应数据分析方法，如图1所示，所述方法包括：

11、处理初始高维时间序列得到时序数据，构建每条时序数据相对于与其他时序数据的关联性向量，基于关联性向量构造时间序列关系图模型；

12、对于每一条时序数据关联性向量进行动态异常监测，基于监测结果对关联性向量进行更新；

13、根据关联性向量的更新结果判断是否需要更新关系图模型，如果需要则执行更新关系图模型的操作；

14、基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求，给出查询结果。

在实施中，本申请实施例公开了一种智能关联的自适应数据分析方法，该方法包括：通过使用极值理论、自适应的数据标准化等技术完成高维时间序列数据进行预处理，使得后续的方法可以有效的应用于计算机实际生产环境的高维监控数据中；使用优化以后的动态时间规整（Dynamic Time Warping）算法快速准确的捕捉时间序列数据之间的相关性；根据初始的高维时间序列使用密度峰值聚类（Density Peak Clustering）算法，构建聚类关系图，并且从关系图中提取单条时间序列间的关联性；在高维时间序列数据动态产生的场景下通过滑动窗口的策略动态地处理时间序列数据并计算时间序列间的关系，并且根据变化关系完成对聚类关系图实时的更新，确保智能关联分析结果的时效性。

针对步骤14提出的根据用户的查询（包括聚类和关联时序数据）返回结果的操作，在本申请的示例性实施例中，用户可以发起两种类型的查询，第一种是关于聚类结果的查询，即返回整个一维时序数据的聚类结果，当系统收到该类请求时，会检测聚类结果是否是需要更新的，如果需要就重新聚类并且返回结果。第二种是关于关联时序数据的查询，即给定一条一维时序数据，求解和它最相关的其他时序数据，在这里系统会直接访问该条时序数据对应的关联向量并返回结果。

通过一维时序数据异常监测和关联性时序数据的分析结果完成对高维时序数据的异常监控和定位。通过将方法部署于企业的复杂系统中，能够快速分析大规模的高维实时时间序列数据，找出关联性较强的数据并且进行异常监测。

可选的，除了前述步骤提出的11-14以外，所述方法还包括：

在实施中，所述预处理操作包括异常监测模型的构造和动态标准化处理。

对高维时间序列中的每一维时间序列做如下的预处理：包括异常监测模型的构造和动态的标准化，异常监测的原理来源于极值理论，即一组任意分布的数据在极端的情形下满足如图2所示广义帕累托分布。通过对该分布进行参数估计就可以构造异常值监测模型，

所述异常监测模型的构造算法包括，一维时间序列异常监测模型构造的算法：

算法输入：一维时序数据

，异常数据概率阈值q ；

算法输出：极端值阈值t，异常值阈值

；

步骤(1)

；

步骤(2)

；

步骤(3)

←利用GRIMSHAW方法进行参数估计（

）；

步骤(4)

←计算概率分位数阈值CalcThreshold

，在这里N _t是指极端值的个数；

所使用的CalcThreshold函数：

输入：预设的异常值概率q ，广义帕累托分布估计的参数

，数据点数n，极端点数目N _t ，极端点的临界阀值t；

输出：

；

其中，

是由广义帕累托分布推导出的结果。

动态的标准化则是将

转化成

，在这里

指的是时序数据的一个动态均值，

则是动态标准差，在这里考虑到结果的稳定性，如果有异常值或者是缺失值，使用线性插值的方法将数值替换。

在本申请的示范性实施例中，对预处理之后的结果进行关联向量的计算，对于一对一维的时间序列数据

，使用DTW（Dynamic Time Warping）的方法进行相似度的计算，该方法可用动态规划的策略求解，原始的DTW方法复杂度过高，求解速度较慢，为此；添加了关于路径的限制。使用优化以后的DTW方法对一维时序数据之间的关联性进行两两之间的求解，优化的内容是限制DTW可行的路径。得到了全局关联性矩阵 Dist，对于所有一维的时序数据也得到了关联性向量

。

在本申请的示范性实施例中，在得到全局关联性矩阵以后进行聚类图的构建，聚类是在时序数据图

上建立的，在这之中

是顶点的集合，对应于每一条一维的时序数据，

则是边的集合，边的权值对应于时序数据间的关联性。

在本申请的示例性实施例中，所述密度峰值聚类算法可以包括：

密度峰值聚类算法：

输入：一维时序数据集合D，全局关联性矩阵Dist；

输出：cLabels聚类标签向量；

(1)计算局部密度和最近邻高密度点距离：

；

(2)求解密度峰值聚类的中心：

；

(3) 分配对应的标签，这里聚类的数目是一个可以使用启发式方法求解的超参数

；

函数ComputeRhoDelta；

输入：一维时序数据集合D ，全局关联性矩阵Dist；

输出：

，由

关于一维时序数据组成的向量；nn最近邻高局部密度记录向量；

(1) 对于集合D中的每一个元素object；

(2)

；

(3)对于集合D中除此以外的元素otherobject；

(4)

获取两个对象之间的距离；

(5)

，更新该对象

的值，在这里 func是高斯核函数，

设定了高斯核的形状；

(6)

获得关于的由高到低排序结果，这样在计算

的时候只需要考虑前面部分顶点；

(7) 对于i从2到

是总的顶点的个数)，执行（8）—— （10）；

(8)

获取当前需要赋值的顶点；

(9)

计算距离最近的高密度点的距离；

(10)

最近邻高局部密度向量赋值；

(11)

处理密度最高的点的特殊情况。

可选的，步骤12提出的所述对于每一条时序数据关联性向量进行动态异常监测，包括：

121、对时序数据中的极端数据点进行更新；

122、基于更新结果计算广义帕累托分布的参数估计值；

123、将得到的参数估计值与异常阈值进行对比，基于对比结果判定是否存在异常。

在实施中，这里使用动态异常监测算法进行监测，具体包括：

输入：实时产生的数据点

。

输出：无。

(1)

；异常数据点集合初始化；

(2)

；当前数据点的个数；

(3) 对于所有

，执行（4）—（14）；

(4) 如果

，执行（5）；

(5)将

添加到A；

(6)另外如果

，执行（7）—（12）；

(7)

数据点预处理；

(8)将

添加到

；

(9)

更新极端数据点的数目；

(10)

更新当前数据点的个数；

(11)

重新计算广义帕累托分布的参数估计值；

(12)

；

(13) 除此之外，执行（14）；

(14)

更新当前数据点的个数。

可选的，所述步骤12提出的基于监测结果对关联性向量进行更新包括：

124、获取当前关联向量和局部关联向量，计算二者的差值；

125、结合当前关联向量、关联向量更新幅度以及控制更新速度参数进行全局向量更新。

在实施中，动态标准化以及局部时序数据关联性向量的计算和11阶段类似，这里额外的步骤在于关联向量更新，不仅需要考虑数据分布的偏移所造成的更新，也要减小异常值的影响，因此更新的幅度是自适应的，在本申请的示例性实施例中，所述的关联向量更新算法可以包括：

关联向量更新算法：

输入：当前关联向量

，局部关联向量

，当前关联向量更新幅度

，控制更新速度的超参数

。

输出：下一时刻关联向量

，关联向量更新幅度

。

(1)

残差向量的计算；

(2)

全局向量的更新；

(3)

下一次更新幅度的更新。

本方法的优势在于局部向量的更新幅度是由上一次局部向量和全局向量的残差决定的，残差越大代表着两者之间的差异越大，假设某一个时间窗口下的局部向量出现了异常，由于上一次局部的向量残差不会很大，所以不会产生较大的更新，但是下一次的更新幅度会变大，因此这种策略还是可以捕捉到一维时序数据隐式分布的偏移。

如果异常监测模型并且关联向量都明显出现了异常，系统便会产生高维时序数据的异常警告并且给出具体有异常的一维时序数据。

根据关联性向量的更新结果判断是否需要更新关系图模型，如果需要就更新关系图模型；

在本申请的示例性实施例中，所述的关系聚类图更新算法可以包括：

关系聚类图更新算法：

输入：更新后的全局关联性矩阵Dist，被移除的顶点对应的关联向量oldDist，所要更新的顶点的下标

。

输出：更新以后的

。

(1)

；

(2) 对于

(未变顶点对应的索引集合)中的每一个

，执行（3）—（7）；

(3)

获取旧的距离；

(4)

更新

，删除影响；

(5)

获取新的距离；

(6)

更新

，添加影响；

(7)

更新

，添加影响。

在本申请的示例性实施例中，所述的关联聚类图的更新只涉及到关于

的更新，关于

则是使用一种惰性的策略来实现，这是因为

的更新速度并不会影响最后的聚类结果，所以系统只会在定时或者用户请求的场景下才会重新进行密度峰值聚类的计算。

实施例二

另一方面，本实施例提出的一种智能关联的自适应数据分析装置3，如图3所示，所述装置包括：

模型构建单元31，用于处理初始高维时间序列得到时序数据，构建每条时序数据相对于与其他时序数据的关联性向量，基于关联性向量构造时间序列关系图模型；

向量更新单元32，用于对于每一条时序数据关联性向量进行动态异常监测，基于监测结果对关联性向量进行更新；

更新判断单元33，用于根据关联性向量的更新结果判断是否需要更新关系图模型，如果需要则执行更新关系图模型的操作；

结果查询单元34，用于基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求，给出查询结果。

在实施中，本申请实施例公开了一种智能关联的自适应数据分析装置，该装置包括：通过使用极值理论、自适应的数据标准化等技术完成高维时间序列数据进行预处理，使得后续的装置可以有效的应用于计算机实际生产环境的高维监控数据中；使用优化以后的动态时间规整（Dynamic Time Warping）算法快速准确的捕捉时间序列数据之间的相关性；根据初始的高维时间序列使用密度峰值聚类（Density Peak Clustering）算法，构建聚类关系图，并且从关系图中提取单条时间序列间的关联性；在高维时间序列数据动态产生的场景下通过滑动窗口的策略动态地处理时间序列数据并计算时间序列间的关系，并且根据变化关系完成对聚类关系图实时的更新，确保智能关联分析结果的时效性。

通过一维时序数据异常监测和关联性时序数据的分析结果完成对高维时序数据的异常监控和定位。通过将装置部署于企业的复杂系统中，能够快速分析大规模的高维实时时间序列数据，找出关联性较强的数据并且进行异常监测。

可选的，所述装置还包括：

所述异常监测模型的构造算法包括：

一维时间序列异常监测模型构造的算法：

算法输入：一维时序数据

，异常数据概率阈值q；

算法输出：极端值阈值t ，异常值阈值

；

步骤(1) t←利用分位数设定极端值阈值(

)；

步骤(2)

；

步骤(3)

利用GRIMSHAW方法进行参数估计

；

步骤(4)

计算概率分位数阈值CalcThreshold

，在这里

是指极端值的个数；

所使用的CalcThreshold函数：

输入：预设的异常值概率q，广义帕累托分布估计的参数

，数据点数目n，极端点的数目

，极端点的临界阀值t；

输出：

；

其中，

是由广义帕累托分布推导出的结果。

动态的标准化则是将

转化成

，在这里

指的是时序数据的一个动态均值，则是动态标准差，在这里考虑到结果的稳定性，如果有异常值或者是缺失值，使用线性插值的方法将数值替换。

。

上建立的，在这之中

是顶点的集合，对应于每一条一维的时序数据，

则是边的集合，边的权值对应于时序数据间的关联性。

密度峰值聚类算法：

输入：一维时序数据集合D，全局关联性矩阵Dist；

输出：cLabels聚类标签向量；

(1)计算局部密度和最近邻高密度点距离：

；

(2)求解密度峰值聚类的中心：

；

；

函数

；

输入：一维时序数据集合D，全局关联性矩阵Dist；

输出：

，由

关于一维时序数据组成的向量；

最近邻高局部密度记录向量；

(1) 对于集合D中的每一个元素object；

(2)

；

(3)对于集合D中除此以外的元素otherObject；

(4)

获取两个对象之间的距离；

(5)

，更新该对象

的值，在这里func是高斯核函数，

设定了高斯核的形状；

(6)

获得关于

的由高到低排序结果，这样在计算

的时候只需要考虑前面部分顶点；

(7) 对于i从2到

是总的顶点的个数)，执行（8）—（10）；

(8)

获取当前需要赋值的顶点；

(9)

计算距离最近的高密度点的距离；

(10)

最近邻高局部密度向量赋值；

(11)

处理密度最高的点的特殊情况。

可选的，所述向量更新单元32，包括：

输入：实时产生的数据点

，当前数据点的个数n ,异常阈值

，极端阈值t 。

输出：无。

(1)

；异常数据点集合初始化；

(2)

；当前数据点的个数；

(3) 对于所有

，执行（4）—（14）；

(4) 如果

，执行（5）；

(5)将

添加到A ；

(6)另外如果

，执行（7）—（12）；

(7)

数据点预处理；

(8)将

添加到

；

(9)

更新极端数据点的数目；

(10)

更新当前数据点的个数；

(11)

GRIMSHAW（

）重新计算广义帕累托分布的参数估计值；

(12)

；

(13)除此之外，执行（14）；

(14)

更新当前数据点的个数。

可选的，所述向量更新单元32还包括：

关联向量更新算法：

输入：当前关联向量

，局部关联向量

，当前关联向量更新幅度

，控制更新速度的超参数

。

输出：下一时刻关联向量

，关联向量更新幅度

。

(1)

残差向量的计算；

(2)

全局向量的更新；

(3)

下一次更新幅度的更新。

关系聚类图更新算法：

输入：更新后的全局关联性矩阵Dist ，被移除的顶点对应的关联向量oldDist，所要更新的顶点的下标

。

输出：更新以后的

。

(1)

；

(2) 对于

(未变顶点对应的索引集合)中的每一个

，执行（3）—（7）；

(3)

获取旧的距离；

(4)

更新

，删除影响；

(5)

获取新的距离；

(6)

更新

，添加影响；

(7)

更新

，添加影响。

的更新，关于

则是使用一种惰性的策略来实现，这是因为

上述实施例中的各个序号仅仅为了描述，不代表各部件的组装或使用过程中的先后顺序。

以上所述仅为本申请的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种智能关联的自适应数据分析方法，其特征在于，所述方法包括：

基于更新后的关系图模型响应包括聚类和关联时序数据在内的用户查询请求，给出查询结果；

其中，所述构建每条时序数据相对于与其他时序数据的关联性向量，包括：

进行限制Dynamic Time Warping方法中可行路径的优化；

使用优化以后的Dynamic Time Warping方法对一维时序数据之间的关联性进行两两之间的求解，得到全局关联性矩阵Dist，对于所有一维的时序数据得到了关联性向量；

所述对于每一条时序数据关联性向量进行动态异常监测，包括：

对时序数据中的极端数据点进行更新；

基于更新结果计算广义帕累托分布的参数估计值；

2.根据权利要求1所述的一种智能关联的自适应数据分析方法，其特征在于，所述方法还包括：

对得到的时序数据进行预处理操作，基于预处理结果进行关联性向量计算。

3.根据权利要求2所述的一种智能关联的自适应数据分析方法，其特征在于，所述对得到的时序数据进行预处理的操作，包括：

异常监测模型的构造和动态标准化处理。

4.根据权利要求1所述的一种智能关联的自适应数据分析方法，其特征在于，所述基于监测结果对关联性向量进行更新包括：

获取当前关联向量和局部关联向量，计算二者的差值；

5.一种智能关联的自适应数据分析装置，其特征在于，所述装置包括：

结果查询单元，用于基于更新后的关系图模型响应包括聚类和关联时序数据在内的用户查询请求，给出查询结果；

进行限制Dynamic Time Warping方法中可行路径的优化；

所述向量更新单元，包括：

6.根据权利要求5所述的一种智能关联的自适应数据分析装置，其特征在于，所述装置还包括：

7.根据权利要求6所述的一种智能关联的自适应数据分析装置，其特征在于，所述向量计算单元，还用于：

异常监测模型的构造和动态标准化处理。

8.根据权利要求5所述的一种智能关联的自适应数据分析装置，其特征在于，所述向量更新单元还包括：