CN111767324B - 一种智能关联的自适应数据分析方法及装置 - Google Patents
一种智能关联的自适应数据分析方法及装置 Download PDFInfo
- Publication number
- CN111767324B CN111767324B CN202010914904.0A CN202010914904A CN111767324B CN 111767324 B CN111767324 B CN 111767324B CN 202010914904 A CN202010914904 A CN 202010914904A CN 111767324 B CN111767324 B CN 111767324B
- Authority
- CN
- China
- Prior art keywords
- vector
- time sequence
- updating
- data
- relevance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本申请实施例提出了一种智能关联的自适应数据分析方法及装置,包括处理初始高维时间序列得到时序数据,构建每条时序数据相对于与其他时序数据的关联性向量,基于关联性向量构造时间序列关系图模型;对于每一条时序数据关联性向量进行动态异常监测,基于监测结果对关联性向量进行更新;根据关联性向量的更新结果判断是否需要更新关系图模型,如果需要则执行更新关系图模型的操作;基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求,给出查询结果。根据全局向量和局部向量残差来调整更新速度的策略能对短暂的时序数据异常有较强的抵抗能力,也能对时序数据潜在分布变化有较好的适应力,很好的满足了需求。
Description
技术领域
本申请属于数据挖掘领域,尤其涉及一种智能关联的自适应数据分析方法及装置。
背景技术
随着计算机技术的不断发展,计算机系统朝着不断复杂化的方向发展,伴随着云计算、大数据行业的蓬勃生长,越来越多的企业选择通过购买计算、存储服务的方式完成对于业务的部署。这种现象也导致了服务提供商对系统稳定性的较高要求,一般来说复杂系统在运行过程中往往会出现大量的监控数据,这些数据往往是反映系统运行状态的时间序列数据,以MySQL为例,单机的MySQL数据库在全局维护着300个以上的监控数据,而对于基于MySQL搭建的InnoDB Cluster维护的监控数据,从以往的经验来说,一些计算机、互联网行业的大企业往往会聘请有丰富经验的运维人员手动的对复杂系统进行维护,但是这种经验的可行性正变得越来越低。一方面,随着系统的复杂性不断的增大,人工的完成对系统的维护显得越来越困难。另一方面,雇佣有经验的运维人员需要高昂的成本,这是许多公司无法负担的。在这种环境下智能运维这个概念开始走进人们的视野,智能运维,指的是使用大数据、机器学习技术来支持 IT 运维,机器学习可以处理海量的监控数据并且提供强大的推断能力。目前已经有许多公司和研究机构使用智能运维技术取得了非常显著的进展,包括磁盘故障的预测,微服务故障的定位等等。
如何对于这些时间序列进行有效的关联分析是一个具有挑战性的问题,以往已经有许多关于时间序列聚类、关联分析的方法,但是这些方法往往不适用于实时处理数据的环境,一方面实时数据的处理需要时效性,之前的方法复杂度和存储空间开销往往过高,无法实时地完成时间序列之前关联分析的任务。另一方面,对于长时间时序数据的关联分析,既要考虑局部时序数据的关联性,同时也要考虑到在一个较长的时间段里时序数据的关联性,这是传统静态场景的算法无法做到的。
发明内容
为了解决现有技术中存在的缺点和不足,本申请公开了一种智能关联的自适应数据分析方法,根据全局向量和局部向量残差来调整更新速度的策略能对短暂的时序数据异常有较强的抵抗能力,也能对时序数据潜在分布变化有较好的适应力,很好的满足了需求。
一方面,本实施例提出的一种智能关联的自适应数据分析方法,所述方法包括:
处理初始高维时间序列得到时序数据,构建每条时序数据相对于与其他时序数据的关联性向量,基于关联性向量构造时间序列关系图模型;
对于每一条时序数据关联性向量进行动态异常监测,基于监测结果对关联性向量进行更新;
根据关联性向量的更新结果判断是否需要更新关系图模型,如果需要则执行更新关系图模型的操作;
基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求,给出查询结果。
可选的,所述方法还包括:
对得到的时序数据进行预处理操作,基于预处理结果进行关联向量计算。
可选的,所述对得到的时序数据进行预处理的操作,包括:
异常监测模型的构造和动态标准化处理。
可选的,所述对于每一条时序数据关联性向量进行动态异常监测,包括:
对时序数据中的极端数据点进行更新;
基于更新结果计算广义帕累托分布的参数估计值;
将得到的参数估计值与异常阈值进行对比,基于对比结果判定是否存在异常。
可选的,所述基于监测结果对关联性向量进行更新包括:
获取当前关联向量和局部关联向量,计算二者的差值;
结合当前关联向量、关联向量更新幅度以及控制更新速度参数进行全局向量更新。
另一方面,本实施例提出的一种智能关联的自适应数据分析装置,所述装置包括:
模型构建单元,用于处理初始高维时间序列得到时序数据,构建每条时序数据相对于与其他时序数据的关联性向量,基于关联性向量构造时间序列关系图模型;
向量更新单元,用于对于每一条时序数据关联性向量进行动态异常监测,基于监测结果对关联性向量进行更新;
更新判断单元,用于根据关联性向量的更新结果判断是否需要更新关系图模型,如果需要则执行更新关系图模型的操作;
结果查询单元,用于基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求,给出查询结果。
可选的,所述装置还包括:
向量计算单元,用于对得到的时序数据进行预处理操作,基于预处理结果进行关联向量计算。
可选的,所述向量计算单元,还用于:
异常监测模型的构造和动态标准化处理。
可选的,所述向量更新单元,包括:
数据点更新子单元,用于对时序数据中的极端数据点进行更新;
参数估计子单元,用于基于更新结果计算广义帕累托分布的参数估计值;
结果判断子单元,用于将得到的参数估计值与异常阈值进行对比,基于对比结果判定是否存在异常。
可选的,所述向量更新单元还包括:
差值计算子单元,用于获取当前关联向量和局部关联向量,计算二者的差值;
参数更新子单元,用于结合当前关联向量、关联向量更新幅度以及控制更新速度参数进行全局向量更新。
本申请提供的技术方案带来的有益效果是:
针对如何定义时序数据之间的关联性,并且使得这种关联性尽可能小的受到异常值等因素的影响。本申请实施例采用了一种优化动态时间规整的方法,并且在使用该方法之前对输入的一维时序数据进行了预处理,保证了方法的有效性。
针对如何动态的捕捉时序数据间的相关性,即既要考虑时序数据在较长时间里的相关性,同时也要对时序数据潜在分布变化做出及时的反应。本申请实施例采用了一种自适应的关联向量更新机制,这种根据全局向量和局部向量残差来调整更新速度的策略能对短暂的时序数据异常有较强的抵抗能力,也能对时序数据潜在分布变化有较好的适应力,很好的满足了以上需求。
针对如何快速对于用户的请求做出应答,在这里实时维护了每一条一维时序数据相关联的其他一维时序数据以及整体时序数据的聚类图,并且更新的代价较低,因此用户的请求不会造成很大的计算资源开销。
综上所述,本申请实施例提出了一种智能关联的自适应数据分析方法,主要解决了高维时序数据在实时的环境下受干扰因素较多、分析困难的问题,为大型复杂的计算机系统的在线智能运维提供了坚实的保障。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提出的一种智能关联的自适应数据分析方法的流程示意图;
图2为本申请实施例提出的一组任意分布的数据在极端的情形下满足广义帕累托分布的示意图;
图3为本申请实施例提出的一种智能关联的自适应数据分析装置的结构示意图。
具体实施方式
本申请实施例所涉及到的名词解释包括:
数据分析指的是针对实时高维时间序列数据的关联分析和异常监测。
所述高维时间序列数据指的是由多条时间对齐的一维时间序列所组成的数据。
所述实时指的是在一开始没有或者只有一部分高维时间序列数据,其余的数据将会随着时间推移产生。
所述一维时间序列指的是一系列包含时间戳和具体数值的点的集合,在这里时间戳用一个正整数表示,具体数值由一个浮点数表示。
关联分析指的是全局高维时间序列聚类和对于某一条一维时间序列相关时间序列查询。
全局高维时间序列聚类指的是将所有的一维时间序列划分成若干个组,每一组内的时间序列具有较高的相似度。
一维时间序列相关时间序列查询指的是给定一条时序找出和它关联性较强的时间序列。
异常监测指实时找出高维时间序列中行为模式异常的时间序列,包含了分布异常和关联异常。
分布异常指的是对于高维时间序列中某些一维的时间序列数据,它们新产生的数据和之前的数据有较大的数学分布差异。
关联异常指的是对于高维时间序列中某些一维的时间序列数据,它们和其他一维时间序列的相关性发生了较大的改变。
数据分析包含了四个模块,分别是初始时序数据关联聚类图的构建模块、实时数据更新模块、全局聚类图的更新模块和请求应答模块。
初始时序数据关联图构建模块指的是在框架执行任务的开始需要分析已有的多维时序数据构建初始的模型,其中包含了高维时序数据预处理、时序数据关联性计算、关联聚类图的构建。
高维时序数据预处理指的是针对嘈杂的高维时序数据进行异常监测初始化和动态标准化的操作保证后续方法的有效性。
异常监测初始化指的是使用极值理论(Extreme Value Theory)构造针对一维时序数据点异常监测的模型,可以精确的找出一维时序数据中的异常值。
时序数据关联性计算指的是基于动态时间规整(Dynamic Time Warping)完成时序数据关联性计算,在这里动态时间规整是一种常用的计算时序数据之间相似度的方法,它的主要思路是找到一个时序数据间最优的连续对应关系,在这里使用了优化策略提高了算法的效率。
关联聚类图的构建指的是基于密度峰值聚类方法的构建方法,其中每一条时间序
列是该图的顶点,该图顶点之间的边是时间序列之间的相似关联程度。在图构建的开始对
于每一个顶点会计算它的局部密度以及与它最近的并且局部密度高于他的点的距离,
然后计算这两项的乘积,算法会根据的大小排序结果确定聚类的中心, 的值越大越
有机会成为聚类的中心,在确定聚类的中心以后进行标签的分配。
实时数据更新模块指的是对于到来的实时高维时序数据,系统会使用新到来的局部时序数据进行关联相似度计算,并且使用它们完成全局相似度的更新,这种更新采用了一种自适应的策略,更新的幅度取决于上一次局部关联向量和全局关联向量的差值,尽可能减少了数据波动的影响。如果存在全局下差异较大的一维时序数据,进行图的更新。此外对于这部分数据同样会应用之前构造的数据点异常监测模型进行。
请求应答模块指的是对于用户的查询请求,解析并返回执行结果。
为使本申请的结构和优点更加清楚,下面将结合附图对本申请的结构作进一步地描述。
实施例一
一方面,本实施例提出的一种智能关联的自适应数据分析方法,如图1所示,所述方法包括:
11、处理初始高维时间序列得到时序数据,构建每条时序数据相对于与其他时序数据的关联性向量,基于关联性向量构造时间序列关系图模型;
12、对于每一条时序数据关联性向量进行动态异常监测,基于监测结果对关联性向量进行更新;
13、根据关联性向量的更新结果判断是否需要更新关系图模型,如果需要则执行更新关系图模型的操作;
14、基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求,给出查询结果。
在实施中,本申请实施例公开了一种智能关联的自适应数据分析方法,该方法包括:通过使用极值理论、自适应的数据标准化等技术完成高维时间序列数据进行预处理,使得后续的方法可以有效的应用于计算机实际生产环境的高维监控数据中;使用优化以后的动态时间规整(Dynamic Time Warping)算法快速准确的捕捉时间序列数据之间的相关性;根据初始的高维时间序列使用密度峰值聚类(Density Peak Clustering)算法,构建聚类关系图,并且从关系图中提取单条时间序列间的关联性;在高维时间序列数据动态产生的场景下通过滑动窗口的策略动态地处理时间序列数据并计算时间序列间的关系,并且根据变化关系完成对聚类关系图实时的更新,确保智能关联分析结果的时效性。
针对步骤14提出的根据用户的查询(包括聚类和关联时序数据)返回结果的操作,在本申请的示例性实施例中,用户可以发起两种类型的查询,第一种是关于聚类结果的查询,即返回整个一维时序数据的聚类结果,当系统收到该类请求时,会检测聚类结果是否是需要更新的,如果需要就重新聚类并且返回结果。第二种是关于关联时序数据的查询,即给定一条一维时序数据,求解和它最相关的其他时序数据,在这里系统会直接访问该条时序数据对应的关联向量并返回结果。
通过一维时序数据异常监测和关联性时序数据的分析结果完成对高维时序数据的异常监控和定位。通过将方法部署于企业的复杂系统中,能够快速分析大规模的高维实时时间序列数据,找出关联性较强的数据并且进行异常监测。
可选的,除了前述步骤提出的11-14以外,所述方法还包括:
对得到的时序数据进行预处理操作,基于预处理结果进行关联向量计算。
在实施中,所述预处理操作包括异常监测模型的构造和动态标准化处理。
对高维时间序列中的每一维时间序列做如下的预处理:包括异常监测模型的构造和动态的标准化,异常监测的原理来源于极值理论,即一组任意分布的数据在极端的情形下满足如图2所示广义帕累托分布。通过对该分布进行参数估计就可以构造异常值监测模型,
所述异常监测模型的构造算法包括,一维时间序列异常监测模型构造的算法:
所使用的CalcThreshold函数:
在本申请的示范性实施例中,对预处理之后的结果进行关联向量的计算,对于一
对一维的时间序列数据,使用DTW(Dynamic Time Warping)的
方法进行相似度的计算,该方法可用动态规划的策略求解,原始的DTW方法复杂度过高,求
解速度较慢,为此;添加了关于路径的限制。使用优化以后的DTW方法对一维时序数据之间
的关联性进行两两之间的求解,优化的内容是限制DTW可行的路径。得到了全局关联性矩阵
Dist,对于所有一维的时序数据也得到了关联性向量。
在本申请的示例性实施例中,所述密度峰值聚类算法可以包括:
密度峰值聚类算法:
输入:一维时序数据集合D,全局关联性矩阵Dist;
输出:cLabels聚类标签向量;
(1)计算局部密度和最近邻高密度点距离:
(2)求解密度峰值聚类的中心:
函数ComputeRhoDelta;
输入:一维时序数据集合D ,全局关联性矩阵Dist;
(1) 对于集合D中的每一个元素object;
(3)对于集合D中除此以外的元素otherobject;
可选的,步骤12提出的所述对于每一条时序数据关联性向量进行动态异常监测,包括:
121、对时序数据中的极端数据点进行更新;
122、基于更新结果计算广义帕累托分布的参数估计值;
123、将得到的参数估计值与异常阈值进行对比,基于对比结果判定是否存在异常。
在实施中,这里使用动态异常监测算法进行监测,具体包括:
输出:无。
(13) 除此之外,执行(14);
可选的,所述步骤12提出的基于监测结果对关联性向量进行更新包括:
124、获取当前关联向量和局部关联向量,计算二者的差值;
125、结合当前关联向量、关联向量更新幅度以及控制更新速度参数进行全局向量更新。
在实施中,动态标准化以及局部时序数据关联性向量的计算和11阶段类似,这里额外的步骤在于关联向量更新,不仅需要考虑数据分布的偏移所造成的更新,也要减小异常值的影响,因此更新的幅度是自适应的,在本申请的示例性实施例中,所述的关联向量更新算法可以包括:
关联向量更新算法:
本方法的优势在于局部向量的更新幅度是由上一次局部向量和全局向量的残差决定的,残差越大代表着两者之间的差异越大,假设某一个时间窗口下的局部向量出现了异常,由于上一次局部的向量残差不会很大,所以不会产生较大的更新,但是下一次的更新幅度会变大,因此这种策略还是可以捕捉到一维时序数据隐式分布的偏移。
如果异常监测模型并且关联向量都明显出现了异常,系统便会产生高维时序数据的异常警告并且给出具体有异常的一维时序数据。
根据关联性向量的更新结果判断是否需要更新关系图模型,如果需要就更新关系图模型;
在本申请的示例性实施例中,所述的关系聚类图更新算法可以包括:
关系聚类图更新算法:
在本申请的示例性实施例中,所述的关联聚类图的更新只涉及到关于的更
新,关于 则是使用一种惰性的策略来实现,这是因为 的更新速度并不会
影响最后的聚类结果,所以系统只会在定时或者用户请求的场景下才会重新进行密度峰值
聚类的计算。
实施例二
另一方面,本实施例提出的一种智能关联的自适应数据分析装置3,如图3所示,所述装置包括:
模型构建单元31,用于处理初始高维时间序列得到时序数据,构建每条时序数据相对于与其他时序数据的关联性向量,基于关联性向量构造时间序列关系图模型;
向量更新单元32,用于对于每一条时序数据关联性向量进行动态异常监测,基于监测结果对关联性向量进行更新;
更新判断单元33,用于根据关联性向量的更新结果判断是否需要更新关系图模型,如果需要则执行更新关系图模型的操作;
结果查询单元34,用于基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求,给出查询结果。
在实施中,本申请实施例公开了一种智能关联的自适应数据分析装置,该装置包括:通过使用极值理论、自适应的数据标准化等技术完成高维时间序列数据进行预处理,使得后续的装置可以有效的应用于计算机实际生产环境的高维监控数据中;使用优化以后的动态时间规整(Dynamic Time Warping)算法快速准确的捕捉时间序列数据之间的相关性;根据初始的高维时间序列使用密度峰值聚类(Density Peak Clustering)算法,构建聚类关系图,并且从关系图中提取单条时间序列间的关联性;在高维时间序列数据动态产生的场景下通过滑动窗口的策略动态地处理时间序列数据并计算时间序列间的关系,并且根据变化关系完成对聚类关系图实时的更新,确保智能关联分析结果的时效性。
针对步骤14提出的根据用户的查询(包括聚类和关联时序数据)返回结果的操作,在本申请的示例性实施例中,用户可以发起两种类型的查询,第一种是关于聚类结果的查询,即返回整个一维时序数据的聚类结果,当系统收到该类请求时,会检测聚类结果是否是需要更新的,如果需要就重新聚类并且返回结果。第二种是关于关联时序数据的查询,即给定一条一维时序数据,求解和它最相关的其他时序数据,在这里系统会直接访问该条时序数据对应的关联向量并返回结果。
通过一维时序数据异常监测和关联性时序数据的分析结果完成对高维时序数据的异常监控和定位。通过将装置部署于企业的复杂系统中,能够快速分析大规模的高维实时时间序列数据,找出关联性较强的数据并且进行异常监测。
可选的,所述装置还包括:
向量计算单元,用于对得到的时序数据进行预处理操作,基于预处理结果进行关联向量计算。
在实施中,所述预处理操作包括异常监测模型的构造和动态标准化处理。
对高维时间序列中的每一维时间序列做如下的预处理:包括异常监测模型的构造和动态的标准化,异常监测的原理来源于极值理论,即一组任意分布的数据在极端的情形下满足如图2所示广义帕累托分布。通过对该分布进行参数估计就可以构造异常值监测模型,
所述异常监测模型的构造算法包括:
一维时间序列异常监测模型构造的算法:
所使用的CalcThreshold函数:
在本申请的示范性实施例中,对预处理之后的结果进行关联向量的计算,对于一
对一维的时间序列数据 ,使用DTW(Dynamic Time Warping)的方
法进行相似度的计算,该方法可用动态规划的策略求解,原始的DTW方法复杂度过高,求解
速度较慢,为此;添加了关于路径的限制。使用优化以后的DTW方法对一维时序数据之间的
关联性进行两两之间的求解,优化的内容是限制DTW可行的路径。得到了全局关联性矩阵
Dist,对于所有一维的时序数据也得到了关联性向量。
在本申请的示范性实施例中,在得到全局关联性矩阵以后进行聚类图的构建,聚
类是在时序数据图上建立的,在这之中 是顶点的集合,对应于每一条一维的时序
数据,则是边的集合,边的权值对应于时序数据间的关联性。
在本申请的示例性实施例中,所述密度峰值聚类算法可以包括:
密度峰值聚类算法:
输入:一维时序数据集合D,全局关联性矩阵Dist;
输出:cLabels聚类标签向量;
(1)计算局部密度和最近邻高密度点距离:
(2)求解密度峰值聚类的中心:
输入:一维时序数据集合D,全局关联性矩阵Dist;
(1) 对于集合D中的每一个元素object;
(3)对于集合D中除此以外的元素otherObject;
可选的,所述向量更新单元32,包括:
数据点更新子单元,用于对时序数据中的极端数据点进行更新;
参数估计子单元,用于基于更新结果计算广义帕累托分布的参数估计值;
结果判断子单元,用于将得到的参数估计值与异常阈值进行对比,基于对比结果判定是否存在异常。
在实施中,这里使用动态异常监测算法进行监测,具体包括:
输出:无。
(13)除此之外,执行(14);
可选的,所述向量更新单元32还包括:
差值计算子单元,用于获取当前关联向量和局部关联向量,计算二者的差值;
参数更新子单元,用于结合当前关联向量、关联向量更新幅度以及控制更新速度参数进行全局向量更新。
在实施中,动态标准化以及局部时序数据关联性向量的计算和11阶段类似,这里额外的步骤在于关联向量更新,不仅需要考虑数据分布的偏移所造成的更新,也要减小异常值的影响,因此更新的幅度是自适应的,在本申请的示例性实施例中,所述的关联向量更新算法可以包括:
关联向量更新算法:
本方法的优势在于局部向量的更新幅度是由上一次局部向量和全局向量的残差决定的,残差越大代表着两者之间的差异越大,假设某一个时间窗口下的局部向量出现了异常,由于上一次局部的向量残差不会很大,所以不会产生较大的更新,但是下一次的更新幅度会变大,因此这种策略还是可以捕捉到一维时序数据隐式分布的偏移。
如果异常监测模型并且关联向量都明显出现了异常,系统便会产生高维时序数据的异常警告并且给出具体有异常的一维时序数据。
根据关联性向量的更新结果判断是否需要更新关系图模型,如果需要就更新关系图模型;
在本申请的示例性实施例中,所述的关系聚类图更新算法可以包括:
关系聚类图更新算法:
在本申请的示例性实施例中,所述的关联聚类图的更新只涉及到关于的更
新,关于则是使用一种惰性的策略来实现,这是因为的更新速度并不会影
响最后的聚类结果,所以系统只会在定时或者用户请求的场景下才会重新进行密度峰值聚
类的计算。
上述实施例中的各个序号仅仅为了描述,不代表各部件的组装或使用过程中的先后顺序。
以上所述仅为本申请的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种智能关联的自适应数据分析方法,其特征在于,所述方法包括:
处理初始高维时间序列得到时序数据,构建每条时序数据相对于与其他时序数据的关联性向量,基于关联性向量构造时间序列关系图模型;
对于每一条时序数据关联性向量进行动态异常监测,基于监测结果对关联性向量进行更新;
根据关联性向量的更新结果判断是否需要更新关系图模型,如果需要则执行更新关系图模型的操作;
基于更新后的关系图模型响应包括聚类和关联时序数据在内的用户查询请求,给出查询结果;
其中,所述构建每条时序数据相对于与其他时序数据的关联性向量,包括:
进行限制Dynamic Time Warping方法中可行路径的优化;
使用优化以后的Dynamic Time Warping方法对一维时序数据之间的关联性进行两两之间的求解,得到全局关联性矩阵Dist,对于所有一维的时序数据得到了关联性向量;
所述对于每一条时序数据关联性向量进行动态异常监测,包括:
对时序数据中的极端数据点进行更新;
基于更新结果计算广义帕累托分布的参数估计值;
将得到的参数估计值与异常阈值进行对比,基于对比结果判定是否存在异常。
2.根据权利要求1所述的一种智能关联的自适应数据分析方法,其特征在于,所述方法还包括:
对得到的时序数据进行预处理操作,基于预处理结果进行关联性向量计算。
3.根据权利要求2所述的一种智能关联的自适应数据分析方法,其特征在于,所述对得到的时序数据进行预处理的操作,包括:
异常监测模型的构造和动态标准化处理。
4.根据权利要求1所述的一种智能关联的自适应数据分析方法,其特征在于,所述基于监测结果对关联性向量进行更新包括:
获取当前关联向量和局部关联向量,计算二者的差值;
结合当前关联向量、关联向量更新幅度以及控制更新速度参数进行全局向量更新。
5.一种智能关联的自适应数据分析装置,其特征在于,所述装置包括:
模型构建单元,用于处理初始高维时间序列得到时序数据,构建每条时序数据相对于与其他时序数据的关联性向量,基于关联性向量构造时间序列关系图模型;
向量更新单元,用于对于每一条时序数据关联性向量进行动态异常监测,基于监测结果对关联性向量进行更新;
更新判断单元,用于根据关联性向量的更新结果判断是否需要更新关系图模型,如果需要则执行更新关系图模型的操作;
结果查询单元,用于基于更新后的关系图模型响应包括聚类和关联时序数据在内的用户查询请求,给出查询结果;
其中,所述构建每条时序数据相对于与其他时序数据的关联性向量,包括:
进行限制Dynamic Time Warping方法中可行路径的优化;
使用优化以后的Dynamic Time Warping方法对一维时序数据之间的关联性进行两两之间的求解,得到全局关联性矩阵Dist,对于所有一维的时序数据得到了关联性向量;
所述向量更新单元,包括:
数据点更新子单元,用于对时序数据中的极端数据点进行更新;
参数估计子单元,用于基于更新结果计算广义帕累托分布的参数估计值;
结果判断子单元,用于将得到的参数估计值与异常阈值进行对比,基于对比结果判定是否存在异常。
6.根据权利要求5所述的一种智能关联的自适应数据分析装置,其特征在于,所述装置还包括:
向量计算单元,用于对得到的时序数据进行预处理操作,基于预处理结果进行关联向量计算。
7.根据权利要求6所述的一种智能关联的自适应数据分析装置,其特征在于,所述向量计算单元,还用于:
异常监测模型的构造和动态标准化处理。
8.根据权利要求5所述的一种智能关联的自适应数据分析装置,其特征在于,所述向量更新单元还包括:
差值计算子单元,用于获取当前关联向量和局部关联向量,计算二者的差值;
参数更新子单元,用于结合当前关联向量、关联向量更新幅度以及控制更新速度参数进行全局向量更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010914904.0A CN111767324B (zh) | 2020-09-03 | 2020-09-03 | 一种智能关联的自适应数据分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010914904.0A CN111767324B (zh) | 2020-09-03 | 2020-09-03 | 一种智能关联的自适应数据分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767324A CN111767324A (zh) | 2020-10-13 |
CN111767324B true CN111767324B (zh) | 2020-11-17 |
Family
ID=72729249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010914904.0A Active CN111767324B (zh) | 2020-09-03 | 2020-09-03 | 一种智能关联的自适应数据分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767324B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112345261B (zh) * | 2020-10-29 | 2022-05-03 | 南京航空航天大学 | 基于改进dbscan算法的航空发动机泵调系统异常检测方法 |
CN112884097A (zh) * | 2021-01-14 | 2021-06-01 | 深圳市通恒伟创科技有限公司 | 基于cmp模块的物联网终端设备控制系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653541A (zh) * | 2014-11-11 | 2016-06-08 | 日本电气株式会社 | 识别数据元素之间的关联和演变模式的系统和方法 |
CN104933175B (zh) * | 2015-06-30 | 2020-06-26 | 深圳市金证科技股份有限公司 | 一种性能数据相关性的分析方法及性能监控系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102449575B (zh) * | 2009-03-25 | 2016-06-08 | 惠普开发有限公司 | 功率分配单元-装置相关 |
-
2020
- 2020-09-03 CN CN202010914904.0A patent/CN111767324B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653541A (zh) * | 2014-11-11 | 2016-06-08 | 日本电气株式会社 | 识别数据元素之间的关联和演变模式的系统和方法 |
CN104933175B (zh) * | 2015-06-30 | 2020-06-26 | 深圳市金证科技股份有限公司 | 一种性能数据相关性的分析方法及性能监控系统 |
Non-Patent Citations (2)
Title |
---|
Automatic clustering based on density peak detection using generalized extreme value distribution;Jiajun Ding 等;《Soft Comput》;20170802;第2777页-第2796页 * |
基于DTW度量和局部紧邻图的序列聚类设计;汤敏 等;《计算机仿真》;20180430;第35卷(第4期);第246页-第249页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111767324A (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guan et al. | Ensemble of Bayesian predictors and decision trees for proactive failure management in cloud computing systems. | |
CN110825644B (zh) | 一种跨项目软件缺陷预测方法及其系统 | |
US20170154280A1 (en) | Incremental Generation of Models with Dynamic Clustering | |
Lu et al. | GAN-based data augmentation strategy for sensor anomaly detection in industrial robots | |
CN111767324B (zh) | 一种智能关联的自适应数据分析方法及装置 | |
US10417083B2 (en) | Label rectification and classification/prediction for multivariate time series data | |
Khan et al. | Open source machine learning frameworks for industrial internet of things | |
CN107729469A (zh) | 用户挖掘方法、装置、电子设备及计算机可读存储介质 | |
Mayer et al. | Streamlearner: Distributed incremental machine learning on event streams: Grand challenge | |
CN114595635A (zh) | 火电机组主汽温度数据的特征选择方法、系统及设备 | |
Chen | Production planning and control in semiconductor manufacturing: Big data analytics and industry 4.0 applications | |
CN115034278A (zh) | 性能指标异常检测方法、装置、电子设备和存储介质 | |
CN116501444A (zh) | 智能网联汽车域控制器虚拟机异常云边协同监测和恢复系统及方法 | |
CN114385601B (zh) | 基于超算的云边协同高通量海洋数据智能处理方法及系统 | |
CN113835964B (zh) | 基于小样本学习的云数据中心服务器能耗预测方法 | |
CN115905715A (zh) | 基于大数据和人工智能的互联网数据分析方法和平台 | |
Krawczuk et al. | Anomaly detection in scientific workflows using end-to-end execution gantt charts and convolutional neural networks | |
US11823066B2 (en) | Enterprise market volatility predictions through synthetic DNA and mutant nucleotides | |
CN115048987A (zh) | 基于流形结构的多源自适应迁移学习的电机振动预测方法 | |
Fazel | A new method to predict the software fault using improved genetic algorithm | |
Chen et al. | Improving accuracy of evolving GMM under GPGPU-friendly block-evolutionary pattern | |
CN113535522A (zh) | 一种异常情况的检测方法、装置和设备 | |
CN114330500A (zh) | 基于storm平台的电网电力设备在线并行诊断方法及系统 | |
CN113656294A (zh) | 一种软件缺陷预测方法 | |
CN112364088A (zh) | 基于工厂数字化制造资源的可视化配置系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |