CN113515554A - 用于不规则采样的时间序列的异常检测方法和系统 - Google Patents
用于不规则采样的时间序列的异常检测方法和系统 Download PDFInfo
- Publication number
- CN113515554A CN113515554A CN202010274173.8A CN202010274173A CN113515554A CN 113515554 A CN113515554 A CN 113515554A CN 202010274173 A CN202010274173 A CN 202010274173A CN 113515554 A CN113515554 A CN 113515554A
- Authority
- CN
- China
- Prior art keywords
- anomaly detection
- sub
- data
- time series
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 66
- 239000013598 vector Substances 0.000 claims abstract description 66
- 238000005259 measurement Methods 0.000 claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 230000002159 abnormal effect Effects 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 43
- 238000005065 mining Methods 0.000 claims description 22
- 230000005856 abnormality Effects 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000002547 anomalous effect Effects 0.000 claims 2
- 238000012360 testing method Methods 0.000 description 11
- 238000009826 distribution Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000001788 irregular Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000003064 k means clustering Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Abstract
一种用于不规则采样的测量数据的时间序列的异常检测方法,所述方法包括如下步骤:‑根据固定的滑动窗口大小截取子时间序列;‑将所述子时间序列划分为多个分段,并且分别计算各个分段的特征向量;‑使用最近邻算法将每个特征向量分别归入到预先确定的聚类簇中并且以对该聚类簇所预定义的字符表示该特征向量,从而为所截取的子时间序列形成字符序列;‑通过判断所形成的字符序列是否含有预先确定的频繁模式来检测其是否异常。利用所述方法能够检测不规则采样的时间序列和识别趋势性的异常,本发明还涉及一种计算机可读介质和一种用于不规则采样的测量数据的时间序列的异常检测系统。
Description
技术领域
本发明涉及一种用于不规则采样的测量数据的时间序列的异常检测方法、一种计算机可读介质以及一种用于不规则采样的测量数据的时间序列的异常检测系统。
背景技术
时间序列的异常检测技术已广泛应用于医疗、经济学、工业质量控制等领域。目前,大多数的异常检测方法针对的是规则的时间序列数据、亦即从等间隔的时间采样数据中检测出异常数据。但是,在很多领域中也存在不等间隔的时间采样,例如采用不定期监测的方式对机器部件的磨损过程进行监测、汽车行业的底盘质量检测等。在此,车辆不等时间间隔地进入到检测站点中,在检测站点中采集车辆数据,由此获得不规则采样的时间序列数据。因此,随着异常检测技术的发展,亟需一种针对不规则采样的时间序列的异常检测方法。
发明内容
本发明的目的在于,提出一种用于不规则采样的测量数据的时间序列的异常检测方法、一种计算机可读介质以及一种用于不规则采样的测量数据的时间序列的异常检测系统。
本发明的第一方面涉及一种用于不规则采样的测量数据的时间序列的异常检测方法,所述方法包括如下步骤:
-根据固定的滑动窗口大小截取子时间序列;
-将所述子时间序列划分为多个分段,并且分别计算各个分段的特征向量;
-使用最近邻算法将每个特征向量分别归入到预先确定的聚类簇中并且以对该聚类簇所预定义的字符表示该特征向量,从而为所截取的子时间序列形成字符序列;
-通过判断所形成的字符序列是否含有预先确定的频繁模式来检测其是否异常。
在此,时间序列是指按时间次序排列而得到的数据值的集合。其中,不规则采样的测量数据的时间序列是指测量时间间隔非均匀的时间序列。将不规则采样的测量数据的时间序列根据固定的滑动窗口大小截取子时间序列,由此获得多个相同长度的子时间序列。每个子时间序列中的数据按照采样发生的先后顺序排列,但在各个采样点之间可以存在不同的时间间隔,从而能够对不规则采样的测量数据的时间序列进行处理。
接着,将所述子时间序列划分为多个分段,并且分别计算各个分段的特征向量。由此,所述子时间序列又分割为多个相对短但不重叠的分段,并将各个分段中的数据分别转化为特征向量的形式。与原有的孤立的测量数据的数值相比,特征向量能反映所述数据在分段内中的分布特征。
然后,使用最近邻算法将每个特征向量分别归入到预先确定的聚类簇中并且以对该聚类簇所预定义的字符表示该特征向量,从而为所截取的子时间序列形成字符序列。在此,例如可以将特征向量与预先确定的聚类簇相比较,计算特征向量与聚类簇之间的距离,在此,所述距离可以是欧式距离、曼哈顿距离、切比雪夫距离、马氏距离等。如果特征向量与其中一个聚类簇的距离最近,则将该特征向量归入到该聚类簇中。每个聚类簇预定义有一个字符,因此将所归入的特征向量也用该字符表示,从而将由多个特征向量组成的子时间序列转化成字符序列。字符序列中字符出现的顺序也相应于子时间序列中的各个分段的顺序。需要注意的是,本发明中的符号化过程的对象是特征向量、如均值方差斜率等。而且本发明中的符号化过程使用聚类的技术将所述特征向量转换为字符,接着又离散化为字符序列。因此,按照本发明的字符序列能够全面地代表不规则时间序列的近似值。
最后,通过判断所形成的字符序列是否含有预先确定的频繁模式来检测其是否异常。在异常检测过程中,正常的数据在一定阈值范围内并存在一定的分布规律,因此可以用有限的频繁模式来表示,而异常数据是在时间序列上与其它数据存在显著差异的数据。因此如果形成的字符序列中含有预先确定的正常数据的频繁模式,则意味着当前的字符序列符合正常数据的分布规律,因此不存在异常,但是如果形成的字符序列中不含有预先确定的正常数据的频繁模式,则说明所述字符序列偏离正常数据的分布。相似地,如果所形成的字符序列中含有预先确定的异常数据的频繁模式,则该字符序列存在异常。由此,能够检测出测量数据的与所述字符序列对应的相应分段存在异常。
利用按照本发明的异常检测方法能解决现有的异常检测技术无法处理不规则的时间序列数据的问题。按照本发明,在对不规则采样的测量数据进行截取、分段、字符表示和判断的过程中,保持数据按照采样发生的先后顺序排列。本发明应用改进的符号化方法判断频繁模式的存在与否来检测不规则时间序列是否为异常序列。因此,相对于现有技术,本发明一方面能够检测不规则采样的时间序列。另一方面,按照本发明的方法考虑了测量数据发生的先后顺序,从而所形成的字符序列包含了测量数据在不同采样时刻的变化趋势,由此可以识别出趋势性的异常。所述趋势性的异常是指测量数据在时间序列中的趋势改变、例如突然的增大或减小。此外,本发明同样可以应用于规则的时间序列数据检测上。
按照本发明的一种实施方式,所述预先确定的聚类簇通过对训练数据中的具有所述固定的滑动窗口大小的各个子时间序列的所有分段的特征向量使用聚类算法得到,并且为每个聚类簇配设一个字符。所述训练数据是已标记为正常或异常的历史数据。按照本发明,对于所述训练数据同样进行截取和划分,从而得出具有固定的滑动窗口大小的各个子时间序列的所有分段的特征向量。在此可以应用如K-means聚类算法,层次聚类算法,SOM聚类算法,FCM聚类算法等。特别是,在K-means聚类算法中,例如随机选取多个特征向量作为初始的聚类中心,然后计算每个特征向量与各个聚类中心之间的距离,从而把每个特征向量分配给距离它最近的聚类中心。在此,所述距离同样可以是欧式距离、曼哈顿距离、切比雪夫距离、马氏距离等。每分配一个特征向量,聚类的聚类中心会根据聚类中现有的特征向量被重新计算。这个过程将不断重复直到满足终止条件。由此,利用所述聚类算法可以将训练数据划分到所述多个聚类簇中。每个聚类簇中的特征向量具有相似的特征。
为了提高聚类的效果,可以预定聚类簇的个数。聚类簇的个数能够体现聚类算法的精确度,随着聚类簇个数的增加,所述训练数据的特征向量被更精细地划分,每个聚类簇的聚合程度会逐渐提高,从而被划分到一个聚类簇中的特征向量具有更高的相似性。然而并不是聚类个数越多越好,因此在实际应用中需要尝试不同的聚类个数值从而选择最佳的聚类个数参数值。
然后,为每个聚类簇配设一个字符。因此,可以将训练数据中的每个特征向量用相应的字符表示,一方面降低了数据维度和因此降低了数据处理的复杂性,提高计算效率;另一方面,利用字符序列代替子时间序列中的原始数据能直观地观察数据之间的相似特征。
按照本发明的一种实施方式,所述预先确定的频繁模式通过对表示训练数据各个子时间序列的字符序列挖掘而产生。频繁模式是指频繁地出现在数据集中的模式。在此,训练数据的子时间序列已经用字符序列表示,所以所述频繁模式是指在训练数据中频繁出现的字符项。所述字符项可以包括字符序列中的一个或多个字符。挖掘出的频繁模式与在训练数据中频繁出现的数据分布特征相对应。
按照本发明的一种实施方式,使用PrefixSpan挖掘所述频繁模式。在所述PrefixSpan算法中,定义位于字符序列前部的子序列为前缀,在同一字符序列中,位于前缀后部的子序列定义为后缀。在训练数据的多个字符序列中,对于同一前缀的所有后缀形成投影数据库。在此设置最小支持度,当挖掘出的模式满足最小支持度时、即挖掘出的模式的后缀的个数超过最小支持度时,则所述模式为频繁模式。所述PrefixSpan算法包括如下步骤:
—以与所述聚类簇对应的不同字符分别作为前缀,对训练数据的多个字符序列进行挖掘,得到该前缀的投影数据库;
—对每个前缀的后缀进行计数,即对投影数据库的序列个数进行计数,如果后缀的个数无法达到最小支持度,将去除投影数据库中的相应的字符,然后按照上述步骤对投影数据库存在的字符继续挖掘;
—重复上述步骤,直至不能挖掘出更长的前缀或直至达到限制的频繁模式个数,由此所述前缀构成频繁模式。
该所述PrefixSpan算法不仅能够挖掘出频繁出现的字符项,而且因为仅对后缀形成的投影数据库进行挖掘,所以在挖掘过程中考虑了字符出现的顺序。因此在测量数据的时间序列进行频繁模式挖掘时,挖掘出的频繁模式能够反映所采集的测量数据的时序。
按照本发明的一种实施方式,使用标记为正常的训练数据来挖掘正常频繁模式,和/或使用标记为异常的训练数据来挖掘异常频繁模式。训练数据已就其正常或异常的属性进行标记。在此,在挖掘正常的频繁模式时,仅使用标记为正常的训练数据。由此,得到在正常的数据中频繁出现的数据分布。如果在测试数据的字符序列中没有识别出的正常的频繁模式,则认为所述字符序列存在异常。备选地,在挖掘异常的频繁模式时,仅使用标记为异常的训练数据,而不考虑标记为正常的数据。由此获得的频繁模式是在数据出现异常时经常出现的分布情况,由此当测试数据的字符序列中存在所挖掘的异常的频繁模式时,可以直接判断该字符序列对应的数据存在异常。
按照本发明的一种实施方式,所述方法还包括预处理步骤,在所述步骤中,去除所述时间序列中的噪音值和重复值。例如当检测设备出现故障时,则导致所测量的数据值明显超过预定的范围,从而产生噪音值。去除所述噪音值能够消除设备故障等环境因素引起的干扰。例如在生产线上对不同的对象进行检测时,所述对象在生产线的检测站上被测量。在此,去除重复值能够避免针对同一对象的多次测量。
按照本发明的一种实施方式,所述特征向量是每个分段的至少一个统计特征,所述统计特征包括平均值、标准偏差、线性拟合斜率、最大值、最小值、方差、偏度、峰度、一阶差分值等等。利用所述统计特征可以表示所述在子时间序列的分段中的测量数据的分布。例如利用平均值可以描述测量数据的集中量,利用标准偏差可以描述测量数据的差异情况或离散程度,利用线性拟合斜率可以反映测量数据在变化幅度。
按照本发明的一种实施方式,所述测量数据为传感器数据、网络流量数据、交易数据、生物数据、工业机器数据。在检测数据为传感器数据的情况下,利用按照本发明的方法能识别出传感器数据的异常,例如在进行车辆底盘数据测试时,通过从传感器获取的车辆的前束角、主销内倾角、主销后倾角或车轮外倾角数据可以进行车辆底盘的异常检测。在检测数据为网络流量数据的情况下,可以检测网络流量数据的异常,从而从中找到网络侵入者,识别入侵模式。在检测数据为交易数据的情况下,能检测出交易数据中的异常,从而发现恶意买家,因此例如能够识别恶意刷屏的行为。在检测数据为生物数据的情况下,能检测出生物数据的异常,从而检测病变或突变。在检测数据为工业机器数据时,可以从对工业进行监控的数据中检测出工业机器的异常,实现对工业机器状态的监控。
按照本发明的第二方面涉及一种计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实施上述用于不规则采样的测量数据的时间序列的异常检测的方法。
按照本发明的第三方面涉及一种用于不规则采样的测量数据的时间序列的异常检测系统,所述系统包括:
-截取模块,用于根据固定的滑动窗口大小截取子时间序列;
-分段模块,用于将所述子时间序列划分为多个分段,并且分别计算各个分段的特征向量;
-归类模块,用于使用最近邻算法将每个特征向量分别归入到预先确定的聚类簇中;
-字符表示模块,用于以对该聚类簇所预定义的字符表示该特征向量并且以此为所截取的子时间序列形成字符序列;
-判断模块,用于通过判断所形成的字符序列是否含有预先确定的频繁模式来检测其是否异常。
按照本发明的一种实施方式,所述异常检测系统还包括聚类模块,所述聚类模块用于对所述通过对训练数据中的具有所述固定的滑动窗口大小的各个子时间序列的所有分段的特征向量使用聚类算法得到所述预先确定的聚类簇,并且为每个聚类簇配设一个字符。
按照本发明的一种实施方式,所述异常检测系统包括频繁模式挖掘模块,所述频繁模式挖掘模块用于通过对表示训练数据各个子时间序列的字符序列挖掘而产生所述预先确定的频繁模式。
按照本发明的一种实施方式,所述频繁模式挖掘模块使用PrefixSpan挖掘所述频繁模式。可选地,所述频繁模式挖掘模块还可以使用AprioriAll、GSP、FreeSpan等序列频繁模式挖掘算法。
按照本发明的一种实施方式,所述异常检测系统还包括预处理模块,所述预处理模块用于去除所述时间序列中的噪音值和重复值。
对于按照本发明一个方面的各实施方式、功能、优势和效果以相应的方式也适用于按照本发明其他方面。
附图说明
图1示出一种用于不规则采样的测量数据的时间序列的异常检测方法的一种实施方式的流程图;
图2示出一种用于不规则采样的测量数据的时间序列的异常检测方法的一种实施方式的流程图;
图3示出一种用于不规则采样的测量数据的时间序列的异常检测方法的一种实施方式的示意图;
图4示出形成聚类簇的细节图;
图5示出一种用于形成子时间序列的各个分段的特征向量的示意图;
图6示出一种用于不规则采样的测量数据的时间序列的异常检测的系统。
具体实施方式
图1示出一种用于不规则采样的测量数据的时间序列的异常检测方法的一种实施方式的流程图。所述方法100包括:
步骤101:根据固定的滑动窗口大小截取子时间序列;
步骤102:将所述子时间序列划分为多个分段,并且分别计算各个分段的特征向量;
步骤103:使用最近邻算法将每个特征向量分别归入到预先确定的聚类簇中并且以对该聚类簇所预定义的字符表示该特征向量,从而为所截取的子时间序列形成字符序列;
步骤104:通过判断所形成的字符序列是否含有预先确定的频繁模式来检测其是否异常。
在此,所述测量数据为传感器数据、网络流量数据、交易数据、生物数据、工业机器数据。可选地,所述特征向量可以是每个分段的至少一个统计特征,所述统计特征包括平均值、标准偏差、线性拟合斜率、最大值、最小值、方差、偏度、峰度、一阶差分值等等。
图2示出一种用于不规则采样的测量数据的时间序列的异常检测方法100’的一种实施方式的流程图。在此,图2中也包含了图1中所示的用于不规则采样的测量数据的时间序列的异常检测方法100的步骤101至104。对这些步骤的描述参见对图1的说明。
在步骤101之前附加地包括预处理步骤105,所述步骤用于去除所述测量数据时间序列中的噪音值和重复值。
除此之外,图2所示的实施例也包含了对于训练数据进行频繁模式挖掘的步骤105’、101’、102’、103’、104’。类似于预处理步骤105,在步骤105’中首先去除所述训练数据时间序列中的噪音值和重复值。接着在步骤101’中,根据固定的滑动窗口大小对训练数据截取子时间序列。在步骤102’中,同样将对训练数据所截取的子时间序列划分为多个分段,并且分别计算各个分段的特征向量。在步骤103’中通过对训练数据中的所有分段的特征向量使用聚类算法得到各个聚类簇,并且为每个聚类簇配设一个字符。在此,通过使用聚类算法得到的聚类簇即为用于不规则采样的测量数据的时间序列的异常检测中的预先确定的聚类簇。此外,在该步骤中所配设的字符即为对该聚类簇所预定义的字符。可选地,可以预定聚类簇的个数和/或密度阈值。接着在步骤104’中,通过对表示训练数据各个子时间序列的字符序列挖掘来产生频繁模式。在此,所产生的频繁模式即为用于不规则采样的测量数据的时间序列的异常检测中的预先确定的频繁模式。在此例如使用PrefixSpan挖掘所述频繁模式。特别是,使用标记为正常的训练数据来挖掘正常频繁模式,和/或使用标记为异常的训练数据来挖掘异常频繁模式。
需要说明的是,按照本发明的方法的各个步骤可以不按照实施例所示的顺序进行。
借助图3示出所述方法100’来处理数据进行异常检测的示意图。在此以长度为44113*2的不规则采样的车辆前束角的时间序列为示例。在经过预处理步骤105和/或105’后,去除所述前束角的时间序列中的噪音值和重复值,获得长度为44107*2的时间序列1。然后,按照步骤101和/或101’,根据窗口大小为100、重叠大小为50的滑动窗口2截取子时间序列3,由此获得1762条子时间序列。其中,所述子时间序列3中包含29条异常的子时间序列和1733条正常的子时间序列。。在此,将所述子时间序列3分成两部分:训练集、即上述训练数据,其用于确定聚类簇和频繁模式以及测试集、即待检测的上述测量数据。在所述训练集中仅包含正常的子时间序列,所述训练集用于产生正常的频繁模式,而测试集中可能既包含正常的子时间序列也包含异常的子时间序列,对所述测试集实施所述方法100’能够检测其是否异常。在此,在训练集中包含1039条子时间序列,而测试集中包含694条正常的子时间序列和29条异常的子时间序列。
首先,从训练集中挖掘频繁模式。依据步骤102’将训练集中的每个子时间序列划分为多个分段4,并且分别计算各个分段的特征向量(xi,yi,zi)。所述特征向量是每个分段的统计特征,在当前的实施例中,xi表示当前分段中的平均值,yi是当前分段的标准偏差,zi当前分段的线性拟合斜率。按照步骤103’,通过对所有分段的特征向量使用聚类算法得到各个聚类簇。在此,所述聚类簇的聚类个数设置为8,即将训练集中所有分段的特征向量都归入到所设置的8个聚类簇中。为这8个聚类簇分别配设字符a至h之一。由此为所截取的各个子时间序列分别形成字符序列6。例如图3所示的字符序列<a,a,a,a,a,h,h,a,a,g>,<a,h,a,a,a,a,h,h,h,h>,<a,a,h,a,a,a,a,h,e,b>等。接着根据按照步骤104’对这些字符序列挖掘频繁模式。在当前的实施例中,通过PrefixSpan对所形成的字符序列挖掘产生频繁模式,其中,设置频繁模式的个数为15个。如图3所示,挖掘到的频繁模式包括<a,a,a,a>,<a,h,a,a>,<a,a,h,e,b>等等。
在已预先确定聚类簇和频繁模式的情况下,可以实施用于不规则采样的测量数据的时间序列的异常检测方法100。在此,如图3所示,对测试集的子时间序列实施步骤102:将所述子时间序列划分为多个分段,并且分别计算各个分段的特征向量。接着按照步骤103,使用最近邻算法将测试集中的每个特征向量(xi,yi,zi)分别归入到预先确定的聚类簇中,并且以对该聚类簇所预定义的字符a至h表示该特征向量,从而为所截取的子时间序列形成字符序列。对于图3所示的子时间序列形成的字符序列为<f,b,b,b,b,f,f,b,f>。最后,通过判断测试集中所形成的字符序列是否含有预先确定的频繁模式来检测其是否异常。在此,可以逐一比对在此所形成的字符序列与上述确定的频繁模式。最终在本示例中从测试集中检测出27条异常的子时间序列和655条正常的子时间序列。
在此,通过检测率DR和假正率FPR对所述测试集的检测结果进行评价。所述检测率是指被正确检测出的异常与异常总数的比值,因此在当前的实施例中,检测率DR=27/29=0.93。实施假正率是指误分类为异常的正常子时间序列数与正常子时间序列总数的比值。对于本示例,假正率FPR=39/694=0.056。由此证明了,按照本发明的方法能够有效地检测出不规则采样的测量数据的时间序列的异常。
图4详细示出所形成的聚类簇的细节图。在当前的实施例中,所述聚类簇使用K-means聚类算法从训练数据得到。在检测测量数据时,可以计算每个特征向量与各个聚类中心之间的距离,从而把每个特征向量分配给距离它最近的聚类中心,并且为每个聚类簇配设预定义的字符。在当前的实施例中,将所述各特征向量分配到8个聚类簇中,并且用字符a至h分别表示这些聚类簇。
图5示出一种用于形成子时间序列3的各个分段4的特征向量的示意图。在此,以包含12个测量数据的子时间序列为例,将所述子时间序列3三个一组地划分为四个分段,每个分段的长度为3。所述特征向量是每个分段的至少一个统计特征。在当前的实施例中,所述统计特征是平均值、标准偏差、线性拟合斜率。也可设想的是,所述统计特征还包括每个分段的最大值、最小值、方差、偏度、峰度、一阶差分值。由此,利用所述统计特征可以表示所述在子时间序列的分段中的测量数据的分布。
图5示出一种用于不规则采样的测量数据的时间序列的异常检测的系统200。所述系统包括:
-截取模块201,用于根据固定的滑动窗口大小截取子时间序列;
-分段模块202,用于将所述子时间序列划分为多个分段,并且分别计算各个分段的特征向量;
-归类模块203,用于使用最近邻算法将每个特征向量分别归入到预先确定的聚类簇中;
-字符表示模块204,用于以对该聚类簇所预定义的字符表示该特征向量并且以此为所截取的子时间序列形成字符序列;
-判断模块205,用于通过判断所形成的字符序列是否含有预先确定的频繁模式来检测其是否异常。
此外,所述系统200还可以包括聚类模块206,所述聚类模块用于对所述通过对训练数据中的具有所述固定的滑动窗口大小的各个子时间序列的所有分段的特征向量使用聚类算法得到所述预先确定的聚类簇,并且为每个聚类簇配设一个字符。
附加地,所述系统200还包括频繁模式挖掘模块207,所述频繁模式挖掘模块用于通过对表示训练数据各个子时间序列的字符序列挖掘而产生所述预先确定的频繁模式。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (15)
1.用于不规则采样的测量数据的时间序列的异常检测方法,所述方法包括如下步骤:
-根据固定的滑动窗口大小截取子时间序列;
-将所述子时间序列划分为多个分段,并且分别计算各个分段的特征向量;
-使用最近邻算法将每个特征向量分别归入到预先确定的聚类簇中并且以对该聚类簇所预定义的字符表示该特征向量,从而为所截取的子时间序列形成字符序列;
-通过判断所形成的字符序列是否含有预先确定的频繁模式来检测其是否异常。
2.按照权利要求1所述的异常检测方法,其特征在于,所述预先确定的聚类簇通过对训练数据中的具有所述固定的滑动窗口大小的各个子时间序列的所有分段的特征向量使用聚类算法得到,并且为每个聚类簇配设一个字符。
3.按照权利要求2所述的异常检测方法,其特征在于,预定聚类簇的个数。
4.按照权利要求2或3所述的异常检测方法,其特征在于,所述预先确定的频繁模式通过对表示训练数据各个子时间序列的字符序列挖掘而产生。
5.按照权利要求4所述的异常检测方法,其特征在于,使用PrefixSpan挖掘所述频繁模式。
6.按照权利要求1至5之一所述的异常检测方法,其特征在于,所述方法还包括预处理步骤,在所述步骤中,去除所述时间序列中的噪音值和重复值。
7.按照权利要求1至6之一所述的异常检测方法,其特征在于,所述特征向量是每个分段的至少一个统计特征,所述统计特征包括平均值、标准偏差、线性拟合斜率、最大值、最小值、方差、偏度、峰度、一阶差分值。
8.按照权利要求4至7之一所述的异常检测方法,其特征在于,使用标记为正常的训练数据来挖掘正常频繁模式,和/或使用标记为异常的训练数据来挖掘异常频繁模式。
9.按照权利要求1至8之一所述的异常检测方法,其特征在于,所述测量数据为传感器数据、网络流量数据、交易数据、生物数据、工业机器数据。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实施权利要求1至9之一所述的用于不规则采样的测量数据的时间序列的异常检测的方法。
11.用于不规则采样的测量数据的时间序列的异常检测系统,所述系统包括:
-截取模块,用于根据固定的滑动窗口大小截取子时间序列;
-分段模块,用于将所述子时间序列划分为多个分段,并且分别计算各个分段的特征向量;
-归类模块,用于使用最近邻算法将每个特征向量分别归入到预先确定的聚类簇中;
-字符表示模块,用于以对该聚类簇所预定义的字符表示该特征向量并且以此为所截取的子时间序列形成字符序列;
-判断模块,用于通过判断所形成的字符序列是否含有预先确定的频繁模式来检测其是否异常。
12.按照权利要求11所述的异常检测系统,其特征在于,所述异常检测系统还包括聚类模块,所述聚类模块用于对所述通过对训练数据中的具有所述固定的滑动窗口大小的各个子时间序列的所有分段的特征向量使用聚类算法得到所述预先确定的聚类簇,并且为每个聚类簇配设一个字符。
13.按照权利要求11或12所述的异常检测系统,其特征在于,所述异常检测系统包括频繁模式挖掘模块,所述频繁模式挖掘模块用于通过对表示训练数据各个子时间序列的字符序列挖掘而产生所述预先确定的频繁模式。
14.按照权利要求13所述的异常检测系统,其特征在于,所述频繁模式挖掘模块使用PrefixSpan挖掘所述频繁模式。
15.按照权利要求11至14之一所述的异常检测系统,其特征在于,所述异常检测系统还包括预处理模块,所述预处理模块用于去除所述时间序列中的噪音值和重复值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010274173.8A CN113515554A (zh) | 2020-04-09 | 2020-04-09 | 用于不规则采样的时间序列的异常检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010274173.8A CN113515554A (zh) | 2020-04-09 | 2020-04-09 | 用于不规则采样的时间序列的异常检测方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113515554A true CN113515554A (zh) | 2021-10-19 |
Family
ID=78060336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010274173.8A Pending CN113515554A (zh) | 2020-04-09 | 2020-04-09 | 用于不规则采样的时间序列的异常检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515554A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271677A (zh) * | 2023-09-28 | 2023-12-22 | 大作(江苏)云科技有限公司 | 一种基于云计算的数据处理方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205113A (zh) * | 2015-09-01 | 2015-12-30 | 西安交通大学 | 一种时序数据异常变化过程的挖掘系统及方法 |
CN105205111A (zh) * | 2015-09-01 | 2015-12-30 | 西安交通大学 | 一种挖掘时序数据故障模式的系统及方法 |
CN105721427A (zh) * | 2016-01-14 | 2016-06-29 | 湖南大学 | 一种从Web日志中挖掘攻击频繁序列模式的方法 |
CN108509979A (zh) * | 2018-02-28 | 2018-09-07 | 努比亚技术有限公司 | 一种异常检测方法、服务器及计算机可读存储介质 |
CN109685125A (zh) * | 2018-12-14 | 2019-04-26 | 大连海事大学 | 基于频繁传感器事件序列的日常行为特征挖掘及计算方法 |
CN110018670A (zh) * | 2019-03-28 | 2019-07-16 | 浙江大学 | 一种基于动态关联规则挖掘的工业过程异常工况预测方法 |
CN110032490A (zh) * | 2018-12-28 | 2019-07-19 | 中国银联股份有限公司 | 用于检测系统异常的方法及其装置 |
CN110532297A (zh) * | 2019-08-01 | 2019-12-03 | 河海大学 | 一种基于层次聚类的符号化水文时间序列异常模式检测方法 |
-
2020
- 2020-04-09 CN CN202010274173.8A patent/CN113515554A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205113A (zh) * | 2015-09-01 | 2015-12-30 | 西安交通大学 | 一种时序数据异常变化过程的挖掘系统及方法 |
CN105205111A (zh) * | 2015-09-01 | 2015-12-30 | 西安交通大学 | 一种挖掘时序数据故障模式的系统及方法 |
CN105721427A (zh) * | 2016-01-14 | 2016-06-29 | 湖南大学 | 一种从Web日志中挖掘攻击频繁序列模式的方法 |
CN108509979A (zh) * | 2018-02-28 | 2018-09-07 | 努比亚技术有限公司 | 一种异常检测方法、服务器及计算机可读存储介质 |
CN109685125A (zh) * | 2018-12-14 | 2019-04-26 | 大连海事大学 | 基于频繁传感器事件序列的日常行为特征挖掘及计算方法 |
CN110032490A (zh) * | 2018-12-28 | 2019-07-19 | 中国银联股份有限公司 | 用于检测系统异常的方法及其装置 |
CN110018670A (zh) * | 2019-03-28 | 2019-07-16 | 浙江大学 | 一种基于动态关联规则挖掘的工业过程异常工况预测方法 |
CN110532297A (zh) * | 2019-08-01 | 2019-12-03 | 河海大学 | 一种基于层次聚类的符号化水文时间序列异常模式检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271677A (zh) * | 2023-09-28 | 2023-12-22 | 大作(江苏)云科技有限公司 | 一种基于云计算的数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | An incorrect data detection method for big data cleaning of machinery condition monitoring | |
CN111353482B (zh) | 一种基于lstm的疲劳因子隐性异常检测及故障诊断方法 | |
CA2401685C (en) | Complex signal decomposition and modeling | |
Jablonski et al. | Modeling of probability distribution functions for automatic threshold calculation in condition monitoring systems | |
WO1998047009A2 (en) | Statistical pattern analysis methods of partial discharge measurments in high voltage insulation | |
KR102051226B1 (ko) | 원전 설비의 예측 진단 방법 및 시스템 | |
CN115982602B (zh) | 一种光伏变压器电故障检测方法 | |
US10636133B2 (en) | Automated optical inspection (AOI) image classification method, system and computer-readable media | |
CN109993222B (zh) | 数据异常检测系统及方法 | |
CN115311629B (zh) | 一种折弯机的异常折弯精度监测系统 | |
CN112911627A (zh) | 无线网络性能检测方法、装置以及存储介质 | |
CN112380992B (zh) | 一种加工过程监控数据准确性评估与优化方法及装置 | |
CN111797889A (zh) | 基于分段线性表示的单变量报警系统性能评价方法及系统 | |
CN112416662A (zh) | 多时间序列数据异常检测方法与装置 | |
CN116047164A (zh) | 一种电动汽车绝缘电阻异常的检测方法和检测装置 | |
CN113515554A (zh) | 用于不规则采样的时间序列的异常检测方法和系统 | |
US7958062B2 (en) | Method and system of creating health operating envelope for dynamic systems by unsupervised learning of a sequence of discrete event codes | |
CN116810493A (zh) | 基于数据驱动的数控机床防碰撞检测方法及系统 | |
JP6457728B2 (ja) | 層流煙検出装置および層流煙検出方法 | |
KR102028845B1 (ko) | 원전설비의 예측 진단 방법 및 시스템 | |
CN110543908B (zh) | 一种基于动态观测窗口的控制图模式识别方法 | |
Muravyov et al. | Weld Defects Automatic Visual Recognition by Combined Application of Canny Edge Detector and Interval Fusion with Preference Aggregation | |
CN114490797A (zh) | 一种时间序列的定性趋势分析方法和装置 | |
US20040175943A1 (en) | System and method of pattern detection for semiconductor wafer map data | |
JP2021111034A (ja) | 異常検知プログラム、異常検知方法、および情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |