CN111259269A - 基于时间序列数据的异常点检测方法、设备和存储介质 - Google Patents
基于时间序列数据的异常点检测方法、设备和存储介质 Download PDFInfo
- Publication number
- CN111259269A CN111259269A CN202010025381.4A CN202010025381A CN111259269A CN 111259269 A CN111259269 A CN 111259269A CN 202010025381 A CN202010025381 A CN 202010025381A CN 111259269 A CN111259269 A CN 111259269A
- Authority
- CN
- China
- Prior art keywords
- time
- data
- frequency signal
- series data
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 59
- 238000001514 detection method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 238000005065 mining Methods 0.000 claims abstract description 20
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000012935 Averaging Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 150000001875 compounds Chemical class 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Mathematical Physics (AREA)
- Technology Law (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于时间序列数据的异常点检测方法、设备和存储介质,所述方法包括:步骤S1、获取时间序列数据。步骤S2、采用离散小波变换对所述时间序列数据进行分解,得到近似分量部分和细节分量部分。步骤S3、采用异常挖掘算法定位所述时间序列数据中的所述细节分量部分中的异常点。本发明使用离散小波变换的多尺度分解特性,并改进了一种异常挖掘算法,与传统异常检测方法相比,能较好的降低均方根误差,提高准确性。
Description
技术领域
本发明属于大数据技术领域,特别涉及一种基于时间序列数据的异常点检测方法、设备和存储介质。
背景技术
伴随着大数据时代的到来,云计算、物联网等各种新兴的主题应运而生,其中,从海量数据中挖掘出人们最终需要的潜在数据变得越来越重要。传统的数据挖掘主要关注的是内含大量数据的数据模型,而对异常数据的检测关注较少。其实,分析和挖掘有用的数据固然重要,但出现重要数据偏差的异常值中也包含大量有用的信息,可以对数据造成影响,使数据变得畸形,从而无法得到正确的结果,同样不可忽略。
现有技术中关于异常点检测方法通常具有以下几种:
(一)有相关人士提出交叉上市券商AH溢价异常点检测方法,通过对异常收益进行多元横截面回归分析,找出影响收益的因素,然而,该方法在对时间窗的选择上存在问题,因为不同的选择可能会对分析结果产生不同的影响。
(二)基于某点到它的第K个最近临界点的距离的异常点检测技术,该方法可操作性强,不需要人为设置参数,然而,当遇到类似股票这种大的数据集时,时间复杂度高。
(三)基于统计的异常数据挖掘方法,可以通过建立概率分布模型来呈现数据的总体特征,进而发现数据中的异常点数据,但是该方法必须预先知道数据的分布情况,对于高维数据,很难估计真实的分布,如果直接应用于时间序列数据,效果可能不太理想。
发明内容
本发明的目的在于提供一种基于时间序列数据的异常点检测方法、设备和存储介质,该方法使用离散小波变换的多尺度分解特性,并改进了一种异常挖掘算法,与传统异常检测方法相比,能较好的降低均方根误差,提高准确性。
为了实现以上目的,本发明通过以下技术方案实现:
一种基于时间序列数据的异常点检测方法,包括:
步骤S1、获取时间序列数据;
步骤S2、采用离散小波变换对所述时间序列数据进行分解,得到近似分量部分和细节分量部分;
步骤S3、采用异常挖掘算法定位所述时间序列数据中的所述细节分量部分中的异常点。
可选地,所述步骤S2包括:基于所述离散小波变换的原理;
步骤S2.1、对所述时间序列数据分别通过第一低通滤波器和第一高通滤波器进行滤波处理,得到第一低频信号和第一高频信号;
步骤S2.2、对所述第一高频信号进行降采样处理得到一层系数;
步骤S2.3、对所述第一低频信号进行降采样处理之后,
分别通过第二低通滤波器和第二高通滤波器进行滤波处理,得到第二低频信号和第二高频信号;
步骤S2.4、对所述第二高频信号进行降采样处理得到二层系数;
步骤S2.5、对所述第二低频信号进行降采样处理之后,
分别通过第三低通滤波器和第三高通滤波器进行滤波处理,得到第三低频信号和第三高频信号;
依此类推,直到分解次数达到预设的N次;则
步骤S2.N、对第N-1低频信号进行降采样处理之后,
分别通过第N低通滤波器和第N高通滤波器进行滤波处理,得到第N低频信号和第N高频信号;所述第N低频信号和所述第N高频信号组成N层系数。
可选地,所述一层系数为第一细节分量;所述二层系数为第二细节分量;所述N层系数包括一第N细节分量和一近似分量;
所述细节分量部分包括第一~第N细节分量;
所述近似分量部分包括一所述近似分量。
可选地,所述步骤S3包括:采用均生函数求待检测的时间序列数据的细节分量部分的收市价均值;
所述时间序列数据的所述细节分量部分中包括若干个样本,每一样本至少包括时间节点、与所述时间节点一一对应的收市价和交易量信息;
所述均生函数如下:
式中,表示从i时刻起以间隔为l对收市价求均值;i=1,······,l表示所述时间序列数据的细节分量部分中的时间点值;Nl时间序列数据的细节分量部分中的总样本个数;j表示样本从0开始的取值,x表示函数;
将时间序列数据的细节分量部分分别按照预设的序列长度L进行划分,得到若干个子序列,每一子序列与所述序列长度和时间序列数据的细节分量部分中的初始收市价的价格取值位置有关,根据所述均生函数计算每一所述子序列的收市价均值,直到将所述子序列的收市价均值全部计算完毕,得到待检测的时间序列数据的细节分量部分的均生值矩阵H:
式中,分别表示初始收市价从第一天开始取值且序列长度分别取1~L时所述子序列的收市价均值;分别表示初始收市价从第二天开始取值且序列长度分别取1~L时所述子序列的收市价均值;依此类推,表示初始收市价从第L天开始取值且序列长度取L时所述子序列的收市价均值。
可选地,所述步骤S3还包括:将待检测的所述时间序列数据中所包含的所有时间数据与所述均生值矩阵进行差值运算,得到与所述时间数据个数相同的差值;
将每个所述差值均与所述预设阈值相比较,若当前比较的所述差值小于或等于所述预设阈值时,则与当前比较的所述差值相对应的所述时间数据的时间点为正常点;
若当前比较的所述差值大于所述预设阈值时,则与当前比较的所述差值相对应的所述时间数据的时间点为异常点。
可选地,还包括:步骤S4、当检测到所述异常点时,采用与所述异常点相邻的两个时间点的时间数据的均值作为修正数据对该异常点进行修正。
可选地,所述时间序列数据包括金融时间序列数据。
另一方面,本发明还提供一种电子设备,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上文所述的方法。
再一方面,本发明还提供一种可读存储介质,所述可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现如上文所述的方法。
本发明与现有技术相比具有以下优点:
本发明一种基于时间序列数据的异常点检测方法,包括:步骤S1、获取时间序列数据。步骤S2、采用离散小波变换对所述时间序列数据进行分解,得到近似分量部分和细节分量部分。步骤S3、采用异常挖掘算法定位所述时间序列数据中的所述细节分量部分中的异常点。由此可知,本发明将异常点检测技术应用于特殊的时间序列数据,特别是对金融时间序列数据处理和异常点挖掘的结合做了一次有意义的尝试和实践。借助小波变换能量集中的优势,使用离散小波变换对时间序列数据集进行分解;再在原数据预处理的基础上应用异常挖掘算法,通过该算法,可以找到时间序列数据中的异常点,通过对该异常点所对应的时间点的时间数据进行修正处理,降低了误差,提高了数据应用的准确率,从而使例如股票趋势预测变得更加准确。因此本发明致力于时间序列异常数据的研究,非常有普适意义。
附图说明
图1为本发明一实施例提供的一种基于时间序列数据的异常点检测方法的流程图;
图2为本发明一实施例提供的一种基于时间序列数据的异常点检测方法中的离散小波变换过程的流程图;
图3为本发明一实施例提供的一种基于时间序列数据的异常点检测方法中的离散小波变换得到的细节分量部分和近似分量部分的拟合曲线的示意图;
图4为将未经本发明方法处理的原始数据做回归模型预测得到的结果示意图;
图5为使用本发明方法处理之后的数据进行回归预测得到的结果示意图;
图6为本发明一实施例提供的电子设备的结构框图。
具体实施方式
以下结合附图1~6和具体实施方式对本发明提出的一种基于时间序列数据的异常点检测方法、设备和存储介质作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需要说明的是,附图采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂,请参阅附图。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合图1~图5所示,本实施例一种基于时间序列数据的异常点检测方法,包括:
步骤S1、获取时间序列数据;
步骤S2、采用离散小波变换对所述时间序列数据进行分解,得到近似分量部分和细节分量部分。
具体的,请继续参考图2,所述步骤S2包括:基于所述离散小波变换的原理;步骤S2.1、对所述时间序列数据分别通过第一低通滤波器和第一高通滤波器进行滤波处理,得到第一低频信号和第一高频信号。
步骤S2.2、对所述第一高频信号进行降采样处理得到一层系数。
步骤S2.3、对所述第一低频信号进行降采样处理之后,分别通过第二低通滤波器和第二高通滤波器进行滤波处理,得到第二低频信号和第二高频信号。
步骤S2.4、对所述第二高频信号进行降采样处理得到二层系数。
步骤S2.5、对所述第二低频信号进行降采样处理之后,分别通过第三低通滤波器和第三高通滤波器进行滤波处理,得到第三低频信号和第三高频信号。
依此类推,直到分解次数达到预设的N次;则步骤S2.N、对第N-1低频信号进行降采样处理之后,分别通过第N低通滤波器和第N高通滤波器进行滤波处理,得到第N低频信号和第N高频信号;所述第N低频信号和所述第N高频信号组成N层系数。在本实施例中,所述一层系数为第一细节分量;所述二层系数为第二细节分量;所述N层系数包括一第N细节分量和一近似分量;所述细节分量部分包括第一~第N细节分量;所述近似分量部分包括一所述近似分量。
由此可知,待检测的所述时间序列数据中的大部分数据都被保留在近似分量部分中,所以保留低频信号的全部小波系数(经过几次降采样处理就会有几次的所述小波系数),而对高频信号的所有小波系数(经过几次降采样处理就会有几次的所述小波系数)进行非线性处理。
由于离散小波变换素有“数学显微镜”之称,可以在时域和频域同时给出信号的良好局部表示,有效捕捉数据中的异常和变化趋势。离散小波变换的定义表示如下:
所述降采样处理包括采用卷积神经网络进行卷积计算以及抽样处理。如此经过N层分解(N次滤波+降采样处理),使得待检测的所述时间序列数据便被分解成两部分,一部分是和分解层数一样多的所述细节分量部分,另一部分是不管经过几层分解,永远只有一个的所述近似分量部分。请继续参考附图3如下结论:时间上对应的细节分量中的点,幅值波动频率越大,对应附图3中的偏离程度就越明显。由此可见,在对时间序列进行异常点检测时,使用离散小波变换方法界定异常范围,将得到的细节分量作为异常挖掘算法的研究对象是非常合理的。
步骤S3、采用异常挖掘算法定位所述时间序列数据中的所述细节分量部分中的异常点。
优选地,所述步骤S3包括:采用均生函数求待检测的时间序列数据的细节分量部分的收市价均值;所述时间序列数据的所述细节分量部分中包括若干个样本,每一样本至少包括时间节点、与所述时间节点一一对应的收市价和交易量信息;
所述均生函数如下:
式中,表示从i时刻起以间隔(序列长度)为l对收市价求均值;i=1,······,l表示所述时间序列数据的细节分量部分中的时间点值;Nl时间序列数据的细节分量部分中的总样本个数;j表示样本从0开始的取值,x表示函数。
将时间序列数据的细节分量部分分别按照预设的序列长度L进行划分,得到若干个子序列,每一子序列与所述序列长度和时间序列数据的细节分量部分中的初始收市价的价格取值位置有关,根据所述均生函数计算每一所述子序列的收市价均值,直到将所述子序列的收市价均值全部计算完毕,得到待检测的时间序列数据的细节分量部分的均生值矩阵H:
式中,分别表示初始收市价从第一天开始取值且序列长度分别取1~L时所述子序列的收市价均值;分别表示初始收市价从第二天开始取值且序列长度分别取1~L时所述子序列的收市价均值;依此类推,表示初始收市价从第L天开始取值且序列长度取L时所述子序列的收市价均值。
当l=2时,即为从当前待检测的时间序列数据的细节分量部分中的首个元素开始,以间隔(序列长度)为2的规则依次取当前待检测的时间序列数据的细节分量部分中的元素,所得到的新序列(子序列)的均值。当l=2时, 即为从原序列(当前待检测的时间序列数据的细节分量部分)中的第二个元素开始,以时间间隔(序列长度)为2的规则依次取原序列中的元素,所得到的新序列的均值表示时间间隔为2的均生函数;这里面所述的元素指的是当前待检测的时间序列数据的细节分量部分的收市价或交易价。
本实施例中的异常挖掘算法是在传统异常检测算法的基础上进行的改进的异常挖掘算法。与一般数据相比,时间序列数据没有显著的周期性变化,且具有随机性,由此采用所述均生函数以及均生值矩阵进行所述异常点判断。小波变换把时间序列数据分成两部分:近似分量部分cj,n和细节部分dj,n;cj,n是对低通滤波器进行分析以表示信号的低频信息,其中蕴含了信号的一般性特征并反映序列的常规趋势和方向;dj,n是对高通滤波器进行分析以表示信号的高频部分,它详细表达了信号的差异。采用和进行信号滤波以缩放所述序列长度L(表示输入信号的长度)。
优选地,所述步骤S3还包括:将待检测的所述时间序列数据中所包含的所有时间数据与所述均生值矩阵进行差值运算,得到与所述时间数据个数相同的差值。将每个所述差值均与所述预设阈值相比较,若当前比较的所述差值小于或等于所述预设阈值时,则与当前比较的所述差值相对应的所述时间数据的时间点为正常点。若当前比较的所述差值大于所述预设阈值时,则与当前比较的所述差值相对应的所述时间数据的时间点为异常点。
优选地,还包括:步骤S4、当检测到所述异常点时,采用与所述异常点相邻的两个时间点的时间数据的均值作为修正数据对该异常点进行修正。
优选地,所述时间序列数据包括金融时间序列数据。
本实施例所述的方法相比直接将传统的求均值的方法应用到时间序列数据中,计算得到的结果更理想。改进的异常挖掘算法的核心思想是通过比较待检测的所述时间序列数据和所述均生值矩阵的差值来确定异常点。具体实现方法;使用离散小波变换方法对时间序列数据进行预处理,预处理后得到的时间序列数据的细节分量部分中的噪声信号明显变少,故我们在此基础上再进行异常数据(若干个异常点)提取,结果精确度较高。我们首先将时间序列数据的细节分量部分的样本长度作为异常挖掘算法循环迭代的次数(循环迭代次数=样本个数=时间点数),通过每一循环可以轻松获取每个样本的每个时间点的收市价(可以理解的是,所述时间序列数据中的所述细节分量部分中包括若干个样本数据,每一样本数据至少包括时间节点、与所述时间节点一一对应的收市价和交易量等信息。),将收市价写成到矩阵中,得到收市价的价格矩阵与同时间点的收市均值矩阵(所述均生矩阵)比较差值(这个差值可以为差值矩阵形式存在),如果差值(差值矩阵中的相应的一个差值)的绝对值超过设定的阈值(一般设定为2)该值被视为异常,通过观察该差值在差值矩阵中的位置,从而与价格矩阵中的位置相对应进而实现快速定位时间点,继而得到出现异常的时间节点,即得到异常点在时间序列数据的细节分量部分的位置。
为了验证本实施例的有效性以实际股票交易数据为例进行说明:
实验对象来自于A股市场电子信息板块2016年6月份到2018年12月份的个股数据作为待检测的时间序列数据集,将该时间序列数据集被分成训练集和测试集,其中该时间序列数据集的80%做训练集,该时间序列数据集的20%做测试集,首先使用离散小波变换处理数据,将经变换得到的小波系数作为自回归滑动平均模型的输入,然后加入改进的异常数据挖掘算法,观察得到的预测股票价格错误率的情况。结果如图4和图5所示,其表明,本实施例提出的方法可以有效检测异常值,从而提高预测效果。
由此可知,本实施例将异常点检测技术应用于特殊的时间序列数据,特别是对金融时间序列数据处理和异常点挖掘的结合做了一次有意义的尝试和实践。借助小波变换能量集中的优势,使用离散小波变换对时间序列数据集进行分解;再在原数据预处理的基础上应用异常挖掘算法,通过该算法,可以找到时间序列数据中的异常点,通过对该异常点所对应的时间点的时间数据进行修正处理,降低了误差,提高了数据应用的准确率,从而使例如股票趋势预测变得更加准确。
另一方面,基于同一发明构思,本发明还提供一种电子设备,如图6所示,所述电子设备包括处理器301和存储器303,所述存储器303上存储有计算机程序,所述计算机程序被所述处理器301执行时,实现如上文所述的基于时间序列数据的异常点检测方法。
本实施例提供的电子设备,可以实现降低误差,提高数据应用的准确率,从而使例如股票趋势预测变得更加准确的目的。
继续参考图6,所述电子设备还包括通信接口302和通信总线304,其中所述处理器301、所述通信接口302、所述存储器303通过通信总线304完成相互间的通信。所述通信总线304可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,EISA)总线等。该通信总线304可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。所述通信接口302用于上述电子设备与其他设备之间的通信。
本实施例中所称处理器301可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器301是所述电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分。
所述存储器303可用于存储所述计算机程序,所述处理器301通过运行或执行存储在所述存储器303内的计算机程序,以及调用存储在存储器303内的数据,实现所述电子设备的各种功能。
所述存储器303可以包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
再一方面,基于同一发明构思,本发明还提供了一种可读存储介质,所述可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时可以实现如上文所述的基于时间序列数据的异常点检测方法。
本实施例提供的可读存储介质,可以实现降低误差,提高数据应用的准确率,从而使例如股票趋势预测变得更加准确的目的。
本实施例提供的可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机硬盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其组合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
在本实施例中,可以以一种或多种程序设计语言或其组合来编写用于执行本实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
应当注意的是,在本文的实施方式中所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施方式仅仅是示意性的,例如,附图中的流程图和框图显示了根据本文的多个实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用于执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本文各个实施方式中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
综上所述,本发明一种基于时间序列数据的异常点检测方法,包括:步骤S1、获取时间序列数据。步骤S2、采用离散小波变换对所述时间序列数据进行分解,得到近似分量部分和细节分量部分。步骤S3、采用异常挖掘算法定位所述时间序列数据中的所述细节分量部分中的异常点。由此可知,本发明将异常点检测技术应用于特殊的时间序列数据,特别是对金融时间序列数据处理和异常点挖掘的结合做了一次有意义的尝试和实践。借助小波变换能量集中的优势,使用离散小波变换对时间序列数据集进行分解;再在原数据预处理的基础上应用异常挖掘算法,通过该算法,可以找到时间序列数据中的异常点,通过对该异常点所对应的时间点的时间数据进行修正处理,降低了误差,提高了数据应用的准确率,从而使例如股票趋势预测变得更加准确。因此本发明致力于时间序列异常数据的研究,非常有普适意义。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (9)
1.一种基于时间序列数据的异常点检测方法,其特征在于,包括:
步骤S1、获取时间序列数据;
步骤S2、采用离散小波变换对所述时间序列数据进行分解,得到近似分量部分和细节分量部分;
步骤S3、采用异常挖掘算法定位所述时间序列数据中的所述细节分量部分中的异常点。
2.如权利要求1所述的基于时间序列数据的异常点检测方法,其特征在于,所述步骤S2包括:基于所述离散小波变换的原理;
步骤S2.1、对所述时间序列数据分别通过第一低通滤波器和第一高通滤波器进行滤波处理,得到第一低频信号和第一高频信号;
步骤S2.2、对所述第一高频信号进行降采样处理得到一层系数;
步骤S2.3、对所述第一低频信号进行降采样处理之后,
分别通过第二低通滤波器和第二高通滤波器进行滤波处理,得到第二低频信号和第二高频信号;
步骤S2.4、对所述第二高频信号进行降采样处理得到二层系数;
步骤S2.5、对所述第二低频信号进行降采样处理之后,
分别通过第三低通滤波器和第三高通滤波器进行滤波处理,得到第三低频信号和第三高频信号;
依此类推,直到分解次数达到预设的N次;则
步骤S2.N、对第N-1低频信号进行降采样处理之后,
分别通过第N低通滤波器和第N高通滤波器进行滤波处理,得到第N低频信号和第N高频信号;所述第N低频信号和所述第N高频信号组成N层系数。
3.如权利要求2所述的基于时间序列数据的异常点检测方法,其特征在于,所述一层系数为第一细节分量;所述二层系数为第二细节分量;所述N层系数包括一第N细节分量和一近似分量;
所述细节分量部分包括第一~第N细节分量;
所述近似分量部分包括一所述近似分量。
4.如权利要求3所述的基于时间序列数据的异常点检测方法,其特征在于,所述步骤S3包括:采用均生函数求待检测的时间序列数据的细节分量部分的收市价均值;
所述时间序列数据的所述细节分量部分中包括若干个样本,每一样本至少包括时间节点、与所述时间节点一一对应的收市价和交易量信息;
所述均生函数如下:
式中,表示从i时刻起以间隔为l对收市价求均值;i=1,······,l表示所述时间序列数据的细节分量部分中的时间点值;Nl时间序列数据的细节分量部分中的总样本个数;j表示样本从0开始的取值,x表示函数;
将时间序列数据的细节分量部分分别按照预设的序列长度L进行划分,得到若干个子序列,每一子序列与所述序列长度和时间序列数据的细节分量部分中的初始收市价的价格取值位置有关,根据所述均生函数计算每一所述子序列的收市价均值,直到将所述子序列的收市价均值全部计算完毕,得到待检测的时间序列数据的细节分量部分的均生值矩阵H:
5.如权利要求4所述的基于时间序列数据的异常点检测方法,其特征在于,所述步骤S3还包括:将待检测的所述时间序列数据中所包含的所有时间数据与所述均生值矩阵进行差值运算,得到与所述时间数据个数相同的差值;
将每个所述差值均与所述预设阈值相比较,若当前比较的所述差值小于或等于所述预设阈值时,则与当前比较的所述差值相对应的所述时间数据的时间点为正常点;
若当前比较的所述差值大于所述预设阈值时,则与当前比较的所述差值相对应的所述时间数据的时间点为异常点。
6.如权利要求5所述的基于时间序列数据的异常点检测方法,其特征在于,还包括:步骤S4、当检测到所述异常点时,采用与所述异常点相邻的两个时间点的时间数据的均值作为修正数据对该异常点进行修正。
7.如权利要求6所述的基于时间序列数据的异常点检测方法,其特征在于,所述时间序列数据包括金融时间序列数据。
8.一种电子设备,其特征在于,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1至7中任一项所述的方法。
9.一种可读存储介质,其特征在于,所述可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010025381.4A CN111259269A (zh) | 2020-01-10 | 2020-01-10 | 基于时间序列数据的异常点检测方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010025381.4A CN111259269A (zh) | 2020-01-10 | 2020-01-10 | 基于时间序列数据的异常点检测方法、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111259269A true CN111259269A (zh) | 2020-06-09 |
Family
ID=70948622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010025381.4A Pending CN111259269A (zh) | 2020-01-10 | 2020-01-10 | 基于时间序列数据的异常点检测方法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259269A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111650345A (zh) * | 2020-07-14 | 2020-09-11 | 中科三清科技有限公司 | 大气环境污染检测数据的处理方法、装置、设备及介质 |
CN112835883A (zh) * | 2021-02-01 | 2021-05-25 | 北京爱奇艺科技有限公司 | 一种滤波方法、装置及电子设备 |
CN114579554A (zh) * | 2022-03-08 | 2022-06-03 | 京东科技信息技术有限公司 | 运维时间序列数据处理方法及装置、存储介质及电子设备 |
CN115292304A (zh) * | 2022-10-09 | 2022-11-04 | 深圳市明源云科技有限公司 | 时序数据的异常检测方法、设备及计算机可读存储介质 |
CN116821836A (zh) * | 2023-08-31 | 2023-09-29 | 深圳特力自动化工程有限公司 | 基于多传感器的轮轴瓦异常状态监测方法及系统 |
CN117077066A (zh) * | 2023-10-17 | 2023-11-17 | 合肥联宝信息技术有限公司 | 波形异常检测方法、装置、电子设备及存储介质 |
-
2020
- 2020-01-10 CN CN202010025381.4A patent/CN111259269A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111650345A (zh) * | 2020-07-14 | 2020-09-11 | 中科三清科技有限公司 | 大气环境污染检测数据的处理方法、装置、设备及介质 |
CN112835883A (zh) * | 2021-02-01 | 2021-05-25 | 北京爱奇艺科技有限公司 | 一种滤波方法、装置及电子设备 |
CN114579554A (zh) * | 2022-03-08 | 2022-06-03 | 京东科技信息技术有限公司 | 运维时间序列数据处理方法及装置、存储介质及电子设备 |
CN115292304A (zh) * | 2022-10-09 | 2022-11-04 | 深圳市明源云科技有限公司 | 时序数据的异常检测方法、设备及计算机可读存储介质 |
CN116821836A (zh) * | 2023-08-31 | 2023-09-29 | 深圳特力自动化工程有限公司 | 基于多传感器的轮轴瓦异常状态监测方法及系统 |
CN116821836B (zh) * | 2023-08-31 | 2023-10-27 | 深圳特力自动化工程有限公司 | 基于多传感器的轮轴瓦异常状态监测方法及系统 |
CN117077066A (zh) * | 2023-10-17 | 2023-11-17 | 合肥联宝信息技术有限公司 | 波形异常检测方法、装置、电子设备及存储介质 |
CN117077066B (zh) * | 2023-10-17 | 2024-03-12 | 合肥联宝信息技术有限公司 | 波形异常检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259269A (zh) | 基于时间序列数据的异常点检测方法、设备和存储介质 | |
Ayzel et al. | RainNet v1. 0: a convolutional neural network for radar-based precipitation nowcasting | |
JP6297855B2 (ja) | 動的外れ値偏り低減システム及び方法 | |
US20220365946A1 (en) | Methods And Systems For Wavelet Based Representation | |
Müller et al. | Spatial correlation robust inference | |
CN114221877A (zh) | 负载预测方法、装置、设备和计算机可读介质 | |
CN113392732A (zh) | 一种局部放电超声信号抗干扰方法及系统 | |
Oh et al. | Investigating the effects of daily travel time patterns on short-term prediction | |
CN111291481B (zh) | 一种基于贝叶斯模型的结构预警分析方法 | |
CN117388383A (zh) | 基于敲击法的螺纹连接结构松动状态检测方法及装置 | |
Narimani et al. | A multivariate decomposition–ensemble model for estimating long-term rainfall dynamics | |
CN111897851A (zh) | 异常数据的确定方法、装置、电子设备及可读存储介质 | |
Franz et al. | Implicit Wiener series for higher-order image analysis | |
CN109239006B (zh) | 一种基于湿度补偿模型的物质识别方法、装置及存储介质 | |
Kim et al. | Moving sum procedure for change point detection under piecewise linearity | |
CN116226770A (zh) | 一种时间序列数据异常检测方法及装置 | |
CN113609445A (zh) | 多源异构监测数据处理方法、终端设备及可读存储介质 | |
Liao et al. | Uniform inference for characteristic effects of large continuous-time linear models | |
CN115541021A (zh) | 拉曼光谱特征峰的定位方法、电子设备及存储介质 | |
CN113011321A (zh) | 一种基于联合字典的光谱信号去噪方法、系统、终端及可读存储介质 | |
Pal et al. | DFT21: Discrete Fourier Transform in the 21st century | |
CN115797318A (zh) | 一种光谱数据预处理方法、装置、计算机设备及存储介质 | |
Sang et al. | Nonlinear function-on-function regression by RKHS | |
Korolkiewicz | A dependent hidden Markov model of credit quality | |
CN117473275B (zh) | 一种数据中心的能耗检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200609 |
|
RJ01 | Rejection of invention patent application after publication |