CN103942425A - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN103942425A
CN103942425A CN201410147955.XA CN201410147955A CN103942425A CN 103942425 A CN103942425 A CN 103942425A CN 201410147955 A CN201410147955 A CN 201410147955A CN 103942425 A CN103942425 A CN 103942425A
Authority
CN
China
Prior art keywords
series
time sub
time
point
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410147955.XA
Other languages
English (en)
Other versions
CN103942425B (zh
Inventor
杨树强
尹洪
陈志坤
金松昌
贾焰
韩伟红
周斌
李爱平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201410147955.XA priority Critical patent/CN103942425B/zh
Publication of CN103942425A publication Critical patent/CN103942425A/zh
Application granted granted Critical
Publication of CN103942425B publication Critical patent/CN103942425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种数据处理方法和装置,该方法包括:获取时间序列,所述时间序列中包括有多个不同时间点对应的数据点;基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列;对于任意一个所述初始子时间序列,依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列;依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储。该方法有利于提高对时间序列挖掘的有效性。

Description

一种数据处理方法和装置
技术领域
本发明涉及数据分析技术领域,更具体的说是涉及一种数据处理方法和装置。
背景技术
时间序列是一种重要的高维数据类型,将某一个现象的某一个统计指标在不同时间上的各个数值,随着时间先后顺序排列而成的序列。即,时间序列实际上可以理解为随着时间次序而变化的一系列数据。
时间序列被广泛应用于气象、航天、通信等领域。为了能够获取到更多有效信息,需要对时间序列进行挖掘。然而目前对时间序列的挖掘的过程中,往往会单独对时间序列中各个局部进行分析,忽略了时间序列中整体趋势特征,进而影响到数据挖掘的有效性,进而不能从时间序列中获取到更加准确有效的信息。
发明内容
有鉴于此,本发明提供了一种数据处理方法和装置,以提高对时间序列挖掘的有效性。
为实现上述目的,本发明提供如下技术方案:一种数据处理方法,包括:
获取时间序列,所述时间序列中包括有多个不同时间点对应的数据点;
基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列;
对于任意一个所述初始子时间序列,依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列;
依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储。
优选的,所述基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列,包括:
A、将所述时间序列作为当前时间序列;
B、计算所述当前时间序列中各数据点的均值其中,当前时间序列T=t1,t2,...,tm,m为所述当前时间序列的长度;
C、设定初始累积和S0=0;
D、计算所述当前时间序列中各个数据点的累积和其中,i=1,2,…,m;
E、将累积和最大值所对应的数据点确定为拐点,以所述拐点为分割点将所述当前时间序列分割为两个待定子时间序列;
F、分别将所述待定子序列作为所述当前时间序列,返回执行所述步骤A,直至将所述时间序列分割为预设数量个子序列,得到预设数量个初始子时间序列。
优选的,所述依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列,包括:
按照所述初始子时间序列中各数据点对应的时间点的先后顺序,依次确定所述初始子时间序列中引起模式变化的目标数据点,得到以所述目标数据点为分割点分割出的多个不同模式的目标子时间序列。
优选的,所述按照所述初始子时间序列中各数据点对应的时间点的先后顺序,依次确定所述初始子时间序列中引起模式变化的目标数据点,得到以所述目标数据点为分割点分割出的多个不同模式的目标子时间序列,包括:
A、将所述初始子时间序列作为当前待处理子序列;
B、计算所述当前待处理子序列中,排序靠前的N个数据点组成的线段的第一斜率,其中N为预先设定的自然数,且N大于等于二;
C、计算所述当前待处理子序列中,排序靠前的N+1个数据点组成的线段的第二斜率;
E、如果所述第一斜率与所述第二斜率的差值的绝对值大于预设的斜率变化值,则将所述N+1个数据点中排序最后的数据点确定为所述目标数据点,并将排序位于所述目标数据点之后的数据点组成的序列作为当前待处理子序列,返回执行步骤B,直至所述目标数据点为所述时间序列中排序末尾的数据点;
D、如果所述第一斜率与所述第二斜率的差值的绝对值小于所述预设的斜率变化值,则将所述第二斜率作为所述第一斜率,并将所述当前待处理子序列中第一个数据点之后的数据点组成的序列作为当前待处理子序列,返回执行步骤C,直至当前待处理子序列中包含的数据点个数小于或等于N个为止。
优选的,所述依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储,包括:
根据所述目标子时间序列的模式,以及与所述目标子时间序列相邻的目标子时间序列的模式,对所述目标子时间序列进行符号化。
优选的,所述根据所述目标子时间序列的模式,以及与所述目标子时间序列相邻的目标子时间序列的模式,对所述目标子时间序列进行符号化,包括:
当所述目标子时间序列为上升趋势的时间序列时,将所述目标子序列符号化为
当所述目标子时间序列为下降趋势的时间序列时,将所述目标子时间序列符号化为
当所述目标子时间序列为持平趋势的时间序列,且所述目标子时间序列之前紧邻的目标子时间序列为上升趋势时,则将所述目标子时间序列符号化为
当所述目标子时间序列为持平趋势的时间序列,且所述目标子时间序列之前紧邻的目标子时间序列为下降趋势时,则将所述目标子时间序列符号化为
其中,a表示所述目标子序列的斜率,b指所述目标子序列中最后一个数据点的数据值。
优选的,在将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列之前,还包括:
将所述时间序列转换为均值为0,标准差为1的标准时间序列;
则,在对所述目标子时间序列进行符号化之前,还包括:
将所述目标子时间序列转化为均值为0,标准差为1的标准子时间序列。
另一方面,本发明还提供了一种数据处理装置,包括:
获取单元,用于获取时间序列,所述时间序列中包括有多个不同时间点对应的数据点;
初始分割单元,用于基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列;
再分割单元,用于对于任意一个所述初始子时间序列,依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列;
符号化单元,用于依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储。
优选的,所述再分割单元,包括:
再分割子单元,用于按照所述初始子时间序列中各数据点对应的时间点的先后顺序,依次确定所述初始子时间序列中引起模式变化的目标数据点,得到以所述目标数据点为分割点分割出的多个不同模式的目标子时间序列。
优选的,所述再分割子单元,包括:
初始化单元,用于将所述初始子时间序列作为当前待处理子序列;
第一计算单元,用于计算所述当前待处理子序列中,排序靠前的N个数据点组成的线段的第一斜率,其中N为预先设定的自然数,且N大于等于二;
第二计算单元,用于计算所述当前待处理子序列中,排序靠前的N+1个数据点组成的线段的第二斜率;
第一分割比较单元,用于如果所述第一斜率与所述第二斜率的差值的绝对值大于预设的斜率变化值,则将所述N+1个数据点中排序最后的数据点确定为所述目标数据点,并将排序位于所述目标数据点之后的数据点组成的序列作为当前待处理子序列,返回所述第一计算单元,直至所述目标数据点为所述时间序列中排序末尾的数据点;
第二分割比较单元,用于如果所述第一斜率与所述第二斜率的差值的绝对值小于所述预设的斜率变化值,则将所述第二斜率作为所述第一斜率,并将所述当前待处理子序列中第一个数据点之后的数据点组成的序列作为当前待处理子序列,返回所述第二计算单元,直至当前待处理子序列中包含的数据点个数小于或等于N个为止。
优选的,所述符号化单元,包括:
符号化子单元,用于根据所述目标子时间序列的模式,以及与所述目标子时间序列相邻的目标子时间序列的模式,对所述目标子时间序列进行符号化。
经由上述的技术方案可知,获取到时间序列后,根据累积和控制图找寻时间序列的拐点,将时间序列初步分割为以拐点为分割点的多个初始子时间序列,考虑了整条时间序列的变化值;然后又根据每个初始子时间序列中的模式变化,将初始子时间序列在分割为多个不同模式的目标子时间序列,使得分割后的目标子时间序列具有相对独立的模式,同时也保留了原始的时间序列整体的趋势特征,从而使得符号化后的时间序列更有利于数据挖掘的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明一种数据处理方法一个实施例的流程示意图;
图2示出了本发明一种数据处理方法确定初始子时间序列中的目标数据点,并以目标数据点对初始子时间序列进行分割的一种实施例的流程示意图;
图3a、3b以及3c分别示出了利用本发明的数据处理方法中对原始的时间序列进行标准化,对标准化后的时间序列进行分割,以及对分割后的时间序列进行符号化的示意图;
图4示出了本发明一种数据处理装置一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种数据处理方法,以使得符号化的时间序列更能反映出该时间序列全局的变化趋势,进而提高对时间序列挖掘的有效性,进而使得从时间序列中挖掘出的信息更加准确。
参见图1,其示出了本发明一种数据处理方法一个实施例的流程示意图,本实施例的方法可以包括:
101,获取时间序列。
其中,时间序列T=t1,t2,...,tn为是一个具有n个实值变量的有序集合,其中,n为时间序列T的长度。在时间序列中包含有一系列随着时刻变化的数据点,每个数据点即为一个数据值。
获取到的待处理的时间序列中同样包括有多个不同时间点对应的数据点。
102,基于累积和控制图寻找该时间序列中的拐点,以将该时间序列分割成以拐点为分割点的预设数量个初始子时间序列。
基于累积和(CUSUM,Cumulative Sum)控制图的拐点发现算法可以确定出该时间序列中的拐点。累积和控制图的理论基础时序贯分析原理中的序贯概率比检验,其基本思想时通过对数据信息的累积,将过程中小的偏移加以放大,从而提高检测小偏移的灵敏度。同时,利用累积和控制图发现拐点的过程仅仅涉及到加减运算,可以达到提高时间序列分割的效率。
其中,可以根据实际需要确定需要找寻的拐点个数,以将该时间序列分割成预设数量个子时间序列。
为了便于区分,将基于累积和控制图初步分割出的子时间序列称为初始子时间序列。
103,对于任意一个初始子时间序列,依据初始子时间序列的模式变化,将该初始子时间序列分割为多个不同模式的目标子时间序列。
依据拐点将时间序列分割成预设数量个初始子时间序列后,本发明实施例中,还会分别对每个初始子时间序列进行分割。在对初始子时间序列进行分割时,考虑到该初始子时间序列中不同序列段的模式变化,进而根据该初始子时间序列的从一个模式到另一个模式变化的转折点,将该初始子时间序列分割为多个不同模式的子时间序列。
为了便于区别初始子时间序列分割得到的子时间序列,将该初始子时间序列分割得到的子时间序列称为目标子时间序列。
其中,模式反映了某个子集单一的变化趋势,模式包含有上升、下降和保持三种。该初始子时间序列的不同序列段具有不同的模式,从而根据该初始子时间序列中包含的模式变化的序列段,将该初始子时间序列分割为多个目标子时间序列。
104,依次对目标子时间序列进行符号化,得到符号化后的时间序列并存储。
在经过以上步骤,将该时间序列分割为多个连续的目标子时间序列,每个目标子时间序列为该时间序列的一个子集。
时间序列的符号化是指将时间序列进行离散化,以将时间序列的连续数值转换为有限符号的有序集合。在得到该多个目标子时间序列化,可以分别对每个目标子时间序列进行符号化,以将整个时间序列的符号化,得到符号化后的时间序列。
在本申请实施例中,对时间序列符号化的方法可以采用现有的任意符号化方法,在此不加以限制。
在本实施例中,根据累积和控制图找寻时间序列的拐点,将时间序列初步分割为以拐点为分割点的多个初始子时间序列,考虑了整条时间序列的变化值;然后又根据每个初始子时间序列中的模式变化,将初始子时间序列在分割为多个不同模式的目标子时间序列,使得分割后的目标子时间序列具有相对独立的模式,同时也保留了原始的时间序列整体的趋势特征,从而使得符号化后的时间序列更有利于数据挖掘的有效性。
同时,由于将时间序列分割为多个初始子时间序列后,可以并行处理每个初始子时间序列,以对初始子时间序列进行分割,从而可以提高时间序列分割的效率。
为了便于理解基于累积和控制图,将时间序列分割为预设梳两个初始子时间序列的过程,下面以一种实现方式对该过程进行详细描述。该过程可以包括:
A、将获取到的时间序列作为当前时间序列;
B、计算该当前时间序列中各数据点的均值其中,当前时间序列T=t1,t2,...,tm,m为该当前时间序列的长度;
C、设定初始累积和S0=0;
D、计算该当前时间序列中各个数据点的累积和其中,i=1,2,…,m;
E、将累积和最大值所对应的数据点确定为拐点,以拐点为分割点将当前时间序列分割为两个待定子时间序列;
F、分别将待定子序列作为所述当前时间序列,返回执行所述步骤A,直至将该时间序列分割为预设数量个子序列,得到预设数量个初始子时间序列。
其中,累积和最大值Smax=max{|Si,i=1,2,...,m},将Smax对应一个Si,根据步骤D可知Si对应一个ti,从而可以确定出该拐点所在的数据点。
在识别出时间序列的拐点后,将该时间序列以该拐点进行二分,然后不断的对分割出的每个子序列再以拐点进行二分,直至将时间序列分割为预设数量个序列段为止。
采用基于累积和控制图这种递归方式来寻找拐点,可能会遗漏一些重要的拐点信息,因此,在基于累积和控制图分割出预设数量个初始子时间序列后,还需要寻找每个初始子时间序列中的关键点,并对初始子时间序列进行分割。
可以理解的是,可以采用并行分割的方式同时对多个或者所有的初始子时间序列进行分割。进一步的,可以根据并行度来设定该预设数量,从而使得可以并行的对分割出的所有初始子时间序列进行分割。
可选的,在以上任意一个实施例中,对初始子时间序列进行分割的过程可以是:
按照初始子时间序列中各数据点对应的时间点的先后顺序,依次确定该初始子时间序列中引起模式变化的目标数据点,得到以所述目标数据点为分割点分割出的多个不同模式的目标子时间序列。
其中,目标数据点前后的时间序列的模式发生了改变,从而使得以该目标数据点分割的前后两部分时间序列的模式不同。两个目标数据点之间的时间序列为具有特征模式的序列。
参见图2,其示出了本发明一种数据处理方法中确定初始子时间序列中的目标数据点,并以目标数据点对初始子时间序列进行分割的一种实施例的流程示意图,该实施例在得到预设数量个初始子时间序列后,可以包括:
201,将初始子时间序列作为当前待处理子序列;
202,计算该当前待处理子序列中,排序靠前的N个数据点组成的线段的第一斜率,其中N为预先设定的自然数,且N大于等于二;
在实际应用中,可以采用滑动窗口的方式来滑动选取该时间序列中的数据点,可以设定该窗口的初始大小为N,使得该窗口内可以包含有N个数据点。如,设定窗口的大小为5,则依据当前待处理子序列中数据点的先后顺序,先将窗口滑动到包含该当前待处理子序列中的前5个数据点,计算这5个数据点的斜率。
在本实施例中,为了便于区分,将该排序靠前的N个数据点组成的线段的斜率称为第一斜率。
203,计算该当前待处理子序列中,排序靠前的N+1个数据点组成的线段的第二斜率;
为了确定排序位于第N+1个的数据点是否为一个引起模式变化的转折点,则需要计算该排序靠前的N+1个数据点组成的线段的斜率,将该斜率称为第二斜率。
在实际应用中,如果以前面介绍的滑动窗口的方式,则可以理解为在窗口包含有前N个数据点的基础上,将窗口再向后滑动到下一个数据点,使得该窗口内包含有N+1个数据点,并计算该窗口内所包含的N+1个数据点所组成的线段的斜率。
可选的,在本实施例中计算该第一斜率和第一斜率时,可以采用最小二程回归计算该N个或N+1个数据点组成的子序列所对应的斜率。
204,如果第一斜率与第二斜率的差值的绝对值大于预设的斜率变化值,则将该N+1个数据点中排序最后的数据点确定为目标数据点,并将排序位于该目标数据点之后的数据点组成的序列作为当前待处理子序列,返回执行步骤202,直至该目标数据点为时间序列中排序末尾的数据点;
该预设的斜率变化值可以理解为最大角度容忍参数,当计算出当前的时间序列中前N个数据点组成的子序列的第一斜率后,将该子序列向后延伸增加一个数据点,计算该N+1个数据点组成的子序列的第二斜率,如果第二斜率与该第一斜率的差值的绝对值大于该斜率变化值,则认为该当前的时间序列的模式延后的该数据点处发生了变化,从而将该数据点确定为目标数据点。
将该当前待处理子序列中位于该模式发生变化的目标数据点之后的子序列,仍然采用前面的方式来确定其中引起前后序列段发生模式变化的数据点,因此,将当前待处理子序列中该目标数据点之后的数据点组成的子时间序列重现确定为当前待处理子序列,返回该步骤202继续执行,以从该目标数据点之后子序列中再确定其他引起模式改变的数据点。
在实际应用中,如果采用滑动窗口的方式,确定出目标数据点后,则可以将该滑动窗口移动到该目标数据点之后的数据点,使得该窗口包含有该初始子时间序列中第N+2至第2N+2个数据点,并计算当前该窗口内的N个数据点的第一斜率,并依次执行后续的步骤203等。
205,如果第一斜率与第二斜率的差值的绝对值小于该预设的斜率变化值,则将该第二斜率作为该第一斜率,并将当前待处理子序列中第一个数据点之后的数据点组成的序列作为当前待处理子序列,返回执行步骤203,直至当前待处理子序列中包含的数据点个数小于或等于N个为止。
如果该第一斜率与第二斜率的差值的绝对值小于该斜率变化值,则说明该当前待处理子序列中排序位于第N+1位的数据点不是引起模式变化的数据点。这样,可以将该当前处理子序列中排序靠前的第一个数据点之后的数据点组成的序列作为当前处理子序列,并返回该步骤203。
如采用滑动窗口的方式,则确定出该绝对值小于该斜率变化率后,将窗口向右滑动,使得该窗口后的初始数据点变为向后移动,窗口内数据点的个数不变。例如,假设该窗口内原来包含该初始子时间序列前N+1个数据点,则滑动该窗口,使得该窗口包含该初始子时间序列中第2个至第N+2个数据点,并计算当前该窗口内包含的N+1个数据点的第二斜率。
在以上任意一个实施例中,对目标子时间序列进行符号化的方式可以有多种,但是现有的符号化方法大多都没有考虑原始时间序列的趋势变化,从而从符号化后的时间序列中进行数据挖掘的效果。
可选的,在本实施例中,可以根据该目标子时间序列中的模式,以及与该目标子时间序列相邻的目标子时间序列的模式,来对目标子时间序列进行符号化。通过该种符号化方法可以在符号化后的时间序列中体现出该时间序列的趋势特征,从而更加有利于后续的时间序列的挖掘。
进一步的,为了能够更加直观的体现出时间序列中相邻的各个目标子时间序列的模式变化,可以采用如下方式对目标子序列进行符号化:
当目标子时间序列为上升趋势的时间序列时,将该目标子序列符号化为
当目标子时间序列为下降趋势的时间序列时,将目标子时间序列符号化为
当该目标子时间序列为持平趋势的时间序列,且目标子时间序列之前紧邻的目标子时间序列为上升趋势时,则将目标子时间序列符号化为
当目标子时间序列为持平趋势的时间序列,且目标子时间序列之前紧邻的目标子时间序列为下降趋势时,则将该目标子时间序列符号化为
其中,a表示所述目标子序列的斜率,b指所述目标子序列中最后一个数据点的数据值。
可选的,在以上任意一个实施例中,在将时间序列分割成以拐点为分割点的预设数量个初始子时间序列之前,还包括:
将时间序列转换为均值为0,标准差为1的标准时间序列。
相应的,在对目标子时间序列进行符号化之前,还包括:
将目标子时间序列转化为均值为0,标准差为1的标准子时间序列。
将时间序列进行标准化的过程可以与现有的方式相似,在此不再赘述。
为了便于理解本发明的方法,下面结合具体实例进行介绍。
参见图3a,为原始的时间序列进过标准化后得到的时间序列的示意图。在该图3a中横轴为时间轴,纵轴表示时间序列中各个数据点的数据值。
将图3a中的时间序列进行分割可以如图3b所示,在该图3b中为分割后的时间序列的示意图,如图3b中的纵向的虚线为分割线,以分割线与该时间序列的交点将该时间序列分割为多个目标子时间序列。
在对时间序列进行分割的过程中,对序列进行分割的过程中,计算出了子序列的斜率以及分割点的位置。根据前面描述的符号化方法,将分割后的时间序列符号化表示为:
从符号化的结果可以看出序列趋势是先上升再下降到-0.59后,有一个剧烈上升的时间段,数值迅速达到1.75,然后数据持平一段时间后快速下降,再持平后急速下降,最后有一段缓慢上升期。对该时间序列符号化后的示意图可以参见图3c中粗实线所示。
与现有的符号化近似聚集方法相比,该种方法将时间序列的每段用均值表示,忽略了原始的时间序列中大部分关键点的信息,而且从利用该种方法的符号化结果,也只能得到原始的时间序列中较好的趋势以及模式信息,从而会影响到数据挖掘的效率。
进一步的,为了证明本发明的数据处理在进行数据分割以及符号化的过程中不会出现漏报的情况,即满足无漏报原则,可以进行如下验证。
为了保证符号化后的序列在相似度比较上不会出现漏报的情况(即无漏报原则),其距离的度量在索引空间上必须满足下列条件,即:
Dindex_space(Q,C)≤Dtrue(A,B)    (公式一)
其中,A和B是原始的时间序列,采用距离函数Dtrue度量相似性;Q和C分别表示符号化后的时间序列A和B,采用距离函数Dindex_space度量相似性。
这种理论也被称为下边界原理或者约简特性,即约简后的距离不应大于原先的距离,在此将“原先的距离”定义为欧几里德距离,即:
D ture ( A , B ) = D Euclidean ( A , B ) = Σ i = 1 n ( a i - b i ) 2     (公式二)
按照我们的符号化表示方法,将距离的度量定义为:
D symbolic ( Q , C ) = D TFSA ( Q , C ) = n w Σ i = 1 w T i × ( qb i - cb i ) 2 × | | qa i | - | ca i | | max ( | qa i | , | ca i | )     (公式三)
其中,
w:原始的时间序列被分割后的段数;
n:原始的时间序列的长度;
Ti:不同趋势特征的距离值,取值为:其中,, f = 0 , cb i &GreaterEqual; 0 - 1 , cb i < 0 ; 分别为时间序列Q和C的平均值;
qbi为时间序列Q第i段最后一个数据点的数据值;
cbiC为时间序列C中第i段最后一个数据点的数据值;
qai为时间序列Q中第i段的斜率值;
cai为时间序列C中第i段的斜率值。
接下来将证明DTFSA(Q,C)≤DEuclidean(A,B)。为了便于证明,下面的证明过程将基于一个前提条件:假设基于本发明进行数据处理进行时间序列分割和符号化的框架只有一个,也就是说,假设时间序列分割以及符号化的过程中该时间序列保持一段,即时间序列为一段框架,w=1,而在实际中更加一般的情况应该是时间序列被分割为多段,即w>1,然后可以通过在每一个分段上采用下面的证明过程进行证明。
证明过程如下:
根据公式二和公式三,需要证明的不等式即:
&Sigma; i = 1 n ( a i - b i ) 2 &GreaterEqual; n &times; T i &times; ( qb i - cb i ) 2 &times; | | qa i | - | ca i | | max ( | qa i | , | ca i | )     (公式四)
对公式四两边取平方得到:
&Sigma; i = 1 n ( a i - b i ) 2 &GreaterEqual; n &times; T i &times; ( qb i - cb i ) 2 &times; | | qa i | - | ca i | | max ( | qa i | , | ca i | )     (公式五)
因为, a i = Q &OverBar; - &Delta;a i , b i = C &OverBar; - &Delta;b i , 因此可以得到:
&Sigma; i = 1 n ( ( Q &OverBar; - &Delta;a i ) - ( C &OverBar; - &Delta;b i ) ) 2 = &Sigma; i = 1 n ( ( Q &OverBar; - C &OverBar; ) - ( &Delta;a i - &Delta;b i ) ) 2 (公式六)
进一步,该公式五的左边可以扩展为:
&Sigma; i = 1 n ( ( Q &OverBar; - C &OverBar; ) 2 - 2 ( Q &OverBar; - C &OverBar; ) ( &Delta;a i - &Delta;b i ) + ( &Delta;a i - &Delta;b i ) 2 )
使用分配律,则公式五的左边扩展后得到的公式可以重写为:
n ( Q &OverBar; - C &OverBar; ) 2 - 2 ( Q &OverBar; - C &OverBar; ) &Sigma; i = 1 n ( &Delta;a i - &Delta;b i ) + &Sigma; i = 1 n ( &Delta;a i - &Delta;b i ) 2
由于 a i = Q &OverBar; - &Delta;a i , &Delta;a i = Q &OverBar; - a i , 同样 &Delta;b i = C &OverBar; - b i , 因此, &Sigma; i = 1 n ( &Delta;a i - &Delta;b i ) = &Sigma; i = 1 n ( ( Q &OverBar; - a i ) - ( C &OverBar; - b i ) ) = ( &Sigma; i = 1 n Q &OverBar; - &Sigma; i = 1 n a i ) - ( &Sigma; i = 1 n C &OverBar; - &Sigma; i = 1 n b i ) = ( n Q &OverBar; - &Sigma; i = 1 n a i ) - ( n C &OverBar; - &Sigma; i = 1 n b i ) = ( &Sigma; i = 1 n a i - &Sigma; i = 1 n a i ) - ( &Sigma; i = 1 n b i - &Sigma; i = 1 n b i ) = 0 , 因此,公式五的左边可以重写为 n ( Q &OverBar; - C &OverBar; ) 2 - 0 + &Sigma; i = 1 n ( &Delta;a i - &Delta;b i ) 2 .
由于因此,公式五的右边满足: n &times; T i &times; ( qb i - cb i ) 2 &times; | | qa i | - | ca i | | max ( | qa i | , | ca i | ) &le; n ( Q &OverBar; - C &OverBar; ) 2 .
而不等式是始终成立的,因此公式四成立。至此证明完毕。
对应本发明的一种数据处理方法,本发明还提供了一种数据处理装置。
参见图4,其示出了本发明一种数据处理装置一个实施例的结构示意图,本实施例的装置可以包括:
获取单元401,用于获取时间序列,所述时间序列中包括有多个不同时间点对应的数据点;
初始分割单元402,用于基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列;
再分割单元403,用于对于任意一个所述初始子时间序列,依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列;
符号化单元404,用于依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储。
可选的,该初始分割单元具体执行以下操作:
A、将所述时间序列作为当前时间序列;
B、计算所述当前时间序列中各数据点的均值其中,当前时间序列T=t1,t2,...,tm,m为所述当前时间序列的长度;
C、设定初始累积和S0=0;
D、计算所述当前时间序列中各个数据点的累积和其中,i=1,2,…,m;
E、将累积和最大值所对应的数据点确定为拐点,以所述拐点为分割点将所述当前时间序列分割为两个待定子时间序列;
F、分别将所述待定子序列作为所述当前时间序列,返回执行所述步骤A,直至将所述时间序列分割为预设数量个子序列,得到预设数量个初始子时间序列。
可选的,该再分割单元,可以包括:
再分割子单元,用于按照所述初始子时间序列中各数据点对应的时间点的先后顺序,依次确定所述初始子时间序列中引起模式变化的目标数据点,得到以所述目标数据点为分割点分割出的多个不同模式的目标子时间序列。
进一步的,该再分割子单元,可以包括:
初始化单元,用于将所述初始子时间序列作为当前待处理子序列;
第一计算单元,用于计算所述当前待处理子序列中,排序靠前的N个数据点组成的线段的第一斜率,其中N为预先设定的自然数,且N大于等于二;
第二计算单元,用于计算所述当前待处理子序列中,排序靠前的N+1个数据点组成的线段的第二斜率;
第一分割比较单元,用于如果所述第一斜率与所述第二斜率的差值的绝对值大于预设的斜率变化值,则将所述N+1个数据点中排序最后的数据点确定为所述目标数据点,并将排序位于所述目标数据点之后的数据点组成的序列作为当前待处理子序列,返回所述第一计算单元,直至所述目标数据点为所述时间序列中排序末尾的数据点;
第二分割比较单元,用于如果所述第一斜率与所述第二斜率的差值的绝对值小于所述预设的斜率变化值,则将所述第二斜率作为所述第一斜率,并将所述当前待处理子序列中第一个数据点之后的数据点组成的序列作为当前待处理子序列,返回所述第二计算单元,直至当前待处理子序列中包含的数据点个数小于或等于N个为止。
在以上任意一个实施例中,可选的,该符号化单元,可以包括:
符号化子单元,用于根据所述目标子时间序列的模式,以及与所述目标子时间序列相邻的目标子时间序列的模式,对所述目标子时间序列进行符号化。
可选的,该符号化单元具体用于:当所述目标子时间序列为上升趋势的时间序列时,将所述目标子序列符号化为
当所述目标子时间序列为下降趋势的时间序列时,将所述目标子时间序列符号化为
当所述目标子时间序列为持平趋势的时间序列,且所述目标子时间序列之前紧邻的目标子时间序列为上升趋势时,则将所述目标子时间序列符号化为
当所述目标子时间序列为持平趋势的时间序列,且所述目标子时间序列之前紧邻的目标子时间序列为下降趋势时,则将所述目标子时间序列符号化为
其中,a表示所述目标子序列的斜率,b指所述目标子序列中最后一个数据点的数据值。
在以上任意一个实施例中,还可以包括:第一标准化单元,用于在将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列之前,将所述时间序列转换为均值为0,标准差为1的标准时间序列;
以及第二标准化单元,用于在对所述目标子时间序列进行符号化之前,将所述目标子时间序列转化为均值为0,标准差为1的标准子时间序列。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种数据处理方法,其特征在于,包括:
获取时间序列,所述时间序列中包括有多个不同时间点对应的数据点;
基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列;
对于任意一个所述初始子时间序列,依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列;
依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储。
2.根据权利要求1所述的方法,其特征在于,所述基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列,包括:
A、将所述时间序列作为当前时间序列;
B、计算所述当前时间序列中各数据点的均值其中,当前时间序列T=t1,t2,...,tm,m为所述当前时间序列的长度;
C、设定初始累积和S0=0;
D、计算所述当前时间序列中各个数据点的累积和其中,i=1,2,…,m;
E、将累积和最大值所对应的数据点确定为拐点,以所述拐点为分割点将所述当前时间序列分割为两个待定子时间序列;
F、分别将所述待定子序列作为所述当前时间序列,返回执行所述步骤A,直至将所述时间序列分割为预设数量个子序列,得到预设数量个初始子时间序列。
3.根据权利要求1所述的方法,其特征在于,所述依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列,包括:
按照所述初始子时间序列中各数据点对应的时间点的先后顺序,依次确定所述初始子时间序列中引起模式变化的目标数据点,得到以所述目标数据点为分割点分割出的多个不同模式的目标子时间序列。
4.根据权利要求3所述的方法,其特征在于,所述按照所述初始子时间序列中各数据点对应的时间点的先后顺序,依次确定所述初始子时间序列中引起模式变化的目标数据点,得到以所述目标数据点为分割点分割出的多个不同模式的目标子时间序列,包括:
A、将所述初始子时间序列作为当前待处理子序列;
B、计算所述当前待处理子序列中,排序靠前的N个数据点组成的线段的第一斜率,其中N为预先设定的自然数,且N大于等于二;
C、计算所述当前待处理子序列中,排序靠前的N+1个数据点组成的线段的第二斜率;
E、如果所述第一斜率与所述第二斜率的差值的绝对值大于预设的斜率变化值,则将所述N+1个数据点中排序最后的数据点确定为所述目标数据点,并将排序位于所述目标数据点之后的数据点组成的序列作为当前待处理子序列,返回执行步骤B,直至所述目标数据点为所述时间序列中排序末尾的数据点;
D、如果所述第一斜率与所述第二斜率的差值的绝对值小于所述预设的斜率变化值,则将所述第二斜率作为所述第一斜率,并将所述当前待处理子序列中第一个数据点之后的数据点组成的序列作为当前待处理子序列,返回执行步骤C,直至当前待处理子序列中包含的数据点个数小于或等于N个为止。
5.根据权利要求1所述的方法,其特征在于,所述依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储,包括:
根据所述目标子时间序列的模式,以及与所述目标子时间序列相邻的目标子时间序列的模式,对所述目标子时间序列进行符号化。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标子时间序列的模式,以及与所述目标子时间序列相邻的目标子时间序列的模式,对所述目标子时间序列进行符号化,包括:
当所述目标子时间序列为上升趋势的时间序列时,将所述目标子序列符号化为
当所述目标子时间序列为下降趋势的时间序列时,将所述目标子时间序列符号化为
当所述目标子时间序列为持平趋势的时间序列,且所述目标子时间序列之前紧邻的目标子时间序列为上升趋势时,则将所述目标子时间序列符号化为
当所述目标子时间序列为持平趋势的时间序列,且所述目标子时间序列之前紧邻的目标子时间序列为下降趋势时,则将所述目标子时间序列符号化为
其中,a表示所述目标子序列的斜率,b指所述目标子序列中最后一个数据点的数据值。
7.根据权利要求1至6任一项所述的方法,其特征在于,在将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列之前,还包括:
将所述时间序列转换为均值为0,标准差为1的标准时间序列;
则,在对所述目标子时间序列进行符号化之前,还包括:
将所述目标子时间序列转化为均值为0,标准差为1的标准子时间序列。
8.一种数据处理装置,其特征在于,包括:
获取单元,用于获取时间序列,所述时间序列中包括有多个不同时间点对应的数据点;
初始分割单元,用于基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列;
再分割单元,用于对于任意一个所述初始子时间序列,依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列;
符号化单元,用于依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储。
9.根据权利要求8所述的装置,其特征在于,所述再分割单元,包括:
再分割子单元,用于按照所述初始子时间序列中各数据点对应的时间点的先后顺序,依次确定所述初始子时间序列中引起模式变化的目标数据点,得到以所述目标数据点为分割点分割出的多个不同模式的目标子时间序列。
10.根据权利要求9所述的装置,其特征在于,所述再分割子单元,包括:
初始化单元,用于将所述初始子时间序列作为当前待处理子序列;
第一计算单元,用于计算所述当前待处理子序列中,排序靠前的N个数据点组成的线段的第一斜率,其中N为预先设定的自然数,且N大于等于二;
第二计算单元,用于计算所述当前待处理子序列中,排序靠前的N+1个数据点组成的线段的第二斜率;
第一分割比较单元,用于如果所述第一斜率与所述第二斜率的差值的绝对值大于预设的斜率变化值,则将所述N+1个数据点中排序最后的数据点确定为所述目标数据点,并将排序位于所述目标数据点之后的数据点组成的序列作为当前待处理子序列,返回所述第一计算单元,直至所述目标数据点为所述时间序列中排序末尾的数据点;
第二分割比较单元,用于如果所述第一斜率与所述第二斜率的差值的绝对值小于所述预设的斜率变化值,则将所述第二斜率作为所述第一斜率,并将所述当前待处理子序列中第一个数据点之后的数据点组成的序列作为当前待处理子序列,返回所述第二计算单元,直至当前待处理子序列中包含的数据点个数小于或等于N个为止。
11.根据权利要求8所述的装置,其特征在于,所述符号化单元,包括:
符号化子单元,用于根据所述目标子时间序列的模式,以及与所述目标子时间序列相邻的目标子时间序列的模式,对所述目标子时间序列进行符号化。
CN201410147955.XA 2014-04-14 2014-04-14 一种数据处理方法和装置 Active CN103942425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410147955.XA CN103942425B (zh) 2014-04-14 2014-04-14 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410147955.XA CN103942425B (zh) 2014-04-14 2014-04-14 一种数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN103942425A true CN103942425A (zh) 2014-07-23
CN103942425B CN103942425B (zh) 2017-01-11

Family

ID=51190093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410147955.XA Active CN103942425B (zh) 2014-04-14 2014-04-14 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN103942425B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095787A (zh) * 2016-05-30 2016-11-09 重庆大学 时间序列数据的一种符号化表示方法
CN107315676A (zh) * 2017-06-06 2017-11-03 沈阳东软医疗系统有限公司 高影响程度故障码挖掘方法及计算机可读存储介质
CN107665276A (zh) * 2017-09-18 2018-02-06 天津大学 基于符号化模态及转换频次的时间序列复杂性测算方法
CN108564390A (zh) * 2017-12-29 2018-09-21 广东金赋科技股份有限公司 大量个体的数据趋势分析方法、电子设备和计算机存储介质
CN110032585A (zh) * 2019-04-02 2019-07-19 北京科技大学 一种时间序列双层符号化方法及装置
CN110197211A (zh) * 2019-05-17 2019-09-03 河海大学 一种面向大坝安全监测数据的相似性数据聚类方法
CN111797127A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 时序数据分割方法、装置、存储介质及电子设备
CN112910890A (zh) * 2021-01-29 2021-06-04 北京邮电大学 基于时间卷积网络的匿名网络流量指纹识别方法及设备
CN116499011A (zh) * 2023-04-27 2023-07-28 佳达利环保材料(广东)有限公司 太阳能相变蓄能系统的智能控制方法、终端及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7381188B1 (en) * 2005-07-19 2008-06-03 Pacesetter, Inc. System and method for processing and storing signal information in an implantable cardiac device
CN103294911A (zh) * 2013-05-23 2013-09-11 中国人民解放军国防科学技术大学 一种时间序列相似度值获取方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7381188B1 (en) * 2005-07-19 2008-06-03 Pacesetter, Inc. System and method for processing and storing signal information in an implantable cardiac device
CN103294911A (zh) * 2013-05-23 2013-09-11 中国人民解放军国防科学技术大学 一种时间序列相似度值获取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
任江涛 等: "一种时间序列快速分段及符号化方法", 《计算机科学》 *
杨东平: "时间序列特征模式挖掘关键方法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095787A (zh) * 2016-05-30 2016-11-09 重庆大学 时间序列数据的一种符号化表示方法
CN107315676A (zh) * 2017-06-06 2017-11-03 沈阳东软医疗系统有限公司 高影响程度故障码挖掘方法及计算机可读存储介质
CN107315676B (zh) * 2017-06-06 2020-08-11 东软医疗系统股份有限公司 高影响程度故障码挖掘方法及计算机可读存储介质
CN107665276A (zh) * 2017-09-18 2018-02-06 天津大学 基于符号化模态及转换频次的时间序列复杂性测算方法
CN108564390A (zh) * 2017-12-29 2018-09-21 广东金赋科技股份有限公司 大量个体的数据趋势分析方法、电子设备和计算机存储介质
CN110032585A (zh) * 2019-04-02 2019-07-19 北京科技大学 一种时间序列双层符号化方法及装置
CN111797127A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 时序数据分割方法、装置、存储介质及电子设备
CN110197211A (zh) * 2019-05-17 2019-09-03 河海大学 一种面向大坝安全监测数据的相似性数据聚类方法
CN112910890A (zh) * 2021-01-29 2021-06-04 北京邮电大学 基于时间卷积网络的匿名网络流量指纹识别方法及设备
CN112910890B (zh) * 2021-01-29 2022-05-10 北京邮电大学 基于时间卷积网络的匿名网络流量指纹识别方法及设备
CN116499011A (zh) * 2023-04-27 2023-07-28 佳达利环保材料(广东)有限公司 太阳能相变蓄能系统的智能控制方法、终端及系统
CN116499011B (zh) * 2023-04-27 2023-10-03 耀昶嵘相变材料科技(广东)有限公司 太阳能相变蓄能系统的智能控制方法、终端及系统

Also Published As

Publication number Publication date
CN103942425B (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
CN103942425A (zh) 一种数据处理方法和装置
Schweer et al. Compound Poisson INAR (1) processes: stochastic properties and testing for overdispersion
CN103577562B (zh) 一种多度量时间序列相似分析方法
SE1251163A1 (sv) System och metod i samband med förekomst av fordonståg
CN104361142B (zh) 一种多源导航电子地图矢量道路网变化快速检测方法
CN104089624B (zh) 计步方法及终端设备
CN105488594A (zh) 一种台风路径预测方法
CN106934324A (zh) 基于简化多假设算法的雷达数据关联方法
CN103020321B (zh) 近邻搜索方法与系统
CN103954935A (zh) 一种最小l1范数下的雷达信号分选方法
CN104573000A (zh) 基于排序学习的自动问答装置及方法
US9852360B2 (en) Data clustering apparatus and method
CN109492047A (zh) 一种基于差分隐私的精确直方图的发布方法
CN103744886A (zh) 一种直接提取的k个最近邻点搜索方法
CN112131278A (zh) 轨迹数据的处理方法及装置、存储介质、电子装置
CN103336765B (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
CN104778480A (zh) 一种基于局部密度和测地距离的分层谱聚类方法
Wan et al. On the arbitrarily long-term stability of conservative methods
CN111324616B (zh) 车道线变化信息的检测方法、装置及设备
CN104778202B (zh) 基于关键词的事件演化过程的分析方法及系统
Elleuch et al. An investigation of parallel road map inference from big GPS traces data
CN101988964B (zh) 高效二次雷达目标周期相关处理工作方法
CN109858507A (zh) 一种应用于大气污染治理的多维时序数据的稀有子序列挖掘方法
CN106291497B (zh) 基于快速查表法的解速度模糊算法
Shigezumi et al. A fast algorithm for matching planar maps with minimum Fréchet distances

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant