CN104750830B - 时间序列数据的周期挖掘方法 - Google Patents
时间序列数据的周期挖掘方法 Download PDFInfo
- Publication number
- CN104750830B CN104750830B CN201510152852.7A CN201510152852A CN104750830B CN 104750830 B CN104750830 B CN 104750830B CN 201510152852 A CN201510152852 A CN 201510152852A CN 104750830 B CN104750830 B CN 104750830B
- Authority
- CN
- China
- Prior art keywords
- data
- period
- time series
- time
- mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000005065 mining Methods 0.000 claims abstract description 26
- 230000000737 periodic effect Effects 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 abstract description 6
- 238000007418 data mining Methods 0.000 abstract description 4
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 240000007643 Phytolacca americana Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种时间序列数据的周期挖掘方法,属于计算机模式识别与数据挖掘技术领域。本发明针对现有技术在观测数据不均匀的条件下难以获得准确周期的不足,提出了一种交通流量数据的周期挖掘方法,采用概率分布估计的方式进行周期挖掘,可在观测数据不均匀的条件下获得准确周期,且算法更简单,实时性更好;在此基础上,本发明进一步采用在线增量式更新方式解决实时周期更新问题,使得在线周期更新所花费的资源和时间更少。本发明方法尤其适用于存在较多观测数据缺失的时间序列的周期挖掘,例如交通流量数据、水文数据、气候数据、地震观测数据的周期挖掘,可快速准确地获取周期。
Description
技术领域
本发明涉及一种时间序列数据的周期挖掘方法,属于计算机模式识别与数据挖掘技术领域。
背景技术
随着技术的发展,移动的物体有很多种方式被监测到,从而产生了大量移动数据。我们可以通过定位系统获取一个人的移动数据;动物学家也可以通过定位系统来获取野生动物的数据以得到它们的移动模式。而交通传感器已经被大量安装在了各种道路上以及十字路口处,通常是监测一小段时间里车的平均速度和交通流量,来产生大量需要分析的数据。
这里主要有两类移动数据:一个是个体的,一个是总和的。在个体数据或者说是面向单个对象的交通数据,我们可以分开来分析出单个对象的某些模式,在总和数据中,个体特征不再能够被侦测,而集体特征则能够被分析。
时间序列数据挖掘有很多不同应用,比如道路交通数据挖掘,能够帮助我们更好地管理城市的交通以及确定哪里需要修建新的道路,还能够将大量复杂的交通数据变成可以应用的知识,来让人们选择两个地点之间最佳的出行路线。然而从原始数据中挖掘出这些信息面临很多挑战:首先数据量很大,可能很短的时间间隔就收集两次,并且受外部因素影响,数据含有很多噪声,采集失败导致部分数据缺失;其次,除去数据部分的原因,真实世界里的数据的模式也很复杂,可能有多种模式,或者多种模式相互影响,导致很难给它们建模。
其中移动物体数据模式挖掘中一种很重要经常用到的模式就是周期,发现移动物体周期性行为对总结了解和总结物体的移动模式很重要,我们可以只存储行为特征而不必存储所有数据,实际应用中挖掘交通流量的周期存在两个难点:(1)某个模式不一定每次都在准确一个点上重复,可能是在邻近时间点重复;(2)这里可能有多个周期,周期与周期之间会相互覆盖相互影响,使他们很难被挖掘出来。类似地,诸如水文数据、地震观测数据、气候数据等的周期挖掘中同样存在这样的问题。
现有时间序列数据周期挖掘的方法主要是傅里叶变换和自相关函数方法,这两种方法都能很有效地对适量的均匀采样的数据进行周期提取,然而,对于处理采样不均匀得到的不完整数据,这两种方法存在很大的局限性,并且当数据量动态增长时,增加了数据量,也大大增加了计算时间。
发明内容
本发明所要解决的技术问题在于克服现有技术不足,提供一种时间序列数据的周期挖掘方法,可有效解决观测数据不均匀所带来的周期确定不准确的问题,且算法简单,实时性更好。
本发明时间序列数据的周期挖掘方法,包括以下步骤:
步骤1、对原始时间序列数据进行预处理,将其划分为N个不同的等级,每个数据赋予相应的等级值,从而得到预处理后的时间序列,N为大于2的整数;
步骤2、设定一系列不同的候选周期,并按照以下方法计算每一个候选周期的综合指标:步骤2-1、按照该周期对预处理后的时间序列进行划分,并将所得到的各时间片进行叠加,从而在该候选周期的叠加后时间片的每个时间戳上得到一个等级值集合;
步骤2-2、以每个时间戳所对应的等级值集合中众数所占的比例作为该时间戳的重叠度指标,并选出重叠度指标大于预设重叠度阈值的时间戳作为有效时间戳;
步骤2-3、将具有相同众数且连续的有效时间戳合并为密集域;对每个等级值,统计其在密集域中作为众数出现的频次与其在预处理后的时间序列中出现的总频次之间的比值,并以N个等级值的比值之和或者N个等级值的比值均值作为该候选周期的综合指标;
步骤3、从具有最大综合指标的候选周期中选出最小的候选周期作为原始时间序列数据的周期。
上述技术方案可用于离线或在线的周期挖掘,为了充分利用最新的流量数据对周期进行实时更新,本发明进一步提出了以下技术方案:
如上所述周期挖掘方法,还包括:
步骤4、当新增数据的时间跨度达到步骤3所确定的周期时,则按照以下方法计算新增数据的迎合度:按照步骤1的方法对新增数据进行预处理,得到预处理后的新增数据时间片;根据步骤3所确定周期的密集域位置,从预处理后的新增数据时间片中选出与步骤3所确定周期的密集域相对应的时间戳,然后比较所选出的每个时间戳的等级值是否等于其所对应的密集域的众数,如是,则迎合度加1,如否,则迎合度减1;所选出的时间戳全部比较完成后即得到新增数据的迎合度;
步骤5、比较新增数据的迎合度是否大于预设迎合度阈值,如是,则转至步骤4,继续计算下一个周期新增数据的迎合度;如否,则从新增数据的最后位置开始,向前截取一段预设长度的数据作为新的原始时间序列数据,转至步骤1。
相比现有技术,本发明及其进一步改进技术方案具有以下有益效果:
(1)解决观测数据不均匀问题:由于设备等客观因素,往往会导致采集数据残缺,存在噪声,以往的方法均只对均匀采样有效,而本发明使用概率分布的方法,可以很好解决这个问题,同时算法更简单,实时性更好;
(2)数据随着时间不断增长,旧数据的作用可能没有新数据强,而不断进行周期计算,计算量较大,而本发明采用在线增量式更新方法则能很好地解决实时周期更新问题。
附图说明
图1 是本发明一个优选实施例的基本原理示意图;
图2 是本发明优选实施例具体实现算法的流程示意图;
图3 是本发明优选实施例中的车流量采样数据时间序列图;
图4 是本发明优选实施例中车流量采样数据分等级后的时间序列图;
图5 是本发明优选实施例中车流量候选周期综合指数折线图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
本发明针对现有技术在观测数据不均匀的条件下难以获得准确周期的不足,提出了一种时间序列数据的周期挖掘方法,采用概率分布估计的方式进行周期挖掘,可在观测数据不均匀的条件下获得准确周期,且算法更简单,实时性更好;在此基础上,本发明进一步采用在线增量式更新方式解决实时周期更新问题,使得在线周期更新所花费的资源和时间更少。
下面以本发明方法在交通流量数据分析中的应用为例进行进一步说明。
本发明一个优选实施例的基本原理如图1所示,其具体包括以下步骤:
步骤1、对原始交通流量数据进行预处理,将其划分为N个不同的流量等级,每个数据赋予相应的流量等级值,从而得到预处理后的时间序列,N为大于2的整数;经实际验证发现,对于交通流量数据的周期挖掘而言,N的较佳取值范围为5~8;
步骤2、设定一系列不同的候选周期,并按照以下方法计算每一个候选周期的综合指标:步骤2-1、按照该周期对所述时间序列进行划分,并将所得到的各时间片进行叠加,从而在该候选周期的叠加后时间片的每个时间戳上得到一个流量等级值集合;
步骤2-2、以每个时间戳所对应的流量等级值集合中众数所占的比例作为该时间戳的重叠度指标,并选出重叠度指标大于预设重叠度阈值的时间戳作为有效时间戳;
步骤2-3、将具有相同众数且连续的有效时间戳合并为密集域;对每个流量等级值,统计其在密集域中作为众数出现的频次与其在预处理后的时间序列中出现的总频次之间的比值,并以N个流量等级值的比值之和或者N个流量等级值的比值均值作为该候选周期的综合指标;
步骤3、从具有最大综合指标的候选周期中选出最小的候选周期作为交通流量数据的周期;
步骤4、当新增交通流量数据的时间跨度达到步骤3所确定的周期时,则按照以下方法计算新增交通流量数据的迎合度:按照步骤1的方法对新增交通流量数据进行预处理,得到预处理后的新增交通流量数据时间片;根据步骤3所确定周期的密集域位置,从预处理后的新增交通流量数据时间片中选出与步骤3所确定周期的密集域相对应的时间戳,然后比较所选出的每个时间戳的流量等级值是否等于其所对应的密集域的众数,如是,则迎合度加1,如否,则迎合度减1;所选出的时间戳全部比较完成后即得到新增交通流量数据的迎合度;
步骤5、比较新增交通流量数据的迎合度是否大于预设迎合度阈值,如是,则转至步骤4,继续计算下一个周期新增交通流量数据的迎合度;如否,则从新增交通流量数据的最后位置开始,向前截取一段预设长度的交通流量数据作为新的原始交通流量数据,转至步骤1。
为了使公众更好地理解,下面以一个某个道路路口的车辆流量数据的周期挖掘为例来对本发明技术方案进行进一步详细说明。本实施例中,每隔5分钟对车辆流量进行一次采样,其中包含很多缺失数据。整个周期挖掘的算法实现流程如图2所示,具体如下:
步骤s101、确定待选周期的集合,一般以一个小时作为间隔依次取;并对所采集的原始流量数据时间序列(本实施例中的原始流量数据时间序列如图3所示)进行预处理,预处理方法具体如下:
划分若干个流量等级区间(可根据实际需要划分,本发明优选划分为5~8个流量等级区间),区间间隔选取应使得所有车流量数据能较均匀分布于各个等级,这样每个车流量数据对应一个相应的流量等级值,时间轴上的车流量数据变成了统一的流量等级数据。图4即显示了图3所示原始流量数据经预处理后得到的由车流量等级值所构成的时间序列
步骤s102、依次开始循环选取候选周期进行计算。
步骤s103、求取每个候选周期的综合指标,综合指标的计算方法具体如下:
1.用候选周期对时间轴进行划分,并将其进行叠加,这样叠加后得到的时间片中的每个时间戳上有若干车流量等级值,将一个时间戳上的车流量等级值视为一个集合;
2.对每个时间戳的车流量等级值集合求取众数(即一组数据中出现频次最高的数据),并计算该时间戳的重叠度指标:所谓重叠度指标是指集合中众数元素的个数和集合中元素总个数的比例,即流量等级值集合中众数所占的比例;设定一个阈值,当重叠度指标小于阈值时,表明该时间戳上的重叠度指标无效;当重叠度指标大于阈值时,则表明该时间戳有效,记录下有效时间戳及其对应的车流量等级值集合。这里重叠度阈值的选取很重要,如果阈值过小,则会使得本方法的分辨率过低,导致无法识别出正确的周期,如果阈值过高,则可能导致有效的重叠度指标过少,对后续密集域寻找带来困难,也使得综合指标不能很好地起到评价周期可能性大小的作用;
3.密集域的统计:对具有相同众数且连续的有效时间戳进行合并,以组成密集域,此处最好为密集域所包含时间戳的数量设定一个上限,以避免密集域过分覆盖候选周期划分的时间片;
4.综合指标的计算:定义密集域中众数元素在密集域中的个数比上在整个时间序列中的个数为综合指标的一部分,将所有等级的元素均按这种方法计算,亦即对每个流量等级值,统计其在密集域中作为众数出现的频次与其在预处理后的时间序列中出现的总频次之间的比值;然后将所有流量等级值的比值直接相加或者取平均值,并定义所得到的值为该候选周期的综合指标。图5显示了本实施例中不同候选周期的综合指标,很容易看出在288,576和864个候选周期处(对应24,48,72小时处)的综合指标值最大,由于48,72分别是24的倍数,也就是说周期最有可能是在24小时处。
步骤s104、第一个计算到的综合指标作为最大值并存储起来,之后每个综合指标均与最大值进行比较,若是超过最大值,那么就进行最大值更新并相应保存该周期下划分的时间戳上的车流量等级值集合,以淘汰上一个最大值。
步骤s105、当存在新增数据时,若其时间跨度已经达到上述的周期大小,则对其进行迎合度计算,迎合度计算方法为:按照步骤s101的方法对新增交通流量数据进行预处理,得到预处理后的新增交通流量数据时间片;根据步骤s104所确定周期的密集域位置,从预处理后的新增交通流量数据时间片中选出与步骤s104所确定周期的密集域相对应的时间戳,然后比较所选出的每个时间戳的流量等级值是否等于其所对应的密集域的众数,如是,则迎合度加1,如否,则迎合度减1;所选出的时间戳全部比较完成后即得到新增交通流量数据的迎合度。
步骤s106、同样设定一个阈值,如果迎合度高于该阈值,则转至步骤s105,否则转至步骤s107。
步骤s107、设定一个合理宽度的移动时间窗,从新增数据最后位置开始向前截取一个时间窗的距离,顺序作为下一个要进行周期计算的原始时间序列,并转至步骤s101。
本发明方法尤其适用于存在较多观测数据缺失的时间序列的周期挖掘,可快速准确地获取周期。此外,本发明方法也可适用于其它时间序列数据的周期挖掘,例如水文数据、气候数据、地震观测数据等,本领域技术人员可根据本发明所公开的内容很容易地在这些应用场景中实现本发明方法。
Claims (4)
1.一种时间序列数据的周期挖掘方法,其特征在于,包括以下步骤:
步骤1、对原始时间序列数据进行预处理,将其划分为N个不同的等级,每个数据赋予相应的等级值,从而得到预处理后的时间序列,N为大于2的整数;
步骤2、设定一系列不同的候选周期,并按照以下方法计算每一个候选周期的综合指标:步骤2-1、按照该周期对预处理后的时间序列进行划分,并将所得到的各时间片进行叠加,从而在该候选周期的叠加后时间片的每个时间戳上得到一个等级值集合;
步骤2-2、以每个时间戳所对应的等级值集合中众数所占的比例作为该时间戳的重叠度指标,并选出重叠度指标大于预设重叠度阈值的时间戳作为有效时间戳;
步骤2-3、将具有相同众数且连续的有效时间戳合并为密集域;对每个等级值,统计其在密集域中作为众数出现的频次与其在预处理后的时间序列中出现的总频次之间的比值,并以N个等级值的比值之和或者N个等级值的比值均值作为该候选周期的综合指标;
步骤3、从具有最大综合指标的候选周期中选出最小的候选周期作为原始时间序列数据的周期。
2.如权利要求1所述周期挖掘方法,其特征在于,还包括:
步骤4、当新增数据的时间跨度达到步骤3所确定的周期时,则按照以下方法计算新增数据的迎合度:按照步骤1的方法对新增数据进行预处理,得到预处理后的新增数据时间片;根据步骤3所确定周期的密集域位置,从预处理后的新增数据时间片中选出与步骤3所确定周期的密集域相对应的时间戳,然后比较所选出的每个时间戳的等级值是否等于其所对应的密集域的众数,如是,则迎合度加1,如否,则迎合度减1;所选出的时间戳全部比较完成后即得到新增数据的迎合度;
步骤5、比较新增数据的迎合度是否大于预设迎合度阈值,如是,则转至步骤4,继续计算下一个周期新增数据的迎合度;如否,则从新增数据的最后位置开始,向前截取一段预设长度的数据作为新的原始时间序列数据,转至步骤1。
3.如权利要求1或2所述周期挖掘方法,其特征在于,所述时间序列数据为交通流量数据。
4.如权利要求3所述周期挖掘方法,其特征在于,N的取值范围为5~8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510152852.7A CN104750830B (zh) | 2015-04-01 | 2015-04-01 | 时间序列数据的周期挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510152852.7A CN104750830B (zh) | 2015-04-01 | 2015-04-01 | 时间序列数据的周期挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104750830A CN104750830A (zh) | 2015-07-01 |
CN104750830B true CN104750830B (zh) | 2017-10-31 |
Family
ID=53590514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510152852.7A Active CN104750830B (zh) | 2015-04-01 | 2015-04-01 | 时间序列数据的周期挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104750830B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106937241B (zh) * | 2015-12-31 | 2021-05-18 | 华为技术有限公司 | 时序数据检测方法及装置 |
CN105718756B (zh) * | 2016-04-15 | 2018-03-27 | 上海垒土资产管理有限公司 | 连续博弈数据流中非随机信息概率的实时计算方法及系统 |
CN110019398B (zh) * | 2017-12-14 | 2022-12-02 | 北京京东尚科信息技术有限公司 | 用于输出数据的方法和装置 |
CN109461480B (zh) * | 2018-09-27 | 2022-06-14 | 上海利连信息科技有限公司 | 一种医院感染数据缺失的增量式更新方法 |
CN109597815B (zh) * | 2018-10-26 | 2023-08-18 | 创新先进技术有限公司 | 一种数据状态更新方法、装置、设备及介质 |
CN113811908B (zh) * | 2019-09-02 | 2023-01-31 | 西门子(中国)有限公司 | 用于确定生产设备的生产周期的方法和装置 |
CN113688929B (zh) * | 2021-09-01 | 2024-02-23 | 睿云奇智(重庆)科技有限公司 | 预测模型确定方法、装置、电子设备及计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127037A (zh) * | 2006-08-15 | 2008-02-20 | 临安微创网格信息工程有限公司 | 基于时序向量差异序列法聚类的周期关联规则发现算法 |
CN102483738A (zh) * | 2009-07-14 | 2012-05-30 | 惠普开发有限公司 | 确定时间数据中的周期性效应 |
-
2015
- 2015-04-01 CN CN201510152852.7A patent/CN104750830B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN104750830A (zh) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104750830B (zh) | 时间序列数据的周期挖掘方法 | |
CN110738856B (zh) | 一种基于移动聚类的城市交通拥堵精细识别方法 | |
CN110264709B (zh) | 基于图卷积网络的道路的交通流量的预测方法 | |
CN107610469B (zh) | 一种考虑多因素影响的日维度区域交通指数预测方法 | |
CN106600960B (zh) | 基于时空聚类分析算法的交通出行起讫点识别方法 | |
CN100535955C (zh) | 一种识别离群交通数据的方法 | |
CN102800197B (zh) | 一种城市道路路段动态交通流基础数据的预处理方法 | |
CN102122823B (zh) | 电力系统振荡扰动源定位的方法 | |
CN110738855B (zh) | 一种数据稀疏时间段的道路交通流状况预测方法 | |
CN107895014B (zh) | 一种基于MapReduce框架的时间序列桥梁监测数据分析方法 | |
CN103077610A (zh) | 一种路段旅行时间估计的方法和系统 | |
CN108171993B (zh) | 一种基于手机信令大数据的高速公路车辆速度计算方法 | |
CN110047291A (zh) | 一种考虑扩散过程的短时交通流预测方法 | |
CN104811991B (zh) | 基于动态时间规整算法的无线链路质量预测方法 | |
CN109243173A (zh) | 基于道路高清卡口数据的车辆轨迹分析方法及系统 | |
CN110148295B (zh) | 一种估计路段自由流速度及交叉口上游到达流率的方法 | |
CN104732765A (zh) | 基于卡口数据的城市道路饱和度实时监测方法 | |
CN106951680A (zh) | 一种水文时间序列异常模式检测方法 | |
CN103065497A (zh) | 一种车位检测的方法和系统 | |
CN115577306B (zh) | 基于自适应密度聚类的共享单车出行潮汐区域探测方法 | |
CN115331433B (zh) | 基于多源数据的城市主干道多车轨迹重构方法 | |
CN106384507A (zh) | 基于稀疏检测器的行程时间实时估计方法 | |
CN108985488A (zh) | 个体出行目的地预测的方法 | |
CN103994816A (zh) | 一种基于光纤多发事件的识别方法 | |
CN103093620B (zh) | 基于冲突车流流量特征的机动车交通冲突数的确定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |