CN104731972A - 一种时间序列分类方法和装置 - Google Patents

一种时间序列分类方法和装置 Download PDF

Info

Publication number
CN104731972A
CN104731972A CN201510170063.6A CN201510170063A CN104731972A CN 104731972 A CN104731972 A CN 104731972A CN 201510170063 A CN201510170063 A CN 201510170063A CN 104731972 A CN104731972 A CN 104731972A
Authority
CN
China
Prior art keywords
series
time series
measured
mahalanobis distance
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510170063.6A
Other languages
English (en)
Inventor
张莉
陶志伟
王邦军
张召
杨季文
李凡长
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangjiagang Institute of Industrial Technologies Soochow University
Original Assignee
Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangjiagang Institute of Industrial Technologies Soochow University filed Critical Zhangjiagang Institute of Industrial Technologies Soochow University
Priority to CN201510170063.6A priority Critical patent/CN104731972A/zh
Publication of CN104731972A publication Critical patent/CN104731972A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种时间序列分类方法和装置。该方法在生多个码词后从多个码词中确定与待测时间序列子序列马氏距离最短的第一码词和样本时间序列子序列马氏距离最短的第二码词,并用利用第一码词和第二码词对待测时间序列和样本时间序列进行重构。进一步,利用重构待测时间序列与各个重构样本时间序列之间马氏距离,确定待测时间序列的类别。与现有技术相比,本发明解决了欧氏距离作为相似性度量容易受模式特征量纲的影响,引入马氏距离作为相似性度量,在消除量纲影响的同时,也消除了码词间相关性对算法准确率的影响,提高了分类的精度。

Description

一种时间序列分类方法和装置
技术领域
本发明涉及实际序列数据挖掘领域,更具体的说是涉及一种时间序列分类方法和装置。
背景技术
时间序列是某种现象或统计指标在不同时间点上的各个数据,按照时间顺序排列而成的有序序列。
随着数据时代的到来,快速有效地对杂乱无章的时间序列进行分类尤为重要。时间序列的分类问题一直是时间序列数据挖掘领域重点研究的方向之一,时间序列的分类问题可以分解为两个子问题,即如何对时间序列进行的表示(或者如何用一定的存储空间容纳更多的时间序列),以及如何将待测时间序列与已知类别的时间序列进行对比从而确定待测数据的类别。
当前通常将分段矢量量化引入时间序列的分类问题中,在生成码词后引入欧氏距离进行未知时间序列的重构,并通过计算重构时间序列与训练样例间的欧氏距离来判断未知样例的类别。但是,欧氏距离易受模式特征量纲的影响,可能会导致分类精度的降低。
发明内容
有鉴于此,本发明提供一种时间序列分类方法和装置,该方法引入马氏距离来判断待测时间序列的类别,提高了分类精度。
为实现上述目的,本发明提供如下技术方案:
一种时间序列分类方法,包括:
对待测时间序列和所有已知类别的样本时间序列进行分段处理,得到多个待测时间序列子序列和多个样本时间序列子序列;
对所有样本时间序列子序列进行聚类处理,得到多个码词;
从所述多个码词中确定与所述待测时间子序列马氏距离最短的第一码词,以及与所述样本时间序列子序列马氏最短的第二码词;
利用所述第一码词替代对应的待测时间子序列,所述第二码词替代对应的样本时间序列子序列,对待测时间序列和所有样本时间序列进行重构,得到重构待测时间序列和多个重构样本时间序列;
计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离,将最短马氏距离对应的重构时间序列的类别作为待测时间序列的类别。
优选的,所述对待测时间序列和所有已知类别的样本时间序列进行分段处理,包括:
对待测时间序列和所述已知类别的样本时间序列进行同等分段处理。
优选的,所述对所有样本时间训练子序列进行聚类处理,得到多个码词,具体包括:
采用K均值聚类算法对所有样本时间序列子序列进行聚类处理,生成K个聚类中心,将所述聚类中心作为所述码词。
优选的,所述从所述多个码词中确定与所述待测时间子序列马氏距离最短的第一码词,包括:
基于马氏距离算法,计算所述待测时间子序列与各个码词之间的马氏距离;
确定所有马氏距离中最短的马氏距离对应码词为所述第一码词。
优选的,所述从所述多个码词中确定与所述样本时间序列子序列马氏最短的第二码词,包括:
基于马氏距离算法,计算所述样本时间序列子序列与各个码词之间的马氏距离;
确定所有马氏距离中最短的马氏距离对应的码词为所述第二码词。
优选的,所述计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离,包括:
计算各个码词间的马氏距离,构建码词距离矩阵;
根据所述码词距离矩阵,计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离。
一种时间序列分类装置,包括:
时间序列预处理单元,用于对待测时间序列和所有已知类别的样本时间序列进行分段处理,得到多个待测时间序列子序列和多个样本时间序列子序列;
码词生成单元,用于对所有样本时间序列子序列进行聚类处理,得到多个码词;
筛选单元,用于从所述多个码词中确定与所述待测时间子序列马氏距离最短的第一码词,以及与所述样本时间序列子序列马氏最短的第二码词;
时间序列重构单元,用于利用所述第一码词替代对应的待测时间子序列,所述第二码词替代对应的样本时间序列子序列,对待测时间序列和所有样本时间序列进行重构,得到重构待测时间序列和多个重构样本时间序列;
时间序列分类单元,用于计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离,将最短马氏距离对应的重构时间序列的类别作为待测时间序列的类别。
优选的,所述筛选单元包括:
第一计算子单元,用于基于马氏距离算法,计算所述待测时间子序列与各个码词之间的马氏距离,以及计算所述样本时间序列子序列与各个码词之间的马氏距离;
第一码词确定子单元,用于从待测时间子序列与各个码词之间的马氏距离中,确定最短马氏距离对应的码词为第一码词;
第二码词确定子单元,用于从样本时间序列子序列与各个码词之间的马氏距离中,确定最短马氏距离对应的码词为第二码词。
优选的,所述时间序列分类单元包括:
矩阵构建子单元,用于计算各个码词间的马氏距离,构建码词距离矩阵;
第二计算子单元,用于根据所述码词距离矩阵,计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离;
分类子单元,用于确定最短马氏距离对应的重构时间序列,并将该重构时间序列的类别作为待测时间序列的类别。
经由上述的技术方案可知,本发明公开了一种时间序列分类方法和装置。该方法在对待测时间序列和所有已知类别的样本时间序列进行分段处理后,对处理后的样本时间序列进行聚类处理,得到多个码词。进而从多个码词中确定与待测时间序列子序列马氏距离最短的第一码词和样本时间序列子序列马氏距离最短的第二码词,并用利用第一码词和第二码词对待测时间序列和样本时间序列进行重构。进一步,利用重构待测时间序列与各个重构样本时间序列之间马氏距离,确定待测时间序列的类别。与现有技术相比,本发明解决了欧氏距离作为相似性度量容易受模式特征量纲的影响,引入马氏距离作为相似性度量,在消除量纲影响的同时,也消除了码词间相关性对算法准确率的影响,提高了分类的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明一实施例公开的一种时间序列分类方法的流程示意图;
图2示出了本发明另一实施例公开的一种时间序列分类装置的结构示意图;
图3示出了本发明一实施例公开的筛选单元的结构示意图;
图4示出了本发明一实施例公开的时间序列分类单元的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1示出了本发明一实施例公开的一种时间序列分类方法的流程示意图。
由图1可知,该方法包括:
101:对待测时间序列和所有已知类别的样本时间序列进行分段处理,得到多个待测时间序列子序列和多个样本时间序列子序列。
需要说明的是,所述待测时间序列和所述样本时间序列长度相同。在对所述待测时间序列和所述样本时间序列进行分段处理时,为了保证分类精度通常对所述待测时间序列和所述样本时间序列进行同等分段处理,即将所述待测时间序列和所述样本时间序列分为同等的段数,因而所述待测时间序列子序列和所述样本时间序列子序列的长度也相同。
102:对所有样本时间序列子序列进行聚类处理,得到多个码词。
对应步骤101中生成的所有样本时间序列子序列,采用K均值聚类算法,生成K个聚类中心。其中,所述K个聚类中心即为所有样本时间序列子序列的码词,K个码词组成的集合即为所有样本时间序列子序列的码本。需要说明的是,该码词的长度与待测时间序列子序列和所述样本时间序列子序列的长度相同。
103:从所述多个码词中确定与所述待测时间子序列马氏距离最短的第一码词,以及与所述样本时间序列子序列马氏最短的第二码词。
对于任意一个时间序列(待测时间序列或样本时间序列),采用马氏距离算法计算该时间序列与各个码词之间的马氏距离,并确定得到的马氏距离中最短的马氏距离,并将该最短马氏距离对应的码词作为目标码词,即第一码词和第二码词。
104:利用所述第一码词替代对应的待测时间子序列,所述第二码词替代对应的样本时间序列子序列,对待测时间序列和所有样本时间序列进行重构,得到重构待测时间序列和多个重构样本时间序列。
105:计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离,将最短马氏距离对应的重构时间序列的类别作为待测时间序列的类别。
需要说明的是,在此步骤中由于距离的计算仅在码词之间进行,为了提高算法运算速度,可以事先计算各码词间的马氏距离。进而,根据各个码词间的马氏距离构建一个码词距离矩阵。在计算时,可利用该码词距离矩阵计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离。
由以上实施例可知,本发明公开了一种时间序列分类方法和装置。该方法在对待测时间序列和所有已知类别的样本时间序列进行分段处理后,对处理后的样本时间序列进行聚类处理,得到多个码词。进而从多个码词中确定与待测时间序列子序列马氏距离最短的第一码词和样本时间序列子序列马氏距离最短的第二码词,并用利用第一码词和第二码词对待测时间序列和样本时间序列进行重构。进一步,利用重构待测时间序列与各个重构样本时间序列之间马氏距离,确定待测时间序列的类别。与现有技术相比,本发明解决了欧氏距离作为相似性度量容易受模式特征量纲的影响,引入马氏距离作为相似性度量,在消除量纲影响的同时,也消除了码词间相关性对算法准确率的影响,提高了分类的精度。
参见图2示出了本发明另一实施例公开的一种时间序列分类装置的结构示意图。
由图2可知,该装置包括:时间序列预处理单元1、码词生成单元2、筛选单元3、时间序列重构单元4以及时间序列分类单元5。
其中,时间序列预处理单元用于对待测时间序列和所有已知类别的样本时间序列进行分段处理,得到多个待测时间序列子序列和多个样本时间序列子序列。
可选的,在本实施例中为了提高分类精度,该时间序列预处理单元在对待测时间序列和样本时间序列进行分段时采用同等分段,即将待测时间序列和样本时间序列分为同等的段数。由于待测时间序列和样本时间序列的长度相同,因而所得到的待测时间序列子序列和样本时间序列子序列的长度也相同。
码词生成单元用于对所有样本时间序列子序列进行聚类处理,得到多个码词。
可选的,该码词生成单元针对所有的样本时间序列子序列采用K均值聚类算法,生成K个聚类中心。该聚类中心即为码词,多个码词构成码本。
筛选单元用于从所述多个码词中确定与所述待测时间子序列马氏距离最短的第一码词,以及与所述样本时间序列子序列马氏最短的第二码词。
对于任意一个时间序列,该筛选单元采用马氏距离算法计算该时间序列与各个码词之间的马氏距离,并确定得到的马氏距离中最短的马氏距离。
时间序列重构单元用于利用所述第一码词替代对应的待测时间子序列,所述第二码词替代对应的样本时间序列子序列,对待测时间序列和所有样本时间序列进行重构,得到重构待测时间序列和多个重构样本时间序列。
时间序列分类单元,用于计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离,将最短马氏距离对应的重构时间序列的类别作为待测时间序列的类别。
需要说明的是,在本发明公开的其他实施例中该装置的筛选单元和时间序列分类单元包括多个子单元。
参见图3示出了本发明一实施例公开的筛选单元的结构示意图。参见图4示出了本发明一实施例公开的时间序列分类单元的结构示意图。
由图3可知,该筛选单元包括:
第一计算子单元31,用于基于马氏距离算法,计算所述待测时间子序列与各个码词之间的马氏距离,以及计算所述样本时间序列子序列与各个码词之间的马氏距离;
第一码词确定子单元32,用于从待测时间子序列与各个码词之间的马氏距离中,确定最短马氏距离对应的码词为第一码词;
第二码词确定子单元33,用于从样本时间序列子序列与各个码词之间的马氏距离中,确定最短马氏距离对应的码词为第二码词。
由图4可知,该时间序列分类单元包括:
矩阵构建子单元41,用于计算各个码词间的马氏距离,构建码词距离矩阵;
第二计算子单元42,用于根据所述码词距离矩阵,计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离;
分类子单元43,用于确定最短马氏距离对应的重构时间序列,并将该重构时间序列的类别作为待测时间序列的类别。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种时间序列分类方法,其特征在于,包括:
对待测时间序列和所有已知类别的样本时间序列进行分段处理,得到多个待测时间序列子序列和多个样本时间序列子序列;
对所有样本时间序列子序列进行聚类处理,得到多个码词;
从所述多个码词中确定与所述待测时间子序列马氏距离最短的第一码词,以及与所述样本时间序列子序列马氏最短的第二码词;
利用所述第一码词替代对应的待测时间子序列,所述第二码词替代对应的样本时间序列子序列,对待测时间序列和所有样本时间序列进行重构,得到重构待测时间序列和多个重构样本时间序列;
计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离,将最短马氏距离对应的重构时间序列的类别作为待测时间序列的类别。
2.根据权利要求1所述的方法,其特征在于,所述对待测时间序列和所有已知类别的样本时间序列进行分段处理,包括:
对待测时间序列和所述已知类别的样本时间序列进行同等分段处理。
3.根据权利要求1所述的方法,其特征在于,所述对所有样本时间训练子序列进行聚类处理,得到多个码词,具体包括:
采用K均值聚类算法对所有样本时间序列子序列进行聚类处理,生成K个聚类中心,将所述聚类中心作为所述码词。
4.根据权利要求1所述的方法,其特征在于,所述从所述多个码词中确定与所述待测时间子序列马氏距离最短的第一码词,包括:
基于马氏距离算法,计算所述待测时间子序列与各个码词之间的马氏距离;
确定所有马氏距离中最短的马氏距离对应码词为所述第一码词。
5.根据权利要求1所述的方法,其特征在于,所述从所述多个码词中确定与所述样本时间序列子序列马氏最短的第二码词,包括:
基于马氏距离算法,计算所述样本时间序列子序列与各个码词之间的马氏距离;
确定所有马氏距离中最短的马氏距离对应的码词为所述第二码词。
6.根据权利要求1所述的方法,其特征在于,所述计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离,包括:
计算各个码词间的马氏距离,构建码词距离矩阵;
根据所述码词距离矩阵,计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离。
7.一种时间序列分类装置,其特征在于,包括:
时间序列预处理单元,用于对待测时间序列和所有已知类别的样本时间序列进行分段处理,得到多个待测时间序列子序列和多个样本时间序列子序列;
码词生成单元,用于对所有样本时间序列子序列进行聚类处理,得到多个码词;
筛选单元,用于从所述多个码词中确定与所述待测时间子序列马氏距离最短的第一码词,以及与所述样本时间序列子序列马氏最短的第二码词;
时间序列重构单元,用于利用所述第一码词替代对应的待测时间子序列,所述第二码词替代对应的样本时间序列子序列,对待测时间序列和所有样本时间序列进行重构,得到重构待测时间序列和多个重构样本时间序列;
时间序列分类单元,用于计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离,将最短马氏距离对应的重构时间序列的类别作为待测时间序列的类别。
8.根据权利要求7所述的装置,其特征在于,所述筛选单元包括:
第一计算子单元,用于基于马氏距离算法,计算所述待测时间子序列与各个码词之间的马氏距离,以及计算所述样本时间序列子序列与各个码词之间的马氏距离;
第一码词确定子单元,用于从待测时间子序列与各个码词之间的马氏距离中,确定最短马氏距离对应的码词为第一码词;
第二码词确定子单元,用于从样本时间序列子序列与各个码词之间的马氏距离中,确定最短马氏距离对应的码词为第二码词。
9.根据权利要求7所述的装置,其特征在于,所述时间序列分类单元包括:
矩阵构建子单元,用于计算各个码词间的马氏距离,构建码词距离矩阵;
第二计算子单元,用于根据所述码词距离矩阵,计算所述重构待测时间序列与各个重构样本时间序列之间马氏距离;
分类子单元,用于确定最短马氏距离对应的重构时间序列,并将该重构时间序列的类别作为待测时间序列的类别。
CN201510170063.6A 2015-04-13 2015-04-13 一种时间序列分类方法和装置 Pending CN104731972A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510170063.6A CN104731972A (zh) 2015-04-13 2015-04-13 一种时间序列分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510170063.6A CN104731972A (zh) 2015-04-13 2015-04-13 一种时间序列分类方法和装置

Publications (1)

Publication Number Publication Date
CN104731972A true CN104731972A (zh) 2015-06-24

Family

ID=53455859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510170063.6A Pending CN104731972A (zh) 2015-04-13 2015-04-13 一种时间序列分类方法和装置

Country Status (1)

Country Link
CN (1) CN104731972A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146157A (ja) * 2006-12-06 2008-06-26 Mitsubishi Electric Corp ネットワーク異常判定装置
CN104281891A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种时间序列数据挖掘方法及系统
CN104462217A (zh) * 2014-11-09 2015-03-25 浙江大学 一种基于分段统计近似表示的时间序列相似性度量方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146157A (ja) * 2006-12-06 2008-06-26 Mitsubishi Electric Corp ネットワーク異常判定装置
CN104281891A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种时间序列数据挖掘方法及系统
CN104462217A (zh) * 2014-11-09 2015-03-25 浙江大学 一种基于分段统计近似表示的时间序列相似性度量方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘博等: "改进的多元时间序列符号化表示方法研究", 《计算机仿真》 *
杨东援: "《连续数据环境下的交通规则与管理》", 31 January 2014, 同济大学出版社 *

Similar Documents

Publication Publication Date Title
CN103810101A (zh) 一种软件缺陷预测方法和软件缺陷预测系统
WO2013019869A3 (en) Data fingerpringting for copy accuracy assurance
CN106897774B (zh) 基于蒙特卡洛交叉验证的多个软测量算法集群建模方法
WO2012115912A3 (en) Design based device risk assessment
EP2119264A4 (en) SYSTEM AND METHOD FOR ESTIMATING A POSITION USING A METHOD OF INTERSECTIONS
CN104900059A (zh) 一种利用隐马尔可夫地图匹配算法增强手机基站定位精度的方法
CN106767851A (zh) 将定位系统采集到的轨迹点匹配到地图的方法及其装置
CN105989410B (zh) 一种重叠核脉冲分解方法
CN110288032A (zh) 一种车辆行驶轨迹类型检测方法及装置
CN104536895A (zh) 一种面向Java函数调用路径的测试过程跟踪方法及系统
ES2923100T3 (es) Clasificación de partes de código de software
CN106489068B (zh) 测量值分析装置以及测量值分析方法
CN108038211A (zh) 一种基于上下文的无监督关系数据异常检测方法
US20170372331A1 (en) Marking of business district information of a merchant
CN104133836B (zh) 一种实现变更数据检测的方法及装置
CN104731972A (zh) 一种时间序列分类方法和装置
CN110929301B (zh) 一种基于提升算法的硬件木马检测方法
JP2019133305A (ja) カオス尺度補正装置及びカオス尺度補正用プログラム
CN104657749A (zh) 一种时间序列的分类方法及装置
CN109063313B (zh) 基于机器学习的列车牵引能耗计算方法
CN107492148B (zh) 基于SVM与K‑Means的大规模无标定曲面点云重建圆柱面方法
CN104462055A (zh) 一种名称相似度获取方法及装置
CN104678891B (zh) 一种用于评估数控加工三轴刀具轨迹质量的工艺方法
CN113419706A (zh) 一种快速的任意分布随机数产生方法、系统及其检验方法、系统
KR20170074418A (ko) 서열의 유사도 측정을 위한 k-mer 변환 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150624

RJ01 Rejection of invention patent application after publication