CN104657749A

CN104657749A - 一种时间序列的分类方法及装置

Info

Publication number: CN104657749A
Application number: CN201510097947.3A
Authority: CN
Inventors: 张莉; 陶志伟; 王邦军; 张召; 李凡长; 杨季文
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-03-05
Filing date: 2015-03-05
Publication date: 2015-05-27

Abstract

本发明提供了一种时间序列的分类方法及装置，本申请中预先将训练时间序列集合的训练时间序列按类别标签分为各个训练时间序列子集，针对每个训练时间序列子集中的每个样本进行时间分段，使得每个训练时间序列由长段时间序列转换为短段时间序列，然后生成与每个训练时间序列子集对应的预设类别码本。本申请中每个类别均有自身的码本，这样便可使得测试时间序列与每个类别的码本均进行类别匹配，由于对长段时间序列进行了分段，使得聚集在一个时间序列内的各个特征分离，从而能够提取到训练时间序列子集的主要特征，进一步使得测试时间序列的匹配精度更高。

Description

一种时间序列的分类方法及装置

技术领域

本发明涉及数据挖掘领域，尤其涉及一种时间序列的分类方法及装置。

背景技术

时间序列的分类问题一直是数据挖掘领域研究人员关注的重点。时间序列是某种现象或统计指标在不同时间段内、按照时间顺序排列而成的有序序列。随着大数据时代的到来，快速有效地对杂乱无章的时间序列的分类显得尤为重要。

发明内容

本发明提供了一种时间序列的分类方法及装置，本申请能够快速有效地对杂乱无章的时间序列进行分类。

为了实现上述目的，本发明提供了下述技术手段：

一种时间序列的分类方法，包括：

将一测试时间序列按时间顺序分为若干个测试时间子序列，生成测试时间子序列集；

逐个计算所述测试时间子序列集与多个预设类别码本之间的欧式距离；

将最小欧式距离对应预设类别码本的类别赋予所述测试时间序列；

其中，每个预设类别码本为对每个训练类别子集执行K均值聚类算法后生成K个聚类中心的集合，所述每个训练类别子集为对每个训练时间序列子集中每个训练时间序列按时间顺序分段后形成多个训练时间分段序列的集合，所述每个训练时间序列子集为按类别标签对训练时间序列集合分类后生成的、仅包含一个类别标签训练时间序列的集合，训练时间序列集合中包括若干个已知类别标签的训练时间序列。

优选的，预先构建多个预设类别码本的过程包括：

获得训练时间序列集合，其中所述训练时间序列集合中包括若干个已知类别标签的训练时间序列；

按类别标签对所述训练时间序列集合分类、生成与类别标签一一对应的多个训练时间序列子集，其中，每个训练时间序列子集中仅包含一个类别标签的至少一个训练时间序列；

对每个训练时间序列子集中每个训练时间序列按时间顺序分段形成多个训练时间分段序列，将该训练时间序列子集中与每个训练时间序列对应的多个训练时间分段序列的集合、作为该训练时间序列子集对应类别的训练类别子集；

对每个训练类别子集执行K均值聚类算法生成K个聚类中心，将K个聚类中心的集合作为训练类别子集对应的码本，将每个训练类别子集对应的码本作为多个预设类别码本，其中，码本由K个码词组成，每个聚类中心对应一个码词。

一种时间序列的分类方法，包括：

对所述测试时间子序列集采用K均值聚类算法生成K个聚类中心，将所述K个聚类中心的集合作为所述测试时间序列的测试码本；

逐个计算所述测试码本与多个预设类别码本之间的欧式距离；

优选的，预先构建多个预设类别码本的过程包括：

一种时间序列的分类方法，包括：

将一测试时间序列按时间分为若干个测试时间子序列，生成测试时间子序列集；

在一个预设类别码本中为每个测试时间子序列选择一个对应的码词，将每个测试时间子序列对应的码词组成所述测试时间序列的一个重构测试时间序列，该重构测试时间序列的类别与该预设类别码本的类别一致，按上述构建重构测试时间序列的方式构建所述测试时间序列与所有预设类别码本一一对应的多个重构测试时间序列；

逐个计算所述测试时间序列与多个重构测试时间序列之间的欧式距离；

将最小欧式距离对应重构测试时间序列的类别赋予测试时间序列；

优选的，所述在一个预设类别码本中为每个测试时间子序列选择一个对应的码词包括：

计算一个测试时间子序列与预设类别码本中所有码词的欧式距离；

将欧式距离最小的码词作为该测试时间子序列的对应码词；

按上述方式为所有测试时间子序列选择对应码词。

优选的，预先构建多个预设类别码本的过程包括：

一种时间序列的分类装置，包括：

划分单元，用于将一测试时间序列按时间顺序分为若干个测试时间子序列，生成测试时间子序列集；

计算单元，用于逐个计算所述测试时间子序列集与多个预设类别码本之间的欧式距离；

赋值单元，用于将最小欧式距离对应预设类别码本的类别赋予所述测试时间序列；

预建单元，用于预先构建多个预设类别码本，其中每个预设类别码本为对每个训练类别子集执行K均值聚类算法后生成K个聚类中心的集合，所述每个训练类别子集为对每个训练时间序列子集中每个训练时间序列按时间顺序分段后形成多个训练时间分段序列的集合，所述每个训练时间序列子集为按类别标签对训练时间序列集合分类后生成的、仅包含一个类别标签训练时间序列的集合，训练时间序列集合中包括若干个已知类别标签的训练时间序列。

一种时间序列的分类装置，包括：

第二划分单元，用于将一测试时间序列按时间顺序分为若干个测试时间子序列，生成测试时间子序列集；

生成码本单元，用于对所述测试时间子序列集采用K均值聚类算法生成K个聚类中心，将所述K个聚类中心的集合作为所述测试时间序列的测试码本；

第二计算单元，用于逐个计算所述测试码本与多个预设类别码本之间的欧式距离；

第二赋值单元，用于将最小欧式距离对应预设类别码本的类别赋予所述测试时间序列；

第二预建单元，用于预先构建多个预设类别码本，其中每个预设类别码本为对每个训练类别子集执行K均值聚类算法后生成K个聚类中心的集合，所述每个训练类别子集为对每个训练时间序列子集中每个训练时间序列按时间顺序分段后形成多个训练时间分段序列的集合，所述每个训练时间序列子集为按类别标签对训练时间序列集合分类后生成的、仅包含一个类别标签训练时间序列的集合，训练时间序列集合中包括若干个已知类别标签的训练时间序列。

一种时间序列的分类装置，包括：

第三划分单元，用于将一测试时间序列按时间分为若干个测试时间子序列，生成测试时间子序列集；

重构单元，用于在一个预设类别码本中为每个测试时间子序列选择一个对应的码词，将每个测试时间子序列对应的码词组成所述测试时间序列的一个重构测试时间序列，该重构测试时间序列的类别与该预设类别码本的类别一致，按上述构建重构测试时间序列的方式构建所述测试时间序列与所有预设类别码本一一对应的多个重构测试时间序列；

第三计算单元，用于逐个计算所述测试时间序列与多个重构测试时间序列之间的欧式距离；

第三赋值单元，用于将最小欧式距离对应重构测试时间序列的类别赋予测试时间序列；

第三预建单元，用于预先构建多个预设类别码本，其中每个预设类别码本为对每个训练类别子集执行K均值聚类算法后生成K个聚类中心的集合，所述每个训练类别子集为对每个训练时间序列子集中每个训练时间序列按时间顺序分段后形成多个训练时间分段序列的集合，所述每个训练时间序列子集为按类别标签对训练时间序列集合分类后生成的、仅包含一个类别标签训练时间序列的集合，训练时间序列集合中包括若干个已知类别标签的训练时间序列。

本发明提供了一种时间序列的分类方法及装置，本申请中预先将训练时间序列集合中的多个训练时间序列按类别标签分为各个训练时间序列子集，每个训练时间序列子集中仅包含一个类别标签的训练时间序列，然后生成与每个训练时间序列子集对应的预设类别码本。本申请中训练时间序列集合中每个类别均有自身的码本，在对测试时间序列分类时便可使测试时间序列与每个类别的码本均进行类别匹配，从而在所有类别中确定测试时间序列的类别，进而提高测试时间序列的分类准确性。

并且在生成与每个训练时间序列子集对应的每个预设类别码本时，针对每个训练时间序列子集中的每个训练时间序列进行时间分段，使得每个训练时间序列由长段的时间序列转换为短段的时间序列，并对每个训练时间序列子集的所有短段的时间序列采用K均值聚类算法生成预设类别码本；由于对长段时间序列进行了分段，使得聚集在一个时间序列内的各个特征分离，从而能够提取到训练时间序列子集的主要特征，进而使得测试时间序列的匹配精度更高。

本申请提供了测试时间序列分类方法的三个独立权利要求，三个独立权利要求分类实现方式略有不同，但三种方式所使用由训练时间序列生成的多个预设类别码本是一致，即本发明三个独立权利要求的发明构思是一致的所以三个独立权利要求具有单一性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种时间序列的分类方法的流程图；

图2为本发明实施例公开的一种时间序列的分类方法中预建多个预设类别码本的流程图；

图3为本发明实施例公开的又一种时间序列的分类方法的流程图；

图4为本发明实施例公开的又一种时间序列的分类方法的流程图；

图5为本发明实施例公开的一种时间序列的分类装置的结构示意图；

图6为本发明实施例公开的又一种时间序列的分类装置的结构示意图；

图7为本发明实施例公开的又一种时间序列的分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明具体实施之前预先构建多个预设类别码本，如图1所示，预先构建多个预设类别码本的过程包括：

步骤S101：获得训练时间序列集合，其中所述训练时间序列集合中包括若干个已知类别标签的训练时间序列；

首先构建训练时间序列集合X^trn＝{(x₁,v₁),…,(x_i,v_i),…,(x_n,v_n)}以及训练时间序列所归属的C种类别，X^trn为训练时间序列集合，其中包含多个训练时间序列x₁、x₂…x_i…x_n，以及与每个训练时间序列一一对应的类别v₁、v₂…v_i…v_n，所有训练时间序列归属于C种类别标签的一类，以第i个时间序列训练时间序列x_i∈R^m为例，v_i是x_i的类别标签，其中v_i∈{1,2,…,C}。

步骤S102：按类别标签对所述训练时间序列集合分类、生成与类别标签一一对应的多个训练时间序列子集，其中，每个训练时间序列子集中仅包含一个类别标签的训练时间序列；

由于训练时间序列集合中的多个训练时间序列的归属类别不尽相同，为了准确地后续对测试时间序列进行分类，将训练时间序列集合按类别标签分为多个训练时间序列子集，即将训练时间序列集合中类别标签一致训练时间序列归为一个训练时间序列子集，从而将训练时间序列集合分为多个训练时间序列子集。

具体的，将训练时间序列集合X^trn＝{(x₁,v₁),…,(x_i,v_i),…,(x_n,v_n)}分为C个训练时间序列子集X₁、X₂…X_c，其中第c个子集X_c中仅包含v_i＝c的训练时间序列。

步骤S103：对每个训练时间序列子集中每个训练时间序列按时间顺序分段形成多个训练时间分段序列，将该训练时间序列子集中与每个训练时间序列对应的多个训练时间分段序列的集合、作为该训练时间序列子集对应类别的训练类别子集。

时间序列是某种现象或统计指标在不同时间段内、按照时间顺序排列而成的有序序列，一般而言时间序列很长，时间序列越长包含的技术特征越多，技术特征越多影响分类的准确性，所以需要对每个训练时间序列进行分段，以产生多个短段的时间序列，对训练时间序列分段能够将每个训练时间序列的组合在一起的各个技术特征分开。

具体的，训练时间序列集分为C个训练时间序列子集：第1类训练时间序列子集、第2类训练时间序列子集…第c类训练时间序列子集…第C类训练时间序列子集，以第c类对应的训练时间序列子集X_c为例、对分段过程进行介绍。

第c类训练时间序列子集X_c中包含多个训练时间序列，以第i个训练时间序列为例，将第c类的训练时间序列子集X_c中第i个训练时间序列x_i分为W段，每段均为一个训练时间分段序列，将W段训练时间分段序列的集合作为第i个训练时间序列x_i的替代序列，并采用符号x_i′表示，x_i′＝(x_i1,x_i2,…,x_iW)∈R^l×W，且每一段的长度为l＝m/W。按第i个训练时间序列x_i的分段方式，将第c类训练时间序列子集X_c中包含所有训练时间序列均进行分段，得到每个训练时间时间序列的替代序列。

假设第c类对应的训练时间序列子集X_c中有n_c个训练时间序列，那么训练时间序列子集X_c中n_c个训练时间序列采用对应的替代序列表示后，训练时间序列子集X_c可以采用下述方式并采用符号X_c′表示：

{X_{c}}^{'} = {x_{11}, x_{12}, . . ., x_{1 W}, x_{21}, x_{22}, . . ., x_{2 W}, . . ., x_{n_{c} 1}, x_{n_{c} 2}, . . ., x_{n_{c} W}}

X_c′便为第c类训练时间序列子集X_c对应的训练类别子集。

按第c类训练时间序列子集X_c获得训练类别子集的方式，对训练时间序列集合中每个训练时间序列子集执行同样的操作方法，生成与每个类别对应的训练类别子集。

步骤S104：对每个训练类别子集执行K均值聚类算法生成K个聚类中心，将K个聚类中心的集合作为训练类别子集对应的码本，将每个训练类别子集对应的码本作为多个预设类别码本，其中，码本由K个码词组成，每个聚类中心对应一个码词。

具体的，以第c类对应的训练时间序列子集X_c为例，对于第c类的训练时间序列子集X_c′，采用K均值聚类算法生成K个聚类中心，每个聚类中心对应一个码词，K个码词组成第c类的码本，并采用X_c″表示第c类的码本；

{X_{c}}^{''} = {{\overset{&OverBar;}{x}}_{c 1}, {\overset{&OverBar;}{x}}_{c 2}, . . ., {\overset{&OverBar;}{x}}_{cK}};

其中，X_c″代表第c类训练时间序列子集的码本，第为第c类码本中第i个码词，c＝1,2…,C。

对于第c类的训练时间序列子集X_c′，采用K均值聚类算法生成指定个数的聚类中心，以提取分散在训练时间序列子集X_c′中的技术特征。此处的K是可以人为设定的参数，K值越大，所提取的技术特征越多，这样可以更大程度的保留原始训练时间序列子集X_c′的技术特征，从而得到更加精确的结果。但是，K值越大对应的计算量也相应的增加，进而增加算法运算的时间，所以需要选取合理的K值。

按第c类对应的训练时间序列子集生成码本的过程，对每个类别的训练时间序列子集均采用K均值聚类算法从而生成每个类别的码本，每个训练类别子集对应的码本即为与每个类别对应预设类别码本。

以上为对训练时间序列进行处理的过程，在生成与每个类别对应的预设类别码本之后，便可利用每个预设类别码本对测试时间序列进行分类。

如图2所示，本发明提供了一种时间序列的分类方法，对测试时间序列分类过程包括以下步骤，具体为：

步骤S201：将一测试时间序列按时间顺序分为若干个测试时间子序列，生成测试时间子序列集；

在执行图1所示步骤后形成与每个类别对应的预设类别码本，每个预设类别码本中有K个码词，为了判定测试时间序列的归属类别，需要计算测试时间序列与每个预设类别码本之间的欧式距离，进行计算欧式距离首先将测试时间序列按时间分类多段，优选的，由于每个预设类别码本中码次的数量为K个，所以可以将测试时间序列分为K段，以方便计算欧式距离。

具体的，对于测试时间序列y∈R^m，将其分为K段生成分段后的测试子时间序列集：y′＝(y₁,y₂,…,y_K)∈R^l×K。

步骤S202：逐个计算所述测试时间子序列集与多个预设类别码本之间的欧式距离；

为了判定测试时间序列的归属类别，本实施例计算测试时间序列与每个预设类别码本集之间的欧式距离，欧式距离越小代表测试时间子序列集与该预设类别码本集之间的关系越近，欧式距离越大代表测试时间子序列集与该预设类别码本集之间的关系越远，关系的远近代表两者的类别远近。

具体的，以第c类训练时间序列子集的码本为例，计算测试时间序列与第c类预设类别码本之间的欧式距离d_c。

d_{c} = \sqrt{{\overset{&OverBar;}{x}}_{c 1}^{2} - {y_{1}}^{2}} + \sqrt{{\overset{&OverBar;}{x}}_{c 2}^{2} - {y_{2}}^{2}} . . . . . . + \sqrt{{\overset{&OverBar;}{x}}_{ck}^{2} - {y_{k}}^{2}}

按上述计算欧式距离的方式，计算测试时间序列与每个预设类别码本之间的欧式距离。

步骤S203：将最小欧式距离对应预设类别码本的类别赋予所述测试时间序列；

在计算测试时间序列与每个预设类别码本之间的欧式距离之后，比较各个欧氏距离的大小，获得与测试时间序列欧氏距离最小的预设类别码本，由于欧氏距离越小代表两者类别越接近，所以将欧氏距离最小的预设类别码本对应码本的类别、作为测试时间序列的类别，从而完成测试时间序列的分类。

本发明提供了一种时间序列的分类方法，本申请中预先将训练时间序列集合中的多个训练时间序列按类别标签分为各个训练时间序列子集，每个训练时间序列子集中仅包含一个类别标签的训练时间序列，然后生成与每个训练时间序列子集对应的预设类别码本。本申请中训练时间序列集合中每个类别均有自身的码本，在对测试时间序列分类时便可使测试时间序列与每个类别的码本均进行类别匹配，从而在所有类别中确定测试时间序列的类别，进而提高测试时间序列的分类准确性。

并且在生成与每个训练时间序列子集对应的每个预设类别码本时，针对每个训练时间序列子集中的每个样本进行时间分段，使得每个训练时间序列由长段时间序列转换为短段时间序列，并对每个训练时间序列子集的所有短段时间序列采用K均值聚类算法生成预设类别码本；由于对长段时间序列进行了分段，使得聚集在一个时间序列内的各个特征分离，从而能够提取到训练时间序列子集的主要特征，进一步使得测试时间序列的匹配精度更高。

如图3所示，本发明还提供了另外一种时间序列的分类方法，包括：

在本实施例之前需要预先构建多个预设类别码本，构建过程与图1所示构建过程一致，在此不再赘述。下面介绍如何应用多个预设类别码本对测试时间序列分类。

步骤S301：将一测试时间序列按时间顺序分为若干个测试时间子序列，生成测试时间子序列集；

为了与每个预设类别码本进行比对，首先需要将测试时间序列按时间分为多段，优选的将测试时间序列分为W段。

具体的，对于测试时间序列y∈R^m，将其分为W段生成测试时间子序列集y′＝(y₁,y₂,…,y_w)∈R^l×w，且每一段长度为l＝m/W。

步骤S302：对所述测试时间子序列集采用K均值聚类算法生成K个聚类中心，将所述K个聚类中心的集合作为所述测试时间序列的测试码本；

为了与多个预设类别码具一一对比，将测试时间子序列同样执行K均值聚类算法生成K个聚类中心，一个聚类中心对应一个码词，将K个聚类中心组成测试时间序列的测试码本。

具体的，对于测试时间子序列集y′＝(y₁,y₂,…,y_w)∈R^l×w，其中w＞K，采用K均值聚类算法生成K个聚类中心，测试码本是K个聚类中心的集合，即

y^{''} = {{\overset{&OverBar;}{y}}_{1}, {\overset{&OverBar;}{y}}_{2}, . . . {\overset{&OverBar;}{y}}_{i} . . ., {\overset{&OverBar;}{y}}_{K}};

其中，y″是测试码本，为测试码本中第i个码词。将测试码本代表测试时间序列。

步骤S303：逐个计算所述测试码本与多个预设类别码本之间的欧式距离；

为了判定测试时间序列在多个类别中的归属类别，计算测试码本与每个预设类别码本之间的欧式距离，欧式距离越小代表测试码本与预设类别码本之间的关系越近，欧式距离越大代表测试码本与预设类别码本之间的关系越远。

具体的，以第c类训练时间序列子集的码本为例，计算测试码本与第c类预设类别码本之间的欧式距离

{\overset{&OverBar;}{d}}_{c} = \sqrt{{\overset{&OverBar;}{x}}_{c 1}^{2} - {\overset{&OverBar;}{y}}_{1}^{2}} + \sqrt{{\overset{&OverBar;}{x}}_{c 2}^{2} - {\overset{&OverBar;}{y}}_{2}^{2}} . . . . . . + \sqrt{{\overset{&OverBar;}{x}}_{ck}^{2} - {\overset{&OverBar;}{y}}_{k}^{2}}

按上述计算欧式距离的方式，计算测试码本与每个预设类别码本之间的欧式距离。

步骤S304：将最小欧式距离对应预设类别码本的类别赋予所述测试时间序列；

在计算测试码本与每个预设类别码本之间的欧式距离之后，比较各个距离的大小，得到与测试码本欧式距离最小的预设类别码本，由于该预设类别码本与测试码本之间的欧式距离最小，所以代表该预设类别码本与测试码本的关系最近，因此将该预设类别码本的类别作为测试码本的类别，也即为测试时间序列的类别，从而完成测试时间序列的分类。

图3提供的测试时间序列的分类方法与图2提供的测试时间序列的分类方法在构建预设类别码本的过程是一致的，所以图3所示的实施例具有与图1所示实施例同样的有益效果。

此外，图2所示的实施例在测试时间序列进行分类时，仅对测试时间序列进行分段，虽然也可以实现类别匹配的目的，但没有对测试时间序列执行K均值聚类算法取得主要技术特征，所以测试时间序列中有冗余信息，在匹配准确性上以及处理速度上还可以有所提高。图3所示的实施例在图1的基础上，采用与训练时间序列同样的处理方式，对测试时间序列执行K均值算法提取主要技术特征，一方面可以降低测试时间时间序列中的信息冗余，另一方面由于减少处理数据的数量，所以可以提高计算机的处理效率。

如图4所示，本发明还提供了一种时间序列的分类方法，包括：

在本实施例之前需要预先构建多个预设类别码本，构建过程与图1所示内容一致，在此不再赘述。下面介绍如何应用多个预设类别码本对测试时间序列分类。

步骤S401：将一测试时间序列按时间分为若干个测试时间子序列，生成测试时间子序列集；

为了与每个预设类别码本进行比对，首先需要将测试时间序列按时间分类多段，优选的，可以将测试时间序列分为W段。

具体的，对于测试时间序列y∈R^m，将其分为W段生成分段后的测试子时间序列集：y′＝(y₁,y₂,…,y_W)∈R^l×W。

步骤S402：在一个预设类别码本中为每个测试时间子序列选择一个对应的码词，将每个测试时间子序列对应的码词组成所述测试时间序列的一个重构测试时间序列，该重构测试时间序列的类别与该预设类别码本的类别一致，按上述构建重构测试时间序列的方式构建所述测试时间序列与所有预设类别码本一一对应的多个重构测试时间序列；

由于图3所示的实施例针对每个测试时间序列均需要采用K均值算法生成测试码本，才能够进行后续的类别匹配，但是对测试时间序列生成测试码本的过程非常耗时，为了节省分类时间，本申请采用下述方式获得测试时间序列的类别。

针对C个类别标签，本实施例构建测试时间子序列集与C个类别标签一一对应的多个重构测试时间序列，即一个类别标签对应一个重构测试时间序列，一个重构测试时间序列中仅由一个类别标签的码本组成。下面对一个类别的重构测试时间序列的过程进行详细说明：

测试时间子序列集中有W个测试时间子序列，一个类别的预设类别码本中有K个码词，在一个预设类别码本的K个码词中逐个为每个测试时间子序列选择一个对应码词，将所有测试时间子序列一一对应的所有码词组成、与预设类别码本的类别对应的重构测试时间序列。

在一个预设类别码本中为每个测试时间子序列选择一个对应的码词，优选的可以为：计算一个测试时间子序列与预设类别码本中所有码词的欧式距离；将欧式距离最小的码词作为该测试时间子序列的对应码词；按上述方式为所有测试时间子序列选择对应码词。

具体的，训练时间序列集合的每个类别均有一个预设类别码本，即第1类预设类别码本为第2类预设类别码本为

{X_{2}}^{''} = {{\overset{&OverBar;}{x}}_{21}, {\overset{&OverBar;}{x}}_{22}, . . ., {\overset{&OverBar;}{x}}_{2 K}}

……第c类预设类别码本为

{X_{c}}^{''} = {{\overset{&OverBar;}{x}}_{c 1}, {\overset{&OverBar;}{x}}_{c 2}, . . ., {\overset{&OverBar;}{x}}_{cK}}

……第C类预设类别码本为

{X_{C}}^{''} = {{\overset{&OverBar;}{x}}_{C 1}, {\overset{&OverBar;}{x}}_{C 2}, . . ., {\overset{&OverBar;}{x}}_{CK}} .

对于测试时间序列y∈R^m，先将其分为W段y′＝(y₁,y₂,…,y_W)∈R^l×W，以分段后的测试时间子序列y_i及第c类预设类别码本为为例，寻找分段后的测试时间子序列y_i在第c类预设类别码本中的对应码词。遍历第c类预设类别码本中中的每个码词，计算测试时间子序列与每个码词的距离，并获得距离最小的码词。即

i_{c}^{*} = \underset{j = 1, . . ., K}{\arg \min} (d (y_{i}, {\overset{&OverBar;}{x}}_{cj})), c = 1, . . ., C

其中表示y_i和码之间的欧氏距离，用来替代y_i，按测试时间子序列y_i匹配码词的方式为测试时间子序列找到匹配的码词，从而用第c类码本表示的测试时间子序列集，即得到第c类的重构测试时间序列，采用符号表示：

y_{c}^{''} = ({\overset{&OverBar;}{x}}_{1_{c}^{*}}, {\overset{&OverBar;}{x}}_{2_{c}^{*}}, . . ., {\overset{&OverBar;}{x}}_{W_{c}^{*}}), c = 1, . . ., C .

按测试时间序列与第c类预设类别码本的重构方式，获得所有测试时间子序列针对所有预设类别码本的重构测试时间序列。

本实施例中未对测试时间序列采用K均值算法生成测试码本，而是在已有的预设类别码本中选择码词，从而获得测试时间序列的重构测试时间序列，由于省略了K均值算法的复杂过程，所以能够节省分类时间。

步骤S403：逐个计算所述测试时间序列与多个重构测试时间序列之间的欧式距离；

上述步骤S402中分别生成与测试子序列集对应的多个重构测试时间序列，每个重构测试时间序列的类别可以作为该测试子序列集所归属的类别，若测试时间子序列集归属于某一个类别，则测试时间子序列集理应与该类别对应的重构测试时间序列的欧式距离最小，所以为了获得测试时间子序列集的归属类别，需要计算测试时间子序列集与多个重构测试时间序列之间的欧式距离。

步骤S404：将最小欧式距离对应重构测试时间序列的类别赋予所述测试时间序列；

由于测试子序列集与其中一类重构测试时间序列的欧式距离越小，代表测试时间序列归属于该该类别重构测试时间序列的概率越大，两者的欧式距离最小代表概率最大，所以将与测试时间序列欧式距离最小的预设类别码本的类别，作为测试时间序列的类别，从而完成测试时间序列的分类。

具体的，对于每一个测试时间子序列集y′，经过上述步骤S403后得到C个重构的类别测试码本c＝1,…,C。计算原始时间序列y′与C个重构时间序列的之间的欧氏距离，将欧式距离最小的重构时间序列对应的类别作为该测试时间序列的类别，即

v = \underset{c = 1, . . ., C}{\arg \min} (d (y, y_{c}^{''}))

图4所示的实施例，与图2、图3所示的实施例中所使用的多个预设类别码本是一致的，所以图4具有与图2、图3所示的实施例同样有益效果。此外，图4所示的实施例与图2所示的实施例相比，具有生成测试时间序列的码本的步骤，所以匹配精度更高；与图3所示的实施例相比，对并没有对测试时间序列执行K均值聚类算法，所以能够大大减少分类所需时间，提高了分类效率。

图2、图3和图4中分别提供了三种对测试时间序列分类方法，三个分类方法的实现方式略有不同，但三种方式所使用由训练时间序列生成的多个预设类别码本是一致，生成预设类别码本的步骤也是一致的，且生成预设类别码本能够解决背景技术提出的问题，即本发明三个分类方法的发明构思是一致的所以三个分类方法之间具有单一性。

下面对本发明的具体场景实例作详细说明：本实例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和过程，但本发明的保护范围不限于下述的实例。

本发明在Control Chart dataset时间序列数据库中的Trace数据集进行测试。Trace数据集有4类共200个时间序列，分为100个训练时间序列以及100个测试时间序列，每个时间序列长度为275。Control Chart dataset时间序列数据库是目前研究时间序列分类、聚类使用最广泛的数据库之一。

具体实施步骤如下：

(1)训练数据处理过程：

本步骤主要对训练时间序列进行处理，构造训练时间序列子集。

设已有训练时间序列集合X^trn＝{(x₁,v₁),…,(x_i,v_i),…,(x_n,v_n)}，第i个训练时间序列x_i∈R^m，v_i∈{1,2,…,C}，v_i是x_i的类别标签。把该训练时间序列集合分为C个子集，其中第c个子集X_c中仅包含v_i＝c的序列。本实例中C＝4，n＝100，m＝275。

对第c类测试序列子集，将X_c第i个训练时间序列x_i分为W段，即x_i′＝(x_i1,x_i2,…,x_iW)∈R^l×W，每一段的长度为l＝m/W。假设X_c中有n_c个时间序列，则训练时间序列子集X_c′可以表示为：

{X_{c}}^{'} = {x_{11}, x_{12}, . . ., x_{1 W}, x_{21}, x_{22}, . . ., x_{2 W}, . . ., x_{n_{c} 1}, x_{n_{c} 2}, . . ., x_{n_{c} W}}

本实例中，分段数W∈{5,11,25}，相应地每段训练时间子序列的长度l∈{55,25,11}。

(2)生成码本模块：

对于第c类时间序列子序列集X_c′，采用K均值聚类算法，生成K个聚类中心。第c类时间序列子序列的码本是K个聚类中心的集合，即其中为第i个码词，c＝1,…,C。本例中，K∈{4,8,16,32,64}。该操作将会相应的生成4类码本。

(3)测试序列处理过程：

对于测试时间序列序列y∈R^m。先将其分为W段y′＝(y₁,y₂,…,y_W)∈R^l×W。寻找分段后的测试时间子序列y_i与各类别的码本中具有最短距离的码词，即

i_{c}^{*} = \underset{j = 1, . . ., K}{\arg \min} (d (y_{i}, {\overset{&OverBar;}{x}}_{cj})), c = 1, . . ., C

其中表示y_i和码之间的欧氏距离。采用来替代y_i，于是得到用第c类码本构建的重构测试时间序列：

y_{c}^{''} = ({\overset{&OverBar;}{x}}_{1_{c}^{*}}, {\overset{&OverBar;}{x}}_{2_{c}^{*}}, . . ., {\overset{&OverBar;}{x}}_{W_{c}^{*}}), c = 1, . . ., C

(4)测试序列分类过程：

对于每一个测试时间序列y′，经过上述(3)操作后，都将得到C个重构时间序列c＝1,…,C。计算原始的测试时间序列y′与C个重构时间序列的之间的欧氏距离，将欧式距离最小的重构时间序列对应的类别作为该测试时间序列的类别，即

v = \underset{c = 1, . . ., C}{\arg \min} (d (y, y_{c}^{''}))

在本实施例中，有100个测试样本，因此要重复测试序列处理和分类过程100次。把错误率作为性能衡量指标，实验结果如表1所示。由表1可以看出，本发明在码本数量提高的情况下，时间序列分类错误率也是大大的降低，在码本大小为64时错误率明显降低。由于对于不同类别的时间序列，码本本身就是有差异的。多码本分类考虑到这种差异，产生相应类别的码本，提高时间序列分类的精度。

表1：采用分段矢量量化分类以及多码本分段时间序列分类的错误率(％)

	K＝4	K＝8	K＝16	K＝32	K＝64
						本发明	52.00	36.50	25.00	18.80	15.30

如图5所示，本发明提供了一种时间序列的分类装置，包括：

划分单元51，用于将一测试时间序列按时间顺序分为若干个测试时间子序列，生成测试时间子序列集；

计算单元52，用于逐个计算所述测试时间子序列集与多个预设类别码本之间的欧式距离；

赋值单元53，用于将最小欧式距离对应预设类别码本的类别赋予所述测试时间序列；

预建单元54，用于预先构建多个预设类别码本，其中每个预设类别码本为对每个训练类别子集执行K均值聚类算法后生成K个聚类中心的集合，所述每个训练类别子集为对每个训练时间序列子集中每个训练时间序列按时间顺序分段后形成多个训练时间分段序列的集合，所述每个训练时间序列子集为按类别标签对训练时间序列集合分类后生成的、仅包含一个类别标签训练时间序列的集合，训练时间序列集合中包括若干个已知类别标签的训练时间序列。

如图6所示，本发明还提供了一种时间序列的分类装置，包括：

第二划分单元61，用于将一测试时间序列按时间顺序分为若干个测试时间子序列，生成测试时间子序列集；

生成码本单元62，用于对所述测试时间子序列集采用K均值聚类算法生成K个聚类中心，将所述K个聚类中心的集合作为所述测试时间序列的测试码本；

第二计算单元63，用于逐个计算所述测试码本与多个预设类别码本之间的欧式距离；

第二赋值单元64，用于将最小欧式距离对应预设类别码本的类别赋予所述测试时间序列；

第二预建单元65，用于预先构建多个预设类别码本，其中每个预设类别码本为对每个训练类别子集执行K均值聚类算法后生成K个聚类中心的集合，所述每个训练类别子集为对每个训练时间序列子集中每个训练时间序列按时间顺序分段后形成多个训练时间分段序列的集合，所述每个训练时间序列子集为按类别标签对训练时间序列集合分类后生成的、仅包含一个类别标签训练时间序列的集合，训练时间序列集合中包括若干个已知类别标签的训练时间序列。

如图7所示，本发明还提供了一种时间序列的分类装置，包括：

第三划分单元71，用于将一测试时间序列按时间分为若干个测试时间子序列，生成测试时间子序列集；

重构单元72，用于在一个预设类别码本中为每个测试时间子序列选择一个对应的码词，将每个测试时间子序列对应的码词组成所述测试时间序列的一个重构测试时间序列，该重构测试时间序列的类别与该预设类别码本的类别一致，按上述构建重构测试时间序列的方式构建所述测试时间序列与所有预设类别码本一一对应的多个重构测试时间序列；

第三计算单元73，用于逐个计算所述测试时间序列与多个重构测试时间序列之间的欧式距离；

第三赋值单元74，用于将最小欧式距离对应重构测试时间序列的类别赋予测试时间序列；

第三预建单元75，用于预先构建多个预设类别码本，其中每个预设类别码本为对每个训练类别子集执行K均值聚类算法后生成K个聚类中心的集合，所述每个训练类别子集为对每个训练时间序列子集中每个训练时间序列按时间顺序分段后形成多个训练时间分段序列的集合，所述每个训练时间序列子集为按类别标签对训练时间序列集合分类后生成的、仅包含一个类别标签训练时间序列的集合，训练时间序列集合中包括若干个已知类别标签的训练时间序列。

如图5、图6和图7中所示，本发明提供了一种时间序列的分类装置，本申请中预先将训练时间序列集合的训练时间序列按类别标签为各个训练时间序列子集，每个训练时间序列子集中仅包含一个类别标签的训练时间序列，然后生成与每个训练时间序列子集对应的预设类别码本。本申请中使得每个类别均有自身的码本，这样便可使得测试时间序列与每个类别的码本均进行类别匹配，进而提高测试时间序列的分类准确性。

并且，在生成与每个训练时间序列子集对应的每个预设类别码本时，针对每个训练时间序列子集中的每个样本进行时间分段，使得每个训练时间序列由长段时间序列转换为短段时间序列，并对每个训练时间序列子集的所有短段时间序列采用K均值聚类算法生成预设类别码本；由于对长段时间序列进行了分段，使得聚集在一个时间序列内的各个特征分离，从而较为能够提取得到训练时间序列子集的主要特征，进一步使得测试时间序列的匹配精度更高。

本申请提供了三种对测试时间序列分类装置，三个分类装置的实现方式略有不同，但三种方式所使用由训练时间序列生成的多个预设类别码本是一致，即本发明三个独立权利要求的发明构思是一致的所以三个独立权利要求具有单一性。

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种时间序列的分类方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，预先构建多个预设类别码本的过程包括：

3.一种时间序列的分类方法，其特征在于，包括：

4.如权利要求3所述的方法，其特征在于，预先构建多个预设类别码本的过程包括：

5.一种时间序列的分类方法，其特征在于，包括：

6.如权利要求5所述的方法，其特征在于，所述在一个预设类别码本中为每个测试时间子序列选择一个对应的码词包括：

将欧式距离最小的码词作为该测试时间子序列的对应码词；

按上述方式为所有测试时间子序列选择对应码词。

7.如权利要求5或6所述的方法，其特征在于，预先构建多个预设类别码本的过程包括：

8.一种时间序列的分类装置，其特征在于，包括：

9.一种时间序列的分类装置，其特征在于，包括：

10.一种时间序列的分类装置，其特征在于，包括：