CN104408072B

CN104408072B - 一种基于复杂网络理论的适用于分类的时间序列特征提取方法

Info

Publication number: CN104408072B
Application number: CN201410605262.0A
Authority: CN
Inventors: 杨劲锋; 肖勇; 任龙霞; 陈启冠; 阙华坤; 马千里; 王家兵; 邢林杰; 蒋佳军
Original assignee: South China University of Technology SCUT; Electric Power Research Institute of Guangdong Power Grid Co Ltd
Current assignee: South China University of Technology SCUT; Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority date: 2014-10-30
Filing date: 2014-10-30
Publication date: 2017-07-18
Anticipated expiration: 2034-10-30
Also published as: CN104408072A

Abstract

本发明的目的在于提供一种基于复杂网络理论的适用于分类的时间序列特征提取方法，本方法的步骤包括：首先，将时间序列转化为相应的复杂网络；其次，为了得到适用于分类的特征向量，对所得复杂网络的统计特征进行提取，得到相应的特征向量；最后，将所得特征向量输入分类器，对时间序列进行分类。通过实验验证本发明所提方法的有效性，实验结果表明将该方法所提取特征应用于时间序列分类能够达到较高的准确率。

Description

一种基于复杂网络理论的适用于分类的时间序列特征提取方法

技术领域

本发明涉及时间序列的数据挖掘技术领域，特别是涉及适用于分类的时间序列特征提取方法。

背景技术

随着信息获取、传输和存储技术的发展，广泛存在于现实世界中的时间序列数据被记录了下来，产生了大量的时间序列数据，比如金融数据、水文数据、传感器网络监控数据、移动对像跟踪数据、机器故障检测数据等等。利用机器学习和数据挖掘方法从这大量的数据中获取时间序列的知识已经成为一个重要的研究领域，而对时间序列数据进行分类正是其中的一个重要组成部分。例如，根据心电图的时间序列波形识别患者所患疾病，根据植物叶子轮廓所得序列识别植物叶子所属物种，根据用电量序列识别用电工厂所属行业，依据机器运作过程进行故障检测和故障类型判别等等。

由于时间序列数据和时间相关联，所以一般情况下其数据量非常大，维度非常高，这增加了时间序列分类的难度和计算量，对时间序列分类技术提出了更高的要求。衡量时间序列分类技术优劣的核心标准是分类的错误率，而降低分类错误率的途径有两种：一是改进分类器；二是采用特征提取方法。特征提取方法是在不牺牲或较少牺牲分类错误率的前提下，在分类之前对时间序列进行适当的规约，得到相应的特征向量，以达到大大减少数据量同时降低分类错误率的目的。

现阶段时间序列的特征提取方法可归纳为四类，分别是基于基本统计方法的特征提取,基于模型的特征提取,基于变换的特征提取以及基于分形理论的特征提取。基于基本统计方法的特征提取的思路是，提取数据波形的均值,方差,极值,波段,功率谱,过零点等统计特征来构成原有时间序列的特征向量。基于模型的特征提取的思路是，利用数学模型刻画时间序列，然后提取数学模型的参数构成原有时间序列的特征向量。基于变换的特征提取包括基于时频变换的特征提取和基于线性变换的特征提取。基于时频变换的特征提取的思路是，将信号从时域变换到频域，然后提取幅值、相位等来构成原有时间序列的特征向量。基于线性变换的特征提取的思路是，利用线性变换方法对原有时间序列进行降维，从而提取出原有时间序列的特征来构成原有时间序列的特征向量。基于分形理论的特征提取的思路是，利用分形理论计算原有时间序列的分形维数，将分形维数作为原有时间序列的特征向量。

发明内容

本发明的目的在于提供一种基于复杂网络理论的适用于分类的时间序列特征提取方法，采用本方法能够达到获得较高的分类准确率的目的。

本发明的目的可通过以下的技术措施来实现：

一种基于复杂网络理论的适用于分类的时间序列特征提取方法，包括下列步骤：

步骤1，对训练数据集中的时间序列进行相空间重构，将相空间中的每一点作为复杂网络的一个节点；

步骤2,计算步骤1中所得复杂网络节点两两之间的距离；所述距离计算采用欧氏距离计算公式；

步骤3,对于步骤1中所得的每个复杂网络节点，取与其最近的K个节点相连接，如果某一条边已经加入复杂网络中，则下一个与该节点最接近的点与该节点相连接；得到与原始时间序列相对应的复杂网络；K是一个正整数，一般取值为复杂网络节点数的2％～3％；

步骤4,对于步骤3中所得复杂网络，计算其平均最短路径长度(average shortestpath length)；所述平均最短路径长度计算公式如下：N为复杂网络节点数，d_ij为节点i与节点j之间的最短路径长度；

步骤5,对于步骤3中所得复杂网络，计算其聚集系数(clusteringcoefficitent)；所述聚集系数计算公式如下：N_c为闭三元组的数量，N_o为开三元组的数量；

步骤6,对于步骤3中所得复杂网络，计算其模度(modularity)；

步骤7,对于步骤3中所得复杂网络，计算其度分布信息熵(degree entropy)；所述度分布信息熵计算公式如下：K_i为节点i的度(degree)；

步骤8,对于步骤3中所得复杂网络，计算其全局系数(global efficient)；所述全局系数计算公式如下：符号定义与上文相同；

步骤7,对于步骤3中所得复杂网络，计算其回环系数(cycl ic coefficient)；

步骤8,对于步骤3中所得复杂网络，计算其中心点优势度(central pointdominance)；

步骤9,对于步骤3中所得复杂网络，计算其富集系数(rich club coefficient)；

步骤10,对于步骤3中所得复杂网络，计算其lth-moments；所述lth-moments计算公式如下：其中λ_i为复杂网络邻接矩阵的特征值，l为整数；

步骤11,对于步骤3中所得复杂网络，计算其强度(intensity)；

步骤12,对于步骤3中所得复杂网络，计算其连贯性(coherence)；

步骤13,对于步骤3中所得复杂网络，计算其匹配系数(matching index)；所述匹配系数计算公式如下：其中E(G)为复杂网络G中的边构成的集合，

步骤14,将步骤4至步骤13所得计算结果作为特征向量的各个分量，得到原始时间序列的特征向量；

步骤15，对步骤14中所得原始时间序列的特征向量的各个分量分别进行归一化以及标准化；

步骤16，利用步骤15中所得经过归一化和标准化后的原始时间序列的特征向量对分类器进行训练；所述分类器选自SVM、KNN等分类器；

步骤17,对测试数据集中的时间序列按步骤1至步骤15进行处理，得到测试数据集中的时间序列对应的特征向量；

步骤18,将步骤17中所得测试数据集中的时间序列对应的特征向量输入步骤16中所得经过训练的分类器，对测试数据集中的时间序列的类别进行预测。

本发明针对时间序列分类问题，从基于变换的时间序列特征提取思路出发，提出了一种适用于分类的时间序列特征提取的有效方法。利用所得原始序列的特征向量对分类器进行训练，便可得到适用于时间序列分类的分类器。与现有技术相比，本发明的有益效果为：

(1)提出了一种全新的时间序列的特征提取方法，并且将其应用到时间序列分类问题上，可以获得较高的分类准确率。

(2)该方法对时间序列的维度没有限制，在高维时间序列上也可以胜任。

附图说明

图1为本发明实施例利用基于复杂网络理论的适用于分类的时间序列特征提取的方法进行时间序列特征提取，并将所提取特征用于时间序列分类的流程图。

图1中附图标记如下：

1-从StartLightCurves数据集中随机抽取10％的数据作为训练集，剩余90％的数据作为测试集；

2-对数据集中的时间序列进行相空间重构，将相空间中的每一点作为复杂网络的一个节点，并计算其两两之间的欧式距离；

3-对每一复杂网络节点，取与其最近的K个节点相连接，如果某一条边已经加入复杂网络中，则下一个与该节点最接近的点与该节点相连接；

4-计算复杂网络的平均最短路径、聚集系数等12个特征，并组合成原始时间序列的特征向量；

5-对特征向量的各个分量分别进行归一化以及标准化；

6-训练集；7-测试集；8-训练；9-测试；

10-利用训练集所得特征向量对SVM分类器进行训练；

11-记录分类准确率；

12-计算最大准确率、最小准确率、平均准确率、和准确率标准差。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案。

本发明针对时间序列分类问题，从基于变换的时间序列特征提取思路出发，提出了一种适用于分类的时间序列特征提取的有效方法。利用所得原始序列的特征向量对分类器进行训练，便可得到适用于时间序列分类的分类器。

本发明实施例以StarLightCurves数据集(天体亮度随时间变化的时间序列,任务为根据时间序列判断天体类型,数据集取自UCR Time Series Classification/Clustering Page)为具体实例，StarLightCurves数据集含3个类别(分别标记为CEPH类、EB类和RRL类)，每个时间序列长度为1024，数据集大小为9236，其中CEPH类包含1329个数据，EB类包含2580个数据，RRL类包含5327个数据。为了避免过拟合，实施例采用交叉验证对分类准确率进行验证，训练比例10％，测试比例90％。

如图1所示，基于以上StarLightCurves数据集，实施例通过以下步骤对StarLightCurves数据集进行特征提取，构建时间序列分类系统，并进行交叉验证：

步骤1，从StarLightCurves数据集中随机抽取10％的数据作为训练集，剩余90％的数据作为测试集。

步骤2，为了得到复杂网络的节点，对训练数据集中的时间序列进行相空间重构，将相空间中的每一点作为复杂网络的一个节点。

步骤3,计算步骤2中所得复杂网络节点两两之间的距离。距离计算可以使用任意向量范数的计算公式，本实施例采用欧氏距离计算公式。

步骤4,为了得到复杂网络的边，对于步骤2中所得的每个复杂网络节点，取与其最近的K个节点相连接，如果某一条边已经加入复杂网络中，则下一个与该节点最接近的点与该节点相连接。得到与原始时间序列相对应的复杂网络。K是一个正整数，一般取值为复杂网络节点数的2％～3％，本实施例K取值20。

步骤5,对于步骤4中所得复杂网络，计算其平均最短路径长度(average shortestpath length)、聚集系数(clustering coefficitent)、模度(modularity)、度分布信息熵(degree entropy)、全局系数(global efficient)、回环系数(cycl ic coefficient)、中心点优势度(central point dominance)、富集系数(rich club coefficient)、lth-moments、强度(intensity)、连贯性(coherence)、匹配系数(matching index)。

其中，计算其平均最短路径长度(average shortest path length)的计算公式如下：N为复杂网络节点数，d_ij为节点i与节点j之间的最短路径长度。

聚集系数(clustering coefficitent)的计算公式如下：N_c为闭三元组的数量，N_o为开三元组的数量。

计算其模度(modularity)的计算公式参考Newman等人的论文[M.E.J.Newman andM.Girvan.Finding and evaluating community structure in networks.PhysicalReview E,69:026113,2004.]。

计算其度分布信息熵(degree entropy)的计算公式如下：K_i为节点i的度(degree)。

计算其全局系数(global efficient)的计算公式如下：符号定义与上文相同。

计算其回环系数(cycl ic coefficient)的计算公式参考Kim等人的论文[H.J.Kim and J.M.Kim.Cycl ic topology in complex network.Physical ReviewE,72:036109,2005.]。

计算其中心点优势度(central point dominance)的计算公式参考Freeman的论文[L.C.Freeman.A set of measures of central ity based onbetweenness.Sociometry,40:35–41,1977.]。

计算其富集系数(rich club coefficient)的计算公式参考Zhou和Mondragon的论文[S.Zhou and R.J.Mondragon.The rich-club phenomenon in the internettopology.Communications Letters,IEEE,8(3):180–182,2004..]。

计算其lth-moments的计算公式如下：其中λ_i为复杂网络邻接矩阵的特征值，l为整数。

计算其强度(intensity)的计算公式参考Onnela等人的论文[J.-P.Onnela,J.J.Kertész,and K.Kaski.Intensity and coherence of motifs in weightedcomplex networks.Physical Review E,71:065103(R),2005.]

计算其连贯性(coherence)的计算公式参考Onnela等人的论文[J.-P.Onnela,J.J.Kertész,and K.Kaski.Intensi ty and coherence of motifs in weightedcomplex networks.Physical Review E,71:065103(R),2005.]

计算其匹配系数(matching index)的计算公式如下：其中E(G)为复杂网络G中的边构成的集合，

步骤6,将步骤5所得计算结果进行组合，得到原始时间序列的特征向量。

步骤7，对步骤6中所得原始时间序列的特征向量的各个分量分别进行归一化以及标准化。

步骤8，利用步骤7中所得经过归一化和标准化后的原始时间序列的特征向量对SVM分类器进行训练。分类器也可以选用KNN等其他各式分类器。

步骤9,对测试数据集中的时间序列按步骤2至步骤7进行处理，得到测试数据集中的时间序列对应的特征向量。

步骤10,将步骤9中所得测试数据集中的时间序列对应的特征向量输入步骤8中所得经过训练的SVM分类器，对测试数据集中的时间序列的类别进行预测，并与测试数据集中的时间序列的真实类别进行比较，计算分类准确率。

步骤11,重复步骤1至步骤10,循环100次，记录每次所得分类准确率，计算最大准确率、最小准确率、平均准确率和准确率标准差。所得结果如下表：

表1.实验结果

综上所述，本发明提出一种有效的适用于分类的时间序列特征提取方法。首先，将时间序列转化为相应的复杂网络；其次，对所得复杂网络的统计特征进行提取，得到相应的特征向量；最后，将所得特征向量输入分类器，对分类器进行训练，得到适用于时间序列分类的分类器，并且该分类器具有较高的分类准确率。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方法替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于复杂网络理论的适用于分类的时间序列特征提取方法，其特征在于包括下列步骤：

步骤3,对于步骤1中所得的每个复杂网络节点，取与其最近的K个节点相连接，如果某一条边已经加入复杂网络中，则下一个与该节点最接近的点与该节点相连接；得到与原始时间序列相对应的复杂网络；K是一个正整数，取值为复杂网络节点数的2％～3％；

步骤5,对于步骤3中所得复杂网络，计算其聚集系数(clustering coefficitent)；所述聚集系数计算公式如下：N_c为闭三元组的数量，N_o为开三元组的数量；

步骤6,对于步骤3中所得复杂网络，计算其模度(modularity)；

步骤8,对于步骤3中所得复杂网络，计算其全局系数(global efficient)；所述全局系数计算公式如下：

步骤7,对于步骤3中所得复杂网络，计算其回环系数(cyclic coefficient)；步骤8,对于步骤3中所得复杂网络，计算其中心点优势度(central point dominance)；

步骤11,对于步骤3中所得复杂网络，计算其强度(intensity)；

步骤12,对于步骤3中所得复杂网络，计算其连贯性(coherence)；

其中aij为复杂网络G中的边(i,j)的权重,aik为复杂网络G中的边(i,k)的权重,ajk为复杂网络G中的边(j,k)的权重；

步骤16，利用步骤15中所得经过归一化和标准化后的原始时间序列的特征向量对分类器进行训练；