CN104408072B - 一种基于复杂网络理论的适用于分类的时间序列特征提取方法 - Google Patents
一种基于复杂网络理论的适用于分类的时间序列特征提取方法 Download PDFInfo
- Publication number
- CN104408072B CN104408072B CN201410605262.0A CN201410605262A CN104408072B CN 104408072 B CN104408072 B CN 104408072B CN 201410605262 A CN201410605262 A CN 201410605262A CN 104408072 B CN104408072 B CN 104408072B
- Authority
- CN
- China
- Prior art keywords
- complex network
- time series
- gained
- calculated
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90348—Query processing by searching ordered data, e.g. alpha-numerically ordered data
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的目的在于提供一种基于复杂网络理论的适用于分类的时间序列特征提取方法,本方法的步骤包括:首先,将时间序列转化为相应的复杂网络;其次,为了得到适用于分类的特征向量,对所得复杂网络的统计特征进行提取,得到相应的特征向量;最后,将所得特征向量输入分类器,对时间序列进行分类。通过实验验证本发明所提方法的有效性,实验结果表明将该方法所提取特征应用于时间序列分类能够达到较高的准确率。
Description
技术领域
本发明涉及时间序列的数据挖掘技术领域,特别是涉及适用于分类的时间序列特征提取方法。
背景技术
随着信息获取、传输和存储技术的发展,广泛存在于现实世界中的时间序列数据被记录了下来,产生了大量的时间序列数据,比如金融数据、水文数据、传感器网络监控数据、移动对像跟踪数据、机器故障检测数据等等。利用机器学习和数据挖掘方法从这大量的数据中获取时间序列的知识已经成为一个重要的研究领域,而对时间序列数据进行分类正是其中的一个重要组成部分。例如,根据心电图的时间序列波形识别患者所患疾病,根据植物叶子轮廓所得序列识别植物叶子所属物种,根据用电量序列识别用电工厂所属行业,依据机器运作过程进行故障检测和故障类型判别等等。
由于时间序列数据和时间相关联,所以一般情况下其数据量非常大,维度非常高,这增加了时间序列分类的难度和计算量,对时间序列分类技术提出了更高的要求。衡量时间序列分类技术优劣的核心标准是分类的错误率,而降低分类错误率的途径有两种:一是改进分类器;二是采用特征提取方法。特征提取方法是在不牺牲或较少牺牲分类错误率的前提下,在分类之前对时间序列进行适当的规约,得到相应的特征向量,以达到大大减少数据量同时降低分类错误率的目的。
现阶段时间序列的特征提取方法可归纳为四类,分别是基于基本统计方法的特征提取,基于模型的特征提取,基于变换的特征提取以及基于分形理论的特征提取。基于基本统计方法的特征提取的思路是,提取数据波形的均值,方差,极值,波段,功率谱,过零点等统计特征来构成原有时间序列的特征向量。基于模型的特征提取的思路是,利用数学模型刻画时间序列,然后提取数学模型的参数构成原有时间序列的特征向量。基于变换的特征提取包括基于时频变换的特征提取和基于线性变换的特征提取。基于时频变换的特征提取的思路是,将信号从时域变换到频域,然后提取幅值、相位等来构成原有时间序列的特征向量。基于线性变换的特征提取的思路是,利用线性变换方法对原有时间序列进行降维,从而提取出原有时间序列的特征来构成原有时间序列的特征向量。基于分形理论的特征提取的思路是,利用分形理论计算原有时间序列的分形维数,将分形维数作为原有时间序列的特征向量。
发明内容
本发明的目的在于提供一种基于复杂网络理论的适用于分类的时间序列特征提取方法,采用本方法能够达到获得较高的分类准确率的目的。
本发明的目的可通过以下的技术措施来实现:
一种基于复杂网络理论的适用于分类的时间序列特征提取方法,包括下列步骤:
步骤1,对训练数据集中的时间序列进行相空间重构,将相空间中的每一点作为复杂网络的一个节点;
步骤2,计算步骤1中所得复杂网络节点两两之间的距离;所述距离计算采用欧氏距离计算公式;
步骤3,对于步骤1中所得的每个复杂网络节点,取与其最近的K个节点相连接,如果某一条边已经加入复杂网络中,则下一个与该节点最接近的点与该节点相连接;得到与原始时间序列相对应的复杂网络;K是一个正整数,一般取值为复杂网络节点数的2%~3%;
步骤4,对于步骤3中所得复杂网络,计算其平均最短路径长度(average shortestpath length);所述平均最短路径长度计算公式如下:N为复杂网络节点数,dij为节点i与节点j之间的最短路径长度;
步骤5,对于步骤3中所得复杂网络,计算其聚集系数(clusteringcoefficitent);所述聚集系数计算公式如下:Nc为闭三元组的数量,No为开三元组的数量;
步骤6,对于步骤3中所得复杂网络,计算其模度(modularity);
步骤7,对于步骤3中所得复杂网络,计算其度分布信息熵(degree entropy);所述度分布信息熵计算公式如下:Ki为节点i的度(degree);
步骤8,对于步骤3中所得复杂网络,计算其全局系数(global efficient);所述全局系数计算公式如下:符号定义与上文相同;
步骤7,对于步骤3中所得复杂网络,计算其回环系数(cycl ic coefficient);
步骤8,对于步骤3中所得复杂网络,计算其中心点优势度(central pointdominance);
步骤9,对于步骤3中所得复杂网络,计算其富集系数(rich club coefficient);
步骤10,对于步骤3中所得复杂网络,计算其lth-moments;所述lth-moments计算公式如下:其中λi为复杂网络邻接矩阵的特征值,l为整数;
步骤11,对于步骤3中所得复杂网络,计算其强度(intensity);
步骤12,对于步骤3中所得复杂网络,计算其连贯性(coherence);
步骤13,对于步骤3中所得复杂网络,计算其匹配系数(matching index);所述匹配系数计算公式如下:其中E(G)为复杂网络G中的边构成的集合,
步骤14,将步骤4至步骤13所得计算结果作为特征向量的各个分量,得到原始时间序列的特征向量;
步骤15,对步骤14中所得原始时间序列的特征向量的各个分量分别进行归一化以及标准化;
步骤16,利用步骤15中所得经过归一化和标准化后的原始时间序列的特征向量对分类器进行训练;所述分类器选自SVM、KNN等分类器;
步骤17,对测试数据集中的时间序列按步骤1至步骤15进行处理,得到测试数据集中的时间序列对应的特征向量;
步骤18,将步骤17中所得测试数据集中的时间序列对应的特征向量输入步骤16中所得经过训练的分类器,对测试数据集中的时间序列的类别进行预测。
本发明针对时间序列分类问题,从基于变换的时间序列特征提取思路出发,提出了一种适用于分类的时间序列特征提取的有效方法。利用所得原始序列的特征向量对分类器进行训练,便可得到适用于时间序列分类的分类器。与现有技术相比,本发明的有益效果为:
(1)提出了一种全新的时间序列的特征提取方法,并且将其应用到时间序列分类问题上,可以获得较高的分类准确率。
(2)该方法对时间序列的维度没有限制,在高维时间序列上也可以胜任。
附图说明
图1为本发明实施例利用基于复杂网络理论的适用于分类的时间序列特征提取的方法进行时间序列特征提取,并将所提取特征用于时间序列分类的流程图。
图1中附图标记如下:
1-从StartLightCurves数据集中随机抽取10%的数据作为训练集,剩余90%的数据作为测试集;
2-对数据集中的时间序列进行相空间重构,将相空间中的每一点作为复杂网络的一个节点,并计算其两两之间的欧式距离;
3-对每一复杂网络节点,取与其最近的K个节点相连接,如果某一条边已经加入复杂网络中,则下一个与该节点最接近的点与该节点相连接;
4-计算复杂网络的平均最短路径、聚集系数等12个特征,并组合成原始时间序列的特征向量;
5-对特征向量的各个分量分别进行归一化以及标准化;
6-训练集;7-测试集;8-训练;9-测试;
10-利用训练集所得特征向量对SVM分类器进行训练;
11-记录分类准确率;
12-计算最大准确率、最小准确率、平均准确率、和准确率标准差。
具体实施方式
以下结合附图和实施例详细说明本发明技术方案。
本发明针对时间序列分类问题,从基于变换的时间序列特征提取思路出发,提出了一种适用于分类的时间序列特征提取的有效方法。利用所得原始序列的特征向量对分类器进行训练,便可得到适用于时间序列分类的分类器。
本发明实施例以StarLightCurves数据集(天体亮度随时间变化的时间序列,任务为根据时间序列判断天体类型,数据集取自UCR Time Series Classification/Clustering Page)为具体实例,StarLightCurves数据集含3个类别(分别标记为CEPH类、EB类和RRL类),每个时间序列长度为1024,数据集大小为9236,其中CEPH类包含1329个数据,EB类包含2580个数据,RRL类包含5327个数据。为了避免过拟合,实施例采用交叉验证对分类准确率进行验证,训练比例10%,测试比例90%。
如图1所示,基于以上StarLightCurves数据集,实施例通过以下步骤对StarLightCurves数据集进行特征提取,构建时间序列分类系统,并进行交叉验证:
步骤1,从StarLightCurves数据集中随机抽取10%的数据作为训练集,剩余90%的数据作为测试集。
步骤2,为了得到复杂网络的节点,对训练数据集中的时间序列进行相空间重构,将相空间中的每一点作为复杂网络的一个节点。
步骤3,计算步骤2中所得复杂网络节点两两之间的距离。距离计算可以使用任意向量范数的计算公式,本实施例采用欧氏距离计算公式。
步骤4,为了得到复杂网络的边,对于步骤2中所得的每个复杂网络节点,取与其最近的K个节点相连接,如果某一条边已经加入复杂网络中,则下一个与该节点最接近的点与该节点相连接。得到与原始时间序列相对应的复杂网络。K是一个正整数,一般取值为复杂网络节点数的2%~3%,本实施例K取值20。
步骤5,对于步骤4中所得复杂网络,计算其平均最短路径长度(average shortestpath length)、聚集系数(clustering coefficitent)、模度(modularity)、度分布信息熵(degree entropy)、全局系数(global efficient)、回环系数(cycl ic coefficient)、中心点优势度(central point dominance)、富集系数(rich club coefficient)、lth-moments、强度(intensity)、连贯性(coherence)、匹配系数(matching index)。
其中,计算其平均最短路径长度(average shortest path length)的计算公式如下:N为复杂网络节点数,dij为节点i与节点j之间的最短路径长度。
聚集系数(clustering coefficitent)的计算公式如下:Nc为闭三元组的数量,No为开三元组的数量。
计算其模度(modularity)的计算公式参考Newman等人的论文[M.E.J.Newman andM.Girvan.Finding and evaluating community structure in networks.PhysicalReview E,69:026113,2004.]。
计算其度分布信息熵(degree entropy)的计算公式如下:Ki为节点i的度(degree)。
计算其全局系数(global efficient)的计算公式如下:符号定义与上文相同。
计算其回环系数(cycl ic coefficient)的计算公式参考Kim等人的论文[H.J.Kim and J.M.Kim.Cycl ic topology in complex network.Physical ReviewE,72:036109,2005.]。
计算其中心点优势度(central point dominance)的计算公式参考Freeman的论文[L.C.Freeman.A set of measures of central ity based onbetweenness.Sociometry,40:35–41,1977.]。
计算其富集系数(rich club coefficient)的计算公式参考Zhou和Mondragon的论文[S.Zhou and R.J.Mondragon.The rich-club phenomenon in the internettopology.Communications Letters,IEEE,8(3):180–182,2004..]。
计算其lth-moments的计算公式如下:其中λi为复杂网络邻接矩阵的特征值,l为整数。
计算其强度(intensity)的计算公式参考Onnela等人的论文[J.-P.Onnela,J.J.Kertész,and K.Kaski.Intensity and coherence of motifs in weightedcomplex networks.Physical Review E,71:065103(R),2005.]
计算其连贯性(coherence)的计算公式参考Onnela等人的论文[J.-P.Onnela,J.J.Kertész,and K.Kaski.Intensi ty and coherence of motifs in weightedcomplex networks.Physical Review E,71:065103(R),2005.]
计算其匹配系数(matching index)的计算公式如下:其中E(G)为复杂网络G中的边构成的集合,
步骤6,将步骤5所得计算结果进行组合,得到原始时间序列的特征向量。
步骤7,对步骤6中所得原始时间序列的特征向量的各个分量分别进行归一化以及标准化。
步骤8,利用步骤7中所得经过归一化和标准化后的原始时间序列的特征向量对SVM分类器进行训练。分类器也可以选用KNN等其他各式分类器。
步骤9,对测试数据集中的时间序列按步骤2至步骤7进行处理,得到测试数据集中的时间序列对应的特征向量。
步骤10,将步骤9中所得测试数据集中的时间序列对应的特征向量输入步骤8中所得经过训练的SVM分类器,对测试数据集中的时间序列的类别进行预测,并与测试数据集中的时间序列的真实类别进行比较,计算分类准确率。
步骤11,重复步骤1至步骤10,循环100次,记录每次所得分类准确率,计算最大准确率、最小准确率、平均准确率和准确率标准差。所得结果如下表:
表1.实验结果
综上所述,本发明提出一种有效的适用于分类的时间序列特征提取方法。首先,将时间序列转化为相应的复杂网络;其次,对所得复杂网络的统计特征进行提取,得到相应的特征向量;最后,将所得特征向量输入分类器,对分类器进行训练,得到适用于时间序列分类的分类器,并且该分类器具有较高的分类准确率。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方法替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (1)
1.一种基于复杂网络理论的适用于分类的时间序列特征提取方法,其特征在于包括下列步骤:
步骤1,对训练数据集中的时间序列进行相空间重构,将相空间中的每一点作为复杂网络的一个节点;
步骤2,计算步骤1中所得复杂网络节点两两之间的距离;所述距离计算采用欧氏距离计算公式;
步骤3,对于步骤1中所得的每个复杂网络节点,取与其最近的K个节点相连接,如果某一条边已经加入复杂网络中,则下一个与该节点最接近的点与该节点相连接;得到与原始时间序列相对应的复杂网络;K是一个正整数,取值为复杂网络节点数的2%~3%;
步骤4,对于步骤3中所得复杂网络,计算其平均最短路径长度(average shortestpath length);所述平均最短路径长度计算公式如下:N为复杂网络节点数,dij为节点i与节点j之间的最短路径长度;
步骤5,对于步骤3中所得复杂网络,计算其聚集系数(clustering coefficitent);所述聚集系数计算公式如下:Nc为闭三元组的数量,No为开三元组的数量;
步骤6,对于步骤3中所得复杂网络,计算其模度(modularity);
步骤7,对于步骤3中所得复杂网络,计算其度分布信息熵(degree entropy);所述度分布信息熵计算公式如下:Ki为节点i的度(degree);
步骤8,对于步骤3中所得复杂网络,计算其全局系数(global efficient);所述全局系数计算公式如下:
步骤7,对于步骤3中所得复杂网络,计算其回环系数(cyclic coefficient);步骤8,对于步骤3中所得复杂网络,计算其中心点优势度(central point dominance);
步骤9,对于步骤3中所得复杂网络,计算其富集系数(rich club coefficient);
步骤10,对于步骤3中所得复杂网络,计算其lth-moments;所述lth-moments计算公式如下:其中λi为复杂网络邻接矩阵的特征值,l为整数;
步骤11,对于步骤3中所得复杂网络,计算其强度(intensity);
步骤12,对于步骤3中所得复杂网络,计算其连贯性(coherence);
步骤13,对于步骤3中所得复杂网络,计算其匹配系数(matching index);所述匹配系数计算公式如下:其中E(G)为复杂网络G中的边构成的集合,
其中aij为复杂网络G中的边(i,j)的权重,aik为复杂网络G中的边(i,k)的权重,ajk为复杂网络G中的边(j,k)的权重;
步骤14,将步骤4至步骤13所得计算结果作为特征向量的各个分量,得到原始时间序列的特征向量;
步骤15,对步骤14中所得原始时间序列的特征向量的各个分量分别进行归一化以及标准化;
步骤16,利用步骤15中所得经过归一化和标准化后的原始时间序列的特征向量对分类器进行训练;
步骤17,对测试数据集中的时间序列按步骤1至步骤15进行处理,得到测试数据集中的时间序列对应的特征向量;
步骤18,将步骤17中所得测试数据集中的时间序列对应的特征向量输入步骤16中所得经过训练的分类器,对测试数据集中的时间序列的类别进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410605262.0A CN104408072B (zh) | 2014-10-30 | 2014-10-30 | 一种基于复杂网络理论的适用于分类的时间序列特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410605262.0A CN104408072B (zh) | 2014-10-30 | 2014-10-30 | 一种基于复杂网络理论的适用于分类的时间序列特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104408072A CN104408072A (zh) | 2015-03-11 |
CN104408072B true CN104408072B (zh) | 2017-07-18 |
Family
ID=52645704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410605262.0A Active CN104408072B (zh) | 2014-10-30 | 2014-10-30 | 一种基于复杂网络理论的适用于分类的时间序列特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104408072B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106789160B (zh) * | 2016-11-24 | 2019-11-22 | 吉林大学 | 一种基于时间序列的复杂网络链接预测方法 |
CN106506537B (zh) * | 2016-12-15 | 2019-11-26 | 北京邮电大学 | 基于重要节点差异化保护的双层耦合网络防护方法 |
CN109086805B (zh) * | 2018-07-12 | 2020-07-28 | 华南理工大学 | 一种基于深度神经网络和成对约束的聚类方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509123A (zh) * | 2011-12-01 | 2012-06-20 | 中国科学院自动化研究所 | 一种基于复杂网络的脑功能磁共振图像分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ITBO20010763A1 (it) * | 2001-12-14 | 2003-06-16 | Renato Campanini | Metodo , e relativa apparecchiatura , per la ricerca automatica di zone di interesse in immagini digitali di tessuto biologico |
US20060013475A1 (en) * | 2002-12-11 | 2006-01-19 | Koninklijke Philips Electronics, N.V. | Computer vision system and method employing illumination invariant neural networks |
-
2014
- 2014-10-30 CN CN201410605262.0A patent/CN104408072B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509123A (zh) * | 2011-12-01 | 2012-06-20 | 中国科学院自动化研究所 | 一种基于复杂网络的脑功能磁共振图像分类方法 |
Non-Patent Citations (2)
Title |
---|
基于复杂网络的图像建模与特征提取方法;汤进 等;《计算机工程》;20130515;第39卷(第5期);243-247,252 * |
网络流量模型的非线性特征量的提取及分析;刘东林 等;《电子学报》;20031231;第31卷(第12期);1866-1869 * |
Also Published As
Publication number | Publication date |
---|---|
CN104408072A (zh) | 2015-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Real-time faulted line localization and PMU placement in power systems through convolutional neural networks | |
US11287470B2 (en) | Vector-valued regularized kernel function approximation based fault diagnosis method for analog circuit | |
CN109145949A (zh) | 基于集成学习的非侵入式电力负荷监测与分解方法及系统 | |
CN107491792B (zh) | 基于特征映射迁移学习的电网故障分类方法 | |
CN103728551B (zh) | 一种基于级联集成分类器的模拟电路故障诊断方法 | |
CN108535648A (zh) | 电机故障诊断方法和系统 | |
CN108051660A (zh) | 一种变压器故障组合诊断模型建立方法及诊断方法 | |
CN109033719A (zh) | 一种风力涡轮机轴承故障诊断方法 | |
CN103995237A (zh) | 一种卫星电源系统在线故障诊断方法 | |
CN111189638B (zh) | 基于hmm和qpso优化算法的轴承故障程度辨识方法 | |
CN105373601B (zh) | 一种基于关键字词频特征的多模式匹配方法 | |
CN105678343A (zh) | 基于自适应加权组稀疏表达的水电机组噪声异常诊断方法 | |
CN110070102B (zh) | 用于电能质量扰动类型识别的序列对序列模型建立方法 | |
Guo et al. | Improved adversarial learning for fault feature generation of wind turbine gearbox | |
CN104408072B (zh) | 一种基于复杂网络理论的适用于分类的时间序列特征提取方法 | |
CN114021433A (zh) | 一种电力系统的主导失稳模式识别模型的构建方法及应用 | |
CN109100142B (zh) | 一种基于图论的轴承半监督故障诊断方法 | |
Yang et al. | Twin Broad Learning System for Fault Diagnosis of Rotating Machinery | |
Liu et al. | Dual-channel convolutional network-based fault cause identification for active distribution system using realistic waveform measurements | |
Wang et al. | Network-combined broad learning and transfer learning: A new intelligent fault diagnosis method for rolling bearings | |
CN103728135A (zh) | 一种非负矩阵分解的轴承故障特征提取和诊断方法 | |
Wu et al. | A fault diagnosis of suck rod pumping system based on wavelet packet and RBF network | |
CN113112039B (zh) | 基于时频记忆递归神经网络的主动配电系统初期故障识别方法 | |
CN114065307A (zh) | 一种基于双向图卷积神经网络的硬件木马检测方法与系统 | |
Choudhury et al. | An empirical study of community and sub-community detection in social networks applying Newman-Girvan algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |