CN110019421B - 一种基于数据特征片段的时间序列数据分类方法 - Google Patents
一种基于数据特征片段的时间序列数据分类方法 Download PDFInfo
- Publication number
- CN110019421B CN110019421B CN201810843340.9A CN201810843340A CN110019421B CN 110019421 B CN110019421 B CN 110019421B CN 201810843340 A CN201810843340 A CN 201810843340A CN 110019421 B CN110019421 B CN 110019421B
- Authority
- CN
- China
- Prior art keywords
- data
- time
- sequence
- time sequence
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Abstract
本发明涉及一种基于数据特征片段的时间序列数据分类方法,本发明先对具体时间序列训练集中的不同类别中的全体序列进行子类划分,同时选取相应的中心序列,并对每一个子类的中心序列再次利用数据趋势点,按照数据特征的权重排序,优先选择权重较大的数据特征片段,组成数据特征片段集合Shaplets,最后以Shaplets集合为核心,利用相应的Shapelets转换算法完成最终的时间序列分类。本发明极大地提高了Shapelets生成的效率,同时也提升了基于Shapelets进行时间序列分类的算法的整体处理效率。效率提升幅度在3个数量级以上。
Description
技术领域
本发明涉及一种基于数据特征片段的时间序列数据分类方法,属于“海量”、“高维”时间序列数据挖掘技术领域。
背景技术
目前,随着互联网、物联网、云计算等技术的飞速发展,相关技术手段与相应的实现已经广泛应用于政务、金融、交通、医疗等领域。这些技术手段在推动信息社会飞速发展的同时也产生了海量的信息数据,即我们已逐步进入了“大数据”时代。在海量的信息数据中,有一类数据以“时间”为基准参考,不仅能够反映某个时刻的具体数据特性,而且能够反映某一段时间范围内数据的基本变化趋势,从而进一步揭示出:随着时间的连续性变化,相应数据实体的内在数据趋势特征及相应的数据规律,因此这一类数据被称为“时间序列”数据(time series data)。时间序列数据往往具有“海量”、“高维”、“持续产生”等特征,对其进行相应的数据分析与数据挖掘研究往往具有很大的挑战性,因此,时间序列数据挖掘研究问题被认为是本世纪十大数据挖掘挑战性问题之一,从而受到了学术界与工业界的广泛关注。
时间序列分类问题(time series classification)一直是时间序列数据挖掘研究领域的热点问题,时间序列分类着眼于序列的整体数据特征,即:如果将一个未标识的时间序列正确划分到预定义的一个数据类别(类别标签一般远大于2)中,此外在分类算法运行完成以后,领域专家除了希望快速获取相对准确的分类结果之外,还希望能够得到对于分类结果的合理解释。例如:对具体设备的运行状态的时间序列数据进行分类时,当该设备被划分到异常运行状态,相关专家希望知道完成相应分类的依据是什么,即具体是根据什么样的数据特征,进行相应的分类操作,简而言之,分类算法在实现快速、准确分类的基础上,需要能够提供相应的可解释性依据。针对时间序列数据分类问题,相关研究者分别从时序特征、距离测算、时域频域转换等多个方法,提出了大量的时间序列分类算法,而根据2017年底的时间序列分类问题的最新研究综述表明,基于时序特征,尤其是基于时序片段数据特征(Shapelets)进行相应的分类运算,该算法不仅能够获得比其他分类算法更高的分类精度,而且基于Shapelets的分类器还可以进一步给出相应分类结果的解释性依据。
目前基于数据特征片段进行数据分类的算法主要有以下三类:
●Shapelet发现算法(Shapelets Discovery,SD)
●Shaplets变换算法(Shapelets Transformation,ST)
●Shaplets学习算法(Shapelets Learning,SL)
这三种方法均有各自的特点,在准确率方面:SD算法的分类精度明显低于ST和SL,ST算法与SL算法的分类精度几乎处于同一水平。在算法时间复杂度方面:SD的时间复杂度最低,SL次之,ST的时间复杂度最高。在算法的空间复杂度方面:ST需要的训练空间最小,SD次之,SL所需要的训练空间最大。此外,根据时间序列分类算法的最新研究成果表明,基于数据特征片段(Shapelets)的分类方法还可以与其他的分类算法相结合,即:组合的分类方法(ensemble TSC)比如COTE方法将Shapelets分类与时域频域转换的分类算法以及其他时序分类算法相结合,从多个不同的角度获得相应的数据分类结果,并再次利用“投票”机制得到更加精确的结果。如下表1所示:
表1
根据表1,我们不难发现ST方法不仅具有较高的分类精度,同时可以与其他的分类方法相结合,形成相应的组合分类方法,而其他两类基于Shapelets的分类方法则无以上的特征。此外ST方法也存在相应的缺陷:该方法的训练时间相对较长,无疑会对分类操作的执行效率带来不小的影响。
发明内容
针对现有基于Shaplets的时间序列分类算法的不足,本发明提出了一种新的基于高效Shaplets选择机制的高效时间序列分类算法,与原始的ST方法相比,本方法可以大幅度提升Shaplets特征片段的筛选效率,从而从整体上提升时间序列分类算法的整体效率,经过在相应的开源时间序列数据集上进行相应的实验性比对和效率分析,经过本发明加速后的时间序列分类算法的性能比原有的算法性能提升三个数量级(1000倍),同时保证新的分类算法的分类精度与原有算法处于同一水平。
本发明所要解决的技术问题是:如何在海量、高维的时间序列数据集中,合理并高效地选择出能够代表相应数据类别的部分数据特征片段(Shaplets),在提升分类算法效率的同时确保分类精度的稳定性。本发明的Shaplets选择策略主要以子类划分,中心序列选择为基础,需要先对具体时间序列训练集中的不同类别中的全体序列进行子类划分,同时选取相应的“中心序列”,并对每一个子类的中心序列再次利用数据趋势点(TurningPoint,TP),按照数据特征的权重排序,优先选择权重较大的数据特征片段,组成数据特征片段集合Shaplets。最后以Shaplets集合为核心,利用相应的Shapelets转换算法(ST)完成最终的时间序列分类。
本发明针对原始ST方法相对弱化的Shapelets选择机制,提出更加高效的Shapelets选择策略并结合目前主流的Shapelets转换策略,提出新的基于Shapelets的分类算法。
术语解释:
1、时间序列数据集,设时间序列数据训练集D=(T1,T2,…,Ti,...,Tm)含有m个时间序列数据,1个类别(Class,C)标签。其中时间序列数据(time series data)Ti=(Ck,vt1,vt2,…,vtj,...,vtn)长度为n,其中1≤k≤l,1≤j≤n,vtj表示时间序列Tj中某一个具体的时间序列数据点,简称为时序点,时序点vtj包括具体的时刻tj及该时刻的实测数据值vj,vtj=(vj,tj)。
2、时间序列数据趋势点(turning point,TP),TP是指在某条时间序列中,能够表示相应数据趋势变化的数据点。以Ti为例,假设vi-1,vi,vi+1为T中的3个相邻时刻的实际数据值,当以上三个数据值能够使公式(1)或公式(2)成立时,vi可以被定义为TP点。
vi-1<vi>vi+1 or vi-1<vi=vi+1 or vi-1=vi<vi+1 (1)
vi-1>vi<vi+1 or vi-1>vi=vi+1 or vi-1=vi>vi+1 (2)
TPs不仅包含中全部的极值点(极大值、极小值)还包括相应的拐点和平滑点。
3、数据趋势点TP权重度量标准以及TPs选取率ρ。根据上面的介绍,可以通过一次顺序遍历,识别出Ti中的全部TPs,但需要注意的是,我们需要根据相应TP权重度量准则,将中的TPs按照权重从大到小的顺序进行相应的排序(具体的排序准则在技术方案S3中进行了详细的介绍),此外,可以根据用户预先设定的TPs选取率ρ,如公式(3)所示,其中NumTPsum表示Ti中的全部TPs的个数,按照数据趋势点的权重从大到小的顺序,选择NumTPcur个数据趋势点TPs用于Shapelets的生成。
4、子类划分标准率μ,此参数表示同一个类中的全体序列按照到该类中心序列的距离进行从小到大的排序,相应的序列距离分布具有标准差std。当两个序列Ti,Tj到中心序列Tcen的距离差不超过μ*std,即|dist(Ti,Tcen)-dist(Tj,Tcen)|≤μ*std,则这两个序列应该被划分到同一子类,反之,这两个序列将划分到不同的子类。
本发明的技术方案为:
一种基于数据特征片段的时间序列数据分类方法,包括步骤如下:
S1,预设数据趋势点选取率ρ、数据特征片段Shapelets的选取数量阈值Num、数据特征片段Shapelets质量评估标准即信息增益(information gain)、子类划分标准率μ;相应的子类划分标准率μ在后续步骤中用于完成相应的子类划分操作。
数据特征片段Shapelets的选取数量阈值Num是指最终产生的数据特征片段Shapelets的数量;为了与传统的Shapelets分类方法保持一致,Num设置为数据集D中时间序列总个数的一半,即
信息增益是指某个数据特征片段sub对整个时间序列数据集不确定性减少的程度,对于某个数据特征片段sub,其信息增益gain(sub)计算方式如公式(I)所示:
式(I)中,D为原始数据集,DL和DR为原始数据集被划分后的两个数据集,n、nL、nR分别为D、DL、DR这三个数据集中包含时间序列的数目;e(D)、e(DL)、e(DR)分别表示D、DL、DR这三个数据集的熵(entropy),即数据集中不同类对该数据集造成的影响,假定数据集D中含有c个不同的类,类i中时间序列在数据集中占得比例为pi,则数据集D的熵计算方式如公式(II)所示:
S2,针对原始数据集D,选取出表示原始数据集D中所有数据分类特性的时间序列数据集RTS;
进一步优选的,所述步骤S2,包括步骤如下:
a.对原始数据集D中的全部时间序列按照其类标签进行划分,即:原始数据集D中m条时间序列,按照其所述的类标签,进行分类划分;并在每个类的全体时间序列中寻找该类的中心序列,所述中心序列是指某一分类中到其它时间序列的累加距离最小的一条时间序列Tcen;
b.根据步骤a找到的中心序列,计算每个类中的每个时间序列与中心序列的距离(欧氏距离、动态时间弯曲距离等均可),按照从小到大的顺序进行重新排序,并利用子类划分的标准率μ(μ*sd)对每个类中全体时间序列进行子类划分;
c.在步骤b得到的每一个子类中,选择到该子类中其它时间序列的累加距离最短的时间序列,作为该子类的数据特征序列,按照此操作,从原始数据集D中每一个子类选取出一条数据特征序列,组成相应的时间序列数据集RTS。
进一步优选的,所述距离是指欧氏距离或动态时间弯曲距离。
S3,针对步骤S2得到时间序列数据集RTS,利用数据趋势点(turning points,TPs)从时间序列数据集RTS中选取相应的数据特征片段Shapelets;
根据本发明优选的,所述步骤S3,包括步骤如下:
A、对时间序列数据集RTS中每一条具体时间序列进行顺序扫描,设定时间序列数据集RTS中一条时间序列为T,T=(vt1,vt2,…,vti,...,vtn),vt1,vt2,…,vti,...,vtn是指时间序列T中的n个点,获取T中的全部数据趋势点TPs;TPs=(TP1,TP2,...,TPi,...,TPM);根据前面的TP定义可知,序列T中的全部极值点与拐点都会在一次顺序遍历中被全部识别出,并用TP进行相应的标识。
B、对T中全部的数据趋势点TPs进行权重度量,并按照其权重值进行相应的排序;
进一步优选的,所述步骤B,包括步骤如下:
①数据趋势点TPi的数据值记为VTPi,时间值记为TTPi,权重值记为WTPi,数据趋势点TPi的权重值为数据趋势点TPi到数据趋势点TPi-1与数据趋势点TPi+1组成的拟合线line(TPi-1,TPi+1)的垂直距离,如公式(III)所示;
TP1的权重值WTP1的计算需要借助于时间序列起始点vt1以及TP2,数据趋势点TP1的权重值WTP1为数据趋势点TP1到时间序列起始点vt1与数据趋势点TP2组成的拟合线line(vt1,TP2)的垂直距离,TPM的权重值WTPM计算需要借助于TPM-1以及时间序列终止点vtn,数据趋势点TPM的权重值WTPM为数据趋势点TPM到时间序列终止点vtn与数据趋势点TPM-1组成的拟合线line(vtn,TPM-1)的垂直距离;
②按照全部数据趋势点TPs对应的权重值从大到小的顺利,对全部数据趋势点TPs进行排序;
C、针对步骤B中得到的排序结果,利用步骤S1中预设数据趋势点选取率ρ,选择NumTPcur个数据趋势点TPs、排序结果的起始点与排序结果的终止点,每两个邻近点组成一条数据特征片段Shapelet,依次操作直至生成T中的全体Shapelets,采用同样的方法,对整个RTS中全体时间序列都完成步骤A至步骤C的操作,形成相应的数据特征片段集合S;
D、根据步骤S1中的相应预先设置的数据特征片段Shapelets的选取数量阈值Num,检查集合S中Shapelets的个数Num(S),如果Num(S)≤Num,则集合S作为最终的Shapelets集合进行后续操作,否则,通过公式(I)计算集合S的信息增益,对集合S中的Shapelet按照从大到小的顺序进行排序,并选取前Num个Shapelet形成最终的集合S进行后续操作;
S4,根据上述步骤D获取到的集合S,采用标准化的数据特征片段转换操作(Shapelets Transformation,ST),形成数据特征矩阵。
进一步优选的,所述步骤S4,包括步骤如下:
集合S中数据特征片段Shapelets的数量为Num,原始数据集D中时间序列的总条数为m,将原始数据集D中每条时间序列Ti分别与集合S中每条数据特征片段Shapelet Sj进行距离计算,得到相应的距离值dist(Ti,Sj),1≤i≤m,1≤j≤Num,如此循环操作,直到原始数据集D中全部时间序列均处理完毕,最终形成m×Num的数据特征矩阵DFM(Data featuresmatrix,DFM):
S5,利用步骤S4形成的数据特征矩阵后,采用传统的ST算法完成最后的时间序列分类操作。ST算法为现有技术,在2016年已经正式发表。
本发明的有益效果为:
1、本发明以基于“子类划分”的中心序列筛选和基于数据趋势点(turningpoints,TPs)的数据特征片段生成为基础,最终生成了满足分类要求的全部数据特征片段Shapelets。数据特征片段的选择与传统的基于Shapelets分类的时间序列分类算法相比,在其数据特征片段的生成过程中不可能成为数据特征片段的相应Shapelets参考序列的数量被大幅度消减,极大地提高了Shapelets生成的效率,同时也提升了基于Shapelets进行时间序列分类的算法的整体处理效率。效率提升幅度在3个数量级以上(1000倍)。
2、本发明最终生成的Shapelets是在子类的“中心序列”的基础上,利用其自身的数据趋势点TPs进行的“细粒度”操作,因此可以确保最终生成的Shapelets中必将包含原始数据集D中全部的类特征以及相应的子类特征,因此本发明提出的时间序列分类算法的分类精度与传统的基于Shapelets的时间序列分类算法的分类精度相比,两者均位于同一精度水平。即,本方法在提高分类效率的同时,不会造成分类精度的相应降低。
3、本发明提出的基于Shapelets的分类方法与原始的ST方法相比,在大幅度提升分类效率的同时,也保留了ST方法的扩展性,即本发明与传统的ST方法一样,均可以利用最后生成的数据特征转换矩阵,将时间序列分类方法与传统的分类方法相统一。即可以利用大量的现有分类方法去解决时间序列分类问题。
附图说明
图1为本发明一种基于数据特征片段的时间序列数据分类方法流程示意图;
图2为本发明实施例中6条中心序列的示意图;
图3为本发明实施例中一种基于数据特征片段的时间序列数据分类方法步骤S3的实例图;
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例
一种基于数据特征片段的时间序列数据分类方法,本实施例以世界上公认的时间序列标准数据集为例(http://www.timeseriesclassification.com/),进行相应的实施说明。本发明选择“Symbols”标准数据集进行详细处理步骤的详细说明,“Symbols”数据的训练集有25条时间序列,每条序列长度为398,25条序列被分到了6个类中。如图1所示,包括步骤如下:
S1,预设数据趋势点选取率ρ、数据特征片段Shapelets的选取数量阈值Num=1/2Num(D)、数据特征片段Shapelets质量评估标准即信息增益(information gain)、子类划分标准率相应的子类划分标准率μ在后续步骤中用于完成相应的子类划分操作。
数据特征片段Shapelets的选取数量阈值Num是指最终产生的数据特征片段Shapelets的数量;为了与传统的Shapelets分类方法保持一致,Num设置为数据集D中时间序列总个数的一半,即
信息增益是指某个数据特征片段sub对整个时间序列数据集不确定性减少的程度,对于某个数据特征片段sub,其信息增益gain(sub)计算方式如公式(I)所示:
式(I)中,D为原始数据集,DL和DR为原始数据集被划分后的两个数据集,n、nL、nR分别为D、DL、DR这三个数据集中包含时间序列的数目;e(D)、e(DL)、e(DR)分别表示D、DL、DR这三个数据集的熵(entropy),即数据集中不同类对该数据集造成的影响,假定数据集D中含有c个不同的类,类i中时间序列在数据集中占得比例为pi,则数据集D的熵计算方式如公式(II)所示:
S2,针对“Symbols”数据集,选取出表示“Symbols”数据集中所有数据分类特性的时间序列;包括步骤如下:
a.对“Symbols”数据集中的全部时间序列按照其类标签进行划分,并在每个类的全体时间序列中寻找该类的中心序列,中心序列是指某一分类中到其它时间序列的累加距离最小的一条时间序列Tcen;25条序列被划分到了以下6个类中,并利用相应的距离计算方法(本实例采用欧氏距离)寻找到每个类中的中心序列。“Symbols”数据集的第一个类中含有8条时间序列,即C1=(T2,T3,T4,T7,T10,T17,T19,T22),该类的中心序列是T4,C2=(T1,T9,T15,T18,T21),该类的中心序列是T21,C3=(T13,T24,T25),该类的中心序列是T24,C5=(T11,T16,T23),该类的中心序列是T23,C6=(T5,T12,T14),该类的中心序列是T14;6条中心序列如图2所示,其中a表示C1的中心序列;b表示C2的中心序列;c表示C3的中心序列;d表示C4的中心序列;e表示C5的中心序列;f表示C6的中心序列;
b.根据步骤a找到的中心序列,对每个类中的全体时间序列与中心序列进行距离计算(本实例同样采用欧氏距离),将全体序列按照与中心序列的远近程度按照从小到大的顺序进行重新排序,并利用标准差的一半,即μ=1/2对类中全部序列进行子类划分。
C1=(T4,T2,T19,T22,T3,T17,T10,T7);
C2=(T21,T18,T15,T9,T1);
C3=(C3sub1,C3sub2);C3sub1=(T20,T8);C3sub2=(T6);
C4=(C4sub1,C4sub2);C4sub1=(T24,T13);C4sub2=(T25);
C5=(C5sub1,C5sub2);C5sub1=(T23,T16);C5sub2=(T11);
C6=(C6sub1,C6sub2);C6sub1=(T14,T12);C6sub2=(T5);
六个分类均完成了相应的子类划分,尽管C1,C2类中序列数目较多,但是它们与其中心序列的距离也相对紧密,因此属于同一子类。而C3,C4,C5,C6,虽然类中序列数目较少,但是根据序列与中心序列的关系,被划分为两个子类。通过以上实例,我们可以完全按照数据集及其分类的数据特征,对同一类标签下面的全部序列(具有相同的基本特征)再次寻找其中的差异性(子类划分),这样寻找到的内部差异性,完全由数据集中相应序列的自身数据特点做决定,避免了不必要的人为因素干扰。
c.对“Symbols”数据集中的每一个子类,选择到该子类中其他序列的累加距离最短的序列,作为该子类的数据特征序列。由于C1类中的全部序列也同时属于同一个子类,经过相应的计算,T19成为该类的特征序列,对“Symbols”数据集的其他子类也进行相同的操作,最终得到该数据集10个完整的数据特征序列RTS10,RTS10=(T5,T6,T14,T16,T18,T19,T20,T23,T24,T25)。
S3,针对步骤S2得到时间序列数据集RTS10,利用数据趋势点(turning points,TPs)从时间序列数据集RTS中选取相应的数据特征片段Shapelets;包括步骤如下:
A、以RTS10中的T19为例,对其进行顺序扫描最终识别出31个TPs,这些TPs的分布如图3中的A所示。
B、如图3所示,31个TPs的分布相对集中,主要位于T19序列的波峰与波谷处。因此需要对T19中全部的数据趋势点进行相应的权重度量,我们以图3中的A中的vt115为例,其权重值的计算需要借助其邻近TPs(vt63,vt154)所组成的拟合线line(vt63,vt154)。在数据(vt63,vt154)的范围内,最大的垂直距离将作为vt115的TP权重值,具体操作如图3中的B所示。根据以上操作,对T19中全部的TPs进行如下操作,并进行从大到小的相应的权重排序。
C、根据T19中TPs的排序结果,设数据趋势点选取率为30%(ρ=30%),即选择前30%的数据趋势点TPs,进行最终的数据特征片段Shapelets生成。以T19为例,经过相应的计算,9个TPs被选取出来与的起始点和终止点一起,进行后续的Shapelets生成。如图3中的C所示。对RTS10中的其他时间序列,采用与T19相同的操作,形成相应的数据特征片段,并最终形成相应的Shapelets集合S。
D、根据S1中的相应预先设置,Shapelets的选取数量阈值Num等于Symbols数据集中序列个数的一半,即Num=1/2 Num(D),利用公式(I)所示的信息增益计算方法,对S中的Shapelet按照其“信息增益”权重值进行递减排序,并选取12个Shapelets(12=25/2)形成最终的Shapelets集合S进行后续操作。
S4,根据上述步骤获取到的Shapelets集合S,接下来采用标准化的转换操作(Shapelets Transformation,ST),形成相应的数据特征矩阵。利用该矩阵我们将采用7个传统分类方法(决策树C4.5,最近邻1NN,贝叶斯网络BN,随机森林RandF,旋转森林RotF,支持向量机SVM),以及一个集成分类方法(WeightedEnsemble),对“Symbols”数据集以及其他世界性标准数据集进行相应的分类操作,并记录其平均分类精度与相应的运行时间。
为了更加清晰地显示本发明在时间序列分类操作上的整体性能,我们采用了12个世界上的标准时间序列数据集,并将本发明所提出的方法记为EST,EST将与目前主流的三个基于Shapelets进行分类的标准方法:SD、ST、SL进行相应的性能比较分析。分类精度的对比实验如表2所示。
表2
根据表2所示结果,EST的分类精度基本上与ST处于同一水平,高于其他两个基于Shapelets进行分类的分类方法。我们还对以上四个方法的运行时间进行了相应的对比,为了更加清晰地表明以上4个方法在运行时间的快慢程度,我们以SL的整体运行时间记为标准值1,其余三个方法的在不同数据集下的运行时间将以SL的运行时间为基准,进行相应的标准化操作。具体的运行时间如表3所示。
表3
根据表3所示结果,EST的标准化平均运行时间比原有的ST方法快了3个数量级以上。通过与目前基于Shapelets进行时间序列分类的最快分类方法SD进行比较,EST的平均运行效率比SD高一个数量级。
本发明已经在大量的时间序列数据集中进行了时间序列分类的实验,均取得了有益的效果。相应的时间序列数据集来自政务、金融、医疗、交通、教育、智能家居等多个领域。
Claims (6)
1.一种基于数据特征片段的时间序列数据分类方法,其特征在于,该时间序列数据分类方法用于设备运行状态的划分,包括步骤如下:
S1,预设数据趋势点选取率ρ、数据特征片段Shapelets的选取数量阈值Num、数据特征片段Shapelets质量评估标准即信息增益、子类划分标准率μ;
数据特征片段Shapelets的选取数量阈值Num是指最终产生的数据特征片段Shapelets的数量;
信息增益是指某个数据特征片段sub对整个时间序列数据集不确定性减少的程度,对于某个数据特征片段sub,其信息增益gain(sub)计算方式如公式(Ⅰ)所示:
式(Ⅰ)中,D为原始数据集,DL和DR为原始数据集被划分后的两个数据集,n、nL、nR分别为D、DL、DR这三个数据集中包含时间序列的数目;e(D)、e(DL)、e(DR)分别表示D、DL、DR这三个数据集的熵,即数据集中不同类对该数据集造成的影响,假定数据集D中含有c个不同的类,类i中时间序列在数据集中占得比例为pi,则数据集D的熵计算方式如公式(Ⅱ)所示:
S2,针对原始数据集D,选取出表示原始数据集D中所有数据分类特性的时间序列数据集RTS;
S3,针对步骤S2得到时间序列数据集RTS,利用数据趋势点从时间序列数据集RTS中选取相应的数据特征片段Shapelets;
S4,根据上述步骤S3获取到的数据特征片段Shapelets,采用标准化的数据特征片段转换操作,形成数据特征矩阵;
S5,利用步骤S4形成的数据特征矩阵后,采用ST算法完成最后的时间序列分类操作。
2.根据权利要求1所述的一种基于数据特征片段的时间序列数据分类方法,其特征在于,所述步骤S2,包括步骤如下:
a.对原始数据集D中的全部时间序列按照其类标签进行划分,并在每个类的全体时间序列中寻找该类的中心序列,所述中心序列是指某一分类中到其它时间序列的累加距离最小的一条时间序列Tcen;
b.根据步骤a找到的中心序列,计算每个类中的每个时间序列与中心序列的距离,按照从小到大的顺序进行重新排序,并利用子类划分的标准率μ对每个类中全体时间序列进行子类划分;
c.在步骤b得到的每一个子类中,选择到该子类中其它时间序列的累加距离最短的时间序列,作为该子类的数据特征序列,按照此操作,从原始数据集D中每一个子类选取出一条数据特征序列,组成相应的时间序列数据集RTS。
3.根据权利要求2所述的一种基于数据特征片段的时间序列数据分类方法,其特征在于,所述距离是指欧氏距离或动态时间弯曲距离。
4.根据权利要求2所述的一种基于数据特征片段的时间序列数据分类方法,其特征在于,所述步骤S3,包括步骤如下:
A、对时间序列数据集RTS中每一条具体时间序列进行顺序扫描,设定时间序列数据集RTS中一条时间序列为T,T=(vt1,vt2,…,vti,…,vtn),vt1,vt2,…,vti,…,vtn是指时间序列T中的n个点,获取T中的全部数据趋势点TPs;TPs=(TP1,TP2,…,TPi,…,TPM);
B、对T中全部的数据趋势点TPs进行权重度量,并按照其权重值进行相应的排序;
C、针对步骤B中得到的排序结果,利用步骤S1中预设数据趋势点选取率ρ,选择NumTPcur个数据趋势点TPs、排序结果的起始点与排序结果的终止点,每两个邻近点组成一条数据特征片段Shapelet,依次操作直至生成T中的全体Shapelets,采用同样的方法,对整个RTS中全体时间序列都完成步骤A至步骤C的操作,形成相应的数据特征片段集合S;
D、根据步骤S1中的相应预先设置的数据特征片段Shapelets的选取数量阈值Num,检查集合S中Shapelets的个数Num(S),如果Num(S)≤Num,则集合S作为最终的Shapelets集合进行后续操作,否则,通过公式(Ⅰ)计算集合S的信息增益,对集合S中的Shapelet按照从大到小的顺序进行排序,并选取前Num个Shapelet形成最终的集合S进行后续操作。
5.根据权利要求4所述的一种基于数据特征片段的时间序列数据分类方法,其特征在于,所述步骤B,包括步骤如下:
①数据趋势点TPi的数据值记为VTPi,时间值记为TTPi,权重值记为WTPi,数据趋势点TPi的权重值为数据趋势点TPi到数据趋势点TPi-1与数据趋势点TPi+1组成的拟合线line(TPi-1,TPi+1)的垂直距离,如公式(Ⅲ)所示;
数据趋势点TP1的权重值WTP1为数据趋势点TP1到时间序列起始点vt1与数据趋势点TP2组成的拟合线line(vt1,TP2)的垂直距离,数据趋势点TPM的权重值WTPM为数据趋势点TPM到时间序列终止点vtn与数据趋势点TPM,1组成的拟合线line(vtn,TPM-1)的垂直距离;
②按照全部数据趋势点TPs对应的权重值从大到小的顺利,对全部数据趋势点TPs进行排序。
6.根据权利要求2-5任一所述的一种基于数据特征片段的时间序列数据分类方法,其特征在于,所述步骤S4,包括步骤如下:
集合S中数据特征片段Shapelets的数量为Num,原始数据集D中时间序列的总条数为m,将原始数据集D中每条时间序列Ti分别与集合S中每条数据特征片段Shapelet Sj进行距离计算,得到相应的距离值dist(Ti,Sj),1≤i≤m,1≤j≤Num,如此循环操作,直到原始数据集D中全部时间序列均处理完毕,最终形成m×Num的数据特征矩阵DFM:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810843340.9A CN110019421B (zh) | 2018-07-27 | 2018-07-27 | 一种基于数据特征片段的时间序列数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810843340.9A CN110019421B (zh) | 2018-07-27 | 2018-07-27 | 一种基于数据特征片段的时间序列数据分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019421A CN110019421A (zh) | 2019-07-16 |
CN110019421B true CN110019421B (zh) | 2023-09-01 |
Family
ID=67188345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810843340.9A Active CN110019421B (zh) | 2018-07-27 | 2018-07-27 | 一种基于数据特征片段的时间序列数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019421B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625578B (zh) * | 2020-05-26 | 2023-12-08 | 辽宁大学 | 适用于文化科技融合领域时间序列数据的特征提取方法 |
CN111783851B (zh) * | 2020-06-16 | 2023-08-11 | 西安外事学院 | 一种基于中枢点的时间序列趋势动态分段方法 |
CN113298337A (zh) * | 2020-10-19 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 一种质量评价方法和装置 |
CN113159128B (zh) * | 2021-03-24 | 2023-03-31 | 西北大学 | 一种基于快速提取shapelets的分类算法判断交通事故的方法 |
CN113254604B (zh) * | 2021-07-15 | 2021-10-01 | 山东大学 | 一种基于参考规范的专业文本生成方法及装置 |
CN114630141A (zh) * | 2022-03-18 | 2022-06-14 | 北京达佳互联信息技术有限公司 | 视频处理方法及相关设备 |
CN117407733B (zh) * | 2023-12-12 | 2024-04-02 | 南昌科晨电力试验研究有限公司 | 一种基于对抗生成shapelet的流量异常检测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103996077A (zh) * | 2014-05-22 | 2014-08-20 | 中国南方电网有限责任公司电网技术研究中心 | 一种基于多维时间序列的电气设备故障预测方法 |
CN104809226A (zh) * | 2015-05-07 | 2015-07-29 | 武汉大学 | 一种早期分类不平衡多变量时间序列数据的方法 |
CN106127229A (zh) * | 2016-06-16 | 2016-11-16 | 南京大学 | 一种基于时间序列类别的计算机数据分类方法 |
CN106960059A (zh) * | 2017-04-06 | 2017-07-18 | 山东大学 | 一种基于分段线性表示的时间序列流数据降维与简化表示方法 |
CN107330454A (zh) * | 2017-06-20 | 2017-11-07 | 西安建筑科技大学 | 非线性海量高维序列数据分类特性可视化及定量分析方法 |
-
2018
- 2018-07-27 CN CN201810843340.9A patent/CN110019421B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103996077A (zh) * | 2014-05-22 | 2014-08-20 | 中国南方电网有限责任公司电网技术研究中心 | 一种基于多维时间序列的电气设备故障预测方法 |
CN104809226A (zh) * | 2015-05-07 | 2015-07-29 | 武汉大学 | 一种早期分类不平衡多变量时间序列数据的方法 |
CN106127229A (zh) * | 2016-06-16 | 2016-11-16 | 南京大学 | 一种基于时间序列类别的计算机数据分类方法 |
CN106960059A (zh) * | 2017-04-06 | 2017-07-18 | 山东大学 | 一种基于分段线性表示的时间序列流数据降维与简化表示方法 |
CN107330454A (zh) * | 2017-06-20 | 2017-11-07 | 西安建筑科技大学 | 非线性海量高维序列数据分类特性可视化及定量分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110019421A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019421B (zh) | 一种基于数据特征片段的时间序列数据分类方法 | |
Ramadhan et al. | Parameter tuning in random forest based on grid search method for gender classification based on voice frequency | |
CN106570178B (zh) | 一种基于图聚类的高维文本数据特征选择方法 | |
CN108446741B (zh) | 机器学习超参数重要性评估方法、系统及存储介质 | |
Wang et al. | CLUES: A non-parametric clustering method based on local shrinking | |
JP2019207685A (ja) | 観測変数間の因果関係を推定するための方法、装置、およびシステム | |
JP6004015B2 (ja) | 学習方法、情報処理装置および学習プログラム | |
Channoufi et al. | Color image segmentation with bounded generalized gaussian mixture model and feature selection | |
Liu et al. | Meta two-sample testing: Learning kernels for testing with limited data | |
Ibrahim et al. | On feature selection methods for accurate classification and analysis of emphysema ct images | |
Douangnoulack et al. | Building minimal classification rules for breast cancer diagnosis | |
Prudêncio et al. | Combining meta-learning and active selection of datasetoids for algorithm selection | |
Cao et al. | Miac: Mutual-information classifier with adasyn for imbalanced classification | |
Liu et al. | A mutual information-based hybrid feature selection method for software cost estimation using feature clustering | |
Jesus et al. | Dynamic feature selection based on pareto front optimization | |
US20200258105A1 (en) | Mutually repulsing centroids for segmenting a vast social graph | |
WO2014118976A1 (ja) | 学習方法、情報変換装置および学習プログラム | |
CN108573059B (zh) | 一种基于特征采样的时间序列分类方法及装置 | |
Al Nuaimi et al. | Toward optimal streaming feature selection | |
CN111652384B (zh) | 一种数据量分布的平衡方法及数据处理方法 | |
CN111950652A (zh) | 一种基于相似度的半监督学习数据分类算法 | |
Rai et al. | Improved attribute manipulation in the latent space of stylegan for semantic face editing | |
Fujita et al. | Multivariate normal distribution based over-sampling for numerical and categorical features | |
Masud et al. | Slice_op: Selecting initial cluster centers using observation points | |
CN111126617A (zh) | 一种选择融合模型权重参数的方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Hu Yupeng Inventor after: Luo Wei Inventor after: Li Xueqing Inventor after: Xu Pengtao Inventor after: Ding Yiming Inventor before: Luo Wei Inventor before: Hu Yupeng Inventor before: Li Xueqing Inventor before: Xu Pengtao Inventor before: Ding Yiming |
|
GR01 | Patent grant | ||
GR01 | Patent grant |