CN103020643B - 基于提取核特征早期预测多变量时间序列类别的分类方法 - Google Patents

基于提取核特征早期预测多变量时间序列类别的分类方法 Download PDF

Info

Publication number
CN103020643B
CN103020643B CN201210507502.4A CN201210507502A CN103020643B CN 103020643 B CN103020643 B CN 103020643B CN 201210507502 A CN201210507502 A CN 201210507502A CN 103020643 B CN103020643 B CN 103020643B
Authority
CN
China
Prior art keywords
feature
time series
classification
variable
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210507502.4A
Other languages
English (en)
Other versions
CN103020643A (zh
Inventor
何国良
段勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201210507502.4A priority Critical patent/CN103020643B/zh
Publication of CN103020643A publication Critical patent/CN103020643A/zh
Application granted granted Critical
Publication of CN103020643B publication Critical patent/CN103020643B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

针对早期预测多变量时间序列分类问题,本发明提出了基于提取核特征早期预测多变量时间序列类别的分类方法,为提取各个变量时间序列本质特性,首先对各变量时间序列分别进行特征提取,并采用聚类方法减少冗余特征与剔除噪音,提高分类的稳定性。其次,为提高分类的效率、精度和早期度,基于准确率、召回率和早期度等提出一种综合评价特征性能的方法,选择每个簇中的最优特征作为该变量的核特征。最后,基于各变量的核特征集,提出了两种简单且有效的分类器构造方法。通过实验验证本发明所提方法和算法的正确性和有效性,实验结果表明该分类器能够达到较高的准确率与较好的早期度。

Description

基于提取核特征早期预测多变量时间序列类别的分类方法
技术领域
本发明涉及时间序列的数据挖掘技术领域,特别是涉及基于核特征早期预测多变量时间序列类别的分类方法。
背景技术
近年来,在时间序列挖掘领域中,对于多变量时间序列数据挖掘中的分类问题已经成为一大热点,广泛应用于多媒体、医学、制造工业、金融应用等应用领域。针对多变量时间序列的分类问题,国内外学者已经提出了多种方法构建多变量时间序列分类器。
为了提高分类的准确率,Iyad Batal等学者基于提取多变量时间序列的抽象特征,将多变量时间序列数据转换为布尔向量,最后采用传统机器学习方法进行分类。Hyunjin Yoon等学者提出了基于主成分分析法选择最优特征子集,保留了特征间的相互关联信息。文献:Iyad Batal,Lucia Sacchi,Riccardo Bellazzi,Milos Hauskrecht.Multivariate Time Series Classification withTemporal Abstractions,Proceedings of the Twenty-Second International FLAIRS Conference,2009;Hyunjin Yoon,Kiyoung Yang,and Cyrus Shahabi.Feature subset selection and featureranking for multivariate time series,IEEE transactions on knowledge and data engineering,2005,17(9):1186-1198.
针对多变量时间序列中数据长度不一致的问题,C.Orsenigo等学者基于固定基数扩展弯曲距离,将多变量时间序列转换为等长序列,并构建了一种离散支持向量机分类器。为解决多变量时间序列中数据维度过高的问题,Xiaoqing Weng等学者基于线性投影映射(LPP)技术对数据进行降维后,在低维空间中以最近邻算法(1NN)进行分类,提高分类的准确率和效率。文献:C.Orsenigo,C.Vercellis.Combining discrete SVM and fixed cardinality warping distancesfor multivariate time series classification,Pattern Recognition,2010,43(1):3787-3794;XiaoqingWeng,Junyi Shen.Classification of multivariate time series using locality preserving projections,Knowledge-Based Systems,2008,21(7):581-587.
上述文献主要是针对多变量时间序列的分类问题,并未对提前预测其类别进行探讨。然而,提前预测时序数据的类别,在医学、工业、商业和军事等领域有着广泛的应用。如医学上对于某些疾病的分析,若在监测心电图、脑电图等时间序列数据的过程中尽早判断其异常情况,能实现对相关疾病的尽早诊断和有效治疗。
针对于单变量时间序列的早期分类问题,Zhengzheng Xing等深入研究了最近邻个体间关联的稳定性,提出了一种基于1-NN的早期分类方法。为了深入研究分类过程的可解释性,她们提出了提取早期特征用于构建分类器的方法。文献:Zhengzheng Xing,Jian Pei,Philip S Yu.Early prediction on time series:a nearest neighbor approach,IJCAI 2009;Zhengzheng Xing,JianPei,Philip S.Yu,Ke Wang.Extracting interpretable features for early classification on time series,SDM 2011。
针对于多变量时间序列的早期分类问题,Mohamed F Ghalwash提出了多变量特征的概念(Multivariate shapelet),它由所有变量时间序列中相同时间段的子序列构成;以加权信息增益作为特征性能的评价标准,提出了基于提取多变量特征进行早期分类的方法技术。文献:Mohamed F Ghalwash,Zoran Obradovic.Early classification of multivariate temporal observationsby extraction of interpretable shapelets,will be appeared in BMC Bioinformatics。
然而,多变量时间序列中各变量时间序列的特征并非出现同一起点且保持同一长度,因此需要进一步研究以发现和提取多变量时间序列的特征,提高分类的准确率。同时,为保证分类准确率的同时提前判别其类别,在特征选择和提取时综合考虑特征的性能,包括其准确率、召回率和早期度。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于提取核特征早期预测多变量时间序列类别的分类方法。
本发明的技术方案为一种基于提取核特征早期预测多变量时间序列类别的分类方法,包括下列步骤:
步骤1,对训练数据集中多变量时间序列,提取各变量的时间序列中子序列作为候选特征,并基于准确率和召回率获取每个候选特征的阈值;从各变量的候选特征中选择准确率达到预定值的候选特征构成变量的特征集;
步骤2,对步骤1所得各变量的特征集按类别分别聚类得到若干个簇,在每个簇中选取性能最佳的特征为核特征,每个变量的各簇核特征的并构成各变量的核特征集;所有变量的核特征集的并集为多变量时间序列的核特征集;
步骤3,根据步骤2所得多变量时间序列的核特征集,分类预测检测数据集中多变量时间序列的类别。
而且,步骤1中,某候选特征f的阈值δ获取方式为,求候选特征f与训练集数据中所有样本对应变量时间序列的相似度,对候选特征f与所有样本对应变量时间序列的相似度进行排序,按序取相邻两相似度的中点得到若干候选阈值,并基于F-measure方法根据准确率和召回率评价各候选阈值的性能,选取最优性能的候选阈值作为候选特征f的阈值δ。
而且,步骤3进行分类采用基于多数投票原则的分类器,包括通过度量各变量的时间序列的与相应核特征集中特征的相似度,若某变量的时间序列与相应核特征集中的某一特征匹配成功,则该变量的时间序列类别为匹配特征的类别;若多数变量的时间序列类别一致,此类别即为多变量时间序列的类别。
或者,步骤3进行分类采用基于规则的分类器,包括基于各变量的核特征集和指定的约束条件,产生规则集,每条规则由一个或者多个特征构成,但最多只包含各变量的一个核特征;基于规则集,预测多变量时间序列的类别。
而且,步骤2在每个簇中选取性能最佳的特征为核特征时,评估某特征f的性能Quality(f)的函数如下,
Quality(f)=1/(w0/Earliness(f)+w1/Precision(f)+w2/Recall(f)),
其中w0、w1、w2,分别表示早期度Earliness、准确率Precision、召回率Recall的权重。
本发明针对多变量时间序列的特点,提出了一种提取多变量时间序列核特征的有效方法,通过构造分类器对多个多变量时间序列数据进行分类与分析,能有效提高对多变量时间序列的分类准确度和早期度。与现有技术相比,本发明的有益效果为:
(1)提出一种提取多变量时间序列核特征的有效方法。为了提取各个变量时间序列本质特性,我们对各变量时间序列分别进行特征提取。
(2)对于各变量特征,采用聚类方法减少冗余特征并剔除噪音,提高分类的稳定性。
(3)为提高分类的效率、精度和早期度,基于准确率、召回率和早期度等特性提出一种综合评价特征性能的方法,并选取每个簇中的最优特征作为相应变量的核特征。
(4)基于各变量的核特征,提出了两种简单且有效的分类器构造方法。通过实验验证本发明所提方法和算法的正确性和有效性,实验结果表明该分类器能够达到较高的准确率与较好的早期度。
附图说明
图1为本发明实施例针对多变量时间序列构建分类器的方法流程图;
图2为对Wafer的abnormal类别数据集第1个变量时间序列所提取的特征图;
图3为对Wafer的abnormal类别数据集第2个变量时间序列所提取的特征图;
图4为对Wafer的abnormal类别数据集第3个变量时间序列所提取的特征图;
图5为对Wafer的abnormal类别数据集第4个变量时间序列所提取的特征图;
图6为对Wafer的abnormal类别数据集第5个变量时间序列所提取的特征图;
图7为对Wafer的abnormal类别数据集第6个变量时间序列所提取的特征图。
具体实施方式
以下结合附图和实施例详细说明本发明技术方案。
本发明针对早期预测多变量时间序列分类问题,提出了一种提取多变量时间序列核特征的有效方法。通过对多变量时间序列各个变量时间序列进行核特征的提取与选择,再以各变量的核特征集,通过两种简单且有效的分类方法构建分类器。
本发明实施例以Wafer数据集为具体实例,Wafer数据含2个类别(分别记为abnormal类别与normal类别),每个数据包括6个变量,即每个数据包括6个变量的时间序列。训练数据集含192个数据,测试数据集含48个数据。为了减弱时间序列数据的缩放和偏移对度量其相似性的影响,实施例采用z-score方法对Wafer训练数据集所有数据的各个变量时间序列分别进行规范化。
图2为Wafer数据集的abnormal类别第1个变量时间序列所提取的特征图;
图3为Wafer数据集的abnormal类别第2个变量时间序列所提取的特征图;
图4为Wafer数据集的abnormal类别第3个变量时间序列所提取的特征图;
图5为Wafer数据集的abnormal类别第4个变量时间序列所提取的特征图;
图6为Wafer数据集的abnormal类别第5个变量时间序列所提取的特征图;
图7为Wafer数据集的abnormal类别第6个变量时间序列所提取的特征图。
如图1所示,基于以上Wafer数据集,实施例通过以下步骤对Wafer数据集构建早期预测多变量时间序列类别分类系统:
步骤1,对各变量的时间序列,通过提取所有子序列产生候选特征集,并基于准确率和召回率评价其性能,以获取每个候选特征的最佳阈值。为保证特征能表示相应变量时间序列的本质特性,对步骤1中各变量的候选特征集,选择其中准确率达到预定值的候选特征,构成特征集。
首先进行特征的提取。可提取训练集中每个样本的各个变量时间序列的所有子序列作为侯选特征,建议提取子序列的长度范围为3至L/3,L为各变量时间序列的长度。
实施例为了特征能体现出各变量的本质特性,针对Wafer训练数据集中数据的6个变量分别进行候选特征(子序列)的生成、特征的提取。对Wafer数据集的各个变量生成候选特征集,候选特征的长度从3递增到Wafer数据时间序列长度的1/3。候选特征f可以符号f(s,δ,c)表示,其中s表示子序列段,δ表示阈值,c表示该候选特征f的类别,与产生s的相应变量时间序列类别一致。
在各候选特征的阈值的选取时,为保证其分类准确率和召回率,采用F-measure评价方法使得该特征性能处于最优状态。实施例为了确定各侯选特征的阈值,首先求候选特征与训练中所有样本对应变量时间序列的相似度。候选特征f的阈值δ求取方式如下,首先,求候选特征f与训练集中所有样本对应变量时间序列的相似度。由于欧氏距离法的计算简单且有效,此处采用欧氏距离法度量两者的相似度。为了解决两者不等长的问题,可采用滑动窗口法,即以特征的长度为窗口,从每个变量时间序列起点开始滑动取得所有长度为窗口的子序列,依次度量所有子序列和该候选特征的相似性,取最优值作为该候选特征与对应变量时间序列的相似度。其次,对候选特征f与所有样本对应变量时间序列的相似度进行排序,按序取相邻两相似度的中点得到若干候选阈值,并基于F-measure方法评价各候选阈值的特征性能,选取最优性能的候选阈值作为候选特征f的阈值δ。
为便于实施参考起见,提供候选特征f的F-measure的评价方法具体实现说明如下:
F-measure(f)=2/(1/Precision(f)+1/Recall(f)),Precision与Recall分别表示准确率与召回率。其中,候选特征f的准确率Precision(f)、召回率Recall(f)计算公式如下:
Presicion ( f ) = | | { s | Dis ( s , f ) < &delta; ^ class ( s ) = c } | | | | { s | Dis ( s , f ) < &delta; } | |
Recall ( f ) = | | { s | Dis ( s , f ) < &delta; ^ class ( s ) = c } | | | | { s | class ( s ) = c } | |
其中,s是多变量时间序列中某一变量的时间序列,f代表相应变量的特征,δ是特征f的阈值,c表示其类别,Dis(s,f)表示相应变量时间序列s与特征f的欧式距离,class(s)表示相应变量时间序列s的类别。F-measure(f)为候选特征f(s,δ,c)的评价结果。
通过上述过程,已经对Wafer数据训练集各个变量的所有候选特征求得阈值δ,由于候选特征f(s,δ,c)并不能保证体现相应变量时间序列的本质特性。为了保证特征对相应变量的本质特性的可体现性与分类器的精度,从候选特征集中摒弃准确率Precision小于0.8的候选特征。各个变量时间序列候选特征集中未被摒弃的候选特征分别构成特征集Fi,则得到Wafer数据6个变量特征集F1,F2,F3,F4,F5,F6,Wafer数据训练集的特征集F即为各个变量特征集的并集,即M=6。
具体实施时,本发明技术人员可以自行设计相应运行流程。为便于实施参考起见,提供建议特征提取实现伪代码如下:
Algorithm 1:Feature Extraction
Input:Training dataset D
Output:Feature set F
1.Init F1,...,FM
2.Dividing D into M subset D1,...,DM
3.For each data d in Di
4.For start_pos=0→length(d)
5.Len=minLen
6.While(start_pos+Len<length(d)&&Len<maxLen)
7.If(true==feature_threshold(start_pos,Len,δ))
8.Fi=FiU{f(d(start_pos,Len),δ,class(d))}
9.End if
10.Len++
11.End while
12.End for
13.End for
14.Return
在特征提取过程中,各符号说明:Algorithm 1表示本发明的算法1,Feature Extraction为算法1的名称,即特征提取,Input、Output分别表示算法1的输入、输出,D表示多变量时间序列的训练数据集,F表示通过算法1所提取的特征集,Di表示第i个变量的时间序列训练集,d表示数据集Di中的时间序列数据,length(d)表示时间序列数据d的长度,minLen和maxLen分别表示候选特征长度的下界、上界,f(d(start_pos,Len),δ,class(d))中d(start_pos,Len)表示候选特征f是时间序列数据d中,以start_pos为起点,长度为Len的子序列,δ表示f的阈值,class(d)即产生f的时间序列数据d的类别,表示f的类别。
算法流程:由于本发明是分别对多变量时间序列各个变量求取特征集,因此首先将包含多变量时间序列的训练数据集D按变量划分为M个变量的时间序列训练集,其中M表示变量数目,见行2;然后,对于每个变量i的训练集Di进行特征集Fi的提取,得到F1,...,FM,见行3~13;其中,对于候选特征的阈值δ进行求取,具体实施时可以采用相应函数求取,实施例记为函数feature_threshold(start_pos,Len,δ),阈值δ的选择以现有的F-measure(f)为评价标准,选择使得F-measure(f)值最大的阈值。其中start_pos表示候选特征f在相应变量时间序列中的起点位置,Len表示候选特征f的长度。在函数feature_threshold(start_pos,Len,δ)中,对候选特征的准确率Precision进行判断,满足0.8,则可以作为特征,返回为真。否则该候选特征不能作为特征被提取,返回false。见行7~9。
步骤2,对特征集按类别分别聚类,使类似的特征聚集成一簇,选取性能最佳的特征为核特征,各簇核特征的并构成各变量的核特征集,以减小冗余特征并剔除噪音。所述多变量时间序列提取核特征的方式为对其中各变量时间序列分别进行,以保证所提取的核特征能表示相应变量时间序列的本质特性。所有变量的核特征集的并集即为多变量时间序列的核特征集。
本发明将步骤1获得的各个变量的特征集,分别按类别通过现有的Silhouette Index(SI)方法进行聚类,聚类的过程为,从特征集中随机选取一个特征,计算此特征与特征集中所有特征之间的相似度。特征间相似度的度量采用欧式距离法,对于不等长问题,可采用滑动窗口法处理。设按相似度将特征集中的所有特征聚集为N个初始的簇。计算簇中每个特征的SI值,即剪影指数值,用以评价该特征的划分效果。根据SI值判断此特征是否进行调整,对于SI值小于-0.5的特征,则将其调整至其它与此特征最近(相似)的簇内。计算每个簇中所有特征的性能,从每个簇中选取最优的特征作为核特征。
实施例通过步骤1得到Wafer数据训练集的6个变量的特征集,分别为F1,F2,F3,F4,F5,F6,对6个变量特征集分别按类别以SI进行聚类,选择每个簇中性能最优的特征构成Wafer数据相应变量i的核特征集FSi,得到Wafer数据集的6个变量核特征集分别为FS1,FS2,FS3,FS4,FS5,FS6。具体实现为,按类别将Wafer数据各个变量的特征集分为2个特征子集,2表示Wafer数据的类别数,对于每个特征子集,进行如下过程:
首先,通过计算特征集中随机一特征与所有特征之间的相似度,以相似度聚集为指定的N个簇。各变量特征聚类的簇数可采用预设初始值,其范围一般为2-10,实施例中N设定为3。特征间相似度的度量采用欧式距离法,对于不等长问题,采用滑动窗口法处理。
然后,计算簇中每个特征的SI值,根据SI值判断此特征是否进行调整。对于SI值小于-0.5的特征,则将其调整至其它簇中与此特征最近(相似)的簇内,否则不调整此特征。其中,某特征f的SI的计算方法为:SI(f)=(b-a)/Max(a,b),其中a表示特征f与特征f原所在初始的簇的相似度,b表示特征f与其它簇中与f最近的簇的相似度,特征f与某簇的相似度为特征f与簇内所有特征相似度的均值。
最后,对每个簇中的所有特征进行性能Quality的计算,选择出每个簇中Quality值最优的特征。
由于本发明是为了尽早预测多变量时间序列的类别,因此需同时考虑分类的早期度和准确度,因此实施例提出了一种新的评价特征性能的方法。特征f性能Quality的评价方法如下:Quality(f)=1/(w0/Earliness(f)+w1/Precision(f)+w2/Recall(f)),其中Earliness、Precision、Recall分别表示早期度、准确率、召回率,w0、w1、w2分别表示Earliness、Precision、Recall的权重。可基于训练集中各类数据的不平衡及三者的重要性,确定w0、w1、w2不同的比值。
特征f的早期度Earliness的计算公式如下:
Earliness ( f ) = &Sigma;s &Element; D ( 1 - len ( f ) &le; i &le; len ( s ) dis ( s [ i - len ( f ) + 1 , i ] , f ) &le; &delta; min len ( s ) ) | | { s | Dis ( s , f ) < &delta; } | |
其中,D是多变量时间序列某一变量时间序列训练集,s是相应变量时间序列,f是相应变量特征,δ是特征f的阈值,len(f)表示特征f的长度,s[i-len(f)+1,i]表示相应变量时间序列s中,起点为(i-len(f)+1),长度为len(f)的子序列,dis(s[i-len(f)+1,i],f)表示s[i-len(f)+1,i]与特征f的欧式距离。
具体实施时,本发明技术人员可以自行设计相应运行流程。为便于实施参考起见,提供建议多变量时间序列中变量i的特征选择伪代码如下:
Algorithm 2:Feature Selection
Input:Feature set Fi
Output:Feature set FSi
1.FSi
2.Dividing Fi into K subset Fi1,...,FiK
3.For k=1 to K
4.Clustering Fik as N clusters C1,...,CN
5.For each cluster Cj
6.For each data fp in Cj
7.Compute the SI(fp)
8.If SI(fp)<-0.5 then
9.Adjust fp to the nearest cluster
10.End if
11.End for
12.End for
13.For each cluster Cj
14.Selecting the best Quality fq in cluster Cj
15.FSi=FSi U{fq}
16.End for
17.End for
18.Return FSi
在特征选择过程中,各符号说明:Algorithm 2表示本发明的算法2,Feature Selection为算法2的名称,即特征选择,Input、Output分别表示算法2的输入、输出,Fi表示多变量时间序列变量i通过算法1所提取的特征集,FSi表示多变量时间序列变量i通过算法2所选择得到的核特征集,fp、fq表示特征,SI(fp)表示特征fp的SI值。
算法流程:首先,将所提取的特征集Fi按类别划分为K个集合Fi1,...,FiK,其中K代表类的数目,见行2;然后,对每个特征子集Fik进行聚类,从每个簇中选择性能最优的特征,加入核特征集,见行3~17;其中,对于特征子集的聚类过程通过SI方法实现,先将Fik划分为N个簇C1,...,CN,其中N为指定参数,再以SI值对各簇中特征进行调整,完成对特征的聚类,见行4~11。
步骤3,构建分类器并进行分类,即根据步骤2所得多变量时间序列的核特征集,分类预测检测数据集中多变量时间序列的类别。
经过以上步骤,已经得到Wafer数据训练集的核特征集,即各个变量时间序列的核特征集FSi的并集本发明进一步提出两种简单且有效的分类方法提前预测Wafer测试集数据的类别,任选其中一种即可对本发明方法的分类效果进行评测,具体过程分别如下所示:
(i)基于多数投票原则的分类器,包括通过度量各变量的时间序列的与相应核特征集中特征的相似度,若某变量的时间序列与相应核特征集中的某一特征匹配成功,则该变量的时间序列类别为匹配特征的类别;若多数变量的时间序列类别一致,此类别即为多变量时间序列的类别。实施例已经获得Wafer数据训练集各个变量的核特征集FSi,对于待分类Wafer数据的任意变量i,该变量i的时间序列匹配FSi中任一特征f,即变量i的时间序列与特征f的欧式距离小于特征f的阈值,则可确定该变量i的时间序列的类别为与其匹配特征f的类别。为了尽早判定多变量时间序列的类别,当多数(半数或以上)变量所确定的类别一致时,即可判定该待分类的Wafer数据的类别为多数变量所确定的类别;
(ii)基于规则的分类器,包括基于各变量的核特征集和指定的约束条件,产生规则集,每条规则由一个或者多个特征构成,但最多只包含各变量的一个核特征;基于规则集,预测多变量时间序列的类别。规则是由一个或者多个特征构成的(最多包含M个特征),每个特征从Wafer数据的不同变量的核特征集中选取,规则中所有特征类别一致。如图1,从核特征集FS中运用现有的Apriori方法产生初始规则集R’,基于约束条件对初始规则集R’进行筛选,选择达到指定要求的分类规则集R,基于分类规则集R预测多变量时间序列的类别。
实施例对Wafer数据abnormal类别与normal类别的核特征集分别都执行下述过程:从核特征集FS中产生候选规则集R1,R2,...,R6,Ri表示包含i个特征的候选规则的集合。从R1至R6遍历筛选规则,筛选方式为在Wafer训练集数据中计算候选规则的准确率与召回率,不满足预定值时,舍弃该候选规则,未被舍弃的候选规则将加入最终Wafer数据训练集训练出来的分类器规则集RS。对于待分类Wafer数据,在规则集RS中搜索覆盖此待分类Wafer数据的规则,即可判定该待分类的Wafer数据的类别。
具体实施时,本发明技术人员可以自行设计相应运行流程。为便于实施参考起见,提供建议建立规则的伪代码:
Algorithm 3:Rule Build
Input:Training data set D,Feature set FS
Output:Rule set RS
1.RS=Φ
2.Dividing FS into K subset F1,F2,...,FK
3.For i=1 to K
4.Generating candidate rule set R1,R2,...,RM according to Fi
5.For each r∈Rj
6.For each rule∈RS
7.If rule is a subset of r then
8.Reject r
9.End if
10.End for
11.Cal_Precision_Recall(r,D)
12.If Precision(r)>PRC && Recall(r)>REC then
13.RS=RS U{r}
14.End if
15.End for
16.End for
17.Return RS
在建立规则过程中,各符号说明:Algorithm 3表示本发明的算法3,Rule Build为算法3的名称,即建立规则,Input、Output分别表示算法3的输入、输出,D表示多变量时间序列训练数据集,FS表示多变量时间序列通过算法2所提取的核特征集,RS表示多变量时间序列通过算法3建立的规则集。
算法流程:首先,将核特征集根据类别划分为K个集合F1,F2,...,FK,其中K表示多变量时间序列的类别数目,见行2;然后,根据特征子集Fi产生候选规则集R1,R2,...,RM,候选规则集R1,R2,...,RM中任一采用Rj表示,见行4,并进行规则集的筛选,见行5~15;其中,规则的筛选过程为:先判断候选规则r是否已有子集规则rule作为最终规则,若有,由于r的子集规则能够分类任何规则r能分类的数据,则舍弃此规则r,继续判断候选规则集中下一规则,见行7~9;若无,再计算候选规则的Precision与Recall,具体实施时可以采用相应函数求取,实施例记为函数Cal_Precision_Recall(r,D),见行11;对于Precision与Recall满足预定值的候选规则r,将其加入最终规则集RS,否则舍弃r,其中Precision(r)、Recall(r)分别表示候选规则r的准确率与召回率,PRC、REC分别表示准确率与召回率的预定值,见行12~14。
对于Wafer训练数据集中未知类别Wafer数据的预测前,为了减弱时间序列数据的缩放和偏移对度量其相似性的影响,同样需要对待预测Wafer数据进行规范化。然而由于要对Wafer数据实现早期分类,因此对于待预测Wafer数据的规范化采取局部规范化的方式实现,即将各变量时间序列中需要与核特征进行相似度度量的子序列采用z-score方法进行局部规范化。然后可分别采用步骤3中所述两种分类方法进行其类别的判定。
综上所述,本发明提出一种提取多变量时间序列核特征的有效方法。首先,为了能提取各个变量时间序列本质特性,我们对各变量时间序列分别进行特征提取;其次,对于各变量特征,采用聚类方法减少冗余特征并剔除噪音,提高分类的稳定性;再者,为提高分类的效率、精度和早期度,基于准确率、召回率和早期度等特性提出一种综合评价特征性能的方法,并选取每簇中的最优特征作为相应变量的核特征;最后,基于各变量的核特征,提出了两种简单且有效的分类器构造方法。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (2)

1.一种基于提取核特征早期预测多变量时间序列类别的分类方法,其特征在于,包括下列步骤:
步骤1,对训练数据集中多变量时间序列,提取各变量的时间序列中子序列作为候选特征,并基于准确率和召回率获取每个候选特征的阈值;从各变量的候选特征中选择准确率达到预定值的候选特征构成变量的特征集;
步骤1中,某候选特征f的阈值δ获取方式为,求候选特征f与训练集数据中所有样本对应变量时间序列的相似度,对候选特征f与所有样本对应变量时间序列的相似度进行排序,按序取相邻两相似度的中点得到若干候选阈值,并基于F-measure方法根据准确率和召回率评价各候选阈值的性能,选取最优性能的候选阈值作为候选特征f的阈值δ;
步骤2,对步骤1所得各变量的特征集按类别分别聚类得到若干个簇,在每个簇中选取性能最佳的特征为核特征,每个变量的各簇核特征的并构成各变量的核特征集;所有变量的核特征集的并集为多变量时间序列的核特征集;
步骤3,根据步骤2所得多变量时间序列的核特征集,分类预测检测数据集中多变量时间序列的类别;
步骤3进行分类采用基于多数投票原则的分类器,包括通过度量各变量的时间序列的与相应核特征集中特征的相似度,若某变量的时间序列与相应核特征集中的某一特征匹配成功,则该变量的时间序列类别为匹配特征的类别;若多数变量的时间序列类别一致,此类别即为多变量时间序列的类别;
或者,步骤3进行分类采用基于规则的分类器,包括基于各变量的核特征集和指定的约束条件,产生规则集,每条规则由一个或者多个特征构成,但最多只包含各变量的一个核特征;基于规则集,预测多变量时间序列的类别。
2.根据权利要求1所述的基于提取核特征早期预测多变量时间序列类别的分类方法,其特征在于:步骤2在每个簇中选取性能最佳的特征为核特征时,评估某特征f的性能Quality(f)的函数如下,
Quality(f)=1/(w0/Earliness(f)+w1/Precision(f)+w2/Recall(f)),
其中w0、w1、w2,分别表示早期度Earliness、准确率Precision、召回率Recall的权重。
CN201210507502.4A 2012-11-30 2012-11-30 基于提取核特征早期预测多变量时间序列类别的分类方法 Expired - Fee Related CN103020643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210507502.4A CN103020643B (zh) 2012-11-30 2012-11-30 基于提取核特征早期预测多变量时间序列类别的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210507502.4A CN103020643B (zh) 2012-11-30 2012-11-30 基于提取核特征早期预测多变量时间序列类别的分类方法

Publications (2)

Publication Number Publication Date
CN103020643A CN103020643A (zh) 2013-04-03
CN103020643B true CN103020643B (zh) 2015-05-13

Family

ID=47969233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210507502.4A Expired - Fee Related CN103020643B (zh) 2012-11-30 2012-11-30 基于提取核特征早期预测多变量时间序列类别的分类方法

Country Status (1)

Country Link
CN (1) CN103020643B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224543A (zh) * 2014-05-30 2016-01-06 国际商业机器公司 用于处理时间序列的方法和装置
JP2017537539A (ja) * 2014-11-05 2017-12-14 サムスン エレクトロニクス カンパニー リミテッド サンプル単位予測符号化装置及びその方法
CN104767739B (zh) * 2015-03-23 2018-01-30 电子科技大学 将未知多协议混合数据帧分离为单协议数据帧的方法
CN104809226B (zh) * 2015-05-07 2018-01-12 武汉大学 一种早期分类不平衡多变量时间序列数据的方法
CN106022368B (zh) * 2016-05-17 2019-04-05 中国矿业大学 一种基于增量核主成分分析的增量轨迹异常检测的方法
CN108009048B (zh) * 2017-11-27 2020-08-11 上海上实龙创智能科技股份有限公司 一种工业能耗监控平台数据的修补方法
DE102019107363B4 (de) * 2019-03-22 2023-02-09 Schaeffler Technologies AG & Co. KG Verfahren und System zum Bestimmen einer Eigenschaft einer Maschine, insbesondere einer Werkzeugmaschine, ohne messtechnisches Erfassen der Eigenschaft sowie Verfahren zum Bestimmen eines voraussichtlichen Qualitätszustands eines mit einer Maschine gefertigten Bauteils
CN110426612B (zh) * 2019-08-17 2020-09-01 福州大学 一种两级式变压器油纸绝缘时域介电响应特征量优选方法
CN110826628B (zh) * 2019-11-07 2023-05-23 莫毓昌 一种特性子集选择和特性多元时间序列排序系统
CN111027606B (zh) * 2019-11-29 2022-05-31 中国科学院空间应用工程与技术中心 一种多模式时间序列异常检测方法、存储介质和设备
CN111248928A (zh) * 2020-01-20 2020-06-09 北京津发科技股份有限公司 压力识别方法及装置
US11455322B2 (en) 2020-05-12 2022-09-27 International Business Machines Corporation Classification of time series data
CN116343915B (zh) * 2023-03-15 2023-11-24 电子科技大学长三角研究院(衢州) 生物序列集成分类器的构建方法及生物序列预测分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019702B1 (en) * 2007-12-07 2011-09-13 Google Inc. Supervised learning with multi-scale time intervals using a statistical classification model to classify unlabeled events
CN102271091A (zh) * 2011-09-06 2011-12-07 电子科技大学 一种网络异常事件分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4686505B2 (ja) * 2007-06-19 2011-05-25 株式会社東芝 時系列データ分類装置、時系列データ分類方法および時系列データ処理装置
WO2009082042A1 (en) * 2007-12-21 2009-07-02 Industry University Cooperation Foundation Of Kyungwon University Nonlinear time series prediction method for weighted average defuzzification based on newfm

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019702B1 (en) * 2007-12-07 2011-09-13 Google Inc. Supervised learning with multi-scale time intervals using a statistical classification model to classify unlabeled events
CN102271091A (zh) * 2011-09-06 2011-12-07 电子科技大学 一种网络异常事件分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Guoliang He 等.Early Classification on Multivariate Time Series with Core Features.《Database and Expert Systems Applications》.2014,410-422. *
李小斌 等.时间序列早期分类的多分类器集成方法.《山东大学学报(工学版)》.2011,第41卷(第4期),73-78. *

Also Published As

Publication number Publication date
CN103020643A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN103020643B (zh) 基于提取核特征早期预测多变量时间序列类别的分类方法
Cui et al. Multi-scale convolutional neural networks for time series classification
Johnson et al. Survey on deep learning with class imbalance
Zhou et al. Extracting symbolic rules from trained neural network ensembles
Thenmozhi et al. Heart disease prediction using classification with different decision tree techniques
CN104809226A (zh) 一种早期分类不平衡多变量时间序列数据的方法
CN103728551A (zh) 一种基于级联集成分类器的模拟电路故障诊断方法
CN113344075A (zh) 基于特征学习与集成学习的高维不平衡数据分类方法
Gohar et al. Terrorist group prediction using data classification
Villa-Blanco et al. Feature subset selection for data and feature streams: a review
Ntoutsi et al. A general framework for estimating similarity of datasets and decision trees: exploring semantic similarity of decision trees
Chen et al. Comparison of the hybrid credit scoring models based on various classifiers
Shehu et al. Particle swarm optimization for feature selection in emotion categorization
CN105760471A (zh) 基于组合凸线性感知器的两类文本分类方法
Ahmad et al. Classification models for higher learning scholarship award decisions
Shi A method of predicting crime of theft based on bagging ensemble feature selection
Li Transforming time series for efficient and accurate classification
Aguilera et al. Niching genetic feature selection algorithms applied to the design of fuzzy rule-based classification systems
Sridevi et al. A general survey on multidimensional and quantitative association rule mining algorithms
Nowak-Brzezińska Outlier mining in rule-based knowledge bases
Adi et al. Automatic personality recognition in Bahasa Indonesia: A semi-supervised approach
Bhopale et al. Optimised Clustering Based Approach for Healthcare Data Analytics.
Kulkarni et al. Survey on Opinion Mining Algorithms and Applications
CN103488997A (zh) 基于各类重要波段提取的高光谱图像波段选择方法
Gupta et al. A detailed Study of different Clustering Algorithms in Data Mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150513

Termination date: 20161130

CF01 Termination of patent right due to non-payment of annual fee