CN103020643B

CN103020643B - 基于提取核特征早期预测多变量时间序列类别的分类方法

Info

Publication number: CN103020643B
Application number: CN201210507502.4A
Authority: CN
Inventors: 何国良; 段勇
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2012-11-30
Filing date: 2012-11-30
Publication date: 2015-05-13
Anticipated expiration: 2032-11-30
Also published as: CN103020643A

Abstract

针对早期预测多变量时间序列分类问题，本发明提出了基于提取核特征早期预测多变量时间序列类别的分类方法，为提取各个变量时间序列本质特性，首先对各变量时间序列分别进行特征提取，并采用聚类方法减少冗余特征与剔除噪音，提高分类的稳定性。其次，为提高分类的效率、精度和早期度，基于准确率、召回率和早期度等提出一种综合评价特征性能的方法，选择每个簇中的最优特征作为该变量的核特征。最后，基于各变量的核特征集，提出了两种简单且有效的分类器构造方法。通过实验验证本发明所提方法和算法的正确性和有效性，实验结果表明该分类器能够达到较高的准确率与较好的早期度。

Description

基于提取核特征早期预测多变量时间序列类别的分类方法

技术领域

本发明涉及时间序列的数据挖掘技术领域，特别是涉及基于核特征早期预测多变量时间序列类别的分类方法。

背景技术

近年来，在时间序列挖掘领域中，对于多变量时间序列数据挖掘中的分类问题已经成为一大热点，广泛应用于多媒体、医学、制造工业、金融应用等应用领域。针对多变量时间序列的分类问题，国内外学者已经提出了多种方法构建多变量时间序列分类器。

为了提高分类的准确率，Iyad Batal等学者基于提取多变量时间序列的抽象特征，将多变量时间序列数据转换为布尔向量，最后采用传统机器学习方法进行分类。Hyunjin Yoon等学者提出了基于主成分分析法选择最优特征子集，保留了特征间的相互关联信息。文献：Iyad Batal,Lucia Sacchi,Riccardo Bellazzi,Milos Hauskrecht.Multivariate Time Series Classification withTemporal Abstractions,Proceedings of the Twenty-Second International FLAIRS Conference,2009；Hyunjin Yoon,Kiyoung Yang,and Cyrus Shahabi.Feature subset selection and featureranking for multivariate time series,IEEE transactions on knowledge and data engineering,2005,17(9):1186-1198.

针对多变量时间序列中数据长度不一致的问题，C.Orsenigo等学者基于固定基数扩展弯曲距离，将多变量时间序列转换为等长序列，并构建了一种离散支持向量机分类器。为解决多变量时间序列中数据维度过高的问题，Xiaoqing Weng等学者基于线性投影映射（LPP）技术对数据进行降维后，在低维空间中以最近邻算法(1NN)进行分类，提高分类的准确率和效率。文献：C.Orsenigo,C.Vercellis.Combining discrete SVM and fixed cardinality warping distancesfor multivariate time series classification,Pattern Recognition,2010,43(1):3787-3794；XiaoqingWeng,Junyi Shen.Classification of multivariate time series using locality preserving projections,Knowledge-Based Systems,2008,21(7):581-587.

上述文献主要是针对多变量时间序列的分类问题，并未对提前预测其类别进行探讨。然而，提前预测时序数据的类别，在医学、工业、商业和军事等领域有着广泛的应用。如医学上对于某些疾病的分析，若在监测心电图、脑电图等时间序列数据的过程中尽早判断其异常情况，能实现对相关疾病的尽早诊断和有效治疗。

针对于单变量时间序列的早期分类问题，Zhengzheng Xing等深入研究了最近邻个体间关联的稳定性，提出了一种基于1-NN的早期分类方法。为了深入研究分类过程的可解释性，她们提出了提取早期特征用于构建分类器的方法。文献：Zhengzheng Xing,Jian Pei,Philip S Yu.Early prediction on time series:a nearest neighbor approach,IJCAI 2009；Zhengzheng Xing,JianPei,Philip S.Yu,Ke Wang.Extracting interpretable features for early classification on time series,SDM 2011。

针对于多变量时间序列的早期分类问题，Mohamed F Ghalwash提出了多变量特征的概念(Multivariate shapelet)，它由所有变量时间序列中相同时间段的子序列构成；以加权信息增益作为特征性能的评价标准，提出了基于提取多变量特征进行早期分类的方法技术。文献：Mohamed F Ghalwash,Zoran Obradovic.Early classification of multivariate temporal observationsby extraction of interpretable shapelets,will be appeared in BMC Bioinformatics。

然而，多变量时间序列中各变量时间序列的特征并非出现同一起点且保持同一长度，因此需要进一步研究以发现和提取多变量时间序列的特征，提高分类的准确率。同时，为保证分类准确率的同时提前判别其类别，在特征选择和提取时综合考虑特征的性能，包括其准确率、召回率和早期度。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于提取核特征早期预测多变量时间序列类别的分类方法。

本发明的技术方案为一种基于提取核特征早期预测多变量时间序列类别的分类方法，包括下列步骤：

步骤1，对训练数据集中多变量时间序列，提取各变量的时间序列中子序列作为候选特征，并基于准确率和召回率获取每个候选特征的阈值；从各变量的候选特征中选择准确率达到预定值的候选特征构成变量的特征集；

步骤2，对步骤1所得各变量的特征集按类别分别聚类得到若干个簇，在每个簇中选取性能最佳的特征为核特征，每个变量的各簇核特征的并构成各变量的核特征集；所有变量的核特征集的并集为多变量时间序列的核特征集；

步骤3，根据步骤2所得多变量时间序列的核特征集，分类预测检测数据集中多变量时间序列的类别。

而且，步骤1中，某候选特征f的阈值δ获取方式为，求候选特征f与训练集数据中所有样本对应变量时间序列的相似度，对候选特征f与所有样本对应变量时间序列的相似度进行排序，按序取相邻两相似度的中点得到若干候选阈值，并基于F-measure方法根据准确率和召回率评价各候选阈值的性能，选取最优性能的候选阈值作为候选特征f的阈值δ。

而且，步骤3进行分类采用基于多数投票原则的分类器，包括通过度量各变量的时间序列的与相应核特征集中特征的相似度，若某变量的时间序列与相应核特征集中的某一特征匹配成功，则该变量的时间序列类别为匹配特征的类别；若多数变量的时间序列类别一致，此类别即为多变量时间序列的类别。

或者，步骤3进行分类采用基于规则的分类器，包括基于各变量的核特征集和指定的约束条件，产生规则集，每条规则由一个或者多个特征构成，但最多只包含各变量的一个核特征；基于规则集，预测多变量时间序列的类别。

而且，步骤2在每个簇中选取性能最佳的特征为核特征时，评估某特征f的性能Quality(f)的函数如下，

Quality(f)=1/(w₀/Earliness(f)+w₁/Precision(f)+w₂/Recall(f))，

其中w₀、w₁、w₂，分别表示早期度Earliness、准确率Precision、召回率Recall的权重。

本发明针对多变量时间序列的特点，提出了一种提取多变量时间序列核特征的有效方法，通过构造分类器对多个多变量时间序列数据进行分类与分析，能有效提高对多变量时间序列的分类准确度和早期度。与现有技术相比，本发明的有益效果为：

(1)提出一种提取多变量时间序列核特征的有效方法。为了提取各个变量时间序列本质特性，我们对各变量时间序列分别进行特征提取。

(2)对于各变量特征，采用聚类方法减少冗余特征并剔除噪音，提高分类的稳定性。

(3)为提高分类的效率、精度和早期度，基于准确率、召回率和早期度等特性提出一种综合评价特征性能的方法，并选取每个簇中的最优特征作为相应变量的核特征。

(4)基于各变量的核特征，提出了两种简单且有效的分类器构造方法。通过实验验证本发明所提方法和算法的正确性和有效性，实验结果表明该分类器能够达到较高的准确率与较好的早期度。

附图说明

图1为本发明实施例针对多变量时间序列构建分类器的方法流程图；

图2为对Wafer的abnormal类别数据集第1个变量时间序列所提取的特征图；

图3为对Wafer的abnormal类别数据集第2个变量时间序列所提取的特征图；

图4为对Wafer的abnormal类别数据集第3个变量时间序列所提取的特征图；

图5为对Wafer的abnormal类别数据集第4个变量时间序列所提取的特征图；

图6为对Wafer的abnormal类别数据集第5个变量时间序列所提取的特征图；

图7为对Wafer的abnormal类别数据集第6个变量时间序列所提取的特征图。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案。

本发明针对早期预测多变量时间序列分类问题，提出了一种提取多变量时间序列核特征的有效方法。通过对多变量时间序列各个变量时间序列进行核特征的提取与选择，再以各变量的核特征集，通过两种简单且有效的分类方法构建分类器。

本发明实施例以Wafer数据集为具体实例，Wafer数据含2个类别（分别记为abnormal类别与normal类别），每个数据包括6个变量，即每个数据包括6个变量的时间序列。训练数据集含192个数据，测试数据集含48个数据。为了减弱时间序列数据的缩放和偏移对度量其相似性的影响，实施例采用z-score方法对Wafer训练数据集所有数据的各个变量时间序列分别进行规范化。

图2为Wafer数据集的abnormal类别第1个变量时间序列所提取的特征图；

图3为Wafer数据集的abnormal类别第2个变量时间序列所提取的特征图；

图4为Wafer数据集的abnormal类别第3个变量时间序列所提取的特征图；

图5为Wafer数据集的abnormal类别第4个变量时间序列所提取的特征图；

图6为Wafer数据集的abnormal类别第5个变量时间序列所提取的特征图；

图7为Wafer数据集的abnormal类别第6个变量时间序列所提取的特征图。

如图1所示，基于以上Wafer数据集，实施例通过以下步骤对Wafer数据集构建早期预测多变量时间序列类别分类系统：

步骤1，对各变量的时间序列，通过提取所有子序列产生候选特征集，并基于准确率和召回率评价其性能，以获取每个候选特征的最佳阈值。为保证特征能表示相应变量时间序列的本质特性，对步骤1中各变量的候选特征集，选择其中准确率达到预定值的候选特征，构成特征集。

首先进行特征的提取。可提取训练集中每个样本的各个变量时间序列的所有子序列作为侯选特征，建议提取子序列的长度范围为3至L/3，L为各变量时间序列的长度。

实施例为了特征能体现出各变量的本质特性，针对Wafer训练数据集中数据的6个变量分别进行候选特征(子序列)的生成、特征的提取。对Wafer数据集的各个变量生成候选特征集，候选特征的长度从3递增到Wafer数据时间序列长度的1/3。候选特征f可以符号f(s,δ,c)表示，其中s表示子序列段，δ表示阈值，c表示该候选特征f的类别，与产生s的相应变量时间序列类别一致。

在各候选特征的阈值的选取时，为保证其分类准确率和召回率，采用F-measure评价方法使得该特征性能处于最优状态。实施例为了确定各侯选特征的阈值，首先求候选特征与训练中所有样本对应变量时间序列的相似度。候选特征f的阈值δ求取方式如下，首先，求候选特征f与训练集中所有样本对应变量时间序列的相似度。由于欧氏距离法的计算简单且有效，此处采用欧氏距离法度量两者的相似度。为了解决两者不等长的问题，可采用滑动窗口法，即以特征的长度为窗口，从每个变量时间序列起点开始滑动取得所有长度为窗口的子序列，依次度量所有子序列和该候选特征的相似性，取最优值作为该候选特征与对应变量时间序列的相似度。其次，对候选特征f与所有样本对应变量时间序列的相似度进行排序，按序取相邻两相似度的中点得到若干候选阈值，并基于F-measure方法评价各候选阈值的特征性能，选取最优性能的候选阈值作为候选特征f的阈值δ。

为便于实施参考起见，提供候选特征f的F-measure的评价方法具体实现说明如下：

F-measure(f)=2/(1/Precision(f)+1/Recall(f))，Precision与Recall分别表示准确率与召回率。其中，候选特征f的准确率Precision(f)、召回率Recall(f)计算公式如下：

Presicion (f) = \frac{| | {s | Dis (s, f) < δ^class (s) = c} | |}{| | {s | Dis (s, f) < δ} | |}

Recall (f) = \frac{| | {s | Dis (s, f) < δ^class (s) = c} | |}{| | {s | class (s) = c} | |}

其中，s是多变量时间序列中某一变量的时间序列，f代表相应变量的特征，δ是特征f的阈值，c表示其类别，Dis(s，f)表示相应变量时间序列s与特征f的欧式距离，class(s)表示相应变量时间序列s的类别。F-measure(f)为候选特征f(s,δ,c)的评价结果。

通过上述过程，已经对Wafer数据训练集各个变量的所有候选特征求得阈值δ，由于候选特征f(s,δ,c)并不能保证体现相应变量时间序列的本质特性。为了保证特征对相应变量的本质特性的可体现性与分类器的精度，从候选特征集中摒弃准确率Precision小于0.8的候选特征。各个变量时间序列候选特征集中未被摒弃的候选特征分别构成特征集F_i，则得到Wafer数据6个变量特征集F₁，F₂，F₃，F₄，F₅，F₆，Wafer数据训练集的特征集F即为各个变量特征集的并集，即M=6。

具体实施时，本发明技术人员可以自行设计相应运行流程。为便于实施参考起见，提供建议特征提取实现伪代码如下：

Algorithm 1:Feature Extraction

Input:Training dataset D

Output:Feature set F

1.Init F₁，...,F_M

2.Dividing D into M subset D₁,...,D_M

3.For each data d in D_i

4.For start_pos=0→length(d)

5.Len=minLen

6.While(start_pos+Len<length(d)&&Len<maxLen)

7.If(true==feature_threshold(start_pos,Len,δ))

8.F_i=F_iU{f(d(start_pos,Len),δ,class(d))}

9.End if

10.Len++

11.End while

12.End for

13.End for

14.Return

在特征提取过程中，各符号说明：Algorithm 1表示本发明的算法1，Feature Extraction为算法1的名称，即特征提取，Input、Output分别表示算法1的输入、输出，D表示多变量时间序列的训练数据集，F表示通过算法1所提取的特征集，D_i表示第i个变量的时间序列训练集，d表示数据集D_i中的时间序列数据，length(d)表示时间序列数据d的长度，minLen和maxLen分别表示候选特征长度的下界、上界，f(d(start_pos,Len),δ,class(d))中d(start_pos,Len)表示候选特征f是时间序列数据d中，以start_pos为起点，长度为Len的子序列，δ表示f的阈值，class(d)即产生f的时间序列数据d的类别，表示f的类别。

算法流程：由于本发明是分别对多变量时间序列各个变量求取特征集，因此首先将包含多变量时间序列的训练数据集D按变量划分为M个变量的时间序列训练集，其中M表示变量数目，见行2；然后，对于每个变量i的训练集D_i进行特征集Fi的提取，得到F₁,...,F_M，见行3~13；其中，对于候选特征的阈值δ进行求取，具体实施时可以采用相应函数求取，实施例记为函数feature_threshold(start_pos,Len,δ)，阈值δ的选择以现有的F-measure(f)为评价标准，选择使得F-measure(f)值最大的阈值。其中start_pos表示候选特征f在相应变量时间序列中的起点位置，Len表示候选特征f的长度。在函数feature_threshold(start_pos,Len,δ)中，对候选特征的准确率Precision进行判断，满足0.8，则可以作为特征，返回为真。否则该候选特征不能作为特征被提取，返回false。见行7~9。

步骤2，对特征集按类别分别聚类,使类似的特征聚集成一簇，选取性能最佳的特征为核特征，各簇核特征的并构成各变量的核特征集，以减小冗余特征并剔除噪音。所述多变量时间序列提取核特征的方式为对其中各变量时间序列分别进行，以保证所提取的核特征能表示相应变量时间序列的本质特性。所有变量的核特征集的并集即为多变量时间序列的核特征集。

本发明将步骤1获得的各个变量的特征集，分别按类别通过现有的Silhouette Index(SI)方法进行聚类，聚类的过程为，从特征集中随机选取一个特征，计算此特征与特征集中所有特征之间的相似度。特征间相似度的度量采用欧式距离法，对于不等长问题，可采用滑动窗口法处理。设按相似度将特征集中的所有特征聚集为N个初始的簇。计算簇中每个特征的SI值，即剪影指数值，用以评价该特征的划分效果。根据SI值判断此特征是否进行调整，对于SI值小于-0.5的特征，则将其调整至其它与此特征最近（相似）的簇内。计算每个簇中所有特征的性能，从每个簇中选取最优的特征作为核特征。

实施例通过步骤1得到Wafer数据训练集的6个变量的特征集，分别为F₁，F₂，F₃，F₄，F₅，F₆，对6个变量特征集分别按类别以SI进行聚类，选择每个簇中性能最优的特征构成Wafer数据相应变量i的核特征集FS_i，得到Wafer数据集的6个变量核特征集分别为FS₁，FS₂，FS₃，FS₄，FS₅，FS₆。具体实现为，按类别将Wafer数据各个变量的特征集分为2个特征子集，2表示Wafer数据的类别数，对于每个特征子集，进行如下过程：

首先，通过计算特征集中随机一特征与所有特征之间的相似度，以相似度聚集为指定的N个簇。各变量特征聚类的簇数可采用预设初始值，其范围一般为2-10，实施例中N设定为3。特征间相似度的度量采用欧式距离法，对于不等长问题，采用滑动窗口法处理。

然后，计算簇中每个特征的SI值，根据SI值判断此特征是否进行调整。对于SI值小于-0.5的特征，则将其调整至其它簇中与此特征最近（相似）的簇内，否则不调整此特征。其中，某特征f的SI的计算方法为：SI(f)=(b-a)/Max(a,b)，其中a表示特征f与特征f原所在初始的簇的相似度，b表示特征f与其它簇中与f最近的簇的相似度，特征f与某簇的相似度为特征f与簇内所有特征相似度的均值。

最后，对每个簇中的所有特征进行性能Quality的计算，选择出每个簇中Quality值最优的特征。

由于本发明是为了尽早预测多变量时间序列的类别，因此需同时考虑分类的早期度和准确度，因此实施例提出了一种新的评价特征性能的方法。特征f性能Quality的评价方法如下：Quality(f)=1/(w₀/Earliness(f)+w₁/Precision(f)+w₂/Recall(f))，其中Earliness、Precision、Recall分别表示早期度、准确率、召回率，w₀、w₁、w₂分别表示Earliness、Precision、Recall的权重。可基于训练集中各类数据的不平衡及三者的重要性，确定w₀、w₁、w₂不同的比值。

特征f的早期度Earliness的计算公式如下：

Earliness (f) = \frac{Σs &Element; D (1 - \frac{{len (f) \leq i \leq len (s)}_{dis (s [i - len (f) + 1, i], f) \leq δ}^{\min}}{len (s)})}{| | {s | Dis (s, f) < δ} | |}

其中，D是多变量时间序列某一变量时间序列训练集，s是相应变量时间序列，f是相应变量特征，δ是特征f的阈值，len(f)表示特征f的长度，s[i-len(f)+1,i]表示相应变量时间序列s中，起点为(i-len(f)+1)，长度为len(f)的子序列，dis(s[i-len(f)+1,i],f)表示s[i-len(f)+1,i]与特征f的欧式距离。

具体实施时，本发明技术人员可以自行设计相应运行流程。为便于实施参考起见，提供建议多变量时间序列中变量i的特征选择伪代码如下：

Algorithm 2:Feature Selection

Input:Feature set F_i

Output:Feature set FS_i

1.FS_i=Φ

2.Dividing F_i into K subset F_i1,...,F_iK

3.For k=1 to K

4.Clustering F_ik as N clusters C₁,...,C_N

5.For each cluster C_j

6.For each data f_p in C_j

7.Compute the SI(f_p)

8.If SI(f_p)<-0.5 then

9.Adjust f_p to the nearest cluster

10.End if

11.End for

12.End for

13.For each cluster C_j

14.Selecting the best Quality f_q in cluster C_j

15.FS_i=FS_i U{f_q}

16.End for

17.End for

18.Return FS_i

在特征选择过程中，各符号说明：Algorithm 2表示本发明的算法2，Feature Selection为算法2的名称，即特征选择，Input、Output分别表示算法2的输入、输出，F_i表示多变量时间序列变量i通过算法1所提取的特征集，FS_i表示多变量时间序列变量i通过算法2所选择得到的核特征集，f_p、f_q表示特征，SI(f_p)表示特征f_p的SI值。

算法流程：首先，将所提取的特征集Fi按类别划分为K个集合F_i1,...,F_iK，其中K代表类的数目，见行2；然后，对每个特征子集F_ik进行聚类，从每个簇中选择性能最优的特征，加入核特征集，见行3~17；其中，对于特征子集的聚类过程通过SI方法实现，先将F_ik划分为N个簇C₁，...,C_N，其中N为指定参数，再以SI值对各簇中特征进行调整，完成对特征的聚类，见行4~11。

步骤3，构建分类器并进行分类，即根据步骤2所得多变量时间序列的核特征集，分类预测检测数据集中多变量时间序列的类别。

经过以上步骤，已经得到Wafer数据训练集的核特征集，即各个变量时间序列的核特征集FS_i的并集本发明进一步提出两种简单且有效的分类方法提前预测Wafer测试集数据的类别，任选其中一种即可对本发明方法的分类效果进行评测，具体过程分别如下所示：

(i)基于多数投票原则的分类器，包括通过度量各变量的时间序列的与相应核特征集中特征的相似度，若某变量的时间序列与相应核特征集中的某一特征匹配成功，则该变量的时间序列类别为匹配特征的类别；若多数变量的时间序列类别一致，此类别即为多变量时间序列的类别。实施例已经获得Wafer数据训练集各个变量的核特征集FSi，对于待分类Wafer数据的任意变量i，该变量i的时间序列匹配FS_i中任一特征f，即变量i的时间序列与特征f的欧式距离小于特征f的阈值，则可确定该变量i的时间序列的类别为与其匹配特征f的类别。为了尽早判定多变量时间序列的类别，当多数(半数或以上)变量所确定的类别一致时，即可判定该待分类的Wafer数据的类别为多数变量所确定的类别；

(ii)基于规则的分类器，包括基于各变量的核特征集和指定的约束条件，产生规则集，每条规则由一个或者多个特征构成，但最多只包含各变量的一个核特征；基于规则集，预测多变量时间序列的类别。规则是由一个或者多个特征构成的(最多包含M个特征)，每个特征从Wafer数据的不同变量的核特征集中选取，规则中所有特征类别一致。如图1，从核特征集FS中运用现有的Apriori方法产生初始规则集R’，基于约束条件对初始规则集R’进行筛选，选择达到指定要求的分类规则集R，基于分类规则集R预测多变量时间序列的类别。

实施例对Wafer数据abnormal类别与normal类别的核特征集分别都执行下述过程：从核特征集FS中产生候选规则集R₁，R₂，...，R₆，R_i表示包含i个特征的候选规则的集合。从R₁至R₆遍历筛选规则，筛选方式为在Wafer训练集数据中计算候选规则的准确率与召回率，不满足预定值时，舍弃该候选规则，未被舍弃的候选规则将加入最终Wafer数据训练集训练出来的分类器规则集RS。对于待分类Wafer数据，在规则集RS中搜索覆盖此待分类Wafer数据的规则，即可判定该待分类的Wafer数据的类别。

具体实施时，本发明技术人员可以自行设计相应运行流程。为便于实施参考起见，提供建议建立规则的伪代码：

Algorithm 3:Rule Build

Input:Training data set D,Feature set FS

Output:Rule set RS

1.RS=Φ

2.Dividing FS into K subset F₁,F₂,...,F_K

3.For i=1 to K

4.Generating candidate rule set R₁,R₂,...,R_M according to F_i

5.For each r∈R_j

6.For each rule∈RS

7.If rule is a subset of r then

8.Reject r

9.End if

10.End for

11.Cal_Precision_Recall(r,D)

12.If Precision(r)>PRC && Recall(r)＞REC then

13.RS=RS U{r}

14.End if

15.End for

16.End for

17.Return RS

在建立规则过程中，各符号说明：Algorithm 3表示本发明的算法3，Rule Build为算法3的名称，即建立规则，Input、Output分别表示算法3的输入、输出，D表示多变量时间序列训练数据集，FS表示多变量时间序列通过算法2所提取的核特征集，RS表示多变量时间序列通过算法3建立的规则集。

算法流程：首先，将核特征集根据类别划分为K个集合F₁,F₂,...,F_K，其中K表示多变量时间序列的类别数目，见行2；然后，根据特征子集F_i产生候选规则集R₁,R₂,...,R_M，候选规则集R₁,R₂,...,R_M中任一采用R_j表示，见行4，并进行规则集的筛选，见行5~15；其中，规则的筛选过程为：先判断候选规则r是否已有子集规则rule作为最终规则，若有，由于r的子集规则能够分类任何规则r能分类的数据，则舍弃此规则r，继续判断候选规则集中下一规则，见行7~9；若无，再计算候选规则的Precision与Recall，具体实施时可以采用相应函数求取，实施例记为函数Cal_Precision_Recall(r,D)，见行11；对于Precision与Recall满足预定值的候选规则r，将其加入最终规则集RS，否则舍弃r，其中Precision(r)、Recall(r)分别表示候选规则r的准确率与召回率，PRC、REC分别表示准确率与召回率的预定值，见行12~14。

对于Wafer训练数据集中未知类别Wafer数据的预测前，为了减弱时间序列数据的缩放和偏移对度量其相似性的影响，同样需要对待预测Wafer数据进行规范化。然而由于要对Wafer数据实现早期分类，因此对于待预测Wafer数据的规范化采取局部规范化的方式实现，即将各变量时间序列中需要与核特征进行相似度度量的子序列采用z-score方法进行局部规范化。然后可分别采用步骤3中所述两种分类方法进行其类别的判定。

综上所述，本发明提出一种提取多变量时间序列核特征的有效方法。首先，为了能提取各个变量时间序列本质特性，我们对各变量时间序列分别进行特征提取；其次，对于各变量特征，采用聚类方法减少冗余特征并剔除噪音，提高分类的稳定性；再者，为提高分类的效率、精度和早期度，基于准确率、召回率和早期度等特性提出一种综合评价特征性能的方法，并选取每簇中的最优特征作为相应变量的核特征；最后，基于各变量的核特征，提出了两种简单且有效的分类器构造方法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于提取核特征早期预测多变量时间序列类别的分类方法，其特征在于，包括下列步骤：

步骤1中，某候选特征f的阈值δ获取方式为，求候选特征f与训练集数据中所有样本对应变量时间序列的相似度，对候选特征f与所有样本对应变量时间序列的相似度进行排序，按序取相邻两相似度的中点得到若干候选阈值，并基于F-measure方法根据准确率和召回率评价各候选阈值的性能，选取最优性能的候选阈值作为候选特征f的阈值δ；

步骤3，根据步骤2所得多变量时间序列的核特征集，分类预测检测数据集中多变量时间序列的类别；

步骤3进行分类采用基于多数投票原则的分类器，包括通过度量各变量的时间序列的与相应核特征集中特征的相似度，若某变量的时间序列与相应核特征集中的某一特征匹配成功，则该变量的时间序列类别为匹配特征的类别；若多数变量的时间序列类别一致，此类别即为多变量时间序列的类别；

2.根据权利要求1所述的基于提取核特征早期预测多变量时间序列类别的分类方法，其特征在于：步骤2在每个簇中选取性能最佳的特征为核特征时，评估某特征f的性能Quality(f)的函数如下，

Quality(f)＝1/(w₀/Earliness(f)+w₁/Precision(f)+w₂/Recall(f))，

其中w₀、w₁、w_2，分别表示早期度Earliness、准确率Precision、召回率Recall的权重。