CN106127229A - 一种基于时间序列类别的计算机数据分类方法 - Google Patents

一种基于时间序列类别的计算机数据分类方法 Download PDF

Info

Publication number
CN106127229A
CN106127229A CN201610427299.8A CN201610427299A CN106127229A CN 106127229 A CN106127229 A CN 106127229A CN 201610427299 A CN201610427299 A CN 201610427299A CN 106127229 A CN106127229 A CN 106127229A
Authority
CN
China
Prior art keywords
shapelet
time series
data
node
subsequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610427299.8A
Other languages
English (en)
Inventor
申富饶
杨毅
赵金熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201610427299.8A priority Critical patent/CN106127229A/zh
Publication of CN106127229A publication Critical patent/CN106127229A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于时间序列类别的计算机数据分类方法,包括:步骤1,生成搜索长度集合;步骤2,为每一个搜索长度生成所有时间序列的子序列,标准化所有子序列;步骤3,使用聚类算法得到Shapelet候选集合C;步骤4,使用候选集合C将所有时间序列转换到Shapelet表示,转换后的数据集合为T;步骤5,使用特征选取算法在数据集合T上选取特征,得到特征集合A,并训练得到分类器Cls;步骤6,对于特征集合A中的每一个特征,将其相应的候选Shapelet加入到Shapelet集合中;步骤7,使用Shapelet集合中的Shapelet对时间序列进行转换,使用分类器Cls对转换后的数据进行分类。

Description

一种基于时间序列类别的计算机数据分类方法
技术领域
本发明涉及时间序列的数据分析技巧,特别是涉及一种基于Shapelet时间序列类别的计算机数据分类方法。
背景技术
近年来,由于时间序列的大量出现在多媒体、医学、金融等应用领域,时间序列分析成为研究人员研究的一大热点。时间序列分类作为其中的一个重要分支,在国内外得到了广泛的研究。
在众多时间序列分析方法中,Ye L,Keogh E等人提出的时间序列Shapelet特征,提供了一个很好的解释性,并且保证了不错的性能。Shapelet特征为衡量两个时间序列的局部相似性提供了一种可能。两个时间序列若存在相似的局部形状,在一定程度上便可认为它们存在相似性,Shapelet特征正是衡量这一相似性的手段。文献:Ye L,Keogh E.Timeseries shapelets:a new primitive for data mining.Proceedings of the 15th ACMSIGKDD international conference on Knowledge discovery and data mining.ACM,2009:947-956.
Ye L,Keogh E等人在提出Shapelet特征时,是通过信息增益指标,在所有时间序列的子序列中递归的搜索信息增益最大的子序列作为Shapelet特征,同时构建决策树作为分类器。但由于时间序列的子序列太多,Shapelet的搜索非常慢,通常会配合加速算法,例如:剪枝、SAX、使用GPU加速等,但速度依然比较慢。另一方面,由于决策树是一种比较弱的分类器,使得Ye L,Keogh等人的算法在分类准确率上面效果一般。
为了克服Shapelet在准确率方面的瓶颈,Lines J等人特出通过其它的评价指标选取Shapelet,例如F-statistics、Kruskall-Wallis等统计指标。在选取完Shapelet之后,将时间序列转换到Shapelet空间表示,然后再训练SVM或其它强分类器。这种方法的确提高了分类性能,但速度依然慢,而且在选取Shapelet特征时,没有考虑Shapelet之间的关系。文献:Lines J,Davis L M,Hills J,et al.A shapelet transform for time seriesclassification.Proceedings of the 18th ACM SIGKDD international conference onKnowledge discovery and data mining.ACM,2012:289-297.
发明内容
发明目的:克服现有Shapelet算法中候选项太多的弱点,引入聚类算法,对候选项子序列进行聚类,大幅降低候选集合复杂度,以加速算法的运行。同时,在Shapelet的选择方面考虑Shapelet之间的关系,使用强分类器,在训练分类器的同时选择Shapelet,以提高分类性能。
为了解决上述技术问题,本发明公开了一种基于Shapelet特征学习的时间序列类别的计算机数据分类方法,该方法可以用于机器环境感知、视频流识别、web流量异常识别、地震监测等应用中,包括以下步骤:
步骤1,生成搜索长度集合;
步骤2,为每一个搜索长度,生成所有时间序列数据的子序列,子序列的长度为L2,并标准化所有子序列,标准化后的所有子序列组成集合S;
步骤3,利用集合S,训练一个SOINN神经网络,将训练好的神经网络的每一个节点,加入到Shapelet候选集合C中;
步骤4,使用Shapelet候选集合C,将所有时间序列转换到Shapelet表示,转换后的数据集合为T;
步骤5,使用特征选取算法,在数据集合T上选取特征,得到特征集合为A,同时训练得到分类器Cls;
步骤6,对于特征集合A中的每一个特征,将其相应的候选Shapelet加入到Shapelet集合中;
步骤7,预测时间序列的类别:使用Shapelet集合中的Shapelet对时间序列进行转换,然后使用分类器Cls对转换后的数据进行分类。
其中,SOINN神经网络是一种自组织增量神经网络,Shapelet是一种衡量两个时间序列数据局部相似性的特征。
步骤1中,设定最大搜索长度MaxLength,最小搜索长度MinLength和参数beta(取值范围为大于1的实数),令L=MaxLength,将L加入到搜索集合,然后除以beta,重复这一过程直至L小于MinLength。包括如下步骤:
步骤1-1,人工设定参数:最大搜索长度MaxLength,最小搜索长度MinLength和参数beta,跳转至步骤1-2;
步骤1-2,令L=MaxLength,若L<MinLength,则结束步骤1;否则将L加入到搜索长度集合中,跳转至步骤1-3;
步骤1-3,将L更新为L/beta,跳转至步骤1-2。
步骤2中,假设时间序列t的搜索长度为N,则其开始于位置e的长度为L2的子序列集合S为<t(e),t(e+1),…t(e+L2-1)>,采用z-标准化,将该子序列归一化为均值等于0,方差等于1,标准化的方法如下:
mean(S)=(S(1)+S(2)+…+S(L2))/L2,
std(S)=sqrt(((S(1)-mean(S))^2+(S(2)-mean(S))^2+…+(S(L2)-mean(S))^2)/L2),
S=<(S(1)-mean(S))/std(S),(S(2)-mean(S))/std(S),…,(S(L2)-mean(S))/std(S)>,
其中,mean(S)表示子序列集合S中所有数据的平均值,S(e)表示子序列集合S中位置e上的取值,std(S)表示子序列集合S中所有数据的标准差,sqrt表示开方运算。
步骤3中使用的聚类算法为SOINN自组织增量神经网络算法,SOINN神经网络由节点集合和边集合构成,每个节点都有一个权重、阈值和累积值,节点的阈值为该节点的邻居中离该节点最远的节点与该节点的距离,节点的权重为所有属于该节点的类别的数据的平均值,节点的累积值为属于该节点类别的数据的数量。
步骤4中,长度为N的时间序列t和长度为L2的Shapelet sp之间的距离为时间序列t的所有标准化后的长度为L2的子序列与sp的欧式距离中最小的一个,定义如下:
dist(sp,t)=minq EuclideanDistance(sp,S(t,L2,q)),
其中,S(t,L2,q)代表时间序列t起始于位置q的长度为L2的标准化后的子序列,EuclideanDistance代表欧式距离,minq代表位置q变动时后面式子的最小值,dist(sp,t)代表Shapelet sp和时间序列t之间的距离,sp表示一个Shapelet;
时间序列t在Shapelet空间中,对应属性上的属性值如下:
tran(sp,t)=exp(-dist(sp,t)/(sp.threshold*alpha);
其中alpha为设置的参数,dist(sp,t)为Shapelet sp和时间序列t之间的距离,exp为指数函数,sp.threshold为候选Shapelet sp在SOINN神经网络中对应节点的阈值,tran(sp,t)代表转化后的属性值,
给定K1个候选Shapelet<sp1,sp2,…,spK1>,时间序列t转化到Shapelet空间后的数据为:
<tran(sp1,t),tran(sp2,t),…,tran(spK1,t)>;
其中tran(spR,t)为表示时间序列t在Shapelet spR上的取值,R取值范围为1~K1,
根据上述方式将所有时间序列转换到Shapelet空间得到一个新的数据集合T。
步骤5中,使用L1正则化项作为特征选择算法,svm作为分类器,训练过程为最小化以下损失函数L(w):
L ( w ) = &Sigma; j = 1 k | w j | + C &Sigma; i = 1 n m a x ( 0 , 1 - y i w T x i ) 2
其中n为时间序列数量,k为候选Shapelet数量,w为svm的权重,wj为权重w第j维上的取值,wT为权重w的转置,xi为第i个时间序列转化到Shapelet空间后的数据,yi为第i个时间序列的类别,C为设置的参数,max(x,y)代表取x,y中的最大值,最小化L(w)后,得到的w即为svm分类器的权重。
步骤6中,使用步骤5中,训练的w,选择Shapelet,方法是:如果一个w在一个特征上的取值不为0,则将其对应的候选Shapelet加入到Shapelet集合中;否则将w在该特征上的取值全部删除。
步骤7中,对于一个新的时间序列,首先使用步骤6中选取的Shapelet集合,将时间序列数据转化到Shapelet空间,然后使用训练好的w对转化后的数据进行分类。对于二类问题,只训练一个w,分类时,若wTx1>0,输出正类,否则,输出负类;对于多类问题,对于每一个类别,训练一个w,分类时,输出wTx1最大的类别,x1表示转化后的数据。
有益效果:本发明的显著优点是大大降低了Shapelet候选项的数量,大幅缩短了算法的运行时间,同时,提高了Shapelet的质量。由于选取Shapelet时,考虑了Shapelet之间的关系,同时使用了强分类器,大大提高了分类器的准确率,从而提升了算法性能。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为本发明学习Shapelet的流程图。
图2为本发明生成搜索长度的流程图。
图3为本发明中SOINN神经网络训练的流程图。
图4为本发明在28个时间序列数据集上进行实例验证时的分类准确率。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚明晰,本章结合附图对发明做更近一步的详细描述。
图1是本发明的学习Shapelet流程图,包括6个步骤。
步骤1中,设定最大搜索长度MaxLength,最小搜索长度MinLength和参数beta(取值范围为大于1的实数),令L=MaxLength,将L加入到搜索集合,然后除以beta,重复这一过程直至L小于MinLength。这一过程流程图见图2,包括如下步骤:
步骤1-1,人工设定参数:最大搜索长度MaxLength,最小搜索长度MinLength和参数beta,跳转至步骤1-2;
步骤1-2,令L=MaxLength,若L<MinLength,则结束步骤1;否则将L加入到搜索长度集合中,跳转至步骤1-3;
步骤1-3,将L更新为L/beta,跳转至步骤1-2。
在第二个步骤中,生成所有时间序列的子序列。子序列的定义为:
给定一个长度L,长度为N的时间序列t=<t(1),t(2),…,t(N)>,起始点q,那么t的起始于q的长度为L的子序列S(t,L,q)=<t(q),t(q+1),…,t(q+L-1)>,其中1<=q<=N-L+1。t的所有长度为L的子序列组成的集合为:S(t,L)={S(t,L,1),S(t,L,2),…,S(t,L,N-L+1)}。对于每个子序列,都将其标准化,标准化的方法为:
mean(S)=(S(1)+S(2)+…+S(L))/L;
std(S)=sqrt(((S(1)-mean(S))^2+(S(2)-mean(S))^2+…+(S(L)-mean(S))^2)/L);
S=<(S(1)-mean(S))/std(S),(S(2)-mean(S))/std(S),…,(S(L)-mean(S))/std(S)>。
对于每一个长度L,为所有子序列,生成所有长度为L的子序列,并标准化。
在第三个步骤中,对于每一个搜索长度L,使用步骤二中得到的长度为L的子序列,训练一个SOINN神经网络,将神经网络的每一个节点,看作一个候选Shapelet。其中SOINN神经网络的训练流程图见图3。
SOINN神经网络为一个单层神经网络,采用竞争学习规则,采用在线学习算法,每次输入一个数据,神经网络自动学出输入数据的结构,并生成能够代表整个数据集的代表点。
SOINN神经网络由节点集合和边集合构成。每个节点都有一个权重,阈值,和累积值。节点的阈值为该节点的邻居中,离该节点最远的节点与该节点的距离。节点的权重为所有属于该节点的类别的数据的平均值。节点的累积值为属于该节点类别的数据的数量。SOINN神经网络初始化时,使用前两个数据初始化两个节点,它们之间初始化为无连接,权重为各自的数据。之后每次输入一个数据x,首先搜索离x最近的两个节点,记为第一获胜节点和第二获胜节点。若x与第一获胜节点的距离大于第一获胜节点的阈值,或x与第二获胜节点的距离小于第二获胜节点的阈值,则使用x创建一个新的节点,否则执行获胜节点更新:若两个获胜节点无边,则连接它们;接着,设置两个节点的边为新边(年龄为1);更新第一获胜节点的阈值,累积值;将第一获胜节点与其它邻居的连接的年龄加1;更新第二节点的阈值;每lamda个数据,对神经网络进行一次除燥,删除孤立的且累积值小于平均累积值的节点,和只有一个邻居并且累积值小于c倍平均值累积值的节点。
在第四个步骤中,将每个时间序列转化为Shapelet空间表示。给定一个长度为N的时间序列t和一个长度为L的Shapelet sp,它们之间的距离为T的所有标准化后的长度为L的子序列中,欧式距离与S最短的子序列与S的欧式距离,定义为
dist(sp,t)=minq EuclideanDistance(sp,S(t,L,q));
其中,S(t,L,q)代表时间序列t起始于位置q的长度为L的标准化后的子序列,EuclideanDistance代表欧式距离,minq代表q变动时后面式子的最小值。dist(sp,t)代表Shapelet sp和时间序列t之间的距离。
给定Shapelet sp时间序列t在Shapelet空间中,对应属性上的属性值为:
tran(sp,t)=exp(-dist(sp,t)/(sp.threshold*alpha);
其中alpha为人工定义的参数,dist(sp,t)为sp和t之间的距离,exp为指数函数,sp.threshold为候选Shapelet sp在SOINN神经网络中对应节点的阈值,tran(sp,t)代表转化后的属性值。
给定K个候选Shapelet<sp1,sp2,…,spK>,时间序列t转化到Shapelet空间后的数据为:
<tran(sp1,t),tran(sp2,t),…,tran(spK,t)>;
将所有时间序列转换到Shapelet空间得到一个新的数据集。
在第五个步骤中,使用带L1正则化项的L2损失函数形式的SVM作为分类器,在转换到Shapelet空间上的数据集上训练。由于L1正则化项能够产生稀疏解,可以删除那些权重全为0的属性,剩下的属性被选择出来。训练过程为最小化以下损失函数:
L ( w ) = &Sigma; j = 1 k | w j | + C &Sigma; i = 1 n m a x ( 0 , 1 - y i w T x i ) 2
其中n为时间序列数量,k为候选Shapelet数量,w为svm的权重,wj为w第j维上的取值,wT为w的转置,xi为第i个时间序列转化到Shapelet空间后的数据,yi为第i个时间序列的类别,C为人工定义的参数,max(x,y)代表取x,y中的最大值,L(w)为损失函数。最小化L(w)的方法很多,有牛顿法、随机梯度下降和LBFGS等。本发明使用的是LBFGS算法。
在第6个步骤中,对于每一个候选Shapelet,若其对应的属性,在第五个步骤中,被选择下来,则该候选Shapelet被选出。
训练好模型后,在对新的时间序列进行预测时,使用选出的Shapelet,对新的时间序列进行转换,得到Shapelet空间的数据,然后使用训练好的svm对转换后的数据进行预测。
实施例
为了验证模型的有效性,在28个时间序列的数据集上进行实例验证。每一个数据集包含一个训练集和测试集。对每一个数据集,使用其训练集合中的时间序列,按照图1所示的6个步骤学习Shapelet,同时训练svm分类器,然后使用训练好的Shapelet和分类器预测测试集合中的时间序列,并计算分类准确率。
以这28个数据集中的SonyAIBORobotSurface数据集为例,该数据集由是Sony公司AIBO机器人的X轴的加速度计读数测量的地表数据构成。包含两类数据,分别对应地毯和水泥上测得的数据。该数据的训练集中包含20个时间序列,测试集中包含601个时间序列。利用训练集中的20条时间序列,按照以下步骤学习Shapelet和训练分类器:
1、设定最长长度和最短长度,在这个数据集合上均设定为25,使用图2的方法,生成所有搜索长度,本例中搜索长度只有一个,为25。
2、为每个搜索长度,生成训练集中20个时间序列的所有长度为L的子序列,并标准化它们,得到子序列集合。
3、为每个搜索长度,使用其对应的子序列集合训练一个SOINN神经网络,将训练好的网络中的节点对应的子序列,加入到候选集中,候选集中的每一个子序列都为一个候选Shapelet。
4、使用候选集中的候选Shapelet,将训练集中的20个时间序列转换到Shapelet空间。
5、使用转换后的20个时间序列的数据,训练一个带L1正则化项的svm分类器,并进行属性选择。
6、对于每一个候选Shapelet,若其对应的属性,在步骤5中,被选择下来,则该候选Shapelet被选出。
最终学习得到了16个Shapelet,并训练了一个svm分类器。使用这16个Shapelet,对测试集中601个时间序列进行特征转换,然后使用训练好的svm分类器对转换后的序列进行类别预测,结果达到了97%的正确率,好于LTS,Shapelet Tree等同类方法。在训练时间上,本发明只需要0.02秒,而LTS需要11.415秒,Shaplet Tree需要6.13秒。所以本发明用于这一机器人环境感知的应用时,具备训练时间短、预测准确率高的优点。
图4列出了本发明与其他10种算法在28个数据集上的分类准确率,其中,表的第一行列出了不同的方法,本发明方法为LCS,其余的每一行列出了所有方法在某个数据集合上的分类准确率。结果显示,本发明在分类准确率方面具有优异的表现,平均准确率排名仅略微低于LTS,但是本发明LCS在28个数据集上的训练时间平均比LTS快60.28倍。由于本发明使用了soinn神经网络对时间子序列进行聚类,极大程度上减少了候选集的大小,因此大大缩短了训练时间。另一方面,聚类中心是多个时间子序列的平均,能够更好的代表一个时间序列类别,因此提供了更好的Shapelet候选项,进而提高了分类准确率。
本发明提供了一种基于时间序列类别的计算机数据分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (8)

1.一种基于时间序列类别的计算机数据分类方法,其特征在于,包括如下步骤:
步骤1,生成搜索长度集合;
步骤2,为每一个搜索长度,生成所有时间序列数据的子序列,子序列的长度为L2,并标准化所有子序列,标准化后的所有子序列组成集合S;
步骤3,利用集合S,训练一个SOINN神经网络,将训练好的神经网络的每一个节点,加入到Shapelet候选集合C中;
步骤4,使用Shapelet候选集合C,将所有时间序列转换到Shapelet表示,转换后的数据集合为T;
步骤5,使用特征选取算法,在数据集合T上选取特征,得到特征集合为A,同时训练得到分类器Cls;
步骤6,对于特征集合A中的每一个特征,将其相应的候选Shapelet加入到Shapelet集合中;
步骤7,预测时间序列的类别:使用Shapelet集合中的Shapelet对时间序列进行转换,然后使用分类器Cls对转换后的数据进行分类。
2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:
步骤1-1,人工设定参数:最大搜索长度MaxLength,最小搜索长度MinLength和参数beta,跳转至步骤1-2;
步骤1-2,令L=MaxLength,若L<MinLength,则结束步骤1;否则将L加入到搜索长度集合中,跳转至步骤1-3;
步骤1-3,将L更新为L/beta,跳转至步骤1-2。
3.根据权利要求2所述的方法,其特征在于,步骤2中,假设时间序列t的搜索长度为N,则其开始于位置e的长度为L2的子序列集合S为<t(e),t(e+1),…t(e+L2-1)>,采用z-标准化,将该子序列归一化为均值等于0,方差等于1,标准化的方法如下:
mean(S)=(S(1)+S(2)+…+S(L2))/L2,
std(S)=sqrt(((S(1)-mean(S))^2+(S(2)-mean(S))^2+…+(S(L2)-mean(S))^2)/L2),
S=<(S(1)-mean(S))/std(S),(S(2)-mean(S))/std(S),…,(S(L2)-mean(S))/std(S)>,
其中,mean(S)表示子序列集合S中所有数据的平均值,S(e)表示子序列集合S中位置e上的取值,std(S)表示子序列集合S中所有数据的标准差,sqrt表示开方运算。
4.根据权利要求3所述的方法,其特征在于,步骤3中使用的聚类算法为SOINN自组织增量神经网络算法,SOINN神经网络由节点集合和边集合构成,每个节点都有一个权重、阈值和累积值,节点的阈值为该节点的邻居中离该节点最远的节点与该节点的距离,节点的权重为所有属于该节点的类别的数据的平均值,节点的累积值为属于该节点类别的数据的数量。
5.根据权利要求4所述的方法,其特征在于,步骤4中,长度为N的时间序列t和长度为L2的Shapelet sp之间的距离为时间序列t的所有标准化后的长度为L2的子序列与sp的欧式距离中最小的一个,定义如下:
dist(sp,t)=minqEuclideanDistance(sp,S(t,L2,q)),
其中,S(T,L2,q)代表时间序列t起始于位置q的长度为L2的标准化后的子序列,EuclideanDistance代表欧式距离,minq代表位置q变动时后面式子的最小值,dist(sp,t)代表Shapelet sp和时间序列t之间的距离,sp表示一个Shapelet;
时间序列t在Shapelet空间中,对应属性上的属性值如下:
tran(sp,t)=exp(-dist(sp,t)/(sp.threshold*alpha);
其中alpha为设置的参数,dist(sp,t)为Shapelet sp和时间序列t之间的距离,exp为指数函数,sp.threshold为候选Shapelet sp在SOINN神经网络中对应节点的阈值,tran(sp,t)代表转化后的属性值,
给定K1个候选Shapelet<sp1,sp2,…,spK1>,时间序列t转化到Shapelet空间后的数据为:
<tran(sp1,t),tran(sp2,t),…,tran(spK1,t)>;
其中tran(spR,t)为表示时间序列t在Shapelet spR上的取值,R取值范围为1~K1,
根据上述方式将所有时间序列转换到Shapelet空间得到一个新的数据集合T。
6.根据权利要求5所述的方法,其特征在于,步骤5中,使用L1正则化项作为特征选择算法,svm作为分类器,训练过程为最小化以下损失函数L(w):
L ( w ) = &Sigma; j = 1 k | w j | + C &Sigma; i = 1 n m a x ( 0 , 1 - y i w T x i ) 2
其中n为时间序列数量,k为候选Shapelet数量,w为svm的权重,wj为权重w第j维上的取值,wT为权重w的转置,xi为第i个时间序列转化到Shapelet空间后的数据,yi为第i个时间序列的类别,C为设置的参数,max(x,y)代表取x,y中的最大值,最小化L(w)后,得到的w即为svm分类器的权重。
7.根据权利要求6所述的方法,其特征在于,步骤6中,使用步骤5中训练的w,选择Shapelet:如果一个w在一个特征上的取值不为0,则将其对应的候选Shapelet加入到Shapelet集合中;否则将w在该特征上的取值全部删除。
8.根据权利要求7所述的方法,其特征在于,步骤7中,对于一个新的时间序列,首先使用步骤6中选取的Shapelet集合,将时间序列数据转化到Shapelet空间,然后使用训练好的w对转化后的数据进行分类:对于二类问题,只训练一个w,分类时,若wTx1>0,输出正类,否则,输出负类;对于多类问题,对于每一个类别,训练一个w,分类时,输出wTx1最大的类别,x1表示转化后的数据。
CN201610427299.8A 2016-06-16 2016-06-16 一种基于时间序列类别的计算机数据分类方法 Pending CN106127229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610427299.8A CN106127229A (zh) 2016-06-16 2016-06-16 一种基于时间序列类别的计算机数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610427299.8A CN106127229A (zh) 2016-06-16 2016-06-16 一种基于时间序列类别的计算机数据分类方法

Publications (1)

Publication Number Publication Date
CN106127229A true CN106127229A (zh) 2016-11-16

Family

ID=57470447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610427299.8A Pending CN106127229A (zh) 2016-06-16 2016-06-16 一种基于时间序列类别的计算机数据分类方法

Country Status (1)

Country Link
CN (1) CN106127229A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614904A (zh) * 2018-12-03 2019-04-12 东北大学 一种基于Shapelet的多传感器融合的活动识别方法
CN109829470A (zh) * 2017-11-23 2019-05-31 罗伯特·博世有限公司 用于确定异常的方法、装置和计算机程序
CN109902703A (zh) * 2018-09-03 2019-06-18 华为技术有限公司 一种时间序列异常检测方法及装置
CN110019421A (zh) * 2018-07-27 2019-07-16 山东大学 一种基于数据特征片段的时间序列数据分类方法
CN110032495A (zh) * 2019-03-28 2019-07-19 阿里巴巴集团控股有限公司 数据异常检测方法和装置
CN111433766A (zh) * 2017-12-29 2020-07-17 三星电子株式会社 用于对时间序列数据进行分类的方法和系统
CN112580595A (zh) * 2020-12-30 2021-03-30 江西省农业科学院农业工程研究所 一种基于Shapelet的双季稻田遥感识别方法
JP2021149652A (ja) * 2020-03-19 2021-09-27 株式会社東芝 情報処理装置、情報処理方法及びプログラム
CN113988161A (zh) * 2021-10-15 2022-01-28 贵州大学 一种用户用电行为模式识别方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829470A (zh) * 2017-11-23 2019-05-31 罗伯特·博世有限公司 用于确定异常的方法、装置和计算机程序
CN111433766A (zh) * 2017-12-29 2020-07-17 三星电子株式会社 用于对时间序列数据进行分类的方法和系统
CN110019421A (zh) * 2018-07-27 2019-07-16 山东大学 一种基于数据特征片段的时间序列数据分类方法
CN110019421B (zh) * 2018-07-27 2023-09-01 山东大学 一种基于数据特征片段的时间序列数据分类方法
CN109902703A (zh) * 2018-09-03 2019-06-18 华为技术有限公司 一种时间序列异常检测方法及装置
CN109614904A (zh) * 2018-12-03 2019-04-12 东北大学 一种基于Shapelet的多传感器融合的活动识别方法
CN110032495A (zh) * 2019-03-28 2019-07-19 阿里巴巴集团控股有限公司 数据异常检测方法和装置
CN110032495B (zh) * 2019-03-28 2023-08-25 创新先进技术有限公司 数据异常检测方法和装置
JP7132263B2 (ja) 2020-03-19 2022-09-06 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP2021149652A (ja) * 2020-03-19 2021-09-27 株式会社東芝 情報処理装置、情報処理方法及びプログラム
CN112580595A (zh) * 2020-12-30 2021-03-30 江西省农业科学院农业工程研究所 一种基于Shapelet的双季稻田遥感识别方法
CN112580595B (zh) * 2020-12-30 2024-06-21 江西省农业科学院农业工程研究所 一种基于Shapelet的双季稻田遥感识别方法
CN113988161B (zh) * 2021-10-15 2022-08-19 贵州大学 一种用户用电行为模式识别方法
CN113988161A (zh) * 2021-10-15 2022-01-28 贵州大学 一种用户用电行为模式识别方法

Similar Documents

Publication Publication Date Title
CN106127229A (zh) 一种基于时间序列类别的计算机数据分类方法
CN109508812B (zh) 一种基于深度记忆网络的航空器航迹预测方法
CN107273490B (zh) 一种基于知识图谱的组合错题推荐方法
CN106779087B (zh) 一种通用机器学习数据分析平台
CN107220734A (zh) 基于决策树的数控车床车削过程能耗预测系统
CN109492765A (zh) 一种基于迁移模型的图像增量学习方法
CN105138849B (zh) 一种基于ap聚类的无功电压控制分区方法
CN107016464B (zh) 基于动态贝叶斯网络的威胁估计方法
CN106874963B (zh) 一种基于大数据技术的配电网故障诊断方法及系统
CN104155574A (zh) 基于自适应神经模糊推理系统的配电网故障分类方法
CN105335752A (zh) 一种基于主成分分析多变量决策树的接线方式识别方法
CN103838836A (zh) 基于判别式多模态深度置信网多模态数据融合方法和系统
CN102063642A (zh) 基于主动学习的模糊神经网络样本选择方法
CN103116766A (zh) 一种基于增量神经网络和子图编码的图像分类方法
CN103324954A (zh) 一种基于树结构的图像分类方法及其系统
Zhang et al. Oracle character recognition by nearest neighbor classification with deep metric learning
CN112000689B (zh) 一种基于文本分析的多知识图谱融合方法
CN110263979A (zh) 基于强化学习模型预测样本标签的方法及装置
CN103886030B (zh) 基于代价敏感决策树的信息物理融合系统数据分类方法
CN114925238B (zh) 一种基于联邦学习的视频片段检索方法及系统
CN110674326A (zh) 一种基于多项式分布学习的神经网络结构检索方法
CN107679484A (zh) 一种基于云计算存储的遥感图像目标自动检测与识别方法
CN103559542A (zh) 基于先验知识的可拓神经网络模式识别方法
CN112541584A (zh) 深度神经网络模型并行模式选择方法
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161116

RJ01 Rejection of invention patent application after publication