CN106127229A - 一种基于时间序列类别的计算机数据分类方法 - Google Patents
一种基于时间序列类别的计算机数据分类方法 Download PDFInfo
- Publication number
- CN106127229A CN106127229A CN201610427299.8A CN201610427299A CN106127229A CN 106127229 A CN106127229 A CN 106127229A CN 201610427299 A CN201610427299 A CN 201610427299A CN 106127229 A CN106127229 A CN 106127229A
- Authority
- CN
- China
- Prior art keywords
- shapelet
- time series
- data
- node
- subsequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000001932 seasonal effect Effects 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 230000007935 neutral effect Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 101150087667 spk1 gene Proteins 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 3
- 241001269238 Data Species 0.000 claims description 2
- 238000010187 selection method Methods 0.000 claims 1
- 230000008859 change Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于时间序列类别的计算机数据分类方法,包括:步骤1,生成搜索长度集合;步骤2,为每一个搜索长度生成所有时间序列的子序列,标准化所有子序列;步骤3,使用聚类算法得到Shapelet候选集合C;步骤4,使用候选集合C将所有时间序列转换到Shapelet表示,转换后的数据集合为T;步骤5,使用特征选取算法在数据集合T上选取特征,得到特征集合A,并训练得到分类器Cls;步骤6,对于特征集合A中的每一个特征,将其相应的候选Shapelet加入到Shapelet集合中;步骤7,使用Shapelet集合中的Shapelet对时间序列进行转换,使用分类器Cls对转换后的数据进行分类。
Description
技术领域
本发明涉及时间序列的数据分析技巧,特别是涉及一种基于Shapelet时间序列类别的计算机数据分类方法。
背景技术
近年来,由于时间序列的大量出现在多媒体、医学、金融等应用领域,时间序列分析成为研究人员研究的一大热点。时间序列分类作为其中的一个重要分支,在国内外得到了广泛的研究。
在众多时间序列分析方法中,Ye L,Keogh E等人提出的时间序列Shapelet特征,提供了一个很好的解释性,并且保证了不错的性能。Shapelet特征为衡量两个时间序列的局部相似性提供了一种可能。两个时间序列若存在相似的局部形状,在一定程度上便可认为它们存在相似性,Shapelet特征正是衡量这一相似性的手段。文献:Ye L,Keogh E.Timeseries shapelets:a new primitive for data mining.Proceedings of the 15th ACMSIGKDD international conference on Knowledge discovery and data mining.ACM,2009:947-956.
Ye L,Keogh E等人在提出Shapelet特征时,是通过信息增益指标,在所有时间序列的子序列中递归的搜索信息增益最大的子序列作为Shapelet特征,同时构建决策树作为分类器。但由于时间序列的子序列太多,Shapelet的搜索非常慢,通常会配合加速算法,例如:剪枝、SAX、使用GPU加速等,但速度依然比较慢。另一方面,由于决策树是一种比较弱的分类器,使得Ye L,Keogh等人的算法在分类准确率上面效果一般。
为了克服Shapelet在准确率方面的瓶颈,Lines J等人特出通过其它的评价指标选取Shapelet,例如F-statistics、Kruskall-Wallis等统计指标。在选取完Shapelet之后,将时间序列转换到Shapelet空间表示,然后再训练SVM或其它强分类器。这种方法的确提高了分类性能,但速度依然慢,而且在选取Shapelet特征时,没有考虑Shapelet之间的关系。文献:Lines J,Davis L M,Hills J,et al.A shapelet transform for time seriesclassification.Proceedings of the 18th ACM SIGKDD international conference onKnowledge discovery and data mining.ACM,2012:289-297.
发明内容
发明目的:克服现有Shapelet算法中候选项太多的弱点,引入聚类算法,对候选项子序列进行聚类,大幅降低候选集合复杂度,以加速算法的运行。同时,在Shapelet的选择方面考虑Shapelet之间的关系,使用强分类器,在训练分类器的同时选择Shapelet,以提高分类性能。
为了解决上述技术问题,本发明公开了一种基于Shapelet特征学习的时间序列类别的计算机数据分类方法,该方法可以用于机器环境感知、视频流识别、web流量异常识别、地震监测等应用中,包括以下步骤:
步骤1,生成搜索长度集合;
步骤2,为每一个搜索长度,生成所有时间序列数据的子序列,子序列的长度为L2,并标准化所有子序列,标准化后的所有子序列组成集合S;
步骤3,利用集合S,训练一个SOINN神经网络,将训练好的神经网络的每一个节点,加入到Shapelet候选集合C中;
步骤4,使用Shapelet候选集合C,将所有时间序列转换到Shapelet表示,转换后的数据集合为T;
步骤5,使用特征选取算法,在数据集合T上选取特征,得到特征集合为A,同时训练得到分类器Cls;
步骤6,对于特征集合A中的每一个特征,将其相应的候选Shapelet加入到Shapelet集合中;
步骤7,预测时间序列的类别:使用Shapelet集合中的Shapelet对时间序列进行转换,然后使用分类器Cls对转换后的数据进行分类。
其中,SOINN神经网络是一种自组织增量神经网络,Shapelet是一种衡量两个时间序列数据局部相似性的特征。
步骤1中,设定最大搜索长度MaxLength,最小搜索长度MinLength和参数beta(取值范围为大于1的实数),令L=MaxLength,将L加入到搜索集合,然后除以beta,重复这一过程直至L小于MinLength。包括如下步骤:
步骤1-1,人工设定参数:最大搜索长度MaxLength,最小搜索长度MinLength和参数beta,跳转至步骤1-2;
步骤1-2,令L=MaxLength,若L<MinLength,则结束步骤1;否则将L加入到搜索长度集合中,跳转至步骤1-3;
步骤1-3,将L更新为L/beta,跳转至步骤1-2。
步骤2中,假设时间序列t的搜索长度为N,则其开始于位置e的长度为L2的子序列集合S为<t(e),t(e+1),…t(e+L2-1)>,采用z-标准化,将该子序列归一化为均值等于0,方差等于1,标准化的方法如下:
mean(S)=(S(1)+S(2)+…+S(L2))/L2,
std(S)=sqrt(((S(1)-mean(S))^2+(S(2)-mean(S))^2+…+(S(L2)-mean(S))^2)/L2),
S=<(S(1)-mean(S))/std(S),(S(2)-mean(S))/std(S),…,(S(L2)-mean(S))/std(S)>,
其中,mean(S)表示子序列集合S中所有数据的平均值,S(e)表示子序列集合S中位置e上的取值,std(S)表示子序列集合S中所有数据的标准差,sqrt表示开方运算。
步骤3中使用的聚类算法为SOINN自组织增量神经网络算法,SOINN神经网络由节点集合和边集合构成,每个节点都有一个权重、阈值和累积值,节点的阈值为该节点的邻居中离该节点最远的节点与该节点的距离,节点的权重为所有属于该节点的类别的数据的平均值,节点的累积值为属于该节点类别的数据的数量。
步骤4中,长度为N的时间序列t和长度为L2的Shapelet sp之间的距离为时间序列t的所有标准化后的长度为L2的子序列与sp的欧式距离中最小的一个,定义如下:
dist(sp,t)=minq EuclideanDistance(sp,S(t,L2,q)),
其中,S(t,L2,q)代表时间序列t起始于位置q的长度为L2的标准化后的子序列,EuclideanDistance代表欧式距离,minq代表位置q变动时后面式子的最小值,dist(sp,t)代表Shapelet sp和时间序列t之间的距离,sp表示一个Shapelet;
时间序列t在Shapelet空间中,对应属性上的属性值如下:
tran(sp,t)=exp(-dist(sp,t)/(sp.threshold*alpha);
其中alpha为设置的参数,dist(sp,t)为Shapelet sp和时间序列t之间的距离,exp为指数函数,sp.threshold为候选Shapelet sp在SOINN神经网络中对应节点的阈值,tran(sp,t)代表转化后的属性值,
给定K1个候选Shapelet<sp1,sp2,…,spK1>,时间序列t转化到Shapelet空间后的数据为:
<tran(sp1,t),tran(sp2,t),…,tran(spK1,t)>;
其中tran(spR,t)为表示时间序列t在Shapelet spR上的取值,R取值范围为1~K1,
根据上述方式将所有时间序列转换到Shapelet空间得到一个新的数据集合T。
步骤5中,使用L1正则化项作为特征选择算法,svm作为分类器,训练过程为最小化以下损失函数L(w):
其中n为时间序列数量,k为候选Shapelet数量,w为svm的权重,wj为权重w第j维上的取值,wT为权重w的转置,xi为第i个时间序列转化到Shapelet空间后的数据,yi为第i个时间序列的类别,C为设置的参数,max(x,y)代表取x,y中的最大值,最小化L(w)后,得到的w即为svm分类器的权重。
步骤6中,使用步骤5中,训练的w,选择Shapelet,方法是:如果一个w在一个特征上的取值不为0,则将其对应的候选Shapelet加入到Shapelet集合中;否则将w在该特征上的取值全部删除。
步骤7中,对于一个新的时间序列,首先使用步骤6中选取的Shapelet集合,将时间序列数据转化到Shapelet空间,然后使用训练好的w对转化后的数据进行分类。对于二类问题,只训练一个w,分类时,若wTx1>0,输出正类,否则,输出负类;对于多类问题,对于每一个类别,训练一个w,分类时,输出wTx1最大的类别,x1表示转化后的数据。
有益效果:本发明的显著优点是大大降低了Shapelet候选项的数量,大幅缩短了算法的运行时间,同时,提高了Shapelet的质量。由于选取Shapelet时,考虑了Shapelet之间的关系,同时使用了强分类器,大大提高了分类器的准确率,从而提升了算法性能。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为本发明学习Shapelet的流程图。
图2为本发明生成搜索长度的流程图。
图3为本发明中SOINN神经网络训练的流程图。
图4为本发明在28个时间序列数据集上进行实例验证时的分类准确率。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚明晰,本章结合附图对发明做更近一步的详细描述。
图1是本发明的学习Shapelet流程图,包括6个步骤。
步骤1中,设定最大搜索长度MaxLength,最小搜索长度MinLength和参数beta(取值范围为大于1的实数),令L=MaxLength,将L加入到搜索集合,然后除以beta,重复这一过程直至L小于MinLength。这一过程流程图见图2,包括如下步骤:
步骤1-1,人工设定参数:最大搜索长度MaxLength,最小搜索长度MinLength和参数beta,跳转至步骤1-2;
步骤1-2,令L=MaxLength,若L<MinLength,则结束步骤1;否则将L加入到搜索长度集合中,跳转至步骤1-3;
步骤1-3,将L更新为L/beta,跳转至步骤1-2。
在第二个步骤中,生成所有时间序列的子序列。子序列的定义为:
给定一个长度L,长度为N的时间序列t=<t(1),t(2),…,t(N)>,起始点q,那么t的起始于q的长度为L的子序列S(t,L,q)=<t(q),t(q+1),…,t(q+L-1)>,其中1<=q<=N-L+1。t的所有长度为L的子序列组成的集合为:S(t,L)={S(t,L,1),S(t,L,2),…,S(t,L,N-L+1)}。对于每个子序列,都将其标准化,标准化的方法为:
mean(S)=(S(1)+S(2)+…+S(L))/L;
std(S)=sqrt(((S(1)-mean(S))^2+(S(2)-mean(S))^2+…+(S(L)-mean(S))^2)/L);
S=<(S(1)-mean(S))/std(S),(S(2)-mean(S))/std(S),…,(S(L)-mean(S))/std(S)>。
对于每一个长度L,为所有子序列,生成所有长度为L的子序列,并标准化。
在第三个步骤中,对于每一个搜索长度L,使用步骤二中得到的长度为L的子序列,训练一个SOINN神经网络,将神经网络的每一个节点,看作一个候选Shapelet。其中SOINN神经网络的训练流程图见图3。
SOINN神经网络为一个单层神经网络,采用竞争学习规则,采用在线学习算法,每次输入一个数据,神经网络自动学出输入数据的结构,并生成能够代表整个数据集的代表点。
SOINN神经网络由节点集合和边集合构成。每个节点都有一个权重,阈值,和累积值。节点的阈值为该节点的邻居中,离该节点最远的节点与该节点的距离。节点的权重为所有属于该节点的类别的数据的平均值。节点的累积值为属于该节点类别的数据的数量。SOINN神经网络初始化时,使用前两个数据初始化两个节点,它们之间初始化为无连接,权重为各自的数据。之后每次输入一个数据x,首先搜索离x最近的两个节点,记为第一获胜节点和第二获胜节点。若x与第一获胜节点的距离大于第一获胜节点的阈值,或x与第二获胜节点的距离小于第二获胜节点的阈值,则使用x创建一个新的节点,否则执行获胜节点更新:若两个获胜节点无边,则连接它们;接着,设置两个节点的边为新边(年龄为1);更新第一获胜节点的阈值,累积值;将第一获胜节点与其它邻居的连接的年龄加1;更新第二节点的阈值;每lamda个数据,对神经网络进行一次除燥,删除孤立的且累积值小于平均累积值的节点,和只有一个邻居并且累积值小于c倍平均值累积值的节点。
在第四个步骤中,将每个时间序列转化为Shapelet空间表示。给定一个长度为N的时间序列t和一个长度为L的Shapelet sp,它们之间的距离为T的所有标准化后的长度为L的子序列中,欧式距离与S最短的子序列与S的欧式距离,定义为
dist(sp,t)=minq EuclideanDistance(sp,S(t,L,q));
其中,S(t,L,q)代表时间序列t起始于位置q的长度为L的标准化后的子序列,EuclideanDistance代表欧式距离,minq代表q变动时后面式子的最小值。dist(sp,t)代表Shapelet sp和时间序列t之间的距离。
给定Shapelet sp时间序列t在Shapelet空间中,对应属性上的属性值为:
tran(sp,t)=exp(-dist(sp,t)/(sp.threshold*alpha);
其中alpha为人工定义的参数,dist(sp,t)为sp和t之间的距离,exp为指数函数,sp.threshold为候选Shapelet sp在SOINN神经网络中对应节点的阈值,tran(sp,t)代表转化后的属性值。
给定K个候选Shapelet<sp1,sp2,…,spK>,时间序列t转化到Shapelet空间后的数据为:
<tran(sp1,t),tran(sp2,t),…,tran(spK,t)>;
将所有时间序列转换到Shapelet空间得到一个新的数据集。
在第五个步骤中,使用带L1正则化项的L2损失函数形式的SVM作为分类器,在转换到Shapelet空间上的数据集上训练。由于L1正则化项能够产生稀疏解,可以删除那些权重全为0的属性,剩下的属性被选择出来。训练过程为最小化以下损失函数:
其中n为时间序列数量,k为候选Shapelet数量,w为svm的权重,wj为w第j维上的取值,wT为w的转置,xi为第i个时间序列转化到Shapelet空间后的数据,yi为第i个时间序列的类别,C为人工定义的参数,max(x,y)代表取x,y中的最大值,L(w)为损失函数。最小化L(w)的方法很多,有牛顿法、随机梯度下降和LBFGS等。本发明使用的是LBFGS算法。
在第6个步骤中,对于每一个候选Shapelet,若其对应的属性,在第五个步骤中,被选择下来,则该候选Shapelet被选出。
训练好模型后,在对新的时间序列进行预测时,使用选出的Shapelet,对新的时间序列进行转换,得到Shapelet空间的数据,然后使用训练好的svm对转换后的数据进行预测。
实施例
为了验证模型的有效性,在28个时间序列的数据集上进行实例验证。每一个数据集包含一个训练集和测试集。对每一个数据集,使用其训练集合中的时间序列,按照图1所示的6个步骤学习Shapelet,同时训练svm分类器,然后使用训练好的Shapelet和分类器预测测试集合中的时间序列,并计算分类准确率。
以这28个数据集中的SonyAIBORobotSurface数据集为例,该数据集由是Sony公司AIBO机器人的X轴的加速度计读数测量的地表数据构成。包含两类数据,分别对应地毯和水泥上测得的数据。该数据的训练集中包含20个时间序列,测试集中包含601个时间序列。利用训练集中的20条时间序列,按照以下步骤学习Shapelet和训练分类器:
1、设定最长长度和最短长度,在这个数据集合上均设定为25,使用图2的方法,生成所有搜索长度,本例中搜索长度只有一个,为25。
2、为每个搜索长度,生成训练集中20个时间序列的所有长度为L的子序列,并标准化它们,得到子序列集合。
3、为每个搜索长度,使用其对应的子序列集合训练一个SOINN神经网络,将训练好的网络中的节点对应的子序列,加入到候选集中,候选集中的每一个子序列都为一个候选Shapelet。
4、使用候选集中的候选Shapelet,将训练集中的20个时间序列转换到Shapelet空间。
5、使用转换后的20个时间序列的数据,训练一个带L1正则化项的svm分类器,并进行属性选择。
6、对于每一个候选Shapelet,若其对应的属性,在步骤5中,被选择下来,则该候选Shapelet被选出。
最终学习得到了16个Shapelet,并训练了一个svm分类器。使用这16个Shapelet,对测试集中601个时间序列进行特征转换,然后使用训练好的svm分类器对转换后的序列进行类别预测,结果达到了97%的正确率,好于LTS,Shapelet Tree等同类方法。在训练时间上,本发明只需要0.02秒,而LTS需要11.415秒,Shaplet Tree需要6.13秒。所以本发明用于这一机器人环境感知的应用时,具备训练时间短、预测准确率高的优点。
图4列出了本发明与其他10种算法在28个数据集上的分类准确率,其中,表的第一行列出了不同的方法,本发明方法为LCS,其余的每一行列出了所有方法在某个数据集合上的分类准确率。结果显示,本发明在分类准确率方面具有优异的表现,平均准确率排名仅略微低于LTS,但是本发明LCS在28个数据集上的训练时间平均比LTS快60.28倍。由于本发明使用了soinn神经网络对时间子序列进行聚类,极大程度上减少了候选集的大小,因此大大缩短了训练时间。另一方面,聚类中心是多个时间子序列的平均,能够更好的代表一个时间序列类别,因此提供了更好的Shapelet候选项,进而提高了分类准确率。
本发明提供了一种基于时间序列类别的计算机数据分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (8)
1.一种基于时间序列类别的计算机数据分类方法,其特征在于,包括如下步骤:
步骤1,生成搜索长度集合;
步骤2,为每一个搜索长度,生成所有时间序列数据的子序列,子序列的长度为L2,并标准化所有子序列,标准化后的所有子序列组成集合S;
步骤3,利用集合S,训练一个SOINN神经网络,将训练好的神经网络的每一个节点,加入到Shapelet候选集合C中;
步骤4,使用Shapelet候选集合C,将所有时间序列转换到Shapelet表示,转换后的数据集合为T;
步骤5,使用特征选取算法,在数据集合T上选取特征,得到特征集合为A,同时训练得到分类器Cls;
步骤6,对于特征集合A中的每一个特征,将其相应的候选Shapelet加入到Shapelet集合中;
步骤7,预测时间序列的类别:使用Shapelet集合中的Shapelet对时间序列进行转换,然后使用分类器Cls对转换后的数据进行分类。
2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:
步骤1-1,人工设定参数:最大搜索长度MaxLength,最小搜索长度MinLength和参数beta,跳转至步骤1-2;
步骤1-2,令L=MaxLength,若L<MinLength,则结束步骤1;否则将L加入到搜索长度集合中,跳转至步骤1-3;
步骤1-3,将L更新为L/beta,跳转至步骤1-2。
3.根据权利要求2所述的方法,其特征在于,步骤2中,假设时间序列t的搜索长度为N,则其开始于位置e的长度为L2的子序列集合S为<t(e),t(e+1),…t(e+L2-1)>,采用z-标准化,将该子序列归一化为均值等于0,方差等于1,标准化的方法如下:
mean(S)=(S(1)+S(2)+…+S(L2))/L2,
std(S)=sqrt(((S(1)-mean(S))^2+(S(2)-mean(S))^2+…+(S(L2)-mean(S))^2)/L2),
S=<(S(1)-mean(S))/std(S),(S(2)-mean(S))/std(S),…,(S(L2)-mean(S))/std(S)>,
其中,mean(S)表示子序列集合S中所有数据的平均值,S(e)表示子序列集合S中位置e上的取值,std(S)表示子序列集合S中所有数据的标准差,sqrt表示开方运算。
4.根据权利要求3所述的方法,其特征在于,步骤3中使用的聚类算法为SOINN自组织增量神经网络算法,SOINN神经网络由节点集合和边集合构成,每个节点都有一个权重、阈值和累积值,节点的阈值为该节点的邻居中离该节点最远的节点与该节点的距离,节点的权重为所有属于该节点的类别的数据的平均值,节点的累积值为属于该节点类别的数据的数量。
5.根据权利要求4所述的方法,其特征在于,步骤4中,长度为N的时间序列t和长度为L2的Shapelet sp之间的距离为时间序列t的所有标准化后的长度为L2的子序列与sp的欧式距离中最小的一个,定义如下:
dist(sp,t)=minqEuclideanDistance(sp,S(t,L2,q)),
其中,S(T,L2,q)代表时间序列t起始于位置q的长度为L2的标准化后的子序列,EuclideanDistance代表欧式距离,minq代表位置q变动时后面式子的最小值,dist(sp,t)代表Shapelet sp和时间序列t之间的距离,sp表示一个Shapelet;
时间序列t在Shapelet空间中,对应属性上的属性值如下:
tran(sp,t)=exp(-dist(sp,t)/(sp.threshold*alpha);
其中alpha为设置的参数,dist(sp,t)为Shapelet sp和时间序列t之间的距离,exp为指数函数,sp.threshold为候选Shapelet sp在SOINN神经网络中对应节点的阈值,tran(sp,t)代表转化后的属性值,
给定K1个候选Shapelet<sp1,sp2,…,spK1>,时间序列t转化到Shapelet空间后的数据为:
<tran(sp1,t),tran(sp2,t),…,tran(spK1,t)>;
其中tran(spR,t)为表示时间序列t在Shapelet spR上的取值,R取值范围为1~K1,
根据上述方式将所有时间序列转换到Shapelet空间得到一个新的数据集合T。
6.根据权利要求5所述的方法,其特征在于,步骤5中,使用L1正则化项作为特征选择算法,svm作为分类器,训练过程为最小化以下损失函数L(w):
其中n为时间序列数量,k为候选Shapelet数量,w为svm的权重,wj为权重w第j维上的取值,wT为权重w的转置,xi为第i个时间序列转化到Shapelet空间后的数据,yi为第i个时间序列的类别,C为设置的参数,max(x,y)代表取x,y中的最大值,最小化L(w)后,得到的w即为svm分类器的权重。
7.根据权利要求6所述的方法,其特征在于,步骤6中,使用步骤5中训练的w,选择Shapelet:如果一个w在一个特征上的取值不为0,则将其对应的候选Shapelet加入到Shapelet集合中;否则将w在该特征上的取值全部删除。
8.根据权利要求7所述的方法,其特征在于,步骤7中,对于一个新的时间序列,首先使用步骤6中选取的Shapelet集合,将时间序列数据转化到Shapelet空间,然后使用训练好的w对转化后的数据进行分类:对于二类问题,只训练一个w,分类时,若wTx1>0,输出正类,否则,输出负类;对于多类问题,对于每一个类别,训练一个w,分类时,输出wTx1最大的类别,x1表示转化后的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610427299.8A CN106127229A (zh) | 2016-06-16 | 2016-06-16 | 一种基于时间序列类别的计算机数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610427299.8A CN106127229A (zh) | 2016-06-16 | 2016-06-16 | 一种基于时间序列类别的计算机数据分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106127229A true CN106127229A (zh) | 2016-11-16 |
Family
ID=57470447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610427299.8A Pending CN106127229A (zh) | 2016-06-16 | 2016-06-16 | 一种基于时间序列类别的计算机数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106127229A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614904A (zh) * | 2018-12-03 | 2019-04-12 | 东北大学 | 一种基于Shapelet的多传感器融合的活动识别方法 |
CN109829470A (zh) * | 2017-11-23 | 2019-05-31 | 罗伯特·博世有限公司 | 用于确定异常的方法、装置和计算机程序 |
CN109902703A (zh) * | 2018-09-03 | 2019-06-18 | 华为技术有限公司 | 一种时间序列异常检测方法及装置 |
CN110019421A (zh) * | 2018-07-27 | 2019-07-16 | 山东大学 | 一种基于数据特征片段的时间序列数据分类方法 |
CN110032495A (zh) * | 2019-03-28 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 数据异常检测方法和装置 |
CN111433766A (zh) * | 2017-12-29 | 2020-07-17 | 三星电子株式会社 | 用于对时间序列数据进行分类的方法和系统 |
CN112580595A (zh) * | 2020-12-30 | 2021-03-30 | 江西省农业科学院农业工程研究所 | 一种基于Shapelet的双季稻田遥感识别方法 |
JP2021149652A (ja) * | 2020-03-19 | 2021-09-27 | 株式会社東芝 | 情報処理装置、情報処理方法及びプログラム |
CN113988161A (zh) * | 2021-10-15 | 2022-01-28 | 贵州大学 | 一种用户用电行为模式识别方法 |
-
2016
- 2016-06-16 CN CN201610427299.8A patent/CN106127229A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829470A (zh) * | 2017-11-23 | 2019-05-31 | 罗伯特·博世有限公司 | 用于确定异常的方法、装置和计算机程序 |
CN111433766A (zh) * | 2017-12-29 | 2020-07-17 | 三星电子株式会社 | 用于对时间序列数据进行分类的方法和系统 |
CN110019421A (zh) * | 2018-07-27 | 2019-07-16 | 山东大学 | 一种基于数据特征片段的时间序列数据分类方法 |
CN110019421B (zh) * | 2018-07-27 | 2023-09-01 | 山东大学 | 一种基于数据特征片段的时间序列数据分类方法 |
CN109902703A (zh) * | 2018-09-03 | 2019-06-18 | 华为技术有限公司 | 一种时间序列异常检测方法及装置 |
CN109614904A (zh) * | 2018-12-03 | 2019-04-12 | 东北大学 | 一种基于Shapelet的多传感器融合的活动识别方法 |
CN110032495A (zh) * | 2019-03-28 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 数据异常检测方法和装置 |
CN110032495B (zh) * | 2019-03-28 | 2023-08-25 | 创新先进技术有限公司 | 数据异常检测方法和装置 |
JP7132263B2 (ja) | 2020-03-19 | 2022-09-06 | 株式会社東芝 | 情報処理装置、情報処理方法及びプログラム |
JP2021149652A (ja) * | 2020-03-19 | 2021-09-27 | 株式会社東芝 | 情報処理装置、情報処理方法及びプログラム |
CN112580595A (zh) * | 2020-12-30 | 2021-03-30 | 江西省农业科学院农业工程研究所 | 一种基于Shapelet的双季稻田遥感识别方法 |
CN112580595B (zh) * | 2020-12-30 | 2024-06-21 | 江西省农业科学院农业工程研究所 | 一种基于Shapelet的双季稻田遥感识别方法 |
CN113988161B (zh) * | 2021-10-15 | 2022-08-19 | 贵州大学 | 一种用户用电行为模式识别方法 |
CN113988161A (zh) * | 2021-10-15 | 2022-01-28 | 贵州大学 | 一种用户用电行为模式识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106127229A (zh) | 一种基于时间序列类别的计算机数据分类方法 | |
CN109508812B (zh) | 一种基于深度记忆网络的航空器航迹预测方法 | |
CN107273490B (zh) | 一种基于知识图谱的组合错题推荐方法 | |
CN106779087B (zh) | 一种通用机器学习数据分析平台 | |
CN107220734A (zh) | 基于决策树的数控车床车削过程能耗预测系统 | |
CN109492765A (zh) | 一种基于迁移模型的图像增量学习方法 | |
CN105138849B (zh) | 一种基于ap聚类的无功电压控制分区方法 | |
CN107016464B (zh) | 基于动态贝叶斯网络的威胁估计方法 | |
CN106874963B (zh) | 一种基于大数据技术的配电网故障诊断方法及系统 | |
CN104155574A (zh) | 基于自适应神经模糊推理系统的配电网故障分类方法 | |
CN105335752A (zh) | 一种基于主成分分析多变量决策树的接线方式识别方法 | |
CN103838836A (zh) | 基于判别式多模态深度置信网多模态数据融合方法和系统 | |
CN102063642A (zh) | 基于主动学习的模糊神经网络样本选择方法 | |
CN103116766A (zh) | 一种基于增量神经网络和子图编码的图像分类方法 | |
CN103324954A (zh) | 一种基于树结构的图像分类方法及其系统 | |
Zhang et al. | Oracle character recognition by nearest neighbor classification with deep metric learning | |
CN112000689B (zh) | 一种基于文本分析的多知识图谱融合方法 | |
CN110263979A (zh) | 基于强化学习模型预测样本标签的方法及装置 | |
CN103886030B (zh) | 基于代价敏感决策树的信息物理融合系统数据分类方法 | |
CN114925238B (zh) | 一种基于联邦学习的视频片段检索方法及系统 | |
CN110674326A (zh) | 一种基于多项式分布学习的神经网络结构检索方法 | |
CN107679484A (zh) | 一种基于云计算存储的遥感图像目标自动检测与识别方法 | |
CN103559542A (zh) | 基于先验知识的可拓神经网络模式识别方法 | |
CN112541584A (zh) | 深度神经网络模型并行模式选择方法 | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161116 |
|
RJ01 | Rejection of invention patent application after publication |