CN116541784B - 一种基于字典树和覆盖度的时间序列分类方法及装置 - Google Patents
一种基于字典树和覆盖度的时间序列分类方法及装置 Download PDFInfo
- Publication number
- CN116541784B CN116541784B CN202310806751.1A CN202310806751A CN116541784B CN 116541784 B CN116541784 B CN 116541784B CN 202310806751 A CN202310806751 A CN 202310806751A CN 116541784 B CN116541784 B CN 116541784B
- Authority
- CN
- China
- Prior art keywords
- time sequence
- data set
- sequence data
- node
- dictionary tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000011156 evaluation Methods 0.000 claims abstract description 78
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 238000005065 mining Methods 0.000 abstract description 4
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 241001320851 Aaaba Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据挖掘技术领域,尤其涉及一种基于字典树和覆盖度的时间序列分类方法及装置,方法包括:获取时间序列数据集,即数值型时间序列数据集;对数值型时间序列数据集进行预处理,得到符号化时间序列数据集;根据符号化时间序列数据集的模式特征,构建字典树,模式特征为从根结点到任意结点路径上所有结点的字符序列;采用覆盖度指标,计算字典树中各结点的评估值;基于各个结点的评估值,确定模式特征代表;基于模式特征代表和分类器模型,得到时间序列分类器;基于时间序列分类器,对待分类的时间序列数据进行分类。本发明从海量模式特征中基于字典树和覆盖度挖掘模式特征代表,得到时间序列分类器,提高时间序列数据分类的效率和准确性。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于字典树和覆盖度的时间序列分类方法及装置。
背景技术
时间序列数据通常是指按照固定时间间隔采集得到的实数值,比如,金融投资、地理气象、城市交通和医疗诊断等行业中随时间变化的数据,这些时间序列数据与社会生活密不可分。
时间序列数据中的时间序列模式特征(简称模式特征)是时间序列中一段特殊的子序列,该子序列具备较强的类别表达能力,能够有效地区分不同类别的时间序列。通过在时间序列数据中提取时间序列模式特征,以对时间序列进行分类(Time SeriesClassification,TSC),是常用的技术手段。但是,由于时间序列数据维度较高,且样本数量巨大,因此模式特征数量也相当庞大,传统的模式特征处理过程计算复杂,运行效率较低。
因此,如何提升时间序列模式特征挖掘效率,挖掘出代表性强的模式特征,从而有效提升时间序列数据分类的效率和准确性是目前亟待解决的技术问题。
发明内容
鉴于上述问题,本发明提供了一种克服上述问题或者至少部分地解决上述问题的基于字典树和覆盖度的时间序列分类方法及装置。
第一方面,本发明提供了一种基于字典树和覆盖度的时间序列分类方法,包括:
获取时间序列数据集,所述时间序列数据集为数值型时间序列数据集,所述数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;
对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集;
根据所述符号化时间序列数据集的模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,且所述字典树中各个结点代表不同的模式特征;
计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度;
基于所述各个结点的评估值,确定所述字典树的模式特征代表;
基于所述模式特征代表对所述符号化时间序列数据集进行特征空间转换,得到所述符号化时间序列数据集的特征空间数据;
基于所述特征空间数据和分类器模型,得到时间序列分类器;
获取待分类的时间序列数据;
基于所述时间序列分类器,对所述待分类的时间序列数据进行分类,得到所述待分类时间序列数据的类别。
优选地,所述对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集,包括:
对所述数值型时间序列数据集中的每个数值型时间序列进行标准化处理,得到标准化数值型时间序列;
对所述标准化数值型时间序列采用符号聚合近似方法转化为字符序列,得到符号化时间序列数据集。
优选地,所述根据所述符号化时间序列数据集的模式特征,构建字典树,所述字典树中各个结点代表不同的模式特征,包括:
按照预设模式特征的最小长度和最大长度,从所述符号化时间序列数据集中搜索得到候选模式特征;
基于所述候选模式特征,构建字典树,所述字典树中各个结点代表不同的候选模式特征。
优选地,所述计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度,包括:
计算所述字典树中各个结点的评估值,具体按照如下计算式实现:,其中,/>为任一模式特征,/>为/>的覆盖度,为评估值,/>为/>在所述符号化时间序列数据集中所属时间序列的类别标号,即模式特征的类别标号,/>为符号化时间序列数据集中类别标号为/>的时间序列样本(简称样本)集合,/>为/>在中被/>覆盖的样本集合,/>为/>的样本数量,/>为/>的样本数量,为符号化时间序列数据集中类别不为/>的样本集合,/>为/>在中被/>覆盖的样本集合,/>为/>的样本数量,/>为/>的样本数量,/>为调节系数,/>取值范围为[0,1]。
优选地,所述结点包括:枝结点和叶结点,在计算所述字典树中各个结点的评估值之后,还包括:
在所述结点为枝结点时,将以所述枝结点为根结点的子树中结点的最大评估值确定为所述枝结点的评估值。
优选地,所述基于各个结点的评估值,确定字典树的模式特征代表,包括:
基于所述模式特征的最小长度,确定所述字典树所对应的目标结点;
基于所述目标结点的评估值,确定所述字典树的模式特征代表。
优选地,所述基于目标结点的评估值,确定所述字典树的模式特征代表,包括:
将所述目标结点按评估值排序,得到排序满足预设条件的目标结点,确定所述字典树的模式特征代表。
优选地,在所述获取待分类的时间序列数据之后,还包括:
对所述待分类的时间序列数据进行预处理和特征空间转换。
第二方面,本发明还提供了一种时间序列数据的分类装置,包括:
第一获取模块,用于获取时间序列数据集,所述时间序列数据集为数值型时间序列数据集,所述数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;
第一得到模块,用于对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集;
构建模块,用于根据所述符号化时间序列数据集的模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,且所述字典树中各个结点代表不同的模式特征;
计算模块,用于计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度;
确定模块,用于基于所述各个结点的评估值,确定所述字典树的模式特征代表;
第二得到模块,用于基于所述模式特征代表对所述符号化时间序列数据集进行特征空间转换,得到所述符号化时间序列数据集的特征空间数据;
第三得到模块,用于基于所述特征空间数据和分类器模型,得到时间序列分类器;
第二获取模块,用于获取待分类的时间序列数据;
分类模块,用于基于所述时间序列分类器,对所述待分类的时间序列数据进行分类,得到所述待分类时间序列数据的类别。
本发明实施例中的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供了一种基于字典树和覆盖度的时间序列分类方法,包括:获取时间序列数据集,时间序列数据集为数值型时间序列数据集,该数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;对数值型时间序列数据集进行预处理,得到符号化时间序列数据集;根据符号化时间序列数据集的模式特征,构建字典树,模式特征为字典树中从根结点到任意结点路径上的字符序列,且字典树中各个结点代表不同的模式特征;计算字典树中各个结点的评估值,评估值为各个模式特征再符号化时间序列数据集中的覆盖度;基于各个结点的评估值,确定字典树的模式特征代表;基于模式特征代表对符号化时间序列数据集进行特征空间转换,得到符号化时间序列数据集的特征空间数据;基于特征空间数据和分类器模型,得到时间序列分类器;获取待分类的时间序列数据;基于时间序列分类器,对待分类的时间序列数据进行分类,得到待分类的时间序列数据的类别,从海量模式特征中按照覆盖度挖掘模式特征代表,降低了模式特征的数量,提高了时间序列数据分类的效率和准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考图形表示相同的部件。在附图中:
图1示出了本发明实施例中一种基于字典树和覆盖度的时间序列分类方法的步骤流程示意图;
图2示出了本发明实施例中构建的字典树的结构示意图;
图3示出了本发明实施例中字典树结点评估值计算过程的示意图;
图4示出了本发明实施例中基于字典树和覆盖度的时间序列分类装置的结构示意图;
图5示出了本发明实施例中实现基于字典树和覆盖度的时间序列分类方法的计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整传达给本领域的技术人员。
实施例一
本发明的实施例提供了一种基于字典树和覆盖度的时间序列分类方法,如图1所示,包括:
S101,获取时间序列数据集,该时间序列数据集为数值型时间序列数据集,该数值型时间序列数据集中的每个时间序列是按照预设规律采集的一组数据;
S102,对数值型时间序列数据集进行预处理,得到符号化时间序列数据集;
S103,根据符号化时间序列数据集的模式特征,构建字典树,模式特征为字典树中从根结点到任意结点路径上的字符序列,且该字典树中各个结点代表不同的模式特征;
S104,计算字典树中各个结点的评估值,该评估值为各个模式特征在符号化时间序列数据集中的覆盖度;
S105,基于各个结点的评估值,确定字典树的模式特征代表;
S106,基于模式特征代表对符号化时间序列数据集进行特征空间转换,得到符号化时间序列数据集的特征空间数据;
S107,基于特征空间数据和分类器模型,得到时间序列分类器;
S108,获取待分类的时间序列数据;
S109,基于时间序列分类器,对待分类的时间序列数据进行分类,得到待分类时间序列数据的类别。
在具体的实施方式中,S101,获取的时间序列数据集中每个时间序列是按照预设规律采集的一组数据。该时间序列数据集可以是一组金融投资数据,比如,某支股票每日的收盘价等数据;时间序列数据集还可以是一组地理气象数据,比如,某个地区的日降雨量等数据,在此不再赘述。
接下来,执行S102,对数值型时间序列数据集进行预处理,得到符号化时间序列数据集。
具体地,先对数值型时间序列数据集中的每个数值型时间序列进行标准化,得到标准化数值型时间序列,其中具体采用Z-标准化进行处理。
接着,对标准化数值型时间序列采用符号聚合近似(Symbolic AggregateapproXimation,SAX)方法转化为字符序列,得到符号化时间序列数据集。具体根据滑动窗口大小和字符序列集大小两个参数进行转化。
得到符号化时间序列数据集后,执行S103,根据符号化时间序列数据集的模式特征,构建字典树,该模式特征为字典树中从根结点到任意结点路径上的字符序列,该字典树包括各个结点,字典树中的各个结点代表不同的模式特征,该模式特征为随着时间变化表现出的特征。
具体地,按照预设模式特征的最小长度(minLen)和最大长度(maxLen),从符号化时间序列数据集中搜索得到候选模式特征;
基于候选模式特征,构建字典树,该模式特征为字典树中从根结点到任意结点路径上的字符序列,且该字典树中各个结点代表不同的候选模式特征。
具体地,按照预设模式特征的最小长度(minLen)和最大长度(maxLen),遍历长度在区间[minLen, maxLen]的所有模式特征,由此得到候选模式特征,插入到字典树。其中,根结点用“#”表示,字典树的每个结点记录的信息包括当前结点字符(character),当前结点的评估值(eval)和当前结点对应的候选模式特征(candidate)。字典树的基本结构如图2所示。举例中其中一个结点B,对应的结点字符(character)为B,该结点的评估值为0.622,对应的模式特征为BBB。
图2中字典树根结点的左子树包含了AAAA,AAABA,AAABB,AAB,ABBAB和ABBB候选模式特征,右子树包含BBA,BBBAB和BBBB候选模式特征,一共有9种候选模式特征。
接下来,执行S104,计算字典树中各个结点的评估值,该评估值为各个模式特征在符号化时间序列数据集中的覆盖度。
具体按照如下计算公式实现:,其其中,/>为任一模式特征,/>为/>的覆盖度,/>为评估值,/>为/>在所述符号化时间序列数据集中所属时间序列的类别标号,即模式特征的类别标号,/>为符号化时间序列数据集中类别标号为/>的时间序列样本(简称样本)集合,/>为/>在中被/>覆盖的样本集合,/>为的样本数量,/>为/>的样本数量,/>为符号化时间序列数据集中类别不为/>的样本集合,/>为/>在中被/>覆盖的样本集合,/>为/>的样本数量,/>为/>的样本数量。
其中,为调节系数,用来控制式子中后一项的影响,取值范围为[0, 1],默认取1;/>的取值范围为[-1, 1],/>值越大,表示模式特征的类别区分度越好,否则,表示其类别区分度越差。
上述确定各个结点的评估值方法用于处理叶结点。如果某个结点不是叶结点(即枝结点),则将以该枝结点为根结点的子树中结点的最大评估值确定为该枝结点的评估值。
综上,任意结点的评估值采用如下公式统一计算:,其中,表示当前评估的结点,/>表示/>的模式特征,/>表示以当前结点为根结点的子树的所有结点(含/>结点自身);/>表示当前结点/>的评估值,/>表示结点对应/>的模式特征的覆盖度。
具体地,结点基于覆盖度的评估值计算过程如图3所示。例如,候选模式特征AAAA的结点为叶结点,通过采用上述的覆盖度计算方法,得到其评估值为0.689。而对应模式特征AAAB的枝结点,有两个叶结点AAABA和AAABB,该枝结点的评估值是AAABA的覆盖度、AAABB的覆盖度、以及AAAB自身覆盖度中的最大值,即0.783。同理可得,AAB枝结点的评估值为0.686,ABBB枝结点的评估值为0.713。
需要注意的是,计算结点评估值的时候,并不需要计算所有结点的评估值,只需要计算字典树中处于minLen层的结点评估值即可。
在确定各个结点的评估值之后,执行S105,基于各个结点的评估值,确定字典树的模式特征代表。
具体地,基于模式特征的最小长度所对应的结点,确定字典树所对应的目标结点;基于目标结点对应的评估值,确定字典树的模式特征代表。
具体地,在确定模式特征代表时,是将目标结点对应的评估值排序,得到排序满足预设条件的目标结点,确定字典树的模式特征代表。
如图3所示,模式特征的最小长度为3,对应的结点处于第3层,因此,将第3层所对应的结点的评估值进行排序,从中确定出评估值最优的K个目标结点,即K个模式特征,将这K个模式特征确定为该字典树的模式特征代表。若K值为2,从图3中可以看出,得到模式特征代表为:AAABB(0.783)和ABBB(0.713)。
在确定字典树的模式特征代表之后,基于字典树的模式特征代表,对分类器模型进行训练,得到时间序列分类器。
具体地,执行S106基于模式特征代表对符号化时间序列数据集进行特征空间转换,得到符号化时间序列数据集的特征空间数据;
S107,基于特征空间数据和分类器,得到时间序列分类器。
在具体的实施方式中,基于个模式特征代表与符号化时间序列数据集的覆盖关系,进行特征空间转换,转换后的数据集如下所示:,其中,/>为符号化时间序列数据集的样本数量,/>为模式特征代表的数量,/>为第/>个符号化时间序列数据样本/>到第/>个模式特征代表/>的转换值。具体转换公式如下:,其中,/>和/>均为符号化时间序列数据集中的字符序列。具体含义为在该符号化时间序列包含该模式特征代表时,则转换为1,否则转换为0。
在得到符号化时间序列数据集的特征空间数据之后,将特征空间数据输入分类器模型中进行训练,这里采用的分类器模型包括但不限于KNN、SVM、随机森林、决策树以及BOSS、COTE等分类器模型。通过对上述任意一种分类器模型训练,得到时间序列分类器。
最后,利用该时间序列分类器对待分类的时间序列数据进行分类。
S108,获取待分类的时间序列数据,比如,一组当前时间采集的金融投资数据,然后,执行S109,基于时间序列分类器,对待分类的时间序列数据进行分类,得到待分类的时间序列数据的类别。
当然,在得到待分类的时间序列数据之后,还包括:对待分类的时间序列数据进行预处理和特征空间转换。具体是对该待分类的时间序列数据按照S102的方法得到待分类的符号化时间序列数据,然后,需要按照S106中的方法对该待分类的符号化时间序列数据进行特征空间转换,得到待分类时间序列数据的特征空间数据,最后输入该时间序列分类器,最终得到分类结果。
对于金融投资数据来说,可能得到的分类是涨、跌或者横盘等,当然针对不同领域的时间序列数据,类别是不相同的,分类结果也各有不同。本发明能够对任意领域的时间序列数据进行分类,由此得到其分类结果,为用户后期分析提供有力依据。
本发明实施例中的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供了一种基于字典树和覆盖度的时间序列分类方法,包括:获取时间序列数据集,时间序列数据集为数值型时间序列数据集,该数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;对数值型时间序列数据集进行预处理,得到符号化时间序列数据集;根据符号化时间序列数据集的模式特征,构建字典树,模式特征为字典树中从根结点到任意结点路径上的字符序列,且字典树中各个结点代表不同的模式特征;计算字典树中各个结点的评估值,评估值为各个模式特征再符号化时间序列数据集中的覆盖度;基于各个结点的评估值,确定字典树的模式特征代表;基于模式特征代表对符号化时间序列数据集进行特征空间转换,得到符号化时间序列数据集的特征空间数据;基于特征空间数据和分类器模型,得到时间序列分类器;获取待分类的时间序列数据;基于时间序列分类器,对待分类的时间序列数据进行分类,得到待分类的时间序列数据的类别,从海量模式特征中按照覆盖度挖掘模式特征代表,降低了模式特征的数量,提高了时间序列数据分类的效率和准确性。
实施例二
基于相同的发明构思,本发明实施例还提供了一种基于字典树和覆盖度的时间序列分类装置,如图4所示,包括:
第一获取模块401,用于获取时间序列数据集,所述时间序列数据集为数值型时间序列数据集,所述数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;
第一得到模块402,用于对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集;
构建模块403,用于根据所述符号化时间序列数据集的模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,所述字典树中各个结点代表不同的模式特征;
计算模块404,用于计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度;
确定模块405,用于基于所述各个结点的评估值,确定所述字典树的模式特征代表;
第二得到模块406,用于基于所述模式特征代表对所述符号化时间序列数据集进行特征空间转换,得到所述符号化时间序列数据集的特征空间数据;
第三得到模块407,用于基于所述特征空间数据和分类器模型,得到时间序列分类器;
第二获取模块408,用于获取待分类的时间序列数据;
分类模块409,用于基于所述时间序列分类器,对所述待分类的时间序列数据进行分类,得到所述待分类的时间序列数据的类别。
在一种可选的实施方式中,第一得到模块402,用于:
对所述数值型时间序列数据集中的每个数值型时间序列进行标准化处理,得到标准化数值型时间序列;
对所述标准化数值型时间序列采用符号聚合近似方法转化为字符序列,得到符号化时间序列数据集。
在一种可选的实施方式中,构建模块403,用于:
按照预设模式特征的最小长度和最大长度,从所述符号化时间序列数据集中搜索得到候选模式特征;
基于所述候选模式特征,构建字典树,所述字典树中各个结点代表不同的候选模式特征。
在一种可选的实施方式中,所述计算模块404,用于:
计算所述字典树中各个结点的评估值,具体按照如下计算式实现:,其中,/>为任一模式特征,/>为/>的覆盖度,为评估值,/>为/>在所述符号化时间序列数据集中所属时间序列的类别标号,即模式特征的类别标号,/>为符号化时间序列数据集中类别标号为/>的时间序列样本(简称样本)集合,/>为/>在中被/>覆盖的样本集合,/>为/>的样本数量,/>为/>的样本数量,为符号化时间序列数据集中类别不为/>的样本集合,/>为/>在中被/>覆盖的样本集合,/>为/>的样本数量,/>为/>的样本数量,/>为调节系数,/>取值范围为[0,1]。
在一种可选的实施方式中,所述结点包括:枝结点和叶结点,所述计算模块404,还用于:
在所述结点为枝结点时,将以所述枝结点为根节点的子树中节点的最大评估值确定为所述枝结点的评估值。
在一种可选的实施方式中,确定模块405,用于:
基于模式特征的最小长度,确定所述字典树所对应的目标结点;
基于所述目标结点的评估值,确定所述字典树的模式特征代表。
在一种可选的实施方式中,确定模块405,还用于:
将所述目标结点对应的评估值排序,得到排序满足预设条件的目标结点,确定所述字典树的模式特征代表。
在一种可选的实施方式中,还包括:处理模块,用于:
在所述获取待分类的时间序列数据之后,对所述待分类的时间序列数据进行预处理和特征空间转换。
实施例三
基于相同的发明构思,本发明实施例提供了一种计算机设备,如图5所示,包括存储器504、处理器502及存储在存储器504上并可在处理器502上运行的计算机程序,所述处理器602执行所述程序时实现上述基于字典树和覆盖度的时间序列数据分类方法的步骤。
其中,在图5中,总线架构(用总线500来代表),总线500可以包括任意数量的互联的总线和桥,总线500将包括由处理器502代表的一个或多个处理器和存储器504代表的存储器的各种电路链接在一起。总线500还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口506在总线500和接收器501和发送器503之间提供接口。接收器501和发送器503可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器502负责管理总线500和通常的处理,而存储器504可以被用于存储处理器502在执行操作时所使用的数据。
实施例四
基于相同的发明构思,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于字典树和覆盖度的时间序列数据分类方法的步骤。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个实施例中所明确记载的特征更多的特征。更确切地说,如每个实施例所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在具体实施方式中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于字典树和覆盖度的时间序列分类装置、计算机设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (8)
1.一种基于字典树和覆盖度的时间序列分类方法,其特征在于,包括:
获取时间序列数据集,所述时间序列数据集为数值型时间序列数据集,所述数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;
对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集;
根据所述符号化时间序列数据集的模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,且所述字典树中各个结点代表不同的模式特征;
计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度,包括:
计算所述字典树中各个结点的评估值,具体按照如下计算式实现:,其中,/>为任一模式特征,/>为/>的覆盖度,为评估值,/>为/>在所述符号化时间序列数据集中所属时间序列的类别标号,即模式特征的类别标号,/>为符号化时间序列数据集中类别标号为/>的时间序列样本集合,/>为在中被/>覆盖的样本集合,/>为/>的样本数量,/>为/>的样本数量,/>为符号化时间序列数据集中类别不为的样本集合,/>为在/>中被/>覆盖的样本集合,/>为/>的样本数量,/>为/>的样本数量,/>为调节系数,/>取值范围为[0,1];
基于所述各个结点的评估值,确定所述字典树的模式特征代表;
基于所述模式特征代表对所述符号化时间序列数据集进行特征空间转换,得到所述符号化时间序列数据集的特征空间数据;
基于所述特征空间数据和分类器模型,得到时间序列分类器;
获取待分类的时间序列数据;
基于所述时间序列分类器,对所述待分类的时间序列数据进行分类,得到所述待分类时间序列数据的类别。
2.如权利要求1所述的方法,其特征在于,所述对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集,包括:
对所述数值型时间序列数据集中的每个数值型时间序列进行标准化处理,得到标准化数值型时间序列;
对所述标准化数值型时间序列采用符号聚合近似方法转化为字符序列,得到符号化时间序列数据集。
3.如权利要求1所述的方法,其特征在于,所述根据所述符号化时间序列数据集的模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,且所述字典树中各个结点代表不同的模式特征,包括:
按照预设模式特征的最小长度和最大长度,从所述符号化时间序列数据集中搜索得到候选模式特征;
基于所述候选模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,且所述字典树中各个结点代表不同的候选模式特征。
4.如权利要求1所述的方法,其特征在于,所述结点包括:枝结点和叶结点,在计算所述字典树中各个结点的评估值之后,还包括:
在所述结点为枝结点时,将以所述枝结点为根结点的子树中结点的最大评估值确定为所述枝结点的评估值。
5.如权利要求3所述的方法,其特征在于,所述基于各个结点的评估值,确定字典树的模式特征代表,包括:
基于所述模式特征的最小长度,确定所述字典树所对应的目标结点;
基于所述目标结点的评估值,确定所述字典树的模式特征代表。
6.如权利要求5所述的方法,其特征在于,所述基于目标结点的评估值,确定所述字典树的模式特征代表,包括:
将所述目标结点按评估值排序,得到排序满足预设条件的目标结点,确定所述字典树的模式特征代表。
7.如权利要求1所述的方法,其特征在于,在所述获取待分类的时间序列数据之后,还包括:
对所述待分类的时间序列数据进行预处理和特征空间转换。
8.一种时间序列数据的分类装置,其特征在于,包括:
第一获取模块,用于获取时间序列数据集,所述时间序列数据集为数值型时间序列数据集,所述数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;
第一得到模块,用于对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集;
构建模块,用于根据所述符号化时间序列数据集的模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,且所述字典树中各个结点代表不同的模式特征;
计算模块,用于计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度,所述计算模块,用于:
计算所述字典树中各个结点的评估值,具体按照如下计算式实现:,其中,/>为任一模式特征,/>为/>的覆盖度,为评估值,/>为/>在所述符号化时间序列数据集中所属时间序列的类别标号,即模式特征的类别标号,/>为符号化时间序列数据集中类别标号为/>的时间序列样本集合,/>为在中被/>覆盖的样本集合,/>为/>的样本数量,/>为/>的样本数量,/>为符号化时间序列数据集中类别不为的样本集合,/>为在/>中被/>覆盖的样本集合,/>为/>的样本数量,/>为/>的样本数量,/>为调节系数,/>取值范围为[0,1];;
确定模块,用于基于所述各个结点的评估值,确定所述字典树的模式特征代表;
第二得到模块,用于基于所述模式特征代表对所述符号化时间序列数据集进行特征空间转换,得到所述符号化时间序列数据集的特征空间数据;
第三得到模块,用于基于所述特征空间数据和分类器模型,得到时间序列分类器;
第二获取模块,用于获取待分类的时间序列数据;
分类模块,用于基于所述时间序列分类器,对所述待分类的时间序列数据进行分类,得到所述待分类时间序列数据的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310806751.1A CN116541784B (zh) | 2023-07-04 | 2023-07-04 | 一种基于字典树和覆盖度的时间序列分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310806751.1A CN116541784B (zh) | 2023-07-04 | 2023-07-04 | 一种基于字典树和覆盖度的时间序列分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116541784A CN116541784A (zh) | 2023-08-04 |
CN116541784B true CN116541784B (zh) | 2023-09-26 |
Family
ID=87445670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310806751.1A Active CN116541784B (zh) | 2023-07-04 | 2023-07-04 | 一种基于字典树和覆盖度的时间序列分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541784B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006064847A (ja) * | 2004-08-25 | 2006-03-09 | Nippon Telegr & Teleph Corp <Ntt> | 非定常時系列データ分類方法、装置、プログラム及びそのプログラムを記録した記録媒体 |
CN109740165A (zh) * | 2019-01-09 | 2019-05-10 | 网易(杭州)网络有限公司 | 字典树构建方法、语句搜索方法、装置、设备及存储介质 |
CN110705298A (zh) * | 2019-09-23 | 2020-01-17 | 四川长虹电器股份有限公司 | 一种改进的前缀树与循环神经网络结合的领域分类方法 |
CN112131322A (zh) * | 2020-09-22 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 时间序列分类方法及装置 |
CN113051442A (zh) * | 2019-12-26 | 2021-06-29 | 中国电信股份有限公司 | 时间序列数据处理方法、装置和计算机可读存储介质 |
CN115270998A (zh) * | 2022-09-26 | 2022-11-01 | 乐山师范学院 | 时间序列的有序分类方法、装置、计算机设备及存储介质 |
CN115312034A (zh) * | 2022-06-23 | 2022-11-08 | 北京云思智学科技有限公司 | 基于自动机和字典树处理语音信号的方法、装置和设备 |
-
2023
- 2023-07-04 CN CN202310806751.1A patent/CN116541784B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006064847A (ja) * | 2004-08-25 | 2006-03-09 | Nippon Telegr & Teleph Corp <Ntt> | 非定常時系列データ分類方法、装置、プログラム及びそのプログラムを記録した記録媒体 |
CN109740165A (zh) * | 2019-01-09 | 2019-05-10 | 网易(杭州)网络有限公司 | 字典树构建方法、语句搜索方法、装置、设备及存储介质 |
CN110705298A (zh) * | 2019-09-23 | 2020-01-17 | 四川长虹电器股份有限公司 | 一种改进的前缀树与循环神经网络结合的领域分类方法 |
CN113051442A (zh) * | 2019-12-26 | 2021-06-29 | 中国电信股份有限公司 | 时间序列数据处理方法、装置和计算机可读存储介质 |
CN112131322A (zh) * | 2020-09-22 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 时间序列分类方法及装置 |
CN115312034A (zh) * | 2022-06-23 | 2022-11-08 | 北京云思智学科技有限公司 | 基于自动机和字典树处理语音信号的方法、装置和设备 |
CN115270998A (zh) * | 2022-09-26 | 2022-11-01 | 乐山师范学院 | 时间序列的有序分类方法、装置、计算机设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
Time Series Shapelets: A New Primitive for Data Mining;Lexiang Ye 等;《Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining》;947-955 * |
Time-Series Classification Methods: Review and Applications to Power Systems Data;Gian Antonio Susto 等;《Big Data Application in Power Systems》;179-220 * |
TS-CHIEF: a scalable and accurate forest algorithm for time series classification;Ahmed Shifaz 等;《Data Mining and Knowledge Discovery》;742–775 * |
时间序列分类问题的算法比较;杨一鸣 等;《计算机学报》;第30卷(第8期);1259-1266 * |
时间序列可变尺度的时频特征求解及其分类;魏池璇 等;《软件学报》;第33卷(第12期);4411-4428 * |
Also Published As
Publication number | Publication date |
---|---|
CN116541784A (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160139B (zh) | 心电信号的处理方法、装置及终端设备 | |
Junos et al. | An optimized YOLO‐based object detection model for crop harvesting system | |
CN108629413A (zh) | 神经网络模型训练、交易行为风险识别方法及装置 | |
CN113259331B (zh) | 一种基于增量学习的未知异常流量在线检测方法及系统 | |
CN109492230B (zh) | 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN110532398B (zh) | 基于多任务联合神经网络模型的家族图谱自动构建方法 | |
CN113537063A (zh) | 一种基于综合遥感技术的森林环境遥感监测方法及终端 | |
CN110059765B (zh) | 一种矿物智能识别分类系统与方法 | |
CN112685374A (zh) | 日志分类方法、装置及电子设备 | |
CN113158084B (zh) | 移动轨迹数据处理的方法、装置、计算机设备及存储介质 | |
Krishnaveni et al. | RETRACTED ARTICLE: Weather forecast prediction and analysis using sprint algorithm | |
CN116541784B (zh) | 一种基于字典树和覆盖度的时间序列分类方法及装置 | |
CN116564539B (zh) | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 | |
CN114077663A (zh) | 应用日志的分析方法及装置 | |
CN115482419B (zh) | 一种海洋渔业产品的数据采集分析方法及系统 | |
CN115270998B (zh) | 时间序列的有序分类方法、装置、计算机设备及存储介质 | |
CN117009518A (zh) | 融合基本属性和文本内容的相似事件判断方法及其应用 | |
CN116434273A (zh) | 一种基于单正标签的多标记预测方法及系统 | |
CN115934852A (zh) | 税务注册地址时空聚类方法、装置、服务器及存储介质 | |
CN113282686B (zh) | 一种不平衡样本的关联规则确定方法及装置 | |
Ma | The Research of Stock Predictive Model based on the Combination of CART and DBSCAN | |
CN115062126A (zh) | 一种语句分析方法、装置、电子设备及可读存储介质 | |
CN114091463A (zh) | 地区工单乱点分析方法、装置、电子设备及可读存储介质 | |
CN113537339A (zh) | 一种基于多标签图像分类的识别共生或伴生矿物的方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |