CN115270998A - 时间序列的有序分类方法、装置、计算机设备及存储介质 - Google Patents
时间序列的有序分类方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115270998A CN115270998A CN202211169963.5A CN202211169963A CN115270998A CN 115270998 A CN115270998 A CN 115270998A CN 202211169963 A CN202211169963 A CN 202211169963A CN 115270998 A CN115270998 A CN 115270998A
- Authority
- CN
- China
- Prior art keywords
- sequence data
- time series
- target
- target sub
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据挖掘技术领域,尤其涉及一种时间序列的有序分类方法、装置、计算机设备以及存储介质,方法包括,获取M个对象中每个对象的时间序列数据,得到时间序列数据集;从时间序列数据集中随机选取目标对象,并从目标对象的时间序列数据中随机选取目标子序列数据;获取目标子序列数据的覆盖集中度和优势度评估值;基于目标子序列数据的覆盖集中度和优势度评估值,得到目标时间序列特征集;基于目标时间序列特征集和时间序列数据集,转换得到时间序列特征集的特征空间;基于特征空间,训练得到有序分类器;获取待测对象的时间序列数据,基于有序分类器对待测对象的时间序列数据进行分类,进而可有效避免由于错分类别而导致的严重后果。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种时间序列的有序分类方法、装置、计算机设备及存储介质。
背景技术
时间序列数据是采用相同时间间隔收集到的数据,用于描述现象随时间变化的情况,这类数据反映了某一事物、现象等随时间的变化状态或者程度。
时间序列有序分类(Time Series Ordinal Classification,TSOC)是时间序列分类的一项重要任务。不同于传统时间序列分类,TSOC中时间序列的类别之间有严格的全序关系,衡量分类效果需要考虑错误分类的代价。例如,在医疗辅助诊断系统中,将危重型病症错分成轻型病症的代价要远高于将其错分成重型病症的代价。除了医疗辅助诊断外,TSOC在金融投资、气象预测、情感分析等领域都有重要应用。
因此,对时间序列数据进行有效分类,以避免由于错分类别导致的严重后果是目前亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种时间序列的有序分类方法、装置、计算机设备及存储介质。
第一方面,本发明提供了一种时间序列的有序分类方法,包括:
获取M个对象中每个对象的时间序列数据,得到时间序列数据集,M为正整数;
从所述时间序列数据集中随机选取目标对象,并从所述目标对象的时间序列数据中随机选取目标子序列数据,所述目标子序列数据为所述时间序列数据中的任意长度的数据;
获取所述目标子序列数据的覆盖集中度和优势度评估值;
基于所述目标子序列数据的覆盖集中度和优势度评估值,得到目标时间序列特征集,所述目标时间序列特征集包括多个目标对象的目标子序列数据;
基于所述目标时间序列特征集和所述时间序列数据集,转换得到所述时间序列特征集的特征空间;
基于所述特征空间,训练得到用于对时间序列数据进行分类的有序分类器;
获取待测对象的时间序列数据,基于所述有序分类器对所述待测对象的时间序列数据进行分类。
进一步地,在所述获取所述目标子序列数据的覆盖集中度和优势度评估值之前,还包括:
采用布隆过滤器检查所述目标子序列数据是否已获得覆盖集中度和优势度评估值;
若是,返回执行从所述M个对象中随机选取目标对象,并从所述目标对象的时间序列数据中随机选取目标子序列数据的步骤;
若否,执行获取目标子序列数据的覆盖集中度和优势度评估值的步骤。
进一步地,所述获取所述目标子序列数据的覆盖集中度和优势度评估值,包括:
获取所述目标子序列数据的覆盖集中度;
获取所述目标子序列数据的覆盖优势度;
基于所述目标子序列数据的覆盖集中度和覆盖优势度,确定所述目标子序列数据的覆盖集中度和优势度评估值。
进一步地,所述时间序列数据集中还包括:对应于每个时间序列数据的类别标签,所述获取所述目标子序列数据的覆盖集中度,包括:
其中,表示目标子序列数据的覆盖集中度,表示任意一个目标子序列数据;表示目标子序列数据在时间序列数据集上的覆盖,其中,表示在所述时间序列数据集中,类别标签为且包含所述目标子序列数据的样本数量,是所述时间序列数据集的类别数量;表示目标子序列数据在所述时间序列数据集上覆盖的方差,表示所述方差的上界,且;
所述获取所述目标子序列数据的覆盖优势度,包括:
所述基于所述目标子序列数据的覆盖集中度和覆盖优势度,确定所述目标子序列数据的覆盖集中度和优势度评估值,包括:
进一步地,所述基于所述目标子序列数据的覆盖集中度和优势度评估值,得到目标时间序列特征集,所述目标时间序列特征集包括多个目标对象的目标子序列数据,包括:
基于目标子序列数据的覆盖集中度和优势度评估值,得到时间序列特征集,所述时间序列特征集中的任意目标子序列数据的覆盖集中度和优势度评估值均大于第一评价阈值;
基于所述时间序列特征集,得到初始时间序列特征集,所述初始时间序列特征集中的目标子序列数据的数量小于或等于第一预设值,且所述第一评价阈值更新为所述初始时间序列特征集中最小的覆盖集中度和优势度评估值。
进一步地,在基于所述时间序列特征集,得到初始时间序列特征集之后,还包括:
对所述初始时间序列特征集中的目标子序列数据进行自相似处理,得到目标时间序列特征集,所述目标时间序列特征集中的目标子序列数据的数量小于第二预设值,且所述第一预设值为所述第二预设值的h倍,h大于1。
进一步地,基于所述目标时间序列特征集和所述时间序列数据集,转换得到所述目标时间序列特征集的特征空间数据,包括:
采用预设算法计算所述目标时间序列特征集中的每个目标子序列数据与所述时间序列数据集中的每个时间序列数据的距离,得到所述目标时间序列特征集的特征空间,所述预设算法为如下任意一种:欧氏距离、曼哈顿距离、DTW距离和SAX距离。
第二方面,本发明还提供了一种时间序列的有序分类装置,包括:
第一获取模块,用于获取M个对象中每个对象的时间序列数据,得到时间序列数据集,M为正整数;
抽取模块,用于从所述时间序列数据集中随机选取目标对象,并从所述目标对象的时间序列数据中随机选取目标子序列数据,所述目标子序列数据为所述时间序列数据中的任意长度的数据;
第二获取模块,用于获取所述目标子序列数据的覆盖集中度和优势度评估值;
得到模块,用于基于所述目标子序列数据的覆盖集中度和优势度评估值,得到目标时间序列特征集,所述目标时间序列特征集包括多个目标对象的目标子序列数据;
转换模块,用于基于所述目标时间序列特征集和所述时间序列数据集,转换得到所述时间序列特征集的特征空间数据;
训练模块,用于基于所述特征空间数据,训练得到用于对时间序列数据进行分类的有序分类器;
分类模块,用于获取待测对象的时间序列数据,基于所述有序分类器对所述待测对象的时间序列数据进行分类。
第三方面,本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现第一方面中所述的方法步骤。
第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面中所述的方法步骤。
本发明实施例中的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供了一种时间序列的有序分类方法,包括,获取M个对象中每个对象的时间序列数据,得到时间序列数据集,M为正整数;从该时间序列数据集中随机选取目标对象,并从目标对象的时间序列数据中随机选取目标子序列数据,该目标子序列数据为时间序列数据中的任意长度的数据;获取目标子序列数据的覆盖集中度和优势度评估值;基于目标子序列数据的覆盖集中度和优势度评估值,得到目标时间序列特征集,目标时间序列特征集包括多个目标对象的目标子序列数据;基于目标时间序列特征集和时间序列数据集,转换得到时间序列特征集的特征空间;基于特征空间,训练得到用于对时间序列数据进行分类的有序分类器;获取待测对象的时间序列数据,基于有序分类器对待测对象的时间序列数据进行分类,进而能够将有序数据转换为空间数据,并对空间数据进行有效分类,进而可有效避免由于错分类别而导致的严重后果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考图形表示相同的部件。在附图中:
图1示出了本发明实施例中时间序列的有序分类方法的步骤流程示意图;
图2示出了本发明实施例中时间序列的有序分类装置的结构示意图;
图3示出了本发明实施例中实现时间序列的有序分类方法的计算机设备的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
本发明的实施例提供了一种时间序列的有序分类方法,如图1所示,包括:
S101,获取M个对象中每个对象的时间序列数据,得到时间序列数据集,M为正整数;
S102,从时间序列数据集中随机选取目标对象,并从目标对象的时间序列数据中随机选取目标子序列数据,目标子序列数据为时间序列数据中的任意长度的数据;
S103,获取目标子序列数据的覆盖集中度和优势度评估值;
S104,基于目标子序列数据的覆盖集中度和优势度评估值,得到目标时间序列特征集,该目标时间序列特征集包括多个目标对象的目标子序列数据;
S105,基于目标时间序列特征集和时间序列数据集,转换得到时间序列特征集的特征空间;
S106,基于特征空间,训练得到用于对时间序列数据进行分类的有序分类器;
S107,获取待测对象的时间序列数据,基于有序分类器对该待测对象的时间序列数据进行分类。
在一种可选的实施方式中,以某肺炎辅助诊断为例,在S101中获取M个对象中每个对象的时间序列数据,得到时间序列数据集,M为正整数,具体是历史数据,具体为:获取M个病人的某拭子检测数据,该某拭子检测数据包括一段时间内的检测结果,或者是M个病人的血氧情况,当然,该血氧情况包括一段时间内的血氧检测结果等等,在此就不再一一列举了。
在获取M个对象中每个对象的时间序列数据之后,需要对这些时间序列数据进行处理,具体包括:标准化处理、PAA转换、SAX表示以及时间序列类别标签有序化处理。
(1)时间序列数据的标准化处理,具体是采用Z-Normalization对时间序列数据进行标准化处理。
(2)时间序列数据的PAA转换,通过给定滑动窗口大小,将原始时间序列数据分段聚合,用每段的均值表示该时间序列数据片段。比如,原始时间序列数据为<0.373,0.425,0.409,-0.365,-0.388,-0.406,0.511,0.928>,若给定的滑动窗口大小为2,则转换后的时间序列为<0.399,0.022,-0.397,0.720>。
(3)时间序列数据的SAX(Symbolic Aggregate approXimation,字符聚合近似)表示,根据映射函数,将该时间序列数据分段聚合的值转换为相应的字符表示。例如,给定字符集合为{a,b,c,d,e},则上述例子中的时间序列数据转换为SAX表示结果为{d,c,b,d}。
(4)时间序列数据类别标签的有序化处理,将标量表示的时间序列类别标签按照全序关系,处理为连续的整数表示,具体地,标量表示的时间序列类别标签C={ c1,c2,……,cQ}在表示为有序类别标签时,为Y={ c1 ’, c2 ’,……,cQ ‘ },其中,c1和c1 ’分别表示原始类别标签和处理后的类别标签,Q是时间序列数据的类别标签数量,转换后的各类别标签存在全序关系,为了计算方便,可直接简化为Y={1,2,……,Q}。例如,在某肺炎辅助诊断中,若诊断结果为{正常,轻症,重症,危重症}四类,按照严重程度依次加重,可采用1,2,3和4分别代表正常、轻症、重症和危重症。
采用上述的处理过程,得到时间序列数据集,该处理过程中采用SAX表示的数据的方式,可以起到数据降维、降低噪声、减少存储、提高计算效率等作用,还可以充分利用字符表示的优势。
接着,执行S102,从时间序列数据集中随机选取目标对象,并从该目标对象的时间序列数据中随机选取目标子序列数据,该目标子序列数据为时间序列数据中的任意长度的数据。
在随机选取目标对象以及该目标对象的时间序列数据中的目标子序列数据时,是在预设时间内进行选取并进行处理的,该任意长度的数据为任一预设时长的数据,采用预设时间的目的是为了在简短时间内提高处理的效率。
在将选取到的目标子序列数据进行CD-Cover(Concentration andDominanceofCoverage,覆盖集中度和优势度评估值)评价,具体是执行S103,获取目标子序列数据的覆盖集中度和优势度评估值。
在该步骤之前,还包括:采用布隆过滤器检查目标子序列数据是否已获得覆盖集中度和优势度评估值;若是,返回执行从M个对象中随机选取目标对象,并从目标对象的时间序列数据中随机选取目标子序列数据的步骤;若否,执行获取目标子序列数据的覆盖集中度和优势度评估值的步骤。
由于是随机选取目标子序列数据,因此,可能会选取到已经处理的目标子序列数据,采用布隆过滤器可以避免重复处理。
获取目标子序列数据的覆盖集中度和优势度评估值,具体包括:获取目标子序列数据的覆盖集中度;获取目标子序列数据的覆盖优势度;基于目标子序列数据的覆盖集中度和覆盖优势度,确定目标子序列数据的覆盖集中度和优势度评估值。
其中,目标子序列数据的覆盖集中度取值范围为[0,1],覆盖集中度值越大,表明覆盖越集中;目标子序列数据的覆盖优势度取值范围为[0,1],覆盖优势度值越大,表明该目标子序列数据对不同类别标签的区分能力越明显。
下面对目标子序列数据的覆盖集中度的计算过程进行详细描述:
如公式(1)所示,获取目标子序列数据的覆盖集中度,包括:
其中,表示目标子序列数据的覆盖集中度,表示任意一个目标子序列数据; 表示目标子序列数据在时间序列数据集上的覆盖,其中,表示在时间序列数据集中,类别标签为且包含所述目标子序列数据的样本数量,是时间序列数据集的类别标签的总数量; 表示目标子序列数据在时间序列数据集上覆盖的方差,表示方差的上界,且。由此获得目标子序列数据的覆盖集中度。
如公式(2)所示,获取目标子序列数据的覆盖优势度,包括:
接着,如公式(3)所示,基于该目标子序列数据的覆盖集中度和覆盖优势度,确定目标子序列数据的覆盖集中度和优势度评估值(CD-Cover),包括:
在具体的实施方式中,该权重因子可以采用0.5,即覆盖集中度和覆盖优势度的权重相同,均为0.5。
以某肺炎辅助诊断为例,若获取的时间序列数据集的类别标签Y=<1,2,3,4>,即Q=4,且每个类别标签所对应的时间序列数据的样本数量分别为<5,5,2,2>。若给定一个目标子序列数据s,且s在时间序列数据集上的覆盖,由此计算得到目标子序列数据s在时间序列数据集上覆盖的方差为,而该方差的上界,由此得到目标子序列数据的覆盖集中度,目标子序列数据s对时间序列数据集中各个类别标签的覆盖率为,因此,类别标签1覆盖率最高0.8,类别标签2覆盖率次高为0.2,该目标子序列数据的覆盖优势度。再根据公式(3),计算得到目标子序列数据的覆盖集中度和优势度评估值
上述仅仅是对任意选取的一个目标子序列数据的覆盖集中度和优势度评估值(CD-Cover)描述其计算过程,预设时间内将选取大量目标子序列数据进行计算,在此不再赘述。
接着,执行S103,基于目标子序列数据的覆盖集中度和优势度评估值,得到目标时间序列特征集,该目标时间序列特征集包括多个目标对象的目标子序列数据。
具体地,该多个目标对象的目标子序列数据是在该预设时间内任意选取并处理的,其中的处理过程不仅包括上述的CD-Cover评价处理,还包括:一些优选性处理,因此,得到目标时间特征集的步骤如下:
基于目标子序列数据的覆盖集中度和优势度评估值,得到时间序列特征集,该时间序列特征集中的任意目标子序列数据的覆盖集中度和优势度评估值(CD-Cover)均大于第一评价阈值;基于该时间序列特征集,得到初始时间序列特征集,该初始时间序列特征集中的目标子序列数据的数量小于或等于第一预设值,且第一评价阈值更新为初始时间序列特征集中最小的覆盖集中度和优势度评估值。
比如,给定CD-Cover评价的阈值为ε(初始设为0.5),即该第一评价阈值为ε,在随机选取的目标子序列数据的覆盖集中度和优势度评估值CD-Cover大于ε时,将其保留至时间序列特征集中。如果随机选取的目标子序列数据的覆盖集中度和优势度评估值(CD-Cover)小于ε,将不会保留。因此,该时间序列特征集中的目标子序列数据的覆盖集中度和优势度评估值CD-Cover均大于ε。
对时间序列特征集需要设定最大限度,如果预先设定该时间序列特征集最终大小为N,即第二预设值,当前阶段,保留2*N数量的目标子序列数据,即2*N为第一预设值。如果目标子序列数据数量超过2*N,则将第一评价阈值(即ε)更新为2*N数量的目标子序列数据覆盖集中度和优势度评估值(CD-Cover)的最小值,形成初始时间序列特征集。
接下来,对初始时间序列特征集中的目标子序列数据进行自相似处理,得到目标时间序列特征集,该目标时间序列特征集中的目标子序列数据的数量小于第二预设值,第一预设值为第二预设值的h倍,h大于1。上述例子中h选择2,当然,也可以选择1.5、2.5等等。
该自相似处理具体是在预设时间结束之后进行,具体地,确定初始时间序列特征集中存在自相似数据,包括:判断任意两个目标子序列数据是否来自同一时间序列样本以及彼此是否存在重叠部分。由于每个目标子序列数据中都自带其所来自的时间序列样本以及起始下标和长度,将目标子序列数据进行对比,则能够判断出任意两个目标子序列数据是否来自同一时间序列样本,同时可根据起始下标和长度,判断出任意两个目标子序列数据是否存在重叠部分。由此得到目标时间序列特征集,即,其中,表示任意一个目标子序列数据,该可理解为该时间序列数据集的最佳特征属性。
接下来,执行S105,基于目标时间序列特征集和时间序列数据集,转换得到时间序列特征集的特征空间。
具体地,采用预设算法计算该目标时间序列特征集中的每个目标子序列数据与时间序列数据集中的每个时间序列数据的距离,得到目标时间序列特征集的特征空间,该预设算法为如下任意一种:
欧式距离、曼哈顿距离、DTW距离和SAX距离。
下面以欧式距离为例,如公式(4)所示,对得到目标时间序列特征集的特征空间的计算过程进行详细描述:
其中,为目标时间序列特征集中的任意一个目标子序列数据,为时间序列数据集中的任意一个时间序列数据,表示目标子序列数据的长度,表示时间序列数据的长度,表示时间序列数据中从下标i开始、长度为的子序列。函数为两个等长序列的欧式距离。
由此经过上述的计算,得到时间序列特征集的特征空间如下:
接下来,执行S106,基于特征空间,训练得到用于对时间序列数据进行分类的有序分类器。
这里所采用的分类器具体可以是SVOREX(Support Vector for OrdinalRegression Explicit constraints)、SVORIM(Support Vector for Ordinal RegressionImplicit constraints)、ELMOP(Extreme Learning Machine for Ordinal Regression)等常用的支持向量有序分类器,优选采用SVORIM。
具体是将特征空间中的数据输入这些分类器中进行训练,得到用于对时间序列数据进行分类的有序分类器。在此不再赘述。
接着,在得到该有序分类器之后,执行S107,获取待测对象的时间序列数据,基于该有序分类器对该待测对象进行分类。
该步骤包括:首先,按照步骤S101对待测对象的时间序列数据进行处理,结合步骤S104得到的时间序列特征集对待测时间序列数据进行转换,得到新的特征空间,该待测对象的时间序列特征集的特征空间表示如下:
其中,L表示待测对象的时间序列数据的数量,N表示待测对象的目标时间序列特征集中目标子序列数据的数量。
接着,在得到该待测对象的时间序列特征集的特征空间之后,基于步骤S106得到的有序分类器对待测对象的时间序列数据进行分类。具体地,将待测对象的时间序列特征集的特征空间输入该有序分类器,由此输出有序分类结果。
还是以某肺炎辅助诊断为例,如果根据有序分类器分类得到的结果为1,则表示待测对象的时间序列数据为“正常”,如果有序分类器分类得到的结果为3,则表示待测对象的时间序列数据为“重症”。
本发明实施例中的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供了一种时间序列的有序分类方法,包括,获取M个对象中每个对象的时间序列数据,得到时间序列数据集,M为正整数;从该时间序列数据集中随机选取目标对象,并从目标对象的时间序列数据中随机选取目标子序列数据,该目标子序列数据为时间序列数据中的任意长度的数据;获取目标子序列数据的覆盖集中度和优势度评估值;基于目标子序列数据的覆盖集中度和优势度评估值,得到目标时间序列特征集,目标时间序列特征集包括多个目标对象的目标子序列数据;基于目标时间序列特征集和时间序列数据集,转换得到时间序列特征集的特征空间数据;基于特征空间数据,训练得到用于对时间序列数据进行分类的有序分类器;获取待测对象的时间序列数据,基于有序分类器对待测对象进行分类,进而能够将有序数据转换为空间数据,并对空间数据进行有效分类,进而可有效避免由于错分类别而导致的严重后果。
实施例二
基于相同的发明构思,本发明实施例还提供了一种时间序列的有序分类装置,如图2所示,包括:
第一获取模块201,用于获取M个对象中每个对象的时间序列数据,得到时间序列数据集,M为正整数;
抽取模块202,用于从所述时间序列数据集中随机选取目标对象,并从所述目标对象的时间序列数据中随机选取目标子序列数据,所述目标子序列数据为所述时间序列数据中的任意长度的数据;
第二获取模块203,用于获取所述目标子序列数据的覆盖集中度和优势度评估值;
得到模块204,用于基于所述目标子序列数据的覆盖集中度和优势度评估值,得到目标时间序列特征集,所述目标时间序列特征集包括多个目标对象的目标子序列数据;
转换模块205,用于基于所述目标时间序列特征集和所述时间序列数据集,得到所述时间序列特征集的特征空间数据;
训练模块206,用于基于所述特征空间数据,得到用于对时间序列数据进行分类的有序分类器;
分类模块207,用于获取待测对象的时间序列数据,基于所述有序分类器对所述待测对象的时间序列数据进行分类。
在一种可选的实施方式中,还包括:检查模块,用于在所述获取所述目标子序列数据的覆盖集中度和优势度评估值之前,采用布隆过滤器检查所述目标子序列数据是否已获得覆盖集中度和优势度评估值;若是,返回执行从所述M个对象中随机选取目标对象,并从所述目标对象的时间序列数据中随机选取目标子序列数据的步骤;若是,执行获取目标子序列数据的覆盖集中度和优势度评估值的步骤。
在一种可选的实施方式中,第二获取模块203,包括:
第一获取单元,用于获取所述目标子序列数据的覆盖集中度;
第二获取单元,用于获取所述目标子序列数据的覆盖优势度;
确定单元,用于基于所述目标子序列数据的覆盖集中度和覆盖优势度,确定所述目标子序列数据的覆盖集中度和优势度评估值。
在一种可选的实施方式中,所述时间序列数据集中还包括:对应于每个时间序列数据的类别标签,第一获取单元:
其中,表示目标子序列数据的覆盖集中度,表示任意一个目标子序列数据;表示目标子序列数据在时间序列数据集上的覆盖,其中,表示在所述时间序列数据集中,类别标签为且包含所述目标子序列数据的样本数量,是所述时间序列数据集的类别标签的总数量;表示目标子序列数据在所述时间序列数据集上覆盖的方差, 表示所述方差的上界,且 ;
第二获取单元,包括:
确定单元,包括:
在一种可选的实施方式中,得到模块,用于:
基于目标子序列数据的覆盖集中度和优势度评估值,得到时间序列特征集,所述时间序列特征集中的任意目标子序列数据的覆盖集中度和优势度评估值均大于第一评价阈值;
基于所述时间序列特征集,得到初始时间序列特征集,所述初始时间序列特征集中的目标子序列数据的数量小于或等于第一预设值,且所述第一评价阈值更新为所述初始时间序列特征集中最小的覆盖集中度和优势度评估值。
在一种可选的实施方式中,得到模块204,还用于:
在基于所述时间序列特征集,得到初始时间序列特征集之后,对所述初始时间序列特征集中的目标子序列数据进行自相似处理,得到目标时间序列特征集,所述目标时间序列特征集中的目标子序列数据的数量小于第二预设值,且所述第一预设值为所述第二预设值的h倍,h大于1。
在一种可选的实施方式中,转换模块205,用于:
采用预设算法计算所述目标时间序列特征集中的每个目标子序列数据与所述时间序列数据集中的每个时间序列数据的距离,得到所述目标时间序列特征集的特征空间,所述预设算法为如下任意一种:
欧氏距离、曼哈顿距离、DTW距离和SAX距离。
实施例三
基于相同的发明构思,本发明实施例提供了一种计算机设备,如图3所示,包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现上述时间序列的有序分类方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
实施例四
基于相同的发明构思,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述时间序列的有序分类方法的步骤。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的时间序列的有序分类装置、计算机设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种时间序列的有序分类方法,其特征在于,包括:
获取M个对象中每个对象的时间序列数据,得到时间序列数据集,M为正整数;
从所述时间序列数据集中随机选取目标对象,并从所述目标对象的时间序列数据中随机选取目标子序列数据,所述目标子序列数据为所述时间序列数据中的任意长度的数据;
获取所述目标子序列数据的覆盖集中度和优势度评估值;
基于所述目标子序列数据的覆盖集中度和优势度评估值,得到目标时间序列特征集,所述目标时间序列特征集包括多个目标子序列数据;
基于所述目标时间序列特征集和所述时间序列数据集,转换得到所述时间序列特征集的特征空间;
基于所述特征空间,训练得到用于对时间序列数据进行分类的有序分类器;
获取待测对象的时间序列数据,基于所述有序分类器对所述待测对象的时间序列数据进行分类。
2.如权利要求1所述的方法,其特征在于,在所述获取所述目标子序列数据的覆盖集中度和优势度评估值之前,还包括:
采用布隆过滤器检查所述目标子序列数据是否已获得覆盖集中度和优势度评估值;
若是,返回执行从所述M个对象中随机选取目标对象,并从所述目标对象的时间序列数据中随机选取目标子序列数据的步骤;
若否,执行获取目标子序列数据的覆盖集中度和优势度评估值的步骤。
3.如权利要求1所述的方法,其特征在于,所述获取所述目标子序列数据的覆盖集中度和优势度评估值,包括:
获取所述目标子序列数据的覆盖集中度;
获取所述目标子序列数据的覆盖优势度;
基于所述目标子序列数据的覆盖集中度和覆盖优势度,确定所述目标子序列数据的覆盖集中度和优势度评估值。
4.如权利要求3所述的方法,其特征在于,所述时间序列数据集中还包括:对应于每个时间序列数据的类别标签,所述获取所述目标子序列数据的覆盖集中度,包括:
其中,表示目标子序列数据的覆盖集中度,表示任意一个目标子序列数据;表示目标子序列数据在时间序列数据集上的覆盖,其中,表示在所述时间序列数据集中,类别标签为且包含所述目标子序列数据的样本数量,是所述时间序列数据集的类别数量;表示目标子序列数据在所述时间序列数据集上覆盖的方差,表示所述方差的上界,且;
所述获取所述目标子序列数据的覆盖优势度,包括:
所述基于所述目标子序列数据的覆盖集中度和覆盖优势度,确定所述目标子序列数据的覆盖集中度和优势度评估值,包括:
5.如权利要求1所述的方法,其特征在于,所述基于所述目标子序列数据的覆盖集中度和优势度评估值,转换得到目标时间序列特征集,所述目标时间序列特征集包括多个目标对象的目标子序列数据,包括:
基于目标子序列数据的覆盖集中度和优势度评估值,得到时间序列特征集,所述时间序列特征集中的任意目标子序列数据的覆盖集中度和优势度评估值均大于第一评价阈值;
基于所述时间序列特征集,得到初始时间序列特征集,所述初始时间序列特征集中的目标子序列数据的数量小于或等于第一预设值,且所述第一评价阈值更新为所述初始时间序列特征集中最小的覆盖集中度和优势度评估值。
6.如权利要求5所述的方法,其特征在于,在基于所述时间序列特征集,得到初始时间序列特征集之后,还包括:
对所述初始时间序列特征集中的目标子序列数据进行自相似处理,得到目标时间序列特征集,所述目标时间序列特征集中的目标子序列数据的数量小于第二预设值,且所述第一预设值为所述第二预设值的h倍,h大于1。
7.如权利要求1所述的方法,其特征在于,基于所述目标时间序列特征集和所述时间序列数据集,转换得到所述目标时间序列特征集的特征空间,包括:
采用预设算法计算所述目标时间序列特征集中的每个目标子序列数据与所述时间序列数据集中的每个时间序列数据的距离,得到所述目标时间序列特征集的特征空间,所述预设算法为如下任意一种:欧氏距离、曼哈顿距离、DTW距离和SAX距离。
8.一种时间序列的有序分类装置,其特征在于,包括:
第一获取模块,用于获取M个对象中每个对象的时间序列数据,得到时间序列数据集,M为正整数;
抽取模块,用于从所述时间序列数据集中随机选取目标对象,并从所述目标对象的时间序列数据中随机选取目标子序列数据,所述目标子序列数据为所述时间序列数据中的任意长度的数据;
第二获取模块,用于获取所述目标子序列数据的覆盖集中度和优势度评估值;
得到模块,用于基于所述目标子序列数据的覆盖集中度和优势度评估值,得到目标时间序列特征集,所述目标时间序列特征集包括多个目标对象的目标子序列数据;
转换模块,用于基于所述目标时间序列特征集和所述时间序列数据集,转换得到所述时间序列特征集的特征空间数据;
训练模块,用于基于所述特征空间数据,训练得到用于对时间序列数据进行分类的有序分类器;
分类模块,用于获取待测对象的时间序列数据,基于所述有序分类器对所述待测对象的时间序列数据进行分类。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一权利要求所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~7中任一权利要求所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211169963.5A CN115270998B (zh) | 2022-09-26 | 2022-09-26 | 时间序列的有序分类方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211169963.5A CN115270998B (zh) | 2022-09-26 | 2022-09-26 | 时间序列的有序分类方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115270998A true CN115270998A (zh) | 2022-11-01 |
CN115270998B CN115270998B (zh) | 2022-12-02 |
Family
ID=83755885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211169963.5A Active CN115270998B (zh) | 2022-09-26 | 2022-09-26 | 时间序列的有序分类方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270998B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541784A (zh) * | 2023-07-04 | 2023-08-04 | 乐山师范学院 | 一种基于字典树和覆盖度的时间序列分类方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809226A (zh) * | 2015-05-07 | 2015-07-29 | 武汉大学 | 一种早期分类不平衡多变量时间序列数据的方法 |
CN109376799A (zh) * | 2018-11-29 | 2019-02-22 | 中国地质大学(武汉) | 一种基于多样性shapelet的时间序列早期分类方法及设备 |
CN110956206A (zh) * | 2019-11-22 | 2020-04-03 | 珠海复旦创新研究院 | 时间序列状态识别方法、装置及设备 |
CN111738329A (zh) * | 2020-06-19 | 2020-10-02 | 中南大学 | 一种面向时间序列遥感影像的土地利用分类方法 |
US20210383250A1 (en) * | 2018-02-26 | 2021-12-09 | Hitachi Information & Telecommunication Engineering, Ltd. | State Prediction Apparatus and State Prediction Control Method |
CN114154548A (zh) * | 2020-09-07 | 2022-03-08 | 上海顺如丰来技术有限公司 | 销量数据序列分类方法、装置、计算机设备和存储介质 |
CN114155048A (zh) * | 2021-12-29 | 2022-03-08 | 中国建设银行股份有限公司 | 关联业务预测的方法、装置、电子设备及存储介质 |
-
2022
- 2022-09-26 CN CN202211169963.5A patent/CN115270998B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809226A (zh) * | 2015-05-07 | 2015-07-29 | 武汉大学 | 一种早期分类不平衡多变量时间序列数据的方法 |
US20210383250A1 (en) * | 2018-02-26 | 2021-12-09 | Hitachi Information & Telecommunication Engineering, Ltd. | State Prediction Apparatus and State Prediction Control Method |
CN109376799A (zh) * | 2018-11-29 | 2019-02-22 | 中国地质大学(武汉) | 一种基于多样性shapelet的时间序列早期分类方法及设备 |
CN110956206A (zh) * | 2019-11-22 | 2020-04-03 | 珠海复旦创新研究院 | 时间序列状态识别方法、装置及设备 |
CN111738329A (zh) * | 2020-06-19 | 2020-10-02 | 中南大学 | 一种面向时间序列遥感影像的土地利用分类方法 |
CN114154548A (zh) * | 2020-09-07 | 2022-03-08 | 上海顺如丰来技术有限公司 | 销量数据序列分类方法、装置、计算机设备和存储介质 |
CN114155048A (zh) * | 2021-12-29 | 2022-03-08 | 中国建设银行股份有限公司 | 关联业务预测的方法、装置、电子设备及存储介质 |
Non-Patent Citations (6)
Title |
---|
KAZUHITO SATO等: "Experimental studies with a hybrid model of unsupervised neural networks", 《THE 2011 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 * |
原继东等: "基于Shapelet剪枝和覆盖的时间序列分类算法", 《软件学报》 * |
孙其法: "基于多样化Top-k Shapelets的时间序列分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
敬思远等: "网络行为异常检测研究综述", 《乐山师范学院学报》 * |
王靖云: "时间序列数据中相似子序列快速查询技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
马东什么: "传统时间序列分类综述(单变量)", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/434581898》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541784A (zh) * | 2023-07-04 | 2023-08-04 | 乐山师范学院 | 一种基于字典树和覆盖度的时间序列分类方法及装置 |
CN116541784B (zh) * | 2023-07-04 | 2023-09-26 | 乐山师范学院 | 一种基于字典树和覆盖度的时间序列分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115270998B (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9076197B2 (en) | Probability density function estimation | |
CN111160139A (zh) | 心电信号的处理方法、装置及终端设备 | |
CN109934278B (zh) | 一种信息增益混合邻域粗糙集的高维度特征选择方法 | |
CN112668164A (zh) | 诱导有序加权证据推理的变压器故障诊断方法及系统 | |
CN110660055B (zh) | 疾病数据预测方法、装置、可读存储介质及电子设备 | |
CN113610859B (zh) | 一种基于超声图像的甲状腺结节自动分割方法 | |
CN113855038B (zh) | 基于多模型集成的心电信号危急值的预测方法及装置 | |
CN115270998B (zh) | 时间序列的有序分类方法、装置、计算机设备及存储介质 | |
Ma et al. | A new classifier fusion method based on historical and on-line classification reliability for recognizing common CT imaging signs of lung diseases | |
CN105611872A (zh) | 用于评估多通道ecg信号的装置和方法 | |
CN108447047A (zh) | 抗酸杆菌检测方法及装置 | |
CN111028940A (zh) | 肺结节多尺度检测方法、装置、设备及介质 | |
JP2021012603A (ja) | 情報処理装置、情報処理方法、プログラム及び学習済みモデルの生成方法 | |
CN116631626A (zh) | 一种患者临床风险评估方法、装置、设备及介质 | |
CN116129182A (zh) | 一种基于知识蒸馏和近邻分类的多维度医疗图像分类方法 | |
CN115526882A (zh) | 一种医学图像的分类方法、装置、设备及存储介质 | |
CN112837218B (zh) | 基于双流边界感知的动脉瘤图像分析系统、方法和设备 | |
CN114305387A (zh) | 基于磁共振成像的脑小血管病变图像分类方法、设备及介质 | |
Koul et al. | Enhancing the detection of airway disease by applying deep learning and explainable artificial intelligence | |
CN114937000A (zh) | 计算机实施的确定管状物狭窄率的方法及其相关产品 | |
Young et al. | Measuring structural complexity in brain images | |
CN111709946A (zh) | 一种影像数据分析方法、装置、终端设备及存储介质 | |
CN110889836A (zh) | 一种影像数据分析方法、装置、终端设备及存储介质 | |
CN111768367A (zh) | 数据处理方法、装置和存储介质 | |
CN110689112A (zh) | 数据处理的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |