CN115510982A - 一种聚类方法、装置、设备以及计算机存储介质 - Google Patents
一种聚类方法、装置、设备以及计算机存储介质 Download PDFInfo
- Publication number
- CN115510982A CN115510982A CN202211203950.5A CN202211203950A CN115510982A CN 115510982 A CN115510982 A CN 115510982A CN 202211203950 A CN202211203950 A CN 202211203950A CN 115510982 A CN115510982 A CN 115510982A
- Authority
- CN
- China
- Prior art keywords
- data
- clustering
- data points
- target
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种聚类方法、装置、设备以及计算机存储介质,该方法包括:获取待聚类的时间序列数据;其中,时间序列数据包括若干个数据点;根据时间序列数据中相邻数据点之间数据值的变化幅度,从若干个数据点中筛选出目标数据点;基于目标数据点,对时间序列数据进行预聚类,得到至少两类数据点;对至少两类数据点进行再次聚类,得到聚类结果。这样,能够通过在时间序列数据中筛选出特征明显的目标数据点,并根据目标数据点对时间序列数据进行预聚类,然后进行再次聚类,降低聚类过程的时间复杂度和空间复杂度。
Description
技术领域
本申请涉及显示技术领域,尤其涉及一种聚类方法、装置、设备以及计算机存储介质。
背景技术
聚类在供应链预测中有非常广泛的应用。示例性的,在A公司需求预测项目中,我们的预测框架会对所有历史机型销量数据聚类,以寻找相似机型进行预测。但是由于机型数量众多,预测又对时效性有一定要求,所以聚类的效率和性能都是难点。
相关技术中,针对时间序列数据的聚类问题中一大要点是对于距离的衡量。不同于散点数据,时间序列数据由于存在时序依赖,且常常表现出不等长、相位偏移等等特性,因此常采用动态时间归整(Dynamic Time Warping,DTW)衡量两条时间序列数据的距离。然而,DTW存在的一个明显缺点是计算复杂度较高,计算复杂度包含时间复杂度和空间复杂度,两者并列冗余,这些缺陷在大样本聚类问题中会显著放大。
发明内容
本申请的目的在于提出一种聚类方法、装置、设备以及计算机存储介质。
为达到上述目的,本申请的技术方案是这样实现的:
第一方面,本申请实施例提供了一种聚类方法,包括:
获取待聚类的时间序列数据;其中,所述时间序列数据包括若干个数据点;
根据时间序列数据中相邻数据点之间数据值的变化幅度,从所述若干个数据点中筛选出目标数据点;
基于所述目标数据点,对所述时间序列数据进行预聚类,得到至少两类数据点;
对所述至少两类数据点进行再次聚类,得到聚类结果。
在一些实施例中,所述根据时间序列数据中相邻数据点之间数据值的变化幅度,从所述若干个数据点中筛选出目标数据点,包括:
基于所述时间序列数据,确定所述若干个数据点与相邻数据点之间数据值的变化幅度;
按照所述变化幅度从大到小,对所述时间序列数据中的数据点进行排序,得到排序结果;
基于所述排序结果,确定所述变化幅度大的若干个数据点作为所述目标数据点。
在一些实施例中,所述基于所述时间序列数据,确定所述若干个数据点与相邻数据点之间数据值的变化幅度,包括:
基于所述时间序列数据,确定所述若干个数据点与相邻数据点构成线段的目标距离;
根据所述若干个数据点对应的所述目标距离,确定所述每一个数据点与相邻数据点之间数据值的变化幅度。
在一些实施例中,所述基于所述时间序列数据,确定所述若干个数据点与相邻数据点构成线段的目标距离,包括:
利用预设半径的圆对第一数据点进行检测;
在第一数据点与相邻数据点构成线段均与所述预设半径的圆相切的情况下,确定所述第一数据点到圆心的距离;
确定所述距离为所述目标距离;
其中,所述第一数据点为所述时间序列数据中任意一个数据点。
在一些实施例中,所述基于所述目标数据点,对所述时间序列数据进行预聚类,得到至少两类数据点,包括:
获取所述目标数据点对应的变化幅度和所述目标数据点对应的索引信息;
根据所述变化幅度和所述索引信息,对所述时间序列数据进行预聚类,得到所述至少两类数据点。
在一些实施例中,所述根据所述变化幅度和所述索引信息,对所述时间序列数据进行预聚类,得到所述至少两类数据点,包括:
将所述目标数据点对应的变化幅度和所述目标数据点对应的索引信息确定为聚类特征,并构建对应的特征矩阵;
基于所述特征矩阵对所述时间序列数据进行预聚类,得到所述至少两类数据点。
在一些实施例中,对所述至少两类数据点进行再次聚类,得到聚类结果,包括:
根据动态时间规整算法,对所述第一类数据点中的时间序列数据之间进行时间规整处理;
对处理后的第一类数据点进行再次聚类,得到所述聚类结果
其中,所述第一类数据点为所述至少两类数据点中的任意一类。
第二方面,本申请实施例提供了一种聚类装置,包括:
获取单元,配置为获取待聚类的时间序列数据;其中,所述时间序列数据包括若干个数据点;
筛选单元,配置为根据时间序列数据中相邻数据点之间数据值的变化幅度,从所述若干个数据点中筛选出目标数据点;
第一聚类单元,配置为基于所述目标数据点,对所述时间序列数据进行预聚类,得到至少两类数据点;
第二聚类单元,配置为对所述至少两类数据点进行再次聚类,得到聚类结果。
第三方面,本申请实施例提供了一种电子设备,所述电子设备包括:
存储器,用于存储能够在处理器上运行的计算机程序;
处理器,用于在运行所述计算机程序时,执行如第一方面任一项所述的方法。
第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时实现如第一方面中任一项所述的方法。
本申请实施例所提供的一种聚类方法、装置、设备以及计算机存储介质,获取待聚类的时间序列数据;其中,时间序列数据包括若干个数据点;根据时间序列数据中相邻数据点之间数据值的变化幅度,从若干个数据点中筛选出目标数据点;基于目标数据点,对时间序列数据进行预聚类,得到至少两类数据点;对至少两类数据点进行再次聚类,得到聚类结果。这样,能够通过在时间序列数据中筛选出特征明显的目标数据点,并根据目标数据点对时间序列数据进行预聚类,然后进行再次聚类,降低聚类过程的时间复杂度和空间复杂度。
附图说明
图1为本申请实施例提供的一种聚类方法的流程示意图;
图2为本申请实施例提供的一种聚类方法的聚类原理示意图;
图3为本申请实施例提供的一种时间序列数据的目标距离示意图;
图4为本申请实施例提供的一种时间对应目标距离的柱状示意图;
图5为本申请实施例提供的一种目标数据点对应数据特征的柱状示意图;
图6为本申请实施例提供的一种聚类装置的组成结构示意图;
图7为本申请实施例提供的一种电子设备的具体硬件结构示意图;
图8为本申请实施例提供的一种电子设备的组成结构示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。还需要指出,本申请实施例所涉及的术语“第一\第二\第三”仅是用于区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
聚类在供应链预测中有非常广泛的应用。示例性的,在A公司需求预测项目中,我们的预测框架会对所有历史机型销量数据聚类,以寻找相似机型进行预测。但是由于机型数量众多,预测又对时效性有一定要求,所以聚类的效率和性能都是难点。
相关技术中,针对时间序列数据的聚类问题中一大要点是对于距离的衡量。不同于散点数据,时间序列数据由于存在时序依赖,且常常表现出不等长、相位偏移等等特性,因此常采用动态时间归整(Dynamic Time Warping,DTW)衡量两条时间序列数据的距离。然而,DTW存在的一个明显缺点是计算复杂度较高,计算复杂度包含时间复杂度和空间复杂度,两者并列冗余,这些缺陷在大样本聚类问题中会显著放大。
基于此,本申请实施例提供了一种聚类方法,该方法的基本思想是:获取待聚类的时间序列数据;其中,时间序列数据包括若干个数据点;根据时间序列数据中相邻数据点之间数据值的变化幅度,从若干个数据点中筛选出目标数据点;基于目标数据点,对时间序列数据进行预聚类,得到至少两类数据点;对至少两类数据点进行再次聚类,得到聚类结果。这样,能够通过在时间序列数据中筛选出特征明显的目标数据点,并根据目标数据点对时间序列数据进行预聚类,然后进行再次聚类,降低聚类过程的时间复杂度和空间复杂度。
在本申请的一实施例中,参见图1,其示出了本申请实施例提供的一种聚类方法的流程示意图。如图1所示,该方法可以包括:
S101:获取待聚类的时间序列数据;其中,所述时间序列数据包括若干个数据点。
需要说明的是,本申请实施例提供的聚类方法可以应用于聚类装置,或者集成有聚类装置的电子设备。在这里,电子设备可以是诸如计算机、智能手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)等等。在此不作任何限定。
需要说明的是,在本申请实施例中,时间序列数据可以包括若干个数据点,同时待聚类的时间序列数据可以有多个,具体地,时间序列数据可以是在预设历史时长内,不同的时间点对目标对象的需求量。
S102:根据时间序列数据中相邻数据点之间数据值的变化幅度,从所述若干个数据点中筛选出目标数据点。
需要说明的是,在本申请实施例中,时间序列数据中包括若干个数据点,相邻数据点之间的数据值变化幅度可以通过相邻数据点之间连线的斜率作为特征,也可以通过相邻数据点形成的连线的夹角大小作为特征,还可以通过固定半径圆的圆心到数据点的距离作为特征,在此不作限定。
还需要说明的是,在本申请实施例中,在筛选目标数据点的过程中,可以通过选择对应的特征数据变化最为明显的前若干个数据点作为目标数据点,也就是说目标数据点为时间序列数据中特点最为突出的数据点。
在一些实施例中,所述根据时间序列数据中相邻数据点之间数据值的变化幅度,从所述若干个数据点中筛选出目标数据点,可以包括:
基于所述时间序列数据,确定所述若干个数据点与相邻数据点之间数据值的变化幅度;
按照所述变化幅度从大到小,对所述时间序列数据中的数据点进行排序,得到排序结果;
基于所述排序结果,确定所述变化幅度大的若干个数据点作为所述目标数据点。
需要说明的是,在本申请实施例中,先确定相邻数据点之间的变化幅度,并选择变化幅度最明显的若干个数据点作为目标数据点,其中,相邻数据点之间的数据值变化幅度可以通过相邻数据点之间连线的斜率作为特征,也可以通过相邻数据点形成的连线的夹角大小作为特征,还可以通过固定半径圆的圆心到数据点的距离作为特征对数据点进行排序。
在一些实施例中,所述基于所述时间序列数据,确定所述若干个数据点与相邻数据点之间数据值的变化幅度,可以包括:
基于所述时间序列数据,确定所述若干个数据点与相邻数据点构成线段的目标距离;
根据所述若干个数据点对应的所述目标距离,确定所述每一个数据点与相邻数据点之间数据值的变化幅度。
需要说明的是,在本申请实施例中,可以通过确定每个数据点对应的目标距离确定相邻数据点之间的数据值变化幅度,在进行目标距离的确定过程中,可以根据在每个数据点两侧的线段在距离固定的情况下与数据点的距离作为目标距离,目标距离越大说明该数据点的变化幅度越高,相反,目标距离越小说明该数据点的变化幅度越低。
在一些实施例中,所述基于所述时间序列数据,确定所述若干个数据点与相邻数据点构成线段的目标距离,可以包括:
利用预设半径的圆对第一数据点进行检测;
在第一数据点与相邻数据点构成线段均与所述预设半径的圆相切的情况下,确定所述第一数据点到圆心的距离;
确定所述距离为所述目标距离;
其中,所述第一数据点为所述时间序列数据中任意一个数据点。
需要说明的是,在本申请实施例中,可以通过一个固定半径的圆对时间序列数据中的数据点进行检测,具体地,可以将该圆依次放入数据点和相邻数据点连线构成线段形成的夹角中,在该圆与两侧线段均为相切关系的情况下,确定圆心与数据点之间的距离作为目标距离,具体地,在设置圆的半径时,需要注意不要过大,以免难以放入夹角之间无法获取目标距离,也要注意不要过小,以免导致目标距离的数据差异过小,不便于目标数据点的筛选。
S103:基于所述目标数据点,对所述时间序列数据进行预聚类,得到至少两类数据点。
需要说明的是,在本申请实施例中,在进行预聚类的过程中,把具有相同聚类特征的数据点划分到一类中,对数据点进行一个初步的分类,减轻下一步再次聚类的时间复杂度,减少了聚类过程中所需要的用的时间,并且能降低聚类过程中发生错误聚类的概率。
在一些实施例中,所述基于所述目标数据点,对所述时间序列数据进行预聚类,得到至少两类数据点,可以包括:
获取所述目标数据点对应的变化幅度和所述目标数据点对应的索引信息;
根据所述变化幅度和所述索引信息,对所述时间序列数据进行预聚类,得到所述至少两类数据点。
需要说明的是,在本申请实施例中,在进行预聚类过程中,可以采用变化幅度和索引信息作为聚类特征,需要选择出数据点中聚类特征最明显的数据点作为目标数据点,参与预聚类过程,可以对时间序列数据进行一个初步的聚类,得到若干个大类,以备后续进行再次聚类,或者说精细聚类。
在一些实施例中,所述根据所述变化幅度和所述索引信息,对所述时间序列数据进行预聚类,得到所述至少两类数据点,可以包括:
将所述目标数据点对应的变化幅度和所述目标数据点对应的索引信息确定为聚类特征,并构建对应的特征矩阵;
基于所述特征矩阵对所述时间序列数据进行预聚类,得到所述至少两类数据点。
需要说明的是,在本申请实施例中,通过对目标数据点对应的变化幅度和目标数据点对应的索引信息构建特征矩阵,示例性的,当目标数据点有K个,那么可以基于变化幅度和索引信息构建2K维特征矩阵,并基于该2K维特征矩阵进行聚类,得到预聚类结果,其中预聚类结果中至少把数据点划分成了两个类别。
S104:对所述至少两类数据点进行再次聚类,得到聚类结果。
需要说明的是,在本申请实施例中,可以对进行预聚类之后的数据点进行再次聚类,由于预聚类将数据点分成了至少两类,在进行再次聚类或者精细聚类的过程中,可以对至少两类数据点中的每一类数据点分别进行精细聚类,精细聚类完成后,得到最终的聚类结果。
在一些实施例中,对所述至少两类数据点进行再次聚类,得到聚类结果,可以包括:
根据动态时间规整算法,对所述第一类数据点中的时间序列数据之间进行时间规整处理;
对处理后的第一类数据点进行再次聚类,得到所述聚类结果
其中,所述第一类数据点为所述至少两类数据点中的任意一类。
需要说明的是,本申请实施例中,对于两类数据点中的每一类数据点,先采用动态时间规整算法确定待聚类时间序列数据中的每一条序列到聚类中心之间的距离进行再次聚类,也就是精细聚类,可以把每一类数据点在进行一次内部聚类,得到最终的聚类结果。
本申请实施例提供了一种聚类方法,获取待聚类的时间序列数据;其中,时间序列数据包括若干个数据点;根据时间序列数据中相邻数据点之间数据值的变化幅度,从若干个数据点中筛选出目标数据点;基于目标数据点,对时间序列数据进行预聚类,得到至少两类数据点;对至少两类数据点进行再次聚类,得到聚类结果。这样,能够通过在时间序列数据中筛选出特征明显的目标数据点,并根据目标数据点对时间序列数据进行预聚类,然后进行再次聚类,降低聚类过程的时间复杂度和空间复杂度。
在本申请的另一实施例中,参见图2,其示出了本申请实施例提供的一种聚类方法的聚类原理示意图。以基于DTW的层级聚类为例,若初始时间序列为N条,在第一轮计算中会进行次DTW计算,由组合数计算公式可知DTW的计算次数会随N的增大而快速增加。同理,对于EM算法每一次循环中要计算所有数据点到所有聚类中心的距离,计算次数也会随N的增大而快速增加。而每一次DTW计算都伴随着O(N2)的时间复杂度。一个可行的加快聚类速度的操作是进行预聚类,思想为通过一个较快速的聚类方法缩小解空间。
本申请实施例提出了一种针对预聚类的特征构建方法,以达到降低时间复杂度、降低错误聚类概率的目的。该方法可以包括以下几方面:
第一方面:本申请的主要思想为通过时间复杂度更低的算法将原始数据进行粗略的“预聚类”,通过降低解空间提高计算速度;
第二方面:预聚类中特征由以下方法构建:
(a)通过固定半径的圆对各点进行检验;
(b)记录各个时刻数据点间形成的两线段的内切圆圆心到该数据点的距离(对于首尾点以移动均值分别在左右两侧进行补齐);
(c)记录上述距离最大的前K个数据点,K为超参数;
(d)在原始序列中找到对应点的值及相位。
第三方面:基于第二方面得到的2K维特征矩阵进行聚类,获得各时间序列属于某一大类的预聚类结果;
第四方面:对于各类,进行基于DTW的聚类,以确定最后的精细聚类结果。
本申请提出的特征构建方法不仅能大幅缩减基于DTW的时序聚类问题的时间耗费;在进行聚类时超参数不敏感;并且特征构建过程时间复杂度低,具体地,时间复杂度可以为O(N2)。
在一种具体地实施例中,可以采用固定半径的圆对时间序列数据中各个数据点进行检测,得到对应的聚类特征,参见图3,其示出了本申请实施例提供的一种时间序列数据的目标距离检测示意图;参见图4,其示出了本申请实施例提供的一种时间对应目标距离的柱状示意图;参见图5,其示出了本申请实施例提供的一种目标数据点对应数据特征的柱状示意图;具体地,该方法可以包括:
步骤1:如图3所示,对每条时间序列,以固定半径的圆对各数据点进行检验;
步骤2:如图4所示,得到各数据点到对应圆心的距离;
步骤3:如图5所示,选取距离最大的前K个数据点,得到其距离值vi与相位pi;
步骤4:将[vi,pi],i=1,2,…,K作为聚类特征。
需要说明的是,在本申请实施例中,距离值vi可以为前述实施例中的目标距离,相位pi可以为前述实施例中的索引信息。
本申请实施例提供了一种聚类方法,基于上述实施例对前述实施例的具体实现进行详细阐述,从中可以看出,根据前述实施例的技术方案,通过固定半径的圆对各数据点进行检验,构建新的聚类特征,通过新的聚类特征进行预聚类,然后进行再次聚类,降低聚类过程的时间复杂度和空间复杂度。
在本申请的又一实施例中,参见图6,其示出了本申请实施例提供的一种聚类装置的组成结构示意图。如图6所示,该聚类装置60可以包括:
获取单元601,配置为获取待聚类的时间序列数据;其中,所述时间序列数据包括若干个数据点;
筛选单元602,配置为根据时间序列数据中相邻数据点之间数据值的变化幅度,从所述若干个数据点中筛选出目标数据点;
第一聚类单元603,配置为基于所述目标数据点,对所述时间序列数据进行预聚类,得到至少两类数据点;
第二聚类单元604,配置为对所述至少两类数据点进行再次聚类,得到聚类结果。
在一些实施例中,筛选单元602,具体配置为基于所述时间序列数据,确定所述若干个数据点与相邻数据点之间数据值的变化幅度;以及按照所述变化幅度从大到小,对所述时间序列数据中的数据点进行排序,得到排序结果;以及基于所述排序结果,确定所述变化幅度大的若干个数据点作为所述目标数据点。
在一些实施例中,筛选单元602,具体配置为基于所述时间序列数据,确定所述若干个数据点与相邻数据点构成线段的目标距离;以及根据所述若干个数据点对应的所述目标距离,确定所述每一个数据点与相邻数据点之间数据值的变化幅度。
在一些实施例中,筛选单元602,具体配置为利用预设半径的圆对第一数据点进行检测;以及在第一数据点与相邻数据点构成线段均与所述预设半径的圆相切的情况下,确定所述第一数据点到圆心的距离;以及确定所述距离为所述目标距离;其中,所述第一数据点为所述时间序列数据中任意一个数据点。。
在一些实施例中,第一聚类单元603,具体配置为获取所述目标数据点对应的变化幅度和所述目标数据点对应的索引信息;以及根据所述变化幅度和所述索引信息,对所述时间序列数据进行预聚类,得到所述至少两类数据点。
在一些实施例中,第一聚类单元603,具体配置为将所述目标数据点对应的变化幅度和所述目标数据点对应的索引信息确定为聚类特征,并构建对应的特征矩阵;以及基于所述特征矩阵对所述时间序列数据进行预聚类,得到所述至少两类数据点。
在一些实施例中,第二聚类单元604,具体配置为根据动态时间规整算法,对所述第一类数据点中的时间序列数据之间进行时间规整处理;以及对处理后的第一类数据点进行再次聚类,得到所述聚类结果;其中,所述第一类数据点为所述至少两类数据点中的任意一类。
可以理解地,在本实施例中,“单元”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是模块,还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
因此,本实施例提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时实现前述实施例中任一项所述的方法的步骤。
基于上述聚类装置60的组成以及计算机存储介质,参见图7,其示出了本申请实施例提供的一种电子设备的具体硬件结构示意图。如图7所示,电子设备70可以包括:通信接口701、存储器702、处理器703;各个组件通过总线系统704耦合在一起。可理解,总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统704。其中,通信接口701,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
存储器702,用于存储能够在处理器703上运行的计算机程序;
处理器703,用于在运行所述计算机程序时,执行:
获取待聚类的时间序列数据;其中,所述时间序列数据包括若干个数据点;
根据时间序列数据中相邻数据点之间数据值的变化幅度,从所述若干个数据点中筛选出目标数据点;
基于所述目标数据点,对所述时间序列数据进行预聚类,得到至少两类数据点;
对所述至少两类数据点进行再次聚类,得到聚类结果。
处理器703,用于根据所述第一参数和显示内容,对所述遮光罩706进行调节,以使所述显示内容达到目标显示效果。
可以理解,本申请实施例中的存储器702可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步链动态随机存取存储器(Synchronous link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本文描述的系统和方法的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。
而处理器703可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器703中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器703可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702,处理器703读取存储器702中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
可选地,作为另一个实施例,处理器703还配置为在运行所述计算机程序时,执行前述实施例中任一项所述的方法的步骤。
在本申请的再一实施例中,参见图8,其示出了本申请实施例提供的一种电子设备70的组成结构示意图。如图8所示,该电子设备70至少包括前述实施例中任一项所述的聚类装置60。
在本申请实施例中,对于电子设备70而言,获取待聚类的时间序列数据;其中,时间序列数据包括若干个数据点;根据时间序列数据中相邻数据点之间数据值的变化幅度,从若干个数据点中筛选出目标数据点;基于目标数据点,对时间序列数据进行预聚类,得到至少两类数据点;对至少两类数据点进行再次聚类,得到聚类结果。这样,能够通过在时间序列数据中筛选出特征明显的目标数据点,并根据目标数据点对时间序列数据进行预聚类,然后进行再次聚类,降低聚类过程的时间复杂度和空间复杂度。
需要说明的是,在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种聚类方法,所述方法包括:
获取待聚类的时间序列数据;其中,所述时间序列数据包括若干个数据点;
根据时间序列数据中相邻数据点之间数据值的变化幅度,从所述若干个数据点中筛选出目标数据点;
基于所述目标数据点,对所述时间序列数据进行预聚类,得到至少两类数据点;
对所述至少两类数据点进行再次聚类,得到聚类结果。
2.根据权利要求1所述的方法,所述根据时间序列数据中相邻数据点之间数据值的变化幅度,从所述若干个数据点中筛选出目标数据点,包括:
基于所述时间序列数据,确定所述若干个数据点与相邻数据点之间数据值的变化幅度;
按照所述变化幅度从大到小,对所述时间序列数据中的数据点进行排序,得到排序结果;
基于所述排序结果,确定所述变化幅度大的若干个数据点作为所述目标数据点。
3.根据权利要求2所述的方法,所述基于所述时间序列数据,确定所述若干个数据点与相邻数据点之间数据值的变化幅度,包括:
基于所述时间序列数据,确定所述若干个数据点与相邻数据点构成线段的目标距离;
根据所述若干个数据点对应的所述目标距离,确定所述每一个数据点与相邻数据点之间数据值的变化幅度。
4.根据权利要求3所述的方法,所述基于所述时间序列数据,确定所述若干个数据点与相邻数据点构成线段的目标距离,包括:
利用预设半径的圆对第一数据点进行检测;
在第一数据点与相邻数据点构成线段均与所述预设半径的圆相切的情况下,确定所述第一数据点到圆心的距离;
确定所述距离为所述目标距离;
其中,所述第一数据点为所述时间序列数据中任意一个数据点。
5.根据权利要求1所述的方法,所述基于所述目标数据点,对所述时间序列数据进行预聚类,得到至少两类数据点,包括:
获取所述目标数据点对应的变化幅度和所述目标数据点对应的索引信息;
根据所述变化幅度和所述索引信息,对所述时间序列数据进行预聚类,得到所述至少两类数据点。
6.根据权利要求5所述的方法,所述根据所述变化幅度和所述索引信息,对所述时间序列数据进行预聚类,得到所述至少两类数据点,包括:
将所述目标数据点对应的变化幅度和所述目标数据点对应的索引信息确定为聚类特征,并构建对应的特征矩阵;
基于所述特征矩阵对所述时间序列数据进行预聚类,得到所述至少两类数据点。
7.根据权利要求1所述的方法,对所述至少两类数据点进行再次聚类,得到聚类结果,包括:
根据动态时间规整算法,对所述第一类数据点中的时间序列数据之间进行时间规整处理;
对处理后的第一类数据点进行再次聚类,得到所述聚类结果;
其中,所述第一类数据点为所述至少两类数据点中的任意一类。
8.一种聚类装置,所述聚类装置包括:
获取单元,配置为获取待聚类的时间序列数据;其中,所述时间序列数据包括若干个数据点;
筛选单元,配置为根据时间序列数据中相邻数据点之间数据值的变化幅度,从所述若干个数据点中筛选出目标数据点;
第一聚类单元,配置为基于所述目标数据点,对所述时间序列数据进行预聚类,得到至少两类数据点;
第二聚类单元,配置为对所述至少两类数据点进行再次聚类,得到聚类结果。
9.一种电子设备,所述电子设备包括:
存储器,用于存储能够在处理器上运行的计算机程序;
处理器,用于在运行所述计算机程序时,执行如权利要求1至7任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211203950.5A CN115510982A (zh) | 2022-09-29 | 2022-09-29 | 一种聚类方法、装置、设备以及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211203950.5A CN115510982A (zh) | 2022-09-29 | 2022-09-29 | 一种聚类方法、装置、设备以及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115510982A true CN115510982A (zh) | 2022-12-23 |
Family
ID=84507433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211203950.5A Pending CN115510982A (zh) | 2022-09-29 | 2022-09-29 | 一种聚类方法、装置、设备以及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115510982A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708003A (zh) * | 2022-04-27 | 2022-07-05 | 西南交通大学 | 一种异常数据检测方法、装置、设备及可读存储介质 |
CN116504416A (zh) * | 2023-06-27 | 2023-07-28 | 福建无止境光学仪器有限公司 | 基于机器学习的眼睛度数预测方法 |
CN116545954A (zh) * | 2023-07-06 | 2023-08-04 | 浙江赫斯电气有限公司 | 基于物联网的通信网关数据传输方法及系统 |
CN116760908A (zh) * | 2023-08-18 | 2023-09-15 | 浙江大学山东(临沂)现代农业研究院 | 基于数字孪生的农业信息优化管理方法及系统 |
-
2022
- 2022-09-29 CN CN202211203950.5A patent/CN115510982A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708003A (zh) * | 2022-04-27 | 2022-07-05 | 西南交通大学 | 一种异常数据检测方法、装置、设备及可读存储介质 |
CN116504416A (zh) * | 2023-06-27 | 2023-07-28 | 福建无止境光学仪器有限公司 | 基于机器学习的眼睛度数预测方法 |
CN116504416B (zh) * | 2023-06-27 | 2023-09-08 | 福建无止境光学仪器有限公司 | 基于机器学习的眼睛度数预测方法 |
CN116545954A (zh) * | 2023-07-06 | 2023-08-04 | 浙江赫斯电气有限公司 | 基于物联网的通信网关数据传输方法及系统 |
CN116545954B (zh) * | 2023-07-06 | 2023-08-29 | 浙江赫斯电气有限公司 | 基于物联网的通信网关数据传输方法及系统 |
CN116760908A (zh) * | 2023-08-18 | 2023-09-15 | 浙江大学山东(临沂)现代农业研究院 | 基于数字孪生的农业信息优化管理方法及系统 |
CN116760908B (zh) * | 2023-08-18 | 2023-11-10 | 浙江大学山东(临沂)现代农业研究院 | 基于数字孪生的农业信息优化管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115510982A (zh) | 一种聚类方法、装置、设备以及计算机存储介质 | |
CN111008640B (zh) | 图像识别模型训练及图像识别方法、装置、终端及介质 | |
CN110991311B (zh) | 一种基于密集连接深度网络的目标检测方法 | |
CN108763865B (zh) | 一种预测dna蛋白质结合位点的集成学习方法 | |
CN110008080B (zh) | 基于时间序列的业务指标异常检测方法、装置和电子设备 | |
US20240346317A1 (en) | Neural network method and apparatus | |
CN111612039A (zh) | 异常用户识别的方法及装置、存储介质、电子设备 | |
CN109817339B (zh) | 基于大数据的患者分组方法和装置 | |
US20170140273A1 (en) | System and method for automatic selection of deep learning architecture | |
CN110188862B (zh) | 用于数据处理的模型超参数的搜索方法、装置、系统 | |
Guo et al. | A centroid-based gene selection method for microarray data classification | |
CN117173172B (zh) | 一种基于机器视觉的硅胶成型效果检测方法及系统 | |
US20220262528A1 (en) | Method and apparatus with adverse drug reaction detection based on machine learning | |
Gao et al. | BLNN: Multiscale Feature Fusion‐Based Bilinear Fine‐Grained Convolutional Neural Network for Image Classification of Wood Knot Defects | |
CN115801463B (zh) | 工业互联网平台入侵检测的方法、装置和电子设备 | |
Jiang et al. | WRICNet: A weighted rich-scale inception coder network for remote sensing image change detection | |
CN110874601B (zh) | 识别设备运行状态的方法、状态识别模型训练方法及装置 | |
Wang et al. | A field-programmable gate array system for sonar image recognition based on convolutional neural network | |
US11874869B2 (en) | Media retrieval method and apparatus | |
CN113821840B (zh) | 基于Bagging的硬件木马检测方法、介质、计算机 | |
CN115099272A (zh) | 时序信号的处理方法及装置、设备及可读介质 | |
CN115510931A (zh) | 生成异常检测模型的方法、异常检测方法及电子设备 | |
Yang et al. | Multi-scale Feature Fusion Neural Network for Accurate Prediction of Drug-Target Interactions | |
An et al. | A coprocessor for clock-mapping-based nearest Euclidean distance search with feature vector dimension adaptability | |
CN116776134B (zh) | 一种基于PCA-SFFS-BiGRU的光伏出力预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |