CN114611620A - 一种面向无标签多维时序数据的模式发现方法、系统及终端 - Google Patents

一种面向无标签多维时序数据的模式发现方法、系统及终端 Download PDF

Info

Publication number
CN114611620A
CN114611620A CN202210265902.2A CN202210265902A CN114611620A CN 114611620 A CN114611620 A CN 114611620A CN 202210265902 A CN202210265902 A CN 202210265902A CN 114611620 A CN114611620 A CN 114611620A
Authority
CN
China
Prior art keywords
clustering
dimensional
data
time sequence
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210265902.2A
Other languages
English (en)
Inventor
郑德生
付锦涛
邓碧颖
赵昀鹏
柯武平
陆超
冯旭栋
张秀容
刘建超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
AECC Sichuan Gas Turbine Research Institute
Original Assignee
Southwest Petroleum University
AECC Sichuan Gas Turbine Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University, AECC Sichuan Gas Turbine Research Institute filed Critical Southwest Petroleum University
Priority to CN202210265902.2A priority Critical patent/CN114611620A/zh
Publication of CN114611620A publication Critical patent/CN114611620A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向无标签多维时序数据的模式发现方法、系统及终端,属于聚类技术领域,方法包括:计算各维度视角下多维时序数据的聚类标签
Figure DDA0003551834770000011
并转化为相关性矩阵集合
Figure DDA0003551834770000012
将集合
Figure DDA0003551834770000013
合并为多维属性特征信息相似度矩阵,并转化为无向加权图;基于无向加权图进行社区发现处理得到多维时序数据的模式。本发明通过计算各维度视角下多维时序数据的聚类标签,考虑了各维度属性之间的相似度;基于此得到包含各维度信息的多维属性特征信息相似度矩阵,充分考虑了维度信息对模式发现结果的影响,以此提升了聚类准确度。

Description

一种面向无标签多维时序数据的模式发现方法、系统及终端
技术领域
本发明涉及聚类技术领域,尤其涉及一种面向无标签多维时序数据的模式发现方法、系统及终端。
背景技术
随着计算机技术的发展,各个领域的数据得以通过时间序列的形式进行存储。对时间序列数据进行聚类进行模式发现已被应用于不同的行业领域,这些模式使数据分析人员能够从复杂和大规模的数据集中提取有价值的信息。
时间序列数据根据其属性维度被分为单变量时间序列数据与多维时间序列数据。在现实世界中,采集和保存的多为多维时序数据。此类数据因其时间维度长、属性变量多等特点成为了数据分析领域中较为复杂的数据类型。此外,由于现实世界中采集和存储的时序数据多为无标签数据,若采用主流机器学习中有监督的方法进行数据分析,需人工的对此类数据打标签,造成人力资源的浪费和效率低下。
因此,采用无监督的方式对多维时序数据进行分析和模式发现能降低时间和人力成本,提高效率。多维时间序列数据因其具有高维和复杂的特点,所以在相关方面的研究成果相对较少。目前在多维时序数据聚类相关研究方面主要存在的一些问题为:
1.多维时序数据中,各个属性维度的数据对聚类的结果和发现的模式有重大影响。
2.因时间序列数据体量大,造成时序相似性度量和聚类速度慢,尤其考虑具有多个维度属性的多维时序数据时,效率更低。
3.一些聚类算法需要手动传入聚类的标签数,该方式增大了人工对模式发现结果的干扰。
发明内容
本发明的目的在于解决现有技术在对多维时序数据模式发现时并未考虑多维度属性对聚类结果的影响导致聚类效果不佳的问题,提供了一种面向无标签多维时序数据的模式发现方法、系统及终端。
本发明的目的是通过以下技术方案来实现的:一种面向无标签多维时序数据的模式发现方法,方法包括以下步骤:
计算各维度视角下多维时序数据的聚类标签
Figure BDA0003551834750000021
并转化为相关性矩阵集合
Figure BDA0003551834750000022
将集合
Figure BDA0003551834750000023
合并为多维属性特征信息相似度矩阵,并转化为无向加权图;
基于无向加权图进行社区发现处理得到多维时序数据的模式。
在一示例中,所述计算各维度视角下多维时序数据的聚类标签
Figure BDA0003551834750000024
具体包括:
提取多维时序数据在各维度的分量数据,选取初始向量中心;
计算各分量特征向量与初始向量中心的距离差,获取初步聚类结果;
对初步聚类结果进行聚类迭代处理,聚类迭代过程当中进行特征分量与初始向量中心距离差的计算,计算出最小距离差从而获取最优聚类向量中心,进而得到最优分量数据聚类结果
Figure BDA0003551834750000025
在一示例中,所述选取初始向量中心具体包括:
将分量数据进行对称切分处理,将多维度数据中各分量的影响因子进行求和平均处理,得到二维空间分布的向量数据,进而选取初始向量中心。
在一示例中,所述聚类迭代处理包括:
根据多维时序数据的分布特征和数据分布设置迭代次数。
在一示例中,所述对初步聚类结果进行聚类迭代处理具体包括:
根据初始选取的向量中心对特征分量进行初步聚类,并在二维平面当中进行初步聚类的结论分析;
将多维特征分量进行绝对值求和平均计算后划分为二维特征向量,利用k-means方法进行聚类得到聚类标准中心;
对生成的聚类标准中心进行迭代计算,得到所有划分二维分量的聚类结果
Figure BDA0003551834750000031
在一示例中,所述基于无向加权图进行社区发现处理得到多维时序数据的模式具体包括:
S31:初始化无向加权图每个顶点为一个社区;
S32:依次将每个顶点与其相邻的顶点进行合并,并计算模块度增益ΔQ,再根据模块度增益ΔQ更新社区中顶点;
S33:迭代步骤S32,直至算法稳定;
S34:将各社区所有节点压缩为一个节点,将社区内点的权重转化为新节点环的权重,社区建权重转化为新节点边的权重;
S35:重复步骤S31-S33,直至算法稳定,得到多维时序数据的模式。
在一示例中,所述再根据模块度增益ΔQ更新社区中顶点具体包括:
若模块度增益ΔQ大于0,将当前节点放入相邻节点所在社区。
需要进一步说明的是,上述各示例对应的技术特征可以相互组合或替换构成新的技术方案。
本发明还包括一种面向无标签多维时序数据的聚类系统,系统包括:
多维属性关系矩阵生成模块,用于计算各维度视角下多维时序数据的聚类标签
Figure BDA0003551834750000041
并转化为相关性矩阵集合
Figure BDA0003551834750000042
多维属性相似度网络构建模块,用于将集合
Figure BDA0003551834750000043
合并为多维属性特征信息相似度矩阵,并转化为无向加权图;
模式发现模块,用于基于无向加权图进行社区发现处理得到多维时序数据的模式。
在一示例中,系统还包括数据读取模块,用于将输入的多维时序数据转换为矩阵。
本发明还包括一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于:所述处理器运行所述计算机指令时执行上述任一示例或多个示例组合形成所述的一种面向无标签多维时序数据的模式发现方法的步骤。
本发明还包括一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一示例或多个示例组成形成的所述的一种面向无标签多维时序数据的模式发现方法的步骤。
本发明还包括一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一示例或多个示例形成的所述的一种面向无标签多维时序数据的模式发现方法的步骤。
与现有技术相比,本发明有益效果是:
1.在一示例中,通过计算各维度视角下多维时序数据的聚类标签,考虑了各维度属性之间的相似度;基于此得到包含各维度信息的多维属性特征信息相似度矩阵,充分考虑了维度信息对模式发现结果的影响,以此提升了聚类准确度。
2.在一示例中,根据多维属性特征信息相似度矩阵的无向加权图进行社区发现,以此得到多维时序数据的聚类模式,无需手动指定多维时序数据的模式数量,减少了人工对模式发现结果的干扰,同时能够提高传统多维时序数据聚类算法的速度和效率,相较人工标注的方式极大地降低了人力和财力成本。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明,此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明一示例中的方法流程图;
图2为本发明优选示例的方法流程图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,属于“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明具体实施部分,具体以工业数据中机器人执行程序错误数据集Robotexecution failure中的Lp1数据集为例说明本申请发明构思,该数据集中存在88个多维时序数据,每段时序数据有6个维度属性。
在一示例中,如图1所示,一种面向无标签多维时序数据的模式发现方法,具体包括以下步骤:
S1:计算各维度视角下多维时序数据的聚类标签
Figure BDA0003551834750000061
并转化为相关性矩阵集合
Figure BDA0003551834750000062
其中,聚类标签用于标注当前维度时序数据所属的数据模式。
S2:将集合
Figure BDA0003551834750000063
合并为多维属性特征信息相似度矩阵,并转化为无向加权图;
S3:基于无向加权图进行社区发现处理得到多维时序数据的模式。本申请中,模式即多维时序数据的所属的数据类别;模式发现即用于确定多维时序数据所属的数据类别。
本申请通过计算各维度视角下多维时序数据的聚类标签,考虑了各维度属性之间的相似度,在此基础上,再基于包含各维度信息的多维属性特征信息相似度矩阵对多维时序数据整体进行聚类处理,即在多维时序数据整体聚类过程中充分考虑了维度信息对模式发现结果的影响,以此提升了聚类准确度,得到贴合实际数据分布的聚类结果。
在一示例中,计算各维度视角下多维时序数据的聚类标签
Figure BDA0003551834750000071
具体包括:
S11:提取多维时序数据在各维度的分量数据,并进行划分求和平均处理,选取初始向量中心,以对各分量数据进行聚类处理;
S12:计算各分量特征向量与向量中心的距离差,以对各样本所属区域进行划分,即实现初步聚类处理。具体地,根据S11对多维数据的划分求和平均处理获得的二维初始向量中心,计算LP1中通过降维处理的二维数据点(分量)与初始中心点的距离差,通过对88个LP1数据的距离差同初始向量中心的距离差相比较,获得初步的划分聚类。
S13:在初步聚类的结果上继续进行迭代,判断分量特征与初始向量中心的距离差是否达到极点,若继续迭代距离差出现异常,则取最后一次距离差为临界值,此时的聚类结果为最终聚类结果即分量数据聚类结果
Figure BDA0003551834750000072
停止迭代。
在一示例中,选取初始向量中心具体包括:
将分量数据进行对称切分处理,将多维度数据中各分量的影响因子进行求和平均处理,得到二维空间分布的向量数据,降低了后续聚类计算的数据处理量,在此基础上进一步选取初始向量中心;具体地,对于数据集中多元时间序列A=[A1,A2,…,Am]和多元时间序列B=[B1,B2,…,Bm],将分量中的数据进行对称切分处理,计算绝对值求和平均:
Figure BDA0003551834750000073
an=|A1+A2+…Av|/v
bn=|B1+B2+…Bv|/v
其中,v表示表示多维时序数据按分量属性数量切分的边界;m表示多元时间序列中分量数据的数量;an表示多元时间序列A中各分量数据的绝对值求和均值;bn表示多元时间序列B中各分量数据的绝对值求和均值。在此基础上,获得二维空间分布的向量数据data(an,bn),并进行二维空间的构建,为向量中心的选取提供可视化选取框架。
具体地,步骤S12计算各分量特征向量与向量中心的距离差,具体为:
根据各区域的分量数据分布情况,对获取的分量二维空间转化数据进行向量中心的距离计算,计算划分区间的分布距离D:
Figure BDA0003551834750000081
其中,data表示分量数据的特征向量;centerPoint(labels)表示中心向量。通过计算该距离支撑划分区间的选取,应用样本点data(an,bn)对样本所属区域进行划分,得到分量属性序列局部关系的相似性矩阵Y={Y1,Y2,…,Y6}。
在一示例中,还包括基于分量容差变化更新初始向量中心,以获取最佳向量中心,具体地,在获取到逻辑划分区间的距离后,根据多维时序数据集所包含的各维度数据进行单独提取,对比其中各维度的数据特征,并从中选择相关的单维度数据进行处理,并判断分量容差Var的变化|newVar-oldVar|≥toal,其中oldVar表示上次聚类处理得到的分量容差;newVar表示当前分量容差;当小于总累计容差toal时便选取为初始向量中心;根据划定的初始向量中心,计算data到初始聚类中心centerPoint的距离矩阵dist的公式为:
Figure BDA0003551834750000082
其中,T表示转置;矩阵中各点与中心点的距离为dist[i][:],表示i个点到生成的n个中心的距离。
在一示例中,聚类迭代处理时包括:
根据多维时序数据的分布特征和数据分布设置迭代次数。具体地,迭代次数根据多维时序数据集的大小来决定,过多迭代次数导致过拟合会使向量中心出现失序,根据数据集的分布特征和数据分布设置算法的迭代次数,计算方法为:data-centerPoint(labels)2,count+1,最终返回迭代次数count。采用函数下降量原则的迭代方式,每一次对计算过程的重复称为一次“迭代”,而每一次迭代得到的结果会作为下一次迭代的初始值,最终获得最优的聚类结果。其中,采用函数下降量原则的迭代计算公示为:
|f(X(k+1))-f(Xk)|≤ε,(|f(X(k+1))|≤1),
其中,f(Xk)表示当前迭代序列;f(X(k+1))表示当前的下一次迭代序列;ε表示误差临界值;
在一示例中,对初步聚类结果进行聚类迭代处理具体包括:
S141:根据向量中心以及迭代次数,将分量回归计算转化为空间向量;
S142:将分量切求和平均后的空间节点信息进行二维划分,得到聚类标准中心;
S143:对生成的聚类标准中心进行迭代聚类处理,在迭代聚类处理过程中对特征分量与初始向量中心距离差进行计算,迭代过程当中会根据获取的距离差不断更新向量中心,最终获取最优聚类向量中心,迭代结束,进而得到分量数据聚类结果
Figure BDA0003551834750000091
具体地,根据获取的向量中心以及最佳迭代次数,将分量回归计算转化为空间向量,再将这些分量求和平均后的空间节点信息进行二维划分,进而获得聚类标准中心;具体划分方式为:
Figure BDA0003551834750000092
其中,θ表示在二维坐标系当中的特征向量夹角;a表示表示初始中心横坐标;b表示初始中心纵坐标。再根据手肘法对获取中心个数进行验证,验证方法:
Figure BDA0003551834750000101
其中,SSE表示所有样本的聚类误差,表示聚类效果的好坏;x表示LP1当中的数据经过处理后的样本点;μi表示每个聚类簇的质心(初始聚类簇的所有样本的均值)。最后利用改进划分的聚类底层算法对生成的索引中心进行聚类,进行count次数的迭代,最终获取该多维时序数据集的具体聚类结果,返回分量聚类标签,获得相似性矩阵的分类,即
Figure BDA0003551834750000102
进而获得数据集中各维度视角下的多维时间序列数据聚类结果
Figure BDA0003551834750000103
进一步地,步骤S1将聚类结果
Figure BDA0003551834750000104
转化为相关性矩阵集合
Figure BDA0003551834750000105
具体为:
将聚类结果中被分到同一类数据对象关系视为1,不同类数据对象视为0,将
Figure BDA0003551834750000106
转化为反映多维时序数据对象在不同维度视角下的相关性矩阵
Figure BDA0003551834750000107
在本实施例中,
Figure BDA0003551834750000108
为88×88的矩阵。
进一步地,将集合
Figure BDA0003551834750000109
合并为多维属性特征信息相似度矩阵,合并公式为
Figure BDA00035518347500001010
在本实施例中
Figure BDA00035518347500001011
其中,
Figure BDA00035518347500001012
表示单个维度下相关性矩阵集合。
更进一步地,将多维属性特征信息相似度矩阵转化为无向加权图G,G=<VL,EL>。其中,VL表示无向加权图中节点集合,在本实施例中有88个节点,对应88个多维时序数据,即矩阵中每个多维时序数据都初始化为图中的一个节点。EL表示边集合ES=<Vi,weight,Vj>,其中weight的值为矩阵
Figure BDA00035518347500001013
中与
Figure BDA00035518347500001014
对应的特征值,其中,
Figure BDA00035518347500001015
表示单个维度属性j下相关性矩阵集合,矩阵中
Figure BDA00035518347500001016
Figure BDA00035518347500001017
对应的特征值初始化为图中顶点Vi与Vj连接的边的值,以此将各维度的分量数据与无向加权图进行关联,在充分考虑了分量数据对多维时序数据整体模式聚类结果的影响的基础上,将多维时序数据转换为了无向加权图,进而引入社区发现算法对多维时序数据整体进行再次聚类,在保证聚类精度的同时,大大降低了多维时序数据的聚类时间成本。
在一示例中,基于无向加权图进行社区发现处理得到多维时序数据的模式具体包括:
S31:初始化无向加权图每个顶点为一个社区;此处,顶点表示多维时序数据,社区表示聚类模式;本示例中,初始社区个数为88个。
S32:依次将每个顶点与其相邻的顶点进行合并,并计算两者的模块度增益ΔQ,再根据模块度增益ΔQ更新社区中顶点信息;
S33:迭代步骤S2,直至算法稳定,即所有顶点所属社区不再变化。
S34:将各社区所有节点(顶点)压缩为一个节点,将社区内点的权重转化为新节点环的权重,社区建权重转化为新节点边的权重;
S35:重复步骤S31-S33,直至算法稳定,得到多维时序数据的模式,将多维时序数据划分为不同的模式。
具体地,步骤S32中模块度增益ΔQ的计算公式为:
Figure BDA0003551834750000111
其中,m为整个图中所有加权度之和;Ki表示节点i与无向加权图中所有的节点连接的边的权重之和;若ΔQ>0,则将该节点放入该相邻节点所在社区。
在本实施例中,通过对Lp1数据集进行模式发现即数据聚类,得到工业数据中机器人执行出错的不同错误模式,本发明可应用于工业传感器采集到的多维时序数据模式发现中。
将上述示例进行组合,得到本申请优选示例,如图2所示,具体包括以下步骤:
S1’:提取多维时序数据在各维度的分量数据,并进行划分求和平均处理,选取初始向量中心;
S2’:计算各分量特征向量与向量中心的距离差,进行初步聚类处理;
S3’:对初步聚类结果进行聚类迭代处理,聚类迭代过程当中进行特征分量与初始向量中心距离差的计算,计算出最小距离差从而获取最优聚类向量中心,进而得到最优分量数据聚类结果
Figure BDA0003551834750000121
S4’:将聚类结果
Figure BDA0003551834750000122
转化为相关性矩阵集合
Figure BDA0003551834750000123
S5’:将集合
Figure BDA0003551834750000124
合并为多维属性特征信息相似度矩阵;
S6’:将多维属性特征信息相似度矩阵转化为无向加权图;
S7’:初始化无向加权图每个顶点为一个社区;
S8’:依次将每个顶点与其相邻的顶点进行合并,并计算两者的模块度增益ΔQ,再根据模块度增益ΔQ更新社区中顶点信息,并进行迭代处理,直至算法稳定;
S9’:将各社区所有节点压缩为一个节点,将社区内点的权重转化为新节点环的权重,社区建权重转化为新节点边的权重;
S10’:重复步骤S8’-S9’,直至算法稳定,得到多维时序数据的模式。
本发明还包括一种面向无标签多维时序数据的聚类系统,系统包括:
多维属性关系矩阵生成模块,用于计算各维度视角下多维时序数据的聚类标签
Figure BDA0003551834750000125
并转化为相关性矩阵集合
Figure BDA0003551834750000126
多维属性相似度网络构建模块,用于将集合
Figure BDA0003551834750000127
合并为多维属性特征信息相似度矩阵,并转化为无向加权图;
模式发现模块,用于基于无向加权图进行社区发现处理得到多维时序数据的模式。将聚类结果
Figure BDA0003551834750000128
转化为相关性矩阵集合
Figure BDA0003551834750000129
并合并为多维属性特征信息相似度矩阵
本发明系统还包括数据读取模块,用于将输入的多维时序数据转换为矩阵。
本申请还包括一种存储介质,与实施例1具有相同的发明构思,其上存储有计算机指令,所述计算机指令运行时执行上述一种面向无标签多维时序数据的模式发现方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还包括一种终端,与实施例1具有相同的发明构思,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述一种面向无标签多维时序数据的模式发现方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。

Claims (10)

1.一种面向无标签多维时序数据的模式发现方法,其特征在于:其包括以下步骤:
计算各维度视角下多维时序数据的聚类标签
Figure FDA0003551834740000011
并转化为相关性矩阵集合
Figure FDA0003551834740000012
将集合
Figure FDA0003551834740000013
合并为多维属性特征信息相似度矩阵,并转化为无向加权图;
基于无向加权图进行社区发现处理得到多维时序数据的模式。
2.根据权利要求1所述的一种面向无标签多维时序数据的模式发现方法,其特征在于:所述计算各维度视角下多维时序数据的聚类标签
Figure FDA0003551834740000014
具体包括:
提取多维时序数据在各维度的分量数据,并选取初始向量中心;
计算各分量特征向量与初始向量中心的距离差,获取初步聚类结果;
对初步聚类结果进行聚类迭代处理,聚类迭代过程当中进行特征分量与初始向量中心距离差的计算,计算出最小距离差从而获取最优聚类向量中心,进而得到最优分量数据聚类结果
Figure FDA0003551834740000015
3.根据权利要求2所述的一种面向无标签多维时序数据的模式发现方法,其特征在于:所述选取初始向量中心具体包括:
将分量数据进行对称切分处理,将多维度数据中各分量的影响因子进行求和平均处理,得到二维空间分布的向量数据,进而选取初始向量中心。
4.根据权利要求2所述的一种面向无标签多维时序数据的模式发现方法,其特征在于:所述聚类迭代处理包括:
根据多维时序数据的分布特征和数据分布设置迭代次数。
5.根据权利要求2所述的一种面向无标签多维时序数据的模式发现方法,其特征在于:所述对初步聚类结果进行聚类迭代处理具体包括:
根据初始选取的向量中心对特征分量进行初步聚类,并在二维平面当中进行初步聚类的结论分析;
将多维特征分量进行绝对值求和平均计算后划分为二维特征向量,利用k-means方法进行聚类得到聚类标准中心;
对生成的聚类标准中心进行迭代计算,得到所有划分二维分量的聚类结果
Figure FDA0003551834740000021
6.根据权利要求1所述的一种面向无标签多维时序数据的模式发现方法,其特征在于:所述基于无向加权图进行社区发现处理得到多维时序数据的模式具体包括:
S31:初始化无向加权图每个顶点为一个社区;
S32:依次将每个顶点与其相邻的顶点进行合并,并计算模块度增益ΔQ,再根据模块度增益ΔQ更新社区中顶点;
S33:迭代步骤S32,直至算法稳定;
S34:将各社区所有节点压缩为一个节点,将社区内点的权重转化为新节点环的权重,社区建权重转化为新节点边的权重;
S35:重复步骤S31-S33,直至算法稳定,得到多维时序数据的模式。
7.根据权利要求6所述的一种面向无标签多维时序数据的模式发现方法,其特征在于:所述再根据模块度增益ΔQ更新社区中顶点具体包括:
若模块度增益ΔQ大于0,将当前节点放入相邻节点所在社区。
8.一种面向无标签多维时序数据的聚类系统,其特征在于:其包括:
多维属性关系矩阵生成模块,用于计算各维度视角下多维时序数据的聚类标签
Figure FDA0003551834740000022
并转化为相关性矩阵集合
Figure FDA0003551834740000023
多维属性相似度网络构建模块,用于将集合
Figure FDA0003551834740000024
合并为多维属性特征信息相似度矩阵,并转化为无向加权图;
模式发现模块,用于基于无向加权图进行社区发现处理得到多维时序数据的模式。
9.根据权利要求8所述的一种面向无标签多维时序数据的模式发现系统,其特征在于:所述系统还包括数据读取模块,用于将输入的多维时序数据转换为矩阵。
10.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于:所述处理器运行所述计算机指令时执行权利要求1-7任意一项所述的一种面向无标签多维时序数据的模式发现方法的步骤。
CN202210265902.2A 2022-03-17 2022-03-17 一种面向无标签多维时序数据的模式发现方法、系统及终端 Pending CN114611620A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210265902.2A CN114611620A (zh) 2022-03-17 2022-03-17 一种面向无标签多维时序数据的模式发现方法、系统及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210265902.2A CN114611620A (zh) 2022-03-17 2022-03-17 一种面向无标签多维时序数据的模式发现方法、系统及终端

Publications (1)

Publication Number Publication Date
CN114611620A true CN114611620A (zh) 2022-06-10

Family

ID=81865958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210265902.2A Pending CN114611620A (zh) 2022-03-17 2022-03-17 一种面向无标签多维时序数据的模式发现方法、系统及终端

Country Status (1)

Country Link
CN (1) CN114611620A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523351A (zh) * 2023-07-03 2023-08-01 广东电网有限责任公司湛江供电局 一种源-荷联合典型场景集生成方法、系统和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523351A (zh) * 2023-07-03 2023-08-01 广东电网有限责任公司湛江供电局 一种源-荷联合典型场景集生成方法、系统和设备
CN116523351B (zh) * 2023-07-03 2023-09-22 广东电网有限责任公司湛江供电局 一种源-荷联合典型场景集生成方法、系统和设备

Similar Documents

Publication Publication Date Title
Unnikrishnan et al. Toward objective evaluation of image segmentation algorithms
US8015125B2 (en) Multi-scale segmentation and partial matching 3D models
Greene et al. Unsupervised learning and clustering
Afzalan et al. An automated spectral clustering for multi-scale data
CN108171010B (zh) 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置
CN108520310B (zh) G-L混合噪声特性v-支持向量回归机的风速预报方法
CN112735536A (zh) 一种基于子空间随机化单细胞集成聚类方法
CN108921853B (zh) 基于超像素和免疫稀疏谱聚类的图像分割方法
CN113221065A (zh) 数据密度估计及回归方法、相应装置、电子设备、介质
CN111128301A (zh) 一种基于模糊聚类的重叠蛋白质复合物识别方法
CN111062428A (zh) 一种高光谱图像的聚类方法、系统及设备
CN114611620A (zh) 一种面向无标签多维时序数据的模式发现方法、系统及终端
Shen et al. One-hot graph encoder embedding
Wang et al. Modified FDP cluster algorithm and its application in protein conformation clustering analysis
Hsieh et al. Adaptive structural co-regularization for unsupervised multi-view feature selection
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN111584010A (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN112800138B (zh) 大数据分类方法及系统
CN111126467A (zh) 一种基于多目标正余弦算法的遥感影像空谱聚类方法
CN113705920B (zh) 火电厂用水数据样本集的生成方法和终端设备
CN115661504A (zh) 基于迁移学习和视觉词包的遥感样本分类方法
Takaishi et al. Free-form feature classification for finite element meshing based on shape descriptors and machine learning
Du et al. Robust spectral clustering via matrix aggregation
CN111488520A (zh) 一种农作物种植种类推荐信息处理装置、方法及存储介质
CN112445939A (zh) 一种社交网络群体发现系统、方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination