CN112650818B

CN112650818B - 一种基于多维时序数据的聚类挖掘方法

Info

Publication number: CN112650818B
Application number: CN202011569684.9A
Authority: CN
Inventors: 刘博�; 赵怀菩
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-12-26
Filing date: 2020-12-26
Publication date: 2024-02-02
Anticipated expiration: 2040-12-26
Also published as: CN112650818A

Abstract

本发明公开了一种基于多维时序数据的聚类挖掘方法，首先对数据算它们之间的相似度，利用密度峰值聚类算法分别选出几个聚类簇；然后把他们从数据中去除，提出使用霍普金斯统计量进行判断，并有选择的重复上述筛选的过程，直到选出所有的聚类；然后提出并使用判断距离，对现有的聚类进行整理和调整；之后对未分类点，使用结合判断距离，最近距离，k近邻距离的算法，对其划分到现有聚类中；最后将聚类结果输出。本方法具有面向海量数据、泛化能力强、应用领域广泛的优势。

Description

一种基于多维时序数据的聚类挖掘方法

技术领域

本发明属于数据挖掘技术领域，包括聚类算法挖掘分析多维时序数据中的聚类模式。

背景技术

多维时序数据在各个领域都广泛存在。在金融中，股票，期货，汇率，利率等数据都是多维时序数据。相对于平常的天气监测数据，如果能在天气数据中寻找并证实某种规律性则更能发现其研究的意义和价值。常见的空气质量变化模式通常也是经常出现的，而非常见的天气现象，如严重污染天气等，则相对少见，但这些天气变化模式也不是随机出现的，其中也存在一些共性的规律。聚类即物以群聚，将相似的数据划分到一类，如果对空气质量指标数据进行聚类模式分析，就可以揭示出天气变化的普遍特征，从而为大气污染治理提供数据支持。因此得到一个高效的多维时序数据聚类模式分析方法是非常具有实际意义的。

Rodriguez和Laio提出了密度峰值聚类算法(DPC)挖掘聚类模式，其思想是：具有高密度的聚类中心，它们之间的距离也比较大。所以通过数据的密度和距离做出决策图，可以清楚的找到数据中潜在的聚类中心。这种方法不需要实现指定聚类簇的个数，同时鲁棒性较强，对数据变换不敏感，可以根据数据中的密度动态调整目标聚类簇的特性。但其问题是对于相似的聚类其敏感度不高，准确度低，并且聚类要求严格，产生结果偏少。

实际生活中的多元时间序列数据有很多，但是因为它们的应用领域不同，它们的特性有很大差异。并不能找出一种普遍适用的方法。目前学术界也已经围绕多元时间序列的模式挖掘展开了很多研究，但都是针对特定领域内数据，这些现有方法都有一定的局限性。

发明内容

本发明要解决的技术问题是，提供一种基于多维时序数据的聚类挖掘方法，首先对数据算它们之间的相似度，利用密度峰值聚类算法分别选出几个聚类簇；然后把他们从数据中去除，提出使用霍普金斯统计量进行判断，并有选择的重复上述筛选的过程，直到选出所有的聚类；然后提出并使用判断距离，对现有的聚类进行整理和调整；之后对未分类点，使用结合判断距离，最近距离，k近邻距离的算法，对其划分到现有聚类中；最后将聚类结果输出。

本发明针对大气污染中的多维时序数据，其中输入数据的每个维度代表一种固定的污染物因子的序列。例如，本专利接受的时序数据维度格式为：{CO，NO2，SO2，O3，PM10，PM2.5}。本专利输出模式为这些污染物(或部分污染物)中较频繁出现的模式子序列，即若干种污染物变化组成的污染模式。

本发明面向海量多维时序大气污染数据集，提出了一种挖掘多维时序数据的污染模式的方法。本发明创新的基于密度峰值聚类(DPC)的聚类算法求得时序数据的聚类模式。与传统密度峰值聚类算法相比，这种方法减少了数据计算量，并且提升准确度。可以有效的对多维时序数据进行挖掘。可以更好的发现传统聚类方法难以发现的大气污染数据集种新的聚类模式，尤其是表现模式相似的大气污染聚类模式。

为了实现上述目的，本发明采用技术方案如下。

接受大气污染多维数据输入，计算所有数据之间的相似度，并根据相似度使用改进的密度峰值聚类算法寻找多维时序的聚类模式，并把挖掘结果输出。改进的密度峰值聚类算法过程应该包括，1.计算向量的距离和截断距离，2.使用密度峰值聚类算法一次选出k个聚类模式，3.对数据进行分析并重复2直到选出所有聚类模式过程，4.对已发现的聚类模式进行分析，重新整理和调整，5.利用数据中出现噪音的偶然性，对未分类数据再次进行划分。

这么做的原因是因为，在实际中的真实多维数据中，数据中的有效信息很少或被大量噪音所淹没而难以发现。而且多维数据中的模式本身复杂多变，辨识度低。而且现有的多维数据挖掘方法大都针对特定领域特定场景和类型的数据做专门分析才能有效挖掘结果。比如金融股票数据的分析方法，都是根据金融数据的维度信息特殊性进行专有的特定的处理，而一旦数据的条件有所不同，维度有所变化，或运用到其他领域中，一旦数据的特定性失效，分析方法的结果就得不到保障。针对大气污染的多维数值型数据中的噪音问题，本发明从噪音原理出发，提出了针对大气等各领域多维数据中一般性的噪音解决方法。一般来说，假定输入的大气污染数据是有效的，而其中的一般性噪音干扰具有随机分布的规律，通常出现在特定的局部(局部的范围和局部的表现)，拥有局部性，如果使用不同方法测量，则噪音可能会出现在部分结果中。因此在多维数据中综合使用多种方法可以减少噪音的影响。本专利提出使用结合余弦距离和k近邻距离的方法，当两者测得的距离差别不大时，使用余弦距离(直接测量方法)分析数据，当两者差距较大时，使用k近邻距离(间接测量方法)分析数据。多种方法的结果相近说明被噪音的影响可能性低，由于直接测量方法较准确，根据各个领域的多维数据中一般性噪音的分布规律性，此时挖掘算法分析使用直接测量方法的结果。反之使用间接测量法。本专利使用余弦距离，k近邻距离等多种度量方法测量数据，并通过引入“判断距离”比较两种方法的差距。

另外，针对大气等多维数据中，污染模式存在不同显著程度并且使用者分析由浅入深的要求，即一般大气的数据中存在明显和比较不明显的模式，使用者先了解和分析其中明显的部分，之后再了解分析不明显的部分。而大气数据模式明显与否的标准一般为一类模式出现的频繁程度。根据大气领域中数据的以上的特点，本专利提出分阶段的改进密度峰值聚类数据挖掘方法，每次发现数据中最明显的若干模式，然后将相关数据剔除，再迭代的再次聚类，直到没有新模式为止。其中，本专利通过引入霍普金斯统计量加速再次聚类的过程，增加了本方法的效率。

本发明采用的技术方案为一种挖掘大气污染多维时序数据的聚类模式的方法，包括以下步骤：

步骤1、获取大气污染的多维时序数据集，并对多维时序数据集中的数据进行预处理，其中，每个维度应该代表一种污染物浓度的序列，原则上各维度的污染物相对独立，维度含义不随时间变化，处理后的数据格式形如：输入序列X，X＝{x₁,x₂,…,x_m},m为长度，x是一个时刻的数据，每个点x_i＝{p_i1,p_i2,…,p_in}，xi包含n种污染物维度，pij代表i时间j种污染物维度的数据的值；

步骤2、使用累计均方误差值AE对预处理后的大气污染多维时序数据集中的数据进行自底向上的线段拟合，生成线段模式时间序列，通过线段拟合，用一个值代表原有数个值，一方面压缩大气污染多维数值型数据的数据量，一方面减少大气污染数据中的突变型噪音干扰；

步骤3、从步骤2的大气污染线段模式时间序列中选取时间跨度为w的一系列线段作为一种潜在模式的向量，计算所有向量之间的相似度；

步骤4、用基于聚类再发现的密度聚类算法计算多维度时序数据的聚类，作为目标聚类模式，其中利用大气污染等各个领域中数据的一般性噪音的局部性分布规律，使用余弦距离，k近邻距离等多种度量方法测量数据，并通过引入“判断距离”比较两种方法的差距；利用各个领域数据中的模式的出现频率不一的特性以及数据分析一般按照模式明显程度依次挖掘的特性，使用改进的“再发现”方法迭代的寻找数据中明显模式，并且引入霍普金斯统计量加速计算过程；

步骤5、输出聚类结果。

作为优选，步骤4具体包括以下步骤：

步骤4.1、设置算法的参数。

步骤4.2、根据算法参数和输入数据，计算截断距离d_c。对所有向量之间的相似度进行升序排列，选取前第x*100％位置(x即截断因子且默认x＝0.02)的相似度作为截断距离d_c。

步骤4.3、根据算法参数和截断距离，计算判断距离d_j。

步骤4.4、使用密度峰值聚类算法计算出聚类中心和聚类。算法一次计算出指定的k个聚类。

步骤4.5、将已发现的聚类从数据中排除，引入霍普金斯统计量H，根据数据去除聚类前后H的改变情况，有选择地重复步骤3、步骤4.2、步骤4.4，直到没有新的聚类为止。

步骤4.6、使用判断距离，将步骤4.4，步骤4.5中发现的聚类进行重新整理调整。

步骤4.7、使用数据与最近聚类中心的距离，数据的k近邻距离，判断距离，对剩余未分类点进行分类。

步骤4.8、输出聚类结果。

在步骤4.4之后提出了步骤4.5，4.6，4.7，引入霍普金斯统计量H，判断距离，k近邻距离，以提升聚类的准确度。

与现有技术相比，本发明具有以下明显优势：

本发明方法通过改进密度峰值聚类算法，提出聚类再发现过程，引入判断距离和k近邻思想，计算聚类模式的详细信息。相对其他方法，使用这种方法获得的聚类模式，通过分阶段的逐步寻找聚类，可以发现原方法难以发现的较相似的序列，准确度更高，鲁棒性更强。同时，使用密度峰值聚类的算法无需指定聚聚类簇的个数，也可以根据需要调整聚聚类簇的划分密度，其对初始值也不敏感，所以在面向海量的多维时序数据时，获取的聚类模式也可以拥有较好的性能表现。综上所述，本文提出基于密度峰值聚类和判断距离的多维时序数据的聚类模式挖掘方法具有面向海量数据、泛化能力强、应用领域广泛的优势。

附图说明

图1为本发明所涉及方法的流程图。

具体实施方式

以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明所用到的硬件设备有PC机1台；

如图1所示，本发明提供一种挖掘大气污染多维时序数据聚类模式的方法，具体包括以下步骤：

步骤1，获取大气污染的相关多维时序数据集，并对这些数据进行预处理，关于大气污染多维数据集的概念，其要求为一般性数值型多维时序数据，要求每个污染物维度的属性相对固定，每个污染物维度有固定的属性和意义，不随时间变化改变意义；而不是视频媒体数据这种图像每个点的信息代表一个维度，而且每个维度的意义随时间改变，诸如视频媒体这类的类似大气污染多维时序数据不适用本方法；

步骤2，对预处理后的大气污染多维时序数据使用自底向上的方法进行线段拟合生成线段模式序列；

步骤3，设置时间跨度w，遍历线段模式时间序列，选择跨度w大小的所有线段组成大气污染多维时序向量，并计算所有大气污染多维时序向量之间的相似度；

在计算两个向量X和Y之间的相似度时，默认采用了如下的公式，并进行了如下的变换过程，最终生成相似度函数h(X,Y):

公式：

变换过程：h(X,Y)＝-cos(θ)+1

步骤4，使用改进的密度峰值聚类算法计算聚类模式；

步骤4.1，设置算法的参数，包括设置聚类密度ρ_c，聚类最小距离δ_c，聚类下限值位置γ_c1，聚类上限值位置γ_c2，截断距离因子x(默认设为1％-2％，也可手动设定)，判断因子k(默认设为k＝10*x，也可手动设定)，k近邻参数a(默认为3，可以手动设定)；

步骤4.2，计算截断距离d_c，对所有大气污染多维时序向量的相似度进行升序排序，在完成排序的序列中，设相似度序列总长为n，指定全体序列中从前向后的第x*100％位置的相似度数值作为截断距离d_c，即取序列中第n*x％位的相似度作为截断距离d_c；

步骤4.3，计算“判断距离”d_j＝k*d_c；其中k是判断因子k，默认设为k＝10*x。判断因子默认可设为10倍的截断距离因子。另外根据需要k由用户指定。“判断距离”是本方法创新内容需要用到的新参数，这一步只需要在第一次运行时计算一次。在后续步骤不需要重新计算；

步骤4.4，计算所有大气污染多维时序向量的大气污染多维数据ρ，δ或γ；之后要根据这些大气污染多维数据和步骤4.1设定的参数寻找多维聚类模式；

ρ，δ和γ的计算公式如下：

其中d_ij＝h(i,j)。计算出所有的ρ后，对它们进行如下排序，设排序好的序列为：

ρ_q1≥ρ_q2≥…≥ρ_qN

则δ的计算方法如下：

ρ，δ都计算完成之后计算γ：

γ_i＝ρ_iδ_i,i∈{1,2,…,N}

步骤4.5，通过每个数据的γ大小，或是ρ，δ的大小，并结合参数ρ_c，δ_c，γ_c1，γ_c2选出候选的聚类中心c_i；选取方式形如is_center方法：

以上方法是通过γ进行判断的方法；

步骤4.6，从候选中心选取k个聚类中心；选取时要先选最明显的，比如按γ大小从大到小的选取数据作为聚类中心；

步骤4.7，选好聚类中心之后，为他们划分聚类；对于一个聚类中心c_i,和大气污染多维数据y而言，划分聚类的方法cluster()是：

除了步骤4.3，以上步骤4.1-4.7是原始DPC包含的，或能从中做显而易见的变换得出方法，之后为本方法创新的内容；

步骤4.8，将聚类从大气污染多维数据中排除，然后通过引入霍普金斯统计量H进行优化，选择性的重复3-4.7的步骤(如何选择详见下文)，直到所有聚类被选出；这里介绍一下H：

其中，y_t是从数据集取值范围中，随机取一个值，计算与第i数据的距离；x_i是随机从数据集随机取一个其它数据，计算与第i数据的距离；一共抽样n次以减少随机性的影响；对于H的说明是：如果数据越有距离趋势，则y的值会大于x，使H大于0.5，并趋于1；反之，x的值会和y差不多，使H趋于0.5；

通过考察H的大小可以判断数据的聚类趋势；在这里，我们提出：计算原数据的H1，和排除已划分聚类数据的H2，比较H1与H2的大小；若H2大于等于H1，说明排除聚类后的聚类趋势没有收到影响，原来的数据特征信息仍然有效，此时可以从4.5或4.6选取聚类中心的步骤开始重复；若H2小于H1，则排除聚类后的聚类趋势收到影响，需要重新计算数据中的信息，此时需要重新计算3，4.2，然后从4.4开始；

这种做法的优点在于，能够按照明显程度逐步的寻找聚类，明显的聚类先被找出，并被排除，避免了识别过程中，聚类之间的影响(尤其是明显的聚类对不明显的聚类)；同时，通过引入霍普金斯统计量H判断聚类趋势，利用了数据总体聚类趋势不降低时，数据特征通常不对聚类结果有影响的自然特性，避免了大量不必要的重复计算(步骤3和4.2是DPC算法的主要开销)；

步骤4.9，通过引入4.3计算出的“判断距离”，将现有聚类中的大气污染多维数据重新划分到最合适的聚类中；其具体实施方式为：

对于每种聚类中的数据，分别计算大气污染多维数据到所属大气污染多维聚类中心的距离d1和大气污染多维数据到其它聚类中心的距离d2；当所有d2都满足d1和d2差值小于判断距离时，说明目前此数据的划分误差较小，不需要额外操作；当存在d1>d2且d1与d2差值大于等于判断距离时，说明算法对当前大气污染多维数据的划分误差过大，此时重新划分当前聚类模式到距离最近的聚类中心之中；重复这个过程直到完成所有聚类大气污染多维数据的整理工作；

这种做法的优点在于，可以进一步减少聚类之间的影响，尤其是针对一些数据，它们是先被明显聚类划分的，但实际与后续的聚类更相似；但与之矛盾的是，对于明显的先被选出的聚类，由于是明显的，数据应该对其有一定的倾向性；通过引入判断距离，对误差超过判断距离的进行重新划分，对误差在判断距离内的划分保留，减少了由于聚类先后顺序产生的过大的划分误差，同时又允许数据对明显的聚类有一定的倾向性，从而提升聚类整体的准确度；

步骤4.10，通过综合考虑大气污染多维数据与聚类中心的最近距离，大气污染多维数据的k近邻距离，以及步骤4.3计算出的判断距离，对于剩余的未分类大气污染多维数据，再次尝试对他们进行划分；其具体实施方式是：

首先，对于每个未分类点y,分别计算其到最近聚类中心的距离d3，以及到k近邻的聚类中心的距离d4。简单介绍一下k近邻的聚类中心：

一个点的k近邻聚类中心，是按照k近邻思想确定的聚类中心；即，参考了距离这个点最近的k个点，将他们所属聚类中心的最多数，作为这个点的聚类中心；它是一种间接的判断方法，不容易受到干扰；但在没有干扰时，可能没有直接测量距离来的准确；

然后，计算考虑d3和d4的差值对点y划分：若差值小于判断距离，说明d3和d4落在相近的范围里，此时数据受噪音干扰的可能性较低，且影响较小，此时d3更可靠且准确，将点y划分到d3对应的聚类中心；若差值大于判断距离，d3可能被噪音影响而更不可靠，此时将点y划分到d4对应的聚类中心；

这种方法的优点在于，首先，它尝试对未聚类点进行划分，它可以扩大聚类的结果范围，减少原始DPC方法结果太少的缺点；其次，这种方法利用了数据中噪音的偶然性的自然特性，即数据中的噪音通常会对一种直接的测量方式产生影响，但是不太能对多种直接的间接的测量方式都产生影响，本方法通过利用直接和间接测量两种方法，判断测量距离时噪音干扰的可能性，从而减少了噪音的影响，提升了结果的准确度；

步骤4.11将聚类结果输出。

如表1所示，为本发明最终输出的多维时序数据的聚类模式数据结构。

表1 在时序数据的聚类模式挖掘过程中输出的数据结构格式

注：聚类中心不计入聚类点中

大气污染数据输入，接受的时序数据维度格式为：{CO，NO2，SO2，O3，PM10，PM2.5},其中每个维度代表一种固定的污染物因子的序列，输出模式为这些污染物(或部分污染物)中较频繁出现的模式子序列，即若干种污染物变化组成的污染模式。

以上例子中的输出模式将按照明显程度，即频繁到不那么频繁的顺序按顺序输出。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于多维时序数据的聚类挖掘方法，其特征在于：包括以下步骤：

步骤1、获取大气污染的多维时序数据集，并对多维时序数据集中的数据进行预处理，其中，每个维度代表一种污染物浓度的序列，各维度的污染物相对独立，维度含义不随时间变化，处理后的数据格式为：输入序列X，X＝{x₁,x₂,…x_i,…x_m}，m为长度，X是一个时刻的数据，每个点x_i＝{p_i1,p_i2,…p_ij,…p_in}，xi包含n种污染物维度，pij代表i时间j种污染物维度的数据的值；

步骤2、使用累计均方误差值AE对预处理后的大气污染多维时序数据集中的数据进行自底向上的线段拟合，生成线段模式时间序列，通过线段拟合，用一个值代表原有数个值，一方面压缩大气污染多维数值型数据的数据量，减少大气污染数据中的突变型噪音干扰；

步骤4、用基于聚类再发现的密度聚类算法计算多维度时序数据的聚类，作为目标聚类模式，其中利用大气污染各个领域中数据的一般性噪音的局部性分布规律，使用余弦距离，k近邻距离多种度量方法测量数据，并通过引入判断距离比较两种方法的差距；利用各个领域数据中的模式的出现频率不一的特性以及数据分析按照模式明显程度依次挖掘的特性，使用改进的再发现方法迭代的寻找数据中明显模式，并且引入霍普金斯统计量加速计算过程；

步骤4具体包括以下步骤：

步骤4.1、设置算法的参数；

步骤4.2、根据算法参数和输入数据，计算截断距离d_c，对所有大气污染多维时序向量的相似度进行升序排序，在完成排序的序列中，设相似度序列总长为n，指定全体序列中从前向后的第x*100％位置的相似度数值作为截断距离d_c，即取序列中第n*x％位的相似度作为截断距离d_c；

步骤4.3、根据算法参数和截断距离，计算判断距离d_j；

步骤4.4、使用密度峰值聚类算法计算出聚类中心和聚类；算法一次计算出指定的k个聚类；

步骤4.5、将已发现的聚类从数据中排除，引入霍普金斯统计量H，根据数据去除聚类前后H的改变情况，有选择地重复步骤3、步骤4.2、步骤4.4，直到没有新的聚类为止；

步骤4.6、使用判断距离，将步骤4.4，步骤4.5中发现的聚类进行重新整理调整；

步骤4.7、使用数据与最近聚类中心的距离，数据的k近邻距离，判断距离，对剩余未分类点进行分类；

步骤4.8，将聚类从数据中排除，计算原数据的霍普金斯统计量H1，和排除已划分聚类数据的霍普金斯统计量H2，比较H1与H2的大小；若H2大于等于H1，从步骤4.5或4.6选取聚类中心的步骤开始重复；若H2小于H1，从步骤4.3到步骤4.7开始重复，直到所有聚类被选出；

步骤4.9，通过判断数据到聚类间的距离，将现有聚类中的数据重新划分到最合适的聚类中，即对于每种聚类中的数据，分别计算数据到所属聚类中心的距离d1和数据到其它聚类中心的距离d2；当所有d2都满足d1和d2差值小于判断距离时，不需要操作；当存在d1>d2且d1与d2差值大于等于判断距离时，重新划分当前聚类模式到距离最近的聚类中心之中；重复这个过程直到完成所有聚类数据的整理工作；

步骤4.10，通过综合考虑数据与最近聚类中心的距离，数据的k近邻距离，以及步骤4.3计算出的判断距离，对于剩余的未分类数据进行完全划分，即对每个未分类点y,分别计算其到最近聚类中心的距离d3，以及到k近邻的聚类中心的距离d4，然后考虑d3和d4的差值：若差值小于判断距离，将点y划分到d3对应的聚类中心；若差值大于判断距离，将点y划分到d4对应的聚类中心；

步骤4.11、输出聚类结果；

步骤4中的步骤4.3的过程：d_j＝k*d_c；其中k是判断因子k，默认设为k＝10*x，计算判断距离d_j。