CN109858507B

CN109858507B - 一种应用于大气污染治理的多维时序数据的稀有子序列挖掘方法

Info

Publication number: CN109858507B
Application number: CN201811079396.8A
Authority: CN
Inventors: 刘博�; 赵怀菩
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2021-03-23
Anticipated expiration: 2038-09-17
Also published as: CN109858507A

Abstract

本发明要公开一种大气污染多维时序数据的稀有子序列方法，首先对一维的时序数据进行线段拟合，生成线段模式序列然后把一定时间跨度内的线段模式组成向量，然后对所有向量求它们之间的相似度，利用相似度分别为每个维度进行聚类，求得一维的稀有序列集，然后利用改进的频繁模式树算法对所有一维稀有序列构建关联模式，最后把符合相关条件的关联规则输出。

Description

一种应用于大气污染治理的多维时序数据的稀有子序列挖掘方法

技术领域

本发明属于数据挖掘技术领域，尤其涉及一种应用于大气污染治理的多维时序数据的稀有子序列挖掘方法。

背景技术

多维时序数据在各个领域都广泛存在。在金融中，股票，期货，汇率，利率等数据都是多维时序数据。相对于平常的天气监测数据，罕见的恶劣的天气更有研究的意义和价值。常态化的空气质量数据通常也是频繁出现的，而非常见的天气现象，如严重污染天气等，则相对少见，但这些异常天气也不是随机出现的，其中也存在一些共性的规律。对空气质量指标数据进行稀有子序列分析，可以揭示出罕见天气产生的规律，以及不同指标之间的相互关系，从而为大气污染治理提供数据支持。因此得到一个高效的多维时序数据稀有子序列分析方法是非常具有实际意义的。

现有的多维时序数据分析研究主要集中在频繁序列挖掘上，近年来由于稀有模式在异常检测中广泛应用，国内外的学者也取得了一定的研究成果。

Gautam Das等人使用关联规则挖掘时间序列中聚类的符号化对象，这些符号化对象具有一定的时间范围，所以有一定特征性。他们提出了一维和二维时间序列的关联规则挖掘方法，但并没有设计更多维度的时间序列的算法。

李斌等人借鉴了Apriori算法，收到除最后一维的符号全不相同的两个k-1维频繁模式可以合并为k维的频繁模式的这种思路启发，他们提出了一种非同步多维时序的频繁模式挖掘算法，通过指定一个时间跨度m，使关联规则构建过程时，两两规则之间不超过这个时间跨度才可行。这种方法简化了多维时间序列频繁模式的挖掘过程，但仍不够好，在实际使用中还需要更多启发式的剪枝。

胡余龙等人提出了一种流动态的挖掘方法，数据预处理中线段化拟合原数据，再将所有时间分槽，把这些线段分隔并对齐到间隔槽的开始点，最后再在每个槽中进行多维挖掘，过程中使用SWFI-tree数据结构。和以上的方法不同的是，这个算法是实时动态的，在后续数据不断更新的情况下还能做到对多维度时间序列进行关联规则挖掘。使用分槽带来这方面的优点的同时，也牺牲了一定程度的精度。因此关联规则被限制再一个槽中，实际效果受到很大限制。

徐昭邦提出了一种基于时间约束的多元时间序列关联挖掘算法，这种方法需要构建每一条时间序列的频繁模式树。大气污染数据的稀有模式应用这种方法，可以有效寻找出低维时间序列间的关联规则。然而多维大气污染数据的稀有模式涉及复杂的反应和平衡，每个维度之间的稀有模式可能都需要一定时间才能形成。这种算法由于设定的时间窗口大小只在第一次构建时使用，后续构建的时间参数必须相同，导致时间约束还是过于严格，难以发现高元稀有模式关联规则。

实际生活中的多元时间序列数据有很多，但是因为它们的应用领域不同，它们的特性有很大差异。并不能找出一种普遍适用的方法。目前学术界也已经围绕多元时间序列的关联规则挖掘展开了很多研究，但都是针对特定领域内数据，这些现有方法都有一定的局限性。

发明内容

本发明要解决的技术问题是，提供一种大气污染多维时序数据的稀有子序列方法，首先对一维的时序数据进行线段拟合，生成线段模式序列然后把一定时间跨度内的线段模式组成向量，然后对所有向量求它们之间的相似度，利用相似度分别为每个维度进行聚类，求得一维的稀有序列集，然后利用改进的频繁模式树算法对所有一维稀有序列构建关联模式，最后把符合相关条件的关联规则输出。

本发明面向海量多维大气时序数据集，提出了一种挖掘多维的大气时序数据的稀有子序列的方法。处理多维大气时序数据集时，先把它们分成一系列一维的时序数据集，利用线段拟合方法将时序数据转化为线段模式时间序列，然后把一定时间跨度的线段模式看成向量，遍历线段模式时间序列，寻找所有向量并利用相似度算法求得所有向量之间的相似度。再用密度峰值聚类算法求得一维时序数据的稀有子序列。再利用一维稀有子序列，构建频繁模式树，求出所有维度之间的关联规则，对其中符合条件的关联规则作为结果输出。与其他算法相比，这种方法对原始时间序列数据进行了极大的压缩，并且保证了数据一定的精度。加上使用向量进行密度峰值聚类的方法，与传统密度峰值聚类算法相比，这种方法减少了数据计算量，并且允许更长的稀有子序列。最后对所有维度的稀有子序列使用改进的Apriori算法构建频繁模式树，使树的结点之间有时间先后顺序和一定的时间跨度。密度峰值聚类算法是一种不需要指定聚类簇个数的聚类算法，与同类聚类算法相比，这种算法不光能发现频繁模式，对于数据中的稀有模式这种算法也可以很好的体现。Apriori算法构建频繁模式树是一种被广泛使用的关联规则挖掘方法，这种方法可以处理大量的数据。但是这种方法原本只适用于无序的数据挖掘，需要对其进行改进才能对多维时间序列数据进行挖掘。在构建频繁模式树时，通过允许树的结点之间有时间先后顺序和一定的时间跨度的改进方法，可以有效的对多维时序数据进行关联规则挖掘。

为了实现上述目的，本发明采用以下技术方案：将一维和多维的时序数据挖掘过程分开进行。两个过程方案如下。

在一维挖掘中，为了减少数据运算量，使用线段拟合算法对时间序列进行压缩，把原始时间序列数据变成线段模式时间序列，然后指定一个时间跨度w，从线段模式时间序列中遍历选取这个时间跨度内的线段组成向量，计算所有向量之间的相似度，并根据相似度使用密度峰值聚类算法寻找一维时序的稀有子序列，并一维稀有子序列挖掘结果输出。在每一个维度的输出信息应该包括，维度名称，这个维度的稀有子序列种类，个数，每种稀有子序列的出现时间(以开始时间记录)和出现次数。每个维度的维度名称是区分不同维度的依据，所以不能相同。本发明对其中相似度的计算方法不做限制，可以随意选取不同的计算方法，但是要对其取值范围和评价标准加以限制。要求相似度算法的计算结果能用数值表示，并且取值范围大于等于0，并且还要求相似度越小越相似。如果使用的相似度算法不符合上述要求，需要对相似度算法的输出结果进行变换使其符合要求。本发明的相似度算法默认方法是余弦相似度，对其输出结果进行了先取负数，后加一的方法进行变换，使其符合了相似度要求。

在多维挖掘中，要使用一维稀有子序列输出结果，根据这些输出的信息，构建频繁模式树生成关联规则。构建频繁模式树时，有两个要求，一是所有结点之间的父子关系必须满足父结点的出现时间等于子结点出现时间或子结点出现时间在父结点出现时间后的m个时间单位内，m大于0；二是每个结点和其所有祖先结点不能同时来自同一个时间维度。为了符合以上两个要求，每个结点中要记录：稀有子序列的种类，出现时间和出现次数，以及所属维度名称。为了减少对数据的检索次数，要对每一个维度都构建频繁模式子树，先根据一维输出结果按照时间要求生成第一层结点，之后对每个频繁模式子树每生成一层结点时按照以上两个要求，从其他的频繁模式子树中寻找可能的结点，不再检索一维输出结果。重复上述过程，直到无法生成新的结点为止。遍历所有频繁模式子树，生成符合条件的关联规则，输出作为多维稀有子序列的关联规则。多维输出信息要包括：作为关联规则先导的稀有子序列的类型，出现时间，出现次数和所属维度；以及作为关联规则后继的稀有子序列的类型出现时间，出现次数和所属维度；关联规则的置信度，支持度。

这样一来，就得到了一个大气污染多维时序数据集的稀有子序列挖掘的方法。

一种挖掘大气污染多维时序数据的稀有子序列的方法包括以下步骤：

步骤1、获取大气污染的多维时序数据集，并对这些数据进行预处理。数据集中的属性数据包括时间，CO浓度，SO2浓度，NO2浓度，O3浓度，PM10浓度，PM25浓度。

步骤2、使用累计均方误差值AE对预处理后的多维时序数据进行自底向上的线段拟合，生成线段模式时间序列。

步骤3、从线段模式时间序列中选取时间跨度为w的一系列线段作为向量，计算所有向量之间的相似度。

步骤4、使用密度峰值聚类算法计算每一维度时序数据的稀有子序列。

步骤5、使用频繁模式树对每一维度时序数据的稀有子序列进行多维时序关联规则挖掘。

作为优选，步骤4具体包括以下步骤：

步骤4.1、计算截断距离d_c。对所有向量之间的相似度进行升序排列，选取前第2％位置的相似度作为截断距离d_c；

步骤4.2、使用密度峰值聚类算法计算出每一维度的稀有子序列；

步骤4.3、遍历每一维度的线段模式时间序列，对所有稀有子序列对应的向量中的线段标记稀有子序列的种类，避免在同一时间同一维度出现多个稀有子序列。

步骤4.4、输出每一维度的稀有子序列信息，在每一个维度的输出信息应该包括，维度名称，这个维度的稀有子序列种类，个数，每种稀有子序列的出现时间(以开始时间记录)和出现次数。每个维度的维度名称是区分不同维度的依据，所以不能相同；

作为优选，步骤5具体包括以下步骤：

步骤5.1、统计每一维度的稀有子序列信息，为每一维度分别建立频繁模式子树的第一层结点。第一层结点的每个结点代表着这个维度的一种稀有子序列，结点中建立的信息包含稀有子序列的种类，出现时间，出现次数，子序列所属维度名称；

步骤5.2、对每个维度的频繁模式子树，遍历其所有叶子结点，从其他维度的频繁模式子树中寻找目标结点，指定时间窗口大小W，设当前结点代表的频繁子序列的总出现次数为m，每个出现时间为t，寻找目标结点所有出现时间在[t，t+W]的频繁子序列出现次数n；

步骤5.3、根据m和n计算关联规则的置信度和支持度，把符合置信度要求和支持度要求的结点作为当前叶子待建立的新的子结点；

步骤5.4、检查待建立的新的子结点，其所属维度和所有祖先结点的所属维度不能相同，否则放弃建立这个新结点。将满足此条件的新结点建立；

步骤5.5、重复步骤5.2，步骤5.3，和步骤5.4，直到不再有新的结点建立为止；

步骤5.6、遍历所有频繁模式子树，将所有符合置信度和支持度要求的关联规则输出。

与现有技术相比，本发明具有以下明显优势：

本发明方法在挖掘一维时序数据稀有子序列时，先后使用了线段拟合和向量化处理缩小了数据规模，然后通过密度峰值聚类算法计算稀有子序列的详细信息。相对其他方法，使用这种方法获得稀有子序列，减小了计算规模同时也保留了一定的数据精度，设原数据量为n，线段模式压缩率为r，向量长度为w，数据量将被缩减为

同时，使用密度峰值聚类的算法无序指定聚聚类簇的个数，也可以根据需要调整聚聚类簇的划分密度，其对初始值也不敏感，所以在面向海量的多维时序数据时，获取所有维度的稀有子序列也可以拥有较好的性能表现。综上所述，本文提出的基于密度峰值聚类和频繁模式树关联规则的多维时序数据稀有子序列挖掘方法具有面向海量数据、泛化能力强、应用领域广泛的优势。

附图说明：

图1为本发明所涉及方法的流程图；

图2为本发明在时序数据中进行多维关联规则挖掘构建频繁模式子树过程；

图3为本发明在时序数据中进行多维关联规则挖掘生成带构建结点过程图示；

图4为本发明在时序数据中进行多维关联规则挖掘拓展待构建结点过程图示；

表3为本发明生成的时序多维关联规则输出；

图5为本发明输出的多维时序数据的稀有子序列数据结构。

具体实施方式：

以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明所用到的硬件设备有PC机1台；

本发明接受的数据格式如表1所示。要求每个数据点记录一个小时内的数个大气监测指标，同时要求所有的数据都是连续数值型数据。除了时间属性外，大气监测指标默认采用6种主要污染气体浓度属性，分别是CO，SO2，NO2，O3，PM10，PM25。

表1为本发明接受的大气污染数据格式：

表1

如图1所示，本发明提供一种挖掘多维时序数据稀有子序列的方法，具体包括以下步骤：

步骤1获取大气的多维时序数据集，并对这些数据进行预处理；

步骤2，对预处理后的多维时序数据使用自底向上的方法进行线段拟合生成线段模式序列。定义长度为t的一个时间序列为 M＝{m₁，m₂，…，m_t}，定义从时间i开始，长度为w选取的线段模式L_i，w＝f(m_i，m_i+1，…，m_i+w-1)，f是线段模式计算方法，其从i开始不停地计算累计均方误差，当超过阈值时停止，以确定线段的长度。定义线段模式序列VL＝{L_i1，w1，L_i2，w2，…，L_in，wn}，1≤i1，i1+w1＝ i2，i2+w2＝i3，…，in+wn＝t；

步骤3，定义从时间i开始，长度为n的向量 V_i，n＝{L_i，w，…，L_j，w}，|V_i，n|＝n，计算所有向量之间的相似度；

在计算两个向量X和Y之间的相似度时，默认采用了如下的公式，并进行了如下的变换过程，最终生成相似度函数h(X，Y)：

公式：

变换过程：h(X，Y)＝-cos(θ)+1

步骤4，使用密度峰值聚类算法对每一维度计算稀有子序列。

步骤4.1，设置密度峰值聚类算法的参数，包括设置稀有子序列聚类密度ρ_c，稀有子序列最小距离δ_c，稀有度下限值位置γ_c1，稀有度上限值位置γ_c2，截断距离位置x；

步骤4.2，计算截断距离d_c，对所有向量的相似度进行升序排序，在完成排序的序列中，设相似度序列总长为n，指定全体序列中从前向后的第x％位置的相似度数值作为截断距离d_c，即取序列中第n*x％位的相似度作为截断距离d_c；

步骤4.3，使用密度峰值聚类算法计算所有向量的数据ρ，δ和γ。根据这些数据和步骤4.1设定的参数寻找一维稀有子序列；

ρ，δ和γ的计算公式如下：

其中d_ij＝h(i，j)。计算出所有的ρ后，对它们进行如下排序，设排序好的序列为：

ρ_q1≥ρ_q2≥…≥ρ_qN

则δ的计算方法如下：

ρ，δ都计算完成之后计算γ：

γ_i＝ρ_iδ_i，i∈{1，2，…，N}

步骤4.4，输出所有的一维稀有子序列；

每个大气污染指标输出的稀有子序列信息如表2所示。其中的数据会用作后续多维分析中。在每一个维度的输出信息应该包括，维度代表的污染指标名称，这个维度的稀有子序列种类，个数，每种稀有子序列的出现时间(以开始时间记录)和出现次数。每个维度的维度名称不能相同。

表2为本发明在时序数据的一维稀有子序列挖掘过程中输出的数据结构格式，以CO和NO2举例；

维度序列名称	稀有子序列标号	出现位置	出现次数
				CO	a1	1，3，5，7	4
CO	a2	2，4，6	3
				CO	a3	8，11	2
NO2	b1	1，3，7	3
				NO2	b2	3，5	2
NO2	b3	9	1

表2

步骤5，使用频繁模式树对每一维度时序数据的稀有子序列，即步骤4的输出结果进行多维时序关联规则挖掘。

步骤5.1、设定关联规则挖掘的参数，包括支持度构建阈值s1，支持度有效阈值s2，置信度构建阈值b1，置信度有效阈值b2，时间窗口大小W；

步骤5.2、统计每一维度的稀有子序列信息，为每一维度分别建立频繁模式子树的第一层结点。第一层结点的每个结点代表着这个维度的一种稀有子序列，结点中建立的信息包含稀有子序列的种类，出现时间，出现次数；

子序列所属维度名称结点中的信息和频繁模式子树构建过程如图2所示。显而易见这是根据表2中的数据进行构建。

步骤5.3、对每个维度的频繁模式子树，遍历其所有叶子结点，从其他维度的频繁模式子树中寻找目标结点，设当前结点代表的频繁子序列的总出现次数为m，每个出现时间为t，寻找目标结点所有出现时间在[t，t+W]的频繁子序列出现次数n；

m，n，t的计算过程如图3所示。以a1为例，遍历其他频繁模式子树中的结点，分别计算它们在t中出现的位置，并且计算n，然后生成待构建的结点。

步骤5.4、根据m和n计算关联规则的置信度和支持度，把符合置信度要求和支持度要求的结点作为当前叶子待建立的新的子结点；

步骤5.5、检查待建立的新的子结点，其所属维度和所有祖先结点的所属维度不能相同，否则放弃建立这个新结点，之后将满足此条件的新结点建立；

待建立结点处理过程如图4所示，其中只有待构建的b1结点符合条件，b2和b3条件不符合，所以没有构建它们。构建的新节点保留其所属维度名称，和稀有子序列标号，出现时间是与父节点共现的时间，出现次数是与父节点共现的次数。从图4中可知，成功构建的新节点出现时间为{1，3，7}是因为a1与b1的共现时间为{1，3，7}，而不是因为b1出现在{1，3，7}。

步骤5.6、重复步骤5.2，步骤5.3，和步骤5.4，直到不再有新的结点建立为止；

步骤5.2，5.3和5.4中的思想类似于Apriori算法的中频繁序列的子串一定为频繁的，以及在拓展新结点时借鉴了其剪枝的方法。

步骤5.7、遍历所有频繁模式子树，将所有符合置信度和支持度要求的关联规则输出，输出结果如表3所示。

表3

图5所示，为本发明最终输出的多维时序数据的稀有子序列数据结构。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种挖掘大气污染多维时序数据的稀有子序列的方法，其特征在于，包括以下步骤：

步骤1、获取大气污染的多维时序数据集，并对这些数据进行预处理，数据集中的属性数据包括时间，CO浓度，SO2浓度，NO2浓度，O3浓度，PM10浓度，PM25浓度；

步骤2、使用累计均方误差值AE对预处理后的多维时序数据进行自底向上的线段拟合，生成线段模式时间序列；

步骤3、从线段模式时间序列中选取时间跨度为w的一系列线段作为向量，计算所有向量之间的相似度；

步骤4、使用密度峰值聚类算法计算每一维度时序数据的稀有子序列；

步骤5、使用频繁模式树对每一维度时序数据的稀有子序列进行多维时序关联规则挖掘；

步骤5具体包括以下步骤：

步骤5.1、统计每一维度的稀有子序列信息，为每一维度分别建立频繁模式子树的第一层结点，第一层结点的每个结点代表着这个维度的一种稀有子序列，结点中建立的信息包含稀有子序列的种类，出现时间，出现次数，子序列所属维度名称；

步骤5.2、对每个维度的频繁模式子树，遍历其所有叶子结点，从其他维度的频繁模式子树中寻找目标结点，指定时间窗口大小W，设当前结点代表的频繁子序列的总出现次数为m，每个出现时间为t，寻找目标结点所有出现时间在[t,t+W]的频繁子序列出现次数n；

步骤5.4、检查待建立的新的子结点，其所属维度和所有祖先结点的所属维度不能相同，否则放弃建立这个新结点，将满足此条件的新结点建立；

2.如权利要求1所述的挖掘大气污染多维时序数据的稀有子序列的方法，其特征在于，步骤4具体包括以下步骤：

步骤4.1、计算截断距离d_c，对所有向量之间的相似度进行升序排列，选取前第2％位置的相似度作为截断距离d_c；

步骤4.3、遍历每一维度的线段模式时间序列，对所有稀有子序列对应的向量中的线段标记稀有子序列的种类；

步骤4.4、输出每一维度的稀有子序列信息，在每一个维度的输出信息应该包括，维度名称，这个维度的稀有子序列种类，个数，每种稀有子序列的出现时间和出现次数，每个维度的维度名称是区分不同维度的依据，所以不能相同；每种稀有子序列的出现时间，以开始时间记录。

3.如权利要求1所述的挖掘大气污染多维时序数据的稀有子序列的方法，其特征在于，步骤2具体为：对预处理后的多维时序数据使用自底向上的方法进行线段拟合生成线段模式序列，定义长度为t的一个时间序列为M＝{m₁,m₂,…,m_t}，定义从时间i开始，长度为w选取的线段模式L_i,w＝f(m_i,m_i+1,…,m_i+w-1)，f是线段模式计算方法，其从i开始不停地计算累计均方误差，当超过阈值时停止，以确定线段的长度；定义线段模式序列VL＝{L_i1,w1,L_i2,w2，…，L_in,wn},1≤i1,i1+w1＝i2,i2+w2＝i3,…,in+wn＝t。