CN105654115A

CN105654115A - 一种面向行为识别的密度适应性聚类方法

Info

Publication number: CN105654115A
Application number: CN201510990402.5A
Authority: CN
Inventors: 倪红波; 王天本; 周兴社; 张大庆; 王柱; 贾江波
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2015-12-28
Filing date: 2015-12-28
Publication date: 2016-06-08

Abstract

本发明公开了一种面向行为识别的密度适应性聚类方法，涉及聚类分析技术领域，包括按照由高到低的次序，从最高密度阈值到最低密度阈值以此对给定数据集进行聚类分析。上一次的聚类过程产生的结果可以直接作为下一次的聚类过程的输入，并在当前密度阈值下对上一次的聚类结果进行必要的修正，从而实现了对不同密度数据簇的聚类。由于基本聚类算子采用基于密度的聚类方法，其聚类过程为典型的迭代扩展过程，因此可以克服基于距离算法只能发现类圆形的聚类簇的缺点，因此该方法对噪音数据不敏感，可自动排除噪音数据对聚类过程的影响，并且能发现任意形状的簇。

Description

一种面向行为识别的密度适应性聚类方法

技术领域

本发明涉及数据识别技术领域，尤其涉及一种面向行为识别的密度适应性聚类方法。

背景技术

基于密度的聚类方法是基于聚类方法的一个重要分支，其主要通过度量区域中所包含的点的数量来进行聚类。经典的基于密度的聚类方法主要有DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)和OPSTICS(OrderingPointstoIdentifytheClusteringStructure)。传统的基于密度的算法的主要优点有以下三个方面。1.对噪音数据不敏感，可自动排除噪音数据对聚类过程的影响。2.能发现任意形状的簇。由于其聚类过程为典型的迭代扩展过程，因此可以克服基于距离算法只能发现类圆形的聚类簇的缺点。3.能发现任意数量的聚类簇，事先不需要知道聚类簇的个数。较为优良的聚类性能使其在科学研究及工程实践中均具有重要的应用意义。

传统的基于密度的聚类算法使用全局唯一的密度参数(ε，MinPts)，因此当数据分布不均匀，即聚类簇间密度差异较大便可能出现一下两种状况：1.当密度参数设置的过低时可能会导致离的较近的多个簇被合并成一个簇。2.当密度参数设置的过高时，密度较低的簇则会被视为噪音数据。其上述不足限制了其应用范围。

发明内容

针对上述缺陷或不足，本发明提供一种面向行为识别的密度适应性聚类方法，能够通过输入最的最高密度阈值、最低密度阈值和密度层次数产生多个密度阈值，并在多个密度阈值上使用修正过的DBSCAN算法对数据进行多次聚类。

为达到以上目的，本发明的技术方案为：

包括以下步骤：

1)设定密度层次及最高、最低密度阈值，并根据所设定的密度层次及最高、最低密度阈值计算各个层次上的密度阈值；

2)将密度阈值从高到低进行排列，选取密度阈值中最高密度阈值对数据进行第一次聚类，产生聚类族；

3)将剩余密度阈值重新从高到底进行排列，选取密度阈值中最高密度阈值对数据进行第i次聚类，产生聚类族；其中，第i次聚类过程产生的聚类簇，在后续聚类过程中只能被扩展而不能被分割或者合并到其他簇；满足当前密度阈值的新簇应该被优先提取以避免与被已存在的簇合并；

4)重复步骤3)，直到根据所有的密度阈值将数据聚类完成，将所聚类的数据进行行为识别。

所述步骤1)具体为：

设定密度层次DensityLevel、最低密度阈值(Eps_l，MinPts_l)，最高密度阈值(Eps_h，MinPts_h)，根据所设定的密度层次DensityLevel，设定聚类的多个密度阈值(Eps_i，MinPts_i)，i＝1，2，......，其中：

\{\begin{matrix} {Eps}_{i} = {Eps}_{h} - (i - 1) * \frac{{Eps}_{h} - {Eps}_{l}}{D e n s i t y L e v e l} \\ {MinPts}_{i} = {MinPts}_{h} - (i - 1) * \frac{{MinPts}_{h} - {MinPts}_{l}}{D e n s i t y L e v e l} \end{matrix} .

所述步骤3)中，进行第i次聚类，对定点p的领域数据Neighbors进行划分：

1)如果定点p已经在前聚类过程中被赋予类标号p.cid则其邻居应包含：

a)所有和类标号为p.cid的数据点；

b)所有没有类标号但满足：dist(p，q)＜Eps_i的数据点；

其中，q为没有类标号的任意数据点，dist(p，q)为数据点p和q的点-点距。

2)如果p并未在先前聚类过程中被赋予类标号则其邻居应包含：

所有没有类标号但满足：dist(p，q)＜Eps_i的数据点。与现有技术比较，本发明的技术方案为：

本发明提供了一种面向行为识别的密度适应性聚类方法，按照由高到低的次序，从最高密度阈值到最低密度阈值以此对数据进行输入。上一次的聚类过程产生的结果可以直接作为下一次的聚类过程的输入，并在当前密度阈值下对上一次的聚类结果进行必要的修正，对聚类过程进行了两方面的约束，以确保：1.随着密度阈值的降低，先前聚类过程产生的较高密度的聚类簇不会被合并；2.满足当前密度阈值的簇(即应当当初出现的簇)被正确的发现，而不是合并到先前产生的密度较高的簇当中，因此，本发明本文的算法就是通过使用从高到底的多个密度阈值，迭代的对数据进行聚类，最终发现多个密度层次上的聚类簇，准确的应用于行为识别中，帮助解决实际问题。

附图说明

图1是本发明面向行为识别的密度适应性聚类方法的流程框图；

图2是MDL-DBSCAN算法聚类过程示意图；其中，(a)待聚类数据点；(b)第一次聚类，使用最高密度阈值(ε₁，MinPts₁)＝(15，8)；(c)第二次聚类，使用密度阈值(ε₂，MinPts₂)＝(10，14)；(d)第三次聚类使用密度阈值(ε₃，MinPts₃)＝(5，20)；

图3是使用原始DBSCAN聚类轨迹拐点图一；

图4是使用原始DBSCAN聚类轨迹拐点图二；

图5是使用MDL-DBSCAN算法聚类轨迹拐点，最低密度阈值(ε_l，MinPts_l)＝(0.5e-3，4)，最高密度阈值(ε_h，MinPts_h)＝(0.2e-3，20)，密度层次DensityLevel＝3。

具体实施方式

下面结合附图对本发明做详细描述。

如图1所示，本发明提供了一种面向行为识别的密度适应性聚类方法，包括以下步骤：

所述步骤1)具体为：

设定密度层次DensityLevel、最低密度阈值(ε_l，MinPts_l)，最高密度阈值(ε_h，MinPts_h)，根据所设定的密度层次DensityLevel，设定聚类的多个密度阈值(ε_i，MinPts_i)，i＝1，2，......，其中：

\{\begin{matrix} {Eps}_{i} = {Eps}_{h} - (i - 1) * \frac{{Eps}_{h} - {Eps}_{l}}{D e n s i t y L e v e l} \\ {MinPts}_{i} = {MinPts}_{h} - (i - 1) * \frac{{MinPts}_{h} - {MinPts}_{l}}{D e n i s t y L e v e l} \end{matrix} .

3)将剩余密度阈值重新从高到低进行排列，选取密度阈值中最高密度阈值对数据进行第i次聚类，产生聚类族；其中，第i次聚类过程产生的聚类簇，在后续聚类过程中只能被扩展而不能被分割或者合并到其他聚类簇中；并且满足当前密度阈值的簇被优先提取出来；算法依次对数据在密度阈值(ε_i，MinPts_i)，i＝1，2，......，DensityLevel下聚类，第i次聚类的结果直接作为第i+1次聚类的输入。

为了让在不同密度阈值上的聚类结果具有可继承性，MDL-DBSCAN对聚类过程有两个约束。首先随着密度阈值的降低，先前聚类过程产生的较高密度的聚类簇不会被合并，因此MDL-DBSCAN对DBSCAN聚类过程的第一个约束为：先前聚类过程产生的聚类簇在后续聚类过程中不能被分割或者合并到其他聚类簇中。例如，图2为MDL-DBSCAN算法聚类过程示意图，图2(d)中在第二次聚类过程中产生的聚类簇C1′，C2′和C3′在第三次聚类过程中顺利扩展为C1，C2和C3，而并没有被分裂或者合并到其他簇当中。相反的，如果没有该约束，聚类簇C1′，C2′和C3′可能在第三次聚类过程中被分裂或者合并到一块。同时在此过程中MDL-DBSCAN并未禁止聚类簇的扩展，聚类簇可以在满足当前密度阈值的情况下进行扩展，以避免产生过多无意义的小聚类簇。在具体实施过程中，MDL-DBSCAN通过修改DBSCAN算法中“邻居”Neighbors的定义来实现对DBSCAN聚类过程的约束。

除此之外，在聚类过程中可能产生满足当前密度阈值的簇没有被单独提取出来，而是被错误的合并到已有的簇当中的情况。因此MDL-DBSCAN对DBSCAN聚类过程的第二个约束为：满足当前密度阈值的簇应当被优先提取出来。例如，在图2(c)中，第二次聚类过程产生的簇C2′满足当前密度阈值(ε2，MinPts2)，被单独提取了出来而不是直接合并到簇C1′中。同理，图2(d)中的簇C5满足当前密度阈值(ε₃，MinPts₃)而不是直接被合并到簇C3′中。如果没有该约束，则在第二次聚类过程产生的簇C2′会被合并到簇C1′；在第三次聚类过程中簇C5会被合并到簇C3′中。示例性的，图2中MDL-DBSCAN算法聚类过程示例。假设最高密度与阈值(ε_h，MinPts_h)＝(5，20)，最低密度阈值(ε_l，MinPts_l)＝(15，8)，密度层次DensityLevel＝3。(a)待聚类数据点。(b)第一次聚类，使用最高密度阈值(ε₁，MinPts₁)＝(15，8)。(c)第二次聚类，使用密度阈值(ε₂，MinPts₂)＝(10，14)。(d)第三次聚类使用密度阈值(ε₃，MinPts₃)＝(5，20)。

为了验证所述算法MDL-DBSCAN的有效性，我们将其应用于一个实际问题当中。对于个人频繁移动路径挖掘问题，一种可行的解决思路为：将个人历史GPS轨迹统一映射到道路网络上，这样就可以将频繁移动路径挖掘问题转化为轨迹的计数问题。该思路实施的难点在于如何从大量的历史GPS轨迹中提取真实的道路信息。通过对GPS特征点(即轨迹方向发生明显变化的地方)进行聚类可以实现道路拐点的定位。我们将算法应用于如上所述的道路拐点定位我那体重以检验其有效性。如图2～4所示，我们分别使用DBSCAN和MDL-DBSCAN算法对特征点聚类。图中曲线为真实GPS轨迹，圆点为算法产生的不同的聚类簇。由于左右两个轨迹簇密度的差异较大导致GPS特征点密度差异较大，因此若使用原始DBSCAN以一个较低的密度阈值(ε，MinPts)＝(0.5e-3，4)进行聚类，如图3所示，使用原始DBSCAN聚类轨迹拐点(ε，MinPts)＝(0.5e-3，4)会导致右侧的特征点簇被成功聚类，但左侧的特征点簇被合并在了一起。若使用原始DBSCAN以一个较高的密度阈值(ε，MinPts)＝(0.2e-3，20)进行聚类，如图4所示，则会导致右侧的特征点簇被成功聚类而左侧的特征点簇由于不满足当前较高的密度阈值被当作噪音，图3～5中的噪音点均未画出来，未被成功聚类。由此可见，使用原始DBSCAN我们无法找到一个合适的密度阈值使得左右两侧的特征点簇均被成功聚类。相反，若使用MDL-DBSCAN聚类轨迹特征点，最低密度阈值设为(ε_l，MinPts_l)＝(0.5e-3，4)，最高密度阈值设为(ε_h，MinPts_h)＝(0.2e-3，20)，密度层次数设为DensityLevel＝3，如图5所示，则可以成功对两侧的轨迹特征点进行聚类。

Claims

1.一种面向行为识别的密度适应性聚类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向行为识别的密度适应性聚类方法，其特征在于，所述步骤1)具体为：

\{\begin{matrix} E p s_{i} = E p s_{h} - (i - 1) * \frac{{Eps}_{h} - {Eps}_{l}}{D e n s i t y L e v e l} \\ M i n P t s_{i} = M i n P t s_{h} - (i - 1) * \frac{{MinPts}_{h} - {MinPts}_{l}}{D e n s i t y L e v e l} \end{matrix} .

3.根据权利要求1所述的面向行为识别的密度适应性聚类方法，其特征在于，所述步骤3)中，进行第i次聚类，对定点p的领域数据Neighbors定义如下：

a)所有和类标号为p.cid的数据点；

b)所有没有类标号但满足：dist(p，q)＜Eps_i的数据点；

所有没有类标号但满足：dist(p，q)＜Eps_i的数据点。