CN105654115A - 一种面向行为识别的密度适应性聚类方法 - Google Patents
一种面向行为识别的密度适应性聚类方法 Download PDFInfo
- Publication number
- CN105654115A CN105654115A CN201510990402.5A CN201510990402A CN105654115A CN 105654115 A CN105654115 A CN 105654115A CN 201510990402 A CN201510990402 A CN 201510990402A CN 105654115 A CN105654115 A CN 105654115A
- Authority
- CN
- China
- Prior art keywords
- density
- cluster
- density threshold
- clustering
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向行为识别的密度适应性聚类方法,涉及聚类分析技术领域,包括按照由高到低的次序,从最高密度阈值到最低密度阈值以此对给定数据集进行聚类分析。上一次的聚类过程产生的结果可以直接作为下一次的聚类过程的输入,并在当前密度阈值下对上一次的聚类结果进行必要的修正,从而实现了对不同密度数据簇的聚类。由于基本聚类算子采用基于密度的聚类方法,其聚类过程为典型的迭代扩展过程,因此可以克服基于距离算法只能发现类圆形的聚类簇的缺点,因此该方法对噪音数据不敏感,可自动排除噪音数据对聚类过程的影响,并且能发现任意形状的簇。
Description
技术领域
本发明涉及数据识别技术领域,尤其涉及一种面向行为识别的密度适应性聚类方法。
背景技术
基于密度的聚类方法是基于聚类方法的一个重要分支,其主要通过度量区域中所包含的点的数量来进行聚类。经典的基于密度的聚类方法主要有DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)和OPSTICS(OrderingPointstoIdentifytheClusteringStructure)。传统的基于密度的算法的主要优点有以下三个方面。1.对噪音数据不敏感,可自动排除噪音数据对聚类过程的影响。2.能发现任意形状的簇。由于其聚类过程为典型的迭代扩展过程,因此可以克服基于距离算法只能发现类圆形的聚类簇的缺点。3.能发现任意数量的聚类簇,事先不需要知道聚类簇的个数。较为优良的聚类性能使其在科学研究及工程实践中均具有重要的应用意义。
传统的基于密度的聚类算法使用全局唯一的密度参数(ε,MinPts),因此当数据分布不均匀,即聚类簇间密度差异较大便可能出现一下两种状况:1.当密度参数设置的过低时可能会导致离的较近的多个簇被合并成一个簇。2.当密度参数设置的过高时,密度较低的簇则会被视为噪音数据。其上述不足限制了其应用范围。
发明内容
针对上述缺陷或不足,本发明提供一种面向行为识别的密度适应性聚类方法,能够通过输入最的最高密度阈值、最低密度阈值和密度层次数产生多个密度阈值,并在多个密度阈值上使用修正过的DBSCAN算法对数据进行多次聚类。
为达到以上目的,本发明的技术方案为:
包括以下步骤:
1)设定密度层次及最高、最低密度阈值,并根据所设定的密度层次及最高、最低密度阈值计算各个层次上的密度阈值;
2)将密度阈值从高到低进行排列,选取密度阈值中最高密度阈值对数据进行第一次聚类,产生聚类族;
3)将剩余密度阈值重新从高到底进行排列,选取密度阈值中最高密度阈值对数据进行第i次聚类,产生聚类族;其中,第i次聚类过程产生的聚类簇,在后续聚类过程中只能被扩展而不能被分割或者合并到其他簇;满足当前密度阈值的新簇应该被优先提取以避免与被已存在的簇合并;
4)重复步骤3),直到根据所有的密度阈值将数据聚类完成,将所聚类的数据进行行为识别。
所述步骤1)具体为:
设定密度层次DensityLevel、最低密度阈值(Epsl,MinPtsl),最高密度阈值(Epsh,MinPtsh),根据所设定的密度层次DensityLevel,设定聚类的多个密度阈值(Epsi,MinPtsi),i=1,2,......,其中:
所述步骤3)中,进行第i次聚类,对定点p的领域数据Neighbors进行划分:
1)如果定点p已经在前聚类过程中被赋予类标号p.cid则其邻居应包含:
a)所有和类标号为p.cid的数据点;
b)所有没有类标号但满足:dist(p,q)<Epsi的数据点;
其中,q为没有类标号的任意数据点,dist(p,q)为数据点p和q的点-点距。
2)如果p并未在先前聚类过程中被赋予类标号则其邻居应包含:
所有没有类标号但满足:dist(p,q)<Epsi的数据点。与现有技术比较,本发明的技术方案为:
本发明提供了一种面向行为识别的密度适应性聚类方法,按照由高到低的次序,从最高密度阈值到最低密度阈值以此对数据进行输入。上一次的聚类过程产生的结果可以直接作为下一次的聚类过程的输入,并在当前密度阈值下对上一次的聚类结果进行必要的修正,对聚类过程进行了两方面的约束,以确保:1.随着密度阈值的降低,先前聚类过程产生的较高密度的聚类簇不会被合并;2.满足当前密度阈值的簇(即应当当初出现的簇)被正确的发现,而不是合并到先前产生的密度较高的簇当中,因此,本发明本文的算法就是通过使用从高到底的多个密度阈值,迭代的对数据进行聚类,最终发现多个密度层次上的聚类簇,准确的应用于行为识别中,帮助解决实际问题。
附图说明
图1是本发明面向行为识别的密度适应性聚类方法的流程框图;
图2是MDL-DBSCAN算法聚类过程示意图;其中,(a)待聚类数据点;(b)第一次聚类,使用最高密度阈值(ε1,MinPts1)=(15,8);(c)第二次聚类,使用密度阈值(ε2,MinPts2)=(10,14);(d)第三次聚类使用密度阈值(ε3,MinPts3)=(5,20);
图3是使用原始DBSCAN聚类轨迹拐点图一;
图4是使用原始DBSCAN聚类轨迹拐点图二;
图5是使用MDL-DBSCAN算法聚类轨迹拐点,最低密度阈值(εl,MinPtsl)=(0.5e-3,4),最高密度阈值(εh,MinPtsh)=(0.2e-3,20),密度层次DensityLevel=3。
具体实施方式
下面结合附图对本发明做详细描述。
如图1所示,本发明提供了一种面向行为识别的密度适应性聚类方法,包括以下步骤:
1)设定密度层次及最高、最低密度阈值,并根据所设定的密度层次及最高、最低密度阈值计算各个层次上的密度阈值;
所述步骤1)具体为:
设定密度层次DensityLevel、最低密度阈值(εl,MinPtsl),最高密度阈值(εh,MinPtsh),根据所设定的密度层次DensityLevel,设定聚类的多个密度阈值(εi,MinPtsi),i=1,2,......,其中:
2)将密度阈值从高到低进行排列,选取密度阈值中最高密度阈值对数据进行第一次聚类,产生聚类族;
3)将剩余密度阈值重新从高到低进行排列,选取密度阈值中最高密度阈值对数据进行第i次聚类,产生聚类族;其中,第i次聚类过程产生的聚类簇,在后续聚类过程中只能被扩展而不能被分割或者合并到其他聚类簇中;并且满足当前密度阈值的簇被优先提取出来;算法依次对数据在密度阈值(εi,MinPtsi),i=1,2,......,DensityLevel下聚类,第i次聚类的结果直接作为第i+1次聚类的输入。
为了让在不同密度阈值上的聚类结果具有可继承性,MDL-DBSCAN对聚类过程有两个约束。首先随着密度阈值的降低,先前聚类过程产生的较高密度的聚类簇不会被合并,因此MDL-DBSCAN对DBSCAN聚类过程的第一个约束为:先前聚类过程产生的聚类簇在后续聚类过程中不能被分割或者合并到其他聚类簇中。例如,图2为MDL-DBSCAN算法聚类过程示意图,图2(d)中在第二次聚类过程中产生的聚类簇C1′,C2′和C3′在第三次聚类过程中顺利扩展为C1,C2和C3,而并没有被分裂或者合并到其他簇当中。相反的,如果没有该约束,聚类簇C1′,C2′和C3′可能在第三次聚类过程中被分裂或者合并到一块。同时在此过程中MDL-DBSCAN并未禁止聚类簇的扩展,聚类簇可以在满足当前密度阈值的情况下进行扩展,以避免产生过多无意义的小聚类簇。在具体实施过程中,MDL-DBSCAN通过修改DBSCAN算法中“邻居”Neighbors的定义来实现对DBSCAN聚类过程的约束。
除此之外,在聚类过程中可能产生满足当前密度阈值的簇没有被单独提取出来,而是被错误的合并到已有的簇当中的情况。因此MDL-DBSCAN对DBSCAN聚类过程的第二个约束为:满足当前密度阈值的簇应当被优先提取出来。例如,在图2(c)中,第二次聚类过程产生的簇C2′满足当前密度阈值(ε2,MinPts2),被单独提取了出来而不是直接合并到簇C1′中。同理,图2(d)中的簇C5满足当前密度阈值(ε3,MinPts3)而不是直接被合并到簇C3′中。如果没有该约束,则在第二次聚类过程产生的簇C2′会被合并到簇C1′;在第三次聚类过程中簇C5会被合并到簇C3′中。示例性的,图2中MDL-DBSCAN算法聚类过程示例。假设最高密度与阈值(εh,MinPtsh)=(5,20),最低密度阈值(εl,MinPtsl)=(15,8),密度层次DensityLevel=3。(a)待聚类数据点。(b)第一次聚类,使用最高密度阈值(ε1,MinPts1)=(15,8)。(c)第二次聚类,使用密度阈值(ε2,MinPts2)=(10,14)。(d)第三次聚类使用密度阈值(ε3,MinPts3)=(5,20)。
4)重复步骤3),直到根据所有的密度阈值将数据聚类完成,将所聚类的数据进行行为识别。
为了验证所述算法MDL-DBSCAN的有效性,我们将其应用于一个实际问题当中。对于个人频繁移动路径挖掘问题,一种可行的解决思路为:将个人历史GPS轨迹统一映射到道路网络上,这样就可以将频繁移动路径挖掘问题转化为轨迹的计数问题。该思路实施的难点在于如何从大量的历史GPS轨迹中提取真实的道路信息。通过对GPS特征点(即轨迹方向发生明显变化的地方)进行聚类可以实现道路拐点的定位。我们将算法应用于如上所述的道路拐点定位我那体重以检验其有效性。如图2~4所示,我们分别使用DBSCAN和MDL-DBSCAN算法对特征点聚类。图中曲线为真实GPS轨迹,圆点为算法产生的不同的聚类簇。由于左右两个轨迹簇密度的差异较大导致GPS特征点密度差异较大,因此若使用原始DBSCAN以一个较低的密度阈值(ε,MinPts)=(0.5e-3,4)进行聚类,如图3所示,使用原始DBSCAN聚类轨迹拐点(ε,MinPts)=(0.5e-3,4)会导致右侧的特征点簇被成功聚类,但左侧的特征点簇被合并在了一起。若使用原始DBSCAN以一个较高的密度阈值(ε,MinPts)=(0.2e-3,20)进行聚类,如图4所示,则会导致右侧的特征点簇被成功聚类而左侧的特征点簇由于不满足当前较高的密度阈值被当作噪音,图3~5中的噪音点均未画出来,未被成功聚类。由此可见,使用原始DBSCAN我们无法找到一个合适的密度阈值使得左右两侧的特征点簇均被成功聚类。相反,若使用MDL-DBSCAN聚类轨迹特征点,最低密度阈值设为(εl,MinPtsl)=(0.5e-3,4),最高密度阈值设为(εh,MinPtsh)=(0.2e-3,20),密度层次数设为DensityLevel=3,如图5所示,则可以成功对两侧的轨迹特征点进行聚类。
Claims (3)
1.一种面向行为识别的密度适应性聚类方法,其特征在于,包括以下步骤:
1)设定密度层次及最高、最低密度阈值,并根据所设定的密度层次及最高、最低密度阈值计算各个层次上的密度阈值;
2)将密度阈值从高到低进行排列,选取密度阈值中最高密度阈值对数据进行第一次聚类,产生聚类族;
3)将剩余密度阈值重新从高到底进行排列,选取密度阈值中最高密度阈值对数据进行第i次聚类,产生聚类族;其中,第i次聚类过程产生的聚类簇,在后续聚类过程中只能被扩展而不能被分割或者合并到其他簇;满足当前密度阈值的新簇应该被优先提取以避免与被已存在的簇合并;
4)重复步骤3),直到根据所有的密度阈值将数据聚类完成,将所聚类的数据进行行为识别。
2.根据权利要求1所述的面向行为识别的密度适应性聚类方法,其特征在于,所述步骤1)具体为:
设定密度层次DensityLevel、最低密度阈值(Epsl,MinPtsl),最高密度阈值(Epsh,MinPtsh),根据所设定的密度层次DensityLevel,设定聚类的多个密度阈值(Epsi,MinPtsi),i=1,2,......,其中:
3.根据权利要求1所述的面向行为识别的密度适应性聚类方法,其特征在于,所述步骤3)中,进行第i次聚类,对定点p的领域数据Neighbors定义如下:
1)如果定点p已经在前聚类过程中被赋予类标号p.cid则其邻居应包含:
a)所有和类标号为p.cid的数据点;
b)所有没有类标号但满足:dist(p,q)<Epsi的数据点;
其中,q为没有类标号的任意数据点,dist(p,q)为数据点p和q的点-点距。
2)如果p并未在先前聚类过程中被赋予类标号则其邻居应包含:
所有没有类标号但满足:dist(p,q)<Epsi的数据点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510990402.5A CN105654115A (zh) | 2015-12-28 | 2015-12-28 | 一种面向行为识别的密度适应性聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510990402.5A CN105654115A (zh) | 2015-12-28 | 2015-12-28 | 一种面向行为识别的密度适应性聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105654115A true CN105654115A (zh) | 2016-06-08 |
Family
ID=56477643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510990402.5A Pending CN105654115A (zh) | 2015-12-28 | 2015-12-28 | 一种面向行为识别的密度适应性聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105654115A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295702A (zh) * | 2016-08-15 | 2017-01-04 | 西北工业大学 | 一种基于个体情感行为分析的社交平台用户分类方法 |
CN110245684A (zh) * | 2019-05-14 | 2019-09-17 | 杭州米雅信息科技有限公司 | 数据处理方法、电子设备和介质 |
-
2015
- 2015-12-28 CN CN201510990402.5A patent/CN105654115A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295702A (zh) * | 2016-08-15 | 2017-01-04 | 西北工业大学 | 一种基于个体情感行为分析的社交平台用户分类方法 |
CN106295702B (zh) * | 2016-08-15 | 2019-10-25 | 西北工业大学 | 一种基于个体情感行为分析的社交平台用户分类方法 |
CN110245684A (zh) * | 2019-05-14 | 2019-09-17 | 杭州米雅信息科技有限公司 | 数据处理方法、电子设备和介质 |
CN110245684B (zh) * | 2019-05-14 | 2023-02-03 | 杭州米雅信息科技有限公司 | 数据处理方法、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102810118B (zh) | 一种变权网k近邻搜索方法 | |
CN102413029B (zh) | 基于分解的局部搜索多目标复杂动态网络社区划分方法 | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
WO2020081867A1 (en) | Semi-supervised person re-identification using multi-view clustering | |
CN110929962A (zh) | 一种基于深度学习的交通流量预测方法及装置 | |
CN107977734B (zh) | 一种时空大数据下基于移动马尔可夫模型的预测方法 | |
CN104462190A (zh) | 一种基于海量空间轨迹挖掘的在线的位置预测方法 | |
CN103593287A (zh) | 一种基于遗传算法的数据流测试用例自动生成方法 | |
CN108228728B (zh) | 一种参数化的论文网络节点表示学习方法 | |
CN110135450A (zh) | 一种基于密度聚类的热点路径分析方法 | |
CN105095266A (zh) | 一种基于Canopy算法的聚类优化方法及系统 | |
CN109697512B (zh) | 基于贝叶斯网络的个人数据分析方法及计算机存储介质 | |
CN107609694B (zh) | 海上风电集群输电系统结构优化方法及存储介质 | |
CN110879856A (zh) | 一种基于多特征融合的社交群体分类方法及系统 | |
CN110838072A (zh) | 一种基于社区发现的社交网络影响力最大化方法及系统 | |
CN105160196A (zh) | 一种基于动态变异策略的群体全局优化方法 | |
CN106228036A (zh) | 一种采用烟花算法识别蛋白质复合物的方法 | |
CN105654115A (zh) | 一种面向行为识别的密度适应性聚类方法 | |
CN112165401A (zh) | 一种基于网络剪枝和局部社区扩展的边社区发现算法 | |
CN109543846B (zh) | 一种基于mvo改进的dbscan矿井突水光谱识别方法 | |
CN108876144B (zh) | 一种基于深度学习算法的变电站预选址方法 | |
CN103929804A (zh) | 一种基于用户移动规则的位置预测方法 | |
CN112068088A (zh) | 一种基于优化bp神经网络的雷达辐射源威胁评估方法 | |
CN105373804A (zh) | 一种基于多维空间快速聚类的人体部位定位方法与系统 | |
KR102264225B1 (ko) | 모바일통신 데이터 기반의 통행 데이터 산출 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160608 |
|
WD01 | Invention patent application deemed withdrawn after publication |