CN112488196B - 一种轨迹数据参数自适应的聚类方法 - Google Patents
一种轨迹数据参数自适应的聚类方法 Download PDFInfo
- Publication number
- CN112488196B CN112488196B CN202011374727.8A CN202011374727A CN112488196B CN 112488196 B CN112488196 B CN 112488196B CN 202011374727 A CN202011374727 A CN 202011374727A CN 112488196 B CN112488196 B CN 112488196B
- Authority
- CN
- China
- Prior art keywords
- data
- unit
- intersection
- union
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种轨迹数据参数自适应的聚类方法,首先设置参数T和α,再根据时间维度取数据中的交集的部分作为将要处理的样本点,引入置信区间和分布散度为评价标准,保证了样本点数据的有效性和准确性,从而减少了处理数据量。之后,利用交集的数据引入一种点密度的度量的方法解决eps值设定问题,并根据滑动窗口的方式找出单位最大样本个数与单位最小样本个数,取其均值的操作来作为MinPts的设置值。本发明提供的轨迹数据参数自适应的聚类方法不仅解决了DBSCAN聚类算法本身只能处理小量数据的缺点,还能自适应的设定DBSCAN聚类算法中的eps和MinPts值,解决现有技术中只能根据经验人工设定,导致的聚类效果不理想的问题。
Description
技术领域
本发明涉及数据聚类算法领域,具体涉及一种轨迹数据参数自适应的聚类方法。
背景技术
如今的数据热点聚类的算法,主要是使用一种DBSCAN算法,DBSCAN算法作为一种密度聚类被学者广泛的应用于数据的挖掘与分析中,该算法衡量其密度大小取决于单位超球里样本数量,不仅在聚类时可以聚类出不同形状的簇,而且可以探索出离群点。但DBSCAN算法在使用之前必须设置两个参数EPS和MinPts,这两个参数是根据自己的经验人工设定,而且聚类效果的好坏直接取决于设置参数的是否适用于自己的数据集,在不知数据规模和数据分布的境况下设置算法参数基本无依据可依。另外,DBSCAN算法本身只能处理小量数据,在大数据聚类上效果不佳。
现有技术中,有的学者对DBSCAN算法进行了改进,其主要的思路为:初始化时设置MinPts的值为常数4,然后算法运行观察EPS的变化在此过程中优化MinPts的值。虽然给了很好的一般性参数设定值,但是整个过程还是需要人工的干预。有的学者尝试引入了簇之间的链接信息来降低原始算法对参数的过分敏感性,但是也未成改变输入参数的问题。或者提出了一种逐渐细化的方法来完成聚类操作,在每次完成聚类时,算法自动的调整参数,但是其初始化参数还是需要指定。其中在学术届比较认可的是使用K-dist图的思想,首先对于每个样本进行K个最近距离排序,然后确定Eps的值,但是MinPts值的大小还需要指定。或者提出的I-DBSCAN算法分析数据的特征信息来完成对DBSCAN参数的优化,但是在大型的数据集中并不适合。或者提出使用非参数核密度方法去估计数据样本的分布特征从而确定参数值,但是其在运行过程中核密度函数会出现很多的峰值,在取样时导致参数设置不合适,聚类效果不理想。
发明内容
针对现有DBSCAN聚类方法存在的问题,本发明提供了一种轨迹数据参数自适应的聚类方法。
本发明采用以下的技术方案:
一种轨迹数据参数自适应的聚类方法,包括以下步骤:
步骤1:输入总的轨迹数据,设置参数T和α,其中,T为取数据的时间间隔,α为置信系数;
步骤2:总的轨迹数据中每隔时间间隔T的数据构成一个数据块Si,其中,S1代表第一个时间间隔T的数据块,S2代表第二个时间间隔T的数据块,以此类推;
将S1和S2这两个数据块取交集,即S1∩S2,获得交集数据,交集数据存入交集单元;
将S1和S2这两个数据块取并集,即S1∪S2,获得并集数据,并集数据存入并集单元;
步骤3:利用交集单元中的数据获取置信区间,获取并集单元中落入置信区间的数据个数n,并集单元中总数据个数为N,判断n/N是否大于等于1-α,若不满足则执行步骤4;若满足则计算交集单元里的数据分布情况和并集单元里的数据分布情况,再计算分布散度;
判断分布散度是否接近0,若满足则执行步骤5,若不满足则执行步骤4;
步骤4:取下一个时间间隔T的数据块,将下一个时间间隔T的数据块与并集单元取交集,更新交集单元;
将下一个时间间隔T的数据块与并集单元取并集,更新并集单元;
返回步骤3;
步骤5:将获得的交集单元中的数据作为样本点,根据样本点,计算DBSCAN算法要用的参数eps和MinPts;
步骤6:根据步骤5得到的eps和MinPts,利用DBSCAN算法进行密度聚类,密度聚类后,返回步骤4,直至所有数据块遍历完成。
优选地,利用交集单元中的数据获取置信区间的过程为:
交集单元中的数据为{A1,……,Ak},每个数据包括经度值xk和纬度值yk;
则置信区间包括k个置信区间,分别为:
第一置信区间[x1(1-α),x1(1+α)],[y1(1-α),y1(1+α)];
……
第k置信区间[xk(1-α),xk(1+α)],[yk(1-α),yk(1+α)];
并集单元中落入置信区间的数据个数的确定过程为:
遍历并集单元中的所有数据,找出能够落入以上置信区间的数据的个数n。
优选地,计算交集单元里的数据分布情况的公式为:
计算并集单元里的数据分布情况为计算并集单元里与交集单元重合的那部分数据的分布情况,实际上就是交集单元的数据在并集单元里的分布情况;
公式为:
其中,Qj为数据Aj在并集单元里的分布情况,代表交集单元里所有数据的均值,m代表交集单元的数据总数,Bm代表交集单元的所有数据,Aj∈Bm,代表的是Aj与的欧氏距离,∑m≠jd(Aj,Bm)代表Aj与并集单元里除去Aj本身的其它所有数据的欧氏距离的总和;
分布散度计算公式为:
其中,D(P||Q)代表分布散度。
优选地,计算DBSCAN算法要用的参数eps的过程为:
将数据的经度值设为x轴,纬度值设为y轴,样本点扩展为二维数据为(xk,yk),找到样本点中经度值的最大值xmax和最小值xmin,纬度值的最大值ymax和最小值xmin,构建最大值点(xmax,ymax),最小值点(xmin,ymin),则最大值点与最小值点的距离为l;
则
其中,k为样本点的个数;
计算MinPts的过程为:
将k个样本点的经度和维度映射为矩阵,上式计算的eps取整为h,以h*h的窗口为大小,以1*1的步长进行滑动,计算出窗口中最多的点的个数与最少的点个数取均值就为MinPts的值。
本发明具有的有益效果是:
一种轨迹数据参数自适应的聚类方法,根据时间维度取数据中的交集的部分作为将要处理的样本点,引入置信区间和分布散度为评价标准,保证了样本点数据的有效性和准确性,从而减少了处理数据量,解决了DBSCAN聚类方法本身只能处理小量数据的缺点。
利用交集的数据引入一种点密度的度量的方法解决eps值设定问题,并根据滑动窗口的方式找出单位最大样本个数与单位最小样本个数,取其均值的操作来作为MinPts的设置值,解决了现有技术中只能根据经验人工设定,导致的聚类效果不理想的问题。通过在手机信令数据上验证,与现有的DBSCAN聚类方法做对比实验,与热力图做参照实验,证明了本发明在一定程度上具有优越性和正确性。
附图说明
图1为利用现有的DBSCAN聚类方法对手机信令数据聚类后的示意图。
图2为利用现有的DBSCAN聚类方法对手机信令数据聚类后的热力图
图3为本发明的轨迹数据参数自适应的聚类方法对手机信令数据聚类后示意图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
实施例1
结合图1至图3,通过对手机信令生成的轨迹数据进行分析,得到交通分布特征,能为城市智能规划和城市管理提供有价值的参考。
利用本发明的方法进行手机信令生成的轨迹数据进行聚类的方法为:
一种轨迹数据参数自适应的聚类方法,包括以下步骤:
步骤1:输入总的轨迹数据,设置参数T和α,其中,T为取数据的时间间隔,α为置信系数。
T的设置可以根据时间序列的数据定位间隔时间的倍数来取,比如数据点间的定位间隔为10s,则可以设置T为多个定位间隔。a的取值为大于0且小于0.5。
在本实施例中,设定T为10分钟,α为0.2。
步骤2:总的轨迹数据中每隔时间间隔T的数据构成一个数据块Si,其中,S1代表第一个时间间隔T的数据块,S2代表第二个时间间隔T的数据块,以此类推。
将S1和S2这两个数据块取交集,即S1∩S2,获得交集数据,交集数据存入交集单元。
将S1和S2这两个数据块取并集,即S1∪S2,获得并集数据,并集数据存入并集单元。
步骤3:利用交集单元中的数据获取置信区间,获取并集单元中落入置信区间的数据个数n,并集单元中总数据个数为N,判断n/N是否大于等于1-α,若不满足则执行步骤4;若满足则计算交集单元里的数据分布情况和并集单元里的数据分布情况,再计算分布散度;
判断分布散度是否接近0,若满足则执行步骤5,若不满足则执行步骤4。
步骤4:取下一个时间间隔T的数据块,将下一个时间间隔T的数据块与并集单元取交集,更新交集单元;
将下一个时间间隔T的数据块与并集单元取并集,更新并集单元;
返回步骤3。
步骤5:将获得的交集单元中的数据作为样本点,根据样本点,计算DBSCAN算法要用的参数eps和MinPts。
计算DBSCAN算法要用的参数eps的过程为:
将数据的经度值设为x轴,纬度值设为y轴,样本点扩展为二维数据为(xk,yk),找到样本点中经度值的最大值xmax和最小值xmin,纬度值的最大值ymax和最小值xmin,构建最大值点(xmax,ymax),最小值点(xmin,ymin),则最大值点与最小值点的距离为l;
则
其中,k为样本点的个数;
计算MinPts的过程为:
将k个样本点的经度和维度映射为矩阵,上式计算的eps取整为h,以h*h的窗口为大小,以1*1的步长进行滑动,计算出窗口中最多的点的个数与最少的点个数取均值就为MinPts的值。
本实施例中,计算出eps为0.18441667,MinPts为9。
步骤6:根据步骤5得到的eps和MinPts,利用DBSCAN算法进行密度聚类,密度聚类后,返回步骤4,直至所有数据块遍历完成。
上述步骤3中:
利用交集单元中的数据获取置信区间的过程为:
交集单元中的数据为{A1,……,Ak},每个数据包括经度值xk和纬度值yk;
则置信区间包括k个置信区间,分别为:
第一置信区间[x1(1-α),x1(1+α)],[y1(1-α),y1(1+α)];
……
第k置信区间[xk(1-α),xk(1+α)],[yk(1-α),yk(1+α)];
并集单元中落入置信区间的数据个数的确定过程为:
遍历并集单元中的所有数据,找出能够落入以上置信区间的数据的个数n。
计算交集单元里的数据分布情况的公式为:
计算并集单元里的数据分布情况为计算并集单元里与交集单元重合的那部分数据的分布情况,实际上就是交集单元的数据在并集单元里的分布情况;
公式为:
其中,Qj为数据Aj在并集单元里的分布情况,代表交集单元里所有数据的均值,m代表交集单元的数据总数,Bm代表交集单元的所有数据,Aj∈Bm,代表的是Aj与的欧氏距离,∑m≠jd(Aj,Bm)代表Aj与并集单元里除去Aj本身的其它所有数据的欧氏距离的总和;
分布散度计算公式为:
其中,D(P||Q)代表分布散度。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (2)
1.一种轨迹数据参数自适应的聚类方法,其特征在于,包括以下步骤:
步骤1:输入总的轨迹数据,设置参数T和α,其中,T为取数据的时间间隔,α为置信系数;
步骤2:总的轨迹数据中每隔时间间隔T的数据构成一个数据块Si,其中,S1代表第一个时间间隔T的数据块,S2代表第二个时间间隔T的数据块,以此类推;
将S1和S2这两个数据块取交集,即S1∩S2,获得交集数据,交集数据存入交集单元;
将S1和S2这两个数据块取并集,即S1∪S2,获得并集数据,并集数据存入并集单元;
步骤3:利用交集单元中的数据获取置信区间,获取并集单元中落入置信区间的数据个数n,并集单元中总数据个数为N,判断n/N是否大于等于1-α,若不满足则执行步骤4;若满足则计算交集单元里的数据分布情况和并集单元里的数据分布情况,再计算分布散度;
判断分布散度是否接近0,若满足则执行步骤5,若不满足则执行步骤4;
利用交集单元中的数据获取置信区间的过程为:
交集单元中的数据为{A1,......,Ak},每个数据包括经度值xk和纬度值yk;
则置信区间包括k个置信区间,分别为:
第一置信区间[x1(1-α),x1(1+α)],[y1(1-α),y1(1+α)];
……
第k置信区间[xk(1-α),xk(1+α)],[yk(1-α),yk(1+α)];
并集单元中落入置信区间的数据个数的确定过程为:
遍历并集单元中的所有数据,找出能够落入以上置信区间的数据的个数n;
步骤4:取下一个时间间隔T的数据块,将下一个时间间隔T的数据块与并集单元取交集,更新交集单元;
将下一个时间间隔T的数据块与并集单元取并集,更新并集单元;
返回步骤3;
步骤5:将获得的交集单元中的数据作为样本点,根据样本点,计算DBSCAN算法要用的参数eps和MinPts;
计算DBSCAN算法要用的参数eps的过程为:
将数据的经度值设为x轴,纬度值设为y轴,样本点扩展为二维数据为(xk,yk),找到样本点中经度值的最大值xmax和最小值xmin,纬度值的最大值ymax和最小值xmin,构建最大值点(xmax,ymax),最小值点(xmin,ymin),则最大值点与最小值点的距离为l;
则
其中,k为样本点的个数;
计算MinPts的过程为:
将k个样本点的经度和维度映射为矩阵,上式计算的eps取整为h,以h*h的窗口为大小,以1*1的步长进行滑动,计算出窗口中最多的点的个数与最少的点个数取均值就为MinPts的值;
步骤6:根据步骤5得到的eps和MinPts,利用DBSCAN算法进行密度聚类,密度聚类后,返回步骤4,直至所有数据块遍历完成。
2.根据权利要求1所述的一种轨迹数据参数自适应的聚类方法,其特征在于,计算交集单元里的数据分布情况的公式为:
计算并集单元里的数据分布情况为计算并集单元里与交集单元重合的那部分数据的分布情况,实际上就是交集单元的数据在并集单元里的分布情况;
公式为:
其中,Qj为数据Aj在并集单元里的分布情况,代表交集单元里所有数据的均值,m代表交集单元的数据总数,Bm代表交集单元的所有数据,Aj∈Bm,代表的是Aj与的欧氏距离,∑m≠jd(Aj,Bm)代表Aj与并集单元里除去Aj本身的其它所有数据的欧氏距离的总和;
分布散度计算公式为:
其中,D(P||Q)代表分布散度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011374727.8A CN112488196B (zh) | 2020-11-30 | 2020-11-30 | 一种轨迹数据参数自适应的聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011374727.8A CN112488196B (zh) | 2020-11-30 | 2020-11-30 | 一种轨迹数据参数自适应的聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112488196A CN112488196A (zh) | 2021-03-12 |
CN112488196B true CN112488196B (zh) | 2022-07-29 |
Family
ID=74937615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011374727.8A Active CN112488196B (zh) | 2020-11-30 | 2020-11-30 | 一种轨迹数据参数自适应的聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112488196B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056136A (zh) * | 2016-05-20 | 2016-10-26 | 浙江工业大学 | 一种聚类中心快速确定的数据聚类方法 |
CN109214462A (zh) * | 2018-09-25 | 2019-01-15 | 东北大学 | 一种基于分布式增量型dbscan算法的空间数据流在线聚类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110515981B (zh) * | 2018-05-21 | 2022-04-12 | 国家计算机网络与信息安全管理中心 | 一种基于时空轨迹的用户识别方法及装置 |
CN110309383B (zh) * | 2019-06-17 | 2021-07-13 | 武汉科技大学 | 基于改进的dbscan算法的船舶轨迹聚类分析方法 |
-
2020
- 2020-11-30 CN CN202011374727.8A patent/CN112488196B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056136A (zh) * | 2016-05-20 | 2016-10-26 | 浙江工业大学 | 一种聚类中心快速确定的数据聚类方法 |
CN109214462A (zh) * | 2018-09-25 | 2019-01-15 | 东北大学 | 一种基于分布式增量型dbscan算法的空间数据流在线聚类方法 |
Non-Patent Citations (2)
Title |
---|
A New DBSCAN Parameters Determination Method Based on Improved MVO;Wenhao Lai et al.;《IEEE》;20190813;全文 * |
船舶轨迹聚类分析与应用;周海 等;《计算机仿真》;20201031;第37卷(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112488196A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2018101946A4 (en) | Geographical multivariate flow data spatio-temporal autocorrelation analysis method based on cellular automaton | |
CN106708989B (zh) | 基于空间时序数据流应用的Skyline查询方法 | |
CN110738247B (zh) | 一种基于选择性稀疏采样的细粒度图像分类方法 | |
CN111192284A (zh) | 一种车载激光点云分割方法及系统 | |
CN106777093B (zh) | 基于空间时序数据流应用的Skyline查询系统 | |
CN102663454B (zh) | 一种字符书写规范度评测的方法和装置 | |
WO2020147286A1 (zh) | 一种边缘端的嵌入式时间序列决策树分类方法及系统 | |
CN112100435B (zh) | 一种基于边缘端交通音视频同步样本的自动标注方法 | |
CN105046714A (zh) | 一种非监督的基于超像素和目标发现机制的图像分割方法 | |
CN106202477A (zh) | 医疗费用挖掘方法及装置 | |
CN117078048A (zh) | 基于数字孪生的智慧城市资源管理方法及系统 | |
CN113222071A (zh) | 一种基于岩石薄片显微图像深度学习的岩石分类方法 | |
CN110659682A (zh) | 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法 | |
CN112348360A (zh) | 一种基于大数据技术的中药生产工艺参数分析系统 | |
CN110826623B (zh) | 基于气象数据的分类方法、装置、计算机设备及存储介质 | |
CN107067727B (zh) | 一种基于模糊knn特征匹配的道路交通服务水平评价方法 | |
CN110866689B (zh) | 一种空间扫描统计量中选择最大扫描窗口的方法 | |
CN117612025B (zh) | 基于扩散模型的遥感图像屋顶识别方法 | |
CN109147322B (zh) | 一种城市交通大数据处理中多源数据自适应融合方法 | |
CN114580572A (zh) | 一种异常值的识别方法、装置、电子设备及存储介质 | |
CN112488196B (zh) | 一种轨迹数据参数自适应的聚类方法 | |
CN117423001A (zh) | 基于改进ssd的岩石岩性识别方法与系统、存储介质和设备 | |
CN115907159B (zh) | 一种相似路径台风的确定方法、装置、设备及介质 | |
CN115099354A (zh) | 训练样本的构建方法、装置、设备及存储介质 | |
CN111339155A (zh) | 一种关联分析系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |