CN117119384A - 出行热点提取方法、系统、设备及存储介质 - Google Patents
出行热点提取方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN117119384A CN117119384A CN202311094952.XA CN202311094952A CN117119384A CN 117119384 A CN117119384 A CN 117119384A CN 202311094952 A CN202311094952 A CN 202311094952A CN 117119384 A CN117119384 A CN 117119384A
- Authority
- CN
- China
- Prior art keywords
- particle
- track data
- cluster
- travel
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 35
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 239000002245 particle Substances 0.000 claims abstract description 332
- 238000005457 optimization Methods 0.000 claims abstract description 14
- 230000001133 acceleration Effects 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 21
- 230000002776 aggregation Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 230000006835 compression Effects 0.000 claims description 15
- 238000007906 compression Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 abstract description 16
- 229920000642 polymer Polymers 0.000 abstract 1
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种出行热点提取方法、系统、设备及存储介质,其技术方案要点是:获取原始轨迹数据进行预处理得到轨迹数据集;执行多次根据预设簇数将轨迹数据集随机划分成多个簇,初始化粒子,然后得到各个簇对应的第一粒子群,将各个第一粒子群中适应度值最高的粒子作为对应的第一聚类中心;更新各个粒子的速度和位置,得到对应的第二粒子群;结合各个第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心;在所有的第二聚类中心与对应的第一聚类中心不同的情况下更新第一聚类中心,在所有的第二聚类中心与对应的第一聚类中心相同的情况下将所有的第二聚类中心作为出行热点,有效避免了陷入局部最优,提高了聚类算法的准确性和收敛速度。
Description
技术领域
本发明属于热点提取技术领域,具体涉及一种出行热点提取方法、系统、设备及存储介质。
背景技术
城市的出行热点作为居民活动和社会事件的聚集发生地,其时空分布及动态演化反映了居民在城市的流动性和城市区域的功能分布。因此,基于城市的出行热点分析居民出行行为和城市内部空间结构一直以来都受到众多学者的关注。
早期的城市的出行热点研究主要采用问卷调查和社会经济统计资料的方式完成,如利用从调查问卷中获取的游客性别、年龄、客流量等多项指标,分析城市的出行热点。但这种研究方式不仅耗时耗力,且人群覆盖面和调查内容的覆盖度非常有限,调查内容的真实性也缺乏保障。
目前,利用地理时空大数据探测城市的出行热点已成为城市出行热点研究的主流。通过是对相关位置轨迹点进行聚类获得,如采用划分式聚类方算法对出行热点进行提取,但是划分式聚类算法,对于初始聚类中心的选取十分重要,不同的初始聚类中心,可能会出现不同的聚类结果,易陷入局部最优问题。
发明内容
本发明的目的在于提供一种出行热点提取方法、系统、设备及存储介质,能够有效避免了陷入局部最优,提高了聚类算法的准确性和收敛速度。
本发明第一方面公开了一种出行热点提取方法,包括:
步骤1、获取原始轨迹数据,对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集;
步骤2、根据预设簇数将所述轨迹数据集随机划分成多个簇,在各个所述簇中随机选取一数据点的位置作为该簇对应的粒子的初始位置,计算各个粒子的适应度值,为各个粒子随机分配初始速度;
步骤3、将步骤2执行多次,得到各个簇对应的第一粒子群,将各个所述第一粒子群中适应度值最高的粒子作为对应的第一聚类中心;
步骤4、根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群;
步骤5、结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心;
步骤6、判断所有的第二聚类中心与对应的第一聚类中心是否相同,若是,则执行步骤7、若否,则将所述第二聚类中心作为第一聚类中心,将所述第二粒子群作为第一粒子群,重新计算各个粒子的适应度值,并执行步骤4;
步骤7、将所有的第二聚类中心作为出行热点。
可选的,所述根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群,包括:
步骤41、根据各个粒子的适应度值与其经历过的适应度值,确定各个粒子的个体最优解;
步骤42、根据各个所述第一粒子群中的所有粒子的个体最优解,确定各个第一粒子群的全局最优解;
步骤43、根据粒子速度更新公式和粒子位置更新公式更新各个所述粒子的速度,所述粒子速度更新公式为:
其中,v'id为第i个粒子在第d个维度上更新后的速度分量,为压缩因子,vid为第i个粒子在第d个维度上当前的速度分量,xid为第i个粒子在第d个维度上当前的位置分量,w为惯性权重,pid为第i个粒子的个体最优解,pgd为第i个粒子对应的第一粒子群的全局最优解,c1为第一加速系数,c2为第二加速系数,rand()为值在[0,1]之间的随机数;
所述粒子位置更新公式为:
x′id=xid+vid,
其中,x'id为第i个粒子在第d个维度上更新后的位置分量,xid为第i个粒子在第d个维度上当前的位置分量,vid为第i个粒子在第d个维度上当前的速度分量。
可选的,所述压缩因子的计算公式为:
其中,ρ为常数,ρ>4。
可选的,所述惯性权重w根据0.9向0.4线性减小的变化进行取值。
可选的,所述结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心,包括:
将各个所述第二粒子群中适应度值最高的粒子作为对应的聚类中心;
计算所述轨迹数据集中的数据点与各个聚类中心之间的距离,根据最近邻原则,将所述轨迹数据集中的数据点分配给距离其最近的聚类中心,得到更新后的各个簇,计算更新后的各个簇中所有数据点的均值处得到对应的第二聚类中心。
可选的,所述对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集,包括:
对所述原始轨迹数据进行数据清洗得到有效轨迹数据;
对所述有效轨迹数据进行数据标准化得到标准化数据;
根据预设分割标识对所述标准化数据进行分割得到对应的轨迹数据集。
可选的,还包括:
步骤8、将所有的出行热点添加给点图层,将路线段添加给线路图层,所述路线段根据所述轨迹数据进行绘制,将添加有出行热点的点图层和添加有路线段的线路图层添加给地图对象,进行可视化输出。
本发明第二方面公开了一种出行热点提取系统,包括:
获取处理模块,用于获取原始轨迹数据,对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集;
初始化模块,用于根据预设簇数将所述轨迹数据集随机划分成多个簇,在各个所述簇中随机选取一数据点的位置作为该簇对应的粒子的初始位置,计算各个粒子的适应度值,为各个粒子随机分配初始速度;
粒子群初始模块,用于执行初始化模块多次,得到各个簇对应的第一粒子群,将各个所述第一粒子群中适应度值最高的粒子作为对应的第一聚类中心;
粒子群更新模块,用于根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群;
K均值模块,用于结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心;
判断模块,用于判断所有的第二聚类中心与对应的第一聚类中心是否相同,若是,则执行热点确定模块、若否,则将所述第二聚类中心作为第一聚类中心,将所述第二粒子群作为第一粒子群,重新计算各个粒子的适应度值,并执行粒子群更新模块;
热点确定模块,用于将所有的第二聚类中心作为出行热点。
本发明第三方面公开了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
本发明第四方面公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本发明所提供的技术方案具有以下的优点及效果:通过将步骤2执行多次,得到各个簇对应的第一粒子群,也就是确定初始的第一粒子群,在每一轮的迭代过程中,根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置对第一粒子群进行更新,得到第二粒子群,根据第二粒子群以确定该轮的K均值聚类算法的初始聚类中心,有效避免了陷入局部最优,提高了聚类算法的准确性和收敛速度;在更新各个粒子的速度和位置的过程中,粒子群算法中带压缩因子,能通过配置最优参数(如第一加速系数和第二加速系数)控制粒子群更新速度,有效改进粒子群算法的准确率和全局收敛性。
附图说明
图1是本发明实施例公开的出行热点提取方法的流程示意图;
图2是本发明实施例公开的一辆车一天的行车路线图;
图3是本发明实施例公开的一时间轨迹数据集的聚类结果图;
图4是本发明实施例公开的另一时间轨迹数据集的聚类结果图;
图5是本发明实施例公开的起点终点轨迹数据集的聚类结果图;
图6本发明实施例公开的出行热点提取系统的结构框图;
图7是本发明实施例中公开的计算机设备的内部结构图。
具体实施方式
为了便于理解本发明,下面将参照说明书附图对本发明的具体实施例进行更详细的描述。
除非特别说明或另有定义,本文所使用的“第一、第二…”仅仅是用于对名称的区分,不代表具体的数量或顺序。
除非特别说明或另有定义,本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
需要说明的是,本文中“固定于”、“连接于”,可以是直接固定或连接于一个元件,也可以是间接固定或连接于一个元件。
如图1所示,本发明实施例公开了一种出行热点提取方法,采用基于改进的粒子群聚类算法提取出行热点,具体包括:
步骤1、获取原始轨迹数据,对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集。
在实际应用中,获取的原始轨迹数据可以是用户骑行共享单车的轨迹数据,也可以是用户搭乘出租车的轨迹数据,原始轨迹数据中可能会存在缺失值、异常值或重复值,缺失值、异常值或重复值会对聚类算法的聚类结果造成影响;原始轨迹数据中各个数据点的属性可能有所不同,如各个数据点的位置可能采用经纬度、地名等不同的方式进行表示。
本实施例中的对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集,具体包括:
对所述原始轨迹数据进行数据清洗得到有效轨迹数据,本实施例中将缺失值、异常值和重复值从原始轨迹数据中剔除,具体地,GPS在采集出租车或共享单车的轨迹数据的过程中,可能因为设备或通讯问题,导致数据没有采集到,故而在原始轨迹数据中记录为空值,也就是缺失值;由于每个数据字段都有有效的值域范围,不在值域范围的数据点均视为异常值,如速度字段,速度的单位是千米每小时,值域为[0,150],将采样记录中速度不在[0,150]范围内的数据点均作为异常值加以剔除,GPS设备每隔一段时间对出租车或共享单车信息进行一次采样,如果出租车当日处于停运静止状态,或共享单车处于故障停止使用状态,整个轨迹数据除了时间字段,其它的位置、速度、角度等数据完全相同,这种大量重复数据会对聚类、热点等分析造成不良影响,应予剔除,另外,整个轨迹数据有行车轨迹变化,但其中有一大段时间内,位置信息无任何变化,如此时出租车应该处于临时停车、司机休息或者进餐状态,共享单车处于临时停车状态,这种重复数据也会对聚类、热点等分析造成不良影响,也应予剔除。
对所述有效轨迹数据进行数据标准化得到标准化数据,使得不同属性的数据具有相同的标准,如将有效轨迹数据中的数据点的位置均采用经纬度表示,在数据点的位置采用地名表示的情况下,将地名转换为对应的经纬度,实现经纬度标准化,有效轨迹数据中的数据点的时间可能由于时区的不同导致在相同时间所表示的时间数据不同,因此,需要对有效轨迹数据进行时间标准化,如有效轨迹数据中的数据点的时间采用北京时间进行表示。
根据预设分割标识对所述标准化数据进行分割得到对应的轨迹数据集,使得清洗和标准后的原始轨迹数据能够根据预设分割表示的不同展开不同角度的轨迹分析,具体地,预设分割标识包括:车辆编号、时间、车辆是否载人、车辆起点终点等,如根据车辆编号对标准化轨迹数据进行分割,得到至少一车辆轨迹数据集,根据时间对标准化轨迹数据进行分割,得到至少一时间轨迹数据集,根据车辆是否载人对标准化轨迹数据进行分割,得到空车轨迹数据集和载人轨迹数据集,根据车辆起点终点对标准化轨迹数据进行分割,得到起点终点数据集。
步骤2、根据预设簇数将所述轨迹数据集随机划分成多个簇,在各个所述簇中随机选取一数据点的位置作为该簇对应的粒子的初始位置,计算各个粒子的适应度值,为各个粒子随机分配初始速度。
具体地,预设簇数可为用户设置,也可为出行热点提取系统的默认设置,预设簇数表示了最终提取出的出行热点的数量;在得到了各个簇对应的粒子的初始位置后,能够根据适应度函数计算各个粒子的适应度值,所述适应度函数能够根据提取车辆轨迹数据集、时间轨迹数据集、空车轨迹数据集、载人轨迹数据集和起点终点数据集的不同定义不同的函数。
步骤3、将步骤2执行多次,得到各个簇对应的第一粒子群,将各个所述第一粒子群中适应度值最高的粒子作为对应的第一聚类中心。
在本实施例中,如将轨迹数据集随机划分成K个簇,然后将步骤2执行N次,则得到K个第一粒子群,分别为M1、M2、…Mk,每个第一粒子群内有N个粒子,如第一粒子群M1内的粒子有l11、l12、…l1n,比较每个第一粒子群中的所有粒子的适应度值,将每个第一粒子群内适应度值最高的粒子作为对应的簇的第一聚类中心。
步骤4、根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群。
在本实施例中所述根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群,具体包括以下步骤:
步骤41、根据各个粒子的适应度值与其经历过的适应度值,确定各个粒子的个体最优解;
步骤42、根据各个所述第一粒子群中的所有粒子的个体最优解,确定各个第一粒子群的全局最优解;
步骤43、根据粒子速度更新公式和粒子位置更新公式更新各个所述粒子的速度,所述粒子速度更新公式为:
其中,v'id为第i个粒子在第d个维度上更新后的速度分量,为压缩因子,vid为第i个粒子在第d个维度上当前的速度分量,xid为第i个粒子在第d个维度上当前的位置分量,w为惯性权重,pid为第i个粒子的个体最优解,pgd为第i个粒子对应的第一粒子群的全局最优解,c1为第一加速系数,c2为第二加速系数,rand()为值在[0,1]之间的随机数;
所述粒子位置更新公式为:
x′id=xid+vid,
其中,x'id为第i个粒子在第d个维度上更新后的位置分量,xid为第i个粒子在第d个维度上当前的位置分量,vid为第i个粒子在第d个维度上当前的速度分量。
具体地,在初次迭代的过程中,由于每个第一粒子群中的各个粒子均没有经历过的适应度值,则将每个第一粒子群中的各个粒子的位置作为各个粒子对应的个体最优解,在多次迭代的过程中,确定各个粒子的个体最优解,就是从各个粒子当前的适应度值与其经历过的适应度值(历史适应度值)中选取出适应度值最高的粒子的位置作为对应的个体最优解,然后将各个第一粒子群中适应度值最高的个体最优解作为对应的全局最优解,然后通过粒子速度更新公式对各个粒子的速度进行更新,通过粒子位置更新公式对各个粒子的位置进行更新,第d个维度包括:经度、纬度和时间三个维度,得到了同一时间粒子在经度上的位置分量和在维度上位置分量后,根据粒子在该时间上经度对应的位置分量和维度对应的位置分量能够得到粒子的位置坐标。通过压缩因子对惯性权重、第一加速系数和第二加速系数进行压缩,进而防止第一加速系数或第二加速系数增长过大,造成粒子速度更新偏向粒子整体或者粒子局部,也同时保证速度增长不致过大,从而在不增加计算量的基础上,使粒子群聚类算法在搜索性和收敛性上得到提高。
在本实施例中压缩因子的计算公式为:
其中,ρ为常数,ρ>4,常数ρ还能够根据第一加速系数c1和第二加速系数c2确定,ρ=c1+c2,从而通过第一加速系数、第二加速系数和压缩因子的计算公式计算得到压缩因子,以防止第一加速系数或第二加速系数增长过大,第一加速系数影响粒子历史信息对于粒子运动的轨迹,第二加速系数影响其他粒子的历史信息对粒子运动的轨迹,都不宜过大,本实施例中第一加速系数和第二加速系数的取值均优选为2.5,在其他实施例中,第一加速系数和第二加速系数的取值可不同,第一加速系数和第二加速系数的取值能够根据实际需求进行设置。
在本实施例中所述惯性权重w根据0.9向0.4线性减小的变化进行取值,能够通过构建线性函数,将迭代次数作为自变量,惯性权重作为因变量,使得惯性权重根据迭代次数从0.9到0.4逐渐线性减小,能够使粒子群聚类算法从一开始的全局搜索到最后的精确收敛,从而达到较优的效果。
步骤5、结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心。
在本实施例中所述结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心,具体包括:
将各个所述第二粒子群中适应度值最高的粒子作为对应的聚类中心;
计算所述轨迹数据集中的数据点与各个聚类中心之间的距离,根据最近邻原则,将所述轨迹数据集中的数据点分配给距离其最近的聚类中心,得到更新后的各个簇,计算更新后的各个簇中所有数据点的均值处得到对应的第二聚类中心。
具体地,如第一粒子群M1对应的第二粒子群M1’的粒子有l11’、l12’、…、l1n’,在第二粒子群M1’中适应度值最高的粒子为l11’,则l11’为第二粒子群M1’的聚类中心,在确定了各个第二粒子群对应的聚类中心后,得到各个簇对应的聚类中心,也就是确定了每一轮迭代中的K均值聚类算法的初始聚类中心,然后可采用欧式距离计算公式计算轨迹数据集中的数据点与各个聚类中心之间的距离,根据最近邻原则,将所述轨迹数据集中的数据点分配给距离其最近的聚类中心,重新对轨迹数据集中的数据点进行分类,此时,有可能会出现空的簇,若出现空的簇,则随机地从其他非空的簇中取出距离该非空的簇的聚类中心最远的粒子,将该粒子放入空的簇,重复该过程,直至没有空的簇为止,得到更新后的各个簇,计算各个簇所有数据点的均值处,将各个簇的均值处作为对应的第二聚类中心。
步骤6、判断所有的第二聚类中心与对应的第一聚类中心是否相同,若是,则执行步骤7、若否,则将所述第二聚类中心作为第一聚类中心,将所述第二粒子群作为第一粒子群,重新计算各个粒子的适应度值,并执行步骤4;
具体地,将各个第二聚类中心与对应的第一聚类中心进行比较,若有一第二聚类中与对应的第一聚类中心不同,则聚类算法还未收敛,需继续进行迭代,将第二聚类中心作为其对应的第一聚类中心,将第二粒子群作为其对应的第一粒子群,并重新计算各个粒子的适应度值,然后返回执行步骤4,进行迭代,直至所有的第二聚类中心与对应的第一聚类中心相同,则说明聚类算法收敛,执行步骤7,将所有的第二聚类中心作为出行热点。
步骤8、将所有的出行热点添加给点图层,将路线段添加给线路图层,所述路线段根据所述轨迹数据进行绘制,将添加有出行热点的点图层和添加有路线段的线路图层添加给地图对象,进行可视化输出。
具体地,在本实施例中采用folium库提供的接口,创建地图对象、点图层和线路图层,绘制路线段,其中,所述folium库是基于python环境开发的一个地图绘制包,如图2所示,在采集了一辆车一天的轨迹数据后,能够通过folium库提供的接口绘制路线段,并将路线段添加给线路图层,然后添加给地图对象,进行可视化输出;在预设分割标识为时间的情况下,如图3所示,提取出某日获取的经过清洗和标准化处理后的原始轨迹数据中上午8点的数据点得到对应的时间轨迹数据集,然后通过本实施例的出行热点提取方法进行聚类,得到的聚类结果图,如图4所示,提取出某日获取的经过清洗和标准化处理后的原始轨迹数据中凌晨3点的数据点得到对应的时间轨迹数据集,然后通过本实施例的出行热点提取方法进行聚类,得到的聚类结果图;在预设分割标识为车辆起点终点的情况下,如图5所示,提取出某日获取的经过清洗和标准化处理后的原始轨迹数据中车辆的起点数据点和终点数据点得到对应的起点终点轨迹数据集,预设簇数为20个,然后通过本实施例的出行热点提取方法进行聚类,得到的聚类结果。
本发明实施例公开的出行热点提取方法,通过将步骤2执行多次,得到各个簇对应的第一粒子群,也就是确定初始的第一粒子群,在每一轮的迭代过程中,根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置对第一粒子群进行更新,得到第二粒子群,根据第二粒子群以确定该轮的K均值聚类算法的初始聚类中心,有效避免了陷入局部最优,提高了聚类算法的准确性和收敛速度;在更新各个粒子的速度和位置的过程中,粒子群算法中带压缩因子,能通过配置最优参数(如第一加速系数和第二加速系数)控制粒子群更新速度,有效改进粒子群算法的准确率和全局收敛性。
如图6所示,本发明实施例还公开了一种出行热点提取系统,包括:
获取处理模块10,用于获取原始轨迹数据,对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集;
初始化模块20,用于根据预设簇数将所述轨迹数据集随机划分成多个簇,在各个所述簇中随机选取一数据点的位置作为该簇对应的粒子的初始位置,计算各个粒子的适应度值,为各个粒子随机分配初始速度;
粒子群初始模块30,用于执行初始化模块多次,得到各个簇对应的第一粒子群,将各个所述第一粒子群中适应度值最高的粒子作为对应的第一聚类中心;
粒子群更新模块40,用于根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群;
K均值模块50,用于结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心;
判断模块60,用于判断所有的第二聚类中心与对应的第一聚类中心是否相同,若是,则执行热点确定模块70,若否,则将所述第二聚类中心作为第一聚类中心,将所述第二粒子群作为第一粒子群,重新计算各个粒子的适应度值,并执行粒子群更新模块40;
热点确定模块70,用于将所有的第二聚类中心作为出行热点。
关于出行热点提取系统的具体构成可以参见上文中对于出行热点提取方法的构成,在此不再赘述。上述出行热点提取系统的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种出行热点提取方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行计算机程序时实现以下步骤:
步骤1、获取原始轨迹数据,对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集;
步骤2、根据预设簇数将所述轨迹数据集随机划分成多个簇,在各个所述簇中随机选取一数据点的位置作为该簇对应的粒子的初始位置,计算各个粒子的适应度值,为各个粒子随机分配初始速度;
步骤3、将步骤2执行多次,得到各个簇对应的第一粒子群,将各个所述第一粒子群中适应度值最高的粒子作为对应的第一聚类中心;
步骤4、根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群;
步骤5、结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心;
步骤6、判断所有的第二聚类中心与对应的第一聚类中心是否相同,若是,则执行步骤7、若否,则将所述第二聚类中心作为第一聚类中心,将所述第二粒子群作为第一粒子群,重新计算各个粒子的适应度值,并执行步骤4;
步骤7、将所有的第二聚类中心作为出行热点。
在一个实施例中,所述根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群,包括:
步骤41、根据各个粒子的适应度值与其经历过的适应度值,确定各个粒子的个体最优解;
步骤42、根据各个所述第一粒子群中的所有粒子的个体最优解,确定各个第一粒子群的全局最优解;
步骤43、根据粒子速度更新公式和粒子位置更新公式更新各个所述粒子的速度,所述粒子速度更新公式为:
其中,v'id为第i个粒子在第d个维度上更新后的速度分量,为压缩因子,vid为第i个粒子在第d个维度上当前的速度分量,xid为第i个粒子在第d个维度上当前的位置分量,w为惯性权重,pid为第i个粒子的个体最优解,pgd为第i个粒子对应的第一粒子群的全局最优解,c1为第一加速系数,c2为第二加速系数,rand()为值在[0,1]之间的随机数;
所述粒子位置更新公式为:
x′id=xid+vid,
其中,x'id为第i个粒子在第d个维度上更新后的位置分量,xid为第i个粒子在第d个维度上当前的位置分量,vid为第i个粒子在第d个维度上当前的速度分量。
在一个实施例中,所述压缩因子的计算公式为:
其中,ρ为常数,ρ>4。
在一个实施例中,所述惯性权重w根据0.9向0.4线性减小的变化进行取值。
在一个实施例中,所述结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心,包括:
将各个所述第二粒子群中适应度值最高的粒子作为对应的聚类中心;
计算所述轨迹数据集中的数据点与各个聚类中心之间的距离,根据最近邻原则,将所述轨迹数据集中的数据点分配给距离其最近的聚类中心,得到更新后的各个簇,计算更新后的各个簇中所有数据点的均值处得到对应的第二聚类中心。
在一个实施例中,所述对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集,包括:
对所述原始轨迹数据进行数据清洗得到有效轨迹数据;
对所述有效轨迹数据进行数据标准化得到标准化数据;
根据预设分割标识对所述标准化数据进行分割得到对应的轨迹数据集。
在一个实施例中,还包括:
步骤8、将所有的出行热点添加给点图层,将路线段添加给线路图层,所述路线段根据所述轨迹数据进行绘制,将添加有出行热点的点图层和添加有路线段的线路图层添加给地图对象,进行可视化输出。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤1、获取原始轨迹数据,对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集;
步骤2、根据预设簇数将所述轨迹数据集随机划分成多个簇,在各个所述簇中随机选取一数据点的位置作为该簇对应的粒子的初始位置,计算各个粒子的适应度值,为各个粒子随机分配初始速度;
步骤3、将步骤2执行多次,得到各个簇对应的第一粒子群,将各个所述第一粒子群中适应度值最高的粒子作为对应的第一聚类中心;
步骤4、根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群;
步骤5、结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心;
步骤6、判断所有的第二聚类中心与对应的第一聚类中心是否相同,若是,则执行步骤7、若否,则将所述第二聚类中心作为第一聚类中心,将所述第二粒子群作为第一粒子群,重新计算各个粒子的适应度值,并执行步骤4;
步骤7、将所有的第二聚类中心作为出行热点。
在一个实施例中,所述根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群,包括:
步骤41、根据各个粒子的适应度值与其经历过的适应度值,确定各个粒子的个体最优解;
步骤42、根据各个所述第一粒子群中的所有粒子的个体最优解,确定各个第一粒子群的全局最优解;
步骤43、根据粒子速度更新公式和粒子位置更新公式更新各个所述粒子的速度,所述粒子速度更新公式为:
其中,v'id为第i个粒子在第d个维度上更新后的速度分量,为压缩因子,vid为第i个粒子在第d个维度上当前的速度分量,xid为第i个粒子在第d个维度上当前的位置分量,w为惯性权重,pid为第i个粒子的个体最优解,pgd为第i个粒子对应的第一粒子群的全局最优解,c1为第一加速系数,c2为第二加速系数,rand()为值在[0,1]之间的随机数;
所述粒子位置更新公式为:
x′id=xid+vid,
其中,x'id为第i个粒子在第d个维度上更新后的位置分量,xid为第i个粒子在第d个维度上当前的位置分量,vid为第i个粒子在第d个维度上当前的速度分量。
在一个实施例中,所述压缩因子的计算公式为:
其中,ρ为常数,ρ>4。
在一个实施例中,所述惯性权重w根据0.9向0.4线性减小的变化进行取值。
在一个实施例中,所述结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心,包括:
将各个所述第二粒子群中适应度值最高的粒子作为对应的聚类中心;
计算所述轨迹数据集中的数据点与各个聚类中心之间的距离,根据最近邻原则,将所述轨迹数据集中的数据点分配给距离其最近的聚类中心,得到更新后的各个簇,计算更新后的各个簇中所有数据点的均值处得到对应的第二聚类中心。
在一个实施例中,所述对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集,包括:
对所述原始轨迹数据进行数据清洗得到有效轨迹数据;
对所述有效轨迹数据进行数据标准化得到标准化数据;
根据预设分割标识对所述标准化数据进行分割得到对应的轨迹数据集。
在一个实施例中,还包括:
步骤8、将所有的出行热点添加给点图层,将路线段添加给线路图层,所述路线段根据所述轨迹数据进行绘制,将添加有出行热点的点图层和添加有路线段的线路图层添加给地图对象,进行可视化输出。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
Claims (10)
1.出行热点提取方法,其特征在于,包括:
步骤1、获取原始轨迹数据,对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集;
步骤2、根据预设簇数将所述轨迹数据集随机划分成多个簇,在各个所述簇中随机选取一数据点的位置作为该簇对应的粒子的初始位置,计算各个粒子的适应度值,为各个粒子随机分配初始速度;
步骤3、将步骤2执行多次,得到各个簇对应的第一粒子群,将各个所述第一粒子群中适应度值最高的粒子作为对应的第一聚类中心;
步骤4、根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群;
步骤5、结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心;
步骤6、判断所有的第二聚类中心与对应的第一聚类中心是否相同,若是,则执行步骤7、若否,则将所述第二聚类中心作为第一聚类中心,将所述第二粒子群作为第一粒子群,重新计算各个粒子的适应度值,并执行步骤4;
步骤7、将所有的第二聚类中心作为出行热点。
2.如权利要求1所述的出行热点提取方法,其特征在于,所述根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群,包括:
步骤41、根据各个粒子的适应度值与其经历过的适应度值,确定各个粒子的个体最优解;
步骤42、根据各个所述第一粒子群中的所有粒子的个体最优解,确定各个第一粒子群的全局最优解;
步骤43、根据粒子速度更新公式和粒子位置更新公式更新各个所述粒子的速度,所述粒子速度更新公式为:
其中,v'id为第i个粒子在第d个维度上更新后的速度分量,为压缩因子,vid为第i个粒子在第d个维度上当前的速度分量,xid为第i个粒子在第d个维度上当前的位置分量,w为惯性权重,pid为第i个粒子的个体最优解,pgd为第i个粒子对应的第一粒子群的全局最优解,c1为第一加速系数,c2为第二加速系数,rand()为值在[0,1]之间的随机数;
所述粒子位置更新公式为:
x′id=xid+vid,
其中,x'id为第i个粒子在第d个维度上更新后的位置分量,xid为第i个粒子在第d个维度上当前的位置分量,vid为第i个粒子在第d个维度上当前的速度分量。
3.如权利要求2所述的出行热点提取方法,其特征在于,所述压缩因子的计算公式为:
其中,ρ为常数,ρ>4。
4.如权利要求2所述的出行热点提取方法,其特征在于,所述惯性权重w根据0.9向0.4线性减小的变化进行取值。
5.如权利要求1所述的出行热点提取方法,其特征在于,所述结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心,包括:
将各个所述第二粒子群中适应度值最高的粒子作为对应的聚类中心;
计算所述轨迹数据集中的数据点与各个聚类中心之间的距离,根据最近邻原则,将所述轨迹数据集中的数据点分配给距离其最近的聚类中心,得到更新后的各个簇,计算更新后的各个簇中所有数据点的均值处得到对应的第二聚类中心。
6.如权利要求1所述的出行热点提取方法,其特征在于,所述对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集,包括:
对所述原始轨迹数据进行数据清洗得到有效轨迹数据;
对所述有效轨迹数据进行数据标准化得到标准化数据;
根据预设分割标识对所述标准化数据进行分割得到对应的轨迹数据集。
7.如权利要求1所述的出行热点提取方法,其特征在于,还包括:
步骤8、将所有的出行热点添加给点图层,将路线段添加给线路图层,所述路线段根据所述轨迹数据进行绘制,将添加有出行热点的点图层和添加有路线段的线路图层添加给地图对象,进行可视化输出。
8.出行热点提取系统,其特征在于,包括:
获取处理模块,用于获取原始轨迹数据,对所述原始轨迹数据进行数据处理和分割得到对应的轨迹数据集;
初始化模块,用于根据预设簇数将所述轨迹数据集随机划分成多个簇,在各个所述簇中随机选取一数据点的位置作为该簇对应的粒子的初始位置,计算各个粒子的适应度值,为各个粒子随机分配初始速度;
粒子群初始模块,用于执行初始化模块多次,得到各个簇对应的第一粒子群,将各个所述第一粒子群中适应度值最高的粒子作为对应的第一聚类中心;
粒子群更新模块,用于根据各个所述第一粒子群中粒子的适应度值更新各个粒子的速度和位置,得到对应的第二粒子群;
K均值模块,用于结合各个所述第二粒子群对轨迹数据集做K均值优化得到对应的第二聚类中心;
判断模块,用于判断所有的第二聚类中心与对应的第一聚类中心是否相同,若是,则执行热点确定模块、若否,则将所述第二聚类中心作为第一聚类中心,将所述第二粒子群作为第一粒子群,重新计算各个粒子的适应度值,并执行粒子群更新模块;
热点确定模块,用于将所有的第二聚类中心作为出行热点。
9.计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311094952.XA CN117119384B (zh) | 2023-08-28 | 2023-08-28 | 出行热点提取方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311094952.XA CN117119384B (zh) | 2023-08-28 | 2023-08-28 | 出行热点提取方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117119384A true CN117119384A (zh) | 2023-11-24 |
CN117119384B CN117119384B (zh) | 2024-03-22 |
Family
ID=88805207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311094952.XA Active CN117119384B (zh) | 2023-08-28 | 2023-08-28 | 出行热点提取方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117119384B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663100A (zh) * | 2012-04-13 | 2012-09-12 | 西安电子科技大学 | 一种两阶段混合粒子群优化聚类方法 |
CN102842043A (zh) * | 2012-07-17 | 2012-12-26 | 西安电子科技大学 | 基于自动聚类的粒子群优化分类方法 |
CN110555506A (zh) * | 2019-08-20 | 2019-12-10 | 武汉大学 | 一种基于群体团聚效应的梯度自适应粒子群优化方法 |
CN113988149A (zh) * | 2021-07-09 | 2022-01-28 | 西安邮电大学 | 一种基于粒子群模糊聚类的服务聚类方法 |
-
2023
- 2023-08-28 CN CN202311094952.XA patent/CN117119384B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663100A (zh) * | 2012-04-13 | 2012-09-12 | 西安电子科技大学 | 一种两阶段混合粒子群优化聚类方法 |
CN102842043A (zh) * | 2012-07-17 | 2012-12-26 | 西安电子科技大学 | 基于自动聚类的粒子群优化分类方法 |
CN110555506A (zh) * | 2019-08-20 | 2019-12-10 | 武汉大学 | 一种基于群体团聚效应的梯度自适应粒子群优化方法 |
CN113988149A (zh) * | 2021-07-09 | 2022-01-28 | 西安邮电大学 | 一种基于粒子群模糊聚类的服务聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117119384B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103106280B (zh) | 一种道路网络环境下不确定时空轨迹数据的范围查询方法 | |
CN101751777B (zh) | 基于空间聚类分析的城市路网交通小区动态划分方法 | |
CN108763287A (zh) | 大规模可通行区域驾驶地图的构建方法及其无人驾驶应用方法 | |
CN104819726B (zh) | 导航数据处理方法、装置及导航终端 | |
Wu et al. | Mining spatio-temporal reachable regions over massive trajectory data | |
CN103593430A (zh) | 一种基于移动对象时空信息轨迹分段聚类的方法 | |
Uddin et al. | Finding regions of interest from trajectory data | |
CN113077090A (zh) | 客流预测方法、系统及计算机可读存储介质 | |
CN110598917B (zh) | 一种基于路径轨迹的目的地预测方法、系统及存储介质 | |
JP2012198839A (ja) | 交通量予測装置、交通量予測方法およびプログラム | |
CN114265833A (zh) | 车辆轨迹引导地理时空特征可视化分析平台 | |
CN109410576A (zh) | 多源数据融合的路况分析方法、装置、存储介质及系统 | |
CN114155391B (zh) | 轨迹处理方法、装置及计算机设备 | |
TR2021012500A2 (tr) | Trafik yoğunluk tahmin sistemi ve bunun yöntemi. | |
CN111242352A (zh) | 基于车辆轨迹的停等聚集效应预测方法 | |
CN117251520B (zh) | 生物多样性关键区域识别方法、装置和电子设备 | |
CN106980029B (zh) | 车辆超速判断方法及其系统 | |
Santos et al. | Gbus-route geotracer | |
CN111539551A (zh) | 行车目的地地址预测方法、装置、计算机设备和存储介质 | |
CN117119384B (zh) | 出行热点提取方法、系统、设备及存储介质 | |
CN112052405B (zh) | 一种基于司机经验的寻客区域推荐方法 | |
CN113888867A (zh) | 一种基于lstm位置预测的车位推荐方法及系统 | |
US8612465B1 (en) | Image reacquisition | |
CN116664025A (zh) | 装卸货位置点生成方法、装置及设备 | |
CN116089448A (zh) | 一种基于多维感知建立人口画像的实时人口管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |