CN112990360A - 一种基于K-means的网约车载客特征分析方法 - Google Patents

一种基于K-means的网约车载客特征分析方法 Download PDF

Info

Publication number
CN112990360A
CN112990360A CN202110417506.2A CN202110417506A CN112990360A CN 112990360 A CN112990360 A CN 112990360A CN 202110417506 A CN202110417506 A CN 202110417506A CN 112990360 A CN112990360 A CN 112990360A
Authority
CN
China
Prior art keywords
data
clustering
order
class
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110417506.2A
Other languages
English (en)
Inventor
杨兆宝
刘�东
向富华
郑开淼
陈昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110417506.2A priority Critical patent/CN112990360A/zh
Publication of CN112990360A publication Critical patent/CN112990360A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于K‑means的网约车载客特征分析方法,包括以下步骤,S1:从电子地图中截取某一区域的城市道路图片;S2:将截取的图片基于半监督K‑Means聚类算法进行图形分割,获取目标区域;S3:从数据库中获取到网约车订单数据;S4:清理S3中无效数据,保留有效数据;S5:将S4中的有效数据与目标区域进行匹配,采用基于K‑means的聚类算法对网约车进行聚类,并根据聚类结果评价指标调整聚类参数以获得最优的聚类结果;S6:在目标区域上叠加聚类结果的空间分布从而得到网约车出行轨迹的空间分布图;优点是能够得到更加精确的载客特征分类结果,以缓解城市交通拥堵,并可用于制定网约车的运价管理规范,还可为网约车管理政策提供决策依据。

Description

一种基于K-means的网约车载客特征分析方法
技术领域
本发明涉及机器学习领域,尤其涉及一种基于K-means的网约车载客特征分析方法。
背景技术
网约车,即网络预约出租汽车经营服务的简称,是指以互联网技术为依托构建服务平台,接入符合条件的车辆和驾驶员,通过整合供需信息,提供非巡游的预约出租汽车服务的经营活动,网约车公司通过接入互联网的智能手机搜集供需双方的位置信息,并通过优化匹配算法来寻找最优配对关系,以减少打车用户的等待时间、缩短服务车辆的空驶时间和寻客距离。
但是随着城市经济的发展,人均轿车保有量不断上升,道路交通的拥堵问题日益凸显,由于网约车车流量变化的快速性、复杂性和不确定性,其中表现较为突出的是受早晚高峰等时段的影响大,车流量变化较为明显,从而导致城市路网交通状态变化较为复杂,而对网约车的载客特征进行处理和分析将为市民日常出行、城市规划和解决交通拥堵瓶颈等产生不可估量的价值。
K-means算法是一种基于距离的聚类算法,其采用距离作为相似性指标,在算法开始时选取任意k个对象作为初始聚类中心,代表一个簇。在每次迭代中,根据每个剩余对象与各个簇中心的距离将其赋给最近的簇,在一次迭代结束后将重新计算每个聚类的均值,直到每个聚类不再发生变化为止。特别是随着大数据时代的来临,K-means更加引人关注,但由于K-means方法随机选择初始聚类中心,并不能保证得到一个唯一的聚类结果,最终的聚类结果直接依赖于初始聚类中心的选择。针对网约车载客特征数据的聚类分析希望得到精确的聚类结果,以便更好地分析所隐藏的交通模式和规律,发挥其最大的价值。
发明内容
为了解决上述现有技术中存在的不足,本发明提供一种基于K-means的网约车载客特征分析方法,能够得到更加精确的载客特征分类结果,以缓解城市交通拥堵,并可用于制定网约车的运价管理规范,还可为网约车管理政策提供决策依据。
本发明解决上述技术问题所采用的技术方案为:一种基于K-means的网约车载客特征分析方法,包括以下步骤,
S1:从电子地图中截取某一区域的城市道路图片;
S2:将截取的图片基于半监督K-Means聚类算法进行图形分割,获取目标区域;
S3:从数据库中获取到网约车订单数据;
S4:清理S3中无效数据,保留有效数据;
S5:将S4中的有效数据与目标区域进行匹配,采用基于K-means的聚类算法对网约车进行聚类,并根据聚类结果评价指标调整聚类参数以获得最优的聚类结果;
S6:在目标区域上叠加聚类结果的空间分布从而得到网约车出行轨迹的空间分布图。
所述电子地图为矢量格式,且包括城市道路、乡村道路和高架道路。
所述订单数据包括订单ID、乘客ID、司机ID、订单初始时间与结束时间、订单所在城市名称、订单公里数、订单平均速度、起讫点经纬度坐标以及订单费用。
在步骤S4中清理无效数据采用如下规则,
S41:起讫点经纬度坐标其中之一位于目标区域之外的数据视为无效数据;
S42:订单费用小于起步价的数据或收费价格不符合出网约车收费规则的数据视为无效数据;
S43:行程时间大于3h或行程时间小于5min的数据视为无效数据;
S44:订单公里数小于1km或大于50km的数据视为无效数据;
S45:订单平均速度小于1km/h大于80km/h的数据视为无效数据。
步骤S5中基于K-means的聚类算法具体步骤如下,
S51:从数据库中随机选取K0个样本作为初始聚类中心C={C1,C2.....CK};
S52:针对数据库中每个样本Xi;,计算它到K个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;
S53:判断上述每个类中的元素数目是否小于Nmin。如果小于Nmin则需要丢弃该类,令K=K-1,并将该类中的样本重新分配给剩下类中距离最小的类;
S54:针对每个类别Ci,重新计算它的聚类中心;
S55:如果当前
Figure BDA0003026501000000021
说明当前类别数太少,前往分裂操作;
S56:如果当前K≥2Ko,说明当前类别数太多,前往合并操作;
S57:如果达到最大迭代次数则终止,否则回到S52继续执行。
步骤S55中分裂操作具体步骤如下,
S551:计算每个类别下所有样本在每个维度下的方差;
S552:针对每个类别的所有方差挑选出最大的方差
Figure BDA0003026501000000022
S553:如果某个类别的
Figure BDA0003026501000000023
并且该类别所包含的样本数量ni≥2nmin,则可以进行分裂操作,前往S553;如果不满足上述条件则退出分裂操作;
S554:满足步骤S553中条件的类分裂成两个子类别并令K=K+1,其中
Figure BDA0003026501000000031
Figure BDA0003026501000000032
步骤S56中合并操作具体步骤如下,
S561:计算当前所有类别聚类中心两两之间的距离,用矩阵D表示,其中D(i,i)=0;
S562:对于D(i,j)<dmin,两个类别需要进行合并操作,使之变成一个新的类。
与现有技术相比,本发明的优点在于:通过采用基于K--Means半监督聚类算法对图像进行分割,不需要通过大量数据要本进行训练,能够有效降低算法复杂度,且能够有效提高识别效率;采用基于K-means的聚类算法对网约车进行聚类分析,实现对网约车行业信息的整合和管理,为未来基于行业信息资源进行的大数据应用分析提供支撑,对提高城市出租汽车的运营效率,缓解城市交通拥挤具有重要意义。
附图说明
图1为本发明的流程图。
具体实施方式
以下结合附图和实施例对本发明作进一步详细说明,但不作为对本发明的限定。
实施例:一种基于K-means的网约车载客特征分析方法,包括以下步骤,
S1:从电子地图中截取某一区域的城市道路图片;
S2:将截取的图片基于半监督K-Means聚类算法进行图形分割,获取目标区域;
S3:从数据库中获取到网约车订单数据;
S4:清理S3中无效数据,保留有效数据;
S5:将S4中的有效数据与目标区域进行匹配,采用基于K-means的聚类算法对网约车进行聚类,并根据聚类结果评价指标调整聚类参数以获得最优的聚类结果;
S6:在目标区域上叠加聚类结果的空间分布从而得到网约车出行轨迹的空间分布图。
电子地图为矢量格式,且包括城市道路、乡村道路和高架道路。
订单数据包括订单ID、乘客ID、司机ID、订单初始时间与结束时间、订单所在城市名称、订单公里数、订单平均速度、起讫点经纬度坐标以及订单费用。
在步骤S4中清理无效数据采用如下规则,
S41:起讫点经纬度坐标其中之一位于目标区域之外的数据视为无效数据;
S42:订单费用小于起步价的数据或收费价格不符合出网约车收费规则的数据视为无效数据;
S43:行程时间大于3h或行程时间小于5min的数据视为无效数据;
S44:订单公里数小于1km或大于50km的数据视为无效数据;
S45:订单平均速度小于1km/h大于80km/h的数据视为无效数据。
步骤S5中基于K-means的聚类算法具体步骤如下,
S51:从数据库中随机选取K0个样本作为初始聚类中心C={C1,C2.....CK};
S52:针对数据库中每个样本Xi;,计算它到K个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;
S53:判断上述每个类中的元素数目是否小于Nmin。如果小于Nmin则需要丢弃该类,令K=K-1,并将该类中的样本重新分配给剩下类中距离最小的类;
S54:针对每个类别Ci,重新计算它的聚类中心;
S55:如果当前
Figure BDA0003026501000000041
说明当前类别数太少,前往分裂操作;
S56:如果当前K≥2Ko,说明当前类别数太多,前往合并操作;
S57:如果达到最大迭代次数则终止,否则回到S52继续执行。
步骤S55中分裂操作具体步骤如下,
S551:计算每个类别下所有样本在每个维度下的方差;
S552:针对每个类别的所有方差挑选出最大的方差
Figure BDA0003026501000000042
S553:如果某个类别的
Figure BDA0003026501000000043
并且该类别所包含的样本数量ni≥2nmin,则可以进行分裂操作,前往S553;如果不满足上述条件则退出分裂操作;
S554:满足步骤S553中条件的类分裂成两个子类别并令K=K+1,其中
Figure BDA0003026501000000044
Figure BDA0003026501000000045
步骤S56中合并操作具体步骤如下,
S561:计算当前所有类别聚类中心两两之间的距离,用矩阵D表示,其中D(i,i)=0;
S562:对于D(i,j)<dmin,两个类别需要进行合并操作,使之变成一个新的类。
值得注意的是,以上所述仅为本发明的较佳实施例,并非因此限定本发明的专利保护范围,本发明还可以对上述各种零部件的构造进行材料和结构的改进,或者是采用技术等同物进行替换。故凡运用本发明的说明书及图示内容所作的等效结构变化,或直接或间接运用于其他相关技术领域均同理皆包含于本发明所涵盖的范围内。

Claims (7)

1.一种基于K-means的网约车载客特征分析方法,其特征在于:包括以下步骤,
S1:从电子地图中截取某一区域的城市道路图片;
S2:将截取的图片基于半监督K-Means聚类算法进行图形分割,获取目标区域;
S3:从数据库中获取到网约车订单数据;
S4:清理S3中无效数据,保留有效数据;
S5:将S4中的有效数据与目标区域进行匹配,采用基于K-means的聚类算法对网约车进行聚类,并根据聚类结果评价指标调整聚类参数以获得最优的聚类结果;
S6:在目标区域上叠加聚类结果的空间分布从而得到网约车出行轨迹的空间分布图。
2.根据权利要求1所述的一种基于K-means的网约车载客特征分析方法,其特征在于:所述电子地图为矢量格式,且包括城市道路、乡村道路和高架道路。
3.根据权利要求1所述的一种基于K-means的网约车载客特征分析方法,其特征在于:所述订单数据包括订单ID、乘客ID、司机ID、订单初始时间与结束时间、订单所在城市名称、订单公里数、订单平均速度、起讫点经纬度坐标以及订单费用。
4.根据权利要求3所述的一种基于K-means的网约车载客特征分析方法,其特征在于:在步骤S4中清理无效数据采用如下规则,
S41:起讫点经纬度坐标其中之一位于目标区域之外的数据视为无效数据;
S42:订单费用小于起步价的数据或收费价格不符合出网约车收费规则的数据视为无效数据;
S43:行程时间大于3h或行程时间小于5min的数据视为无效数据;
S44:订单公里数小于1km或大于50km的数据视为无效数据;
S45:订单平均速度小于1km/h大于80km/h的数据视为无效数据。
5.根据权利要求1所述的一种基于K-means的网约车载客特征分析方法,其特征在于:步骤S5中基于K-means的聚类算法具体步骤如下,
S51:从数据库中随机选取K0个样本作为初始聚类中心C={C1,C2.....CK};
S52:针对数据库中每个样本Xi;,计算它到K个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;
S53:判断上述每个类中的元素数目是否小于Nmin。如果小于Nmin则需要丢弃该类,令K=K-1,并将该类中的样本重新分配给剩下类中距离最小的类;
S54:针对每个类别Ci,重新计算它的聚类中心;
S55:如果当前
Figure FDA0003026500990000021
说明当前类别数太少,前往分裂操作;
S56:如果当前K≥2Ko,说明当前类别数太多,前往合并操作;
S57:如果达到最大迭代次数则终止,否则回到S52继续执行。
6.根据权利要求5所述的一种基于K-means的网约车载客特征分析方法,其特征在于:步骤S55中分裂操作具体步骤如下,
S551:计算每个类别下所有样本在每个维度下的方差;
S552:针对每个类别的所有方差挑选出最大的方差
Figure FDA0003026500990000022
S553:如果某个类别的
Figure FDA0003026500990000023
并且该类别所包含的样本数量ni≥2nmin,则可以进行分裂操作,前往S553;如果不满足上述条件则退出分裂操作;
S554:满足步骤S553中条件的类分裂成两个子类别并令K=K+1,其中
Figure FDA0003026500990000024
Figure FDA0003026500990000025
7.根据权利要求5所述的一种基于K-means的网约车载客特征分析方法,其特征在于:步骤S56中合并操作具体步骤如下,
S561:计算当前所有类别聚类中心两两之间的距离,用矩阵D表示,其中D(i,i)=0;
S562:对于D(i,j)<dmin,两个类别需要进行合并操作,使之变成一个新的类。
CN202110417506.2A 2021-04-19 2021-04-19 一种基于K-means的网约车载客特征分析方法 Pending CN112990360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110417506.2A CN112990360A (zh) 2021-04-19 2021-04-19 一种基于K-means的网约车载客特征分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110417506.2A CN112990360A (zh) 2021-04-19 2021-04-19 一种基于K-means的网约车载客特征分析方法

Publications (1)

Publication Number Publication Date
CN112990360A true CN112990360A (zh) 2021-06-18

Family

ID=76341034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110417506.2A Pending CN112990360A (zh) 2021-04-19 2021-04-19 一种基于K-means的网约车载客特征分析方法

Country Status (1)

Country Link
CN (1) CN112990360A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019078A (zh) * 2022-08-09 2022-09-06 阿里巴巴(中国)有限公司 数据聚类方法以及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019078A (zh) * 2022-08-09 2022-09-06 阿里巴巴(中国)有限公司 数据聚类方法以及装置

Similar Documents

Publication Publication Date Title
Bischoff et al. City-wide shared taxis: A simulation study in Berlin
US9043151B2 (en) Large scale demand responsive transit framework
Zhang et al. A framework for passengers demand prediction and recommendation
CN108072381B (zh) 一种路径规划的方法及装置
CN109993215B (zh) 一种基于交通大数据的路径诱导方法
WO2021082464A1 (zh) 预测车辆的目的地的方法和装置
Liu et al. Exploiting heterogeneous human mobility patterns for intelligent bus routing
Tseng et al. Personalized prediction of vehicle energy consumption based on participatory sensing
US20210285777A1 (en) Method, apparatus, and system for identifying transportation transition regions from probe data
Jiang et al. A multi-period analysis of taxi drivers' behaviors based on GPS trajectories
CN110766944A (zh) 一种基于车辆轨迹大数据挖掘的停车位推荐方法
Chepuri et al. Travel time reliability analysis on selected bus route of mysore using GPS data
CN108665084B (zh) 一种对驾驶风险的预测方法及系统
CN112990360A (zh) 一种基于K-means的网约车载客特征分析方法
Qin et al. Analysis on cruising process for on‐street parking using an spectral clustering method
CN113379159B (zh) 基于灰色模型和马尔可夫决策过程的出租车司机寻客路线推荐方法
CN114723596A (zh) 一种基于多源交通出行数据和主题模型的城市功能区识别方法
CN107194505B (zh) 一种基于城市大数据预测公共汽车出行量的方法和系统
Zhao et al. Greenroute: a generalizable fuel-saving vehicular navigation service
WO2023241388A1 (zh) 模型训练方法及装置、补能意图识别方法及装置、设备、介质
Faroqi et al. GIS-based ride-sharing and DRT in Tehran city
CN110347937B (zh) 一种出租车智能寻客方法
Phiboonbanakit et al. Analyzing Bangkok city taxi ride: reforming fares for profit sustainability using big data driven model
Raj et al. Evaluation of perception and nonperception based approaches for modeling urban road level of service
CN112949939B (zh) 基于随机森林模型的出租车载客热点预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication