CN112990360A

CN112990360A - 一种基于K-means的网约车载客特征分析方法

Info

Publication number: CN112990360A
Application number: CN202110417506.2A
Authority: CN
Inventors: 杨兆宝; 刘�东; 向富华; 郑开淼; 陈昂
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-06-18

Abstract

本发明公开了一种基于K‑means的网约车载客特征分析方法，包括以下步骤，S1：从电子地图中截取某一区域的城市道路图片；S2：将截取的图片基于半监督K‑Means聚类算法进行图形分割，获取目标区域；S3：从数据库中获取到网约车订单数据；S4：清理S3中无效数据，保留有效数据；S5：将S4中的有效数据与目标区域进行匹配，采用基于K‑means的聚类算法对网约车进行聚类，并根据聚类结果评价指标调整聚类参数以获得最优的聚类结果；S6：在目标区域上叠加聚类结果的空间分布从而得到网约车出行轨迹的空间分布图；优点是能够得到更加精确的载客特征分类结果，以缓解城市交通拥堵，并可用于制定网约车的运价管理规范，还可为网约车管理政策提供决策依据。

Description

一种基于K-means的网约车载客特征分析方法

技术领域

本发明涉及机器学习领域，尤其涉及一种基于K-means的网约车载客特征分析方法。

背景技术

网约车，即网络预约出租汽车经营服务的简称，是指以互联网技术为依托构建服务平台，接入符合条件的车辆和驾驶员，通过整合供需信息，提供非巡游的预约出租汽车服务的经营活动，网约车公司通过接入互联网的智能手机搜集供需双方的位置信息，并通过优化匹配算法来寻找最优配对关系，以减少打车用户的等待时间、缩短服务车辆的空驶时间和寻客距离。

但是随着城市经济的发展，人均轿车保有量不断上升，道路交通的拥堵问题日益凸显，由于网约车车流量变化的快速性、复杂性和不确定性，其中表现较为突出的是受早晚高峰等时段的影响大，车流量变化较为明显，从而导致城市路网交通状态变化较为复杂，而对网约车的载客特征进行处理和分析将为市民日常出行、城市规划和解决交通拥堵瓶颈等产生不可估量的价值。

K-means算法是一种基于距离的聚类算法，其采用距离作为相似性指标，在算法开始时选取任意k个对象作为初始聚类中心，代表一个簇。在每次迭代中，根据每个剩余对象与各个簇中心的距离将其赋给最近的簇，在一次迭代结束后将重新计算每个聚类的均值，直到每个聚类不再发生变化为止。特别是随着大数据时代的来临，K-means更加引人关注，但由于K-means方法随机选择初始聚类中心，并不能保证得到一个唯一的聚类结果，最终的聚类结果直接依赖于初始聚类中心的选择。针对网约车载客特征数据的聚类分析希望得到精确的聚类结果，以便更好地分析所隐藏的交通模式和规律，发挥其最大的价值。

发明内容

为了解决上述现有技术中存在的不足，本发明提供一种基于K-means的网约车载客特征分析方法，能够得到更加精确的载客特征分类结果，以缓解城市交通拥堵，并可用于制定网约车的运价管理规范，还可为网约车管理政策提供决策依据。

本发明解决上述技术问题所采用的技术方案为：一种基于K-means的网约车载客特征分析方法，包括以下步骤，

S1：从电子地图中截取某一区域的城市道路图片；

S2：将截取的图片基于半监督K-Means聚类算法进行图形分割，获取目标区域；

S3：从数据库中获取到网约车订单数据；

S4：清理S3中无效数据，保留有效数据；

S5：将S4中的有效数据与目标区域进行匹配，采用基于K-means的聚类算法对网约车进行聚类，并根据聚类结果评价指标调整聚类参数以获得最优的聚类结果；

S6：在目标区域上叠加聚类结果的空间分布从而得到网约车出行轨迹的空间分布图。

所述电子地图为矢量格式，且包括城市道路、乡村道路和高架道路。

所述订单数据包括订单ID、乘客ID、司机ID、订单初始时间与结束时间、订单所在城市名称、订单公里数、订单平均速度、起讫点经纬度坐标以及订单费用。

在步骤S4中清理无效数据采用如下规则，

S41：起讫点经纬度坐标其中之一位于目标区域之外的数据视为无效数据；

S42：订单费用小于起步价的数据或收费价格不符合出网约车收费规则的数据视为无效数据；

S43：行程时间大于3h或行程时间小于5min的数据视为无效数据；

S44：订单公里数小于1km或大于50km的数据视为无效数据；

S45：订单平均速度小于1km/h大于80km/h的数据视为无效数据。

步骤S5中基于K-means的聚类算法具体步骤如下，

S51：从数据库中随机选取K₀个样本作为初始聚类中心C＝{C₁,C₂.....C_K}；

S52：针对数据库中每个样本Xi；，计算它到K个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中；

S53：判断上述每个类中的元素数目是否小于N_min。如果小于N_min则需要丢弃该类，令K＝K-1，并将该类中的样本重新分配给剩下类中距离最小的类；

S54：针对每个类别C_i，重新计算它的聚类中心；

S55：如果当前

说明当前类别数太少，前往分裂操作；

S56：如果当前K≥2Ko，说明当前类别数太多，前往合并操作；

S57：如果达到最大迭代次数则终止，否则回到S52继续执行。

步骤S55中分裂操作具体步骤如下，

S551：计算每个类别下所有样本在每个维度下的方差；

S552：针对每个类别的所有方差挑选出最大的方差

S553：如果某个类别的

并且该类别所包含的样本数量n_i≥2n_min，则可以进行分裂操作，前往S553；如果不满足上述条件则退出分裂操作；

S554：满足步骤S553中条件的类分裂成两个子类别并令K＝K+1，其中

步骤S56中合并操作具体步骤如下，

S561：计算当前所有类别聚类中心两两之间的距离，用矩阵D表示，其中D(i,i)＝0；

S562：对于D(i,j)＜d_min，两个类别需要进行合并操作，使之变成一个新的类。

与现有技术相比，本发明的优点在于：通过采用基于K--Means半监督聚类算法对图像进行分割,不需要通过大量数据要本进行训练,能够有效降低算法复杂度,且能够有效提高识别效率；采用基于K-means的聚类算法对网约车进行聚类分析，实现对网约车行业信息的整合和管理，为未来基于行业信息资源进行的大数据应用分析提供支撑，对提高城市出租汽车的运营效率，缓解城市交通拥挤具有重要意义。

附图说明

图1为本发明的流程图。

具体实施方式

以下结合附图和实施例对本发明作进一步详细说明，但不作为对本发明的限定。

实施例：一种基于K-means的网约车载客特征分析方法，包括以下步骤，