CN111190942A

CN111190942A - 一种基于数据挖掘技术的城市道路停车点统筹分析方法

Info

Publication number: CN111190942A
Application number: CN202010011087.8A
Authority: CN
Inventors: 陈观林; 沈佳朋
Original assignee: Hongfujin Precision Industry Shenzhen Co Ltd
Current assignee: Hongfujin Precision Industry Shenzhen Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-05-22
Anticipated expiration: 2040-01-06
Also published as: CN111190942B

Abstract

本发明涉及一种基于数据挖掘技术的城市道路停车点统筹分析方法，包括：步骤1、构造停车点数据集；步骤2、根据实际需求设置停车点特征向量不同维度的不同权重；步骤3、使用Canopy聚类算法对设定权重之后的停车点数据进行聚类分析，获得估计的聚类个数。本发明的有益效果是：基于数据挖掘技术对如何统筹分析城市中所有的道路停车点这一问题提供了解决方案，对如何将城市中使用模式类似同时地理位置相近的道路停车点归为一类以便于更好的分析提供了解决方案，有益于停车资源整合问题的解决和建设大型停车场前的调研分析，从而促进停车难问题的解决，进而提高社会效率。

Description

一种基于数据挖掘技术的城市道路停车点统筹分析方法

技术领域

本发明涉及一种城市道路停车点的统筹分析方法，更具体说，它涉及一种基于数据挖掘技术的城市道路停车点统筹分析方法。

背景技术

近年来，随着我国经济快速发展，机动车保有量快速增加，伴随而来的城市停车难问题也越来越突出。无论在北京、上海等超大型城市，还是成都、杭州等特大城市，停车难问题都给群众生活和政府交通管理带来了诸多烦恼。另一方面，随着智慧城市、智慧停车等概念的兴起与发展，停车资源的整合也成为一种迫切的需求。路侧停车作为城市停车的主要部分，其在城市停车管理上占有着重要地位，同时也是从根本上解决城市停车难问题的途径之一。因此，如何对城市中所有的道路停车点进行统筹分析成为一个值得研究的课题。然而目前国内研究人员对这方面的研究较少。

专利201910209821.9《基于大数据的城市智慧停车管理系统》提供了一种基于大数据的城市智慧停车管理系统，该系统包括客户端、数据输入模块、数据处理模块、后端服务模块、大数据模块、车位定位模块、控制器等模块。数据输入模块用于车主输入停车申请信息，并将停车申请信息传输至数据处理模块。数据处理模块接收停车申请信息，并结合大数据模块进行停车场筛选操作。后端服务模块用于接收数据处理模块筛选结果。该系统能够实现车位预定和推荐最佳停车路径，同时便于找到预留车位及反向寻车，对单个车主而言提供了较好的停车解决方案。专利201610731671.4《一种城市道路智慧泊车管理系统》提供一种城市道路智慧泊车管理系统，属于道路管理技术领域，应用于包括多个预设停车位的停车场，包括：多个数据采集装置，远程连接一服务器；用户端，与服务器远程连接，用于提供给用户查看车辆停入所预设停车位的停车路线、对预设停车位进行预约操作并提供给用户进行停车费的缴费操作的功能；用户端将预缴费信息传送给服务器，以在车辆离开时自动缴纳停车费。该发明以现代化信息化的手段解决道路收费中不科学、收费困难、财政损失大、支付不便，商业模式不到位，信息不共享等问题，架构简单实用，工作性能稳定可靠，管控效率较高，适用范围较为广泛，能够有效节约公共资源，创造社会效益。上述两种方法主要采用大数据的技术对用户输入数据进行处理以及物联网技术实现信息化管理，具有较好的社会效益，但是它们都偏向于为单个车主或单个停车场服务，而无法从整个城市的角度上出发，对城市中所有的停车点进行整合和统筹分析。

发明内容

本发明的目的是克服现有技术中的不足，提供一种基于数据挖掘技术的城市道路停车点统筹分析方法。

这种基于数据挖掘技术的城市道路停车点统筹分析方法，包括以下步骤：

步骤1、构造停车点数据集：根据原始的停车数据，从中提取出每个停车点的使用模式特征，对各个停车点的地理位置信息进行归一化处理后，将各停车点的使用模式特征和地理特征结合，作为每个停车点的特征向量；

步骤2、根据实际需求设置停车点特征向量不同维度的不同权重；

步骤3、使用Canopy聚类算法对设定权重之后的停车点数据进行聚类分析，获得估计的聚类个数；

步骤4、根据估计的聚类个数使用基于特征加权的K-means算法对设定权重之后的停车点数据进行聚类分析并得到聚类结果；

步骤5、根据聚类结果进行统筹分析：将属于各个聚类点的停车点数据分别进行累加或者取平均值作为聚类点的停车数据；对各个聚类点的数据进行分析，验证估计的聚类个数是否为较优值；如果不是较优值则重复执行步骤3至步骤4；直到得到较优值；所述较优值为步骤4得到的聚类结果对应的聚类数量K。

作为优选，步骤1所述每个停车点的特征向量如下：

〈T₁,T₂,...,T_n,Lat,Lon> (1)

上式中，T_i，i＝1,...,n，表示各时段经过归一化处理后的停车数量，n为划分的时段数量，Lat为经过归一化处理后的停车点纬度信息，Lon为经过归一化处理后的停车点经度信息。

作为优选，步骤2所述停车点特征向量不同维度的权重值满足以下条件：

w_Lat＝w_Lon＞w₁＝w₂＝...＝w_n (2)

上式中，w_Lat为停车点纬度信息Lat对应的权重；w_Lon为停车点经度信息Lon对应的权重；w_i分别对应各时段停车数量T_i的权重，i＝1,...,n，n为划分的时段数量。

作为优选，步骤3所述Canopy算法的输入为经过加权计算的停车数据集List和两个距离阈值T1、T2；Canopy算法具体算法步骤如下：

1)、将停车数据集合List按照一定的规则进行排序，设定初始距离阈值为T1、T2，且T1>T2；

2)、在停车数据集合List中随机挑选一个数据向量P作为中心，并使用粗糙距离计算方式计算P与停车数据集合List中其他样本数据向量之间的距离d；

3)、将2)所得距离d与初始距离阈值T1进行比较，若d<T1，则将对应的数据向量放入相同的canopy中，然后将d与初始距离阈值T2进行比较，若d<T2，则剔除停车数据集合List内对应的数据向量；

4)、重复执行2)和3)，直至停车数据集合List为空。

作为优选，步骤4所述使用基于特征加权的K-means算法在K-means聚类算法计算两点间距离的过程中添加了对权重的计算；

基于特征加权的K-means算法的输入为停车点特征向量f_i、迭代次数上限R和聚类数量K；

基于特征加权的K-means算法的输出为K个聚类结果；

基于特征加权的K-means算法的过程为：

1)r为当前迭代次数，把0赋值给r；

2)随机选择K个聚类中心m⁽⁰⁾；

3)重复以下操作，直到r＞R或者算法达到收敛，此时K个集合的簇内距离之和E达到局部最优；

计算E：

找到局部的最优解使得到的E值最小；

重新计算各个停车点特征向量f_i与当前聚类中心的距离，并重新划分聚类C^(r)：

停车点特征向量f_i与聚类中心m_l的距离小于停车点特征向量f_i与其他任意聚类中心点的距离；

重新计算新的聚类中心m^(r+1)：

在第r次迭代后，对重新划分的各个聚类点，取其中所有属于该聚类点的停车点特征向量的平均值，所得到的结果作为各个聚类点第r+1次的聚类中心；

把r+1赋值给r；

上式(3)至式(5)中，K为聚类的个数，E为K个集合的簇内距离之和，C_l为第l个聚类，f_i为属于聚类点C_l的第i个停车点特征向量，n为特征向量的维度总数，w_j为第j个维度特征值的权重，f_ij为第i个特征向量在第j维度上的特征值，m_lj为聚类点C_l的聚类中心m_l在第j维度上的特征值；C_l ^(r)为第r次迭代时的第l个聚类，m_l为C_l ^(r)的聚类中心点，m_k为第k个聚类中心点，m_kj为聚类中心点在第j维度上的特征值；m_l ^r为第r次迭代时C_l ^(r)的聚类中心。

本发明的有益效果是：基于数据挖掘技术对如何统筹分析城市中所有的道路停车点这一问题提供了解决方案，对如何将城市中使用模式类似同时地理位置相近的道路停车点归为一类以便于更好的分析提供了解决方案，有益于停车资源整合问题的解决和建设大型停车场前的调研分析，从而促进停车难问题的解决，进而提高社会效率。

附图说明

图1为基于数据挖掘技术的城市道路停车点统筹分析方法的流程图；

图2为Canopy算法流程图；

图3为Canopy算法分析结果示例图；

图4为K-means算法分析结果示例图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

本发明主要考虑以下三个方面：如何提取停车点的使用特征并构建特征向量；如何确定较好的停车点聚类个数；如何对停车点进行聚类分析。

基于数据挖掘技术的城市道路停车点统筹分析方法的流程图如图1所示，包括：

步骤1：构造停车点数据集

根据原始的停车数据，从中提取出每个停车点的使用模式特征，并且对各个停车点的地理位置信息进行归一化处理后，将各停车点的使用模式特征和地理特征结合，作为每个停车点的特征向量：

由于停车点所处位置的不同，停车点各个时段的停车数量变化会有明显差异。例如风景区的停车点具有明显的工作日停车数量少而节假日停车数量多的特点，居民区的停车点具有明显的白天停车少而晚上停车相对较多的特点，办公楼附近的停车点则具有白天停车数量多而夜晚停车数量相对较少的特点，诸如此类。我们认为一个停车点的使用模式特征蕴涵在其历史停车数据中，具体地说，每个停车点的使用模式可通过其各时段的历史平均值作为特征表示。至于具体的时段划分，可依据实际分析需求以及历史停车数据特点来进行划分。在得到每个停车点的各时段历史均值之后，需要对其进行归一化处理，其目的在于减少停车点规模大小对停车点使用模式的影响而着眼于每个停车点的停车数量随着时间变化而变化的趋势，即使用模式特征。

在得到每个停车点的使用模式特征之后，还需要结合每个停车点的地理位置信息才能得到最后的停车点特征向量。需要结合地理位置信息的原因在于，对于不同的停车点，其在空间位置上是否存在交集是判断它们的停车数量是否相互影响或者相互类似的重要依据，从极端的角度上说，如果两个停车点在地理位置上并不邻近，那么不管它们的使用模式、周边环境、停车数量变化趋势如何接近，都不应该把它们放在用一个聚类点中进行分析和研究。

因为停车点地理位置信息与停车点各时段停车数量这两个维度的值属于异构数据，因此同样需要对所有的停车点地理位置信息依照经纬度的值进行归一化处理。我们得到每个停车点的特征向量如下：

〈T₁,T₂,...,T_n,Lat,Lon> (1)

其中T_i，i＝1,...,n，表示各时段的经过归一化处理后的停车数量，n的具体数值由划分的时段数量所决定，Lat和Lon则分别表示经过归一化处理后的停车点纬度和经度信息。

步骤2：根据实际需求设置停车点特征向量不同维度的不同权重

如步骤1中所述，对于不同的停车点，其在空间位置上是否相近是判断不同的停车点能否划分到同一个聚类点进行统筹分析的重要依据。另一方面，尽管地理位置因素对于聚类分析的研究至关重要，但是不同停车点之间的使用模式是否类似、停车变化趋势是否相像也是重要的不可忽视的因素。因此，在进行聚类分析之前，需要依据实际分析需求对停车点特征向量的各个维度配以合理的权重来表现对不同维度的特征值不同的重视程度；由于实际统筹分析过程中，对不同停车点之间的地理位置和使用模式上的侧重有所不同，因此在此步骤中需要根据实际需求对停车点的特征向量含有的各个维度配以不同的权重。

根据上述分析，各维特征的权重值应当满足以下条件：

w_Lat＝w_Lon＞w₁＝w₂＝...＝w_n (2)

其中w_Lat和w_Lon分别对应纬度Lat和经度Lon的权重，w_i，i＝1,...,n，分别对应各时段停车数量T_i的权重。

步骤3：使用Canopy聚类算法获得估计的聚类个数

聚类属于无监督学习，即聚类中的样本没有给定的分类，而聚类的目标就是找到每个样本潜在的类别，并将同类别的样本放在一起归为一类。而在本步骤中，有两个不确定因素，一是每个停车点的类别，二是停车点类别的个数。经过步骤2，我们得到了合理的权重比，在本步骤中，我们使用Canopy聚类算法来获得较好的聚类个数，Canopy算法是一种粗聚类算法，虽然在精度上存在损失，但其在速度上有很大优势。同时该算法不需要事先指定K值，即聚类的个数，因此此步骤中使用该算法对设定权重之后的停车点数据进行聚类分析，获得估计的聚类个数K，以及大致的K个中心点。由于聚类算法属于无监督学习，即事先并不能确定样本的类别，也就不能确定样本的类别个数。因此，本发明采用先估计后验证的方式。

所述Canopy算法的输入为经过加权计算的停车数据集List和两个距离阈值T1、T2；Canopy算法具体算法步骤如下：

4)、重复执行2)和3)，直至停车数据集合List为空。

算法流程图如图2所示。Canopy算法的主要问题在于如何确定T1值和T2值的大小。在实际使用本方法时，需要根据实际情况和实验输出调整这两个值的大小来获得较好的粗聚类结果。

步骤4：根据估计的聚类个数使用基于特征加权的K-means算法聚类分析

经过步骤3之后得到了较好的聚类个数，在此步骤中根据聚类个数使用K-means聚类算法对设定权重之后的停车点数据进行最后的聚类分析并得到聚类结果。因为经过步骤2，我们对停车点特征向量的不同维度给予了不同的权重，因此为了考虑权重的影响，基于特征加权的K-means算法在传统的K-means聚类算法计算两点间距离的过程中添加了对权重的计算，具体如下所示：

1)、r为当前迭代次数，把0赋值给r；

2)、随机选择K个聚类中心m⁽⁰⁾；

3)、重复以下操作，直到r＞R或者算法达到收敛，此时K个集合的簇内距离之和E达到局部最优；

计算E：

找到局部的最优解使得到的E值最小；

重新计算新的聚类中心m^(r+1)：

把r+1赋值给r；

基于特征加权的K-means算法伪代码如下：

步骤5：根据聚类结果进行统筹分析

在得到聚类结果之后，可以将属于各个聚类点的停车点数据分别进行累加或者取平均值作为聚类点的停车数据，然后对各个聚类点的数据进行研究和分析并验证估计的聚类个数是否为较优值，最后就可以在此基础上，进行实际所需的统筹分析以及验证聚类个数是否合适。如果不合适，就可以通过调整步骤三中Canopy算法的T1值和T2值并重复执行步骤3至4直至得到较好的结果。

实施例：

采用了杭州市三个月的停车数据约57万余条停车记录作为原始数据并进行了验证实验。

在实验过程中，将每天的停车数据划分为三个时间段：第一个时间段为上班时段从早上七点到早上十一点，第二个时间段为白天时段从早上十一点到下午四点，第三个时间段为下班时段下午四点到晚上八点。采用各时段的历史每小时均值作为每个停车点的使用特征，并结合地理位置信息构成了五维特征向量。

为了进行对比实验采用了四种权重方案：

(1)方案1：5维权重相等。由上述可知，特征向量各维权重相等是不合理的，因此设计此方案的主要目的是为了进行对比实验，验证在权重相等的情况下，聚类算法的表现。

(2)方案2：w₁＝w₂＝w₃＝1，w_Lat＝w_Lon＝5，在该方案中，地理位置因素的权重较大。

(3)方案3：w₁＝w₂＝w₃＝1，w_Lat＝w_Lon＝10，在该方案中，地理位置因素的权重相比停车点的模式特征权重大很多。

(4)方案4：w₁＝w₂＝w₃＝0，w_Lat＝w_Lon＝1，该方案只考虑了地理位置信息。

图3展示了在对不同权重方案使用Canopy聚类算法并依据归一化后的经纬度信息进行做图后获得的聚类效果，其每个方案的聚类结果数量分别为25，26，26，24，从方案3和方案4的结果图可以看出当聚类个数为26个时，已经较好地将地理位置接近的停车点归为一类并且对明显在地理位置上不接近的停车点加以区分。因此在接下去的实验中，将聚类个数拟定为26。图4展示了在获得聚类个数之后对不同权重方案使用K-means聚类算法进行聚类分析并依据归一化后的经纬度信息进行做图后的结果，从图中可以看出随着地理位置权重的增加，K-means算法的聚类效果在二维平面上的表现也越来越好。但是考虑到K-means算法的特征向量是多维的，虽然对于停车点的聚类来说，地理位置的特征向量值尤为重要，但是在对聚类效果进行评判时，也应该考虑其他维的聚类效果而不能仅仅通过二维平面上的聚类结果好坏来判断。因此，需要通过最后的验证实验来判断是否真正达到了好的聚类效果，验证方式可根据实际需求而进行选择。

在本实验中，通过判断不同方案在模型拟合上的表现优劣进而判断聚类结果的好坏。这样做的原因在于当聚类结果在模型拟合上的表现越好时，说明越好地将特征类似的停车点归为了一类，也就更有利于进行统筹分析。将不同方案下各聚类点的停车数据值累加作为该聚类点的停车数据，并采用自回归滑动平均模型(Autoregressive movingaverage model，ARMA模型)对聚类点的停车数据进行拟合分析，同时将各聚类点的均方误差累加作为各方案的最终实验结果，如表1所示：

表1不同权重方案的均方误差之和

从上表可以得出以下结论：

(1)各方案的均方误差之和相差不大，并且考虑到实验的原始数据量大小以及聚类个数为26个，可以看出不同方案下每个聚类点的均方误差都是较小。这一方面说明采用的这一系列步骤和方法确实将特征类似的停车点划分为了同一聚类，从而能够使得每个聚类点的均方误差较小拟合效果较好，另一方面说明将最终的停车点聚类个数拟定为26个是可取的。

(2)方案1的均方误差之和最小，原因在于在该方案中，停车点的使用模式特征具有四个方案中最大的权重，因为将使用模式和停车数量变化趋势相类似的停车点归为一类，所以取得最好的模型拟合结果。这提醒在日后的研究中需要重视对停车点使用模式特征的处理。

(3)方案3的聚类效果是剩下的三个方案中最好的，原因在于该方案既体现了对停车点地理位置信息的重视，同时也没有忽视停车点的使用模式特征，所以取得较好的聚类效果。这说明了当采用较好的权重配比进行聚类分析时，能得到更好的模型拟合结果，而相同条件下模型的拟合效果越好，说明得到的聚类结果中包含的有用信息越多。

综上所述，提出的基于数据挖掘技术的城市道路停车点统筹分析方法是具有实际应用价值的。

Claims

1.一种基于数据挖掘技术的城市道路停车点统筹分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于数据挖掘技术的城市道路停车点统筹分析方法，其特征在于，步骤1所述每个停车点的特征向量如下：

〈T₁,T₂,...,T_n,Lat,Lon> (1)

3.根据权利要求1所述基于数据挖掘技术的城市道路停车点统筹分析方法，其特征在于，步骤2所述停车点特征向量不同维度的权重值满足以下条件：

w_Lat＝w_Lon＞w₁＝w₂＝...＝w_n (2)

4.根据权利要求1所述的基于数据挖掘技术的城市道路停车点统筹分析方法，其特征在于，步骤3所述Canopy算法的输入为经过加权计算的停车数据集List和两个距离阈值T1、T2；Canopy算法具体算法步骤如下：

4)、重复执行2)和3)，直至停车数据集合List为空。

5.根据权利要求1所述的基于数据挖掘技术的城市道路停车点统筹分析方法，其特征在于：步骤4所述使用基于特征加权的K-means算法在K-means聚类算法计算两点间距离的过程中添加了对权重的计算；

基于特征加权的K-means算法的输出为K个聚类结果；

基于特征加权的K-means算法的过程为：

1)、r为当前迭代次数，把0赋值给r；

2)、随机选择K个聚类中心m⁽⁰⁾；

计算E：

找到局部的最优解使得到的E值最小；

重新计算新的聚类中心m^(r+1)：

把r+1赋值给r；