CN115796942A

CN115796942A - 一种基于聚类的共享单车时空布局确定方法

Info

Publication number: CN115796942A
Application number: CN202211392419.7A
Authority: CN
Inventors: 梅振宇; 巩津瑞; 张弘扬; 曹悦贤; 唐崴
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-03-14

Abstract

本发明公开了一种基于聚类的共享单车时空布局确定方法，属于智能交通技术领域。本发明首先对公共自行车现状进行系统分析，了解现有的公共自行车系统的特点，利用Arcmap软件建立缓冲区。其次运用模糊C‑means聚类分析，根据日常使用的时间差异对共享自行车站进行聚类，得到各种共享自行车聚类的活动特征情况。最后基于POI，采用二元Logit模型进行回归分析，获得共享单车停放布局的区位特征。本发明为出行者做出更好的出行决策提供了有效的依据，并且使公共自行车需求合理分配，改善了交通环境。

Description

一种基于聚类的共享单车时空布局确定方法

技术领域

本发明属于智能交通技术领域，具体涉及一种基于聚类的共享单车时空布局确定方法。

背景技术

近年来，私家车数量快速增长带来了交通拥堵等诸多问题，发展公共交通事业被视为一种理想的应对策略。引导驾车者从单纯的小汽车出行向“小汽车+公共交通”的组合出行方式转变，甚至最终进入完全依靠公共交通出行的阶段成为目前关注的重点。同时，出行者为了综合利用各种交通方式的优势以实现综合成本最小，或者因为使用单一的交通方式无法完成出行，在实际出行中往往会选择包含多种方式间换乘的组合出行。其中，共享自行车为“第一公里”和“最后一公里”问题提供了一个较为合理的解决方案。

目前，国内的公共自行车事业正处在快速上升的发展阶段，公共自行车分享系统(BSS)在中国范围内不断扩大，但设计安排和管理运营方面的挑战也不断加剧，需要更全面地了解BSS系统的供需模式以及使用模式的时空分布，通过一系列模型完善对于该系统的认知。在常规模型中，BSS站的进出分析是分开进行建模的，忽略了每个BSS站的进站与出站(到达与出发)流程都是密切相关的，并且目前的模型工作常常忽视邻近基站的交互作用，从而造成估计的偏差、不一致或低效率。

发明内容

本发明针对现有模型与分析技术的不足，提出了一种基于聚类的共享单车时空布局确定方法，本发明基于地铁站和公交车站的公共自行车停放特性画像是公共自行车系统的一个核心问题。

本发明具体包含以下步骤：

1.共享自行车出行数据分析与处理

对公共自行车现状进行系统分析，了解现有的公共自行车系统的特点，对获取的公共自行车出行数据进行时空分布分析。以共享单车进站和出站的时间、经纬度作为基础数据，以地铁站和公交车站为中心建立交通区域。

处理前，首先确定分析条件：地铁站有效站点数量、公交车站有效站点数量、普通BSS站点随机选取一定数量以及早高峰时间段与晚高峰时间段。

在运行下一步的模糊聚类算法模型之前，利用Arcmap软件建立缓冲区(以各个站点为中心建立半径300米范围的研究区域)，将分析时间段分为工作日和周末两类，对共享自行车流进站和出站事件与两类车站点缓冲区范围进行空间交叉分析，获得进站\出站全部数据流，进站\出站早高峰数据流与进站\出站晚高峰数据流。

将所有共享自行车进出BSS站的数据分为8个组别，分别为工作日地铁站点周围出站数据、工作日地铁站点周围进站数据、工作日公交站点周围出站数据、工作日公交站点周围进站数据、周末地铁站点周围出站数据、周末地铁站点周围进站数据、周末公交站点周围出站数据和周末公交站点周围进站数据。将进站\出站数据整合形成三组整体分析数据。

根据所有得到的数据，对于所有BSS站点的共享单车进站\出站数据，计算平均每十分钟的流量，便于进行分析与聚类。在计算共享自行车全部进站\出站的平均每十分钟的流量的过程之中，考虑到0时30分时至4时30分的流量可以忽略不计，对于一天内选取20小时作为有效时段。以全部BSS进站\出站的平均每十分钟的流量为基础，分别计算早高峰和晚高峰进站\出站的平均每十分钟的流量与之的比值，记为进站\出站早高峰比值和晚高峰比值，并计算早高峰与晚高峰时段相应流量的比值。

2.运用模糊C-means聚类分析，获得各聚类活动特征情况

使用一种称为模糊C-MEANS聚类算法的软聚类技术，根据日常使用的时间差异对共享自行车站进行聚类。通过不断优化目标函数，得到所获得的各个样本点对每一个聚类中心的隶属度，并从中选取最高隶属度作为分类依据，从而达到自动实现对样本数据进行类属分类的目的，该算法旨在求解以下目标函数：

其中c为预定的聚类数，m为模糊度，模糊度是确定离群值(数据对象不属于某一特定的聚类)对聚类质心值影响的参数。N是离散集群数的个数。u_ik表示第i个站点到第k个站点集群的成员关系值。对于所给定的站点，它对其它所有集群的成员关系值的和必须为1。x_i,x_k分别代表第i个对象值与第k个聚类质心值，L(x_i,x_k)是第i个对象与第k个聚类质心值的相异性测量。使用残差平方和作为向异性的测量值。当隶属度值满足以下条件时，达到了最优条件：

在进行模糊聚类的过程之中，将时间段分为工作日和周末，并且分别考虑BSS站进站与出站的共享单车流，在确定预定的聚类数之后，选取全部进站\出站的平均每十分钟的流量、进站\出站早高峰比值与进站\出站晚高峰比值三项指标作为相异性测量对象，使用平方误差作相异性的测量值，对8个组别进行建模分析。

选用轮廓系数法作为确定各组别聚类簇数的主依据，并结合误差平方和(SSE)来决定各组数据的聚类簇数。

该方法的核心指标是轮廓系数，某个样本点X_i的轮廓系数定义如下：

其中，a是X_i与同簇的其他样本的平均距离，称为凝聚度，b是X_i与最近簇中所有样本的平均距离，称为分离度。最近簇的定义如下：

其中p是某个簇C_k中的样本。就是用X_i到某个簇所有样本平均距离作为衡量该点到该簇的距离后，选择离X_i最近的一个簇作为最近簇。

根据公式求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数，其取值范围为[-1,1]。簇内样本的距离越近，簇间样本距离越远，平均轮廓系数越大，聚类效果越好。因此，平均轮廓系数最大的k便是最佳聚类数。以共享单车全天平均十分钟的进站/出站次数、早高峰进站/出站比值和晚高峰进站/出站比值对每个站点进行统计分析，并应用基于加权平方误差函数最小化的C-MEANS聚类算法，以每天的共享自行车流动量与时间划分集群，从而根据隶属度最高的主集群值对站点进行分类，得到各种共享自行车聚类的活动特征情况。

3.基于POI的共享单车区位特征回归分析

为评估台站类型与相应区位特征之间的相互关系，需要分别获取地铁站周围300米范围和公交车站周围300米范围的相关地理信息数据。通过高德地图开放平台的数据云平台，并以python软件建立数据获取相关模型，获取各个站点周围300米范围内兴趣点(POI，point of interest，在地理信息系统中指代某一特征区)如学校、住宅区、餐饮服务、运动场所、购物服务、公司企业等十余项地理数据。采用二元Logit模型进行回归分析，获得共享单车停放布局的区位特征。

二元Logistic回归模型能够揭示空间元素之间的交互作用和交往结构，依据所述的C-MEANS聚类方法产生的连续隶属度值，能够使用二元logistic回归模型来探索聚类隶属度的决定因素，同时控制站点之间的空间自相关。模型公式建立如下：

上式中，

服从二元logistic分布，P表示事件发生的概率，1-P表示没有发生的概率，研究数据Y只会有数字1和0，所以使用模型构建时，本来原始数据是0，那么模型拟合出来的预测值也尽最大可能接近0。等号右侧的X₁，X₂等均为研究对象或称为影响因素，具体为各POI兴趣点；而γ₁、γ₂等均为影响系数，代表各个影响因素对研究数据的影响程度。

通过回归模型分析各聚类数据中各聚类簇数与基础簇数(数据最多的一组)的空间相关性，即可获得区位特征对于共享单车停放布局的相关性情况。如对于地铁站点周围的共享单车进站流量，300米范围内的住宅区数量、公交车站数量、餐饮服务数量、运动场所数量和公司企业数量的变化等是否具有显著的正效应。

本发明有益效果：本发明应用聚类分析等模式识别技术，根据日常使用模式对自行车站点进行分类，丰富了国内对自行车站点级类的研究方式，为理解自行车站点的类级与功能提供了重要的参考，为出行者做出更好的出行决策提供了有效的依据；通过二元logistic回归模型，识别站点类型和位置特征之间的关系，同时控制邻近站点的空间依赖性，填补了站点集群之间相互关系的研究空白；为更好的提高公共交通利用率，改善市中心的交通运行环境提供依据，并加深对公共自行车出行特征的理解，从而使公共自行车需求合理分配，进而改善交通环境；利用地理信息系统可视化公共自行车使用的时空动态，为国内的公共自行车的出行研究提供了更为明晰的数据支持。

附图说明

图1为上海市地铁站点分布图；

图2为上海市公交站点分布图；

图3为上海市共享单车一周出行量分布图；

图4为8月27日共享单车出行分布图；

图5为9月1日共享单车出行分布图；

图6为聚类簇数与平均轮廓系数关系图；

图7为地铁站点周围基于主隶属度值的共享自行车站点空间分布图；

图8为公交站点周围基于主隶属度值的共享自行车站点空间分布图；

图9为公交站点旁共享单车到达散点分布图(平均值：176.64)；

图10为地铁站点旁共享单车到达散点分布图(平均值：1357.14)；

图11为普通BSS站点共享单车到达散点分布图(平均值：74.24)；

图12为公交站点旁共享单车出发散点分布图(平均值：159.12)；

图13为地铁站点旁共享单车出发散点分布图(平均值：1391.07)；

图14为普通BSS站点共享单车出发散点分布图(平均值：73.60)。

具体实施方式

本发明提出了一种基于聚类的共享单车时空布局确定方法，以图1和图2所示的路网和停车场布局示意图为例，实施共享自行车活动的时空布局确定方法。

1、共享自行车出行数据分析与处理

选取上海市公共自行车时空分布作为本次研究方法的案例，通过哈喽单车相关负责人，获取了2018年8月27日至2018年9月2日一周时间上海市的哈喽单车出行的实时数据，如图3所示。依据地铁站点分布图和公交车站点分布图，以地铁站和公交车站为中心点，划分出半径为300米范围的交通区域，每一个交通区域视为一个“固定站点”，以此建立模糊聚类模型。

对于每次出行，选择了四个要素进行收集：到达(关锁)\出发(开锁)时间点、经纬度位置、车锁状态和自行车编号。数据收集系统总共收集了大约2300万个数据的数据集。为了能够正确地利用数据集内的数据，对数据进行筛选、处理与转换，使之成为研究分析能够应用的新的数据集。

共享单车出站和进站趋势显示出全天主要的空间变化。根据图示信息，上海市每天的共享单车的到达量与出发量呈平衡状态，而上海市共享单车的到达量与出发量在一周时间的分布呈不平衡状态，其大致可以分为两类数据：工作日数据和周末数据。根据图表，上海市共享单车出发\到达量在工作日时段的流量和密度都远高于在周末时段的流量和密度。

图4和图5展示了选定工作日(2018年8月27日，星期一)和周末(2018年9月1日，星期六)每个一个小时的进站\出站活动数量分布图。可得工作日进站\出站活动数量分布在早上7时分至10时分和晚上17时至20时存在两个高峰时间段，而且高峰时段的进站\出站活动数量显著高于正常时段的进站\出站活动数量。周末进站\出站活动数量分布仅在早上8时至10时30分存在一个显著的高峰时间段，并随时间呈现不断下降的趋势。与工作日模式相比，图中所示的周末出行模式表现出较少的进站\出站流量，且全天的需求分布在空间上更为均衡与分散。

首先确定分析条件：地铁站有效站点数量为440个、公交车站有效站点数量为989个、随机选取的普通BSS站点400个、早高峰时间段为7时至9时、晚高峰时间段为17时30分至19时30分。其次在运用模糊聚类算法模型之前，利用Arcmap软件建立缓冲区(以各个站点为中心建立半径300米范围的研究区域)，分析时间段分为工作日和周末两类，对共享自行车流进站和出站事件与两类车站点缓冲区范围进行空间交叉分析，获得进站\出站全部数据流、进站\出站早高峰数据流、进站\出站晚高峰数据流。所有数据一共分为8个组别：工作日地铁站点周围出站数据、工作日地铁站点周围进站数据、工作日公交站点周围出站数据、工作日公交站点周围进站数据、周末地铁站点周围出站数据、周末地铁站点周围进站数据、周末公交站点周围出站数据、周末公交站点周围进站数据。最后将进站\出站数据整合形成三组整体分析数据。以工作日地铁站点为例，数据形式见表1。

表1空间交叉分析整理表

根据所有得到的数据，对于所有站点的共享单车进站\出站数据，计算平均每十分钟的流量，便于进行分析与聚类。在计算全部进站\出站的平均每十分钟的流量的过程之中，考虑到0时30分时至4时30分的流量可以忽略不计，对于一天内选取20小时作为有效时段。以全部进站\出站的平均每十分钟的流量为基础，分别计算早高峰和晚高峰进站\出站的平均每十分钟的流量与之的比值，记为进站\出站早高峰比值和晚高峰比值，并计算早高峰与晚高峰时段相应流量的比值。以工作日地铁站点为例，数据形式见表2和表3。

表2地铁站点工作日到达数据整理表

表3地铁站点工作日出发数据整理表

2、聚类分析

以共享单车全天平均十分钟的进站/出站次数、早高峰进站/退站比值和晚高峰进站/退站比值对每个站点进行统计分析，并应用基于加权平方误差函数最小化的C-means聚类算法。

表5-表12分别描绘了各个组别模糊聚类分析得出的各种聚类的进站或出站活动特征情况，这些站点的分类性质是根据隶属度最高的主集群值绘制的。群集可以根据整天流动量以及流动的时间变化来区分。

通过python软件，编写代码，可得到聚类簇数与平均轮廓系数关系图，如图6所示(以工作日地铁站点周围出发数据为例)。

根据关系图，当轮廓系数取得最大值时，k值等于3，这表示的最佳聚类数为3。但是，值得注意的是，结合k和SSE的数据可以得到，当k取3时，SSE还非常大，所以这是一个不太合理的聚类数，考虑轮廓系数第二大的k值5，同理这时候SSE已经处于一个较低的水平，因此最佳聚类系数应该取5。

经过对所有组别进行轮廓分析和处理，最终结果如表4所示：

表4各组别聚类簇数整理表

表5工作日地铁站点周围共享单车出发数据聚类分析表

表6工作日地铁站点周围共享单车到达数据聚类分析表

表7工作日公交站点周围共享单车出发数据聚类分析表

表8工作日公交站点周围共享单车出发数据聚类分析表

表9周末地铁站点周围共享单车出发据聚类分析表

表10周末地铁站点周围共享单车到达数据聚类分析表

表11周末公交站点周围共享单车出发数据聚类分析表

表12周末公交站点周围共享单车到达数据聚类分析表

上表分别描述了各个类别中各种集群的主要统计信息。从中可以发现工作日地铁站点周围出站数据分别在早上和晚上时间段呈现一个高时段，而且基本呈现早高峰出站自行车流量大于晚高峰出站自行车流量的趋势，说明地铁站点对共享单车出行具有空间上数量的聚集和时间上时段的聚集。其次，通过分别分析各个簇类，可以发现它们各具特点：

集群1内的车站在全天保持很高的出站流量，不仅在早上和晚上呈现显著的高峰，而且早高峰出站远高于晚高峰出站，这种站点可标记为“着重早高峰出站型高需求站点”。因此，在早高峰时段，集群1内车站共享自行车的需求通常大于对泊车位的需求。

集群2在整天的分布趋势与集群1相似，但是集群2的出站流量在全天之中仅保持中等水平，这种站点可标记为“着重早高峰出站型中需求站点”。

集群3内的车站在早上和晚上呈现显著系数差异较大的高峰，并且早高峰出站明显高于晚高峰出站，但全天的出站流量保持很低的数值，这种站点可标记为“着重早高峰出站型低需求站点”。

集群4内的车站在全天保持很高的出站流量，在早上和晚上呈现显著系数相似的高峰，这种站点可标记为“双高峰出站型高需求站点”。

集群5内的车站仅在早上和晚上呈现显著系数相似的高峰，但全天的出站流量保持很低的数值，这种站点可标记为“双高峰出站型低需求站点”。对于站点集群工作有助于从数量、变化和进站/出站活动的平衡等方面了解单个站点的使用模式。

结合表中数据，工作日地铁站点周围出站数据分别在早上和晚上时间段呈现一个高峰时段，并基本呈现早高峰出站自行车流量大于晚高峰出站自行车流量的趋势，说明地铁站点对共享单车出行具有空间上数量的聚集和时间上时段的聚集；在对工作日公交车站周围出站数据分析过程之中，较于地铁站点，公交车站点聚集效应更弱一些，在不考虑全天几乎没有出站和进站流量的前提下，数据仍然分别在早上和晚上时间段呈现一个高峰时段，时间聚集效应明显。

图7显示了工作日和周末地铁站点周围出站\进站数据基于主隶属度值的自行车共享站空间分布图，图8显示了工作日和周末公交站点周围共享单车出发\到达数据基于主隶属度值的自行车共享站空间分布图。从图中可以看出，不同的聚类具有不同的区位模式，值得进一步探讨。通过比较与分析图7和图8的基于主隶属度值的自行车共享站空间分布图，可以得到如下结论：

(1)每种站点在每个不同的时间段基于到达数据\出发数据的聚类簇数和聚类点分布都有其特点。

(2)通过图7，可以发现地铁站点周围的共享自行车站点的簇类分布在不同时段虽有不同，但在大轮廓的分布类型图基本一致；通过图8，可以发现在选取公交站点范围内的有效站点时，工作日进\出站与周末进\出站的有效站点分布和数量都有所不同，这是出行时间段的不同所带来的差异；通过横向对比研究，相比于铁站点周围的共享自行车站点的簇类分布，公交站点周围的共享自行车站点的簇类分布更加无规则、更加分散化。

图9至图11展示了共享单车在公交(图9)、地铁(图10)和普通BSS站点(图11)的到达分布状态，图12至图14展示了共享单车在公交(图12)、地铁(图13)和普通BSS站点(图14)的出发分布状态。通过比对分布规律和数据平均值，通过与普通BSS站点的对比，可以明显发现无论是地铁站点还是公交站点，都对共享单车出行有着时间上和空间上数量的聚集效应，而且地铁站点对共享单车出行有着更高强度、更大范围的聚集效益。

3、回归分析

通过整理从高德地图开放平台的数据云平台获取地铁站周围300米范围和公交车站周围300米范围的相关地理信息数据，并且在根据上一步模糊聚类得到的数据结果，选取每一组聚类数据之中数量最多的簇数为分析基础簇数，将其设定为Y＝0。

分别将其他各类簇数设定为Y＝1，通过python建立二元logistic回归模型，分析其他各类簇数与基础簇数的空间上相关性。得到表13的数据(以工作日地铁站点周围进站数据为例)。

表13工作日地铁站点周围共享单车到达数据回归分析表

上表的数据主要包括了系数的估计值和数据拟合的显著性水平。在进行显著性水平分析之中，选取如下公式：

{P>|z|}＝1-α

其中，P表示某件事情发生的概率，z表示判断事件真伪的临界界限，P>|z|表示在假设检验中，原假设为正确时接受原假设的概率，α为显著性水平，1-α被称为置信度或置信水平。

选择α<0.1的影响因素作为显著性变量，考虑建立进模型；对于α≥0.1的不显著的影响因素，不进入模型之中。由此得到以集群1为基础簇数工作日地铁站点周围进站数据回归分析模型具体形式。

集群2对集群1的二元logistic回归模型具体形式：

P₀表示基础集群共享单车事件到达/出发事件发生的概率，P₁表示其他集群共享单车到达/出发事件发生的概率。

通过分析集群2对集群1的二元logistic回归模型，可以得到对于工作日地铁站点周围的共享单车进站流量，300米范围内的住宅区数量、公交车站数量、餐饮服务数量、运动场所数量和公司企业数量的变化具有显著的正效应，即前面各个因素数值的增加，对于

事件有正方向效益。就单独住宅区数量来说，当其它变量保持不变的情况下，300米范围内的住宅区数量每增加一个，其从集群1靠近集群2的对数

增加0.3012。相反，300米范围内的购物服务数量的变化对于工作日地铁站点周围共享单车进站流量具有显著的负效应。

结合集群1和2各自的集群特征，可以得到300米范围内的住宅区数量、公交车站数量、餐饮服务数量、运动场所数量和公司企业数量的增加，有助于工作日地铁站点周围共享单车进站流量的增加；300米范围内的购物服务数量的增加，会阻碍工作日地铁站点周围共享单车进站流量的增加。

集群3对集群1的二元logistic回归模型具体形式：

集群4对集群1的二元logistic回归模型具体形式：

表14-表15分别描述了在工作日和周末、处于地铁站点周围和公交站点周围的结合出站\进站聚类结果得到的回归分析整合数据。

表14地铁站点周围共享单车数据回归分析整理表

表15公交站点周围共享单车数据回归分析整理表

对表14研究发现，对地铁站点周围的出行数据，主要的地理影响因素有学校、住宅区、购物服务、公交车站、餐饮服务、运动场所、宾馆酒店和公司企业。其次，住宅区的数量是整个分析的地理信息系统之中影响最为显著的因素，公司企业的数量对地铁站点周围的出行数据也有着较为显著的影响。相比于工作日出站和进站，周末的出站和进站有着更为广泛的影响因素。出行者周末的出站(出发)活动与甲级医院数量有着特殊联系，说明出行者偏向于在周末从医院就诊完出发回家；周末的进站(到达)活动与娱乐场所有着特殊联系，说明出行者偏向于在周末前往娱乐场所消费。

对表15研究发现，首先，对公交站点周围的出行数据，主要的地理影响因素有学校、住宅区、购物服务、地铁站、运动场所和公司企业。其次，住宅区的数量是整个分析的地理信息系统之中影响最为显著的因素，公司企业的数量对地铁站点周围的出行数据也有着较为显著的影响。最后，对公交站点周围的出行数据，工作日出站和进站和周末的出站和进站各有其特殊联系。出行者工作日的出站(出发)活动与学校有着特殊联系，说明出行者偏向于在工作日前往学校上下课；出行者周末的出站(出发)活动与甲级医院数量有着特殊联系，说明出行者偏向于在周末从医院就诊完出发回家；出行者周末的进站(到达)活动与餐饮服务有着特殊联系，说明出行者偏向于在周末前往餐饮服务场所。

对于簇数为5的组别，选择三个及以上分析簇数与基本簇数呈显著相关性的因素作为显著影响因素；对于簇数为4的组别，选择拥有两个及以上分析簇数与基本簇数呈显著相关性的因素作为显著影响因素。分析得到表16和表17：

表16地铁站点周围数据回归分析影响因素程度分布表

表17公交站点周围数据回归分析影响因素程度分布表

表16-表17描述了处于地铁站点和公交站点周围的工作日\周末时间段的出站\进站依据聚类结果得到的回归分析影响因素程度分布表。

根据表格信息，对于地铁站点和公交站点而言，住宅区数量总是对共享自行车出行有最显著的影响因素，公司企业的数量都是次要的显著影响因素。对于各个分析组别，各有其特定的影响因素。对于地铁站点周围数据，工作日出站数据与宾馆酒店和运动场馆数量呈特有的显著相关性，工作日进站数据与餐饮服务和运动场馆数量呈特有的显著相关性，周末出站数据与甲级医院数量呈特有的显著相关性，周末进站数据与运动场所数量呈特有的显著相关性；对于公交站点周围数据，工作日进站数据与地铁站和运动场馆数量呈特有的显著相关性，周末出站数据与地铁站数量呈特有的显著相关性。

综上所述，可知上海市每天的共享单车的到达量与出发量呈平衡状态，而上海市共享单车的到达量与出发量在一周时间的分布呈不平衡状态，而且上海市共享单车出发\到达量在工作日时段的流量和密度都远高于在周末时段的流量和密度。通过与普通BSS站点的对比，可发现地铁站点还是公交站点，都对共享单车出行有着时间上和空间上数量的聚集效应，而且地铁站点对共享单车出行有着更高强度、更大范围的聚集效益。无论是地铁站点还是公交站点，无论是工作日还是周末，无论是出站还是进站，住宅区数量都是对共享自行车出行最显著的影响因素，公司企业的数量都是次要的显著影响因素，其他影响因素都随时间段和地域范围各有特征。

Claims

1.一种基于聚类的共享单车时空布局确定方法，其特征在于包括以下步骤：

S1.共享自行车出行数据分析与处理；

以共享单车进站和出站的时间、经纬度作为基础数据，以地铁站和公交车站为中心建立交通区域；

利用Arcmap软件建立缓冲区，即以各个站点为中心建立半径h米范围的研究区域，将分析时间段分为工作日和周末两类，对共享自行车流进站和出站事件与站点缓冲区范围进行空间交叉分析，获得进站\出站全部数据流，进站\出站早高峰数据流与进站\出站晚高峰数据流；

将所有共享自行车进出公共自行车分享系统BSS站的数据分为8个组别，再将进站\出站数据整合形成三组整体分析数据；

根据所有得到的数据，对于所有BSS站点的共享单车进站\出站数据，计算平均每g分钟的流量；

以全部BSS进站\出站的平均每g分钟的流量为基础，分别计算早高峰和晚高峰进站\出站的平均每g分钟的流量与之的比值，记为进站\出站早高峰比值和晚高峰比值，并计算早高峰与晚高峰时段相应流量的比值；

S2.运用模糊C-means聚类分析，获得各聚类活动特征情况；

使用模糊C-means聚类算法，根据日常使用的时间差异对共享自行车站进行聚类；

在进行聚类的过程之中，将时间段分为工作日和周末，并且分别考虑BSS站进站与出站的共享单车流；在确定预定的聚类数之后，选取全部进站\出站的平均每g分钟的流量、进站\出站早高峰比值与进站\出站晚高峰比值三项指标作为相异性测量对象，使用平方误差作相异性的测量值，对8个组别进行建模分析；

选用轮廓系数法作为确定各组别聚类簇数的主依据，并结合误差平方和决定各组数据的聚类簇数；

以共享单车全天平均g分钟的进站/出站次数、早高峰进站/出站比值和晚高峰进站/出站比值对每个站点进行统计分析，并应用基于加权平方误差函数最小化的C-means聚类算法，以每天的共享自行车流动量与时间划分集群，从而根据隶属度最高的主集群值对站点进行分类，得到各种共享自行车聚类的活动特征情况；

S3.基于POI的共享单车区位特征回归分析；

分别获取地铁站周围h米范围和公交车站周围h米范围的相关地理信息数据，通过高德地图开放平台的数据云平台，并以python软件建立数据获取相关模型，获取各个站点周围h米范围内兴趣点POI；采用二元Logit模型进行回归分析，获得共享单车停放布局的区位特征；

依据所述的C-means聚类方法产生的连续隶属度值，能够使用二元Logistic回归模型探索聚类隶属度的决定因素，同时控制站点之间的空间自相关；

通过二元Logistic回归模型分析各聚类数据中各聚类簇数与基础簇数的空间相关性，获得区位特征对于共享单车停放布局的相关性情况。

2.根据权利要求1所述的一种基于聚类的共享单车时空布局确定方法，其特征在于：在步骤S1中，在进行数据处理前，确定分析条件：地铁站有效站点数量、公交车站有效站点数量、普通站点随机选取一定数量以及早高峰时间段与晚高峰时间段；

在计算共享自行车全部进站\出站的平均每十分钟的流量的过程之中，0时30分时至4时30分的流量忽略不计，对于一天内选取20小时作为有效时段。

3.根据权利要求1所述的一种基于聚类的共享单车时空布局确定方法，其特征在于：步骤1中所述的8个组别，分别为工作日地铁站点周围出站数据、工作日地铁站点周围进站数据、工作日公交站点周围出站数据、工作日公交站点周围进站数据、周末地铁站点周围出站数据、周末地铁站点周围进站数据、周末公交站点周围出站数据和周末公交站点周围进站数据。

4.根据权利要求1所述的一种基于聚类的共享单车时空布局确定方法，其特征在于：在步骤2中，所述模糊C-means聚类算法，通过不断优化目标函数，得到所获得的各个样本点对每一个聚类中心的隶属度，并从中选取最高隶属度作为分类依据，从而达到自动实现对样本数据进行类属分类的目的，该聚类算法旨在求解以下目标函数：

其中，c为预定的聚类数，m为模糊度，模糊度是确定离群值对聚类质心值影响的参数；N是离散集群数的个数；u_ik表示第i个站点到第k个站点集群的成员关系值，即隶属度值，对于所给定的站点，它对其它所有集群的成员关系值的和为1；x_i,x_k分别代表第i个对象值与第k个聚类质心值，L(x_i,x_k)是第i个对象与第k个聚类质心值的相异性测量；

使用残差平方和作为向异性的测量值，当隶属度值满足以下条件：

此时，达到聚类的最优条件。

5.根据权利要求1所述的一种基于聚类的共享单车时空布局确定方法，其特征在于：在步骤2中，所述轮廓系数法的核心指标是轮廓系数，某个样本点x_i的轮廓系数定义如下：

其中，a是X_i与同簇的其它样本的平均距离，称为凝聚度，b是X_i与最近簇中所有样本的平均距离，称为分离度；

最近簇的定义如下：

其中，p是某个簇C_k中的样本，就是用X_i到某个簇所有样本平均距离作为衡量该点到该簇的距离后，选择离X_i最近的一个簇作为最近簇；

根据公式求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数，其取值范围为[-1,1]；簇内样本的距离越近，簇间样本距离越远，平均轮廓系数越大，聚类效果越好，平均轮廓系数最大的k便是最佳聚类数。

6.根据权利要求1所述的一种基于聚类的共享单车时空布局确定方法，其特征在于：在步骤3中，二元Logistic回归模型公式建立如下：

上式中，

服从二元logistic分布，P表示事件发生的概率，1-P表示没有发生的概率，等号右侧的X₁，X₂…X_f均为研究对象或称为影响因素，具体为各POI兴趣点；γ₁、γ₂…γ_f均为影响系数，代表各个影响因素对研究数据的影响程度。

7.根据权利要求6所述的一种基于聚类的共享单车时空布局确定方法，其特征在于：所述POI包括学校、住宅区、餐饮服务、运动场所、购物服务和公司企业。