CN111476449A

CN111476449A - 一种基于改进k均值聚类算法的地铁车站运营时段划分方法

Info

Publication number: CN111476449A
Application number: CN201910952490.8A
Authority: CN
Inventors: 黄俊生; 毛保华; 柏赟; 黄康; 魏润斌
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2020-07-31
Anticipated expiration: 2039-10-09
Also published as: CN111476449B

Abstract

本发明公开了一种基于改进K均值聚类算法的地铁车站运营时段划分方法，包括如下步骤：1)确定聚类中心的个数K，2)输入初始温度T、降温系数α、最低降温温度T_lowest，马尔科夫链长度为inIteration；3)计算任意两个样本x_i和x_j的距离；4)计算样本集合S中所有样本的平均距离MeanDis(S)，5)计算任意样本对象x_i的密度Den(x_i)，6)根据公式

计算距离平方和误差为SDSE(i)，设定a＝1，本发明提到的基于改进K均值聚类算法的地铁车站运营时段划分方法初始解更好，算法速度更快，且最后适应度更高。

Description

一种基于改进K均值聚类算法的地铁车站运营时段划分方法

技术领域

本发明涉及地铁运营技术领域，具体涉及一种基于改进K均值聚类算法的地铁车站运营时段划分方法。

背景技术

地铁车站作为地铁网络的节点，各车站运营管理效率将联动影响整个网络的运输效率。目前，从乘客客流特征角度分析各车站的运营管理差异，对了解车站特点和评价地铁网络运行效率具有重要意义。

自动售检票系统(Automatic Fare Collection,AFC)目前已在各大城市的城市轨道系统中应用，运用AFC系统收集到的乘客数据信息更全面，且更能反映乘客行为特点。基于该信息技术，结合机器学习算法，可从海量乘客数据信息中挖掘筛选出对车站管理有益的数据精华。基于该思想，衍生出地铁车站分类和地铁车站运营时段划分等研究方向。进一步，沈吟东在《基于K-means聚类算法的公交运营时段分析》中运用非监督式机器学习算法，K-means聚类算法，实现公交运营时段划分，在聚类过程中借鉴三角不等式的原理，改进了聚类距离的计算公式，进一步减少了不必要的计算过程，降低了计算的复杂性；孙亚在《数据挖掘算法在交通状态量化及识别的应用》中借鉴模式识别理论知识，运用数据挖掘技术提取交通流数据，进一步实现道路实际交通状态的判定；余丽杰在《基于谱聚类的城市轨道站点分类方法》中通过比较NJW算法和SM算法在城市轨道站点划分的运用，得到NJW算法更能抓住各地铁车站的客流信息进行站点分类；王超在《基于轨迹谱聚类的终端区盛行交通流识别方法》中从飞机飞行轨迹样本数据集入手，运用谱聚类算法对盛行交通流进行识别；陈艳艳在《综合交通枢纽客流拥挤实时评价方法》中选用车站客流密度和客流量作为车站客流拥挤的评判指标，进一步在车站瓶颈区域实现客流拥挤状态识别。

传统的车站运营时段划分需要根据线路特征区段的断面客流变化情况，将车站一天的运营时段分为低谷时段、高峰时段、正常时段、过渡时段等。该研究思路表明不同运营时段的客流往往存在较大差异，线路区段断面客流无法直接统计，传统K-均值聚类算法的计算思路是：首先需要确定聚类中心的个数(K)，并从待聚类数据集中，随机选取K个点作为初始聚类中心，进一步采用欧式距离作为样本分类的评价指标，计算数据集中各个样本到K个初始聚类中心的距离，筛选得到最小距离并将该样本归类到对应聚类中心，然后计算归到各个聚类中心的样本的距离平均值，再进一步更新聚类中心的位置，直到距离平方误差函数稳定在最小值，K-均值聚类算法具有收敛速度快、效率高等优点，然而该算法却存在聚类中心个数确定困难，初始聚类中心选取不准确，容易导致聚类结果陷入局部最优等缺点。

发明内容

(一)要解决的技术问题

为了克服现有技术不足，现提出一种基于改进K均值聚类算法的地铁车站运营时段划分方法，其初始解更好，算法速度更快，且最后适应度更高。

(二)技术方案

本发明通过如下技术方案实现：本发明提出了一种基于改进K均值聚类算法的地铁车站运营时段划分方法，包括如下步骤：1)确定聚类中心的个数K，并从待聚类数据集中输入样本集合S，输入对象样本集合为S＝{x₁，x₂，...x_n}， x_i＝(x_i1，x_i2，...x_im)；2)输入初始温度T、降温系数α、最低降温温度T_lowest，马尔科夫链长度为inIteration；3)计算任意两个样本x_i和x_j的距离为 d(x_i，x_j)，d(x_i，x_j)＝[(x_i1-x_j1)²+(x_i2-x_j2)²+...+(x_im-x_jm)²]；4)计算样本集合s中所有样本的平均距离MeanDis(S)，

5)计算任意样本对象x_i的密度Den(x_i)，其中

其中f(x)为分段函数，当 MeanDis(S)-d(x_i，x_j)≥0，f(MeanDis(S)-d(x_i，x_j))＝1，当 MeanDis(S)-d(x_i，x_j)＜0时，f(MeanDis(S)-d(x_i，x_j))＝0。进一步，可以得到样本的密度集合为 D＝{den(x₁)，den(x₂)，...，den(x_n)}；样本集合D中，将密度最大的样本作为第一个初始聚类中心点O₁，选择密度第二大的样本作为第二个初始聚类中心点O₂，依此类推，直到满足预定的聚类数k为止；6)根据公式

计算距离平方和误差为SDSE(i)，设定 a＝1，n为样本集合中样本的个数，m为每个样本包含的属性总数，k为聚类中心的个数，it为第i个样本的第t个属性值，n_j为第j个聚类的均值；7)若 a达不到马尔科夫链长度，则将聚类中心的集合设为O＝{O₁，O₂，...，O_K}，其中向量O_i＝(J_i，C_i)，式中J_i表示第i个聚类中心的转化后的进站人数，C_i表示第 i个聚类中心的出站人数，随机选取K个点作为初始聚类中心，将每个聚类中心 O_i最远的样本x_if设为该聚类中心的最大搜索半径，聚类中心为 O_new＝(rand(J_i，max(x_if′1，x_if1))，rand(C_i，max(x_if′2，x_if2)))，其中 x_if′1为上一次迭代距离聚类中心O_i最远样本x_if′的进站人数， x_if1为本次迭代距离聚类中心O_i最远样本x_if的进站人数；x_if′2为上一次迭代距离聚类中心O_i最远样本x_if′的出站人数，x_if2为本次迭代距离聚类中心O_i最远样本x_if的出站人数；8)分别计算数据集中各个样本到K个初始聚类中心的距离 d(x_i，x_j)＝[(x_i1-x_j1)²+(x_i2-x_j2)²+...+(x_im-x_jm)²]；9) 筛选得到最小距离并将该样本归类到对应聚类中心；10)计算归到各个聚类中心的样本的距离平均值，再进一步更新聚类中心的位置，直到距离平方误差函

n 为样本集合中样本的个数，m为每个样本包含的属性总数，k为聚类中心的个数，it为第i个样本的第t个属性值，n_j为第j个聚类的均值。

(三)有益效果

本发明相对于现有技术，具有以下有益效果：

本发明提到的一种基于改进K均值聚类算法的地铁车站运营时段划分方法有如下有益效果：1)为克服传统K-均值聚类算法容易使结果得到局部最优的缺点，提出基于SDSE函数的聚类个数确定方法，和基于样本密度的初始聚类中心位置确定方法，设计基于样本密度半径的搜索策略和基于Metropolis准则的聚类中心更新方式。

2)通过仿真实验发现，新聚类算法与传统K-均值聚类算法相比，新聚类算法得到的初始聚类结果更好、迭代速度更快、求解精度更高、具有稳定收敛的特性。

3)利用新K-均值聚类算法进行车站运营模式识别，得到的数据信息更全面，更完整，可作为地铁车站运营部门新的辅助管理技术手段之一。

附图说明

图1是西直门地铁站客流特征曲线图。

图2是K-均值聚类算法流程图。

图3为SDSE变化曲线图。

图4是类聚类算法比较图。

图5是聚类结果柱状图。

图6是聚类中心效果图。

图7是各运营时段内的客流变化趋势曲线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

西直门地铁站位于北京西城区，是北京地铁2号线、4号线、13号线的汇聚点，乘客进、出和换乘行为复杂。同时西直门地铁站点周围即有居住地(或大学)，又有就业地，在此周围居住的市民有可能就业于其他地点，在此周围就业的市民也有可能居住于别处，因此，西直门地铁站乘客数量特征呈现双峰的特点。

而换乘客流作为影响聚类分析的一个重要指标，需要另做考虑。由于换乘客流不同于进出站客流可以直接统计，换乘客流需结合线网特性加以分析。本文认为线网内的乘客熟悉线网结构，出行路径均考虑为最短路径，并使用Dijkstra 算法进行求解。进一步，西直门地铁站换乘的乘客可转化为本线的进站客流，从而降低聚类的维度，提高聚类速度。

为进一步揭示客流数据特征，本文选取5分钟作为客流数据收集的时间间隔，结合西直门地铁站的营业时间，可得到216个时间间隔，根据西直门地铁站换乘客流、进、出站客流数据可以绘出客流特征曲线图(图1)。

传统K-均值聚类算法的计算思路是：首先需要确定聚类中心的个数(K)，并从待聚类数据集中，随机选取K个点作为初始聚类中心，进一步采用欧式距离作为样本分类的评价指标，计算数据集中各个样本到K个初始聚类中心的距离，筛选得到最小距离并将该样本归类到对应聚类中心，然后计算归到各个聚类中心的样本的距离平均值，再进一步更新聚类中心的位置，直到距离平方误差函数稳定在最小值，算法具体操作流程见图2，输入对象样本集合为 S＝{x₁,x₂,...x_n}，x_i＝(x_i1,x_i2,...x_im)，则样本x_i与样本x_j的欧式距离可以表示为：

d(x_i,x_j)＝[(x_i1-x_j1)²+(x_i2-x_j2)²+...+(x_im-x_jm)²] (1)

距离平方和误差(SDSE,sum of the distance squared error)函数为：

上式中，n为样本集合中样本的个数，m为每个样本包含的属性总数，k为聚类中心的个数，it为第i个样本的第t个属性值，n_j为第j个聚类的均值。

传统确定聚类个数的方法有：最大最小距离法、距离度量法、密度准则法。本发明选用基于距离平方和误差(SDSE)的方法，在不同聚类数条件下，分情况计算各SDSE值，结合SDSE变化趋势图和实际经验，得到最合适的聚类数k。

根据2015年某月全月工作日西直门地铁站实际进出站和换乘乘客数量，选取聚类数候选集为D＝{3,4,5,6,7,8,9}，计算得到SDSE变化曲线图如图3。

过分析在不同聚类数下的SDSE值，可以明显看出，聚类数7、5为转折点，较能反映分类情况，因此本文西直门地铁站216个样本数据将分为7类。

若待聚类样本数据到聚类中心的距离越小，则说明该聚类方法使得同类样本之间的相似性越高；进一步，若归到聚类中心的样本数量越多，且该同类样本区域内样本到聚类中心的距离越小，说明同类样本区域内的样本密度越高。根据样本密度选取聚类中心的位置，可以避免初始聚类中心选择的随机性使得结果陷入局部最优。基于样本密度确定初始聚类中心的具体步骤，如1到4所示：

1.按照公式(1)计算任意两个样本x_i和x_j的距离为d(x_i,x_j)；

2.计算样本集合S中所有样本的平均距离MeanDis(S)；

3.计算任意样本对象x_i的密度Den(x_i)；

其中f(x)为分段函数，当MeanDis(S)-d(x_i，x_j)≥0， f(MeanDis(S)-d(x_i，x_j))＝1，当MeanDis(S)-d(x_i，x_j)＜0时， f(MeanDis(S)-d(x_i，x_j))＝0。进一步，可以得到样本的密度集合为 D＝{den(x₁)，den(x₂)，...，den(x_n)}。

4.样本集合D中，将密度最大的样本作为第一个初始聚类中心点O₁，选择密度第二大的样本作为第二个初始聚类中心点O₂，依此类推，直到满足预定的聚类数k为止。

基于改进的K-均值聚类算法编码及迭代设计如下：将聚类中心的集合设为 O＝{O₁,O₂,...,O_K}，其中向量O_i＝(J_i,C_i)，式中J_i表示第i个聚类中心的转化后的进站人数，C_i表示第i个聚类中心的出站人数。

为提高解迭代质量，本文提出基于样本密度半径的搜索策略。在每次迭代中，根据公式(3)和(4)计算每个聚类中心的密度，并将每个聚类中心O_i最远的样本x_if设为该聚类中心的最大搜索半径，新的聚类中心为 O_new＝(rand(J_i,max(x_if'1,x_if1)),rand(C_i,max(x_if'2,x_if2)))，其中x_if'1为上一次迭代距离聚类中心O_i最远样本x_if'的进站人数，x_if1为本次迭代距离聚类中心O_i最远样本x_if的进站人数；x_if'2为上一次迭代距离聚类中心O_i最远样本x_if'的出站人数，x_if2为本次迭代距离聚类中心O_i最远样本x_if的出站人数。

为克服传统K-均值聚类算法容易使结果陷入局部最优的局面，使得聚类中心可以跳出“大山谷结构”的最低点，本文结合模拟退火算法的思想，设计基于 Metropolis更新准则的混合K-均值聚类算法，使每次迭代的聚类中心以概率的方式更新。

Step1：

1.1输入初始温度T、降温系数α、最低降温温度T_lowest，马尔科夫链长度为inIteration；

1.2根据2.2小节步骤1-4产生初始聚类中心O，根据SDSE公式计算距离平方和误差为SDSE(i)，设定a＝1；

Step2：

2.1如果a达到马尔科夫链长度，转step3；

2.2否则，根据2.3小节介绍的聚类中心更新方式产生新的聚类中心O_new,计算距离平方和误差为SDSE(j)；

2.3若SDSE(j)-SDSE(i)＜0，则表示新的聚类方案目标值优于初始聚类方案，则i＝j；若SDSE(j)-SDSE(i)＞0，则计算exp(-(SDSE(j)-SDSE(i))/T)，如果存在 exp(-(SDSE(j)-SDSE(i))/T)＞rand(0,1)，则以概率的形式让i＝j，a＝a+1，转2.1；

Step3：

3.1如果温度达到最低降温温度T_lowest，终止运算；

3.2否则T＝T·α，转step2。

本发明运用改进的K-均值聚类算法(Simulated Annealing K-menas clusteringalgorithm,SAKCA)和普通K-均值聚类算法(K-means clustering algorithm,KCA)分别对西直门地铁站的运营模式进行识别。

算法的参数设置为：初始温度T＝100、降温系数α＝0.95、最低降温温度T_lowest＝1e-8，马尔科夫链长度为inIteration＝50，r₀＝10⁶；

进一步，根据下式计算目标函数的适应度：

F＝r₀/SDSE (5)

通过比较两类算法的寻优过程发现，如图4，SAKCA算法初始解更好，算法速度更快，且最后适应度更高，说明该算法对车站运营模式识别效果更好，聚类效果更明显；而KCA初始解较差，经过同样的迭代次数之后，适应度值较低，聚类效果较差。

西直门地铁站交通流特征数据的聚类结果具体效果图和各运营时段内的客流变化趋势曲线图如如图5、图6、图7所示。图6聚类中心分别为Ⅰ(6.5,60,233)， Ⅱ(42,307,699)，Ⅲ(63,429,882)，Ⅳ(105.5,269,874)，Ⅴ(112,238, 1010)，Ⅵ(153,383,1289)，Ⅶ(180.5,131,794)。括号内数字分别代表样本编号，出站人数和转化后的进站人数。

进一步分析图5和图6可知，第Ⅰ类运营时段为员工通勤阶段，第Ⅱ类运营时段为上班高峰阶段，第Ⅲ类运营时段为市民日常出行阶段，第Ⅳ类运营时段为午间运营阶段，第Ⅴ类运营时段为下班峰前回升阶段，第Ⅵ类运营时段为下班高峰期，第Ⅶ类运营时段为晚间运营阶段。

由图7客流变化趋势曲线可知，各运营时段内客流变化趋势有所差异，在第Ⅰ类运营时段和第Ⅱ类运营时段内，客流增长较为迅速，该时段内车站运营模式识别为客流增长期；在第Ⅲ类运营时段内，整体客流量稍有回落，在第Ⅳ 类运营时段内，整体客流量较为平缓，之后的客流相对于上一时段稍有回升，综合这三个运营时段客流特点，车站运营模式识别为客流平缓期；在第Ⅵ类运营时段内，客流呈现一波峰的结构，车站运营模式识别为客流波峰期；在第Ⅵ 类运营时段内，客流开始回落，车站运营模式识别为客流回落期。

因此，运营时段的划分和各运营时段内客流变化趋势可作为车站安全运营管理的一个模块，辅助车站决策者做出决策，提高车站整体服务水平。

上面所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的构思和范围进行限定。在不脱离本发明设计构思的前提下，本领域普通人员对本发明的技术方案做出的各种变型和改进，均应落入到本发明的保护范围，本发明请求保护的技术内容，已经全部记载在权利要求书中。

Claims

1.一种基于改进K均值聚类算法的地铁车站运营时段划分方法，其特征在于：包括如下步骤：1)确定聚类中心的个数K，并从待聚类数据集中输入样本集合S，输入对象样本集合为S＝{x₁,x₂,...x_n}，x_i＝(x_i1,x_i2,...x_im)；2)输入初始温度T、降温系数α、最低降温温度T_lowest，马尔科夫链长度为inIteration；3)计算任意两个样本x_i和x_j的距离为d(x_i,x_j)，d(x_i,x_j)＝[(x_i1-x_j1)²+(x_i2-x_j2)²+...+(x_im-x_jm)²]；4)计算样本集合S中所有样本的平均距离MeanDis(S)，

5)计算任意样本对象x_i的密度Den(x_i)，其中

其中f(x)为分段函数，当MeanDis(S)-d(x_i,x_j)≥0，f(MeanDis(S)-d(x_i,x_j))＝1，当MeanDis(S)-d(x_i,x_j)＜0时，f(MeanDis(S)-d(x_i,x_j))＝0。进一步，可以得到样本的密度集合为D＝{den(x₁),den(x₂),...,den(x_n)}；样本集合D中，将密度最大的样本作为第一个初始聚类中心点O₁，选择密度第二大的样本作为第二个初始聚类中心点O₂，依此类推，直到满足预定的聚类数k为止；6)根据公式

计算距离平方和误差为SDSE(i)，设定a＝1，n为样本集合中样本的个数，m为每个样本包含的属性总数，k为聚类中心的个数，it为第i个样本的第t个属性值，n_j为第j个聚类的均值；7)若a达不到马尔科夫链长度，则将聚类中心的集合设为O＝{O₁,O₂,...,O_K}，其中向量O_i＝(J_i,C_i)，式中J_i表示第i个聚类中心的转化后的进站人数，C_i表示第i个聚类中心的出站人数，随机选取K个点作为初始聚类中心，将每个聚类中心O_i最远的样本x_if设为该聚类中心的最大搜索半径，聚类中心为O_new＝(rand(J_i,max(x_if'1,x_if1)),rand(C_i,max(x_if'2,x_if2)))，其中x_if'1为上一次迭代距离聚类中心O_i最远样本x_if'的进站人数，x_if1为本次迭代距离聚类中心O_i最远样本x_if的进站人数；x_if'2为上一次迭代距离聚类中心O_i最远样本x_if'的出站人数，x_if2为本次迭代距离聚类中心O_i最远样本x_if的出站人数；8)分别计算数据集中各个样本到K个初始聚类中心的距离

9)筛选得到最小距离并将该样本归类到对应聚类中心；10)计算归到各个聚类中心的样本的距离平均值，再进一步更新聚类中心的位置，直到距离平方误差函数稳定在最小值，距离平方和误差函数为

n为样本集合中样本的个数，m为每个样本包含的属性总数，k为聚类中心的个数，it为第i个样本的第t个属性值，n_j为第j个聚类的均值。