CN111476449A - 一种基于改进k均值聚类算法的地铁车站运营时段划分方法 - Google Patents

一种基于改进k均值聚类算法的地铁车站运营时段划分方法 Download PDF

Info

Publication number
CN111476449A
CN111476449A CN201910952490.8A CN201910952490A CN111476449A CN 111476449 A CN111476449 A CN 111476449A CN 201910952490 A CN201910952490 A CN 201910952490A CN 111476449 A CN111476449 A CN 111476449A
Authority
CN
China
Prior art keywords
sample
clustering
distance
samples
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910952490.8A
Other languages
English (en)
Other versions
CN111476449B (zh
Inventor
黄俊生
毛保华
柏赟
黄康
魏润斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201910952490.8A priority Critical patent/CN111476449B/zh
Publication of CN111476449A publication Critical patent/CN111476449A/zh
Application granted granted Critical
Publication of CN111476449B publication Critical patent/CN111476449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本发明公开了一种基于改进K均值聚类算法的地铁车站运营时段划分方法,包括如下步骤:1)确定聚类中心的个数K,2)输入初始温度T、降温系数α、最低降温温度Tlowest,马尔科夫链长度为inIteration;3)计算任意两个样本xi和xj的距离;4)计算样本集合S中所有样本的平均距离MeanDis(S),5)计算任意样本对象xi的密度Den(xi),6)根据公式
Figure DDA0002226222020000011
计算距离平方和误差为SDSE(i),设定a=1,本发明提到的基于改进K均值聚类算法的地铁车站运营时段划分方法初始解更好,算法速度更快,且最后适应度更高。

Description

一种基于改进K均值聚类算法的地铁车站运营时段划分方法
技术领域
本发明涉及地铁运营技术领域,具体涉及一种基于改进K均值聚类算法的 地铁车站运营时段划分方法。
背景技术
地铁车站作为地铁网络的节点,各车站运营管理效率将联动影响整个网 络的运输效率。目前,从乘客客流特征角度分析各车站的运营管理差异,对了 解车站特点和评价地铁网络运行效率具有重要意义。
自动售检票系统(Automatic Fare Collection,AFC)目前已在各大城市的 城市轨道系统中应用,运用AFC系统收集到的乘客数据信息更全面,且更能反 映乘客行为特点。基于该信息技术,结合机器学习算法,可从海量乘客数据信 息中挖掘筛选出对车站管理有益的数据精华。基于该思想,衍生出地铁车站分 类和地铁车站运营时段划分等研究方向。进一步,沈吟东在《基于K-means聚 类算法的公交运营时段分析》中运用非监督式机器学习算法,K-means聚类算法, 实现公交运营时段划分,在聚类过程中借鉴三角不等式的原理,改进了聚类距 离的计算公式,进一步减少了不必要的计算过程,降低了计算的复杂性;孙亚 在《数据挖掘算法在交通状态量化及识别的应用》中借鉴模式识别理论知识, 运用数据挖掘技术提取交通流数据,进一步实现道路实际交通状态的判定;余 丽杰在《基于谱聚类的城市轨道站点分类方法》中通过比较NJW算法和SM算法 在城市轨道站点划分的运用,得到NJW算法更能抓住各地铁车站的客流信息进 行站点分类;王超在《基于轨迹谱聚类的终端区盛行交通流识别方法》中从飞 机飞行轨迹样本数据集入手,运用谱聚类算法对盛行交通流进行识别;陈艳艳 在《综合交通枢纽客流拥挤实时评价方法》中选用车站客流密度和客流量作为 车站客流拥挤的评判指标,进一步在车站瓶颈区域实现客流拥挤状态识别。
传统的车站运营时段划分需要根据线路特征区段的断面客流变化情况,将 车站一天的运营时段分为低谷时段、高峰时段、正常时段、过渡时段等。该研 究思路表明不同运营时段的客流往往存在较大差异,线路区段断面客流无法直 接统计,传统K-均值聚类算法的计算思路是:首先需要确定聚类中心的个数(K), 并从待聚类数据集中,随机选取K个点作为初始聚类中心,进一步采用欧式距 离作为样本分类的评价指标,计算数据集中各个样本到K个初始聚类中心的距 离,筛选得到最小距离并将该样本归类到对应聚类中心,然后计算归到各个聚 类中心的样本的距离平均值,再进一步更新聚类中心的位置,直到距离平方误 差函数稳定在最小值,K-均值聚类算法具有收敛速度快、效率高等优点,然而 该算法却存在聚类中心个数确定困难,初始聚类中心选取不准确,容易导致聚 类结果陷入局部最优等缺点。
发明内容
(一)要解决的技术问题
为了克服现有技术不足,现提出一种基于改进K均值聚类算法的地铁车站 运营时段划分方法,其初始解更好,算法速度更快,且最后适应度更高。
(二)技术方案
本发明通过如下技术方案实现:本发明提出了一种基于改进K均值聚类算 法的地铁车站运营时段划分方法,包括如下步骤:1)确定聚类中心的个数K, 并从待聚类数据集中输入样本集合S,输入对象样本集合为S={x1,x2,...xn}, xi=(xi1,xi2,...xim);2)输入初始温度T、降温系数α、最低降温温度Tlowest, 马尔科夫链长度为inIteration;3)计算任意两个样本xi和xj的距离为 d(xi,xj),d(xi,xj)=[(xi1-xj1)2+(xi2-xj2)2+...+(xim-xjm)2];4)计算样本集合s中 所有样本的平均距离MeanDis(S),
Figure RE-BDA0002534405640000031
5)计算任意样本对象xi的密度Den(xi),其中
Figure RE-BDA0002534405640000032
其中f(x)为分段函数,当 MeanDis(S)-d(xi,xj)≥0,f(MeanDis(S)-d(xi,xj))=1,当 MeanDis(S)-d(xi,xj)<0时,f(MeanDis(S)-d(xi,xj))=0。进一 步,可以得到样本的密度集合为 D={den(x1),den(x2),...,den(xn)};样本集合D中,将密度最大 的样本作为第一个初始聚类中心点O1,选择密度第二大的样本作为第二个 初始聚类中心点O2,依此类推,直到满足预定的聚类数k为止;6)根 据公式
Figure RE-BDA0002534405640000033
计算距离平方和误差为SDSE(i),设定 a=1,n为样本集合中样本的个数,m为每个样本包含的属性总数,k为聚类中 心的个数,it为第i个样本的第t个属性值,nj为第j个聚类的均值;7)若 a达不到马尔科夫链长度,则将聚类中心的集合设为O={O1,O2,...,OK},其中 向量Oi=(Ji,Ci),式中Ji表示第i个聚类中心的转化后的进站人数,Ci表示第 i个聚类中心的出站人数,随机选取K个点作为初始聚类中心,将每个聚类中心 Oi最远的样本xif设为该聚类中心的最大搜索半径,聚类中心为 Onew=(rand(Ji,max(xif′1,xif1)),rand(Ci,max(xif′2,xif2))),其中 xif′1为上一次迭代距离聚类中心Oi最远样本xif′的进站人数, xif1为本次迭代距离聚类中心Oi最远样本xif的进站人数;xif′2为上 一次迭代距离聚类中心Oi最远样本xif′的出站人数,xif2为本次迭 代距离聚类中心Oi最远样本xif的出站人数;8)分别计算数据集中各个 样本到K个初始聚类中心的距离 d(xi,xj)=[(xi1-xj1)2+(xi2-xj2)2+...+(xim-xjm)2];9) 筛选得到最小距离并将该样本归类到对应聚类中心;10)计算归到各个聚类中 心的样本的距离平均值,再进一步更新聚类中心的位置,直到距离平方误差函
Figure RE-BDA0002534405640000051
n 为样本集合中样本的个数,m为每个样本包含的属性总数,k为聚类中心 的个数,it为第i个样本的第t个属性值,nj为第j个聚类的均值。
(三)有益效果
本发明相对于现有技术,具有以下有益效果:
本发明提到的一种基于改进K均值聚类算法的地铁车站运营时段划分方法 有如下有益效果:1)为克服传统K-均值聚类算法容易使结果得到局部最优的缺 点,提出基于SDSE函数的聚类个数确定方法,和基于样本密度的初始聚类中心 位置确定方法,设计基于样本密度半径的搜索策略和基于Metropolis准则的聚 类中心更新方式。
2)通过仿真实验发现,新聚类算法与传统K-均值聚类算法相比,新聚类算法 得到的初始聚类结果更好、迭代速度更快、求解精度更高、具有稳定收敛的特 性。
3)利用新K-均值聚类算法进行车站运营模式识别,得到的数据信息更全面, 更完整,可作为地铁车站运营部门新的辅助管理技术手段之一。
附图说明
图1是西直门地铁站客流特征曲线图。
图2是K-均值聚类算法流程图。
图3为SDSE变化曲线图。
图4是类聚类算法比较图。
图5是聚类结果柱状图。
图6是聚类中心效果图。
图7是各运营时段内的客流变化趋势曲线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
西直门地铁站位于北京西城区,是北京地铁2号线、4号线、13号线的汇聚 点,乘客进、出和换乘行为复杂。同时西直门地铁站点周围即有居住地(或大 学),又有就业地,在此周围居住的市民有可能就业于其他地点,在此周围就 业的市民也有可能居住于别处,因此,西直门地铁站乘客数量特征呈现双峰的 特点。
而换乘客流作为影响聚类分析的一个重要指标,需要另做考虑。由于换乘客 流不同于进出站客流可以直接统计,换乘客流需结合线网特性加以分析。本文 认为线网内的乘客熟悉线网结构,出行路径均考虑为最短路径,并使用Dijkstra 算法进行求解。进一步,西直门地铁站换乘的乘客可转化为本线的进站客流, 从而降低聚类的维度,提高聚类速度。
为进一步揭示客流数据特征,本文选取5分钟作为客流数据收集的时间间隔, 结合西直门地铁站的营业时间,可得到216个时间间隔,根据西直门地铁站换 乘客流、进、出站客流数据可以绘出客流特征曲线图(图1)。
传统K-均值聚类算法的计算思路是:首先需要确定聚类中心的个数(K), 并从待聚类数据集中,随机选取K个点作为初始聚类中心,进一步采用欧式距 离作为样本分类的评价指标,计算数据集中各个样本到K个初始聚类中心的距 离,筛选得到最小距离并将该样本归类到对应聚类中心,然后计算归到各个聚 类中心的样本的距离平均值,再进一步更新聚类中心的位置,直到距离平方误 差函数稳定在最小值,算法具体操作流程见图2,输入对象样本集合为 S={x1,x2,...xn},xi=(xi1,xi2,...xim),则样本xi与样本xj的欧式距离可以表示为:
d(xi,xj)=[(xi1-xj1)2+(xi2-xj2)2+...+(xim-xjm)2] (1)
距离平方和误差(SDSE,sum of the distance squared error)函数为:
Figure BDA0002226219000000051
上式中,n为样本集合中样本的个数,m为每个样本包含的属性总数,k为 聚类中心的个数,it为第i个样本的第t个属性值,nj为第j个聚类的均值。
传统确定聚类个数的方法有:最大最小距离法、距离度量法、密度准则法。 本发明选用基于距离平方和误差(SDSE)的方法,在不同聚类数条件下,分情 况计算各SDSE值,结合SDSE变化趋势图和实际经验,得到最合适的聚类数k。
根据2015年某月全月工作日西直门地铁站实际进出站和换乘乘客数量,选取 聚类数候选集为D={3,4,5,6,7,8,9},计算得到SDSE变化曲线图如图3。
过分析在不同聚类数下的SDSE值,可以明显看出,聚类数7、5为转折点, 较能反映分类情况,因此本文西直门地铁站216个样本数据将分为7类。
若待聚类样本数据到聚类中心的距离越小,则说明该聚类方法使得同类样本 之间的相似性越高;进一步,若归到聚类中心的样本数量越多,且该同类样本 区域内样本到聚类中心的距离越小,说明同类样本区域内的样本密度越高。根 据样本密度选取聚类中心的位置,可以避免初始聚类中心选择的随机性使得结 果陷入局部最优。基于样本密度确定初始聚类中心的具体步骤,如1到4所示:
1.按照公式(1)计算任意两个样本xi和xj的距离为d(xi,xj);
2.计算样本集合S中所有样本的平均距离MeanDis(S);
Figure BDA0002226219000000061
3.计算任意样本对象xi的密度Den(xi);
Figure BDA0002226219000000062
其中f(x)为分段函数,当MeanDis(S)-d(xi,xj)≥0, f(MeanDis(S)-d(xi,xj))=1,当MeanDis(S)-d(xi,xj)<0时, f(MeanDis(S)-d(xi,xj))=0。进一步,可以得到样本的密度集合为 D={den(x1),den(x2),...,den(xn)}。
4.样本集合D中,将密度最大的样本作为第一个初始聚类中心点O1,选择密 度第二大的样本作为第二个初始聚类中心点O2,依此类推,直到满足预定的聚 类数k为止。
基于改进的K-均值聚类算法编码及迭代设计如下:将聚类中心的集合设为 O={O1,O2,...,OK},其中向量Oi=(Ji,Ci),式中Ji表示第i个聚类中心的转化后的进站人数,Ci表示第i个聚类中心的出站人数。
为提高解迭代质量,本文提出基于样本密度半径的搜索策略。在每次迭代 中,根据公式(3)和(4)计算每个聚类中心的密度,并将每个聚类中心Oi最远的样 本xif设为该聚类中心的最大搜索半径,新的聚类中心为 Onew=(rand(Ji,max(xif'1,xif1)),rand(Ci,max(xif'2,xif2))),其中xif'1为上一次迭代距离聚类中心Oi最远 样本xif'的进站人数,xif1为本次迭代距离聚类中心Oi最远样本xif的进站人数;xif'2为 上一次迭代距离聚类中心Oi最远样本xif'的出站人数,xif2为本次迭代距离聚类中 心Oi最远样本xif的出站人数。
为克服传统K-均值聚类算法容易使结果陷入局部最优的局面,使得聚类中心 可以跳出“大山谷结构”的最低点,本文结合模拟退火算法的思想,设计基于 Metropolis更新准则的混合K-均值聚类算法,使每次迭代的聚类中心以概率的 方式更新。
Step1:
1.1输入初始温度T、降温系数α、最低降温温度Tlowest,马尔科夫链长度为inIteration;
1.2根据2.2小节步骤1-4产生初始聚类中心O,根据SDSE公式计算距离平方 和误差为SDSE(i),设定a=1;
Step2:
2.1如果a达到马尔科夫链长度,转step3;
2.2否则,根据2.3小节介绍的聚类中心更新方式产生新的聚类中心Onew,计算距离平方和误差为SDSE(j);
2.3若SDSE(j)-SDSE(i)<0,则表示新的聚类方案目标值优于初始聚类方案,则i=j; 若SDSE(j)-SDSE(i)>0,则计算exp(-(SDSE(j)-SDSE(i))/T),如果存在 exp(-(SDSE(j)-SDSE(i))/T)>rand(0,1),则以概率的形式让i=j,a=a+1,转2.1;
Step3:
3.1如果温度达到最低降温温度Tlowest,终止运算;
3.2否则T=T·α,转step2。
本发明运用改进的K-均值聚类算法(Simulated Annealing K-menas clusteringalgorithm,SAKCA)和普通K-均值聚类算法(K-means clustering algorithm,KCA)分别对西直门地铁站的运营模式进行识别。
算法的参数设置为:初始温度T=100、降温系数α=0.95、最低降温温度Tlowest=1e-8, 马尔科夫链长度为inIteration=50,r0=106
进一步,根据下式计算目标函数的适应度:
F=r0/SDSE (5)
通过比较两类算法的寻优过程发现,如图4,SAKCA算法初始解更好,算法 速度更快,且最后适应度更高,说明该算法对车站运营模式识别效果更好,聚 类效果更明显;而KCA初始解较差,经过同样的迭代次数之后,适应度值较低, 聚类效果较差。
西直门地铁站交通流特征数据的聚类结果具体效果图和各运营时段内的客流 变化趋势曲线图如如图5、图6、图7所示。图6聚类中心分别为Ⅰ(6.5,60,233), Ⅱ(42,307,699),Ⅲ(63,429,882),Ⅳ(105.5,269,874),Ⅴ(112,238, 1010),Ⅵ(153,383,1289),Ⅶ(180.5,131,794)。括号内数字分别代表样 本编号,出站人数和转化后的进站人数。
进一步分析图5和图6可知,第Ⅰ类运营时段为员工通勤阶段,第Ⅱ类运营 时段为上班高峰阶段,第Ⅲ类运营时段为市民日常出行阶段,第Ⅳ类运营时段 为午间运营阶段,第Ⅴ类运营时段为下班峰前回升阶段,第Ⅵ类运营时段为下 班高峰期,第Ⅶ类运营时段为晚间运营阶段。
由图7客流变化趋势曲线可知,各运营时段内客流变化趋势有所差异,在 第Ⅰ类运营时段和第Ⅱ类运营时段内,客流增长较为迅速,该时段内车站运营 模式识别为客流增长期;在第Ⅲ类运营时段内,整体客流量稍有回落,在第Ⅳ 类运营时段内,整体客流量较为平缓,之后的客流相对于上一时段稍有回升, 综合这三个运营时段客流特点,车站运营模式识别为客流平缓期;在第Ⅵ类运 营时段内,客流呈现一波峰的结构,车站运营模式识别为客流波峰期;在第Ⅵ 类运营时段内,客流开始回落,车站运营模式识别为客流回落期。
因此,运营时段的划分和各运营时段内客流变化趋势可作为车站安全运营 管理的一个模块,辅助车站决策者做出决策,提高车站整体服务水平。
上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发 明的构思和范围进行限定。在不脱离本发明设计构思的前提下,本领域普通人 员对本发明的技术方案做出的各种变型和改进,均应落入到本发明的保护范围, 本发明请求保护的技术内容,已经全部记载在权利要求书中。

Claims (1)

1.一种基于改进K均值聚类算法的地铁车站运营时段划分方法,其特征在于:包括如下步骤:1)确定聚类中心的个数K,并从待聚类数据集中输入样本集合S,输入对象样本集合为S={x1,x2,...xn},xi=(xi1,xi2,...xim);2)输入初始温度T、降温系数α、最低降温温度Tlowest,马尔科夫链长度为inIteration;3)计算任意两个样本xi和xj的距离为d(xi,xj),d(xi,xj)=[(xi1-xj1)2+(xi2-xj2)2+...+(xim-xjm)2];4)计算样本集合S中所有样本的平均距离MeanDis(S),
Figure FDA0002226218990000011
5)计算任意样本对象xi的密度Den(xi),其中
Figure FDA0002226218990000012
其中f(x)为分段函数,当MeanDis(S)-d(xi,xj)≥0,f(MeanDis(S)-d(xi,xj))=1,当MeanDis(S)-d(xi,xj)<0时,f(MeanDis(S)-d(xi,xj))=0。进一步,可以得到样本的密度集合为D={den(x1),den(x2),...,den(xn)};样本集合D中,将密度最大的样本作为第一个初始聚类中心点O1,选择密度第二大的样本作为第二个初始聚类中心点O2,依此类推,直到满足预定的聚类数k为止;6)根据公式
Figure FDA0002226218990000013
计算距离平方和误差为SDSE(i),设定a=1,n为样本集合中样本的个数,m为每个样本包含的属性总数,k为聚类中心的个数,it为第i个样本的第t个属性值,nj为第j个聚类的均值;7)若a达不到马尔科夫链长度,则将聚类中心的集合设为O={O1,O2,...,OK},其中向量Oi=(Ji,Ci),式中Ji表示第i个聚类中心的转化后的进站人数,Ci表示第i个聚类中心的出站人数,随机选取K个点作为初始聚类中心,将每个聚类中心Oi最远的样本xif设为该聚类中心的最大搜索半径,聚类中心为Onew=(rand(Ji,max(xif'1,xif1)),rand(Ci,max(xif'2,xif2))),其中xif'1为上一次迭代距离聚类中心Oi最远样本xif'的进站人数,xif1为本次迭代距离聚类中心Oi最远样本xif的进站人数;xif'2为上一次迭代距离聚类中心Oi最远样本xif'的出站人数,xif2为本次迭代距离聚类中心Oi最远样本xif的出站人数;8)分别计算数据集中各个样本到K个初始聚类中心的距离
Figure FDA0002226218990000014
9)筛选得到最小距离并将该样本归类到对应聚类中心;10)计算归到各个聚类中心的样本的距离平均值,再进一步更新聚类中心的位置,直到距离平方误差函数稳定在最小值,距离平方和误差函数为
Figure FDA0002226218990000021
n为样本集合中样本的个数,m为每个样本包含的属性总数,k为聚类中心的个数,it为第i个样本的第t个属性值,nj为第j个聚类的均值。
CN201910952490.8A 2019-10-09 2019-10-09 基于改进k均值聚类算法的地铁车站运营时段划分方法 Active CN111476449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910952490.8A CN111476449B (zh) 2019-10-09 2019-10-09 基于改进k均值聚类算法的地铁车站运营时段划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910952490.8A CN111476449B (zh) 2019-10-09 2019-10-09 基于改进k均值聚类算法的地铁车站运营时段划分方法

Publications (2)

Publication Number Publication Date
CN111476449A true CN111476449A (zh) 2020-07-31
CN111476449B CN111476449B (zh) 2022-05-24

Family

ID=71744974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910952490.8A Active CN111476449B (zh) 2019-10-09 2019-10-09 基于改进k均值聚类算法的地铁车站运营时段划分方法

Country Status (1)

Country Link
CN (1) CN111476449B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591992A (zh) * 2021-08-02 2021-11-02 中国民用航空飞行学院 一种燃气涡轮发动机的孔探智能检测辅助系统及方法
CN114439473A (zh) * 2020-11-03 2022-05-06 中国石油天然气股份有限公司 油田开发阶段的划分处理方法及装置
CN114912854A (zh) * 2022-07-18 2022-08-16 通号城市轨道交通技术有限公司 地铁列车运行调整方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049636A (zh) * 2012-09-12 2013-04-17 江苏大学 可能模糊k调和均值聚类方法及系统
CN104376057A (zh) * 2014-11-06 2015-02-25 南京邮电大学 一种基于最大最小距离和K-means的自适应聚类方法
CN110297875A (zh) * 2019-05-15 2019-10-01 北京邮电大学 一种评估城市各功能区之间联系需求紧密度的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049636A (zh) * 2012-09-12 2013-04-17 江苏大学 可能模糊k调和均值聚类方法及系统
CN104376057A (zh) * 2014-11-06 2015-02-25 南京邮电大学 一种基于最大最小距离和K-means的自适应聚类方法
CN110297875A (zh) * 2019-05-15 2019-10-01 北京邮电大学 一种评估城市各功能区之间联系需求紧密度的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUSSAIN 等: "A k-means based co-clustering (kCC) algorithm for sparse, high dimensional data", 《EXPERT SYSTEMS WITH APPLICATIONS》 *
张素洁 等: "最优聚类个数和初始聚类中心点选取算法研究", 《计算机应用研究》 *
陈慧萍: "基于模拟退火思想的优化k-means算法", 《河海大学常州分校学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114439473A (zh) * 2020-11-03 2022-05-06 中国石油天然气股份有限公司 油田开发阶段的划分处理方法及装置
CN113591992A (zh) * 2021-08-02 2021-11-02 中国民用航空飞行学院 一种燃气涡轮发动机的孔探智能检测辅助系统及方法
CN114912854A (zh) * 2022-07-18 2022-08-16 通号城市轨道交通技术有限公司 地铁列车运行调整方法、装置、电子设备及存储介质
CN114912854B (zh) * 2022-07-18 2022-11-29 通号城市轨道交通技术有限公司 地铁列车运行调整方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111476449B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN111476449B (zh) 基于改进k均值聚类算法的地铁车站运营时段划分方法
WO2023056696A1 (zh) 基于循环神经网络的城市轨道交通短时客流预测方法
CN110503245B (zh) 一种机场航班大面积延误风险的预测方法
CN109785618B (zh) 一种基于组合逻辑的短时交通流预测方法
CN109191896A (zh) 个性化停车位推荐方法和系统
CN108492557A (zh) 基于多模型融合的高速公路拥堵等级判断方法
CN110836675B (zh) 一种基于决策树的自动驾驶搜索决策方法
CN105956621B (zh) 一种基于进化欠抽样集成学习的航班延误预警方法
CN113159364A (zh) 一种大型交通场站的客流预测方法及系统
CN113344254A (zh) 一种基于LSTM-LightGBM-KNN的高速公路服务区车流预测方法
CN108665703B (zh) 基于宏观基本图的路网状态转换点判别方法
CN110085026A (zh) 一种基于聚类分析和马尔科夫模型的交通状态预测方法
CN111145546B (zh) 一种城市全域交通态势分析方法
CN109389305B (zh) 一种城市轨道交通区间乘客交通流状态判别方法
Chen et al. Discrimination and prediction of traffic congestion states of urban road network based on spatio-temporal correlation
CN112052895A (zh) 一种纯电动汽车驾驶风格聚类方法
CN108304974A (zh) 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法
CN110516871A (zh) 一种基于模糊滚动时域控制策略的动态车辆路径优化方法
CN111768622A (zh) 一种基于改进灰狼算法的短时交通量预测方法
CN111907523B (zh) 一种基于模糊推理的车辆跟驰寻优控制方法
CN115730635A (zh) 一种电动汽车负荷预测方法
CN107092988B (zh) 一种专用道公交车辆驻站时间预测方法
CN111626582A (zh) 一种城市交通出行问题热点分级方法及装置
CN106845814A (zh) 一种城市轨道交通运营时段划分方法
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant