CN111476449A - 一种基于改进k均值聚类算法的地铁车站运营时段划分方法 - Google Patents
一种基于改进k均值聚类算法的地铁车站运营时段划分方法 Download PDFInfo
- Publication number
- CN111476449A CN111476449A CN201910952490.8A CN201910952490A CN111476449A CN 111476449 A CN111476449 A CN 111476449A CN 201910952490 A CN201910952490 A CN 201910952490A CN 111476449 A CN111476449 A CN 111476449A
- Authority
- CN
- China
- Prior art keywords
- sample
- clustering
- distance
- samples
- center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000003064 k means clustering Methods 0.000 title claims abstract description 20
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 238000001816 cooling Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Train Traffic Observation, Control, And Security (AREA)
Abstract
Description
技术领域
本发明涉及地铁运营技术领域,具体涉及一种基于改进K均值聚类算法的 地铁车站运营时段划分方法。
背景技术
地铁车站作为地铁网络的节点,各车站运营管理效率将联动影响整个网 络的运输效率。目前,从乘客客流特征角度分析各车站的运营管理差异,对了 解车站特点和评价地铁网络运行效率具有重要意义。
自动售检票系统(Automatic Fare Collection,AFC)目前已在各大城市的 城市轨道系统中应用,运用AFC系统收集到的乘客数据信息更全面,且更能反 映乘客行为特点。基于该信息技术,结合机器学习算法,可从海量乘客数据信 息中挖掘筛选出对车站管理有益的数据精华。基于该思想,衍生出地铁车站分 类和地铁车站运营时段划分等研究方向。进一步,沈吟东在《基于K-means聚 类算法的公交运营时段分析》中运用非监督式机器学习算法,K-means聚类算法, 实现公交运营时段划分,在聚类过程中借鉴三角不等式的原理,改进了聚类距 离的计算公式,进一步减少了不必要的计算过程,降低了计算的复杂性;孙亚 在《数据挖掘算法在交通状态量化及识别的应用》中借鉴模式识别理论知识, 运用数据挖掘技术提取交通流数据,进一步实现道路实际交通状态的判定;余 丽杰在《基于谱聚类的城市轨道站点分类方法》中通过比较NJW算法和SM算法 在城市轨道站点划分的运用,得到NJW算法更能抓住各地铁车站的客流信息进 行站点分类;王超在《基于轨迹谱聚类的终端区盛行交通流识别方法》中从飞 机飞行轨迹样本数据集入手,运用谱聚类算法对盛行交通流进行识别;陈艳艳 在《综合交通枢纽客流拥挤实时评价方法》中选用车站客流密度和客流量作为 车站客流拥挤的评判指标,进一步在车站瓶颈区域实现客流拥挤状态识别。
传统的车站运营时段划分需要根据线路特征区段的断面客流变化情况,将 车站一天的运营时段分为低谷时段、高峰时段、正常时段、过渡时段等。该研 究思路表明不同运营时段的客流往往存在较大差异,线路区段断面客流无法直 接统计,传统K-均值聚类算法的计算思路是:首先需要确定聚类中心的个数(K), 并从待聚类数据集中,随机选取K个点作为初始聚类中心,进一步采用欧式距 离作为样本分类的评价指标,计算数据集中各个样本到K个初始聚类中心的距 离,筛选得到最小距离并将该样本归类到对应聚类中心,然后计算归到各个聚 类中心的样本的距离平均值,再进一步更新聚类中心的位置,直到距离平方误 差函数稳定在最小值,K-均值聚类算法具有收敛速度快、效率高等优点,然而 该算法却存在聚类中心个数确定困难,初始聚类中心选取不准确,容易导致聚 类结果陷入局部最优等缺点。
发明内容
(一)要解决的技术问题
为了克服现有技术不足,现提出一种基于改进K均值聚类算法的地铁车站 运营时段划分方法,其初始解更好,算法速度更快,且最后适应度更高。
(二)技术方案
本发明通过如下技术方案实现:本发明提出了一种基于改进K均值聚类算 法的地铁车站运营时段划分方法,包括如下步骤:1)确定聚类中心的个数K, 并从待聚类数据集中输入样本集合S,输入对象样本集合为S={x1,x2,...xn}, xi=(xi1,xi2,...xim);2)输入初始温度T、降温系数α、最低降温温度Tlowest, 马尔科夫链长度为inIteration;3)计算任意两个样本xi和xj的距离为 d(xi,xj),d(xi,xj)=[(xi1-xj1)2+(xi2-xj2)2+...+(xim-xjm)2];4)计算样本集合s中 所有样本的平均距离MeanDis(S), 5)计算任意样本对象xi的密度Den(xi),其中 其中f(x)为分段函数,当 MeanDis(S)-d(xi,xj)≥0,f(MeanDis(S)-d(xi,xj))=1,当 MeanDis(S)-d(xi,xj)<0时,f(MeanDis(S)-d(xi,xj))=0。进一 步,可以得到样本的密度集合为 D={den(x1),den(x2),...,den(xn)};样本集合D中,将密度最大 的样本作为第一个初始聚类中心点O1,选择密度第二大的样本作为第二个 初始聚类中心点O2,依此类推,直到满足预定的聚类数k为止;6)根 据公式计算距离平方和误差为SDSE(i),设定 a=1,n为样本集合中样本的个数,m为每个样本包含的属性总数,k为聚类中 心的个数,it为第i个样本的第t个属性值,nj为第j个聚类的均值;7)若 a达不到马尔科夫链长度,则将聚类中心的集合设为O={O1,O2,...,OK},其中 向量Oi=(Ji,Ci),式中Ji表示第i个聚类中心的转化后的进站人数,Ci表示第 i个聚类中心的出站人数,随机选取K个点作为初始聚类中心,将每个聚类中心 Oi最远的样本xif设为该聚类中心的最大搜索半径,聚类中心为 Onew=(rand(Ji,max(xif′1,xif1)),rand(Ci,max(xif′2,xif2))),其中 xif′1为上一次迭代距离聚类中心Oi最远样本xif′的进站人数, xif1为本次迭代距离聚类中心Oi最远样本xif的进站人数;xif′2为上 一次迭代距离聚类中心Oi最远样本xif′的出站人数,xif2为本次迭 代距离聚类中心Oi最远样本xif的出站人数;8)分别计算数据集中各个 样本到K个初始聚类中心的距离 d(xi,xj)=[(xi1-xj1)2+(xi2-xj2)2+...+(xim-xjm)2];9) 筛选得到最小距离并将该样本归类到对应聚类中心;10)计算归到各个聚类中 心的样本的距离平均值,再进一步更新聚类中心的位置,直到距离平方误差函 n 为样本集合中样本的个数,m为每个样本包含的属性总数,k为聚类中心 的个数,it为第i个样本的第t个属性值,nj为第j个聚类的均值。
(三)有益效果
本发明相对于现有技术,具有以下有益效果:
本发明提到的一种基于改进K均值聚类算法的地铁车站运营时段划分方法 有如下有益效果:1)为克服传统K-均值聚类算法容易使结果得到局部最优的缺 点,提出基于SDSE函数的聚类个数确定方法,和基于样本密度的初始聚类中心 位置确定方法,设计基于样本密度半径的搜索策略和基于Metropolis准则的聚 类中心更新方式。
2)通过仿真实验发现,新聚类算法与传统K-均值聚类算法相比,新聚类算法 得到的初始聚类结果更好、迭代速度更快、求解精度更高、具有稳定收敛的特 性。
3)利用新K-均值聚类算法进行车站运营模式识别,得到的数据信息更全面, 更完整,可作为地铁车站运营部门新的辅助管理技术手段之一。
附图说明
图1是西直门地铁站客流特征曲线图。
图2是K-均值聚类算法流程图。
图3为SDSE变化曲线图。
图4是类聚类算法比较图。
图5是聚类结果柱状图。
图6是聚类中心效果图。
图7是各运营时段内的客流变化趋势曲线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
西直门地铁站位于北京西城区,是北京地铁2号线、4号线、13号线的汇聚 点,乘客进、出和换乘行为复杂。同时西直门地铁站点周围即有居住地(或大 学),又有就业地,在此周围居住的市民有可能就业于其他地点,在此周围就 业的市民也有可能居住于别处,因此,西直门地铁站乘客数量特征呈现双峰的 特点。
而换乘客流作为影响聚类分析的一个重要指标,需要另做考虑。由于换乘客 流不同于进出站客流可以直接统计,换乘客流需结合线网特性加以分析。本文 认为线网内的乘客熟悉线网结构,出行路径均考虑为最短路径,并使用Dijkstra 算法进行求解。进一步,西直门地铁站换乘的乘客可转化为本线的进站客流, 从而降低聚类的维度,提高聚类速度。
为进一步揭示客流数据特征,本文选取5分钟作为客流数据收集的时间间隔, 结合西直门地铁站的营业时间,可得到216个时间间隔,根据西直门地铁站换 乘客流、进、出站客流数据可以绘出客流特征曲线图(图1)。
传统K-均值聚类算法的计算思路是:首先需要确定聚类中心的个数(K), 并从待聚类数据集中,随机选取K个点作为初始聚类中心,进一步采用欧式距 离作为样本分类的评价指标,计算数据集中各个样本到K个初始聚类中心的距 离,筛选得到最小距离并将该样本归类到对应聚类中心,然后计算归到各个聚 类中心的样本的距离平均值,再进一步更新聚类中心的位置,直到距离平方误 差函数稳定在最小值,算法具体操作流程见图2,输入对象样本集合为 S={x1,x2,...xn},xi=(xi1,xi2,...xim),则样本xi与样本xj的欧式距离可以表示为:
d(xi,xj)=[(xi1-xj1)2+(xi2-xj2)2+...+(xim-xjm)2] (1)
距离平方和误差(SDSE,sum of the distance squared error)函数为:
上式中,n为样本集合中样本的个数,m为每个样本包含的属性总数,k为 聚类中心的个数,it为第i个样本的第t个属性值,nj为第j个聚类的均值。
传统确定聚类个数的方法有:最大最小距离法、距离度量法、密度准则法。 本发明选用基于距离平方和误差(SDSE)的方法,在不同聚类数条件下,分情 况计算各SDSE值,结合SDSE变化趋势图和实际经验,得到最合适的聚类数k。
根据2015年某月全月工作日西直门地铁站实际进出站和换乘乘客数量,选取 聚类数候选集为D={3,4,5,6,7,8,9},计算得到SDSE变化曲线图如图3。
过分析在不同聚类数下的SDSE值,可以明显看出,聚类数7、5为转折点, 较能反映分类情况,因此本文西直门地铁站216个样本数据将分为7类。
若待聚类样本数据到聚类中心的距离越小,则说明该聚类方法使得同类样本 之间的相似性越高;进一步,若归到聚类中心的样本数量越多,且该同类样本 区域内样本到聚类中心的距离越小,说明同类样本区域内的样本密度越高。根 据样本密度选取聚类中心的位置,可以避免初始聚类中心选择的随机性使得结 果陷入局部最优。基于样本密度确定初始聚类中心的具体步骤,如1到4所示:
1.按照公式(1)计算任意两个样本xi和xj的距离为d(xi,xj);
2.计算样本集合S中所有样本的平均距离MeanDis(S);
3.计算任意样本对象xi的密度Den(xi);
其中f(x)为分段函数,当MeanDis(S)-d(xi,xj)≥0, f(MeanDis(S)-d(xi,xj))=1,当MeanDis(S)-d(xi,xj)<0时, f(MeanDis(S)-d(xi,xj))=0。进一步,可以得到样本的密度集合为 D={den(x1),den(x2),...,den(xn)}。
4.样本集合D中,将密度最大的样本作为第一个初始聚类中心点O1,选择密 度第二大的样本作为第二个初始聚类中心点O2,依此类推,直到满足预定的聚 类数k为止。
基于改进的K-均值聚类算法编码及迭代设计如下:将聚类中心的集合设为 O={O1,O2,...,OK},其中向量Oi=(Ji,Ci),式中Ji表示第i个聚类中心的转化后的进站人数,Ci表示第i个聚类中心的出站人数。
为提高解迭代质量,本文提出基于样本密度半径的搜索策略。在每次迭代 中,根据公式(3)和(4)计算每个聚类中心的密度,并将每个聚类中心Oi最远的样 本xif设为该聚类中心的最大搜索半径,新的聚类中心为 Onew=(rand(Ji,max(xif'1,xif1)),rand(Ci,max(xif'2,xif2))),其中xif'1为上一次迭代距离聚类中心Oi最远 样本xif'的进站人数,xif1为本次迭代距离聚类中心Oi最远样本xif的进站人数;xif'2为 上一次迭代距离聚类中心Oi最远样本xif'的出站人数,xif2为本次迭代距离聚类中 心Oi最远样本xif的出站人数。
为克服传统K-均值聚类算法容易使结果陷入局部最优的局面,使得聚类中心 可以跳出“大山谷结构”的最低点,本文结合模拟退火算法的思想,设计基于 Metropolis更新准则的混合K-均值聚类算法,使每次迭代的聚类中心以概率的 方式更新。
Step1:
1.1输入初始温度T、降温系数α、最低降温温度Tlowest,马尔科夫链长度为inIteration;
1.2根据2.2小节步骤1-4产生初始聚类中心O,根据SDSE公式计算距离平方 和误差为SDSE(i),设定a=1;
Step2:
2.1如果a达到马尔科夫链长度,转step3;
2.2否则,根据2.3小节介绍的聚类中心更新方式产生新的聚类中心Onew,计算距离平方和误差为SDSE(j);
2.3若SDSE(j)-SDSE(i)<0,则表示新的聚类方案目标值优于初始聚类方案,则i=j; 若SDSE(j)-SDSE(i)>0,则计算exp(-(SDSE(j)-SDSE(i))/T),如果存在 exp(-(SDSE(j)-SDSE(i))/T)>rand(0,1),则以概率的形式让i=j,a=a+1,转2.1;
Step3:
3.1如果温度达到最低降温温度Tlowest,终止运算;
3.2否则T=T·α,转step2。
本发明运用改进的K-均值聚类算法(Simulated Annealing K-menas clusteringalgorithm,SAKCA)和普通K-均值聚类算法(K-means clustering algorithm,KCA)分别对西直门地铁站的运营模式进行识别。
算法的参数设置为:初始温度T=100、降温系数α=0.95、最低降温温度Tlowest=1e-8, 马尔科夫链长度为inIteration=50,r0=106;
进一步,根据下式计算目标函数的适应度:
F=r0/SDSE (5)
通过比较两类算法的寻优过程发现,如图4,SAKCA算法初始解更好,算法 速度更快,且最后适应度更高,说明该算法对车站运营模式识别效果更好,聚 类效果更明显;而KCA初始解较差,经过同样的迭代次数之后,适应度值较低, 聚类效果较差。
西直门地铁站交通流特征数据的聚类结果具体效果图和各运营时段内的客流 变化趋势曲线图如如图5、图6、图7所示。图6聚类中心分别为Ⅰ(6.5,60,233), Ⅱ(42,307,699),Ⅲ(63,429,882),Ⅳ(105.5,269,874),Ⅴ(112,238, 1010),Ⅵ(153,383,1289),Ⅶ(180.5,131,794)。括号内数字分别代表样 本编号,出站人数和转化后的进站人数。
进一步分析图5和图6可知,第Ⅰ类运营时段为员工通勤阶段,第Ⅱ类运营 时段为上班高峰阶段,第Ⅲ类运营时段为市民日常出行阶段,第Ⅳ类运营时段 为午间运营阶段,第Ⅴ类运营时段为下班峰前回升阶段,第Ⅵ类运营时段为下 班高峰期,第Ⅶ类运营时段为晚间运营阶段。
由图7客流变化趋势曲线可知,各运营时段内客流变化趋势有所差异,在 第Ⅰ类运营时段和第Ⅱ类运营时段内,客流增长较为迅速,该时段内车站运营 模式识别为客流增长期;在第Ⅲ类运营时段内,整体客流量稍有回落,在第Ⅳ 类运营时段内,整体客流量较为平缓,之后的客流相对于上一时段稍有回升, 综合这三个运营时段客流特点,车站运营模式识别为客流平缓期;在第Ⅵ类运 营时段内,客流呈现一波峰的结构,车站运营模式识别为客流波峰期;在第Ⅵ 类运营时段内,客流开始回落,车站运营模式识别为客流回落期。
因此,运营时段的划分和各运营时段内客流变化趋势可作为车站安全运营 管理的一个模块,辅助车站决策者做出决策,提高车站整体服务水平。
上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发 明的构思和范围进行限定。在不脱离本发明设计构思的前提下,本领域普通人 员对本发明的技术方案做出的各种变型和改进,均应落入到本发明的保护范围, 本发明请求保护的技术内容,已经全部记载在权利要求书中。
Claims (1)
1.一种基于改进K均值聚类算法的地铁车站运营时段划分方法,其特征在于:包括如下步骤:1)确定聚类中心的个数K,并从待聚类数据集中输入样本集合S,输入对象样本集合为S={x1,x2,...xn},xi=(xi1,xi2,...xim);2)输入初始温度T、降温系数α、最低降温温度Tlowest,马尔科夫链长度为inIteration;3)计算任意两个样本xi和xj的距离为d(xi,xj),d(xi,xj)=[(xi1-xj1)2+(xi2-xj2)2+...+(xim-xjm)2];4)计算样本集合S中所有样本的平均距离MeanDis(S),5)计算任意样本对象xi的密度Den(xi),其中其中f(x)为分段函数,当MeanDis(S)-d(xi,xj)≥0,f(MeanDis(S)-d(xi,xj))=1,当MeanDis(S)-d(xi,xj)<0时,f(MeanDis(S)-d(xi,xj))=0。进一步,可以得到样本的密度集合为D={den(x1),den(x2),...,den(xn)};样本集合D中,将密度最大的样本作为第一个初始聚类中心点O1,选择密度第二大的样本作为第二个初始聚类中心点O2,依此类推,直到满足预定的聚类数k为止;6)根据公式计算距离平方和误差为SDSE(i),设定a=1,n为样本集合中样本的个数,m为每个样本包含的属性总数,k为聚类中心的个数,it为第i个样本的第t个属性值,nj为第j个聚类的均值;7)若a达不到马尔科夫链长度,则将聚类中心的集合设为O={O1,O2,...,OK},其中向量Oi=(Ji,Ci),式中Ji表示第i个聚类中心的转化后的进站人数,Ci表示第i个聚类中心的出站人数,随机选取K个点作为初始聚类中心,将每个聚类中心Oi最远的样本xif设为该聚类中心的最大搜索半径,聚类中心为Onew=(rand(Ji,max(xif'1,xif1)),rand(Ci,max(xif'2,xif2))),其中xif'1为上一次迭代距离聚类中心Oi最远样本xif'的进站人数,xif1为本次迭代距离聚类中心Oi最远样本xif的进站人数;xif'2为上一次迭代距离聚类中心Oi最远样本xif'的出站人数,xif2为本次迭代距离聚类中心Oi最远样本xif的出站人数;8)分别计算数据集中各个样本到K个初始聚类中心的距离9)筛选得到最小距离并将该样本归类到对应聚类中心;10)计算归到各个聚类中心的样本的距离平均值,再进一步更新聚类中心的位置,直到距离平方误差函数稳定在最小值,距离平方和误差函数为n为样本集合中样本的个数,m为每个样本包含的属性总数,k为聚类中心的个数,it为第i个样本的第t个属性值,nj为第j个聚类的均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910952490.8A CN111476449B (zh) | 2019-10-09 | 2019-10-09 | 基于改进k均值聚类算法的地铁车站运营时段划分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910952490.8A CN111476449B (zh) | 2019-10-09 | 2019-10-09 | 基于改进k均值聚类算法的地铁车站运营时段划分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476449A true CN111476449A (zh) | 2020-07-31 |
CN111476449B CN111476449B (zh) | 2022-05-24 |
Family
ID=71744974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910952490.8A Active CN111476449B (zh) | 2019-10-09 | 2019-10-09 | 基于改进k均值聚类算法的地铁车站运营时段划分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476449B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591992A (zh) * | 2021-08-02 | 2021-11-02 | 中国民用航空飞行学院 | 一种燃气涡轮发动机的孔探智能检测辅助系统及方法 |
CN114439473A (zh) * | 2020-11-03 | 2022-05-06 | 中国石油天然气股份有限公司 | 油田开发阶段的划分处理方法及装置 |
CN114912854A (zh) * | 2022-07-18 | 2022-08-16 | 通号城市轨道交通技术有限公司 | 地铁列车运行调整方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049636A (zh) * | 2012-09-12 | 2013-04-17 | 江苏大学 | 可能模糊k调和均值聚类方法及系统 |
CN104376057A (zh) * | 2014-11-06 | 2015-02-25 | 南京邮电大学 | 一种基于最大最小距离和K-means的自适应聚类方法 |
CN110297875A (zh) * | 2019-05-15 | 2019-10-01 | 北京邮电大学 | 一种评估城市各功能区之间联系需求紧密度的方法和装置 |
-
2019
- 2019-10-09 CN CN201910952490.8A patent/CN111476449B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049636A (zh) * | 2012-09-12 | 2013-04-17 | 江苏大学 | 可能模糊k调和均值聚类方法及系统 |
CN104376057A (zh) * | 2014-11-06 | 2015-02-25 | 南京邮电大学 | 一种基于最大最小距离和K-means的自适应聚类方法 |
CN110297875A (zh) * | 2019-05-15 | 2019-10-01 | 北京邮电大学 | 一种评估城市各功能区之间联系需求紧密度的方法和装置 |
Non-Patent Citations (3)
Title |
---|
HUSSAIN 等: "A k-means based co-clustering (kCC) algorithm for sparse, high dimensional data", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
张素洁 等: "最优聚类个数和初始聚类中心点选取算法研究", 《计算机应用研究》 * |
陈慧萍: "基于模拟退火思想的优化k-means算法", 《河海大学常州分校学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114439473A (zh) * | 2020-11-03 | 2022-05-06 | 中国石油天然气股份有限公司 | 油田开发阶段的划分处理方法及装置 |
CN113591992A (zh) * | 2021-08-02 | 2021-11-02 | 中国民用航空飞行学院 | 一种燃气涡轮发动机的孔探智能检测辅助系统及方法 |
CN114912854A (zh) * | 2022-07-18 | 2022-08-16 | 通号城市轨道交通技术有限公司 | 地铁列车运行调整方法、装置、电子设备及存储介质 |
CN114912854B (zh) * | 2022-07-18 | 2022-11-29 | 通号城市轨道交通技术有限公司 | 地铁列车运行调整方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111476449B (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476449B (zh) | 基于改进k均值聚类算法的地铁车站运营时段划分方法 | |
WO2023056696A1 (zh) | 基于循环神经网络的城市轨道交通短时客流预测方法 | |
CN110503245B (zh) | 一种机场航班大面积延误风险的预测方法 | |
CN109785618B (zh) | 一种基于组合逻辑的短时交通流预测方法 | |
CN109191896A (zh) | 个性化停车位推荐方法和系统 | |
CN108492557A (zh) | 基于多模型融合的高速公路拥堵等级判断方法 | |
CN110836675B (zh) | 一种基于决策树的自动驾驶搜索决策方法 | |
CN105956621B (zh) | 一种基于进化欠抽样集成学习的航班延误预警方法 | |
CN113159364A (zh) | 一种大型交通场站的客流预测方法及系统 | |
CN113344254A (zh) | 一种基于LSTM-LightGBM-KNN的高速公路服务区车流预测方法 | |
CN108665703B (zh) | 基于宏观基本图的路网状态转换点判别方法 | |
CN110085026A (zh) | 一种基于聚类分析和马尔科夫模型的交通状态预测方法 | |
CN111145546B (zh) | 一种城市全域交通态势分析方法 | |
CN109389305B (zh) | 一种城市轨道交通区间乘客交通流状态判别方法 | |
Chen et al. | Discrimination and prediction of traffic congestion states of urban road network based on spatio-temporal correlation | |
CN112052895A (zh) | 一种纯电动汽车驾驶风格聚类方法 | |
CN108304974A (zh) | 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法 | |
CN110516871A (zh) | 一种基于模糊滚动时域控制策略的动态车辆路径优化方法 | |
CN111768622A (zh) | 一种基于改进灰狼算法的短时交通量预测方法 | |
CN111907523B (zh) | 一种基于模糊推理的车辆跟驰寻优控制方法 | |
CN115730635A (zh) | 一种电动汽车负荷预测方法 | |
CN107092988B (zh) | 一种专用道公交车辆驻站时间预测方法 | |
CN111626582A (zh) | 一种城市交通出行问题热点分级方法及装置 | |
CN106845814A (zh) | 一种城市轨道交通运营时段划分方法 | |
CN104468276B (zh) | 基于随机抽样多分类器的网络流量识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |