CN110175656B

CN110175656B - 基于城市群白货流量的提高列车编组效率的城市聚类模型

Info

Publication number: CN110175656B
Application number: CN201910479120.7A
Authority: CN
Inventors: 冀振燕; 宋晓军; 陈诚; 皮怀雨; 聂泽姝
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2021-08-31
Anticipated expiration: 2039-06-04
Also published as: CN110175656A

Abstract

本发明涉及基于城市群白货流量的提高列车编组效率的城市聚类模型。该城市聚类模型通过聚类算法找出热点区域对，得到白货运量较大的运输区间，从而为铁路列车编组和开行固定班列提供数据支持。首先利用k‑means聚类算法，使用经纬度输入算法，可以得到彼此之间距离较近的城市簇；然后从历史数据中取出所有的开行路线并将它们归类到对应的城市簇对中，并可得到城市簇之间的距离和吨数；最后通过一定的条件过滤得到符合要求的城市簇，即可以开行的班列。目前算法设置的距离为大于800千米，吨数大于100万吨，聚类得到的城市簇数量可以手动调节，通过观察得到较好的类别数。

Description

基于城市群白货流量的提高列车编组效率的城市聚类模型

技术领域

本发明涉及聚类系统的原型聚类算法和经纬度算法，提出了一种基于城市群白货流量的提高列车编组效率的城市聚类模型。

背景技术

本发明为了铁路运输的实际应用需求——对城市群白货流向的分析，融合了原型聚类算法和经纬度距离算法等，建立了基于城市群白货流量的提高列车编组效率的城市聚类模型。该模型目的是将距离较近城市根据发送吨数或到达吨数聚集成一个城市簇，对于开行固定货运班列、提高列车编组效率有重要参考价值。城市聚类可以得到城市簇，然后通过筛选热门城市簇对，依托我国目前重点推进的“五纵四横”运输通道，优化铁路白货物流运输体系。

发明内容

本发明引入了原型聚类算法和经纬度距离算法。

上述模型包含了如下步骤：

(1)读取城市经纬度；

(2)输入k-means聚类算法；

(3)计算城市簇之间的距离；

(4)按距离过滤城市簇对；

(5)计算城市簇之间的白货流量；

(6)按流量吨数过滤城市簇对。

具体步骤如附图1所示。

步骤具体说明如下：

为了得到热点区域，先要找到城市密度较大的区域，以这些区域为基础，寻找区域间的热门线路。当区域间的货运量和货运距离达到一定要求时，这样的区域对包含的两个区域则为满足条件的热点区域。在地图上，城市的中心用经纬度表示，每个城市都有自己特定的经纬度。距离越近的城市，对应经度和纬度之间的差值的绝对值之和越小。利用k-means聚类算法，使用经纬度输入算法，则可以得到彼此之间距离较近的城市簇。城市簇之间的距离可以通过经纬度来计算。

计算出城市簇之后，需要计算城市簇之间所有的开行路线。此时应该从历史数据中取出所有的开行路线，然后将他们归类到对应的城市簇对中。这样就可以得到城市簇两两之间所有的开行路线情况，由此可计算出城市簇之间的发送和到达吨数。

得到城市簇之间的距离和吨数之后，则可以通过一定的条件过滤得到符合要求的城市簇，即可以开行的班列。目前算法设置的距离为大于800千米，吨数大于100万吨，聚类得到的城市簇数量可以手动调节，通过观察得到较好的类别数。

附图说明

附图1是基于城市群白货流量的提高列车编组效率的城市聚类模型的流程图。

附图2是设置k＝2时对数据样例进行聚类的聚类过程和最终聚类结果示意图，聚类模型是迭代式推进的，直到相邻迭代差值达到一阈值或迭代次数达到阈值停止。

附图3是传统的k-means聚类算法的流程图。

附图4是对给定城市的城市群聚类结果，输入城市的经纬度表示位置，预设K个城市簇中心，利用聚类迭代到最终结果。

附图5展示了K值设置为50时，发送城市簇至到达城市簇总吨数大于100万吨且运输距离大于800千米的聚类结果。

附图6展示了K值设置为30时，发送城市簇至到达城市簇总吨数大于100万吨且运输距离大于800千米的聚类结果。

附图7展示了K值设置为20时，发送城市簇至到达城市簇总吨数大于100万吨且运输距离大于800千米的聚类结果。

具体实施方式

根据说明书中的方法介绍，实施基于城市群白货流量的提高列车编组效率的城市聚类模型需要如下步骤：

(1)读取城市经纬度

①获取接口

②输入城市名称

③获取经纬度

(2)输入k-means聚类算法

①预设k值

②计算簇均值作为聚类中心

③优化迭代

(3)计算城市簇之间的距离

(4)按距离过滤城市簇对

①设置距离条件

②筛选过滤

(5)计算城市簇之间的白货流量

(6)按流量吨数过滤城市簇对

①设置吨数条件

②筛选过滤

除了说明书中的步骤外，还需要对模型结果进行评价，以保证结果的可靠性。

本模型中核心的算法是原型聚类算法。

原型聚类也称为“基于原型的聚类”，此类算法假设聚类结构能通过一组原型刻画，在现实聚类任务中极为常用。通常情形下，算法对原型进行初始化，然后对原型进行迭代更新求解，采用不同的原型表示，不同的求解方式将产生不同的算法，k均值算法(k-means)是最为常用的原型聚类算法之一。

k-means算法中的k代表类簇个数，means代表类簇内数据对象的均值(这种均值是一种对类簇中心的描述)，因此，k-means算法又称为k-均值算法。k-means算法是一种基于划分的聚类算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。数据对象间距离的计算有很多种，k-means算法通常采用欧氏距离来计算数据对象间的距离。下面给出欧式距离的计算公式：

其中，D表示数据对象的属性个数。

项目采用k-means聚类算法，通过设置不同的K值，来聚集距离较近的城市群。k-means算法根据预先设定的k值将样本分为k个簇，每个簇的均值用μ_k来表示，这些均值被看作每个簇的中心。k-means算法的目的是要找到k个簇中心，使得每个样本离簇中心的欧式距离的平方误差之和最小：

其中，N表示样本总数，K表示簇的个数；r_nk表示样本n是否在簇k内，若在则为1，反之为0；x_n表示第n个样本点，μ_k表示第k个簇的均值；C_k表示第k个簇的样本集合。直接寻找r_nk和μ_k来最小化J并不容易，所以k-means算法采取了贪心策略，采取迭代优化来求近似解：先固定μ_k，选择最优的r_nk，只要将数据点归类到离其最近的那个中心就能保证J最小。下一步则固定r_nk，再求最优的μ_k。

如附图2所示，设置k＝2，初始化2个类簇中心，分别为图中的红色和蓝色标记；然后计算各个数据对象到聚类中心的距离，把数据对象划分至距离其最近的聚类中心所在类簇中；接着根据所得类簇，使用所有点坐标的平均值来代表新的聚类中心；然后继续计算各个数据对象到聚类中心的距离，把数据对象划分至距离其最近的聚类中心所在类簇中；接着根据所得类簇，继续更新类簇中心。一直迭代，直到达到最大迭代次数，或者两次迭代的差值小于某一阈值时，迭代终止，得到最终聚类结果。传统的k-means算法的流程如附图3所示。

在城市聚类问题中，将城市的经纬度作为输入，然后设定K个簇中心，这时算法会在图中随机选择K个点。地图中的每个城市都属于最近的一个簇中心，将属于同一个簇的城市经纬度求均值，得到新的簇中心，不断迭代，直至误差平方和J最小，得到城市聚类结果，如附图4所示。

根据附图4中的城市簇，计算两两之间的货运量，货运量通过合并相同城市间的货票数据得到。为了开发白货的主要运输方向，降低铁路物流成本，提高货物集结效率,货运量和运输距离需要达到一定的阈值。因此，根据铁路企业提供的运输距离和吨数要求，求出符合条件的城市簇对。

附图5、6、7展示了K值分别设置为50、30、20时，发送城市簇至到达城市簇总吨数大于100万吨且运输距离大于800千米的聚类结果。

Claims

1.一种基于城市群白货流量的提高列车编组效率的城市聚类方法，其特征在于，城市聚类和条件筛选，该方法包含以下步骤：

(1)读取城市经纬度；

(2)将所述城市经纬度输入k-means聚类算法，以根据各城市之间的距离划分为多个城市簇；

(3)对于所述多个城市簇，计算城市簇之间的距离；

(4)以设定的城市簇之间的距离阈值作为第一过滤条件，按距离过滤城市簇对，获得满足该第一过滤条件的城市簇对；

(5)对于所获得的城市簇对，计算城市簇之间的白货流量；

(6)按白货流量的吨数阈值作为第二过滤条件来过滤城市簇对，获得满足该第二过滤条件的城市簇对。

2.根据权利要求1所述的方法，其中，所描述的(2)中输入k-means聚类算法步骤中，k-means算法中的k代表类簇个数，means代表类簇内数据对象的均值，这种均值是一种对类簇中心的描述，该k-means算法又称为k-均值算法；k-means算法是一种基于划分的聚类算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇；k-means算法采用欧氏距离来计算数据对象间的距离；下面给出欧式距离的计算公式，其中D表示数据对象的属性个数，x_i表示第i个数据对象，x_j表示第j个数据对象，x_i，d对应第i个数据对象的第d个属性，x_j，d对应第j个数据对象的第d个属性：

采用k-means聚类算法，通过设置不同的K值，来聚集距离较近的城市群；k-means算法根据预先设定的k值将样本分为k个簇，每个簇的均值用μ_k来表示，这些均值被看作每个簇的中心；

k-means算法的目的是要找到k个簇中心，使得每个样本离簇中心的欧式距离的平方误差之和最小：

其中，N表示样本总数，K表示簇的个数，r_nk表示样本n是否在簇k内，若在则为1，反之为0，x_n表示第n个样本点，μ_k表示第k个簇的均值，C_k表示第k个簇的样本集合；k-means算法采取了贪心策略，采取迭代优化来求近似解：先固定μ_k，选择最优的r_nk，只要将数据点归类到离其最近的那个中心就能保证J最小，下一步则固定r_nk，再求最优的μ_k。

3.根据权利要求1所述的方法，其中对于所描述的(3)计算城市簇之间的距离，利用经纬度的距离算法求解。

4.根据权利要求1所述的方法，其中对于所描述的(5)计算城市簇之间的白货流量，通过合并相同城市间的货票数据得到；对于所描述的(4)/(6)按距离/白货流量过滤城市簇对步骤，货运量和运输距离需要达到一定的阈值，并根据铁路企业提供的运输距离和流量吨数要求，求出符合条件的城市簇对。

5.根据权利要求2所述的方法，其中k-means算法的簇的个数K值分别设置为50、30、20时，按照发送城市簇至到达城市簇总吨数大于100万吨且运输距离大于800千米来过滤获得聚类结果。