CN112132184A

CN112132184A - 一种基于n阶近邻分析聚类的配送中心选址方法

Info

Publication number: CN112132184A
Application number: CN202010848654.5A
Authority: CN
Inventors: 张贵军; 陈驰; 武楚雄; 王浩文; 李亭; 周晓根
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-25
Anticipated expiration: 2040-08-21
Also published as: CN112132184B

Abstract

一种基于N阶近邻分析聚类的配送中心选址方法，首先，根据候选地址的地位位置信息，初始化研究对象的样本数据集；然后，计算样本点的N阶近邻距离和方差值，结合次序统计的相关原理来分析样本数据点簇间特性，得到合适的聚类数目K值；最终，结合聚类算法将样本数据集划分为簇内相似度高的K的簇，最终均值向量对应的候选点即为配送中心的最佳选址。本发明提供一种实用性强的基于N阶近邻分析聚类簇的配送中心选址方法。

Description

一种基于N阶近邻分析聚类的配送中心选址方法

技术领域

本发明涉及机器学习、统计学分析、选址规划、模式识别等领域，尤其涉及的是一种基于N阶近邻分析聚类的配送中心选址方法。

背景技术

物流配送中心选址问题是指在一个具有若干供应网点的区域内，选一个或者多个地址设置物流配送中心的规划过程，它在整个物流系统中占有非常重要的地位，属于物流管理战略层的研究问题。由于配送中心选址的决策不仅直接关系到日后配送中心自身的运营成本和服务水平，而且关系到整个社会物流系统的合理化，同时配送中心的建设投资大、周期长、回收缓慢，且一经选定后就将长期经营，因此配送中心选址是配送中心建设项目规划中首要也是至关重要的环节。正是基于配送中心位置的重要作用，迫切需要对其选址问题开展研究。

近年来，随着人工智能领域的不断发展，机器学习领域的研究方法，被成功地应用于许多传统领域，并且取得了不错的成果。聚类分析是机器学习领域中常用的无监督学习方法，它根据对象之间的差异性，把不同类的对象区分开。作为数据分析的工具，其重要性在各个领域都得到了广泛的认可，聚类分析的目的是寻找数据集中的自然分组，将数据集分为几个差异明显的簇，簇是指相似元素的集合，聚类后的每一个簇内数据点的相似程度高，不同簇内的数据点差异性大。

目前，针对配送中心选址问题，通常采用的解析法、最优化规划方法、启发式算法等，此类方法通常求解时间复杂度高，求解精度很难保证，如启发式算法，在寻优求解的过程中，常常会陷入局部最优解，导致最终的求解结果出现偏差。以配送中心的候选点为研究对象，采用聚类的方式，将候选点划分为若干个合适的簇，选取最终各个聚类簇的聚类中心作为配送中心，也是一种效率较高的解决方案，但聚类算法大多数需要在算法运行前给定聚类簇的个数，才能很好地进行。然而，在大部分的实际应用过程中，通常聚类簇的个数是不可能事先知道的，而且也很难预先指定聚类个数，因此，如何选择恰当的聚类个数是一个非常复杂而又必须面对的问题。

因此，目前的配送中心选址方法是存在很大的局限性，很难保证问题求解的精准性、求解的时效性，需要改进。

发明内容

为了解决现有的配送中心选址方法求解问题的精度低，时效性差的问题，本发明提出了一种基于N阶近邻分析聚类的配送中心选址方法，通过分析研究对象点分布特性，采用基于N阶近邻分析自适应地确定出合适的聚类簇数目，以此来指导聚类算法完成对配送中心候选点的聚类划分，选取聚类后的每个簇中的聚类中心作为配送中心。

本发明解决其技术问题所采用的技术方案是：

一种基于N阶近邻分析聚类的配送中心选址方法，包括以下步骤：

1)根据候选点的地理位置信息，初始化为二维地理坐标特征的样本点数据集D＝{x₁,x₂,...,x_M}，M为候选点的数量，初始化聚类数目K＝1；

2)定义

为样本点x_i的一阶近邻距离，即x_i与数据集中其他样本点之间的最近距离，

为样本点x_i的二阶近邻距离，即x_i与数据集中其他样本点之间的第二近距离；依次类推，

为x_i的n阶近邻距离；

3)计算样本点的n阶近邻距离，过程如下：

3.1)从数据集D中取出一个目标样本点x_i，i∈{1,2,...,M}；

3.2)再从数据集D中取出不同于x_i的一个样本点x_j，j∈{1,2,...,M}；

3.3)计算两个样本点x_i和x_j之间的欧式距离d_ij，其中d_ij＝||x_i-x_j||₂；

3.4)迭代步骤3.2)和步骤3.3)直到x_j取完数据集中除x_i之外的所有点，再将所求的距离按照从小到大排序，即得到样本点x_i的n阶近邻距离，其中n∈{1,2,..,M-1}；

3.5)更新目标样本点x_i，即从数据集中随机取出新的目标样本点x_i′，令x_i＝x_i′，迭代步骤3.2)、3.3)和步骤3.4)，直到x_i取完数据集中的所有样本点为止；

4)计算样本点的n阶近邻距离的平均值

和平方均值

其中

其中n∈{1,2,..,M-1}；

5)分析数据集中样本点之间的离散程度，确定合适的聚类数目K值，过程如下：

5.1)计算数据集中样本点的N阶近邻方差

其中n∈{1,2,...,M-1}；

5.2)根据次序统计的相关原理，当满足

时，

和n+1满足线性关系，其中ε是趋近于0的数；

5.3)根据5.1)计算得到的各个样本点之间簇间方差的结果，代入

中，当满足该式的不等关系时，更新K＝K+1；

6)从数据集D中随机选取K个数据点作为聚类的初始均值向量T＝{t₁,t₂,L,t_K}；

7)计算样本点x_i到各均值向量t_k的距离：dist(x_i,t_k)＝||x_i-t_k||₂，根据距离最近的均值向量确定x_i的簇标记：λ_i＝arg min_{k∈{1,2,L,K}} dist(x_i,t_k)，将样本点x_i划入相应的簇；

8)更新均值向量t_k：计算当前簇中每一个样本点到其他样本点的距离之和，并将距离之和最小的样本点记为新的均值向量t′_k，若t_k′≠t_k，则令t_k＝t_k′，迭代步骤7)，否则，进行步骤9)；

9)当前均值向量t_k均不再发生变化，将聚类后的簇划分出来，此时最终的均值向量集合T中的K个均值向量所对应的候选点即为配送中心的最佳选址位置。

本发明的有益效果为：在普遍缺少先验知识的情况下，通过计算研究对象点的N阶近邻距离，分析得到当前研究对象合适的聚类簇数目，从而指导聚类算法完成对候选点的聚类划分，实现了实用性强、效率高的配送中心选址方法。

附图说明

图1是一种基于N阶近邻分析聚类的配送中心选址方法流程图。

图2是配送中心候选点的分布图。

图3是配送中心选址结果分布图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1至图3，一种基于N阶近邻分析聚类的配送中心选址方法，包括以下步骤：

2)定义

为x_i的n阶近邻距离；

3)计算样本点的n阶近邻距离，过程如下：

3.1)从数据集D中取出一个目标样本点x_i，i∈{1,2,...,M}；

4)计算样本点的n阶近邻距离的平均值

和平方均值

其中

其中n∈{1,2,..,M-1}；

5.1)计算数据集中样本点的N阶近邻方差

其中n∈{1,2,...,M-1}；

5.2)根据次序统计的相关原理，当满足

时，

和n+1满足线性关系，其中ε是趋近于0的数；

中，当满足该式的不等关系时，更新K＝K+1；

本实施例以从29个候选地址中选取合适的若干个配送中心为例，一种基于N阶近邻分析的聚类簇个数确定方法，包括以下步骤：

1)根据候选点的地理位置信息，初始化为二维地理坐标特征的样本点数据集D＝{x₁,x₂,...,x_M}，候选点的数量M＝29，初始化聚类数目K＝1；

2)定义

为x_i的n阶近邻距离；

3)计算样本点的n阶近邻距离，过程如下：

3.1)从数据集D中取出一个目标样本点x_i，i∈{1,2,...,M}；

4)计算样本点的n阶近邻距离的平均值

和平方均值

其中

5.1)计算数据集中样本点的N阶近邻方差

其中n∈{1,2,...,M-1}；

5.2)根据次序统计的相关原理，当满足

时，

和n+1满足线性关系，其中ε＝0.01；

中，当满足该式的不等关系时，更新K＝K+1；

9)直到当前的均值向量t_k均不再发生变化，将聚类后的簇划分出来，此时最终的均值向量集合T中的5个均值向量所对应的候选点，即[5,12,23,27,29]为配送中心的最佳选址位置。

以从29个候选地址中选取合适的若干个配送中心为例，运用以上方法得到该数据集的最佳聚类簇的个数为5，其算法流程如图1所示，配送中心候选点的分布图如图2所示；配送中心选址的结果如图3所示。

以上阐述是本发明给出的一个实施的预测效果，本发明不仅适合上述实施例，在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。

Claims

1.一种基于N阶近邻分析聚类的配送中心选址方法，其特征在于：所述方法包括以下步骤：

2)定义

为x_i的n阶近邻距离；

3)计算样本点的n阶近邻距离，过程如下：

3.1)从数据集D中取出一个目标样本点x_i，i∈{1,2,...,M}；

4)计算样本点的n阶近邻距离的平均值

和平方均值

其中

5.1)计算数据集中样本点的N阶近邻方差

其中n∈{1,2,...,M-1}；

5.2)根据次序统计的相关原理，当满足

时，

和n+1满足线性关系，其中ε是趋近于0的数；

中，当满足该式的不等关系时，更新K＝K+1；

7)计算样本点x_i到各均值向量t_k的距离：dist(x_i,t_k)＝||x_i-t_k||₂，根据距离最近的均值向量确定x_i的簇标记：λ_i＝arg min_{k∈{1,2,L,K}}dist(x_i,t_k)，将样本点x_i划入相应的簇；