CN115619304A

CN115619304A - 一种基于聚类算法的物流节点选址规划方法

Info

Publication number: CN115619304A
Application number: CN202110799584.3A
Authority: CN
Inventors: 高岑; 孙咏; 王嵩; 于碧辉
Original assignee: Shenyang Institute of Computing Technology of CAS
Current assignee: Shenyang Institute of Computing Technology of CAS
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2023-01-17

Abstract

本发明涉及物流分配，具体的说是一种基于聚类算法的物流节点选址规划方法。本发明包括：一套适用于物流配送节点选址的基于BIRCH聚类的多层级均衡选址规划方法，首先先使用带容量限制的BIRCH聚类算法将所有的需求配送目标划分为互相不重叠的配送范围，再通过重心法在各个配送范围内进行局部物流物流配送节点的选址。针对物流配送服务巡回配送的特性、物流配送节点选址及配送线路规划的相互影响、多层级物流配送节点的等级性划分特性、同层级物流配送节点存件数量均衡性四个主要影响因素进行了相应的优化设计。为物流节点选址规划问题提供了更优化的解决方案。

Description

一种基于聚类算法的物流节点选址规划方法

技术领域

本发明涉及物流分配，具体的说是一种基于聚类算法的物流节点选址规划方法。

背景技术

近年来随着网络电子商务的蓬勃发展，面向普通消费者的快递物流业成为了物流行业新的爆发点。与传统物流面向大宗货物运输不同，现今的快递物流业更多的是面向零散少量的货物运输，货运目的地数量庞大，运输路径更为繁复，同时运输流转需要通过多层级的物流节点来实现。由于网络电子商务对物流过程的时效性要求越来越高，使得面向普通消费者的快递物流业对快件的集散、分拣、中转、投递效率的要求也越来越高。

作为多层级物流配送体系中的重要组成部分，物流配送节点是快件流通过程中的关键点，是物流系统中的核心设施，配送节点的选址对物流运输成本、运输效率、在途时间影响较大，一个好的配送节点选址决策可以使得快件在汇集、分拣、中转、分发、投递的过程达到最少的费用成本消耗和最短等待时间。因而对物流配送节点选址方法进行研究具有较大的经济意义和现实意义。

在现代物流行业中，物流配送节点一般指现代化的货物流通设施及场所，与传统的仓库、货栈相比，存储不是其主要职能，通过信息化方法高效的进行货物的流通、中转、分发才是其主要职能。

物流配送节点具体有以下功能：

(1)限量储存。根据需要在节点实现限量的存储，对不同货物选择不同的储存手段，如生鲜货物应用冷藏储存。根据节点在物流组织中的层级不同，具有不同的存储限量上限。

(2)有序集散。通过建立完备的分拣和组配规则，按货物的目的地、货物的类型、货物的规格及运输方式等重新装配成批，方便下一步运输，这种方式可以更好的满足个人物流服务的需求。

(3)组织运输。根据需要建立相对于下级节点的运输物流网络结构以及物流运输队伍，负责组织货物的运输网络。

(4)其它。信息统计、资金结算等功能。

目前，对物流配送节点选址规划的研究主要还是将一般设施选址的算法稍加改造应用到物流配送节点选址问题上，在一定程度上可以给出一个解决方案。但物流配送节点的选址与传统的单/多设施选址有所不同，传统选址问题的研究大多未考虑到物流配送节点选址的实际特点，在具体实施中效果不佳，所以仍然有较大的优化空间。

选址理论的研究始于1909年，韦伯考虑了在平面上如何对单一仓库进行选址决策，以尽量减少它与多个客户之间的总距离。该问题被命名为欧几里德空间中值问题(Euclidean Spatial Median Problem)，又称为韦伯问题。Weiszfeld在1937年给出了著名的欧几里德空间中值算法，通过迭代计算求得欧式空间的几何中值点，见公式。

随后，从20世纪60年代开始，对选址问题的研究进入了一个高速发展时期。Hakimi于1964年首先提出了网络空间上的p-中值问题(目标函数为minisum)，试图在网络空间中对多设施进行选址，而最初的韦伯问题也可以表示为平面连续空间中的1-中值问题。随后研究又扩展到基于欧式距离的连续空间p-中值问题(更一般的韦伯问题)、反p-中值问题(目标函数为maxisum，用于核电站等令人“反感”的设施)。同时，p-中心问题也被提出(目标函数是minimax)，Kariv证明了这是一个NP-Hard问题。

90年代后，有学者开始以覆盖的角度看待选址问题，提出了集合覆盖问题和最大覆盖问题，前者试图在满足所有需求的情况下，找到最少的新建设施数量；而后者研究在一定的设施数目及服务半径下，如何最大限度地满足现有的需求。

现在，随着现实问题越来越复杂，选址问题将越来越多的约束条件加入进来，比如费用限制约束，容量限制约束(设施的服务能力有限)，与资源分配问题结合形成选址-分配问题，与路径规划问题结合形成选址-路径规划问题，等等。

解决选址问题首先可以根据条件需求的不同将选址问题分为以下的四种类型：

类型一：按照选址空间分类。选址问题通常定义在以下三种基本空间之一：连续空间、离散空间和网络空间。第一种选址问题，在连续空间(一维，二维或三维)内的任何位置都可以作为节点的定位，第二种则必须从指定的离散位置集合中选择节点定位，而第三种问题是只考虑交通网络的边缘和其相关节点的选址问题。

类型二：按照选址设施数目分类。按这种方式可以分为单设施选址问题和多设施选址问题。其中，后者不是多个单设施选址决策的简单叠加，多个设施之间的定位可以形成网格化的定位策略，从而体现联合优势，其中的统筹优化涉及因素众多，可以简单称为是NP-Hard问题。

类型三：按照目标函数分类。按目标函数可以进一步将选址问题分为以下几类：p-中值问题、p-中心问题、覆盖问题等

p-中值问题：p-中值问题主要研究在空间中如何选择p个节点，从而使得所有需求点到设施点的加权距离和(权重可以理解为需求量、运输成本、运输时间、运输效率等)最小，目标函数为加权后的最小值。

p-中心问题：p-中心问题则研究在空间中如何选择p个节点，从而使所有需求点到其归属的设施点的最大距离最小，目标函数为距离和最小，常用于有严格最低服务标准的节点选址问题。与按照选址设施数目分类问题一样也属于是NP-Hard问题。

覆盖问题：中值问题无法概括所有的节点选址问题，类似于消防站、急救中心等类似的具有公共事务服务性质的设施选址，不能完全以降低总运输距离作为选址目标，这些设施对服务的响应时间、响应效率、实际距离、服务成本、专业人员配置、专业配置等都有较严格的要求。覆盖模型适用于这类问题。其中集覆盖问题主要研究的是如何用更少的新建设施数量，来满足整体的覆盖需求。而最大覆盖问题则研究在一定的设施数目及服务半径下，如何最大限度地满足现有的需求(一些需求可能未满足或者说未被覆盖)，所以又称p-覆盖问题。

类型四：根据参数是否确定进行分类。大部分选址策略研究采用了确定性模型，即问题所需参数全部为已知条件。然而在现实情况中，不确定的参数存在于各个环节，包括运输路线交通情况、运输量的变化等，因此，基于静态参数的、根据确定性条件的选址算法不能解决这类问题，此类问题更适用于随机选址模型和动态选址模型类的选址算法。

动态选址模型主要是将一部分条件确定，专注于其他参数的变化，考虑一个时间段上其他参数变化影响下的设施选址问题，从而将选址问题转化为动态规划的方式求解，建立不同时刻的最优选址决策目标。这种模型适用于频繁的设施搬迁，与传统算法模型相比更加适用于流动性设施的选址决策。

随机选址模型则试图通过数学手段对输入参数的不确定性进行预处理。随机选址模型根据选取模型的类别分为两类：(1)概率模型，通过假定参数为符合概率分布的随机变量，进行后续的选址计算；(2)情景规划模型，通过指定一些可能的未来状态的变化规律来应对参数的不确定性，目标是找到在所有情况下都表现良好的选址决策。

选址规划算法的主要类型如图1所示。

通过对于物流配送过程的基本要素特点的分析可知，物流物流配送节点选址问题总体上是一个p-中值问题，即已知若干需求点位的坐标及其对应点位上的配送需求总量，在空间中或者是已知候选地址集中，选取p个位置作为物流配送节点，从而向下层节点全面覆盖物流配送需求，并使得所有需求点到其归属的物流配送节点的加权距离和最小，其中需要将需求点位对应需求量、点位存储均衡性、运输综合成本、运输时间、人力消耗等作为权重的参考量。

物流节点选址问题中常见的四个主要特点如下：

特点1：物流配送过程在服务客户过程中配送运输工具采用的配送路径是巡回的。与传统选址问题一般假设所选的服务中心到需求点之间点对点服务有所不同，这种假设虽然可以大大简化配送物流的整个流程，但是与配型服务的实际运行过程有较大的出入，不能完全满足多级配送的均衡化过程，而且也把配型流程节点的规划更多的关注点放在了节点和节点之间的路径规划上，偏离了本身节点的规划选址的最初目的。

特点2：物流配送节点的选址与配送路径的规划是两个相互影响的NP-Hard问题。在物流节点的选址规划过程中具有近乎等同的重要性，传统的算法更加偏重于一个方面，都将影响到选址模型的准确性和符合性。一方面，物流配送节点的选址更多的影响到了配送服务范围的划分，这会间接的影响到物流配送节点后期运营过程中对配送路径的合理规划；另一方面，在进行选址决策过程中，对运输距离的考量直接使用地图中的实际物理距离就相当于提供了一个隐含条件，即认为配送服务是点对点的，从而忽略了特点1中的巡回性质因此配送路径与选址决策既是两个相对独立的计算模型，同时也是在互相影响。

特点3：物流配送节点的选址从实际上看是一个具有有限区域容量的多层级选址问题。根据目前物流配送企业的实际运行情况来看，每一区域内都根据地域的特性划分为了多层级的管理和配送存储体系，层级化的管理可以更好的利用现有运输资源，如：运输工具、存储空间、配备人员规模、分拣团队规模等，可根据不同层级的需求进行按需分配，同时对预期的工作量可以进行较为合理的估算和预计，有助于进行有序的配送规划和方法的建立。一般的物流运输企业的多级分拣体系可以划分为如下的类似层级：区域中转仓→一级区域分拣中心→二级区域分拣中心→……→n级区域分拣中心→末端快递站(快递柜/寄存自提中心)，如图2所示，这个多层结构一般来说与行政区域划分的层级具有一定的关联性，但总体上还与实际的区域道路规划和街道路径的实际分布有一定的关联，比如：其层级规划可能与地区的街道、社区、居民小区等存在一一对应的关系。一般情况下，物流快件的转运过程中极端情况下才会出现跨越层级的运输工作，在常规的运输过程中，无论是寄件流程还是收件流程都会通过层级的顺序，由子节点到直接相邻的父节点，或者由父节点到直接相邻的子节点。

特点4：同层级多个配送节点之间所负责的快件数量应该在允许的情况下保持相对的均衡，类似服务器中的负载均衡策略。物流行业对流通的速度有着比较高的要求，并且在发展过程中一直把提升流通效率作为一个重要的衡量指标。所以由此可见当同层级节点之间的快件不能保持均衡的话，那么单个节点将会出现积压，从而影响局部的运输效率，这种积压现象造成的动力不足问题也被称做“爆仓”，其后果将导致该节点的下级节点无法在预设的时间内进行接收与投递，由于这种情况更容易出现在末端节点或者接近末端的节点，因此，在考虑末端节点的选址时更要充分考虑负载的均衡。

发明内容

本发明要解决的技术问题是提供一种基于BIRCH聚类算法的物流节点选址规划方法，用于解决物流服务网络中的物流节点多层级均衡选址问题。模型主要针对现有技术中物流节点选址问题的特点提出相应的解决方法。

以下从这4个方面进行进一步的说明本发明的目的。

针对对于背景技术中所述特点1，巡回配送的特点使得在决策物流配送节点的具体位置时，不会直接将两地之间的最短路径距离作为配送时的运输距离，否则将会影响到决策结果的有效性。

对于背景技术中所述特点2，物流配送节点选址对于多层级物流网络的建设来说属于一个长期战略决策，综合考虑到建设一个实际的物流节点将会耗费的成本，一次决策后未来很长时间内都不会做出改动；但是由于路径规划属于日常决策，根据实际的运输工具、交通情况、运输总量等都作为每日的影响因子，所以实际上每天都可能发生变化。由于节点分布和运输路径规划这两者都是NP-Hard问题。由此可得到一个阶段性的结论，同时决策物流配送节点的物理位置和未来其快件的配送路径不是一个具有效率的方法。因此常规处理的方法是假定路线规划任务保持静态不变，再采用精确解法或者启发式解法进行选址-路径的复合规划。该类处理方法不适用于快递配送流程的实际情况，因为规划任务是不可能保持不变的。本发明采用了先对配送区域进行划分，再根据物流配送节点运营实际情况规划配送路径，将路径规划问题放在节点运营实时进行。

对于背景技术中所述特点3，物流配送节点的选址是一个多层级的选址问题，因此使用层次聚类来对数据进行逐层聚类，不同层级的子簇作为不同层级的物流配送节点服务范围进行划分。根据物流配送节点实际情况，除极特殊情况外不会出现跨层级运输，所以相邻层之间的数据信息与节点选址有强相关性，由此第N+1层的数据信息对于第N层的物流配送节点选址是有参考价值的，但对第N-1层的配送节点选址就基本没有参考价值。所以直接套用常见的层次聚类算法并不适用，要对层次聚类算法进行改进使之更符合本发明中主要应对的多层级的选址问题的应用场景。此外，由于层次聚类算法通常无法给出聚类中心，一般要搭配其他算法在配送范围内选择节点实际位置。

对于背景技术中所述特点4，这个特点要求使用的算法要具有控制每个子簇大小的能力，从而使同层级子簇的大小相当，满足同层级配送节点负载均衡。

本发明为实现上述目的所采用的技术方案是：一种基于聚类算法的物流节点选址规划方法，包括步骤：

步骤1、在区域中转仓、物流配送节点、目的地之间建立层级关系，获取用于物流分配的聚类特征树初始模型、特征树各个簇节点信息；

步骤2、根据特征树各个簇节点信息，采用带容量限制的BIRCH算法，通过聚类特征的容量作为控制分裂的条件，通过引入变量中间结点容量阈值H对非叶节点的分裂进行控制，当中间结点的自身容量达到阈值H，自动进行结点的分裂优化聚类特征树，得到当前层各个物流配送中间节点的配送范围；

步骤3、在各个物流配送中间节点的配送范围，通过重心法分别计算局部物流配送节点的坐标；

按照上述步骤2-3，自底向上迭代计算，依次获取各层级中各个物流配送中间节点的坐标作为物流配送节点的最优选址。

所述聚类特征树、各个簇节点信息定义如下：

a.将区域中转仓作为根节点，将物流配送节点作为中间簇节点，将目的地作为末端需求节点；定义一个包含N个d维数据点的中间簇节点：{x_i}(x_i＝1,2,...,N)，则该簇的聚类特征CF表示为一个四元组CF＝(N,LS,SS,W)；

b.定义各个簇节点信息：

簇的中心x₀用于计算簇与簇之间的距离，计算公式如下：

簇半径R用于计算簇内对象的平均距离，公式如下：

聚类特征树CF-Tree中结点的CF条目值等于这个CF条目所指向的子结点的条目之和：

CF₁+CF₂＝(N₁+N₂,LS₁+LS₂,SS₁+SS₂,W₁+W₂) (9)

其中，N是簇中数据点的个数，LS是N个数据点的线性和，即

SS是N个数据点的平方和，即

W为聚类特征容量；

c.则包含容量的聚类特征树CF-Tree的形态由以下参数决定：聚类特征容量W、叶结点分支因子L和子簇最大半径阈值T。

所述分裂规则为：选择该中间结点距离最远的两个聚类特征CF条目作为新中间结点的初始叶结点，其余叶结点CF条目依次按距离顺序合并到较近的新中间结点；所述分裂过程中使用叶结点分支因子L和子簇最大半径阈值T控制叶结点和子簇的大小。

所述带容量限制的BIRCH算法具体为：

①读取当前第n层需求点样本x的坐标及需求量，在所有子簇中根据公式(6)寻找距离x最近的子簇D，将x加入到子簇D中；如果x加入后，子簇D的簇半径小于阈值T，则对该子簇进行更新转入步骤④；否则转入步骤②进行分裂操作；

②将子簇D中最远的一个样本点独立为一个新的子簇，并将该最远样本点归入这个子簇的叶结点；如果当前叶结点的子簇个数小于阈值L，转入步骤④对该子簇的聚类特征四元组进行更新，否则转入步骤③对超过阈值的叶节点进行分裂操作；

③选择叶结点中距离最远的两个聚类特征CF条目，使之独立为两个新叶结点的第一顺序CF条目，将其余CF条目按照距离远近顺序归入对应的叶结点；

④更新从子簇向上到根节点的路径上所有簇节点的四元组信息，检查当前层全部的中间簇结点的容量W是否超过容量阈值H，超过则按步骤③所述分裂规则获得分裂后的中间簇结点；

⑤若当前第n层还有未处理样本，继续引入样本执行步骤①，否则检查中间结点，将容量小于H/2的中间结点所含样本点按照步骤①重新进行处理，直到使得所有中间结点的容量大于H/2小于H，从而均衡各个中间簇节点的容量数值；

⑥当所有中间簇节点的容量大于H/2小于H，全部的中间簇节点即为第n+1层需求点集合均衡划分的m个配送范围。

所述重心法计算局部物流配送节点的坐标，包括：

在当前划分配送范围内，以相邻节点之间的运输距离作为指标，来衡量区域内需求点所成的超多面体的几何重心

计算公式如下：

所求得的重心即为该当前划分配送范围的节点选址结果。

所述相邻节点之间的运输距离为Dijkstra距离。

本发明的有益效果及优点：

1.综合考虑本发明所要解决技术问题的4个特点后，本发明设计了一个基于BIRCH聚类的物流配送节点选址算法，改进了BIRCH聚类算法并结合重心法，总体思路是先划分配送范围然后做单配送节点选址，避免了同时决策配送节点的位置和快件的配送线路。

2.划分配送范围的过程中使用的是带容量限制的BIRCH算法，该算法将BIRCH聚类算法加以改进使之拥有了控制每个子簇大小的能力，用于实现同层级子簇的大小均衡，满足了同层级配送节点负载均衡需求。在单配送节点选址过程中使用了重心法，弥补了BIRCH聚类算法只能给出聚类的子簇而无法给出聚类中心的缺点，从而完成选址规划。

3.该方法的算法核心设计主要基于BIRCH聚类算法和重心法两种算法的组合，根据聚类得到的结果进一步采用重心法确定局部最优解；该方法主要面向多层级以及物流负载均衡的选址目标进行设计；该方法主要是服务于两个核心目标：对配送服务范围进行均衡划分、对多层级的配送设施节点的优化选址；这两个目标有助于实现物流节点选址规划的进一步优化，进一步降低配送成本，提升配送效率，简化巡回配送流程。

4.与传统的依赖于专家综合意见的层次分析法、模糊评价法相比，本选址规划方法减少了人的主观判断及经验领域知识等主观因素的限制，从客观数据出发，通过建立客户总体的散点分布情况，利用聚类规划的结果合理的划分配送范围，建立局部物流中心，即物流层次节点，从而在全局角度上减少快件的总流转时间，提高物流企业的流转效率。

与数学规划类相关算法相比，虽然节点选址问题的目标函数可以被看作整数或混合整数规划，符合使用数学规划方法进行求解的条件。但由于节点选址是属于NP-Hard问题，数学规划方法在这种问题的处理上，只能在小数据量上(100以内)得到最优解，一旦数据规模较大，就会出现运算时间过长，难以得到最优解的结果。相比之下，本规划方法主要基于两个子算法：带容量限制的BIRCH算法、重心法均可以用于在可接受的计算效率和时间耗费的范围内处理大数据量的选址规划问题。

与启发式算法相比，本规划方法采用两种算法进行求解，可以更好的解决局部最优解的问题，解决大数据量造成的算法时间过长而导致的无法求解的问题。

与单一重心法只能用于单设施选址不同，本规划算法设计的算法结合聚类算法在配送范围内做单中心选址，将局部最优解问题转化为全局最优解问题。

5.方法采用了带容量限制的BIRCH算法，BIRCH算法是聚类算法更适用于类别数较多情况的聚类算法，该算法一方面满足了实际节点数较多的特性，同时其基于层次方法和规约数据的特性，可以实现在聚类的过程中控制同层级子簇的大小均衡，满足了物流配送节点选址规划问题所要求的同层级配送节点负载快件的均衡性；通过从底层到顶层的逐层递进决策来实现多层级选址。较好地解决了物流配送节点的多层级均衡选址问题。

6.本规划方法采用了两种算法有机组合解决了传统选址规划方法存在的缺陷，一方面解决了传统的聚类算法都无法实现控制子簇的大小均衡的问题；另一方面，与传统选址算法相比，解决了一般选址算法无法处理大量数据的问题。

7.该规划方法中所采用的BIRCH算法可主动发现子簇个数，算法根据配送设施的负载能力(即服务容量限制)选择适当的设施个数，不需提前指定；此外，该算法也可以应对少量异常数据，这是因为少量噪声点不影响BIRCH聚类CF-Tree的形态。

附图说明

图1选址问题分类框图；

图2多级分拣配送体系框图；

图3基于BIRCH聚类的多层级均衡选址方法算法流程；

图4一棵CF树的示意图；

其中，图4中，B＝5，L＝7；

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

本发明设计的基于BIRCH聚类的多层级均衡选址规划方法，其核心由两个子算法构成：带容量限制的BIRCH算法与重心法。其中，带容量限制的BIRCH算法主要用于将需求点集合划分为若干个不相交子集，该子集可以被理解为配送范围；然后再采用重心法在各个不相交子集内求出该子集的重心，将所求出的重心作为单个物流配送节点的备选点。反复执行从而获得整体区域内的物流节点选址规划解集。

具体的算法流程如图3所示。

需要注意的是，每执行完一次这两个子算法，即可得到一个层级的配送节点的选址决策结果。如果还有更高层的配送节点需要选址，则需要做数据的替换：将之前决策的结果，即本层级的配送节点作为更高层配送节点的需求点输入，对对应的需求点位置及需求量进行更新。然后再次执行以上两个子算法，即可得到更高层物流配送节点的选址决策解集。如此，反复执行两个子算法，即可完成从底层到顶层的全部选址决策。

首先，下面给出物流配送节点选址问题的基本模型及一些符号定义。

目标函数：

约束条件：

其中：

X＝{x₁,x₂,…,x_n}为需求点(配送点)集合，x_i为需求点i的坐标，为已知量；

P＝{p₁,p₂,…,p_m}为物流配送节点决策集合，其中p_j为物流配送节点j的坐标，是该节点选址的一组选址规划决策变量的集合；

b_ij为标识需求点i是否归属于物流配送节点j的归属因子；

w_i为需求点i的实际需求量，为已知量可由外部输入导入；

d(x_i,p_j)为需求点i到物流配送节点j的距离，为选址规划决策变量p_j为参数的二次函数；

物流配送节点的坐标集P(物流配送节点选址)和对需求点的划分{b_ij}(配送范围划分)为一个完整的选址决策方案。

具体到本发明所研究的物流物流配送节点选址问题，还有以下说明：

(1)物流运输服务是一种双向的运行流程，但对于本发明的规划方法来说其作用是一致的，因为每一层级的节点只对于相邻一级的节点产生作用，因此双向的运行流程对于多层级结构本身来说没有影响。

(2)考虑到本发明所需处理的数据体量比较大，在数据准备阶段，可以将配送目标地址和收揽的快件的源地址进行聚合，将部分同一建筑或者同一街道编号的地址视为同一个需求点，对应将地址上的全部订单量合并作为其需求点位上的总需求量。

(3)考虑到快递订单产生的不确定性，以及快递配送一般以日做为配送周期，本发明在实用时采用日均订单量作为一个需求点位上需求量的计算标准。

(4)本发明目前设计流程中，不考虑物流配送节点的基本建设成本(如配送服务地点的租赁及购房成本、配送节点装修改造成本等)、相关配套设施状况(包含供电、供水、供网等)、配送服务点综合运营成本(如用电费用、人力成本、采购成本等)等。相应的作为补偿，虽然该规划方法可通过给定的数据集合给出决策结果，提供出节点的具体的选址位置坐标，但提供给用户的决策意见是以此坐标为中心的方圆500米的一个选址范围，从而方便用户根据在地的实际情况，包括是否适合建设网点、成本情况来选择适合的物流配送地点的合理位置。

接下来结合BIRCH聚类算法，BIRCH(Balanced Iterative Reducing andClustering using Hierarchies)算法是一种层次聚类算法，采用自底向上的策略进行聚类，并通过迭代对改进结果进行重新定位。BIRCH算法只需要单遍遍历数据集就能够进行较为有效的聚类过程，可以达到最小化数据集的输入输出的目的，因此比较适用于对大数据集的处理。BIRCH算法有两个核心概念：聚类特征(Clustering Feature,CF)和聚类特征树CF-Tree，其定义如下。

定义1：给定一个包含N个d维数据点的簇：{x_i}(x_i＝1,2,...,N)，则该簇的聚类特征(CF)可以表示为一个三元组，即：CF＝(N,LS,SS)，其中N是簇中数据点的个数，LS是N个数据点的线性和，即

SS是N个数据点的平方和，即

定义2：每一棵聚类特征树都是一棵平衡树，这棵树存储了层次聚类中簇的特征。其每个结点可以代表一个簇，且对其每个子结点(也可称为子簇)都包含一个CF聚类特征条目。聚类特征树CF-Tree的形态主要由三个参数决定：非叶结点分支因子B、叶结点分支因子L和子簇最大半径阈值T。其中，分支因子B限定了每个非叶子结点的最大子结点个数；分支因子L限定每个叶子结点的最大子簇数；最大半径阈值T限定了子簇的最大半径，从而保证子簇的紧凑程度。其基本运行原理如图4所示。

聚类特征CF＝(N,LS,SS)概括了簇的基本信息，同时也确保了自身是高度压缩的结果，其中通过LS可以计算聚类的中心，计算公式如下：

x₀为簇的中心，可以用于计算簇(点)与簇(点)之间的距离；通过SS可以计算簇内对象的平均距离，也就是簇半径，公式如下：

由于聚类特征CF满足线性可加性，由此可以发现：

CF₁+CF₂＝(N₁+N₂,LS₁+LS₂,SS₁+SS₂) (8)

聚类特征线性可加这一个特征，使得聚类特征树CF-Tree中结点的CF条目(N,LS,SS)值等于这个CF条目所指向的子结点的所有条目之和，这使得在进行CF-Tree增量更新的过程中效率很高。

进行BIRCH聚类的过程就是用所有的样本构建一颗聚类特征树的过程，每个结点就是一个聚类的簇。BIRCH算法十分高效，处理大数据集时对内存的需求也不高；相比于其他聚类算法(如k-means算法)，BIRCH算法不用预先指定聚类个数，可以自动发现聚类。

结合本发明所探讨的多层级均衡选址问题，可以发现：1)BIRCH算法实现了层次化的聚类，但并没有给出每个子簇的中心点；2)BIRCH算法根据参数B、L、T进一步控制了结点的分裂，从而限制了每个簇的子簇个数，进而满足了发明中针对于各个同层次子簇之间的大小均衡的要求。仅需要对子簇大小进行限制和控制就可以达到目的。本发明中采用带容量限制的BIRCH算法是在BIRCH算法的基础上修改而来。具体修改内容如下：

(1)针对聚类特征CF增加一个属性：也就是容量属性，从而便于通过单个节点的容量对聚类结果进行控制；由此，聚类特征增加容量W，以此表示了该子簇的容量大小，CF＝(N,LS,SS,W)使得聚类特征向量用一个四元组来表示，根据前面对于聚类特征的描述可知，添加该属性后CF依然满足线性可加性：

CF₁+CF₂＝(N₁+N₂,LS₁+LS₂,SS₁+SS₂,W₁+W₂) (9)

(2)聚类特征树CF-Tree树结构被限定为三层，包括：根结点、中间结点、叶结点，因为最终目标是层级内聚类所形成的子集(每层聚类结果为m个子集)均衡划分，因此使用三层即可。

(3)由于要通过聚类特征的容量作为控制分裂的条件，因此不使用非叶结点分支因子B控制非叶结点的分裂，而是通过引入变量中间结点容量阈值H来对非叶节点的分裂进行控制，当中间结点的自身容量达到H，就自动进行结点的分裂，分裂规则为：选择该中间结点距离最远的两个聚类特征CF条目(根据聚类中心x₀计算，公式(7))作为新中间结点的初始叶结点，其余叶结点CF条目依次合并到较近的新中间结点。

(4)依然使用叶结点分支因子L和子簇最大半径阈值T来控制叶结点和子簇的大小，从而防止叶结点过大使中间结点分裂失败。

如规划方法中图3所示的第一阶段基于带容量的BIRCH聚类算法的具体步骤如下：

①读入新样本x(表示当前层内某一需求点)，根据其坐标位置在所有子簇(表示当前已存在的划分子集)中寻找距离x最近的子簇D(根据公式(6)可比较)，将x加入到子簇D中，如果x加入后，子簇D的簇半径(根据公式(7)可计算)小于阈值T，则对该子簇进行更新转入步骤④；否则转入步骤②，进行分裂操作；

②将子簇D中最远的一个样本点独立出去，作为一个新的子簇，并归入这个子簇的叶结点，如果当前叶结点的子簇个数小于阈值L，转入步骤④对该子簇的聚类特征四元组进行更新。否则转入步骤③，对超过阈值的叶节点进行分裂操作；

③选择叶结点中距离最远的两个聚类特征CF条目，使之独立做为两个新叶结点的第一个CF条目，将其余CF条目按照距离远近归入对应的叶结点；

④更新从子簇向上到根节点的路径上所有的CF＝(N,LS,SS,W)四元组信息，检查中间结点的容量W是否超过容量阈值H，超过则按步骤③所述分裂规则获得分裂后的中间结点；

⑤若还有未处理样本，继续引入样本执行步骤①，否则检查中间簇结点，将容量小于H/2的中间簇结点所含样本点重新按照步骤①进行处理，直到所有中间簇结点的容量范围都处于大于H/2小于H，从而均衡各个中间簇节点的容量数值。

⑥当所有中间簇节点的容量大于H/2小于H，全部的中间簇节点即为第n+1层需求点集合的m个均衡划分，也就是所求的m个配送范围。

下面，以对第n层物流配送节点进行选址为例，对以上步骤作补充说明。

假设目前要对第n层物流配送节点进行选址决策，首先进行配送范围的划分。输入数据为n+1层的需求点位置的坐标和每个点位的需求量，即已知(或者来自上一轮求得的节点选址结果)的第n+1层的需求点(当n+1层不是最底层的需求点时，即为中间层的物流配送节点)及其需求量。决策的目标是将第n+1层的需求点集合划分成m个子集，从而使得各个子集在地理位置上满足足够内聚且和互不相交两个条件，同时将每个需求点的需求量作为条件，使得各个子集所包含的需求量大致相当，即满足了去区域划分后的需求量负载均衡。

进入图1所示的算法的第一个阶段，通过运行带容量限制的BIRCH算法，将获得的需求点坐标及需求量读入算法中。对于每个样本x，它将加入到与它最近的子簇D中，随后程序会检测以下几个情况是否发生：子簇分裂、叶节点分裂、中间节点分裂。当程序运行完成时，在内存中就构建好了一颗聚类特征平衡树CF-Tree，它的所有中间结点容量大于H/2小于H。所得到的全部中间结点即为第n+1层需求点集合的m个具有均衡特性的划分子集，其实际意义也就是所求的m个配送范围。接下来进入图1所示的方法中第二阶段的步骤，要针对每一个配送范围求解其配送范围内最优的物流配送节点。

为了在已经划分好的配送范围内选择最优物流配送节点的物理位置，也即是解决连续区域单设施选址问题，接下来进入到算法的第二阶段，采用重心法进行连续区域内的单点选址。

以对第n层物流配送节点进行选址为例，在上一阶段已经使用带容量限制的BIRCH算法将第n+1层的需求点集划分成了m个容量相对均衡的不重叠子集，第二阶段即是用重心法(基于Dijkstra距离)为每个子集(配送服务范围)选择一个位置作为该配送范围内的最优物流配送节点选址。

重心法是解决连续区域单设施选址问题比较常用的一种方法，前提是各个需求点的位置和需求量已知，通过优化使得运输总成本最小。

min运输总成本＝miny中心与各需求点之间的运输距离×需求量 (10)

由此，区域内需求点所成的超多面体的几何重心可以作为该单设施选址问题的最优解。计算公式如下

如图1第二阶段的算法步骤如下：

①对需要求解的m个划分配送范围的其中一个子集D引入进行初始化，相邻节点之间的权重为根据运输距离及交通条件等外界因素建立的“运输距离”，该变量体现了与运输距离等外在因素成正相关的一些参数变化条件，可根据实际情况进行进一步优化调整，此处取“运输距离”代表。

②计算任意两个节点之间的Dijkstra距离，迭代求得最短距离；

③使用Dijkstra距离带入公式(11)，所求得的重心即为该子集D的重心点，也即为该配送范围的节点选址结果。

通过重心法求得的第n+1层全部m个重心点即为第n层m个物流配送节点的位置，结合上一阶段求得的对需求点集的划分，分别可以计算出全部的配送节点的集合，该解集构成了第n层物流配送节点的选址结果。该过程结束后，通过判断当前节点的层级，如果第n层次是目前决策选址规划的最好层次，那么将会结束整个选址过程同时返回整体的选址结果，形成选址规划方案，提供给用户。

反之，如果当前的第n层次还有上级层次需要进行选址规划，需要将第n层的物流配送节点看作第n-1层物流配送节点的需求点，需求量为对应配送范围的总需求量，将其作为已知条件重新带入到算法第一阶段。继续进行这两阶段的计算即可得到第n-1层的选址决策，如此一步步迭代操作可得到从底层物流配送节点到顶层物流配送节点的全部选址决策结果，形成最终规划方案。

该方法避免了同时决策配送节点的位置和快件的配送线路；通过从底层到顶层的逐层递进决策，实现了多层级选址；在划分配送范围时保证了快件负载的均衡性。该方法针对物流配送节点选址规划类问题的各种特点都进行了优化和改进处理，为物流节点选址规划问题提供了更好的解决方案。

以上说明所描述的实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变换和改进。这些都属于本发明的保护范围。