CN114596030A

CN114596030A - 基于数据挖掘的快递网点运营预测模型

Info

Publication number: CN114596030A
Application number: CN202210230042.9A
Authority: CN
Inventors: 孙哲; 张璐; 孙知信; 赵学健; 汪胡青; 宫婧; 胡冰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-07

Abstract

一种基于数据挖掘的快递网点运营预测模型，针对快递企业部署的快递网点的运营情况进行预测，甄别出运营困难的快递网点，包括如下步骤：建立适用快递网点的运营状况指标集和计算快递网点运营影响指数，并采集相应数据；对收集到的数据进行预处理，包括异常值剔除、最大最小归一化、缺失值的填充、针对业务时序数据进行傅里叶滤波压缩；构建样本集，并对预处理过后的样本集筛选特征,并重构样本集，据此构建样本局部稀疏性指标矩阵，识别离群点；依据现有数据进行基于混合采样的LightGBM分类预测训练，获取一个平衡样本集和训练好的LightGBM模型。

Description

基于数据挖掘的快递网点运营预测模型

技术领域

本发明属于数据挖掘技术领域，具体涉及一种基于数据挖掘的快递网点运营预测模型。

背景技术

近年来，随着电子商务的发展，网络购物人群增多，快递业务量攀升，快递行业竞争越来越激烈，很多快递网点出现运营异常，甚至倒闭的现象，而快递网点的倒闭会导致快递公司失去相应片区的服务范围，除此之外用户收寄快递也会受到影响，现有的快递网点运营评估大多针对其健康状况进行评价评分，而对快递网点运营状况进行二分类预测，能尽早关注到运营困难的网点，从而帮助快递公司做出相应决策。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于数据挖掘的快递网点运营预测模型，建立适用于快递网点运营情况的指标集，从业务特点方面量化快递网点运营异常的影响，将代价敏感的思想引入二分类预测模型中，从而重点关注运营异常代价较大的快递网点，提高预测精度。

本发明提供一种基于数据挖掘的快递网点运营预测模型，包括如下步骤，

步骤S1.建立适用快递网点的运营状况指标集和计算快递网点运营影响指数，并采集相应数据；

步骤S2.对收集到的数据进行预处理，预处理包括异常值剔除、最大最小归一化、缺失值的填充、针对业务时序数据进行傅里叶滤波压缩；

步骤S3.构建样本集，并对预处理过后的样本集筛选特征，并重构样本集，据此构建样本局部稀疏性指标矩阵，识别离群点；

步骤S4.依据现有数据进行基于混合采样的LightGBM分类预测训练，获取平衡样本集和训练完成的LightGBM模型；

步骤S5.通过训练完成的LightGBM模型对快递网点运营状况进行分类预测。

作为本发明的进一步技术方案，步骤S1中快递网点的运营状况指标集包括内部指标和外部指标；

内部指标包括财务、客户、内部流程、学习与成长指标；

外部指标包括经济、地理交通、人口指标。

进一步的，步骤S1中计算快递网点运营影响指数的具体方法为，

针对快递网点i，对应的运营状况影响指数计算公式为

其中，

为快递网点i的配送失效上级影响指数，其公式为

其中，M_i为与快递网点i直接相连的上级站点集，

上级站点j对网点i的配送失效承受系数为

其中，

为站点I近一年中的单日最大库存量，

为单日平均库存量，

为网点i与上级站点j之间的单日平均快件配送量；

公式(1-1)中，

为快递网点i的配送失效同级影响指数，其公式为

其中，

为按照地理距离升序排列后的快递网点i的同级网点集，

为网点k的单日最大派件量，

为单日平均派件量，

为快递网点i的单日平均派件量与单日平均收件量之和，

为网点k与快递网点i之间的实际地理距离，

为

的最大值；

公式(1-1)中的

为快递网点i的服务密度，其公式为

其中，

为快递网点i的各自客户总数，

为快递网点i的服务半径，公式为

其中，

为服务区域与快递网点i的服务区域相邻的快递网点集，

(km)为快递网点i和网点k的实际地理距离，

为快递网点k的单日平均派件量与单日平均收件量之和；

公式(1-1)中的

指快递网点i对网络连通率下降指数，其公式为

其中，η为图G的连通效率，图G是指由包含区域中转中心、城市分拨中心、快递网点、末端代收点为点集V，将存在配送关系的节点进行连接，构成的无向连接图，

网络连通效率计算公式为

其中，d_pq为图中各个节点之间的地理路径进行最大最小归一化之后计算的最短路径；η′_i为重置快递网点i和与之相连的边的距离d_ij之后再次按照公式(1-8)计算的联通效率，d_ij的更新公式为，

其中，B_i是指由最短路径经过快递网点i的起点终点对(v_f，v_l)_i，构成的点对集合，|B_i|指该集合中点对总数；

公式(1-1)中的

是指网络中过网点i最短路径的下降指数，公式为

进一步的，步骤S2中针对业务时序数据进行傅里叶滤波压缩的具体方法为，

针对每日更新的时变属性j，获取快递网点i的过去一年中单日数据

t∈{0，1，2......Y-1}，Y为更新次数，取偶数，若为奇数，则含弃距离当前时间点最远的数据，通过离散傅里叶变换获取复数序列，变换公式为

将时域数据转换到频域数据，设置压缩比μ，其中，μ须使得

为1、2、3、4中的一个整数，按照快递网点i在过去一年中的运营时长确定；

按照压缩比并通过公式(2-2)进行还原；公式为

进一步的，步骤S3中，构建样本集的具体方法为，

步骤S31.全局共有m个快递网点，每个网点有d个属性，针对快递网点i，将其时变属性和其他属性合并为

步骤S32.将

依据Y_i对齐，即按照t＝t+4-Y_i更新对应网点样本的时序标记；

步骤S33.按照当前运营状况，对网点集进行划分，截至统计日期，运营不正常的网点集为A，运营正常的网点集为B，则对该网点运营状况，记为

由此生成样本集为

进一步的，步骤S3中，筛选特征具体为：

根据数据采样方式的相关系数进行筛选，其公式为

其中，

|r|≤r_th的特征可筛去，r_th为相关系数门限值；

重构样本集的具体为：

针对样本点集I中的样本点

的属性列，更新t＝t*d，将更新的t作为新的时序属性放入属性集；

针对样本点集I中的样本点

遍历i＝0，1......m-1，按照公式(3-4)进行更新，即

公式(3-4)为

构建局部稀疏性指标矩阵具体为：

根据每一个样本点x_i，通过公式(3-5)计算其近邻样本距离权重；公式(3-5)为

为样本点x_k与x_i的欧式距离；

针对每一个数据点x_ij，通过公式(3-6)获取其稀疏性指标值，公式(3-6)为

设置稀疏性指标阈值

取

中值，大于

的赋0，小于

的赋1，由此构成全部样本的局部稀疏性指标矩阵；

识别离群点的具体过程为：

孤立森林中针对样本点x_i的异常分数值为：

其中，

H(ψ-1)估计为H(ψ-1)＝ln(ψ-1)+0.5772156649，

ψ指从样本集I′中随机选取ψ个样本点，

样本集I′指根据权利要求6中所述的局部稀疏性指标矩阵删除全0行的样本点，在样本点集I中选择非全1行的样本点构成样本点集I′，

E(·)为期望值，h(x_i)为在孤立树中搜索到样本点x_i的路径长度，p_j为当前节点的父节点对应的分割属性的密集属性概率。

进一步的，步骤S4中的基于混合采样的LightGBM分类预测，包括以下步骤，

步骤S41.采用改进的K-means对样本集进行聚类，获取样本聚类后的最佳簇数k，以及每个簇的样本数目num_i，i∈{1，2，3......k}；

步骤S42.取num＝min(num_i)，采用欧氏距离，找出离样本x_i最近的num个近邻样本，以此计算每个样本的信息熵E_i，设置信息熵门限值E_th，在信息熵大于E_th的样本中构建平衡样本集Group_un；

步骤S43.根据聚类结果进行保留样本聚类特性的Adasyn过采样，设置最终生成的小类新样本的数目NS；

步骤S44.设置T为混合采样迭代轮数，此时当前轮数t＝0设置S_t为当前样本集I中的小类样本数目，按照公式(4-1)计算样本比重，公式(4-1)为

其中，t＝0，1......T-1，分别对样本集I中大类样本和小类样本进行指定簇数目的聚类，依据公式(4-2)聚类簇数都设置为k₁，公式(4-2)为

并分别将k₁个簇中心从各个类别中取出，构成样本集Q₁，并删除样本集I中的2×k₁个样本，从步骤4-2提及的Group_un中分别从两类样本中依据公式(4-3)按信息熵E_i降序排列取出前k₂个样本，公式(4-3)为

构成样本集Q₂，并删除原样本集I中的2×k₂个样本，样本集Q₁和样本集Q₂构成初始样本集Q；

步骤S45.用样本集Q训练第t轮的分类器f_t(x)，t∈{0，1，2......T-1}，在训练分类器时，按照公式(4-4)最小化目标函数为

其中，损失函数为

其中，

为权利要求3中所述求得的归一化后的样本点对应的快递网点的运营状况影响指数，

T_leaf为叶子节点数目，w_j为叶子节点的输出结果，

并对当前的样本集Q运用单边梯度采样进行样本抽样、EFB互斥特征捆绑进行特征抽样，进而对样本进行LightGBM模型训练；

步骤S46.根据当前训练的分类器f_t(x)的分类结果更新样本集Q，包括以下步骤，

步骤S461.根据当前训练的分类器f_t(x)的分类结果，分别计算样本集Q₁和样本集Q₂平均样本损失函数

和

根据公式(4-6)更新样本集的样本权重，公式(4-6)为

其中，

步骤S462.针对当前数据集I中的样本点，重复步骤S42，更新样本集Group_un、原样本集I，更新当前样本集I中小类样本数目S_t、参数k₁和k₂以及训练样本子集Q₂，

步骤S463.根据步骤S41中提及的聚类算法，对大类样本进行指定簇数的聚类，其中，聚类簇数设置为S_t，用步骤S45训练的模型进行分类预测，再按照该分类结果针对每个簇心i计算簇内分类错误度，即公式(4-7)为

其中，C_i指簇心i所在的簇，按Z_i降序排列，取前k₁个簇的簇中心加入样本集Q₁，对小类样本随机选取k₁个样本加入样本集Q₁，并删除原数据集I的对应样本点；

步骤S464.合并样本集Q₁和Q₂，更新训练样本集Q，重复步骤S45～步骤S46，直到t＝T-1。

更进一步的，步骤S41中改进K-means聚类算法，包括以下步骤，

步骤S411.根据局部稀疏性指标值

和密集属性概率p_j计算每个样本的局部密集性值

计算公式(4-8)为

从原始样本集I中取

最高的样本x_i，按照公式(4-9)中的加权欧氏距离，公式(4-9)为

计算

删除以样本x_i为圆心，半径为

的圆形区域内的所有样本点，重复该步骤k次，获取k个初始簇中心放入点集I_k；

步骤S412.将原始样本集I内的样本点按照最近加权欧式距离的原则放入相应的簇C_i，i∈I_k，

步骤S413.以加权欧氏距离计算的簇内伪中心，选择在伪中心为圆心，在其领域内选择离伪中心最近以及离群点最远的样本点为该簇下一个簇中心，重复该步骤k次，直到k个簇中心都被更新；

步骤S414.重复步骤S412～步骤S413，直到

收敛至常数；

步骤S415.将

依次代入S411～S413，使

最小的k，并保留对应的聚类结果，其中c_o为以加权欧氏距离计算的全局中心。

更进一步的，步骤S42中，信息熵E_i的计算具体为，

针对样本点，对应的信息熵计算方法见公式(4-11)为

其中，

为样本x_i关于j类的边界样本概率，所有样本按照样本总量分为大类样本和小类样本，小类样本记为1类大类样本记为2类，j＝1，2，用于区分大类和小类，

若x_i为大类样本，

指中样本x_i的num个近邻样本中属于j类样本的数目，

若x_i为小类样本，采用步骤S411中公式(4-9)提及的加权欧氏距离找出离x_i最近的num个近邻样本，计算

保持不变，

的计算公式为

指小类样本x_i的num个近邻样本中属于大类样本的数目，并集合

由

个大类样本组成，

针对每个样本点

根据采用步骤S4-1-1中公式(4-9)提及的加权欧氏距离计算x_i与x_l的距离

K_l为在以

为半径以x伪圆心的样本的数量，

为其中以

为半径以x伪圆心的样本中属于小样本的样本数量。

更进一步的，步骤S43中保留样本聚类特性的Adasyn过采样，具体为，

根据设置的新样本数目NS，按Adasyn采样方式确定每个小类样本点周围生成的新样本数量，运用F分布概率密度函数控制保留聚类结构的新样本生成，新样本生成方式的公式为

其中，f_k，i为控制样本生成的随机数，计算公式为

其中，

a＞2，

a_i和b_i为样本x_i对应的自由度；计算公式为

为使得极大值点

相应地，

其中，

Group_ms为聚类结果中获取簇中心为小类样本的样本点，取在其簇内的所有小类样本点构成的样本集合；

为样本点x_i与其所属的聚类中心

之间的欧氏距离，

knn(x_i)是用欧氏距离寻找出x_i的num个近邻样本构成的集合，

num为聚类结果中的最小簇内样本数目；

d_k，i为样本点x_k与样本点x_i之间的欧氏距离，

按照公式(4-13)，生成新样本，直到满足设置好的新样本规模。

本发明的优点在于，

1、鉴于快递网点的运营业务特点，建立了适用与快递网点运营情况指标集，基于复杂网络理论，从业务特点方面量化了快递网点运营异常的影响，以代价敏感的思想引入二分类预测模型中，以此重点关注运营异常代价较大的快递网点，提高其预测精度，使得快递公司及时精准地注意对应的网点，提早预备解决方案，从而降低快递网点运营异常带来的损失。

2、分类不平衡造成最终分类器对小类样本学习不足，这是二分类预测常遇到的问题，基于混合采样的LightGBM预测框架使每一轮的LightGBM分类器使用平衡的样本集进行训练，并且其中采用了聚类方法和信息熵选择出分类器难以识别的样本进行强化训练，从而达到提高训练精度的效果。

附图说明

图1为本发明的训练流程图。

具体实施方式

请参阅图1，本实施例提供本发明一种基于数据挖掘的快递网点运营预测模型，包括如下步骤，

步骤S1包括：

S1-1：建立快递网点运营情况指标集包括了快递网点内部因素、外部因素，详见表1；

表1快递网点运营情况指标集数据表

S1-2：计算快递网点运营影响指数，包括如下步骤：

S1-2-1：以地理坐标分布构建区域快递网络分布图，包含区域中转中心、城市分拨中心、快递网点、末端代收点为点集V，划分快递网点集为点集V^E，将存在配送关系的节点进行连接，构成无向连接图G；

S1-2-2：获取无向图G中点i与点j连接的实际边值d_ij，该变量以两节点之间的实际路径公里数度量，按

归一化边值，其中，d^min为实际路径最小值，d^max为实际路径最大值，求取图中各个节点之间的最短路径d_pq，1＜p＜q＜|V|；

S1-2-3：无向连接图G中求取点与点之间的最短路径，针对快递网点集V^E，记录最短路径经过快递网点i的起点终点对(v_f，v_l)_i，构成集合B_i，公式(1-8)计算该网络中连通效率：

S1-2-4：针对快递网点集V^E中的快递网点i，与之相连的边的距离d_ij按照公式(1-9)设置为

再次计算连通效率η′_i，则快递网点i对网络连通率下降指数：

S1-2-5：对集合B_i中的点对重新求取最短路径d′_pq，(p，q)∈B_i，计算网络中过网点i最短路径的下降指数，如公式(1-10)：

S1-2-6：搜索与快递网点i直接相连的上级站点(含城市分拨中心等中转站点)，构成点集M_i，针对j∈M_i，获取其站点近一年中的单日最大库存量

和单日平均库存量

网点i与上级站点j之间的单日平均快件配送量

计算上级站点对网点i的配送失效承受系数，如公式(1-3)：

计算快递网点i的配送失效上级影响指数，如公式(1-2)：

其中，

S1-2-7：针对快递网点i，根据步骤S1-2-6提及的上级站点集M_i，对M_i中的每个站点，获取其对应的下一级网点，即快递网点i的同级网点，并构成点集V_i ^peer，针对网点j∈V_i ^peer，获取网点的单日最大派件量

单日平均派件量

地理坐标信息，记

为快递网点i的单日平均派件量与单日平均收件量之和，计算点集V_i ^peer中的每个网点与快递网点i之间的实际地理距离

(km)，并按照

升序排列V_i ^peer中的网点，获取其排列序号k＝1，2......|V_i ^peer|，记

为

j∈V_i ^peer的最大值，针对排序后的V_i ^peer，k＝1表示与快递网点i地理距离最小的同级网点，按照公式(1-4)计算快递网点i的配送失效同级影响指数：

S1-2-8：针对快递网点集V^E中所有的快递网点计算其服务范围：

针对i∈V^E，搜索服务区域与其服务区域相邻的快递网点构成点集V_i ^negb，连接i与j∈V_i ^negb，获取快递网点i和V_i ^negb中网点的各自客户总数

单日平均派件量、单日平均收件量、地理位置，计算快递网点i和V_i ^negb中网点k的实际地理距离

(km)，记

为网点k的单日平均派件量与单日平均收件量之和，按照公式(1-6)计算快递网点i的服务半径：

计算网点i的服务密度，如公式(1-5)：

S1-2-9：按照公式(1-1)计算快递网点i的运营状况影响指数：

对影响指数进行最大最小归一化，得到归一化后的结果

步骤S2包括：

S2-1：针对具体的快递网点作为样本点，若其内部因素属性缺失值个数超过内部因素所有属性个数的75％，则删去该样本点，否则可用所属最小单位地区快递网点集群对应属性数据的均值替代；外部因素中的经济、人口方面的属性缺失值可用最小单位地区内其他快递网点集群对应的属性数据补充；

S2-2：绘制箱线图，识别并提出异常值；

S2-3：计快递网点总数为m，指标数为d，对于快递网点i的第j个属性进行最大最小归一化：

S2-4-1：进一步划分快递网点运营情况指标集，获取其中的时变属性集，如表2所示，

表2快递网点运营情况的时变属性集表

S2-4-2：针对表2中时变属性j，获取快递网点i的过去一年中的所有数据

Y为该属性一年中更新的次数，取偶数，若为奇数，则含弃距离当前时间点最远的数据，按照公式(2-2)经过离散傅里叶变换得到复数序列，即将时域数据转换到频域数据；

其中，k＝0、1.......Y/2，t＝0、1.......Y-1，记：

S2-4-3：将频域数据转换到时域数据，设置压缩比μ，其中，μ须使得

为1、2、3、4中的一个整数，按照快递网点i在过去一年中的运营时长确定，例如，过去一年运营时长覆盖全年的快递网点i，则对应的Y_i为4，只覆盖三个季度的快递网点对应的Y_i为3，不足1个季度的快递网点对应的Y_i为1，按照压缩比和公式(2-3)进行还原

其中，t＝0，1......Y_i-1。

步骤S3包括：

S3-1：构建样本集包括如下步骤：

S3-1-1：全局共有m个快递网点，每个网点有d个属性，针对快递网点i，将其时变属性和其他属性合并为

S3-1-2：将

依据Y_i对齐，即按照公式(3-1)

t＝t+4-Y_i (3-1)

更新对应网点样本的时序标记，构成Y_i个样本；

S3-1-3：按照当前运营状况，对网点集进行划分，截至统计日期，运营不正常的网点集为A，运营正常的网点集为B，则对该网点运营状况，记为：

由此生成样本集

总共有

个样本；

S3-2：根据公式(3-3)给出的相关性系数筛选特征：

考虑数据采样方式的相关系数进行筛选，其计算方式为公式(3-3)：

其中，

|r|≤r_th的特征可筛去，r_th为相关系数门限值，更新属性集数目d；

S3-3：重构样本集，包括如下步骤：

S3-3-1：针对样本点集I中的样本点

的属性列，更新t＝t*d，将更新的t作为新的时序属性放入属性集，更新d＝d+1；

S3-3-2：针对样本点集I中的样本点

遍历i＝0，1......m-1，按照公式(3-4)进行更新，即

S3-3-3：针对原样本集I，将x_i′覆盖原样本点

至此，样本集I中的样本点可表示为x₀，x₁……x_m′-1，其中，

S3-4：构建局部稀疏性指标矩阵，包括如下步骤：

S3-4-1：针对每一个样本点x_i求出其k个近邻样本点集knn(x_i)，求出每个近邻样本x_k与x_i的欧式距离

依据公式(3-5)计算近邻样本距离权重：

S3-4-2：针对每一个数据点x_ij，依据公式(3-6)求出其稀疏性指标值：

其中，x_ij是指在knn(x_i)中样本点第j个特征对应的数据，c_ij指knn(x_i)中样本点第j个特征数据列的平均值；

S3-4-3：设置稀疏性指标阈值

取

中值，大于

的赋0，小于

的赋1，由此构成全部样本的局部稀疏性指标矩阵；

S3-5：根据局部稀疏性指标矩阵构建孤立森林识别并剔除离群点，包括如下步骤：

S3-5-1：针对局部稀疏性指标矩阵，统计每列为1值的个数a_j，计算该属性为密集属性的概率

S3-5-2：针对样本点集I，根据步骤S3-3中所述的局部稀疏性指标矩阵删除全0行的样本点，在样本点集I中将非全1行的样本点放入样本点集I′；

S3-5-3：针对现有样本点集I′构建孤立森林，从I′中随机选取ψ个样本点作为子样本点集，放入根节点；

S3-5-4：随机选择属性j和分割点Sp，Sp∈(min(x_ij)，max(x_ij))，i∈I，若x_ij＜Sp，则样本x_i放入左子树，否则放入右子树，直到当前节点上只有一个样本点或者已经达到最大树生长高度；

S3-5-5：重复步骤S3-5-3和步骤S3-5-4，直到生成足够数量的孤立树；

S3-5-6：对每一个样本点x_i，使其遍历每棵孤立树，依据公式(3-7)定义样本x_i的异常分数值为：

其中

h(x_i)为在孤立树中搜索到样本点x_i的路径长度，p_j表示当前节点的父节点对应的分割属性的密集属性概率，H(ψ-1)可估计为H(ψ-1)＝ln(ψ-1)+0.5772156649，设置S(x_i，ψ)门限值S_T，若S(x_i，ψ)＞S_T，则标记样本点x_i为离群点，放入离群点集I_s，并从样本点集I中删除该样本点。

步骤S4包括：

S4-1：依据改进的K-means算法对样本集进行聚类，包括：

S4-1-1：根据步骤S3-3-2中的局部稀疏性指标值和步骤S3-4-1中的密集属性概率计算每个样本的局部密集性值，计算方式为公式(4-8)

从原始样本集I中取

最高的样本x_i，按照公式(4-9)中的加权欧氏距离：

计算

删除以样本x_i为圆心，半径为

的圆形区域内的所有样本点，将t＝0，1，2，3依次代入，重复该步骤k次，获取k个初始簇中心放入点集I_k；

S4-1-2：将原始样本集I内的样本点按照最近加权欧式距离的原则放入相应的簇C_i，i∈I_k，

S4-1-3：以加权欧氏距离计算的簇内伪中心，选择在伪中心为圆心，半径为

的样本点构成点集O_i，获取离伪中心最近的离群点p∈I_s和当前离伪中心最近的其他簇中心q∈I_k，遍历O_i中的样本点i，若样本点i使得

最大，则该样本点为该簇下一个簇中心，重复该步骤k次，直到k个簇中心都被更新，

S4-1-4：重复S4-1-2～S4-1-3，直到

收敛至常数；

S4-1-5：将

依次代入S4-1-1～S4-1-3，选择使得

最小的k，并保留对应的聚类结果，其中c_o为以加权欧氏距离计算的全局中心；

S4-2：计算每个样本的信息熵，选出信息熵较大的样本放入样本集Group_un，并从原样本集I中删除这类样本，信息熵的计算包括：

S4-2-1：按照样本数量分为大类样本和小类样本，小类样本记为1类大类样本记为2类，计算边界样本概率

S4-2-2：若x_i属于大类样本，计算

num指步骤S4-1的聚类结果中簇内样本点最小簇的样本数目，

指中样本x_i的num个近邻样本中属于j类样本的数目；

S4-2-3：若x_i属于小类样本，采用步骤S4-1-1中公式(4-9)提及的加权欧氏距离找出离x_i最近的num个近邻样本，计算

保持不变，

的计算步骤如下：

S4-2-3a)

指小类样本x_i的num个近邻样本中属于大类样本的数目，并将

个大类样本构建为集合

S4-2-3b)：针对每个样本点

统计在以

为半径以x_l为圆心的样本的数量K_l，记其中属于小样本的样本数量为

S4-2-3c)：计算样本x_i的边界样本概率：

S4-2-4：计算样本的信息熵：

S4-2-5：设置信息熵门限值E_th，将原样本集中的样本按信息熵降序排列，信息熵大于E_th的样本中按照类别统计样本数量，记信息熵大于E_th的小类样本的数量为G_min，并取出G_min个信息熵大于E_th的小类样本，同时取出前G_min个大类样本，放入样本集Group_un，删除原样本集中的2×G_min个样本；

S4-3：进行保留样本聚类分布特性的Adasyn过采样，包括如下步骤：

S4-3-1：在步骤S4-1得到的聚类结果中获取簇中心为小类样本的样本点，取在其簇内的所有小类样本点构成样本集合Group_ms，针对每个样本点x_i∈Group_ms，保存记录每个样本点的聚类中心x_i，c，，用欧氏距离寻找出x_i的num个近邻样本，构成点集knn(x_i)，并计算其比率

i∈Group_ms，Δ_i表示num个近邻样本中属于大类样本的数量。

S4-3-2：计算Group_ms中样本点周围生成的小类样本数量，

为Groupms中样本点周围需生成的样本比例，设置最终生成的小类新样本的数目NS，

为待生成的样本数量，记为NS_i；

S4-3-3：运用F分布概率密度函数控制保留聚类结构的新样本生成，包括以下步骤：

S4-3-3a)：针对样本点x_i∈Group_ms，获取所有的聚类中心

记

为样本点x_i与其所属的聚类中心

之间的欧氏距离，记

S4-3-3b)：针对样本点x_k∈knn(x_i)，记d_k，i为样本点x_k与样本点x_i之间的欧氏距离，记

S4-3-3c)：按离x_i远近顺序选取一个近邻样本x_k∈knn(x_i)，按公式(4-13)合成新样本点：

其中，f_k，i为控制样本生成的随机数，其计算方式如公式(4-14)所示：

其中

a_i和b_i为样本x_i对应的自由度，其计算方式分别见公式(4-16)和(4-15)：

为使得极大值点

得出a_i计算公式为(4-16)：

S4-3-4：重复步骤S4-3-3直到生成步骤S4-3-2中的样本数量；

S4-4：设置T为混合采样迭代轮数，此时当前轮数t＝0设置S_t为当前样本集I中的小类样本数目，按照公式(4-1)计算样本比重：

其中t＝0，1......T-1，分别对样本集I中大类样本和小类样本按照步骤

S4-1-1～S4-1-4进行指定簇数目的聚类，依据公式(4-2)聚类簇数都设置为k₁，

并分别将k₁个簇中心从各个类别中取出，构成样本集Q₁，并删除样本集I中的2×k₁个样本，从步骤S4-2提及的Group_un中分别从两类样本中按公式(4-11)计算的E_i，依据公式(4-3)按降序排列取出前k₂个样本，

构成样本集Q₂，并删除原样本集I中的2×k₂个样本，样本集Q₁和样本集Q₂构成初始样本集Q。

S4-5：用样本集Q训练第t轮的分类器f_t(x)，t∈{0，1，2......T-1}，在训练分类器时，按照公式(4-4)最小化目标函数：

其中

其中损失函数如公式(4-5)所示：

其中

为步骤S1-2求得的归一化后的样本点对应的快递网点的运营状况影响指数，T_leaf表示叶子节点数目，W_j表示叶子节点的输出结果，并对当前的样本集Q运用单边梯度采样进行样本抽样、EFB互斥特征捆绑进行特征抽样，进而对样本进行LightGBM模型训练；

S4-6：根据当前训练的分类器f_t(x)的分类结果更新样本集Q，包括以下步骤：

S4-6-1：分别计算样本集Q₁和样本集Q₂平均样本损失函数，

和

据此更新样本集Q₂的样本权重，如公式(4-6)所示：

其中，

S4-6-2：针对当前数据集I中的样本点，重复步骤S4-2，更新样本集Group_un和I，t＝t+1，更新当前样本集中小类样本数目S_t，并根据公式(4-2)和(4-3)更新k₁和k₂，从步骤S4-2提及的Group_un中分别从两类样本中按公式(4-11)计算的E_i，按降序排列取出前k₂个样本，构成样本集Q₂，并删除原样本集I中的2×k₂个样本，

S4-6-3：对大类样本进行步骤S4-1-1～S4-1-4聚类，其中，聚类簇数设置为S_t，用S4-5训练的模型进行分类预测，再按照该分类结果针对每个簇心i计算簇内分类错误度，即公式(4-7)：

按Z_i降序排列，取前k₁个簇的簇中心加入样本集Q₁，对小类样本随机选取k₁个样本加入样本集Q₁，并删除原数据集I的对应样本点，

S4-6-4：合并样本集Q₁和Q₂，更新训练样本集Q；

重复步骤S4-5～S4-6，直到t＝T-1结束。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解，本发明不受上述具体实施例的限制，上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理，在不脱离本发明精神范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

Claims

1.基于数据挖掘的快递网点运营预测模型，其特征在于，包括如下步骤，

步骤S3.构建样本集，并对预处理过后的样本集筛选特征,并重构样本集，据此构建样本局部稀疏性指标矩阵，识别离群点；

2.根据权利要求1所述的基于数据挖掘的快递网点运营预测模型，其特征在于，

所述步骤S1中快递网点的运营状况指标集包括内部指标和外部指标；

所述内部指标包括财务、客户、内部流程、学习与成长指标；

所述外部指标包括经济、地理交通、人口指标。

3.根据权利要求1所述的基于数据挖掘的快递网点运营预测模型，其特征在于，

所述步骤S1中计算快递网点运营影响指数的具体方法为，

针对快递网点i，对应的运营状况影响指数计算公式为

其中，

为快递网点i的配送失效上级影响指数，其公式为

其中，M_i为与快递网点i直接相连的上级站点集，

上级站点j对网点i的配送失效承受系数为

其中，

为站点j近一年中的单日最大库存量，

为单日平均库存量，

为网点i与上级站点j之间的单日平均快件配送量；

公式(1-1)中，

为快递网点i的配送失效同级影响指数，其公式为

其中，

为按照地理距离升序排列后的快递网点i的同级网点集，

为网点k的单日最大派件量，

为单日平均派件量，

为快递网点i的单日平均派件量与单日平均收件量之和，

为网点k与快递网点i之间的实际地理距离，

为

的最大值；

公式(1-1)中的

为快递网点i的服务密度，其公式为

其中，

为快递网点i的各自客户总数，

为快递网点i的服务半径，公式为

其中，

为服务区域与快递网点i的服务区域相邻的快递网点集，

为快递网点i和网点k的实际地理距离，

为快递网点k的单日平均派件量与单日平均收件量之和；

公式(1-1)中的

指快递网点i对网络连通率下降指数，其公式为

其中，η为图G的连通效率,图G是指由包含区域中转中心、城市分拨中心、快递网点、末端代收点为点集V，将存在配送关系的节点进行连接，构成的无向连接图，

网络连通效率计算公式为

公式(1-1)中的

是指网络中过网点i最短路径的下降指数，公式为

4.根据权利要求1所述的基于数据挖掘的快递网点运营预测模型，其特征在于，所述步骤S2中针对业务时序数据进行傅里叶滤波压缩的具体方法为，

Y为更新次数，取偶数，若为奇数，则舍弃距离当前时间点最远的数据，通过离散傅里叶变换获取复数序列，变换公式为

将时域数据转换到频域数据，设置压缩比μ，其中，μ须使得

按照压缩比并通过公式(2-2)进行还原；公式为

5.据权利要求1所述的基于数据挖掘的快递网点运营预测模型，其特征在于，所述步骤S3中，构建样本集的具体方法为，

步骤S32.将

由此生成样本集为

6.据权利要求1所述的基于数据挖掘的快递网点运营预测模型，其特征在于，所述步骤S3中，筛选特征具体为：

根据数据采样方式的相关系数进行筛选，其公式为

其中，

|r|≤r_th的特征可筛去，r_th为相关系数门限值；

重构样本集的具体为：

针对样本点集I中的样本点

的属性列，更新t＝t*d,将更新的t作为新的时序属性放入属性集；

针对样本点集I中的样本点

遍历i＝0，1......m-1,按照公式(3-4)进行更新,即

公式(3-4)为

构建局部稀疏性指标矩阵具体为：

为样本点x_k与x_i的欧式距离；

设置稀疏性指标阈值

取

中值，大于

的赋0，小于

的赋1，由此构成全部样本的局部稀疏性指标矩阵；

识别离群点的具体过程为：

孤立森林中针对样本点x_i的异常分数值为：

其中，

H(ψ-1)估计为H(ψ-1)＝ln(ψ-1)+0.577156649，

ψ指从样本集I′中随机选取ψ个样本点，

7.据权利要求1所述的基于数据挖掘的快递网点运营预测模型，其特征在于，所述步骤S4中的基于混合采样的LightGBM分类预测，包括以下步骤，

步骤S44.设置T为混合采样迭代轮数,此时当前轮数t＝0设置S_t为当前样本集I中的小类样本数目，按照公式(4-1)计算样本比重，公式(4-1)为

其中，损失函数为

其中，

T_leaf为叶子节点数目，w_j为叶子节点的输出结果，

步骤S46.根据当前训练的分类器f_t(x)的分类结果更新样本集Q，包括以下步骤，步骤S461.根据当前训练的分类器f_t(x)的分类结果，分别计算样本集Q₁和样本集Q₂平均样本损失函数

和

根据公式(4-6)更新样本集的样本权重，公式(4-6)为

其中，

8.据权利要求7所述的基于数据挖掘的快递网点运营预测模型，其特征在于，所述步骤S41中改进K-means聚类算法，包括以下步骤，

步骤S411.根据局部稀疏性指标值

和密集属性概率p_j计算每个样本的局部密集性值

计算公式(4-8)为

从原始样本集I中取

最高的样本x_i，按照公式(4-9)中的加权欧氏距离，公式(4-9)为

计算

删除以样本x_i为圆心，半径为

步骤S414.重复步骤S412～步骤S413，直到

收敛至常数；

步骤S415.将

依次代入S411～S413，使

9.据权利要求7所述的基于数据挖掘的快递网点运营预测模型，其特征在于，所述步骤S42中，信息熵E_i的计算具体为，

针对样本点，对应的信息熵计算方法见公式(4-11)为

其中，

为样本x_i关于j类的边界样本概率，所有样本按照样本总量分为大类样本和小类样本，小类样本记为1类大类样本记为2类，j＝1，2,用于区分大类和小类，

若x_i为大类样本，

指中样本x_i的num个近邻样本中属于j类样本的数目，

保持不变，

的计算公式为

由

个大类样本组成，

针对每个样本点

K_l为在以

为半径以x_l为圆心的样本的数量，

为其中以

为半径以x_l为圆心的样本中属于小样本的样本数量。

10.据权利要求7所述的基于数据挖掘的快递网点运营预测模型，其特征在于，所述步骤S43中保留样本聚类特性的Adasyn过采样，具体为，

其中，f_k，i为控制样本生成的随机数，计算公式为

其中，

a_i和b_i为样本x_i对应的自由度；计算公式为

为使得极大值点

相应地，

其中，

为样本点x_i与其所属的聚类中心

之间的欧氏距离，

knn(x_i)是用欧氏距离寻找出x_i的num个近邻样本构成的集合，

num为聚类结果中的最小簇内样本数目；

d_k，i为样本点x_k与样本点x_i之间的欧氏距离，