CN114596030A - 基于数据挖掘的快递网点运营预测模型 - Google Patents
基于数据挖掘的快递网点运营预测模型 Download PDFInfo
- Publication number
- CN114596030A CN114596030A CN202210230042.9A CN202210230042A CN114596030A CN 114596030 A CN114596030 A CN 114596030A CN 202210230042 A CN202210230042 A CN 202210230042A CN 114596030 A CN114596030 A CN 114596030A
- Authority
- CN
- China
- Prior art keywords
- sample
- point
- formula
- express delivery
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007418 data mining Methods 0.000 title claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 15
- 230000006835 compression Effects 0.000 claims abstract description 12
- 238000007906 compression Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 10
- 230000002159 abnormal effect Effects 0.000 claims abstract description 8
- 238000010606 normalization Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 4
- 229910000831 Steel Inorganic materials 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 230000007717 exclusion Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 239000010959 steel Substances 0.000 claims description 3
- HSFWRNGVRCDJHI-UHFFFAOYSA-N Acetylene Chemical compound C#C HSFWRNGVRCDJHI-UHFFFAOYSA-N 0.000 claims description 2
- 230000001174 ascending effect Effects 0.000 claims description 2
- 238000003064 k means clustering Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000002354 daily effect Effects 0.000 claims 1
- 230000003203 everyday effect Effects 0.000 claims 1
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
- G06Q10/0835—Relationships between shipper or supplier and carriers
- G06Q10/08355—Routing methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/087—Inventory or stock management, e.g. order filling, procurement or balancing against orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于数据挖掘的快递网点运营预测模型,针对快递企业部署的快递网点的运营情况进行预测,甄别出运营困难的快递网点,包括如下步骤:建立适用快递网点的运营状况指标集和计算快递网点运营影响指数,并采集相应数据;对收集到的数据进行预处理,包括异常值剔除、最大最小归一化、缺失值的填充、针对业务时序数据进行傅里叶滤波压缩;构建样本集,并对预处理过后的样本集筛选特征,并重构样本集,据此构建样本局部稀疏性指标矩阵,识别离群点;依据现有数据进行基于混合采样的LightGBM分类预测训练,获取一个平衡样本集和训练好的LightGBM模型。
Description
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于数据挖掘的快递网点运营预测模型。
背景技术
近年来,随着电子商务的发展,网络购物人群增多,快递业务量攀升,快递行业竞争越来越激烈,很多快递网点出现运营异常,甚至倒闭的现象,而快递网点的倒闭会导致快递公司失去相应片区的服务范围,除此之外用户收寄快递也会受到影响,现有的快递网点运营评估大多针对其健康状况进行评价评分,而对快递网点运营状况进行二分类预测,能尽早关注到运营困难的网点,从而帮助快递公司做出相应决策。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于数据挖掘的快递网点运营预测模型,建立适用于快递网点运营情况的指标集,从业务特点方面量化快递网点运营异常的影响,将代价敏感的思想引入二分类预测模型中,从而重点关注运营异常代价较大的快递网点,提高预测精度。
本发明提供一种基于数据挖掘的快递网点运营预测模型,包括如下步骤,
步骤S1.建立适用快递网点的运营状况指标集和计算快递网点运营影响指数,并采集相应数据;
步骤S2.对收集到的数据进行预处理,预处理包括异常值剔除、最大最小归一化、缺失值的填充、针对业务时序数据进行傅里叶滤波压缩;
步骤S3.构建样本集,并对预处理过后的样本集筛选特征,并重构样本集,据此构建样本局部稀疏性指标矩阵,识别离群点;
步骤S4.依据现有数据进行基于混合采样的LightGBM分类预测训练,获取平衡样本集和训练完成的LightGBM模型;
步骤S5.通过训练完成的LightGBM模型对快递网点运营状况进行分类预测。
作为本发明的进一步技术方案,步骤S1中快递网点的运营状况指标集包括内部指标和外部指标;
内部指标包括财务、客户、内部流程、学习与成长指标;
外部指标包括经济、地理交通、人口指标。
进一步的,步骤S1中计算快递网点运营影响指数的具体方法为,
针对快递网点i,对应的运营状况影响指数计算公式为
其中,Mi为与快递网点i直接相连的上级站点集,
上级站点j对网点i的配送失效承受系数为
其中,为按照地理距离升序排列后的快递网点i的同级网点集,为网点k的单日最大派件量,为单日平均派件量,为快递网点i的单日平均派件量与单日平均收件量之和,为网点k与快递网点i之间的实际地理距离,为的最大值;
其中,η为图G的连通效率,图G是指由包含区域中转中心、城市分拨中心、快递网点、末端代收点为点集V,将存在配送关系的节点进行连接,构成的无向连接图,
网络连通效率计算公式为
其中,dpq为图中各个节点之间的地理路径进行最大最小归一化之后计算的最短路径;η′i为重置快递网点i和与之相连的边的距离dij之后再次按照公式(1-8)计算的联通效率,dij的更新公式为,
其中,Bi是指由最短路径经过快递网点i的起点终点对(vf,vl)i,构成的点对集合,|Bi|指该集合中点对总数;
进一步的,步骤S2中针对业务时序数据进行傅里叶滤波压缩的具体方法为,
针对每日更新的时变属性j,获取快递网点i的过去一年中单日数据t∈{0,1,2......Y-1},Y为更新次数,取偶数,若为奇数,则含弃距离当前时间点最远的数据,通过离散傅里叶变换获取复数序列,变换公式为
按照压缩比并通过公式(2-2)进行还原;公式为
进一步的,步骤S3中,构建样本集的具体方法为,
步骤S33.按照当前运营状况,对网点集进行划分,截至统计日期,运营不正常的网点集为A,运营正常的网点集为B,则对该网点运营状况,记为
由此生成样本集为
进一步的,步骤S3中,筛选特征具体为:
根据数据采样方式的相关系数进行筛选,其公式为
|r|≤rth的特征可筛去,rth为相关系数门限值;
重构样本集的具体为:
构建局部稀疏性指标矩阵具体为:
根据每一个样本点xi,通过公式(3-5)计算其近邻样本距离权重;公式(3-5)为
针对每一个数据点xij,通过公式(3-6)获取其稀疏性指标值,公式(3-6)为
识别离群点的具体过程为:
孤立森林中针对样本点xi的异常分数值为:
H(ψ-1)估计为H(ψ-1)=ln(ψ-1)+0.5772156649,
ψ指从样本集I′中随机选取ψ个样本点,
样本集I′指根据权利要求6中所述的局部稀疏性指标矩阵删除全0行的样本点,在样本点集I中选择非全1行的样本点构成样本点集I′,
E(·)为期望值,h(xi)为在孤立树中搜索到样本点xi的路径长度,pj为当前节点的父节点对应的分割属性的密集属性概率。
进一步的,步骤S4中的基于混合采样的LightGBM分类预测,包括以下步骤,
步骤S41.采用改进的K-means对样本集进行聚类,获取样本聚类后的最佳簇数k,以及每个簇的样本数目numi,i∈{1,2,3......k};
步骤S42.取num=min(numi),采用欧氏距离,找出离样本xi最近的num个近邻样本,以此计算每个样本的信息熵Ei,设置信息熵门限值Eth,在信息熵大于Eth的样本中构建平衡样本集Groupun;
步骤S43.根据聚类结果进行保留样本聚类特性的Adasyn过采样,设置最终生成的小类新样本的数目NS;
步骤S44.设置T为混合采样迭代轮数,此时当前轮数t=0设置St为当前样本集I中的小类样本数目,按照公式(4-1)计算样本比重,公式(4-1)为
其中,t=0,1......T-1,分别对样本集I中大类样本和小类样本进行指定簇数目的聚类,依据公式(4-2)聚类簇数都设置为k1,公式(4-2)为
并分别将k1个簇中心从各个类别中取出,构成样本集Q1,并删除样本集I中的2×k1个样本,从步骤4-2提及的Groupun中分别从两类样本中依据公式(4-3)按信息熵Ei降序排列取出前k2个样本,公式(4-3)为
构成样本集Q2,并删除原样本集I中的2×k2个样本,样本集Q1和样本集Q2构成初始样本集Q;
步骤S45.用样本集Q训练第t轮的分类器ft(x),t∈{0,1,2......T-1},在训练分类器时,按照公式(4-4)最小化目标函数为
其中,损失函数为
Tleaf为叶子节点数目,wj为叶子节点的输出结果,
并对当前的样本集Q运用单边梯度采样进行样本抽样、EFB互斥特征捆绑进行特征抽样,进而对样本进行LightGBM模型训练;
步骤S46.根据当前训练的分类器ft(x)的分类结果更新样本集Q,包括以下步骤,
步骤S462.针对当前数据集I中的样本点,重复步骤S42,更新样本集Groupun、原样本集I,更新当前样本集I中小类样本数目St、参数k1和k2以及训练样本子集Q2,
步骤S463.根据步骤S41中提及的聚类算法,对大类样本进行指定簇数的聚类,其中,聚类簇数设置为St,用步骤S45训练的模型进行分类预测,再按照该分类结果针对每个簇心i计算簇内分类错误度,即公式(4-7)为
其中,Ci指簇心i所在的簇,按Zi降序排列,取前k1个簇的簇中心加入样本集Q1,对小类样本随机选取k1个样本加入样本集Q1,并删除原数据集I的对应样本点;
步骤S464.合并样本集Q1和Q2,更新训练样本集Q,重复步骤S45~步骤S46,直到t=T-1。
更进一步的,步骤S41中改进K-means聚类算法,包括以下步骤,
步骤S412.将原始样本集I内的样本点按照最近加权欧式距离的原则放入相应的簇Ci,i∈Ik,
步骤S413.以加权欧氏距离计算的簇内伪中心,选择在伪中心为圆心,在其领域内选择离伪中心最近以及离群点最远的样本点为该簇下一个簇中心,重复该步骤k次,直到k个簇中心都被更新;
最小的k,并保留对应的聚类结果,其中co为以加权欧氏距离计算的全局中心。
更进一步的,步骤S42中,信息熵Ei的计算具体为,
针对样本点,对应的信息熵计算方法见公式(4-11)为
更进一步的,步骤S43中保留样本聚类特性的Adasyn过采样,具体为,
根据设置的新样本数目NS,按Adasyn采样方式确定每个小类样本点周围生成的新样本数量,运用F分布概率密度函数控制保留聚类结构的新样本生成,新样本生成方式的公式为
其中,fk,i为控制样本生成的随机数,计算公式为
Groupms为聚类结果中获取簇中心为小类样本的样本点,取在其簇内的所有小类样本点构成的样本集合;
knn(xi)是用欧氏距离寻找出xi的num个近邻样本构成的集合,
num为聚类结果中的最小簇内样本数目;
dk,i为样本点xk与样本点xi之间的欧氏距离,
按照公式(4-13),生成新样本,直到满足设置好的新样本规模。
本发明的优点在于,
1、鉴于快递网点的运营业务特点,建立了适用与快递网点运营情况指标集,基于复杂网络理论,从业务特点方面量化了快递网点运营异常的影响,以代价敏感的思想引入二分类预测模型中,以此重点关注运营异常代价较大的快递网点,提高其预测精度,使得快递公司及时精准地注意对应的网点,提早预备解决方案,从而降低快递网点运营异常带来的损失。
2、分类不平衡造成最终分类器对小类样本学习不足,这是二分类预测常遇到的问题,基于混合采样的LightGBM预测框架使每一轮的LightGBM分类器使用平衡的样本集进行训练,并且其中采用了聚类方法和信息熵选择出分类器难以识别的样本进行强化训练,从而达到提高训练精度的效果。
附图说明
图1为本发明的训练流程图。
具体实施方式
请参阅图1,本实施例提供本发明一种基于数据挖掘的快递网点运营预测模型,包括如下步骤,
步骤S1.建立适用快递网点的运营状况指标集和计算快递网点运营影响指数,并采集相应数据;
步骤S2.对收集到的数据进行预处理,预处理包括异常值剔除、最大最小归一化、缺失值的填充、针对业务时序数据进行傅里叶滤波压缩;
步骤S3.构建样本集,并对预处理过后的样本集筛选特征,并重构样本集,据此构建样本局部稀疏性指标矩阵,识别离群点;
步骤S4.依据现有数据进行基于混合采样的LightGBM分类预测训练,获取平衡样本集和训练完成的LightGBM模型;
步骤S5.通过训练完成的LightGBM模型对快递网点运营状况进行分类预测。
步骤S1包括:
S1-1:建立快递网点运营情况指标集包括了快递网点内部因素、外部因素,详见表1;
表1快递网点运营情况指标集数据表
S1-2:计算快递网点运营影响指数,包括如下步骤:
S1-2-1:以地理坐标分布构建区域快递网络分布图,包含区域中转中心、城市分拨中心、快递网点、末端代收点为点集V,划分快递网点集为点集VE,将存在配送关系的节点进行连接,构成无向连接图G;
S1-2-2:获取无向图G中点i与点j连接的实际边值dij,该变量以两节点之间的实际路径公里数度量,按归一化边值,其中,dmin为实际路径最小值,dmax为实际路径最大值,求取图中各个节点之间的最短路径dpq,1<p<q<|V|;
S1-2-3:无向连接图G中求取点与点之间的最短路径,针对快递网点集VE,记录最短路径经过快递网点i的起点终点对(vf,vl)i,构成集合Bi,公式(1-8)计算该网络中连通效率:
S1-2-4:针对快递网点集VE中的快递网点i,与之相连的边的距离dij按照公式(1-9)设置为
再次计算连通效率η′i,则快递网点i对网络连通率下降指数:
S1-2-5:对集合Bi中的点对重新求取最短路径d′pq,(p,q)∈Bi,计算网络中过网点i最短路径的下降指数,如公式(1-10):
S1-2-6:搜索与快递网点i直接相连的上级站点(含城市分拨中心等中转站点),构成点集Mi,针对j∈Mi,获取其站点近一年中的单日最大库存量和单日平均库存量网点i与上级站点j之间的单日平均快件配送量计算上级站点对网点i的配送失效承受系数,如公式(1-3):
计算快递网点i的配送失效上级影响指数,如公式(1-2):
S1-2-7:针对快递网点i,根据步骤S1-2-6提及的上级站点集Mi,对Mi中的每个站点,获取其对应的下一级网点,即快递网点i的同级网点,并构成点集Vi peer,针对网点j∈Vi peer,获取网点的单日最大派件量单日平均派件量地理坐标信息,记为快递网点i的单日平均派件量与单日平均收件量之和,计算点集Vi peer中的每个网点与快递网点i之间的实际地理距离(km),并按照升序排列Vi peer中的网点,获取其排列序号k=1,2......|Vi peer|,记为j∈Vi peer的最大值,针对排序后的Vi peer,k=1表示与快递网点i地理距离最小的同级网点,按照公式(1-4)计算快递网点i的配送失效同级影响指数:
S1-2-8:针对快递网点集VE中所有的快递网点计算其服务范围:
针对i∈VE,搜索服务区域与其服务区域相邻的快递网点构成点集Vi negb,连接i与j∈Vi negb,获取快递网点i和Vi negb中网点的各自客户总数单日平均派件量、单日平均收件量、地理位置,计算快递网点i和Vi negb中网点k的实际地理距离(km),记为网点k的单日平均派件量与单日平均收件量之和,按照公式(1-6)计算快递网点i的服务半径:
计算网点i的服务密度,如公式(1-5):
S1-2-9:按照公式(1-1)计算快递网点i的运营状况影响指数:
步骤S2包括:
S2-1:针对具体的快递网点作为样本点,若其内部因素属性缺失值个数超过内部因素所有属性个数的75%,则删去该样本点,否则可用所属最小单位地区快递网点集群对应属性数据的均值替代;外部因素中的经济、人口方面的属性缺失值可用最小单位地区内其他快递网点集群对应的属性数据补充;
S2-2:绘制箱线图,识别并提出异常值;
S2-3:计快递网点总数为m,指标数为d,对于快递网点i的第j个属性进行最大最小归一化:
S2-4-1:进一步划分快递网点运营情况指标集,获取其中的时变属性集,如表2所示,
表2快递网点运营情况的时变属性集表
S2-4-2:针对表2中时变属性j,获取快递网点i的过去一年中的所有数据Y为该属性一年中更新的次数,取偶数,若为奇数,则含弃距离当前时间点最远的数据,按照公式(2-2)经过离散傅里叶变换得到复数序列,即将时域数据转换到频域数据;
其中,k=0、1.......Y/2,t=0、1.......Y-1,记:
S2-4-3:将频域数据转换到时域数据,设置压缩比μ,其中,μ须使得为1、2、3、4中的一个整数,按照快递网点i在过去一年中的运营时长确定,例如,过去一年运营时长覆盖全年的快递网点i,则对应的Yi为4,只覆盖三个季度的快递网点对应的Yi为3,不足1个季度的快递网点对应的Yi为1,按照压缩比和公式(2-3)进行还原
其中,t=0,1......Yi-1。
步骤S3包括:
S3-1:构建样本集包括如下步骤:
t=t+4-Yi (3-1)
更新对应网点样本的时序标记,构成Yi个样本;
S3-1-3:按照当前运营状况,对网点集进行划分,截至统计日期,运营不正常的网点集为A,运营正常的网点集为B,则对该网点运营状况,记为:
由此生成样本集
S3-2:根据公式(3-3)给出的相关性系数筛选特征:
考虑数据采样方式的相关系数进行筛选,其计算方式为公式(3-3):
|r|≤rth的特征可筛去,rth为相关系数门限值,更新属性集数目d;
S3-3:重构样本集,包括如下步骤:
S3-4:构建局部稀疏性指标矩阵,包括如下步骤:
S3-4-2:针对每一个数据点xij,依据公式(3-6)求出其稀疏性指标值:
其中,xij是指在knn(xi)中样本点第j个特征对应的数据,cij指knn(xi)中样本点第j个特征数据列的平均值;
S3-5:根据局部稀疏性指标矩阵构建孤立森林识别并剔除离群点,包括如下步骤:
S3-5-2:针对样本点集I,根据步骤S3-3中所述的局部稀疏性指标矩阵删除全0行的样本点,在样本点集I中将非全1行的样本点放入样本点集I′;
S3-5-3:针对现有样本点集I′构建孤立森林,从I′中随机选取ψ个样本点作为子样本点集,放入根节点;
S3-5-4:随机选择属性j和分割点Sp,Sp∈(min(xij),max(xij)),i∈I,若xij<Sp,则样本xi放入左子树,否则放入右子树,直到当前节点上只有一个样本点或者已经达到最大树生长高度;
S3-5-5:重复步骤S3-5-3和步骤S3-5-4,直到生成足够数量的孤立树;
S3-5-6:对每一个样本点xi,使其遍历每棵孤立树,依据公式(3-7)定义样本xi的异常分数值为:
其中h(xi)为在孤立树中搜索到样本点xi的路径长度,pj表示当前节点的父节点对应的分割属性的密集属性概率,H(ψ-1)可估计为H(ψ-1)=ln(ψ-1)+0.5772156649,设置S(xi,ψ)门限值ST,若S(xi,ψ)>ST,则标记样本点xi为离群点,放入离群点集Is,并从样本点集I中删除该样本点。
步骤S4包括:
S4-1:依据改进的K-means算法对样本集进行聚类,包括:
S4-1-1:根据步骤S3-3-2中的局部稀疏性指标值和步骤S3-4-1中的密集属性概率计算每个样本的局部密集性值,计算方式为公式(4-8)
S4-1-2:将原始样本集I内的样本点按照最近加权欧式距离的原则放入相应的簇Ci,i∈Ik,
S4-1-3:以加权欧氏距离计算的簇内伪中心,选择在伪中心为圆心,半径为的样本点构成点集Oi,获取离伪中心最近的离群点p∈Is和当前离伪中心最近的其他簇中心q∈Ik,遍历Oi中的样本点i,若样本点i使得最大,则该样本点为该簇下一个簇中心,重复该步骤k次,直到k个簇中心都被更新,
最小的k,并保留对应的聚类结果,其中co为以加权欧氏距离计算的全局中心;
S4-2:计算每个样本的信息熵,选出信息熵较大的样本放入样本集Groupun,并从原样本集I中删除这类样本,信息熵的计算包括:
S4-2-3c):计算样本xi的边界样本概率:
S4-2-4:计算样本的信息熵:
S4-2-5:设置信息熵门限值Eth,将原样本集中的样本按信息熵降序排列,信息熵大于Eth的样本中按照类别统计样本数量,记信息熵大于Eth的小类样本的数量为Gmin,并取出Gmin个信息熵大于Eth的小类样本,同时取出前Gmin个大类样本,放入样本集Groupun,删除原样本集中的2×Gmin个样本;
S4-3:进行保留样本聚类分布特性的Adasyn过采样,包括如下步骤:
S4-3-1:在步骤S4-1得到的聚类结果中获取簇中心为小类样本的样本点,取在其簇内的所有小类样本点构成样本集合Groupms,针对每个样本点xi∈Groupms,保存记录每个样本点的聚类中心xi,c,,用欧氏距离寻找出xi的num个近邻样本,构成点集knn(xi),并计算其比率i∈Groupms,Δi表示num个近邻样本中属于大类样本的数量。
S4-3-3:运用F分布概率密度函数控制保留聚类结构的新样本生成,包括以下步骤:
S4-3-3c):按离xi远近顺序选取一个近邻样本xk∈knn(xi),按公式(4-13)合成新样本点:
ai和bi为样本xi对应的自由度,其计算方式分别见公式(4-16)和(4-15):
S4-3-4:重复步骤S4-3-3直到生成步骤S4-3-2中的样本数量;
S4-4:设置T为混合采样迭代轮数,此时当前轮数t=0设置St为当前样本集I中的小类样本数目,按照公式(4-1)计算样本比重:
其中t=0,1......T-1,分别对样本集I中大类样本和小类样本按照步骤
S4-1-1~S4-1-4进行指定簇数目的聚类,依据公式(4-2)聚类簇数都设置为k1,
并分别将k1个簇中心从各个类别中取出,构成样本集Q1,并删除样本集I中的2×k1个样本,从步骤S4-2提及的Groupun中分别从两类样本中按公式(4-11)计算的Ei,依据公式(4-3)按降序排列取出前k2个样本,
构成样本集Q2,并删除原样本集I中的2×k2个样本,样本集Q1和样本集Q2构成初始样本集Q。
S4-5:用样本集Q训练第t轮的分类器ft(x),t∈{0,1,2......T-1},在训练分类器时,按照公式(4-4)最小化目标函数:
其中损失函数如公式(4-5)所示:
为步骤S1-2求得的归一化后的样本点对应的快递网点的运营状况影响指数,Tleaf表示叶子节点数目,Wj表示叶子节点的输出结果,并对当前的样本集Q运用单边梯度采样进行样本抽样、EFB互斥特征捆绑进行特征抽样,进而对样本进行LightGBM模型训练;
S4-6:根据当前训练的分类器ft(x)的分类结果更新样本集Q,包括以下步骤:
S4-6-2:针对当前数据集I中的样本点,重复步骤S4-2,更新样本集Groupun和I,t=t+1,更新当前样本集中小类样本数目St,并根据公式(4-2)和(4-3)更新k1和k2,从步骤S4-2提及的Groupun中分别从两类样本中按公式(4-11)计算的Ei,按降序排列取出前k2个样本,构成样本集Q2,并删除原样本集I中的2×k2个样本,
S4-6-3:对大类样本进行步骤S4-1-1~S4-1-4聚类,其中,聚类簇数设置为St,用S4-5训练的模型进行分类预测,再按照该分类结果针对每个簇心i计算簇内分类错误度,即公式(4-7):
按Zi降序排列,取前k1个簇的簇中心加入样本集Q1,对小类样本随机选取k1个样本加入样本集Q1,并删除原数据集I的对应样本点,
S4-6-4:合并样本集Q1和Q2,更新训练样本集Q;
重复步骤S4-5~S4-6,直到t=T-1结束。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。
Claims (10)
1.基于数据挖掘的快递网点运营预测模型,其特征在于,包括如下步骤,
步骤S1.建立适用快递网点的运营状况指标集和计算快递网点运营影响指数,并采集相应数据;
步骤S2.对收集到的数据进行预处理,预处理包括异常值剔除、最大最小归一化、缺失值的填充、针对业务时序数据进行傅里叶滤波压缩;
步骤S3.构建样本集,并对预处理过后的样本集筛选特征,并重构样本集,据此构建样本局部稀疏性指标矩阵,识别离群点;
步骤S4.依据现有数据进行基于混合采样的LightGBM分类预测训练,获取平衡样本集和训练完成的LightGBM模型;
步骤S5.通过训练完成的LightGBM模型对快递网点运营状况进行分类预测。
2.根据权利要求1所述的基于数据挖掘的快递网点运营预测模型,其特征在于,
所述步骤S1中快递网点的运营状况指标集包括内部指标和外部指标;
所述内部指标包括财务、客户、内部流程、学习与成长指标;
所述外部指标包括经济、地理交通、人口指标。
3.根据权利要求1所述的基于数据挖掘的快递网点运营预测模型,其特征在于,
所述步骤S1中计算快递网点运营影响指数的具体方法为,
针对快递网点i,对应的运营状况影响指数计算公式为
其中,Mi为与快递网点i直接相连的上级站点集,
上级站点j对网点i的配送失效承受系数为
其中,为按照地理距离升序排列后的快递网点i的同级网点集,为网点k的单日最大派件量,为单日平均派件量,为快递网点i的单日平均派件量与单日平均收件量之和,为网点k与快递网点i之间的实际地理距离,为的最大值;
其中,η为图G的连通效率,图G是指由包含区域中转中心、城市分拨中心、快递网点、末端代收点为点集V,将存在配送关系的节点进行连接,构成的无向连接图,
网络连通效率计算公式为
其中,dpq为图中各个节点之间的地理路径进行最大最小归一化之后计算的最短路径;η′i为重置快递网点i和与之相连的边的距离dij之后再次按照公式(1-8)计算的联通效率,dij的更新公式为,
其中,Bi是指由最短路径经过快递网点i的起点终点对(vf,vl)i,构成的点对集合,|Bi|指该集合中点对总数;
6.据权利要求1所述的基于数据挖掘的快递网点运营预测模型,其特征在于,所述步骤S3中,筛选特征具体为:
根据数据采样方式的相关系数进行筛选,其公式为
|r|≤rth的特征可筛去,rth为相关系数门限值;
重构样本集的具体为:
构建局部稀疏性指标矩阵具体为:
根据每一个样本点xi,通过公式(3-5)计算其近邻样本距离权重;公式(3-5)为
针对每一个数据点xij,通过公式(3-6)获取其稀疏性指标值,公式(3-6)为
识别离群点的具体过程为:
孤立森林中针对样本点xi的异常分数值为:
H(ψ-1)估计为H(ψ-1)=ln(ψ-1)+0.577156649,
ψ指从样本集I′中随机选取ψ个样本点,
样本集I′指根据权利要求6中所述的局部稀疏性指标矩阵删除全0行的样本点,在样本点集I中选择非全1行的样本点构成样本点集I′,
E(·)为期望值,h(xi)为在孤立树中搜索到样本点xi的路径长度,pj为当前节点的父节点对应的分割属性的密集属性概率。
7.据权利要求1所述的基于数据挖掘的快递网点运营预测模型,其特征在于,所述步骤S4中的基于混合采样的LightGBM分类预测,包括以下步骤,
步骤S41.采用改进的K-means对样本集进行聚类,获取样本聚类后的最佳簇数k,以及每个簇的样本数目numi,i∈{1,2,3......k};
步骤S42.取num=min(numi),采用欧氏距离,找出离样本xi最近的num个近邻样本,以此计算每个样本的信息熵Ei,设置信息熵门限值Eth,在信息熵大于Eth的样本中构建平衡样本集Groupun;
步骤S43.根据聚类结果进行保留样本聚类特性的Adasyn过采样,设置最终生成的小类新样本的数目NS;
步骤S44.设置T为混合采样迭代轮数,此时当前轮数t=0设置St为当前样本集I中的小类样本数目,按照公式(4-1)计算样本比重,公式(4-1)为
其中,t=0,1......T-1,分别对样本集I中大类样本和小类样本进行指定簇数目的聚类,依据公式(4-2)聚类簇数都设置为k1,公式(4-2)为
并分别将k1个簇中心从各个类别中取出,构成样本集Q1,并删除样本集I中的2×k1个样本,从步骤4-2提及的Groupun中分别从两类样本中依据公式(4-3)按信息熵Ei降序排列取出前k2个样本,公式(4-3)为
构成样本集Q2,并删除原样本集I中的2×k2个样本,样本集Q1和样本集Q2构成初始样本集Q;
步骤S45.用样本集Q训练第t轮的分类器ft(x),t∈{0,1,2......T-1},在训练分类器时,按照公式(4-4)最小化目标函数为
其中,损失函数为
Tleaf为叶子节点数目,wj为叶子节点的输出结果,
并对当前的样本集Q运用单边梯度采样进行样本抽样、EFB互斥特征捆绑进行特征抽样,进而对样本进行LightGBM模型训练;
步骤S46.根据当前训练的分类器ft(x)的分类结果更新样本集Q,包括以下步骤,步骤S461.根据当前训练的分类器ft(x)的分类结果,分别计算样本集Q1和样本集Q2平均样本损失函数和根据公式(4-6)更新样本集的样本权重,公式(4-6)为
步骤S462.针对当前数据集I中的样本点,重复步骤S42,更新样本集Groupun、原样本集I,更新当前样本集I中小类样本数目St、参数k1和k2以及训练样本子集Q2,
步骤S463.根据步骤S41中提及的聚类算法,对大类样本进行指定簇数的聚类,其中,聚类簇数设置为St,用步骤S45训练的模型进行分类预测,再按照该分类结果针对每个簇心i计算簇内分类错误度,即公式(4-7)为
其中,Ci指簇心i所在的簇,按Zi降序排列,取前k1个簇的簇中心加入样本集Q1,对小类样本随机选取k1个样本加入样本集Q1,并删除原数据集I的对应样本点;
步骤S464.合并样本集Q1和Q2,更新训练样本集Q,重复步骤S45~步骤S46,直到t=T-1。
8.据权利要求7所述的基于数据挖掘的快递网点运营预测模型,其特征在于,所述步骤S41中改进K-means聚类算法,包括以下步骤,
步骤S412.将原始样本集I内的样本点按照最近加权欧式距离的原则放入相应的簇Ci,i∈Ik,
步骤S413.以加权欧氏距离计算的簇内伪中心,选择在伪中心为圆心,在其领域内选择离伪中心最近以及离群点最远的样本点为该簇下一个簇中心,重复该步骤k次,直到k个簇中心都被更新;
最小的k,并保留对应的聚类结果,其中Co为以加权欧氏距离计算的全局中心。
9.据权利要求7所述的基于数据挖掘的快递网点运营预测模型,其特征在于,所述步骤S42中,信息熵Ei的计算具体为,
针对样本点,对应的信息熵计算方法见公式(4-11)为
10.据权利要求7所述的基于数据挖掘的快递网点运营预测模型,其特征在于,所述步骤S43中保留样本聚类特性的Adasyn过采样,具体为,
根据设置的新样本数目NS,按Adasyn采样方式确定每个小类样本点周围生成的新样本数量,运用F分布概率密度函数控制保留聚类结构的新样本生成,新样本生成方式的公式为
其中,fk,i为控制样本生成的随机数,计算公式为
Groupms为聚类结果中获取簇中心为小类样本的样本点,取在其簇内的所有小类样本点构成的样本集合;
knn(xi)是用欧氏距离寻找出xi的num个近邻样本构成的集合,
num为聚类结果中的最小簇内样本数目;
dk,i为样本点xk与样本点xi之间的欧氏距离,
按照公式(4-13),生成新样本,直到满足设置好的新样本规模。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210230042.9A CN114596030A (zh) | 2022-03-10 | 2022-03-10 | 基于数据挖掘的快递网点运营预测模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210230042.9A CN114596030A (zh) | 2022-03-10 | 2022-03-10 | 基于数据挖掘的快递网点运营预测模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114596030A true CN114596030A (zh) | 2022-06-07 |
Family
ID=81809388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210230042.9A Pending CN114596030A (zh) | 2022-03-10 | 2022-03-10 | 基于数据挖掘的快递网点运营预测模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114596030A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290364A (zh) * | 2023-11-24 | 2023-12-26 | 深圳市成为高科技有限公司 | 一种市场调查数据智能存储方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545387A (zh) * | 2017-07-18 | 2018-01-05 | 浙江百世技术有限公司 | 一种基于机器学习的快递站点健康度检测方法 |
WO2020061971A1 (zh) * | 2018-09-27 | 2020-04-02 | 电子科技大学 | 一种基于机器学习的癫痫病脑电波状态检测方法 |
CN112070125A (zh) * | 2020-08-19 | 2020-12-11 | 西安理工大学 | 一种基于孤立森林学习的不平衡数据集的预测方法 |
CN112927000A (zh) * | 2019-12-05 | 2021-06-08 | 顺丰科技有限公司 | 网点的数据分析方法、装置、计算机设备及存储介质 |
-
2022
- 2022-03-10 CN CN202210230042.9A patent/CN114596030A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545387A (zh) * | 2017-07-18 | 2018-01-05 | 浙江百世技术有限公司 | 一种基于机器学习的快递站点健康度检测方法 |
WO2020061971A1 (zh) * | 2018-09-27 | 2020-04-02 | 电子科技大学 | 一种基于机器学习的癫痫病脑电波状态检测方法 |
CN112927000A (zh) * | 2019-12-05 | 2021-06-08 | 顺丰科技有限公司 | 网点的数据分析方法、装置、计算机设备及存储介质 |
CN112070125A (zh) * | 2020-08-19 | 2020-12-11 | 西安理工大学 | 一种基于孤立森林学习的不平衡数据集的预测方法 |
Non-Patent Citations (1)
Title |
---|
熊冰妍;王国胤;邓维斌;: "基于样本权重的不平衡数据欠抽样方法", 计算机研究与发展, no. 11, 15 November 2016 (2016-11-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290364A (zh) * | 2023-11-24 | 2023-12-26 | 深圳市成为高科技有限公司 | 一种市场调查数据智能存储方法 |
CN117290364B (zh) * | 2023-11-24 | 2024-01-30 | 深圳市成为高科技有限公司 | 一种市场调查数据智能存储方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245981B (zh) | 一种基于手机信令数据的人群类型识别方法 | |
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
CN107657267B (zh) | 产品潜在用户挖掘方法及装置 | |
Liu et al. | Uncertainty and confidence in land cover classification using a hybrid classifier approach | |
CN110619351B (zh) | 一种基于改进k-means算法的菜鸟驿站选址方法 | |
CN108038578B (zh) | 基于需求预测和中心辐射网络的公共自行车静态调度方法 | |
CN107273387A (zh) | 面向高维和不平衡数据分类的集成 | |
CN110459050B (zh) | 一种基于混合决策树的短期公交客流预测方法 | |
CN110458376A (zh) | 一种可疑风险交易筛查方法与相应系统 | |
CN112037539B (zh) | 一种用于饱和城市交通网络的信控方案推荐方法及系统 | |
CN112232526A (zh) | 一种基于集成策略的地质灾害易发性评价方法及系统 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN115545758A (zh) | 城市服务设施自适应增量选址的方法和系统 | |
CN114596030A (zh) | 基于数据挖掘的快递网点运营预测模型 | |
CN104732246B (zh) | 一种半监督协同训练高光谱图像分类方法 | |
CN111669288B (zh) | 基于有向异构邻居的有向网络链路预测方法及装置 | |
CN116662860A (zh) | 一种基于能源大数据的用户画像与分类方法 | |
CN112183820A (zh) | 基于线性规划的有向网络链路预测方法 | |
CN105653686A (zh) | 一种域名网址活跃度统计方法及系统 | |
CN115965466A (zh) | 一种基于子图对比的以太坊账户身份推理方法及系统 | |
Zhou et al. | Refined taxi demand prediction with ST-Vec | |
CN113919415A (zh) | 一种基于无监督算法的异常群组检测方法 | |
Li et al. | Identifying urban form typologies in seoul with mixture model based clustering | |
CN114494755B (zh) | 一种基于节点金字塔的高光谱图像分类方法 | |
CN116738201B (zh) | 基于图对比学习的非法账户识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |