CN114596030A - 基于数据挖掘的快递网点运营预测模型 - Google Patents

基于数据挖掘的快递网点运营预测模型 Download PDF

Info

Publication number
CN114596030A
CN114596030A CN202210230042.9A CN202210230042A CN114596030A CN 114596030 A CN114596030 A CN 114596030A CN 202210230042 A CN202210230042 A CN 202210230042A CN 114596030 A CN114596030 A CN 114596030A
Authority
CN
China
Prior art keywords
sample
point
formula
express delivery
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210230042.9A
Other languages
English (en)
Inventor
孙哲
张璐
孙知信
赵学健
汪胡青
宫婧
胡冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210230042.9A priority Critical patent/CN114596030A/zh
Publication of CN114596030A publication Critical patent/CN114596030A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0835Relationships between shipper or supplier and carriers
    • G06Q10/08355Routing methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于数据挖掘的快递网点运营预测模型,针对快递企业部署的快递网点的运营情况进行预测,甄别出运营困难的快递网点,包括如下步骤:建立适用快递网点的运营状况指标集和计算快递网点运营影响指数,并采集相应数据;对收集到的数据进行预处理,包括异常值剔除、最大最小归一化、缺失值的填充、针对业务时序数据进行傅里叶滤波压缩;构建样本集,并对预处理过后的样本集筛选特征,并重构样本集,据此构建样本局部稀疏性指标矩阵,识别离群点;依据现有数据进行基于混合采样的LightGBM分类预测训练,获取一个平衡样本集和训练好的LightGBM模型。

Description

基于数据挖掘的快递网点运营预测模型
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于数据挖掘的快递网点运营预测模型。
背景技术
近年来,随着电子商务的发展,网络购物人群增多,快递业务量攀升,快递行业竞争越来越激烈,很多快递网点出现运营异常,甚至倒闭的现象,而快递网点的倒闭会导致快递公司失去相应片区的服务范围,除此之外用户收寄快递也会受到影响,现有的快递网点运营评估大多针对其健康状况进行评价评分,而对快递网点运营状况进行二分类预测,能尽早关注到运营困难的网点,从而帮助快递公司做出相应决策。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于数据挖掘的快递网点运营预测模型,建立适用于快递网点运营情况的指标集,从业务特点方面量化快递网点运营异常的影响,将代价敏感的思想引入二分类预测模型中,从而重点关注运营异常代价较大的快递网点,提高预测精度。
本发明提供一种基于数据挖掘的快递网点运营预测模型,包括如下步骤,
步骤S1.建立适用快递网点的运营状况指标集和计算快递网点运营影响指数,并采集相应数据;
步骤S2.对收集到的数据进行预处理,预处理包括异常值剔除、最大最小归一化、缺失值的填充、针对业务时序数据进行傅里叶滤波压缩;
步骤S3.构建样本集,并对预处理过后的样本集筛选特征,并重构样本集,据此构建样本局部稀疏性指标矩阵,识别离群点;
步骤S4.依据现有数据进行基于混合采样的LightGBM分类预测训练,获取平衡样本集和训练完成的LightGBM模型;
步骤S5.通过训练完成的LightGBM模型对快递网点运营状况进行分类预测。
作为本发明的进一步技术方案,步骤S1中快递网点的运营状况指标集包括内部指标和外部指标;
内部指标包括财务、客户、内部流程、学习与成长指标;
外部指标包括经济、地理交通、人口指标。
进一步的,步骤S1中计算快递网点运营影响指数的具体方法为,
针对快递网点i,对应的运营状况影响指数计算公式为
Figure BDA0003540173380000021
其中,
Figure BDA0003540173380000022
为快递网点i的配送失效上级影响指数,其公式为
Figure BDA0003540173380000023
Figure BDA0003540173380000024
Figure BDA0003540173380000025
其中,Mi为与快递网点i直接相连的上级站点集,
上级站点j对网点i的配送失效承受系数为
Figure BDA0003540173380000026
其中,
Figure BDA0003540173380000027
为站点I近一年中的单日最大库存量,
Figure BDA0003540173380000028
为单日平均库存量,
Figure BDA0003540173380000029
为网点i与上级站点j之间的单日平均快件配送量;
公式(1-1)中,
Figure BDA00035401733800000210
为快递网点i的配送失效同级影响指数,其公式为
Figure BDA00035401733800000211
其中,
Figure BDA00035401733800000212
为按照地理距离升序排列后的快递网点i的同级网点集,
Figure BDA00035401733800000213
为网点k的单日最大派件量,
Figure BDA0003540173380000031
为单日平均派件量,
Figure BDA0003540173380000032
为快递网点i的单日平均派件量与单日平均收件量之和,
Figure BDA0003540173380000033
为网点k与快递网点i之间的实际地理距离,
Figure BDA0003540173380000034
Figure BDA0003540173380000035
的最大值;
公式(1-1)中的
Figure BDA0003540173380000036
为快递网点i的服务密度,其公式为
Figure BDA0003540173380000037
其中,
Figure BDA0003540173380000038
为快递网点i的各自客户总数,
Figure BDA0003540173380000039
为快递网点i的服务半径,公式为
Figure BDA00035401733800000310
其中,
Figure BDA00035401733800000311
为服务区域与快递网点i的服务区域相邻的快递网点集,
Figure BDA00035401733800000312
(km)为快递网点i和网点k的实际地理距离,
Figure BDA00035401733800000313
为快递网点k的单日平均派件量与单日平均收件量之和;
公式(1-1)中的
Figure BDA00035401733800000314
指快递网点i对网络连通率下降指数,其公式为
Figure BDA00035401733800000315
其中,η为图G的连通效率,图G是指由包含区域中转中心、城市分拨中心、快递网点、末端代收点为点集V,将存在配送关系的节点进行连接,构成的无向连接图,
网络连通效率计算公式为
Figure BDA00035401733800000316
其中,dpq为图中各个节点之间的地理路径进行最大最小归一化之后计算的最短路径;η′i为重置快递网点i和与之相连的边的距离dij之后再次按照公式(1-8)计算的联通效率,dij的更新公式为,
Figure BDA00035401733800000317
其中,Bi是指由最短路径经过快递网点i的起点终点对(vf,vl)i,构成的点对集合,|Bi|指该集合中点对总数;
公式(1-1)中的
Figure BDA0003540173380000041
是指网络中过网点i最短路径的下降指数,公式为
Figure BDA0003540173380000042
进一步的,步骤S2中针对业务时序数据进行傅里叶滤波压缩的具体方法为,
针对每日更新的时变属性j,获取快递网点i的过去一年中单日数据
Figure BDA0003540173380000043
t∈{0,1,2......Y-1},Y为更新次数,取偶数,若为奇数,则含弃距离当前时间点最远的数据,通过离散傅里叶变换获取复数序列,变换公式为
Figure BDA0003540173380000044
Figure BDA0003540173380000045
Figure BDA0003540173380000046
将时域数据转换到频域数据,设置压缩比μ,其中,μ须使得
Figure BDA0003540173380000047
为1、2、3、4中的一个整数,按照快递网点i在过去一年中的运营时长确定;
按照压缩比并通过公式(2-2)进行还原;公式为
Figure BDA0003540173380000048
进一步的,步骤S3中,构建样本集的具体方法为,
步骤S31.全局共有m个快递网点,每个网点有d个属性,针对快递网点i,将其时变属性和其他属性合并为
Figure BDA0003540173380000049
步骤S32.将
Figure BDA00035401733800000410
依据Yi对齐,即按照t=t+4-Yi更新对应网点样本的时序标记;
步骤S33.按照当前运营状况,对网点集进行划分,截至统计日期,运营不正常的网点集为A,运营正常的网点集为B,则对该网点运营状况,记为
Figure BDA0003540173380000051
由此生成样本集为
Figure BDA0003540173380000052
进一步的,步骤S3中,筛选特征具体为:
根据数据采样方式的相关系数进行筛选,其公式为
Figure BDA0003540173380000053
其中,
Figure BDA0003540173380000054
Figure BDA0003540173380000055
Figure BDA0003540173380000056
Figure BDA0003540173380000057
|r|≤rth的特征可筛去,rth为相关系数门限值;
重构样本集的具体为:
针对样本点集I中的样本点
Figure BDA0003540173380000058
的属性列,更新t=t*d,将更新的t作为新的时序属性放入属性集;
针对样本点集I中的样本点
Figure BDA0003540173380000059
遍历i=0,1......m-1,按照公式(3-4)进行更新,即
Figure BDA00035401733800000510
公式(3-4)为
Figure BDA00035401733800000511
构建局部稀疏性指标矩阵具体为:
根据每一个样本点xi,通过公式(3-5)计算其近邻样本距离权重;公式(3-5)为
Figure BDA0003540173380000061
Figure BDA0003540173380000062
为样本点xk与xi的欧式距离;
针对每一个数据点xij,通过公式(3-6)获取其稀疏性指标值,公式(3-6)为
Figure BDA0003540173380000063
设置稀疏性指标阈值
Figure BDA0003540173380000064
Figure BDA0003540173380000065
中值,大于
Figure BDA0003540173380000066
的赋0,小于
Figure BDA0003540173380000067
的赋1,由此构成全部样本的局部稀疏性指标矩阵;
识别离群点的具体过程为:
孤立森林中针对样本点xi的异常分数值为:
Figure BDA0003540173380000068
其中,
Figure BDA0003540173380000069
H(ψ-1)估计为H(ψ-1)=ln(ψ-1)+0.5772156649,
ψ指从样本集I′中随机选取ψ个样本点,
样本集I′指根据权利要求6中所述的局部稀疏性指标矩阵删除全0行的样本点,在样本点集I中选择非全1行的样本点构成样本点集I′,
E(·)为期望值,h(xi)为在孤立树中搜索到样本点xi的路径长度,pj为当前节点的父节点对应的分割属性的密集属性概率。
进一步的,步骤S4中的基于混合采样的LightGBM分类预测,包括以下步骤,
步骤S41.采用改进的K-means对样本集进行聚类,获取样本聚类后的最佳簇数k,以及每个簇的样本数目numi,i∈{1,2,3......k};
步骤S42.取num=min(numi),采用欧氏距离,找出离样本xi最近的num个近邻样本,以此计算每个样本的信息熵Ei,设置信息熵门限值Eth,在信息熵大于Eth的样本中构建平衡样本集Groupun
步骤S43.根据聚类结果进行保留样本聚类特性的Adasyn过采样,设置最终生成的小类新样本的数目NS;
步骤S44.设置T为混合采样迭代轮数,此时当前轮数t=0设置St为当前样本集I中的小类样本数目,按照公式(4-1)计算样本比重,公式(4-1)为
Figure BDA0003540173380000071
其中,t=0,1......T-1,分别对样本集I中大类样本和小类样本进行指定簇数目的聚类,依据公式(4-2)聚类簇数都设置为k1,公式(4-2)为
Figure BDA0003540173380000072
并分别将k1个簇中心从各个类别中取出,构成样本集Q1,并删除样本集I中的2×k1个样本,从步骤4-2提及的Groupun中分别从两类样本中依据公式(4-3)按信息熵Ei降序排列取出前k2个样本,公式(4-3)为
Figure BDA0003540173380000073
构成样本集Q2,并删除原样本集I中的2×k2个样本,样本集Q1和样本集Q2构成初始样本集Q;
步骤S45.用样本集Q训练第t轮的分类器ft(x),t∈{0,1,2......T-1},在训练分类器时,按照公式(4-4)最小化目标函数为
Figure BDA0003540173380000074
其中,损失函数为
Figure BDA0003540173380000081
其中,
Figure BDA0003540173380000082
Figure BDA0003540173380000083
Figure BDA0003540173380000084
Figure BDA0003540173380000085
为权利要求3中所述求得的归一化后的样本点对应的快递网点的运营状况影响指数,
Tleaf为叶子节点数目,wj为叶子节点的输出结果,
并对当前的样本集Q运用单边梯度采样进行样本抽样、EFB互斥特征捆绑进行特征抽样,进而对样本进行LightGBM模型训练;
步骤S46.根据当前训练的分类器ft(x)的分类结果更新样本集Q,包括以下步骤,
步骤S461.根据当前训练的分类器ft(x)的分类结果,分别计算样本集Q1和样本集Q2平均样本损失函数
Figure BDA0003540173380000086
Figure BDA0003540173380000087
根据公式(4-6)更新样本集的样本权重,公式(4-6)为
Figure BDA0003540173380000088
其中,
Figure BDA0003540173380000089
步骤S462.针对当前数据集I中的样本点,重复步骤S42,更新样本集Groupun、原样本集I,更新当前样本集I中小类样本数目St、参数k1和k2以及训练样本子集Q2
步骤S463.根据步骤S41中提及的聚类算法,对大类样本进行指定簇数的聚类,其中,聚类簇数设置为St,用步骤S45训练的模型进行分类预测,再按照该分类结果针对每个簇心i计算簇内分类错误度,即公式(4-7)为
Figure BDA00035401733800000810
其中,Ci指簇心i所在的簇,按Zi降序排列,取前k1个簇的簇中心加入样本集Q1,对小类样本随机选取k1个样本加入样本集Q1,并删除原数据集I的对应样本点;
步骤S464.合并样本集Q1和Q2,更新训练样本集Q,重复步骤S45~步骤S46,直到t=T-1。
更进一步的,步骤S41中改进K-means聚类算法,包括以下步骤,
步骤S411.根据局部稀疏性指标值
Figure BDA0003540173380000091
和密集属性概率pj计算每个样本的局部密集性值
Figure BDA0003540173380000092
计算公式(4-8)为
Figure BDA0003540173380000093
从原始样本集I中取
Figure BDA0003540173380000094
最高的样本xi,按照公式(4-9)中的加权欧氏距离,公式(4-9)为
Figure BDA0003540173380000095
计算
Figure BDA0003540173380000096
删除以样本xi为圆心,半径为
Figure BDA0003540173380000097
的圆形区域内的所有样本点,重复该步骤k次,获取k个初始簇中心放入点集Ik
步骤S412.将原始样本集I内的样本点按照最近加权欧式距离的原则放入相应的簇Ci,i∈Ik
步骤S413.以加权欧氏距离计算的簇内伪中心,选择在伪中心为圆心,在其领域内选择离伪中心最近以及离群点最远的样本点为该簇下一个簇中心,重复该步骤k次,直到k个簇中心都被更新;
步骤S414.重复步骤S412~步骤S413,直到
Figure BDA0003540173380000098
收敛至常数;
步骤S415.将
Figure BDA0003540173380000099
依次代入S411~S413,使
Figure BDA0003540173380000101
最小的k,并保留对应的聚类结果,其中co为以加权欧氏距离计算的全局中心。
更进一步的,步骤S42中,信息熵Ei的计算具体为,
针对样本点,对应的信息熵计算方法见公式(4-11)为
Figure BDA0003540173380000102
其中,
Figure BDA0003540173380000103
为样本xi关于j类的边界样本概率,所有样本按照样本总量分为大类样本和小类样本,小类样本记为1类大类样本记为2类,j=1,2,用于区分大类和小类,
若xi为大类样本,
Figure BDA0003540173380000104
Figure BDA0003540173380000105
指中样本xi的num个近邻样本中属于j类样本的数目,
若xi为小类样本,采用步骤S411中公式(4-9)提及的加权欧氏距离找出离xi最近的num个近邻样本,计算
Figure BDA0003540173380000106
Figure BDA0003540173380000107
保持不变,
Figure BDA0003540173380000108
的计算公式为
Figure BDA0003540173380000109
Figure BDA00035401733800001010
指小类样本xi的num个近邻样本中属于大类样本的数目,并集合
Figure BDA00035401733800001011
Figure BDA00035401733800001012
个大类样本组成,
针对每个样本点
Figure BDA00035401733800001013
根据采用步骤S4-1-1中公式(4-9)提及的加权欧氏距离计算xi与xl的距离
Figure BDA00035401733800001014
Kl为在以
Figure BDA00035401733800001015
为半径以x伪圆心的样本的数量,
Figure BDA00035401733800001016
为其中以
Figure BDA00035401733800001017
为半径以x伪圆心的样本中属于小样本的样本数量。
更进一步的,步骤S43中保留样本聚类特性的Adasyn过采样,具体为,
根据设置的新样本数目NS,按Adasyn采样方式确定每个小类样本点周围生成的新样本数量,运用F分布概率密度函数控制保留聚类结构的新样本生成,新样本生成方式的公式为
Figure BDA00035401733800001112
其中,fk,i为控制样本生成的随机数,计算公式为
Figure BDA0003540173380000111
其中,
Figure BDA0003540173380000112
a>2,
Figure BDA0003540173380000113
ai和bi为样本xi对应的自由度;计算公式为
Figure BDA0003540173380000114
为使得极大值点
Figure BDA0003540173380000115
相应地,
Figure BDA0003540173380000116
其中,
Figure BDA0003540173380000117
Groupms为聚类结果中获取簇中心为小类样本的样本点,取在其簇内的所有小类样本点构成的样本集合;
Figure BDA0003540173380000118
为样本点xi与其所属的聚类中心
Figure BDA0003540173380000119
之间的欧氏距离,
Figure BDA00035401733800001110
Figure BDA00035401733800001111
knn(xi)是用欧氏距离寻找出xi的num个近邻样本构成的集合,
num为聚类结果中的最小簇内样本数目;
dk,i为样本点xk与样本点xi之间的欧氏距离,
按照公式(4-13),生成新样本,直到满足设置好的新样本规模。
本发明的优点在于,
1、鉴于快递网点的运营业务特点,建立了适用与快递网点运营情况指标集,基于复杂网络理论,从业务特点方面量化了快递网点运营异常的影响,以代价敏感的思想引入二分类预测模型中,以此重点关注运营异常代价较大的快递网点,提高其预测精度,使得快递公司及时精准地注意对应的网点,提早预备解决方案,从而降低快递网点运营异常带来的损失。
2、分类不平衡造成最终分类器对小类样本学习不足,这是二分类预测常遇到的问题,基于混合采样的LightGBM预测框架使每一轮的LightGBM分类器使用平衡的样本集进行训练,并且其中采用了聚类方法和信息熵选择出分类器难以识别的样本进行强化训练,从而达到提高训练精度的效果。
附图说明
图1为本发明的训练流程图。
具体实施方式
请参阅图1,本实施例提供本发明一种基于数据挖掘的快递网点运营预测模型,包括如下步骤,
步骤S1.建立适用快递网点的运营状况指标集和计算快递网点运营影响指数,并采集相应数据;
步骤S2.对收集到的数据进行预处理,预处理包括异常值剔除、最大最小归一化、缺失值的填充、针对业务时序数据进行傅里叶滤波压缩;
步骤S3.构建样本集,并对预处理过后的样本集筛选特征,并重构样本集,据此构建样本局部稀疏性指标矩阵,识别离群点;
步骤S4.依据现有数据进行基于混合采样的LightGBM分类预测训练,获取平衡样本集和训练完成的LightGBM模型;
步骤S5.通过训练完成的LightGBM模型对快递网点运营状况进行分类预测。
步骤S1包括:
S1-1:建立快递网点运营情况指标集包括了快递网点内部因素、外部因素,详见表1;
Figure BDA0003540173380000131
Figure BDA0003540173380000141
表1快递网点运营情况指标集数据表
S1-2:计算快递网点运营影响指数,包括如下步骤:
S1-2-1:以地理坐标分布构建区域快递网络分布图,包含区域中转中心、城市分拨中心、快递网点、末端代收点为点集V,划分快递网点集为点集VE,将存在配送关系的节点进行连接,构成无向连接图G;
S1-2-2:获取无向图G中点i与点j连接的实际边值dij,该变量以两节点之间的实际路径公里数度量,按
Figure BDA0003540173380000142
归一化边值,其中,dmin为实际路径最小值,dmax为实际路径最大值,求取图中各个节点之间的最短路径dpq,1<p<q<|V|;
S1-2-3:无向连接图G中求取点与点之间的最短路径,针对快递网点集VE,记录最短路径经过快递网点i的起点终点对(vf,vl)i,构成集合Bi,公式(1-8)计算该网络中连通效率:
Figure BDA0003540173380000143
S1-2-4:针对快递网点集VE中的快递网点i,与之相连的边的距离dij按照公式(1-9)设置为
Figure BDA0003540173380000151
再次计算连通效率η′i,则快递网点i对网络连通率下降指数:
Figure BDA0003540173380000152
S1-2-5:对集合Bi中的点对重新求取最短路径d′pq,(p,q)∈Bi,计算网络中过网点i最短路径的下降指数,如公式(1-10):
Figure BDA0003540173380000153
S1-2-6:搜索与快递网点i直接相连的上级站点(含城市分拨中心等中转站点),构成点集Mi,针对j∈Mi,获取其站点近一年中的单日最大库存量
Figure BDA0003540173380000154
和单日平均库存量
Figure BDA0003540173380000155
网点i与上级站点j之间的单日平均快件配送量
Figure BDA0003540173380000156
计算上级站点对网点i的配送失效承受系数,如公式(1-3):
Figure BDA0003540173380000157
计算快递网点i的配送失效上级影响指数,如公式(1-2):
Figure BDA0003540173380000158
其中,
Figure BDA0003540173380000159
S1-2-7:针对快递网点i,根据步骤S1-2-6提及的上级站点集Mi,对Mi中的每个站点,获取其对应的下一级网点,即快递网点i的同级网点,并构成点集Vi peer,针对网点j∈Vi peer,获取网点的单日最大派件量
Figure BDA0003540173380000161
单日平均派件量
Figure BDA0003540173380000162
地理坐标信息,记
Figure BDA0003540173380000163
为快递网点i的单日平均派件量与单日平均收件量之和,计算点集Vi peer中的每个网点与快递网点i之间的实际地理距离
Figure BDA0003540173380000164
(km),并按照
Figure BDA0003540173380000165
升序排列Vi peer中的网点,获取其排列序号k=1,2......|Vi peer|,记
Figure BDA00035401733800001611
Figure BDA0003540173380000166
j∈Vi peer的最大值,针对排序后的Vi peer,k=1表示与快递网点i地理距离最小的同级网点,按照公式(1-4)计算快递网点i的配送失效同级影响指数:
Figure BDA0003540173380000167
S1-2-8:针对快递网点集VE中所有的快递网点计算其服务范围:
针对i∈VE,搜索服务区域与其服务区域相邻的快递网点构成点集Vi negb,连接i与j∈Vi negb,获取快递网点i和Vi negb中网点的各自客户总数
Figure BDA0003540173380000168
单日平均派件量、单日平均收件量、地理位置,计算快递网点i和Vi negb中网点k的实际地理距离
Figure BDA0003540173380000169
(km),记
Figure BDA00035401733800001610
为网点k的单日平均派件量与单日平均收件量之和,按照公式(1-6)计算快递网点i的服务半径:
Figure BDA0003540173380000171
计算网点i的服务密度,如公式(1-5):
Figure BDA0003540173380000172
S1-2-9:按照公式(1-1)计算快递网点i的运营状况影响指数:
Figure BDA0003540173380000173
对影响指数进行最大最小归一化,得到归一化后的结果
Figure BDA0003540173380000174
步骤S2包括:
S2-1:针对具体的快递网点作为样本点,若其内部因素属性缺失值个数超过内部因素所有属性个数的75%,则删去该样本点,否则可用所属最小单位地区快递网点集群对应属性数据的均值替代;外部因素中的经济、人口方面的属性缺失值可用最小单位地区内其他快递网点集群对应的属性数据补充;
S2-2:绘制箱线图,识别并提出异常值;
S2-3:计快递网点总数为m,指标数为d,对于快递网点i的第j个属性进行最大最小归一化:
Figure BDA0003540173380000175
S2-4-1:进一步划分快递网点运营情况指标集,获取其中的时变属性集,如表2所示,
Figure BDA0003540173380000176
Figure BDA0003540173380000181
表2快递网点运营情况的时变属性集表
S2-4-2:针对表2中时变属性j,获取快递网点i的过去一年中的所有数据
Figure BDA0003540173380000182
Y为该属性一年中更新的次数,取偶数,若为奇数,则含弃距离当前时间点最远的数据,按照公式(2-2)经过离散傅里叶变换得到复数序列,即将时域数据转换到频域数据;
Figure BDA0003540173380000183
其中,k=0、1.......Y/2,t=0、1.......Y-1,记:
Figure BDA0003540173380000184
S2-4-3:将频域数据转换到时域数据,设置压缩比μ,其中,μ须使得
Figure BDA0003540173380000185
为1、2、3、4中的一个整数,按照快递网点i在过去一年中的运营时长确定,例如,过去一年运营时长覆盖全年的快递网点i,则对应的Yi为4,只覆盖三个季度的快递网点对应的Yi为3,不足1个季度的快递网点对应的Yi为1,按照压缩比和公式(2-3)进行还原
Figure BDA0003540173380000191
其中,t=0,1......Yi-1。
步骤S3包括:
S3-1:构建样本集包括如下步骤:
S3-1-1:全局共有m个快递网点,每个网点有d个属性,针对快递网点i,将其时变属性和其他属性合并为
Figure BDA0003540173380000192
S3-1-2:将
Figure BDA0003540173380000193
依据Yi对齐,即按照公式(3-1)
t=t+4-Yi (3-1)
更新对应网点样本的时序标记,构成Yi个样本;
S3-1-3:按照当前运营状况,对网点集进行划分,截至统计日期,运营不正常的网点集为A,运营正常的网点集为B,则对该网点运营状况,记为:
Figure BDA0003540173380000194
由此生成样本集
Figure BDA0003540173380000201
总共有
Figure BDA0003540173380000202
个样本;
S3-2:根据公式(3-3)给出的相关性系数筛选特征:
考虑数据采样方式的相关系数进行筛选,其计算方式为公式(3-3):
Figure BDA0003540173380000203
其中,
Figure BDA0003540173380000204
Figure BDA0003540173380000205
Figure BDA0003540173380000206
Figure BDA0003540173380000207
|r|≤rth的特征可筛去,rth为相关系数门限值,更新属性集数目d;
S3-3:重构样本集,包括如下步骤:
S3-3-1:针对样本点集I中的样本点
Figure BDA0003540173380000208
的属性列,更新t=t*d,将更新的t作为新的时序属性放入属性集,更新d=d+1;
S3-3-2:针对样本点集I中的样本点
Figure BDA0003540173380000209
遍历i=0,1......m-1,按照公式(3-4)进行更新,即
Figure BDA00035401733800002010
Figure BDA0003540173380000211
S3-3-3:针对原样本集I,将xi′覆盖原样本点
Figure BDA0003540173380000212
至此,样本集I中的样本点可表示为x0,x1……xm′-1,其中,
Figure BDA0003540173380000213
S3-4:构建局部稀疏性指标矩阵,包括如下步骤:
S3-4-1:针对每一个样本点xi求出其k个近邻样本点集knn(xi),求出每个近邻样本xk与xi的欧式距离
Figure BDA0003540173380000214
依据公式(3-5)计算近邻样本距离权重:
Figure BDA0003540173380000215
S3-4-2:针对每一个数据点xij,依据公式(3-6)求出其稀疏性指标值:
Figure BDA0003540173380000216
其中,xij是指在knn(xi)中样本点第j个特征对应的数据,cij指knn(xi)中样本点第j个特征数据列的平均值;
S3-4-3:设置稀疏性指标阈值
Figure BDA0003540173380000217
Figure BDA0003540173380000218
中值,大于
Figure BDA0003540173380000219
的赋0,小于
Figure BDA00035401733800002110
的赋1,由此构成全部样本的局部稀疏性指标矩阵;
S3-5:根据局部稀疏性指标矩阵构建孤立森林识别并剔除离群点,包括如下步骤:
S3-5-1:针对局部稀疏性指标矩阵,统计每列为1值的个数aj,计算该属性为密集属性的概率
Figure BDA00035401733800002111
S3-5-2:针对样本点集I,根据步骤S3-3中所述的局部稀疏性指标矩阵删除全0行的样本点,在样本点集I中将非全1行的样本点放入样本点集I′;
S3-5-3:针对现有样本点集I′构建孤立森林,从I′中随机选取ψ个样本点作为子样本点集,放入根节点;
S3-5-4:随机选择属性j和分割点Sp,Sp∈(min(xij),max(xij)),i∈I,若xij<Sp,则样本xi放入左子树,否则放入右子树,直到当前节点上只有一个样本点或者已经达到最大树生长高度;
S3-5-5:重复步骤S3-5-3和步骤S3-5-4,直到生成足够数量的孤立树;
S3-5-6:对每一个样本点xi,使其遍历每棵孤立树,依据公式(3-7)定义样本xi的异常分数值为:
Figure BDA0003540173380000221
其中
Figure BDA0003540173380000222
h(xi)为在孤立树中搜索到样本点xi的路径长度,pj表示当前节点的父节点对应的分割属性的密集属性概率,H(ψ-1)可估计为H(ψ-1)=ln(ψ-1)+0.5772156649,设置S(xi,ψ)门限值ST,若S(xi,ψ)>ST,则标记样本点xi为离群点,放入离群点集Is,并从样本点集I中删除该样本点。
步骤S4包括:
S4-1:依据改进的K-means算法对样本集进行聚类,包括:
S4-1-1:根据步骤S3-3-2中的局部稀疏性指标值和步骤S3-4-1中的密集属性概率计算每个样本的局部密集性值,计算方式为公式(4-8)
Figure BDA0003540173380000231
从原始样本集I中取
Figure BDA0003540173380000232
最高的样本xi,按照公式(4-9)中的加权欧氏距离:
Figure BDA0003540173380000233
计算
Figure BDA0003540173380000234
删除以样本xi为圆心,半径为
Figure BDA0003540173380000235
的圆形区域内的所有样本点,将t=0,1,2,3依次代入,重复该步骤k次,获取k个初始簇中心放入点集Ik
S4-1-2:将原始样本集I内的样本点按照最近加权欧式距离的原则放入相应的簇Ci,i∈Ik
S4-1-3:以加权欧氏距离计算的簇内伪中心,选择在伪中心为圆心,半径为
Figure BDA0003540173380000236
的样本点构成点集Oi,获取离伪中心最近的离群点p∈Is和当前离伪中心最近的其他簇中心q∈Ik,遍历Oi中的样本点i,若样本点i使得
Figure BDA0003540173380000237
最大,则该样本点为该簇下一个簇中心,重复该步骤k次,直到k个簇中心都被更新,
S4-1-4:重复S4-1-2~S4-1-3,直到
Figure BDA0003540173380000238
收敛至常数;
S4-1-5:将
Figure BDA0003540173380000239
依次代入S4-1-1~S4-1-3,选择使得
Figure BDA00035401733800002310
最小的k,并保留对应的聚类结果,其中co为以加权欧氏距离计算的全局中心;
S4-2:计算每个样本的信息熵,选出信息熵较大的样本放入样本集Groupun,并从原样本集I中删除这类样本,信息熵的计算包括:
S4-2-1:按照样本数量分为大类样本和小类样本,小类样本记为1类大类样本记为2类,计算边界样本概率
Figure BDA0003540173380000241
S4-2-2:若xi属于大类样本,计算
Figure BDA0003540173380000242
num指步骤S4-1的聚类结果中簇内样本点最小簇的样本数目,
Figure BDA0003540173380000243
指中样本xi的num个近邻样本中属于j类样本的数目;
S4-2-3:若xi属于小类样本,采用步骤S4-1-1中公式(4-9)提及的加权欧氏距离找出离xi最近的num个近邻样本,计算
Figure BDA0003540173380000244
Figure BDA0003540173380000245
保持不变,
Figure BDA0003540173380000246
的计算步骤如下:
S4-2-3a)
Figure BDA0003540173380000247
指小类样本xi的num个近邻样本中属于大类样本的数目,并将
Figure BDA0003540173380000248
个大类样本构建为集合
Figure BDA0003540173380000249
S4-2-3b):针对每个样本点
Figure BDA00035401733800002410
根据采用步骤S4-1-1中公式(4-9)提及的加权欧氏距离计算xi与xl的距离
Figure BDA00035401733800002411
统计在以
Figure BDA00035401733800002412
为半径以xl为圆心的样本的数量Kl,记其中属于小样本的样本数量为
Figure BDA00035401733800002413
S4-2-3c):计算样本xi的边界样本概率:
Figure BDA0003540173380000251
S4-2-4:计算样本的信息熵:
Figure BDA0003540173380000252
S4-2-5:设置信息熵门限值Eth,将原样本集中的样本按信息熵降序排列,信息熵大于Eth的样本中按照类别统计样本数量,记信息熵大于Eth的小类样本的数量为Gmin,并取出Gmin个信息熵大于Eth的小类样本,同时取出前Gmin个大类样本,放入样本集Groupun,删除原样本集中的2×Gmin个样本;
S4-3:进行保留样本聚类分布特性的Adasyn过采样,包括如下步骤:
S4-3-1:在步骤S4-1得到的聚类结果中获取簇中心为小类样本的样本点,取在其簇内的所有小类样本点构成样本集合Groupms,针对每个样本点xi∈Groupms,保存记录每个样本点的聚类中心xi,c,,用欧氏距离寻找出xi的num个近邻样本,构成点集knn(xi),并计算其比率
Figure BDA0003540173380000253
i∈Groupms,Δi表示num个近邻样本中属于大类样本的数量。
S4-3-2:计算Groupms中样本点周围生成的小类样本数量,
Figure BDA0003540173380000254
为Groupms中样本点周围需生成的样本比例,设置最终生成的小类新样本的数目NS,
Figure BDA0003540173380000255
为待生成的样本数量,记为NSi
S4-3-3:运用F分布概率密度函数控制保留聚类结构的新样本生成,包括以下步骤:
S4-3-3a):针对样本点xi∈Groupms,获取所有的聚类中心
Figure BDA0003540173380000261
Figure BDA0003540173380000262
为样本点xi与其所属的聚类中心
Figure BDA0003540173380000263
之间的欧氏距离,记
Figure BDA0003540173380000264
S4-3-3b):针对样本点xk∈knn(xi),记dk,i为样本点xk与样本点xi之间的欧氏距离,记
Figure BDA0003540173380000265
Figure BDA0003540173380000266
S4-3-3c):按离xi远近顺序选取一个近邻样本xk∈knn(xi),按公式(4-13)合成新样本点:
Figure BDA00035401733800002611
其中,fk,i为控制样本生成的随机数,其计算方式如公式(4-14)所示:
Figure BDA0003540173380000267
其中
Figure BDA0003540173380000268
Figure BDA0003540173380000269
ai和bi为样本xi对应的自由度,其计算方式分别见公式(4-16)和(4-15):
Figure BDA00035401733800002610
为使得极大值点
Figure BDA0003540173380000271
得出ai计算公式为(4-16):
Figure BDA0003540173380000272
S4-3-4:重复步骤S4-3-3直到生成步骤S4-3-2中的样本数量;
S4-4:设置T为混合采样迭代轮数,此时当前轮数t=0设置St为当前样本集I中的小类样本数目,按照公式(4-1)计算样本比重:
Figure BDA0003540173380000273
其中t=0,1......T-1,分别对样本集I中大类样本和小类样本按照步骤
S4-1-1~S4-1-4进行指定簇数目的聚类,依据公式(4-2)聚类簇数都设置为k1
Figure BDA0003540173380000274
并分别将k1个簇中心从各个类别中取出,构成样本集Q1,并删除样本集I中的2×k1个样本,从步骤S4-2提及的Groupun中分别从两类样本中按公式(4-11)计算的Ei,依据公式(4-3)按降序排列取出前k2个样本,
Figure BDA0003540173380000275
构成样本集Q2,并删除原样本集I中的2×k2个样本,样本集Q1和样本集Q2构成初始样本集Q。
S4-5:用样本集Q训练第t轮的分类器ft(x),t∈{0,1,2......T-1},在训练分类器时,按照公式(4-4)最小化目标函数:
Figure BDA0003540173380000281
其中
Figure BDA0003540173380000282
其中损失函数如公式(4-5)所示:
Figure BDA0003540173380000283
其中
Figure BDA0003540173380000284
Figure BDA0003540173380000285
Figure BDA0003540173380000286
Figure BDA0003540173380000287
为步骤S1-2求得的归一化后的样本点对应的快递网点的运营状况影响指数,Tleaf表示叶子节点数目,Wj表示叶子节点的输出结果,并对当前的样本集Q运用单边梯度采样进行样本抽样、EFB互斥特征捆绑进行特征抽样,进而对样本进行LightGBM模型训练;
S4-6:根据当前训练的分类器ft(x)的分类结果更新样本集Q,包括以下步骤:
S4-6-1:分别计算样本集Q1和样本集Q2平均样本损失函数,
Figure BDA0003540173380000288
Figure BDA0003540173380000289
据此更新样本集Q2的样本权重,如公式(4-6)所示:
Figure BDA00035401733800002810
其中,
Figure BDA00035401733800002811
S4-6-2:针对当前数据集I中的样本点,重复步骤S4-2,更新样本集Groupun和I,t=t+1,更新当前样本集中小类样本数目St,并根据公式(4-2)和(4-3)更新k1和k2,从步骤S4-2提及的Groupun中分别从两类样本中按公式(4-11)计算的Ei,按降序排列取出前k2个样本,构成样本集Q2,并删除原样本集I中的2×k2个样本,
S4-6-3:对大类样本进行步骤S4-1-1~S4-1-4聚类,其中,聚类簇数设置为St,用S4-5训练的模型进行分类预测,再按照该分类结果针对每个簇心i计算簇内分类错误度,即公式(4-7):
Figure BDA0003540173380000291
按Zi降序排列,取前k1个簇的簇中心加入样本集Q1,对小类样本随机选取k1个样本加入样本集Q1,并删除原数据集I的对应样本点,
S4-6-4:合并样本集Q1和Q2,更新训练样本集Q;
重复步骤S4-5~S4-6,直到t=T-1结束。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

Claims (10)

1.基于数据挖掘的快递网点运营预测模型,其特征在于,包括如下步骤,
步骤S1.建立适用快递网点的运营状况指标集和计算快递网点运营影响指数,并采集相应数据;
步骤S2.对收集到的数据进行预处理,预处理包括异常值剔除、最大最小归一化、缺失值的填充、针对业务时序数据进行傅里叶滤波压缩;
步骤S3.构建样本集,并对预处理过后的样本集筛选特征,并重构样本集,据此构建样本局部稀疏性指标矩阵,识别离群点;
步骤S4.依据现有数据进行基于混合采样的LightGBM分类预测训练,获取平衡样本集和训练完成的LightGBM模型;
步骤S5.通过训练完成的LightGBM模型对快递网点运营状况进行分类预测。
2.根据权利要求1所述的基于数据挖掘的快递网点运营预测模型,其特征在于,
所述步骤S1中快递网点的运营状况指标集包括内部指标和外部指标;
所述内部指标包括财务、客户、内部流程、学习与成长指标;
所述外部指标包括经济、地理交通、人口指标。
3.根据权利要求1所述的基于数据挖掘的快递网点运营预测模型,其特征在于,
所述步骤S1中计算快递网点运营影响指数的具体方法为,
针对快递网点i,对应的运营状况影响指数计算公式为
Figure FDA0003540173370000011
其中,
Figure FDA0003540173370000012
为快递网点i的配送失效上级影响指数,其公式为
Figure FDA0003540173370000013
其中,Mi为与快递网点i直接相连的上级站点集,
上级站点j对网点i的配送失效承受系数为
Figure FDA0003540173370000021
其中,
Figure FDA0003540173370000022
为站点j近一年中的单日最大库存量,
Figure FDA0003540173370000023
为单日平均库存量,
Figure FDA0003540173370000024
为网点i与上级站点j之间的单日平均快件配送量;
公式(1-1)中,
Figure FDA0003540173370000025
为快递网点i的配送失效同级影响指数,其公式为
Figure FDA0003540173370000026
其中,
Figure FDA0003540173370000027
为按照地理距离升序排列后的快递网点i的同级网点集,
Figure FDA0003540173370000028
为网点k的单日最大派件量,
Figure FDA0003540173370000029
为单日平均派件量,
Figure FDA00035401733700000210
为快递网点i的单日平均派件量与单日平均收件量之和,
Figure FDA00035401733700000211
为网点k与快递网点i之间的实际地理距离,
Figure FDA00035401733700000212
Figure FDA00035401733700000213
的最大值;
公式(1-1)中的
Figure FDA00035401733700000214
为快递网点i的服务密度,其公式为
Figure FDA00035401733700000215
其中,
Figure FDA00035401733700000216
为快递网点i的各自客户总数,
Figure FDA00035401733700000217
为快递网点i的服务半径,公式为
Figure FDA00035401733700000218
其中,
Figure FDA00035401733700000219
为服务区域与快递网点i的服务区域相邻的快递网点集,
Figure FDA00035401733700000220
为快递网点i和网点k的实际地理距离,
Figure FDA00035401733700000221
为快递网点k的单日平均派件量与单日平均收件量之和;
公式(1-1)中的
Figure FDA00035401733700000222
指快递网点i对网络连通率下降指数,其公式为
Figure FDA00035401733700000223
其中,η为图G的连通效率,图G是指由包含区域中转中心、城市分拨中心、快递网点、末端代收点为点集V,将存在配送关系的节点进行连接,构成的无向连接图,
网络连通效率计算公式为
Figure FDA0003540173370000031
其中,dpq为图中各个节点之间的地理路径进行最大最小归一化之后计算的最短路径;η′i为重置快递网点i和与之相连的边的距离dij之后再次按照公式(1-8)计算的联通效率,dij的更新公式为,
Figure FDA0003540173370000032
其中,Bi是指由最短路径经过快递网点i的起点终点对(vf,vl)i,构成的点对集合,|Bi|指该集合中点对总数;
公式(1-1)中的
Figure FDA0003540173370000033
是指网络中过网点i最短路径的下降指数,公式为
Figure FDA0003540173370000034
4.根据权利要求1所述的基于数据挖掘的快递网点运营预测模型,其特征在于,所述步骤S2中针对业务时序数据进行傅里叶滤波压缩的具体方法为,
针对每日更新的时变属性j,获取快递网点i的过去一年中单日数据
Figure FDA0003540173370000035
Figure FDA0003540173370000036
Y为更新次数,取偶数,若为奇数,则舍弃距离当前时间点最远的数据,通过离散傅里叶变换获取复数序列,变换公式为
Figure FDA0003540173370000037
Figure FDA0003540173370000038
Figure FDA0003540173370000041
将时域数据转换到频域数据,设置压缩比μ,其中,μ须使得
Figure FDA0003540173370000042
为1、2、3、4中的一个整数,按照快递网点i在过去一年中的运营时长确定;
按照压缩比并通过公式(2-2)进行还原;公式为
Figure FDA0003540173370000043
5.据权利要求1所述的基于数据挖掘的快递网点运营预测模型,其特征在于,所述步骤S3中,构建样本集的具体方法为,
步骤S31.全局共有m个快递网点,每个网点有d个属性,针对快递网点i,将其时变属性和其他属性合并为
Figure FDA0003540173370000044
步骤S32.将
Figure FDA0003540173370000045
依据Yi对齐,即按照t=t+4-Yi更新对应网点样本的时序标记;
步骤S33.按照当前运营状况,对网点集进行划分,截至统计日期,运营不正常的网点集为A,运营正常的网点集为B,则对该网点运营状况,记为
Figure FDA0003540173370000046
由此生成样本集为
Figure FDA0003540173370000047
6.据权利要求1所述的基于数据挖掘的快递网点运营预测模型,其特征在于,所述步骤S3中,筛选特征具体为:
根据数据采样方式的相关系数进行筛选,其公式为
Figure FDA0003540173370000051
其中,
Figure FDA0003540173370000052
Figure FDA0003540173370000053
Figure FDA0003540173370000054
Figure FDA0003540173370000055
|r|≤rth的特征可筛去,rth为相关系数门限值;
重构样本集的具体为:
针对样本点集I中的样本点
Figure FDA0003540173370000056
的属性列,更新t=t*d,将更新的t作为新的时序属性放入属性集;
针对样本点集I中的样本点
Figure FDA0003540173370000057
遍历i=0,1......m-1,按照公式(3-4)进行更新,即
Figure FDA0003540173370000058
公式(3-4)为
Figure FDA0003540173370000059
构建局部稀疏性指标矩阵具体为:
根据每一个样本点xi,通过公式(3-5)计算其近邻样本距离权重;公式(3-5)为
Figure FDA00035401733700000510
Figure FDA00035401733700000511
为样本点xk与xi的欧式距离;
针对每一个数据点xij,通过公式(3-6)获取其稀疏性指标值,公式(3-6)为
Figure FDA00035401733700000512
设置稀疏性指标阈值
Figure FDA0003540173370000061
Figure FDA0003540173370000062
中值,大于
Figure FDA0003540173370000063
的赋0,小于
Figure FDA0003540173370000064
的赋1,由此构成全部样本的局部稀疏性指标矩阵;
识别离群点的具体过程为:
孤立森林中针对样本点xi的异常分数值为:
Figure FDA0003540173370000065
其中,
Figure FDA0003540173370000066
H(ψ-1)估计为H(ψ-1)=ln(ψ-1)+0.577156649,
ψ指从样本集I′中随机选取ψ个样本点,
样本集I′指根据权利要求6中所述的局部稀疏性指标矩阵删除全0行的样本点,在样本点集I中选择非全1行的样本点构成样本点集I′,
E(·)为期望值,h(xi)为在孤立树中搜索到样本点xi的路径长度,pj为当前节点的父节点对应的分割属性的密集属性概率。
7.据权利要求1所述的基于数据挖掘的快递网点运营预测模型,其特征在于,所述步骤S4中的基于混合采样的LightGBM分类预测,包括以下步骤,
步骤S41.采用改进的K-means对样本集进行聚类,获取样本聚类后的最佳簇数k,以及每个簇的样本数目numi,i∈{1,2,3......k};
步骤S42.取num=min(numi),采用欧氏距离,找出离样本xi最近的num个近邻样本,以此计算每个样本的信息熵Ei,设置信息熵门限值Eth,在信息熵大于Eth的样本中构建平衡样本集Groupun
步骤S43.根据聚类结果进行保留样本聚类特性的Adasyn过采样,设置最终生成的小类新样本的数目NS;
步骤S44.设置T为混合采样迭代轮数,此时当前轮数t=0设置St为当前样本集I中的小类样本数目,按照公式(4-1)计算样本比重,公式(4-1)为
Figure FDA0003540173370000071
其中,t=0,1......T-1,分别对样本集I中大类样本和小类样本进行指定簇数目的聚类,依据公式(4-2)聚类簇数都设置为k1,公式(4-2)为
Figure FDA0003540173370000072
并分别将k1个簇中心从各个类别中取出,构成样本集Q1,并删除样本集I中的2×k1个样本,从步骤4-2提及的Groupun中分别从两类样本中依据公式(4-3)按信息熵Ei降序排列取出前k2个样本,公式(4-3)为
Figure FDA0003540173370000073
构成样本集Q2,并删除原样本集I中的2×k2个样本,样本集Q1和样本集Q2构成初始样本集Q;
步骤S45.用样本集Q训练第t轮的分类器ft(x),t∈{0,1,2......T-1},在训练分类器时,按照公式(4-4)最小化目标函数为
Figure FDA0003540173370000074
其中,损失函数为
Figure FDA0003540173370000075
其中,
Figure FDA0003540173370000076
Figure FDA0003540173370000077
Figure FDA0003540173370000078
Figure FDA0003540173370000079
为权利要求3中所述求得的归一化后的样本点对应的快递网点的运营状况影响指数,
Tleaf为叶子节点数目,wj为叶子节点的输出结果,
并对当前的样本集Q运用单边梯度采样进行样本抽样、EFB互斥特征捆绑进行特征抽样,进而对样本进行LightGBM模型训练;
步骤S46.根据当前训练的分类器ft(x)的分类结果更新样本集Q,包括以下步骤,步骤S461.根据当前训练的分类器ft(x)的分类结果,分别计算样本集Q1和样本集Q2平均样本损失函数
Figure FDA0003540173370000081
Figure FDA0003540173370000082
根据公式(4-6)更新样本集的样本权重,公式(4-6)为
Figure FDA0003540173370000083
其中,
Figure FDA0003540173370000084
步骤S462.针对当前数据集I中的样本点,重复步骤S42,更新样本集Groupun、原样本集I,更新当前样本集I中小类样本数目St、参数k1和k2以及训练样本子集Q2
步骤S463.根据步骤S41中提及的聚类算法,对大类样本进行指定簇数的聚类,其中,聚类簇数设置为St,用步骤S45训练的模型进行分类预测,再按照该分类结果针对每个簇心i计算簇内分类错误度,即公式(4-7)为
Figure FDA0003540173370000085
其中,Ci指簇心i所在的簇,按Zi降序排列,取前k1个簇的簇中心加入样本集Q1,对小类样本随机选取k1个样本加入样本集Q1,并删除原数据集I的对应样本点;
步骤S464.合并样本集Q1和Q2,更新训练样本集Q,重复步骤S45~步骤S46,直到t=T-1。
8.据权利要求7所述的基于数据挖掘的快递网点运营预测模型,其特征在于,所述步骤S41中改进K-means聚类算法,包括以下步骤,
步骤S411.根据局部稀疏性指标值
Figure FDA0003540173370000086
和密集属性概率pj计算每个样本的局部密集性值
Figure FDA0003540173370000087
计算公式(4-8)为
Figure FDA0003540173370000091
从原始样本集I中取
Figure FDA0003540173370000092
最高的样本xi,按照公式(4-9)中的加权欧氏距离,公式(4-9)为
Figure FDA0003540173370000093
计算
Figure FDA0003540173370000094
删除以样本xi为圆心,半径为
Figure FDA0003540173370000095
的圆形区域内的所有样本点,重复该步骤k次,获取k个初始簇中心放入点集Ik
步骤S412.将原始样本集I内的样本点按照最近加权欧式距离的原则放入相应的簇Ci,i∈Ik
步骤S413.以加权欧氏距离计算的簇内伪中心,选择在伪中心为圆心,在其领域内选择离伪中心最近以及离群点最远的样本点为该簇下一个簇中心,重复该步骤k次,直到k个簇中心都被更新;
步骤S414.重复步骤S412~步骤S413,直到
Figure FDA0003540173370000096
收敛至常数;
步骤S415.将
Figure FDA0003540173370000097
依次代入S411~S413,使
Figure FDA0003540173370000098
最小的k,并保留对应的聚类结果,其中Co为以加权欧氏距离计算的全局中心。
9.据权利要求7所述的基于数据挖掘的快递网点运营预测模型,其特征在于,所述步骤S42中,信息熵Ei的计算具体为,
针对样本点,对应的信息熵计算方法见公式(4-11)为
Figure FDA0003540173370000099
其中,
Figure FDA00035401733700000910
为样本xi关于j类的边界样本概率,所有样本按照样本总量分为大类样本和小类样本,小类样本记为1类大类样本记为2类,j=1,2,用于区分大类和小类,
若xi为大类样本,
Figure FDA0003540173370000101
Figure FDA0003540173370000102
指中样本xi的num个近邻样本中属于j类样本的数目,
若xi为小类样本,采用步骤S411中公式(4-9)提及的加权欧氏距离找出离xi最近的num个近邻样本,计算
Figure FDA0003540173370000103
Figure FDA0003540173370000104
保持不变,
Figure FDA0003540173370000105
的计算公式为
Figure FDA0003540173370000106
Figure FDA0003540173370000107
指小类样本xi的num个近邻样本中属于大类样本的数目,并集合
Figure FDA0003540173370000108
Figure FDA0003540173370000109
个大类样本组成,
针对每个样本点
Figure FDA00035401733700001010
根据采用步骤S4-1-1中公式(4-9)提及的加权欧氏距离计算xi与xl的距离
Figure FDA00035401733700001011
Kl为在以
Figure FDA00035401733700001012
为半径以xl为圆心的样本的数量,
Figure FDA00035401733700001013
为其中以
Figure FDA00035401733700001014
为半径以xl为圆心的样本中属于小样本的样本数量。
10.据权利要求7所述的基于数据挖掘的快递网点运营预测模型,其特征在于,所述步骤S43中保留样本聚类特性的Adasyn过采样,具体为,
根据设置的新样本数目NS,按Adasyn采样方式确定每个小类样本点周围生成的新样本数量,运用F分布概率密度函数控制保留聚类结构的新样本生成,新样本生成方式的公式为
Figure FDA00035401733700001016
其中,fk,i为控制样本生成的随机数,计算公式为
Figure FDA00035401733700001015
其中,
Figure FDA0003540173370000111
Figure FDA0003540173370000112
ai和bi为样本xi对应的自由度;计算公式为
Figure FDA0003540173370000113
为使得极大值点
Figure FDA0003540173370000114
相应地,
Figure FDA0003540173370000115
其中,
Figure FDA0003540173370000116
Groupms为聚类结果中获取簇中心为小类样本的样本点,取在其簇内的所有小类样本点构成的样本集合;
Figure FDA0003540173370000117
为样本点xi与其所属的聚类中心
Figure FDA0003540173370000118
之间的欧氏距离,
Figure FDA0003540173370000119
Figure FDA00035401733700001110
knn(xi)是用欧氏距离寻找出xi的num个近邻样本构成的集合,
num为聚类结果中的最小簇内样本数目;
dk,i为样本点xk与样本点xi之间的欧氏距离,
按照公式(4-13),生成新样本,直到满足设置好的新样本规模。
CN202210230042.9A 2022-03-10 2022-03-10 基于数据挖掘的快递网点运营预测模型 Pending CN114596030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210230042.9A CN114596030A (zh) 2022-03-10 2022-03-10 基于数据挖掘的快递网点运营预测模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210230042.9A CN114596030A (zh) 2022-03-10 2022-03-10 基于数据挖掘的快递网点运营预测模型

Publications (1)

Publication Number Publication Date
CN114596030A true CN114596030A (zh) 2022-06-07

Family

ID=81809388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210230042.9A Pending CN114596030A (zh) 2022-03-10 2022-03-10 基于数据挖掘的快递网点运营预测模型

Country Status (1)

Country Link
CN (1) CN114596030A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290364A (zh) * 2023-11-24 2023-12-26 深圳市成为高科技有限公司 一种市场调查数据智能存储方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545387A (zh) * 2017-07-18 2018-01-05 浙江百世技术有限公司 一种基于机器学习的快递站点健康度检测方法
WO2020061971A1 (zh) * 2018-09-27 2020-04-02 电子科技大学 一种基于机器学习的癫痫病脑电波状态检测方法
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法
CN112927000A (zh) * 2019-12-05 2021-06-08 顺丰科技有限公司 网点的数据分析方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545387A (zh) * 2017-07-18 2018-01-05 浙江百世技术有限公司 一种基于机器学习的快递站点健康度检测方法
WO2020061971A1 (zh) * 2018-09-27 2020-04-02 电子科技大学 一种基于机器学习的癫痫病脑电波状态检测方法
CN112927000A (zh) * 2019-12-05 2021-06-08 顺丰科技有限公司 网点的数据分析方法、装置、计算机设备及存储介质
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊冰妍;王国胤;邓维斌;: "基于样本权重的不平衡数据欠抽样方法", 计算机研究与发展, no. 11, 15 November 2016 (2016-11-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290364A (zh) * 2023-11-24 2023-12-26 深圳市成为高科技有限公司 一种市场调查数据智能存储方法
CN117290364B (zh) * 2023-11-24 2024-01-30 深圳市成为高科技有限公司 一种市场调查数据智能存储方法

Similar Documents

Publication Publication Date Title
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
CN107657267B (zh) 产品潜在用户挖掘方法及装置
Liu et al. Uncertainty and confidence in land cover classification using a hybrid classifier approach
CN110619351B (zh) 一种基于改进k-means算法的菜鸟驿站选址方法
CN108038578B (zh) 基于需求预测和中心辐射网络的公共自行车静态调度方法
CN107273387A (zh) 面向高维和不平衡数据分类的集成
CN110459050B (zh) 一种基于混合决策树的短期公交客流预测方法
CN110458376A (zh) 一种可疑风险交易筛查方法与相应系统
CN112037539B (zh) 一种用于饱和城市交通网络的信控方案推荐方法及系统
CN112232526A (zh) 一种基于集成策略的地质灾害易发性评价方法及系统
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN115545758A (zh) 城市服务设施自适应增量选址的方法和系统
CN114596030A (zh) 基于数据挖掘的快递网点运营预测模型
CN104732246B (zh) 一种半监督协同训练高光谱图像分类方法
CN111669288B (zh) 基于有向异构邻居的有向网络链路预测方法及装置
CN116662860A (zh) 一种基于能源大数据的用户画像与分类方法
CN112183820A (zh) 基于线性规划的有向网络链路预测方法
CN105653686A (zh) 一种域名网址活跃度统计方法及系统
CN115965466A (zh) 一种基于子图对比的以太坊账户身份推理方法及系统
Zhou et al. Refined taxi demand prediction with ST-Vec
CN113919415A (zh) 一种基于无监督算法的异常群组检测方法
Li et al. Identifying urban form typologies in seoul with mixture model based clustering
CN114494755B (zh) 一种基于节点金字塔的高光谱图像分类方法
CN116738201B (zh) 基于图对比学习的非法账户识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination