CN111435472A - 件量预测方法、装置、设备及存储介质 - Google Patents

件量预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111435472A
CN111435472A CN201910032130.6A CN201910032130A CN111435472A CN 111435472 A CN111435472 A CN 111435472A CN 201910032130 A CN201910032130 A CN 201910032130A CN 111435472 A CN111435472 A CN 111435472A
Authority
CN
China
Prior art keywords
model
value
predicted
characteristic information
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910032130.6A
Other languages
English (en)
Inventor
许胜�
王本玉
湛长兰
苏德嘉
化文文
金晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
SF Tech Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN201910032130.6A priority Critical patent/CN111435472A/zh
Publication of CN111435472A publication Critical patent/CN111435472A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Operations Research (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种件量预测方法、装置、设备及存储介质,该方法包括:获取待预测件量数据;对所述待预测件量数据进行特征提取,得到特征信息;基于所述特征信息,得到第一预测值和第一回归值;基于所述第一预测值和所述第一回归值,确定件量预测值。该方法能够实现对件量的准确预测,节省了计算资源,减少了训练时间,且能够对不同类型的快件进行合理调配。

Description

件量预测方法、装置、设备及存储介质
技术领域
本发明一般涉及计算机技术领域,具体涉及一种件量预测方法、装置、设备及存储介质。
背景技术
随着物流行业的快速发展和电商购物的普及,为了企业合理调配资源,使得人员和任务实现合理分配,需要对快递件量进行预测,以满足客户的需求。
目前,对快递件量的预测即为一类时间序列的预测问题,现有技术主要通过自回归移动平均模型(Autoregressive Integrated Moving Average Model,AMIRA模型)和时间序列预测模型Prophet模型实现对时间序列的预测,但是,该AMIRA和Prophet仅是对单条时间序列的预测,而对于不同的地区流向、产品类型和客户群需要产生大规模的件量时间序列,运用单条时间序列进行件量预测会消耗大量计算资源,且对于高峰低谷等异常值数据的件量预测效果差。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种件量预测方法、装置、设备及存储介质,节省了计算资源,能够对不同类型的快件进行合理调配。
第一方面,本发明提供了一种件量预测方法,该方法包括:
获取待预测件量数据;
对所述待预测件量数据进行特征提取,得到特征信息;
基于所述特征信息,得到第一预测值和第一回归值;
基于所述第一预测值和所述第一回归值,确定件量预测值。
在其中一个实施例中,基于所述第一预测值和所述第一回归值,确定件量预测值,包括:
获取历史件量数据;
提取所述历史件量数据的第一特征信息,所述第一特征信息包括:周的第几天、年的第几天、月的第几天及方差;
确定第二预测值和第二回归值;
将所述第二预测值、所述第二回归值和所述第一特征信息输入预设XGboost模型,通过交叉验证进行训练,确定最优XGboost模型;
将所述待预测件量数据输入所述最优XGboost模型中,得到所述件量预测值。
在其中一个实施例中,基于所述特征信息,得到第一预测值和第一回归值,包括:
将所述特征信息输入第一模型,得到第一预测值;
将所述特征信息输入第二模型,得到第一回归值。
在其中一个实施例中,所述第一模型为神经网络模型,所述第二模型为Huber回归模型。
在其中一个实施例中,所述历史件量数据包括始发地、目的地、产品和客户群,确定所述第二预测值和所述第二回归值,包括:
将所述历史件量数据输入第一模型,得到所述第二预测值;
将所述历史件量数据输入第二模型,得到所述第二回归值。
在其中一个实施例中,将所述历史件量数据输入第一模型,得到所述第二预测值,包括通过如下步骤构建的第一模型:
提取所述历史件量数据的第二特征信息,所述第二特征信息包括:历史件量的平均值、中位数、最大值及最小值;
对所述始发地、目的地、产品和客户群分别构建one-hot矩阵;
将所述第二特征信息和所述one-hot矩阵输入所述神经网络模型,通过交叉验证进行训练,确定第一模型。
在其中一个实施例中,将所述历史件量数据输入第二模型,得到所述第二回归值,包括通过如下步骤构建的第二模型:
提取所述历史件量数据的第三特征信息,所述第三特征信息包括:每周工作日和周末的统计特征;
将所述第三特征信息输入所述Huber回归模型,通过交叉验证进行训练,确定第二模型。
第二方面,本发明提供了一种件量预测装置,该装置包括:
获取模块,用于获取待预测件量数据;
提取模块,用于对对所述待预测件量数据进行特征提取,得到特征信息;
第一确定模块,用于基于所述特征信息,得到第一预测值和第一回归值;
第二确定模块,用于基于所述第一预测值和所述第一回归值,确定件量预测值。
第三方面,本申请实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述件量预测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述件量预测方法。
本发明实施例提供的件量预测方法、装置、设备及存储介质,通过获取待预测件量数据,并对待预测件量数据进行特征提取,得到特征信息,并基于特征信息,得到第一预测值和第一回归值,最终确定件量预测值。该技术方案中能够对很多件量数据进行同步处理,节省了计算资源,减少了训练时间,便于公司对不同类型的快件进行资源与人员的分配,很大程度上提高了工作效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本发明实施例提供的件量预测方法的流程示意图;
图2为本发明实施例提供的构建最优XGboot模型方法的流程示意图;
图3为本发明实施例提供的构建第一模型方法的流程示意图;
图4为本发明实施例提供的神经网络的结构示意图;
图5为本发明实施例提供的构建第二模型方法的流程示意图;
图6为本发明实施例提供的件量预测装置的结构示意图;
图7为本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如背景技术中提到的,网购已经成为现代人最常用的一种购物方式,随之而来的是快速增长的快递市场,为了使企业合理调配资源,对快递件量预测非常重要,其中,对快递件量预测本质为对时间序列的预测问题。现有技术中主要是通过AMIRA模型实现对时间序列的预测,具体为获取被观测系统的时间序列数据,对该组数据进行绘图并观测其是否为平稳时间序列,对于非平稳时间序列先进行d阶差分计算,转化为平稳时间序列,在得到平稳时间序列后,对该平稳时间序列分别求得其自相关系数ACF和偏自相关系数PACF,通过自相关图和偏自相关图的分析,确定最优的阶层p和阶数q,最终得到AMIRA 模型,并进行模型检验,从而实现对快递件量的预测;还可以通过使用Prophet模型来实现对时间序列的预测,该Prophet模型的构成为 y(t)=g(t)+s(t)+h(t)+c,其中,g(t)为趋势函数表示时间序列中非周期的变化,s(t)表示时间序列中周期性的变化,例如一周或者一年的周期性, c为误差项,表示误差的影响,但是,AMIRA模型和Prophet模型仅为单条时间序列的预测,对于不同的地区流向、产品类型和客户群等均会产生多条时间序列,运用传统的单条时间序列进行件量预测会消耗大量的时间和计算资源,且对于新增的产品和客户群单独预测无法满足模型的输入要求,导致件量预测效果差。
基于上述缺陷,本发明实施例提供了一种件量预测方法,通过获取待预测件量数据,并对待预测件量数据进行特征提取,从而得到特征信息,并基于特征信息,得到第一预测值和第一回归值,最终确定件量预测值,该技术方案能够对大量的件量序列进行预测,不仅节省了计算资源,而且减少了模型训练时间,便于对不同类型的快件进行资源与人员的匹配。
下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,下述法实施例的执行主体可以是件量预测装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为终端设备的部分或者全部。下述方法实施例的执行主体以计算机设备为例来进行说明。
图1为本发明实施例提供的件量预测方法的流程示意图,如图1 所示,该方法包括:
S101、获取待预测件量数据。
具体的,上述待预测件量数据可以为需要对某个时间段的件量进行预测时所需的件量数据,可以包括年、日期等信息,可选的,可以包括派件件量,也可以包括收件件量,还可以包括派件件量和收件件量的总和。
示例性的,当要预测2018年8月1日~2018年9月30日的快递件量时,可以将2018年1月1号~2018年7月31日的件量数据作为待预测件量数据。
S102、对待预测件量数据进行特征提取,得到特征信息。
具体的,在获取到待预测件量数据后,可以通过对待预测件量数据进行分析和处理,即对待预测件量数据进行特征提取,得到待预测数据的统计特征,其中,该统计特征包括平均值、中位数、最大值和最小值等特征。
示例性的,当要预测2018年8月1日~2018年9月30日的件量时,可以提取到2018年1月1日~2018年7月31日的件量特征,8 该日期特征用于构建XGboost特征,包括周的第几天可以取值为0~6,年的第几天,可以取值为0~365、月的第几天,可以取值为0~30,是否周末,可以取值为0或者1,整体方差为2018年1月1日~2018年 7月31日的件量整体方差和件量最大值。
S103、基于特征信息,得到第一预测值和第一回归值。
具体的,在从待预测件量数据中特征提取得到特征信息后,可以将上述特征信息输入第一模型后,得到第一预测值,并将该特征信息输入第二模型后,得到第一回归值。
可选的,上述第一模型可以是神经网络模型,上述第二模型可以是Huber模型,其中,该神经网络模型可以是卷积神经网络模型,也可以是循环神经网络模型。
需要说明的是,该第一预测值为将待预测件量数据的特征信息,输入训练好的神经网络模型后得到的神经网络预测值;上述第一回归值为将待预测件量数据的特征信息,输入训练好的Huber模型后得到的Huber回归值。
S104、基于第一预测值和第一回归值,确定件量预测值。
需要说明的是,在得到第一预测值和第一回归值后,可以通过构建最优XGboost模型来进行件量预测。
本实施例提供的件量预测方法,通过获取待预测件量数据,并对待预测件量数据进行特征提取,得到特征信息,并基于特征信息,得到第一预测值和第一回归值,最终确定件量预测值。该技术方案中能够对大量件量数据进行同步处理,节省了计算资源,减少了训练时间,便于公司对不同类型的快件进行资源与人员的分配,很大程度上提高了工作效率。
可选的,如图2所示,上述最优XGboost模型可以通过如下步骤来构建:
S201、获取历史件量数据。
具体的,历史件量数据为快递在过去的单位时间内的件量数据,上述单位时间可以是一年,可以是一个季度,可以是一个月等;上述历史件量数据可以是包括快递的始发地数据、目的地数据、产品数据和客户群等。
可选的,该历史件量数据可以是通过云端下载的件量数据,也可以是通过其他设备导入的件量数据,还可以是工作人员根据经验值统计的件量数据,本实施例对此不作限定。
示例性的,计算机设备获取历史件量数据的过程可以为:计算机设备接收用户输入的处理指令,并根据处理指令获取历史件量数据。其中,处理指令可以包括每天每个产品的件量,其中,每条时间序列可以是一个产品从一个始发地到一个目的地且对应的客户群形成的序列,对于不同的始发地、目的地、客户群和产品等会形成多条时间序列。
S202、提取历史件量数据的第一特征信息,第一特征信息包括:周的第几天、年的第几天、月的第几天及方差。
具体的,在获取到历史件量数据后,可以对历史件量数据提取第一特征信息,其中,上述第一特征信息可以通过历史件量数据的中位数构建XGboost特征。
示例性的,当要预测2018年8月1日~2018年9月30日的件量时,可以提取到2017年1月1日~2017年7月31日的件量特征,并提取到2017年8月1日~2017年9月30日的日期特征,该日期特征用于构建XGboost特征,包括周的第几天可以取值为0~6,年的第几天,可以取值为0~365、月的第几天,可以取值为0~30,是否周末,可以取值为0或者1,整体方差为2017年1月1日~2017年31日的件量的整体方差和件量最大值。
S203、确定第二预测值和第二回归值。
具体的,在从历史件量数据中提取到第一特征信息后,可以通过构建第一模型,得到第二预测值。
需要说明的是,上述第二预测值为将历史件量数据的第二特征信息,输入神经网络模型后得到的预测值,上述第二回归值为将历史件量数据的第三特征信息,输入Huber回归模型后得到的回归值。
可选的,如图3所示,上述第一模型可以通过如下步骤来构建:
S301、提取历史件量数据的第二特征信息,第二特征信息包括:历史件量的平均值、中位数、最大值及最小值;
具体的,在获取到历史件量数据后,可以对该组历史件量数据进行分析和处理,从中提取第二特征信息,该第二特征信息包括历史件量数据的统计特征,其中,该统计特征包括全部历史件量的平均值、中位数、最大值、最小值等数据。
示例性的,假设要预测2018年8月1日~2018年9月30日的快递件量,则可以获取到2017年1月1日~2017年9月30日的件量数据作为历史件量数据,其中将2017年1月1日~2017年7月31日的件量数据作为训练数据,2017年8月1日~2017年9月30日的件量数据作为验证数据。
其中,可以提取到2017年1月1日~2017年7月31日的件量的统计特征作为历史件量数据的第二特征信息,该统计特征包括件量平均值、中位数、最大值和最小值等。
S302、对始发地、目的地、产品和客户群分别构建one-hot矩阵;
具体的,对历史件量数据的快递信息分别构建one-hot矩阵,该快递信息包括快递的始发地和目的地、产品类型、客户群,其中,快递的始发地、目的地、产品和客户群的类型种类数量分别对应构建的矩阵的维数。
例如,当确定始发地北京到目的地上海的one-hot矩阵时,可以假设总共有五种不同类型的始发地和目的地,分别为北京、上海、深圳、广州、西安,则可以确定出始发地北京对应的矩阵为[1 0 0 0 0],目的地上海对应的矩阵为[0 1 0 0 0],即可以将始发地与目的地分别得到的矩阵进行拼接,得到最终始发地和目的地对应的one-hot矩阵[1 0 0 0 00 1 0 0 0],同理,也可以分别对快递的产品和客户群构建对应的one-hot 矩阵。
S303、将第二特征信息和one-hot矩阵输入神经网络模型,通过交叉验证进行训练,确定第一模型。
具体的,在从历史件量数据中提取到第二特征信息,并对始发地和目的地、产品和客户群分别构建出one-hot矩阵后,可以将该第二特征信息和one-hot矩阵输入至搭建好的如图4所示的神经网络模型中,该模型中的第一层的输出作为下一层的输入,为了防止模型过拟合的问题,对该神经网络模型的每一层设置了0.5的Dropout,其能够从样本中学习到特征,将激活函数设置为relu,其引入了非线性因素,使其能够应用到很多非线性模型中,且能够将上一层的输入信号转换为一个输出信号,作为下一层的输入,该激活函数的公式为f(x)=max(0,x), 其能够在输入为正数的时候,不存在梯度饱和的问题,且计算速度比较快。
需要说明的是,可以通过交叉验证的方法对该神经网络模型不断训练,对该模型中的参数进行优化,从而得到训练好的神经网络模型,即为第一模型。
示例性的,在提取到2017年1月1日~2017年7月31日的件量数据的第二特征信息对神经网络模型进行训练,确定好第一模型后,可以将2017年8月1日~2017年9月30日的件量特征提取后,输入至第一模型中,得到第二预测值。
需要说明的是,可以通过构建第二模型,得到第二回归值。
可选的,如图5所示,上述第二模型可以通过如下步骤来构建:
S401、提取历史件量数据的第三特征信息,第三特征信息包括:每周工作日和周末的统计特征。
S402、将第三特征信息输入Huber回归模型,通过交叉验证进行训练,确定第二模型。
具体的,对于上述历史件量数据,可以根据星期几的特征,将该组历史件量数据分别提取每周工作日和周末的快递件量的统计特征,其中,该统计特征包括每周工作日件量的平均值、中位数、最大值及最小值,周末件量的平均值、中位数、最大值和最小值。
根据始发地和目的地、产品和客户群构成多条件量序列,对每条件量序列构建Huber回归模型,通过交叉验证对该Huber回归模型进行训练,得到第二模型,其中,该Huber回归模型用到的损失函数为 Huber Loss,可以通过如下公式表示:
Figure 1
其中,δ为损失函数的参数,y为真实值,f(x)为模型的预测值。该Huber Loss降低了对离群点的惩罚程度,能够增强平方损失函数对离群点的鲁棒性。
需要说明的是,对每条件量序列分别计算相对百分误差绝对值的平均值,来衡量模型预测结果的好坏,该计算公式可以通过如下表示:
mape=sum(|y*-y|*100/y)/n
其中,n为样本量,y为实际值,y*为预测值。
在训练过程中,去掉mape大于1.25的序列,对剩余序列继续构建回归模型,并再次训练得到最优回归模型,从而消除了异常值对整体的影响。
示例性的,以始发地深圳到目的地上海的件量序列为例,通过交叉训练得到第二模型,并将历史件量数据输入第二模型中,得到一个回归值,其中,由于始发地不同、目的地不同,则会得到多个回归值,并多个回归值经过拼接,可以得到第二回归值。
S204、将第二预测值、第二回归值和第一特征信息输入预设 XGboost模型,通过交叉验证进行训练,确定最优XGboost模型。
S205、将待预测件量数据输入最优XGboost模型中,得到件量预测值。
具体的,在确定出第一模型的第二预测值和第二模型的第二回归值后,可以将其整合在预设XGboost模型中,并提取到如下表格的一些特征:
Figure BDA0001944614830000101
Figure BDA0001944614830000111
其中,起始周w1和结束周w2可以在周期[0,1],(1,2),(2,3),(3,4), (4,5),(5,6),6,7),(7,8),(0,2),(0,4),(0,8),(0,12),(0,16),(0,20)] 中,分别表示选取2017年1月1日~2017年7月31日的第1周~第2 周、第2周~第3周、第3周~第4周,…第1周到第17周,第1周到第21周的上述特征,这样可以选取不同周跨度的特征,保证了获取训练数据的随机性和完整性,从而进一步优化了XGboost模型。
需要说明的是,在训练过程中,确定每个神经网络预测值smape,去掉smape大于1.25的序列,消除了异常值对整体的影响,通过交叉验证得到XGboost模型,并将待预测件量数据输入至得到的最优XGboost 模型中,从而确定出件量预测值。
本实施例提供的件量预测方法,通过构建第一模型,得到第二预测值,并通过构建第二模型,得到第二回归值,并进一步对历史件量数据进行训练后,得到XGboost模型,使其能够对未来时间段的快递件量进行准确预测,便于公司对不同类型的快件及逆行合理的资源调度和分配。
图6为本发明实施例提供的件量预测装置的结构示意图。如图6 所示,该装置可以实现如图1~图5所示的方法,该装置可以包括:
获取模块10,用于获取待预测件量数据;
提取模块20,用于对对所述待预测件量数据进行特征提取,得到特征信息;
第一确定模块30,用于基于所述特征信息,得到第一预测值和第一回归值;
第二确定模块40,用于基于所述第一预测值和所述第一回归值,确定件量预测值。
优选的,所述第二确定模块40,包括:
获取历史件量数据;
提取所述历史件量数据的第一特征信息,所述第一特征信息包括:周的第几天、年的第几天、月的第几天及方差;
确定第二预测值和第二回归值;
将所述第二预测值、所述第二回归值和所述第一特征信息输入所述预设XGboost模型,通过交叉验证进行训练,确定最优XGboost模型。
将所述待预测件量数据输入所述最优XGboost模型中,得到所述件量预测值。
优选的,所述第一确定模块30,包括:
第一确定单元301,用于将所述特征信息输入第一模型,得到第一预测值;
第二确定单元302,用于将所述特征信息输入第二模型,得到第一回归值。
优选的,所述第一模型为神经网络模型,所述第二模型为Huber 回归模型。
优选的,所述第二确定模块40,包括:
获取单元401,用于获取历史件量数据;所述历史件量数据包括始发地、目的地、产品和客户群;
第三确定单元402,用于将所述历史件量数据输入第一模型,得到所述第二预测值;
第四确定单元403,用于将所述历史件量数据输入第二模型,得到所述第二回归值。
优选的,所述第三确定单元402,具体用于包括通过如下步骤构建的第一模型:
提取所述历史件量数据的第二特征信息,所述第二特征信息包括:历史件量的平均值、中位数、最大值及最小值;
对所述始发地、目的地、产品和客户群分别构建one-hot矩阵;
将所述第二特征信息和所述one-hot矩阵输入所述神经网络模型,通过交叉验证进行训练,确定第一模型。
优选的,所述第四确定单元403,具体用于包括通过如下步骤构建的第二模型:
提取所述历史件量数据的第三特征信息,所述第三特征信息包括:每周工作日和周末的统计特征;
将所述第三特征信息输入所述Huber回归模型,通过交叉验证进行训练,确定第二模型。
本实施例提供的件量预测装置,可以执行上述方法的实施例,其实现原理和技术效果类似,在此不再赘述。
图7为本发明实施例提供的一种计算机设备的结构示意图。如图7 所示,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统700的结构示意图。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708 加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有系统700操作所需的各种程序和数据。 CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出 (I/O)接口706也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口 706。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考图1-5描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行图1-5的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、提取模块、第一确定模块及第二确定模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,获取模块还可以被描述为“用于获取待预测件量数据”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,前述程序被一个或者一个以上的处理器用来执行描述于本申请的件量预测方法。
综上所述,本实施例提供的件量预测方法、装置、设备及存储介质,通过获取待预测件量数据,并对待预测件量数据进行特征提取,得到特征信息,并基于特征信息,得到第一预测值和第一回归值,最终确定件量预测值。该技术方案中能够对大量件量数据进行同步处理,节省了计算资源,减少了训练时间,便于公司对不同类型的快件进行资源与人员的分配,很大程度上提高了工作效率。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于) 具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种件量预测方法,其特征在于,包括:
获取待预测件量数据;
对所述待预测件量数据进行特征提取,得到特征信息;
基于所述特征信息,得到第一预测值和第一回归值;
基于所述第一预测值和所述第一回归值,确定件量预测值。
2.根据权利要求1所述的件量预测方法,其特征在于,基于所述第一预测值和所述第一回归值,确定件量预测值,包括:
获取历史件量数据;
提取所述历史件量数据的第一特征信息,所述第一特征信息包括:周的第几天、年的第几天、月的第几天及方差;
确定第二预测值和第二回归值;
将所述第二预测值、所述第二回归值和所述第一特征信息输入预设XGboost模型,通过交叉验证进行训练,确定最优XGboost模型;
将所述待预测件量数据输入所述最优XGboost模型中,得到所述件量预测值。
3.根据权利要求1所述的件量预测方法,其特征在于,基于所述特征信息,得到第一预测值和第一回归值,包括:
将所述特征信息输入第一模型,得到第一预测值;
将所述特征信息输入第二模型,得到第一回归值。
4.根据权利要求3所述的件量预测方法,其特征在于,所述第一模型为神经网络模型,所述第二模型为Huber回归模型。
5.根据权利要求2所述的件量预测方法,其特征在于,所述历史件量数据包括始发地、目的地、产品和客户群,确定所述第二预测值和所述第二回归值,包括:
将所述历史件量数据输入第一模型,得到所述第二预测值;
将所述历史件量数据输入第二模型,得到所述第二回归值。
6.根据权利要求5所述的件量预测方法,其特征在于,将所述历史件量数据输入第一模型,得到所述第二预测值,包括通过如下步骤构建的第一模型:
提取所述历史件量数据的第二特征信息,所述第二特征信息包括:历史件量的平均值、中位数、最大值及最小值;
对所述始发地、目的地、产品和客户群分别构建one-hot矩阵;
将所述第二特征信息和所述one-hot矩阵输入所述神经网络模型,通过交叉验证进行训练,确定第一模型。
7.根据权利要求5所述的件量预测方法,其特征在于,将所述历史件量数据输入第二模型,得到所述第二回归值,包括通过如下步骤构建的第二模型:
提取所述历史件量数据的第三特征信息,所述第三特征信息包括:每周工作日和周末的统计特征;
将所述第三特征信息输入所述Huber回归模型,通过交叉验证进行训练,确定第二模型。
8.一种件量预测装置,其特征在于,所述装置包括:
获取模块,用于获取待预测件量数据;
提取模块,用于对对所述待预测件量数据进行特征提取,得到特征信息;
第一确定模块,用于基于所述特征信息,得到第一预测值和第一回归值;
第二确定模块,用于基于所述第一预测值和所述第一回归值,确定件量预测值。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于:
所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN201910032130.6A 2019-01-14 2019-01-14 件量预测方法、装置、设备及存储介质 Pending CN111435472A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910032130.6A CN111435472A (zh) 2019-01-14 2019-01-14 件量预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910032130.6A CN111435472A (zh) 2019-01-14 2019-01-14 件量预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111435472A true CN111435472A (zh) 2020-07-21

Family

ID=71580544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910032130.6A Pending CN111435472A (zh) 2019-01-14 2019-01-14 件量预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111435472A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113888071A (zh) * 2021-08-24 2022-01-04 上海赛扬信息技术有限公司 基于bim技术的备品备件管理方法及系统
CN114579643A (zh) * 2022-05-05 2022-06-03 国家邮政局邮政业安全中心 快递业务量预测方法、装置及电子设备
CN116307273A (zh) * 2023-05-17 2023-06-23 华中科技大学 一种基于XGBoost算法的船舶运动实时预报方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113888071A (zh) * 2021-08-24 2022-01-04 上海赛扬信息技术有限公司 基于bim技术的备品备件管理方法及系统
CN114579643A (zh) * 2022-05-05 2022-06-03 国家邮政局邮政业安全中心 快递业务量预测方法、装置及电子设备
CN116307273A (zh) * 2023-05-17 2023-06-23 华中科技大学 一种基于XGBoost算法的船舶运动实时预报方法及系统

Similar Documents

Publication Publication Date Title
CN109961248B (zh) 运单投诉预测方法、装置、设备及其存储介质
CN109961165B (zh) 件量预测方法、装置、设备及其存储介质
CN109298998B (zh) 工作量评估及模型训练方法、电子设备及存储介质
CN111435472A (zh) 件量预测方法、装置、设备及存储介质
CN111461786A (zh) 基于Prophet-CEEMDAN-ARIMA的商品销量预测方法及装置
CN111415027A (zh) 构建件量预测模型的方法和装置
CN114663198A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN113420902A (zh) 件量预测模型训练方法、件量预测方法及相关设备
CN111652655A (zh) 商品销量预测方法、装置、电子设备及可读存储介质
CN113159453A (zh) 资源数据预测方法、装置、设备及存储介质
CN113191533A (zh) 仓库用工预测方法、装置、设备及存储介质
CN108764854B (zh) 项目控制方法、装置、电子设备及介质
CN110910241A (zh) 现金流评估方法、装置、服务器设备及存储介质
CN111325433A (zh) 物流领域的排班方法、装置、设备及存储介质
CN114781855A (zh) 基于dea模型的物流传输效率分析方法、装置、设备及介质
CN112561500B (zh) 基于用户数据的薪酬数据生成方法、装置、设备及介质
CN109754175B (zh) 用于对行政审批事项的办结时限进行压缩预测的计算模型及其应用
CN115511536A (zh) 客户终身价值分析方法及装置
CN111353751B (zh) 批量补卡的还原方法和装置
CN108804640B (zh) 基于最大化iv的数据分组方法、装置、储存介质及设备
CN113298291A (zh) 快递件量预测方法、装置、设备及存储介质
CN111612402A (zh) 自动化仲裁方法及装置
CN111915119A (zh) 一种任务分发方法和装置
CN112351105B (zh) 一种云服务评估方法和装置
CN110400189B (zh) 信息输出方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination