CN111415027A

CN111415027A - 构建件量预测模型的方法和装置

Info

Publication number: CN111415027A
Application number: CN201910016643.8A
Authority: CN
Inventors: 苏德嘉; 许胜�; 化文文; 王本玉; 湛长兰; 金晶
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2020-07-14

Abstract

本申请公开了一种构建件量预测模型的方法和装置，该方法包括：获取历史件量数据；重复k次从所述历史件量数据中随机选取预设范围的件量数据；基于预设的时间序列规则，将所述预设范围的件量数据划分为训练集和验证集；采用所述训练集和所述验证集对预设机器学习模型的参数进行优化训练，得到件量预测模型。该方法能够通过合理的划分训练集和验证集，且得到的件量预测模型对快递件量的预测更加准确，很大程度上提高了资源与人力的最大化匹配，进一步提高了工作效率。

Description

构建件量预测模型的方法和装置

技术领域

本发明一般涉及计算机技术领域，具体涉及一种构建件量预测模型的方法和装置。

背景技术

随着信息化技术的快速发展，网购已经成为现代购物的一种比较常用的购物方式，随之而来的是快速增长的快递市场，为了使企业合理调配资源，构建件量预测模型非常重要。目前，对快递件量的预测可以通过传统的时间序列模型和机器学习模型进行件量预测，例如：自回归移动平均模型(Autoregressive Integrated Moving Average Model，AMIRA模型)、长短期记忆网络模型(Long Short-Term Memory，LSTM模型)。

传统的使用机器学习模型对件量预测时，可以使用通过k折交叉验证法或者留一交叉验证法，也可以使用一般的时间序列的交叉验证法来划分数据集，对机器学习模型的参数进行优化，得到最优机器学习模型，但是，上述方法划分的数据集的长度不同，由于样本数量不同导致确定的模型存在误差，使得件量预测准确度低。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种构建件量预测模型的方法和装置，能够合理的划分数据集，对快递件量的预测更加准确。

第一方面，本发明提供了一种构建件量预测模型的方法，该方法包括：

获取历史件量数据；

重复k次从所述历史件量数据中随机选取预设范围的件量数据，所述k为自然数；

基于预设的时间序列规则，将所述预设范围的件量数据划分为训练集和验证集，所述时间序列规则为所述训练集的件量日期小于所述验证集的件量日期；

采用所述训练集和所述验证集对预设机器学习模型的参数进行优化训练，得到件量预测模型。

在其中一个实施例中，对每组预设范围的件量数据，将所述预设范围的件量数据划分为训练集和验证集，包括：

确定所述训练集和所述验证集的比例；

根据预设的时间序列规则，将所述预设范围的件量数据按照所述比例划分为所述训练集和所述验证集，所述预设的时间序列规则为训练集的件量日期小于验证集的件量日期。

在其中一个实施例中，采用所述训练集和所述验证集对机器学习模型的参数进行优化训练，得到件量预测模型，包括：

将所述k组预设范围的件量数据分别输入预设机器学习模型进行训练，得到k个参数不同的机器学习模型；

根据所述k个参数不同的机器学习模型中，确定件量预测模型。

在其中一个实施例中，根据所述k个参数不同的机器学习模型中，确定件量预测模型，包括：

确定所述k个参数不同的机器学习模型的性能指标，所述性能指标包括准确率；

将所述性能指标最优的机器学习模型确定为件量预测模型。

在其中一个实施例中，所述方法还包括：

获取待预测件量数据；

将所述待预测件量数据输入所述件量预测模型进行件量预测。

第二方面，本申请实施例提供了一种构建件量预测模型的装置，该装置包括：

第一获取模块，用于获取历史件量数据；

选取模块，用于重复k次从所述历史件量数据中随机选取预设范围的件量数据，所述k为自然数；

划分模块，用于基于预设的时间序列规则，将所述预设范围的件量数据划分为训练集和验证集，所述时间序列规则为所述训练集的件量日期小于所述验证集的件量日期；

确定模块，用于采用所述训练集和所述验证集对预设机器学习模型的参数进行优化训练，得到件量预测模型。

本发明实施例提供的构建件量预测模型的方法和装置，通过获取历史件量数据，并重复k次从历史件量数据中随机选取预设范围的件量数据，并将每次选取的预设范围的件量数据基于预设的时间序列规则，划分为训练集和验证集，采用训练集和验证集对预设机器学习模型的参数进行优化训练，得到件量预测模型。该方法能够合理的划分训练集和验证集，使得能够更好的对预设机器学习模型中的参数进行优化训练，进而得到的件量预测模型对快递件量的预测更加准确，很大程度上提高了资源与人力的最大化匹配，进一步提高了工作效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的构建件量预测模型的方法的流程示意图；

图2为本发明实施例提供的划分训练集和验证集的方法的流程示意图；

图3为本发明实施例提供的划分训练集和验证集的结构示意图；

图4为本发明实施例提供的得到件量预测模型的方法的流程示意图；

图5为本发明实施例提供的构建件量预测模型的装置的结构示意图；

图6为本发明实施例提供的计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如背景技术中提到的，在物流领域中，为了保证资源与人力的合理利用，日度件量预测十分重要，传统技术中常用ARIMA模型和一些常用的机器学习模型来应用于对日度件量的预测。且在机器学习模型对件量预测时，通常使用k折交叉验证法或者留一交叉法来划分训练集和验证集，在训练集上进行模型拟合并通过验证集来得到此参数下模型的性能指标，从而选出最优模型参数，并通过测试集进一步评估最优参数模型的性能，选取最佳模型，传统时间序列进行预测时，一般使用数据集的一小半作为测试集，再将建模结果应用于整个数据集进行预测。其中，k折交叉验证为将数据集随机分为k份，选取其中的一份数据作为验证集，其余的k-1份作为验证集，从而得到k个不同参数的模型，通过比较k个模型的性能指标，最终确定出最优模型。但是，上述k折交叉验证法中在选取训练集和验证集时，由于选取顺序为随机选取，违背了时间序列顺序规则；另外，还可以使用时间序列的常用交叉验证法，可以假设数据时间范围为T,训练集为t,验证集为h,确定该模型的性能指标，并分别计算t＝k.k+1,k+2,…,T-h时训练模型的性能指标，从而通过对不同模型的性能参数进行对比，确定出最优参数模型，但是，该方法随机性成分低，且每次划分的训练集的长度不同，可能会根据训练集的序列长度而确定出最优模型，而不是通过确定最优参数来得到，导致最终确定的件量预测模型会产生误差。

基于上述缺陷，本发明实施例提供了一种构建件量预测模型的方法，通过从获取的历史件量数据中随机选取预设范围的件量数据，并将其划分为训练集和验证集，对机器学习模型中的参数进行优化训练，从而得到的件量预测模型最优，能够使用于不同时间跨度的物流领域的日度件量的序列数据，且能够合理选择最优参数模型，很大程度上提高了对件量预测的效率。

下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，下述法实施例的执行主体可以是构建件量预测模型的装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为终端设备的部分或者全部。下述方法实施例的执行主体以计算机设备为例来进行说明。

图1为本发明实施例提供的构建件量预测模型的方法的流程示意图，如图1所示，该方法包括：

S101、获取历史件量数据。

具体的，上述历史件量数据可以是过去的某段时间内获取的件量数据，其中，该段时间可以是一个季度，一个月，或者是一个星期的时间。

需要说明的是，该历史件量数据可以是通过云端下载的件量数据，也可以是其他设备导入的件量数据，还可以是工作人员根据经验值统计的件量数据，本实施例对次不作限定。

可选的，当要预测的件量为y年m月a日至y年m+1月a日的件量数据时，可以通过获取到上一年同一时间段的件量数据，即将y-1年m月a日至y年m+1月a日的件量数据作为历史件量数据。

示例性的，计算机设备获取历史件量数据的过程可以为：计算机设备接收用户输入的处理指令，并根据处理指令获取历史件量数据，其中，处理指令可以包括每天每个产品的件量。

S102、重复k次从历史件量数据中随机选取预设范围的件量数据，k为自然数。

具体的，在获取到历史件量数据后，可以从历史件量数据中随机选取预设范围的件量数据，该预设范围可以是五到六个月的件量数据，也可以是三到四个月的件量数据。

可选的，可以重复k次从历史件量数据中随机选取预设范围的件量数据，得到k组预设范围的件量数据，其中，k为自然数，上述选取的k组预设范围的件量数据均不相同。

S103、基于预设的时间序列规则，将预设范围的件量数据划分为训练集和验证集，时间序列规则为训练集的件量日期小于验证集的件量日期。

具体的，当从获取的历史件量数据中随机选取k组预设范围的件量数据后，可选的，参见如图2所示，可以对每组预设范围的件量数据，将该预设范围的件量数据划分训练集和验证集，包括：

S201、确定训练集和验证集的比例。

S202、根据预设的时间序列规则，将预设范围的件量数据按照比例划分为训练集和验证集，预设的时间序列规则为训练集的件量日期小于验证集的件量日期。

具体的，可以根据实际业务情况，确定出训练集和验证集的比例，可选的，训练集和验证集的比例可以是3:1，可以是4:1，也可以是7:2，在确定出训练集和验证集的比例后，可以根据预设的时间序列规则，将每组预设范围的件量数据划分为训练集和验证集，可以参见图3所示，其中，预设的时间序列规则为训练集的件量日期小于验证集的件量日期，

示例性的，假设需要预测的件量时间段为y年m月a日至y年m+1月a日，可以选用上一年同一时间段的数据作为测试集用来选择件量预测模型，即y-1年m月a日至y-1年m+1月a日的件量数据，可以选用上一年同一时间段前三个月的数据作为训练集和验证集，即y-1年m-3月a-1日至y-1年m月a-1日的件量数据，其中，训练集与验证集的比例可以为2:1，例如可以将y年m-3月a-1日至y年m-1月a-1日的件量数据作为训练集，将y年m-1月a-1日至y年m月a-1日的件量数据作为验证集。

需要说明的是，由于某时间段的数据波动趋势与上一年同一时间段的数据变化有很强的相关性，然而，对于较多日度件量数据在时间范围仅在一到两年，通过上述划分数据集的方法可以使模型很好的学习到时间序列的件量数据的完整年周期性，从而提高了构建件量预测模型的精准度，很大程度上使得预测的件量数据更加准确。

S104、采用训练集和验证集对预设机器学习模型的参数进行优化训练，得到件量预测模型。

具体的，可以对上述得到的k组预设范围的件量数据输入预设机器学习模型进行训练，得到k个参数不同的机器学习模型，其中，每个机器学习模型可以通过如下步骤得到：

需要说明的是，对预设范围的件量数据按照比例划分训练集和验证集，可以采用训练集对预设机器学习模型进行优化训练，并根据验证集，对优化后的参数进行评估，得到每个机器学习模型。

其中，通过重复k次划分训练集和验证集，保证了评估结果的稳定性和保真性。

可选的，如图4所示，在得到k个参数不同的机器学习模型后，可以通过如下步骤确定件量预测模型：

S301、确定k个参数不同的机器学习模型的性能指标，性能指标包括准确率。

具体的，上述机器学习模型的性能指标用来评价模型的好坏，该性能指标可以是准确率，可以是召回率，可以是敏感度，其中，上述准确率可以是模型预测正确的数量与模型总共预测的数量的比值，该性能指标作为评价模型的标准，能更好的确定模型的效果。

S302、将性能指标最优的机器学习模型确定为件量预测模型。

需要说明的是，在确定出k个参数不同的机器学习模型的性能指标后，可以通过比较上述k个性能指标，将性能指标最优的机器学习模型作为件量预测模型。

本发明实施例提供的构建件量预测模型的方法，通过获取历史件量数据，从历史件量数据中随机选取预设范围的件量数据，并将预设范围的件量数据划分为训练集和验证集，采用训练集和验证集对预设机器学习模型的参数进行优化训练，得到件量预测模型。该方法能够合理的划分训练集和验证集，使得能够更好的对预设机器学习模型中的参数进行优化训练，进而得到的件量预测模型对快递件量的预测更加准确，很大程度上提高了资源与人力的最大化匹配，进一步提高了工作效率。

可选的，可以通过测试集对得到的件量预测模型进行测试，以进一步获取到最优的模型，在确定出件量预测模型后，可以获取待预测件量数据，并将该待预测件量数据输入至该件量预测模型中，从而实现对某段时间的快递件量预测。

例如，要预测的件量时间段为y年m月a日至y年m+1月a日，可以选用上一年同一时间段的件量数据作为测试集用来选择件量预测模型，将要预测的件量时间段前三个月的件量数据作为待预测件量数据输入件量预测模型，即y年m-3月a日至y年m月a日的件量数据，从而预测到y年m月a日至y年m+1月a日的件量数据。

本实施例中提供的件量预测方法，能够很好的对某段时间的件量数据进行准确预测，使得公司能够更好的实现人工与资源的匹配，进一步节省了人力成本，并且提高了工作效率。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

图5为本发明实施例提供的构建件量预测模型的装置的结构示意图。如图5所示，该装置可以实现如图1～图4所示的方法，该装置可以包括：

第一获取模块10，用于获取历史件量数据；

选取模块20，用于重复k次从所述历史件量数据中随机选取预设范围的件量数据，所述k为自然数；

划分模块30，用于基于预设的时间序列规则，将所述预设范围的件量数据划分为训练集和验证集，所述时间序列规则为所述训练集的件量日期小于所述验证集的件量日期；

确定模块40，用于采用所述训练集和所述验证集对预设机器学习模型的参数进行优化训练，得到件量预测模型。

优选的，上述划分模块30，包括：

第一确定单元301，用于确定所述训练集和所述验证集的比例；

划分单元302，用于根据预设的时间序列规则，将所述预设范围的件量数据按照所述比例划分为所述训练集和所述验证集，所述预设的时间序列规则为训练集的件量日期小于验证集的件量日期。

优选的，上述确定模块40，包括：

第二确定单元401，用于将所述k组预设范围的件量数据分别输入预设机器学习模型进行训练，得到k个参数不同的机器学习模型；

第三确定单元402，用于根据所述k个参数不同的机器学习模型中，确定件量预测模型。

优选的，上述确定模块40，具体用于采用所述训练集对所述机器学习模型的参数进行优化训练；根据所述验证集，对优化后的参数进行评估，确定每个机器学习模型。

优选的，上述第三确定单元402，具体用于确定所述k个参数不同的机器学习模型的性能指标，所述性能指标包括准确率；将所述性能指标最优的机器学习模型确定为件量预测模型。

优选的，上述装置，还包括：

第二获取模块50，用于获取待预测件量数据；

件量预测模块60，用于将所述待预测件量数据输入所述件量预测模型进行件量预测。

本实施例提供的构建件量预测模型的装置，可以执行上述方法的实施例，其实现原理和技术效果类似，在此不再赘述。

图6为本发明实施例提供的一种计算机设备的结构示意图。如图6所示，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口606也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口606。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考图1-4描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行图1-4的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一获取模块、选取模块、划分模块及确定模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，第一获取模块还可以被描述为“用于获取历史件量数据”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本申请的构建件量预测模型的方法。

综上所述，本发明实施例提供的构建件量预测模型的方法和装置，通过获取历史件量数据，并重复k次从历史件量数据中随机选取预设范围的件量数据，并将每次选取的预设范围的件量数据基于预设的时间序列规则，划分为训练集和验证集，采用训练集和验证集对预设机器学习模型的参数进行优化训练，得到件量预测模型。该方法能够合理的划分训练集和验证集，使得能够更好的对预设机器学习模型中的参数进行优化训练，进而得到的件量预测模型对快递件量的预测更加准确，很大程度上提高了资源与人力的最大化匹配，进一步提高了工作效率。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种构建件量预测模型的方法，其特征在于：

获取历史件量数据；

2.根据权利要求1所述的构建件量预测模型的方法，其特征在于，对每组预设范围的件量数据，将所述预设范围的件量数据划分为训练集和验证集，包括：

确定所述训练集和所述验证集的比例；

根据预设的时间序列规则，将所述预设范围的件量数据按照所述比例划分为所述训练集和所述验证集。

3.根据权利要求1所述的构建件量预测模型的方法，其特征在于，采用所述训练集和所述验证集对机器学习模型的参数进行优化训练，得到件量预测模型，包括：

4.根据权利要求3所述的构建件量预测模型的方法，其特征在于，根据所述k个参数不同的机器学习模型中，确定件量预测模型，包括：

将所述性能指标最优的机器学习模型确定为件量预测模型。

5.根据权利要求1所述的构建件量预测模型的方法，所述方法还包括：

获取待预测件量数据；

6.一种构建件量预测模型的装置，其特征在于，所述装置包括：

第一获取模块，用于获取历史件量数据；

7.根据权利要求6所述的构建件量预测模型的装置，其特征在于，所述划分模块，包括：

第一确定单元，用于确定所述训练集和所述验证集的比例；

划分单元，用于根据预设的时间序列规则，将所述预设范围的件量数据按照所述比例划分为所述训练集和所述验证集。

8.根据权利要求6所述的构建件量预测模型的装置，其特征在于，所述确定模块，包括：

第二确定单元，用于将所述k组预设范围的件量数据分别输入预设机器学习模型进行训练，得到k个参数不同的机器学习模型；

第三确定单元，用于根据所述k个参数不同的机器学习模型中，确定件量预测模型。

9.根据权利要求8所述的构建件量预测模型的装置，其特征在于，所述第三确定单元，具体用于：

将所述性能指标最优的机器学习模型确定为件量预测模型。

10.根据权利要求6所述的构建件量预测模型的装置，其特征在于，所述装置包括：

第二获取模块，用于获取待预测件量数据；

件量预测模块，用于将所述待预测件量数据输入所述件量预测模型进行件量预测。