CN113222057A

CN113222057A - 数据预测模型训练、数据预测方法、装置、设备及介质

Info

Publication number: CN113222057A
Application number: CN202110592893.3A
Authority: CN
Inventors: 武竞; 刘振伟; 胡晓菁
Original assignee: China Post Information Technology Beijing Co ltd
Current assignee: China Post Information Technology Beijing Co ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-06

Abstract

本申请实施例所提供了一种数据预测模型训练、数据预测方法、装置、设备及介质，该方法包括：获取预先存储的历史数据以及预设模型；其中，历史数据包括机构标识、历史日期以及邮件量；根据所述历史数据，对所述预设模型进行训练，得到数据预测模型，所述数据预测模型用于对当前日期和/或后续日期的邮件量进行预测。本申请实施例实现了对邮件量预测模型的搭建和训练以及邮件量的预测，解决了物流信息中未收寄邮件难预测、数据信息少、预测机构多、覆盖面广等难题，规避了传统算法准确率低、人工处理繁杂等痛点，大幅提高了物流机构每日预测的准确率，进而使物流机构可以合理的分配资源来处理这些邮件，提高了整体物流行业的业务处理水平。

Description

数据预测模型训练、数据预测方法、装置、设备及介质

技术领域

本申请实施例涉及机器学习领域，尤其涉及一种数据预测模型训练、数据预测方法、装置、设备及介质。

背景技术

物流类企业在收寄、处理、运输、投递等各个寄递生产环节中，往往需要预知邮件的业务量，以便提前安排人员、运输车辆、场地等生产资源，从而最大化利用资源，节省成本。

而在物流领域，业务量预测一直是公认的难题。现有的预测技术都是基于人工经验预测法或者传统的回归拟合算法及时间序列方法进行预测的，预测准确度低。所以迫切需要一套成熟的方法解决寄递业务量预测问题。

发明内容

本申请实施例提供一种数据预测模型训练、数据预测方法、装置、设备及介质，可以实现邮件业务的预测，提高了整体物流行业的业务处理水平。

在一个实施例中，本申请实施例提供了一种数据预测模型训练方法，所述方法包括：

获取预先存储的历史数据以及预设模型；其中，历史数据包括机构标识、历史日期以及邮件量；

根据所述历史数据，对所述预设模型进行训练，得到数据预测模型，所述数据预测模型用于对当前日期和/或后续日期的邮件量进行预测。

在另一个实施例中，本申请实施例提供了一种数据预测方法，所述方法包括：

获取预先存储的历史数据，其中，历史数据包括机构标识、历史日期以及邮件量；

根据所述历史数据以及调取的数据预测模型，对当前日期和/或后续日期的邮件量进行预测，得到预测邮件量；

其中，所述数据预测模型是基于上述任一实施例所述的数据预测模型训练方法训练得到。

在一个实施例中，本申请实施例提供了一种数据预测模型训练装置，该装置包括：

第一数据获取模块，用于获取预先存储的历史数据以及预设模型；其中，历史数据包括机构标识、历史日期以及邮件量；

模型获得模块，用于根据所述历史数据，对所述预设模型进行训练，得到数据预测模型，所述数据预测模型用于对当前日期和/或后续日期的邮件量进行预测。

在另一个实施例中，本申请实施例提供了一种数据预测装置，该装置包括：

第二数据获取模块，用于获取预先存储的历史数据，其中，历史数据包括机构标识、历史日期以及邮件量；

预测模块，用于根据所述历史数据以及调取的数据预测模型，对当前日期和/或后续日期的邮件量进行预测，得到预测邮件量；

其中，所述数据预测模型是基于上述任一实施例中所述的数据预测模型训练方法训练得到。

在一个实施例中，本申请实施例提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请任一实施例所提供的数据预测模型训练方法，或者实现如本申请任一实施例所提供的数据预测方法。

在一个实施例中，本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请任一实施例所提供的数据预测模型训练方法，或者实现如本申请任一实施例所提供的数据预测方法。

本申请实施例所提供了一种数据预测模型训练、数据预测方法、装置、设备及介质，该方法包括：获取预先存储的历史数据以及预设模型；其中，历史数据包括机构标识、历史日期以及邮件量；根据所述历史数据，对所述预设模型进行训练，得到数据预测模型，所述数据预测模型用于对当前日期和/或后续日期的邮件量进行预测。本申请实施例通过以上手段实现了对邮件量预测模型的搭建和训练以及邮件量的预测，解决了物流信息中未收寄邮件难预测、数据信息少、预测机构多、覆盖面广等难题，规避了传统算法准确率低、人工处理繁杂等痛点，大幅提高了物流机构每日预测的准确率，进而使物流机构可以合理的分配资源来处理这些邮件，提高了整体物流行业的业务处理水平。

附图说明

图1是本申请实施例一提供的数据预测模型训练方法的流程图；

图2是本申请实施例二提供的数据预测模型训练方法的流程图；

图3是本申请实施例三提供的数据预测方法的流程图；

图4是本申请实施例三提供的预测系统架构图；

图5是本申请实施例四提供的一种数据预测模型训练装置的结构框图；

图6是本申请实施例五提供的一种数据预测装置的结构框图；

图7是本申请实施例六提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1是本申请实施例一提供的数据预测模型训练方法的流程图，本实施例可适用于需要知道准确的物流业务量以便提前分配适当的人力物力的场景中，该方法可以由本申请实施例所提供的数据预测模型训练装置执行，该装置可以由软件和/或硬件的方式来实现，并可集成于电子设备中。

如图1所示，所述数据预测模型训练方法包括：

S110，获取预先存储的历史数据以及预设模型；其中，历史数据包括机构标识、历史日期以及邮件量。

其中，模型可以理解为对统计关系进行定量描述的一种数学模型。它是一种预测性的建模技术，通过建立自变量和因变量之间的关系方程研究自变量和因变量之间的关系。本实施例中的预设模型是指仅仅搭建了框架还没有使用数据训练的基础模型，以卷积神经网络基础模型的搭建为例，先搭建输入层，再搭建隐藏层，隐藏层包括卷积层、池化层和全连接层，最后搭建输出层。当有数据输入时，数据按照输入层、隐藏层和输出层的方向流动；若模型没有经过数据的训练，则该模型为一个基础模型。

进一步的，历史数据可以是某个物流机构在历史某个时间段内的邮件量，例如可以是物流机构A在2021年3月21号当天的邮件量。

机构标识是指可以代表邮件所属单位的标记。

在本实施例中，获取预先存储的历史数据以及预设模型，可以是系统自动获取，系统收到请求后去数据库查找匹配的历史数据和预设模型，并返回历史数据和预设模型至指定路径。

S120，根据所述历史数据，对所述预设模型进行训练，得到数据预测模型，所述数据预测模型用于对当前日期和/或后续日期的邮件量进行预测。

其中，模型需要通过大量的数据进行训练。可以将历史数据分为训练数据和预测数据，先采用训练数据对模型进行训练，以及迭代更新优化模型，得到数据预测模型，再采用预测数据对数据预测模型进行预测，以评估数据预测模型的准确率。

本实施例中，所述数据预测模型用于对当前日期和/或后续日期的邮件量进行预测是指数据预测模型可以对当前某时间段和/或以后某时间段内的邮件量进行预测，例如可以是，数据预测模型用于对今天的邮件量进行预测，也可以是用于对今天、明天和后天的邮件量进行预测，预测的天数和具体日期不做具体限定，可以根据实际情况进行设置。

可选的，在上述实施例的基础上，所述方法还包括：基于预设算法，根据包括机构标识、历史日期以及邮件量的大数据进行批量参数调优、模型训练和测试；根据批量调优、模型训练和测试的结果，确定基于至少一项预设算法构建的预设模型。

其中，预设算法是指应用于本实施例中用于搭建数据预测模型的算法，例如，可以是循环神经网络(包括长短记忆神经网络和门限单元神经网络)、决策树、季节性差分自回归滑动平均模型等十几种算法，也可以是这些算法的各种组合。

模型的训练是将数据输入模型后通过前向传播和反向传导调整模型的每一层结构的权重和参数，使模型得到的预测值更接近真实值。其中，以神经网络为例，参数可以是层与层之间的连接权重和偏置等。模型的参数在训练前是默认的，经过数据训练后模型可以通过自己学习得到参数。

本实施例中，可选的，可以根据模型预测的结果与实际值的误差值进行参数调整和优化，以提高数据预测模型的准确性。

模型的测试是指用不同于训练模型所用数据的新数据对模型的预测准确度进行测试，其中，新数据中没有标注目标值。

本申请实施例所提供的技术方案，获取预先存储的历史数据以及预设模型；其中，历史数据包括机构标识、历史日期以及邮件量；根据所述历史数据，对所述预设模型进行训练，得到数据预测模型，所述数据预测模型用于对当前日期和/或后续日期的邮件量进行预测。本申请实施例通过以上手段实现了对数据预测模型的搭建和训练，并将多个物流机构的数据进行了整合，能够准确高效的对邮件量进行预测。

实施例二

图2是本申请实施例二提供的数据预测模型训练方法的流程图，本实施例以上述实施例为基础进行优化。

如图2所示，本实施例的方法具体包括如下步骤：

S210，按照预设周期，从作业生产数据库中获取历史数据，并将所述历史数据以结构化形式存储于存储区。

其中，按照预设周期，从作业生产数据库中获取历史数据，例如可以是每隔24小时从数据库中下载历史数据。预设周期可以是根据实际情况设定的并可随时调整的，也可以是系统设定的默认值。

进一步的，将历史数据以结构化形式存储是指将历史数据以二维表结构的形式来表达逻辑。例如，二维表的第一列表示时间，例如2021年1月1号、2021年1月2号…，以此类推。二维表的第二列表示机构标识，二维表的第三列表示邮件量。

S220，获取预先存储的历史数据以及预设模型；其中，历史数据包括机构标识、历史日期以及邮件量。

S230，针对机构标识、历史日期以及邮件量，增加衍生变量信息，并进行特征选择和数据挖掘，得到训练数据。

其中，衍生变量是指由于原始自变量的变化而变化的变量。具体的，在本实施例中，原始自变量为机构标识和历史日期。历史日期中，每年的11月11号“光棍节”电商会进行大促销，可能导致之后的一个月的时间邮件量会暴增，所以，将类似于“双十一”的衍生变量纳入模型的考量范畴有助于提高模型的预测准确度。

进一步的，特征选择是指从M个特征中选取N个特征，使特征最优化。特征选择是一个很重要的数据预处理过程，首先，选取更重要的特征可以缓解维数灾难问题；其次，去除不相关特征可以降低学习任务的难度。可以理解的，数据集有N个特征值，代表数据集是N维的，维度越高，模型从数据中进行学习的难度就越大。在本实施例中，可选的，特征值可以是机构、日期、天气、节假日等，目标值为未来某个时间段内的邮件量。但是这些特征值中有些特征对于目标值的影响不大，那么就可以剔除这些特征值，这样就降低了数据集的维度，即降低了模型学习任务的难度。

S240，根据训练数据对预设模型进行训练，得到数据预测模型，所述数据预测模型用于对当前日期和/或后续日期的邮件量进行预测。

S250，将所述数据预测模型以非结构化形式存储于存储区，以在进行数据预测时进行调用。

其中，将所述数据预测模型以非结构化形式存储于存储区是指数据预测模型是不规则或不完整，没有预定义的数据结构，不方便用数据库二维逻辑表进行表达。

进一步的，模型的调用是把训练好的模型从存储路径中取出来再利用。

本申请实施例所提供的技术方案，按照预设周期，从作业生产数据库中获取历史数据，并将所述历史数据以结构化形式存储于存储区；获取预先存储的历史数据以及预设模型；其中，历史数据包括机构标识、历史日期以及邮件量；针对机构标识、历史日期以及邮件量，增加衍生变量信息，并进行特征选择和数据挖掘，得到训练数据；根据训练数据对预设模型进行训练，得到数据预测模型，所述数据预测模型用于对当前日期和/或后续日期的邮件量进行预测；将所述数据预测模型以非结构化形式存储于存储区，以在进行数据预测时进行调用。本申请实施例通过以上手段实现了数据预测模型的搭建和训练，训练好的模型可以被任何物流机构反复的利用，提高了模型的利用率，为各物流机构节省了时间成本。并且随着时间的推移，数据量逐渐增多，模型的预测准确度也会越来越高。

实施例三

图3是本申请实施例三提供的数据预测方法的流程图，本实施例可适用于需要知道准确的物流业务量以便提前分配适当的人力物力的场景中，该方法可以由本申请实施例所提供的数据预测装置执行，该装置可以由软件和/或硬件的方式来实现，并可集成于电子设备中。

如图3所示，本实施例的方法具体包括如下步骤：

S310，获取预先存储的历史数据，其中，历史数据包括机构标识、历史日期以及邮件量。

S320，根据所述历史数据以及调取的数据预测模型，对当前日期和/或后续日期的邮件量进行预测，得到预测邮件量。其中，所述数据预测模型是基于上述任一实施例所述的数据预测模型训练方法训练得到。

本实施例中，可选的，根据所述历史数据以及数据预测模型，对当前日期和后续日期的邮件量进行预测之后，所述方法还包括：对所述预测邮件量进行平稳性优化处理，以消除同一日期对应的不同预测邮件量之间的差异。

其中，由于本实施例中数据预测模型用于对当前日期和/或后续日期的邮件量进行预测，所以可能导致对于同一个日期的预测结果不相同，所以要对预测的邮件量进行平稳化处理，例如可以是加权，或者取最大值与最小值之间的中间值。

本实施例中，可选的，根据所述历史数据以及数据预测模型，对当前日期和后续日期的邮件量进行预测之后，所述方法还包括：向前端应用推送所述邮件量，以使前端应用进行邮件量分析、运输车辆智能排班或揽投人员智能排班。

示例性的，图4是本实施例提供的预测系统架构图。如图4所示，预测系统的各层架构分别为：数据存储层、数据处理层、分析方法层、分析应用层。

最底层的分析方法层是支持模型训练与数据预测的算法逻辑层，对于挖掘数据规律进行预测起到至关重要的作用，是整个预测系统的核心。该发明在算法选择方面，利用前沿的机器学习和深度学习算法构建集成算法模型，对全国的大数据进行批量参数调优、模型训练和测试，先后尝试并采用了涉及以下算法的集成算法：循环神经网络、决策树、时间序列方法等十几种方法，最终的集成算法实现了资源性能比最优。

数据处理层用来处理历史数据和预测数据，并将处理好的数据传入模型，进行模型的训练和数据的预测步骤。第一步，将历史数据从数据存储层的历史数据表中取出，根据历史数据的特征增加衍生变量信息，对多维数据进行特征选择和数据挖掘。第二步，将处理好的数据作为训练数据，由定时任务触发传入算法中进行训练。第三步，从数据存储层调取已经训练好的模型进行数据预测，得到预测数据。第四步，将预测数据进行平稳性优化处理，并对预测数据加入机构号、日期等属性信息，将预测数据和插入日期戳写入数据存储层的预测数据表。

数据存储层是存在于作业生产库与应用层之间的中间数据库，结构化的数据表分为历史数据表与预测数据表，非结构化的数据表为模型存储表。历史数据表每日通过定时任务从作业生产数据库中抽取数据，将上一日的历史数据汇总加入历史数据表中。预测数据表用来存放集成预测算法预测出的数据，并自动将每日预测更新的数据推送到前端应用。模型存储表存储于非结构化数据库，用于存储算法训练完成的模型，便于数据预测时调用模型。

分析应用层是最上层与用户交互的层，用于存放与展示预测系统的应用功能。现有的主要分析应用有邮件量T+N日预测、运输车辆智能排班、揽投人员智能排班等应用。分析应用层从数据存储层的接口调取预测数据，推送数据到各应用中进行加工处理并对使用者展示结果。

本申请实施例所提供的技术方案，获取预先存储的历史数据，其中，历史数据包括机构标识、历史日期以及邮件量；根据所述历史数据以及调取的数据预测模型，对当前日期和/或后续日期的邮件量进行预测，得到预测邮件量。本申请实施例通过以上手段实现了端到端的预测功能——从数据提取与加工、特征工程、模型训练、模型存储与提取，到预测数据加工整合，实现了全流程的自动化；另一方面，通过对模型的训练调优和大规模测试，最终的集成算法预测系统有效地改进了以往物流领域的人工预测方法和传统技术预测法准确率低的问题，有效地解决了未收寄邮件难预测、数据信息少、预测机构多、覆盖面广、实际邮件时限与作业计划有出入、难判断流量流向等难题。

实施例四

图5为本申请实施例四提供的一种数据预测模型训练装置的结构框图，该装置可执行本发明任意实施例所提供的数据预测模型训练方法，具备执行方法相应的功能模块和有益效果。如图5所示，该装置可以包括：

第一数据获取模块510，用于获取预先存储的历史数据以及预设模型；其中，历史数据包括机构标识、历史日期以及邮件量。

模型获得模块520，用于根据所述历史数据，对所述预设模型进行训练，得到数据预测模型，所述数据预测模型用于对当前日期和/或后续日期的邮件量进行预测。

进一步的，所述装置还包括：

数据获取及存储模块，用于按照预设周期，从作业生产数据库中获取历史数据，并将所述历史数据以结构化形式存储于存储区。

进一步的，模型获得模块520包括：

训练数据获取单元，用于针对机构标识、历史日期以及邮件量，增加衍生变量信息，并进行特征选择和数据挖掘，得到训练数据。

模型获得单元，用于根据训练数据对预设模型进行训练，得到数据预测模型。

进一步的，所述装置还包括：

模型存储模块，用于将所述数据预测模型以非结构化形式存储于存储区，以在进行数据预测时进行调用。

进一步的，所述装置还包括：

模型训练模块，用于基于预设算法，根据包括机构标识、历史日期以及邮件量的大数据进行批量参数调优、模型训练和测试。

预设模型构建模块，用于根据批量调优、模型训练和测试的结果，确定基于至少一项预设算法构建的预设模型。

上述产品可执行本申请实施例所提供的插件开发方法，具备执行方法相应的功能模块和有益效果。

实施例五

图6为本申请实施例五提供的一种数据预测装置的结构框图，该装置可执行本发明任意实施例所提供的数据预测方法，具备执行方法相应的功能模块和有益效果。如图6所示，该装置可以包括：

第二数据获取模块610，用于获取预先存储的历史数据，其中，历史数据包括机构标识、历史日期以及邮件量。

预测模块620，用于根据所述历史数据以及调取的数据预测模型，对当前日期和/或后续日期的邮件量进行预测，得到预测邮件量。

其中，所述数据预测模型是基于上述任一实施例提供的数据预测模型训练方法训练得到。

进一步的，所述装置还包括：

优化处理模块，用于对所述预测邮件量进行平稳性优化处理，以消除同一日期对应的不同预测邮件量之间的差异。

进一步的，所述装置还包括：

邮件量推送模块，用于向前端应用推送所述邮件量，以使前端应用进行邮件量分析、运输车辆智能排班或揽投人员智能排班。

实施例六

图7为本申请实施例六中的一种电子设备的结构示意图。图7示出了适于用来实现本申请实施方式的示例性计算机设备12的框图。图7显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。另外，本实施例中的电子设备12，显示器24不是作为独立个体存在，而是嵌入镜面中，在显示器24的显示面不予显示时，显示器24的显示面与镜面从视觉上融为一体。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例所提供的数据预测模型训练方法，包括：

或者实现本申请实施例所提供的数据预测方法，包括：

实施例七

本申请实施例七提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请实施例所提供的数据预测模型训练方法，包括：

或者实现本申请实施例所提供的数据预测方法，包括：

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。在本申请实施例的具体实施过程中，主要采用Python编程语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据预测模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，获取预先存储的历史数据以及预设模型之前，还包括：

按照预设周期，从作业生产数据库中获取历史数据，并将所述历史数据以结构化形式存储于存储区。

3.根据权利要求1所述的方法，其特征在于，根据所述历史数据，对所述预设模型进行训练，得到数据预测模型，包括：

针对机构标识、历史日期以及邮件量，增加衍生变量信息，并进行特征选择和数据挖掘，得到训练数据；

根据训练数据对预设模型进行训练，得到数据预测模型。

4.根据权利要求3所述的方法，其特征在于，得到数据预测模型之后，所述方法还包括：

将所述数据预测模型以非结构化形式存储于存储区，以在进行数据预测时进行调用。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于预设算法，根据包括机构标识、历史日期以及邮件量的大数据进行批量参数调优、模型训练和测试；

根据批量调优、模型训练和测试的结果，确定基于至少一项预设算法构建的预设模型。

6.一种数据预测方法，其特征在于，所述方法包括：

根据所述历史数据以及调取的数据预测模型，对当前日期和/或后续日期的邮件量进行预测，得到预测邮件量；其中，所述数据预测模型基于权利要求1-5中任一项所述的数据预测模型训练方法训练得到。

7.根据权利要求6所述的方法，其特征在于，根据所述历史数据以及数据预测模型，对当前日期和后续日期的邮件量进行预测之后，所述方法还包括：

对所述预测邮件量进行平稳性优化处理，以消除同一日期对应的不同预测邮件量之间的差异。

8.根据权利要求6所述的方法，其特征在于，根据所述历史数据以及数据预测模型，对当前日期和后续日期的邮件量进行预测之后，所述方法还包括：

向前端应用推送所述邮件量，以使前端应用进行邮件量分析、运输车辆智能排班或揽投人员智能排班。

9.一种数据预测模型训练装置，其特征在于，包括：

10.一种数据预测装置，其特征在于，包括：

预测模块，用于根据所述历史数据以及调取的数据预测模型，对当前日期和/或后续日期的邮件量进行预测，得到预测邮件量；其中，所述数据预测模型是基于权利要求1-5中任一项所述的数据预测模型训练方法训练得到。

11.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一项所述的数据预测模型训练方法，或者实现如权利要求6-8中任一项所述的数据预测方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的数据预测模型训练方法，或者实现如权利要求6-8中任一项所述的数据预测方法。