CN113298291A

CN113298291A - 快递件量预测方法、装置、设备及存储介质

Info

Publication number: CN113298291A
Application number: CN202110465144.4A
Authority: CN
Inventors: 陈玉芬; 李培吉; 李斯; 夏扬
Original assignee: Dongpu Software Co Ltd
Current assignee: Dongpu Software Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-24

Abstract

本发明涉及物流预测技术领域，公开了一种快递件量预测方法、装置、设备及存储介质。通过对获取到的历史数据进行差分计算，得到多个差分值，基于差分值将历史数据形成样本数据，根据AR模型算法、差分值和样本数据进行模型的训练，生成件量预测模型，在确定待预测的周期时间后，计算出对应的周期参数和历史目标数据集，利用件量预测模型进行预测，得到周期时间的预测件量。使用差分生成样本，提高了样本的平稳性，使得得到的模型的精准度更高，提高了预测件量的精准度，同时通过AR模型预测，减少了人工操作，提供的工作效率。

Description

快递件量预测方法、装置、设备及存储介质

技术领域

本发明涉及物流预测技术领域，尤其涉及一种快递件量预测方法、装置、设备及存储介质。

背景技术

随着科学技术的发展，生活水平的提高，网上购物已成为用户的一种生活趋势，同时这就要求了商家对于订单的处理和运输处理要及时。而目前为了保证订单的实时派送，商家会选择委托为对应的物流公司来实现，从而保证订单的运输。

但是，目前的物流公司的订单派送和运输，主要是根据实际的订单量来安排对应的运输和派送，同时，其也采用了订单量的预测方案，以便于后续的运输和派送的安排，然而现有技术中，主要是根据节假日或者商家的促销活动来进行预测和预先安排，而这样的预测方式过于简单，并且其预测只能根据固定的设定规则来计算，并不能根据实际情况来动态调整，导致预测出来的订单量与实际的相差较大，预测的精准度不高。

发明内容

本发明的主要目的在于解决现有的件量预测方案预测的结果的精准度较低的技术问题。

本发明第一方面提供了一种基于AR模型的快递件量预测方法，应用于快递收发管理平台，所述快递件量预测方法包括：从所述快递收发管理平台中的后台数据库中读取快递件量的历史数据，并从所述历史数据提取出至少两个历史周期的目标数据集；利用差分法对至少两个所述目标数据集进行差分处理，得到多个差分值，并基于所述差分值对至少两个所述目标数据集进行优化，得到样本数据集；利用预设的AR模型算法对多个所述差分值和所述样本数据集进行拟合训练学习，得到件量预测模型；确定待预测的周期时间，基于所述周期时间计算出对应的周期参数和历史目标数据集；根据所述周期参数和所述历史目标数据集，采用所述件量预测模型对所述周期时间内的快递件量进行预测，得到预测件量。

可选的，在本发明第一方面的第一种实现方式中，所述从所述历史数据提取出至少两个历史周期的目标数据集包括：提取所述历史数据中的运单，并对各所述运单中的条形码进行扫码识别，确定各所述运单的类型和运单的处理时间，其中所述类型包括收件运单和发件运单；将所述历史数据按照所述类型进行分类，得到历史收件数据集和历史发件数据集；根据预设数据滤除规则分别对所述历史收件数据集和历史发件数据集进行异常数据以及冗余信息的识别，并标记上对应的标识信息，得到对应的标识数据集；根据所述标识信息将对应的数据或者信息从对应的标识数据集中修正，并通过相邻数据替换的方式对修正后的数据集中的空白数据进行填充，得到新的数据集；识别所述新的数据集中的单号信息和地址信息，并删除，得到第一历史收件数据集和第一历史发件数据集；根据所述处理时间分别对所述第一历史收件数据集和所述第一历史发件数据集，按日为周期进行合并划分，得到至少两个历史周期的目标数据集，其中所述目标数据集中包括至少一个运单数据。

可选的，在本发明第一方面的第二种实现方式中，所述根据所述处理时间分别对所述历史收件数据集和历史发件数据集，按日为周期进行合并划分，得到至少两个历史周期的目标数据集包括：根据所述处理时间，按照时间先后顺序分别将所述第一历史收件数据集和第一历史发件数据集中的运单数据依次排序，得到历史收件数据序列和历史发件数据序列；按照日为周期对所述历史收件数据序列和历史发件数据序列中处理时间为同一天的运单数据进行合并，形成至少两个小数据集，其中所述小数据集包含收件运单和发件运单中的至少一种；统计各个小数据集中的收件运单和/或发件运单的总件量，并进行件量标记，生成至少两个目标数据集。

可选的，在本发明第一方面的第三种实现方式中，所述利用差分法对至少两个所述目标数据集进行差分处理，得到多个差分值，并基于所述差分值对至少两个所述目标数据集进行优化，得到样本数据集包括：将各所述目标数据集的总件量进行多次对数计算，得到各所述目标数据集的多个对数值；利用差分法对多个对数值进行差分计算，得到多个差分值，其中所述差分计算为将连续的两个目标数据集的总件量的同次对数值相减；判断各目标数据集对应的多个差分值是否满足预设阈值；若不满足，则将所述差分值不满足所述阈值对应的目标数据集剔除，得到样本数据集。

可选的，在本发明第一方面的第四种实现方式中，所述差分值包括一阶差分值和二阶差分值，所述利用预设的AR模型算法对多个所述差分值和所述样本数据集进行拟合训练学习，得到件量预测模型包括：对所述样本数据集中的运单数据进行自身回归计算，得到对应的回归变量；根据各所述回归变量，对所述运单数据进行随机的线性组合，并对所述线性组合进行回归分析，得到各运单数据之间的自相关系数；将所述样本数据集输出至预设的AR模型算法对应的函数式中，并基于所述自相关系数和所述差分值中的二阶差分值进行样本的拟合训练，得到模型参数；基于所述模型参数对所述函数式进行调整，得到件量预测模型。

可选的，在本发明第一方面的第五种实现方式中，在所述利用预设的AR模型算法对多个所述差分值和所述样本数据集进行拟合训练学习，得到件量预测模型之后，还包括：从所述样本数据集中选择至少两个运单数据，形成测试数据集；将所述测试数据集输入至所述件量预测模型中进行件量的预测，得到预测值；计算所述预测值与测试数据集中的运单数据之间的误差；判断所述误差是否位于预设误差范围内；若否，筛选所述误差不位于所述误差方位内的运单数据，形成新的样本数据集；基于所述新的样本数据对所述件量预测模型进行二次训练，输出最优件量预测模型。

可选的，在本发明第一方面的第六种实现方式中，所述基于所述周期时间计算出对应的周期参数和历史目标数据集包括：从至少两个所述目标数据集中筛选出处理时间接近于所述周期时间的运单数据，形成历史目标数据集；计算所述历史目标数据集中各运单数据与处理时间的相关系数；根据所述相关系数确定所述历史目标数据集中各运单数据的自相关系数，得到周期参数，其中所述周期参数为所述自相关系数排序后的系数序列。

本发明第二方面提供了一种基于AR模型的快递件量预测装置，所述基于AR模型的快递件量预测装置包括：采集模块，用于从所述快递收发管理平台中的后台数据库中读取快递件量的历史数据，并从所述历史数据提取出至少两个历史周期的目标数据集；差分模块，用于利用差分法对至少两个所述目标数据集进行差分处理，得到多个差分值，并基于所述差分值对至少两个所述目标数据集进行优化，得到样本数据集；模型生成模块，用于利用预设的AR模型算法对多个得到差分值和所述样本数据集进行拟合训练学习，得到件量预测模型；计算模块，用于确定待预测的周期时间，基于所述周期时间计算出对应的周期参数和历史目标数据集；预测模块，用于根据所述周期参数和所述历史目标数据集，采用所述件量预测模型对所述周期时间内的快递件量进行预测，得到预测件量。

可选的，在本发明第二方面的第一种实现方式中，所述采集模块具体用于：提取所述历史数据中的运单，并对各所述运单中的条形码进行扫码识别，确定各所述运单的类型和运单的处理时间，其中所述类型包括收件运单和发件运单；将所述历史数据按照所述类型进行分类，得到历史收件数据集和历史发件数据集；根据预设数据滤除规则分别对所述历史收件数据集和历史发件数据集进行异常数据以及冗余信息的识别，并标记上对应的标识信息，得到对应的标识数据集；根据所述标识信息将对应的数据或者信息从对应的标识数据集中修正，并通过相邻数据替换的方式对修正后的数据集中的空白数据进行填充，得到新的数据集；识别所述新的数据集中的单号信息和地址信息，并删除，得到第一历史收件数据集和第一历史发件数据集；根据所述处理时间分别对所述第一历史收件数据集和所述第一历史发件数据集，按日为周期进行合并划分，得到至少两个历史周期的目标数据集，其中所述目标数据集中包括至少一个运单数据。

可选的，在本发明第二方面的第二种实现方式中，所述采集模块具体用于：根据所述处理时间，按照时间先后顺序分别将所述第一历史收件数据集和第一历史发件数据集中的运单数据依次排序，得到历史收件数据序列和历史发件数据序列；按照日为周期对所述历史收件数据序列和历史发件数据序列中处理时间为同一天的运单数据进行合并，形成至少两个小数据集，其中所述小数据集包含收件运单和发件运单中的至少一种；统计各个小数据集中的收件运单和/或发件运单的总件量，并进行件量标记，生成至少两个目标数据集。

可选的，在本发明第二方面的第三种实现方式中，所述差分模块包括：对数单元，用于将各所述目标数据集的总件量进行多次对数计算，得到各所述目标数据集的多个对数值；差分单元，用于利用差分法对多个对数值进行差分计算，得到多个差分值，其中所述差分计算为将连续的两个目标数据集的总件量的同次对数值相减；判断单元，用于判断各目标数据集对应的多个差分值是否满足预设阈值；样本生成单元，用于在判断所述波动系数不满足阈值时，将所述差分值不满足所述阈值对应的目标数据集剔除，得到样本数据集。

可选的，在本发明第二方面的第四种实现方式中，所述差分值包括一阶差分值和二阶差分值，所述模型生成模块包括：第一计算单元，用于对所述样本数据集中的运单数据进行自身回归计算，得到对应的回归变量；回归单元，用于根据各所述回归变量，对所述运单数据进行随机的线性组合，并对所述线性组合进行回归分析，得到各运单数据之间的自相关系数；训练单元，用于将所述样本数据集输出至预设的AR模型算法对应的函数式中，并基于所述自相关系数和所述差分值中的二阶差分值进行样本的拟合训练，得到模型参数；生成单元，用于基于所述模型参数对所述函数式进行调整，得到件量预测模型。

可选的，在本发明第二方面的第五种实现方式中，所述基于AR模型的快递件量预测装置还包括：误差计算模块，用于从所述样本数据集中选择至少两个运单数据，形成测试数据集；将所述测试数据集输入至所述件量预测模型中进行件量的预测，得到预测值；计算所述预测值与测试数据集中的运单数据之间的误差；判断所述误差是否位于预设误差范围内；若否，筛选所述误差不位于所述误差方位内的运单数据，形成新的样本数据集；基于所述新的样本数据对所述件量预测模型进行二次训练，输出最优件量预测模型。

可选的，在本发明第二方面的第六种实现方式中，所述计算模块包括：筛选单元，用于从至少两个所述目标数据集中筛选出处理时间接近于所述周期时间的运单数据，形成历史目标数据集；计算单元，用于计算所述历史目标数据集中各运单数据与处理时间的相关系数；确定单元，用于根据所述相关系数确定所述历史目标数据集中各运单数据的自相关系数，得到周期参数，其中所述周期参数为所述自相关系数排序后的系数序列。

本发明第三方面提供了一种基于AR模型的快递件量预测设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于AR模型的快递件量预测设备执行上述的基于AR模型的快递件量预测方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于AR模型的快递件量预测方法。

本发明的技术方案中，通过对获取到的历史数据进行差分计算，得到多个差分值，基于多个差分值将历史数据形成样本数据，根据AR模型算法对多个差分值和样本数据进行模型的训练，生成件量预测模型，在确定待预测的周期时间后，计算出对应的周期参数和历史目标数据集，利用件量预测模型进行预测，得到周期时间的预测件量。使用差分生成样本，提高了样本的平稳性，使得得到的模型的精准度更高，提高了预测件量的精准度，同时通过AR模型预测，减少了人工操作，提供的工作效率。

附图说明

图1为本发明实施例中基于AR模型的快递件量预测方法的第一个实施例示意图；

图2为本发明实施例中基于AR模型的快递件量预测方法的第二个实施例示意图；

图3为本发明实施例中基于AR模型的快递件量预测方法的第三个实施例示意图；

图4为本发明实施例中基于AR模型的快递件量预测方法的第四个实施例示意图；

图5为本发明实施例中基于AR模型的快递件量预测装置的一个实施例示意图；

图6为本发明实施例中基于AR模型的快递件量预测装置的另一个实施例示意图；

图7为本发明实施例中基于AR模型的快递件量预测设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于AR模型的快递件量预测方法、装置、设备及存储介质，通过对历史数据进行多次对数的计算，并差分处理，得到平稳性较高的样本数据，然后利用AR模型算法来训练件量预测模型，以提高预测准确性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于AR模型的快递件量预测方法的第一个实施例，该方法的实现步骤如下：

101，从快递收发管理平台中的后台数据库中读取快递件量的历史数据，并从历史数据提取出至少两个历史周期的目标数据集；

本实施例中，所述历史数据具体是快件量数据，该快件量数据包括收件和发件两种类型，具体的在采集数据时，根据样本数据的需求量设定一个时间范围，然后基于该时间范围从后台数据库中查询对应的历史记录，并提取历史记录中记录的快递件量数据，以形成历史数据。

在实际应用中，具体还可以是通过平台连接各快递统计机构的数据库，从数据库中读取对应的历史数据存储至后台数据库中，即是读取某统计机构公布的某段时间内物流行业中件量的数据，而件量包含收件量，也可以包含发件量。在数据库中，无论是线上还是线下，均会存储派件量、收件量的信息。该些信息可以但不限于包含：件量的类型、时间。时间可以是按天存储，也可以按照录入系统的具体时间存储。然后基于设定的时间范围从后台数据库中读取。

在本实施例中，在获取到历史数据之后，还包括对历史数据进行清洗处理，以保证后续的样本数据中不存在空白字段以及异常数据，从而保证模型训练的精准度，其中该清洗处理具体包括：包括：清洗历史数据，替换空数据及异常数据。

其中，清洗历史数据，去除获取的历史数据中不需要的信息及替换异常数据。通常在对数据进行统计分析之前，需要将一些不规则数据滤除掉，以确保分析的准确性。数据清洗是一个减少数据错误与不一致性的过程，主要是检测并删除或改正不规则数据。

102，利用差分法对至少两个目标数据集进行差分处理，得到多个差分值，并基于差分值对至少两个目标数据集进行优化，得到样本数据集；

该步骤中，该差分法具体用于比较两个目标数据集中的数据集与数据集之间的大小，根据比较的结果确定两数据集是否相同或者是否平均，从而确定对应的差分值。在实际应用中，两数据集的差分值还可以通过将两个数据集的总件量相减来得到，该多个差分值具体是通过多阶差分处理得到的不同阶的值，例如将前后两个总件量相减得到一阶差分值，将前后两个一阶差分值相减得到二阶差分值，同理三阶是基于二阶计算得到，依次类推，需要计算多少阶差分值根据实际需求选择计算。

进一步的，根据多个差分值对至少两个目标数据集中的数据集进行筛选，以筛选出差分值最小也相近的数据集，以得到新的目标数据集，然后根据新的目标数据集生成样本数据集，其中所述样本数据集中包括训练集、测试集和验证集。

103，利用预设的AR模型算法对多个差分值和样本数据集进行拟合训练学习，得到件量预测模型；

该步骤中，所述AR模型算法为自回归线性模型的算法，其是统计上一种处理时间序列的方法，是用自身做回归变量的过程，即利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归模型。

在本实施例中，在利用预设的AR模型算法对样本数据集中的元运单数据进行训练的过程为：

首先，对样本数据集中的运单数据按照时间先后顺序进行排序；

然后，从排序后的样本数据集中随机划分为三部分，并且每部分包含若干个连续排序的运单数据；

进一步的，对每部分中的若干个运单数据集进行自回归分析，得到数据集中运单数据的p阶自回归模型的自相关系数拖尾，偏自相关系数p阶截尾；

最后，基于自相关系数对AR模型算法中的参数进行调整，并选择一部分运单数据对调整后的AR模型算法进行拟合训练，得到最终的件量预测模型。

104，确定待预测的周期时间，基于周期时间计算出对应的周期参数和历史目标数据集；

本实施例中，根据客户的需求，确定待预测的周期时间，该周期时间可以理解为是一个时间段，该时间段可以是一天，一个星期，一个月等等，这里优选的选择一天，根据该周期时间从样本数据集中从与所述周期时间相邻时间点开始截取，截取多天的运单数据总量，而该运单数据总量按照天为单位进行归类排序，得到历史目标数据集。

进一步的，对所述历史目标数据集中每天的运单数据计算前后两天的数据变化的相关程度，然后基于相关程度确历史目标数据集中每天的运单数据与周期时间的自相关系数。

最后基于自相关系数，确定预测时所需要的历史目标数据集中的运单数据的数据量，得到周期参数。

例如，需要预测2021年1月1日这一天的快递件量，这需要获取与2021年1月1日相邻的时间段的快递件量，例如2020年12月25日至2020年12月31日这段时间中每天的快递总量；然后确定2021年1月1日是否为特效日或者节假日，根据确定的结果确定历史快递件量的变化是否对预测时间的件量产生影响，并计算出影响的程度值，然后确定历史快递件量中每天的快递件量与预测时间的具体影响程度，即是自相关系数，进一步的基于自相关系数计算出选取历史快递件量中的每天件量的百分比，将这些百分比作为周期参数。

105，根据周期参数和历史目标数据集，采用件量预测模型对周期时间内的快递件量进行预测，得到预测件量。

该步骤中，具体是根据周期参数配置件量预测模型，然后将历史目标数据集中的数据按照周期分类后输入至配置后的件量预测模型中计算出周期时间对应的预测件量。

在实际应用中，若需要的历史目标数据集中6天的数据的百分比为30％、30％、20％、10％、5％、3％、3％，然后分别根据百分比计算出对应的实际样本集，将样本集作为预测数据进行输入，再根据周期参数和件量预测模型计算出对应的预测周期的件量。

通过对上述方法的实施，通过计算历史数据中的运单数据之间的波动系数，从而选择出变化比较平稳的样本数据来，从而降低模型训练由于样本数据不具代表性而导致训练误差的问题，进一步的，在选择出样本数据后，利用了AR模型算法对样本数据进行训练学习得到件量预测模型，基于件量预测模型进行件量的预测，同时还需要确定预测周期时间的周期参数以及所需要的历史目标数据集，通过这样的方式选择模型输入的数据，大大提高了预测的精准度。

请参阅图2，本发明实施例中基于AR模型的快递件量预测方法的第二个实施例包括：

201，从快递收发管理平台中的后台数据库中读取快递件量的历史数据；

202，提取历史数据中的运单，并对各运单中的条形码进行扫码识别，确定各运单的类型和运单的处理时间；

该步骤中，该运单的类型包括收件运单和发件运单。在获取运单时，具体是通过平台中设置的或者外部设置的扫码设备对历史数据中的订单进行逐一扫描得到，当然也可以是直接从数据库中存储的记录中解析得到。

在解析时，不仅需要解析运单的处理时间，还需要解析运单的类型，例如收件运单和发件运单。

在实际应用中，其提取具体还可以采用OCR技术来对历史数据的运单扫描件进行识别。

203，将历史数据按照类型进行分类，得到历史收件数据集和历史发件数据集；

204，根据处理时间分别对历史收件数据集和历史发件数据集，按日为周期进行合并划分，得到至少两个历史周期的目标数据集；

在本实施例中，目标数据集中包括至少一个运单数据，且该运单数据包括收件和发件两种，这里的合并指的是将处理时间属于同一天的收件运单和发件运单合并在一个数据集中，得到多个目标数据集。

进一步的，在根据处理时间分别对历史收件数据集和历史发件数据集，按日为周期进行合并划分之前，还包括：

根据预设数据滤除规则分别对历史收件数据集和历史发件数据集进行异常数据以及冗余信息的识别，并标记上对应的标识信息，得到对应的标识数据集；

根据标识信息将对应的数据或者信息从对应的标识数据集中修正，并通过相邻数据替换的方式对修正后的数据集中的空白数据进行填充，得到新的数据集；

识别新的数据集中的单号信息和地址信息，并删除，得到第一历史收件数据集和第一历史发件数据集。

进一步的，根据处理时间，按照时间先后顺序分别将第一历史收件数据集和第一历史发件数据集中的运单数据依次排序，得到历史收件数据序列和历史发件数据序列；

按照日为周期对历史收件数据序列和历史发件数据序列中处理时间为同一天的运单数据进行合并，形成至少两个小数据集，其中小数据集包含收件运单和发件运单中的至少一种；

统计各个小数据集中的收件运单和/或发件运单的总件量，并进行件量标记，生成至少两个目标数据集。

205，利用差分法对至少两个目标数据集进行差分处理，得到多个差分值，并基于差分值对至少两个目标数据集进行优化，得到样本数据集；

206，利用预设的AR模型算法对多个差分值和样本数据集进行拟合训练学习，得到件量预测模型；

207，确定待预测的周期时间，基于周期时间计算出对应的周期参数和历史目标数据集；

208，根据周期参数和历史目标数据集，采用件量预测模型对周期时间内的快递件量进行预测，得到预测件量。

通过上述的方式的实施，通过对获取到的历史数据进行差分计算，得到多个差分值，基于多个差分值将历史数据形成样本数据，根据AR模型算法对多个差分值和样本数据进行模型的训练，生成件量预测模型，在确定待预测的周期时间后，计算出对应的周期参数和历史目标数据集，利用件量预测模型进行预测，得到周期时间的预测件量，这样的预测方式不仅提高了预测的准确率，还可提前预测件量，体检做好人、车准备，降低成本，减少损失。

请参阅图3，本发明实施例中基于AR模型的快递件量预测方法的第三个实施例包括：

301，从快递收发管理平台中的后台数据库中读取快递件量的历史数据，并从历史数据提取出至少两个历史周期的目标数据集；

302，将各目标数据集的总件量进行多次对数计算，得到各目标数据集的多个对数值；

该步骤中，在计算对数时，具体是计算目标数据集中的总件量的对数，具体是在提取目标数据集时，分别提取发件运单和收件运单来形成目标数据集，可选的实现步骤如下：

提取历史数据中的运单，并对各运单中的条形码进行扫码识别，确定各运单的类型和运单的处理时间，其中类型包括收件运单和发件运单；

将历史数据按照类型进行分类，得到历史收件数据集和历史发件数据集；

在实际应用中，对于对历史数据的修正具体可以为：根据标识信息确定异常数据在标识数据集中的具体位置；以具体位置为对称中心，从对称中心的左右向选取N个且处理时间连续的运单数据；利用离散回归算法计算2N个运单数据的众数以及中位数；将众数或者中位数替换具体位置上的异常数据。

识别新的数据集中的单号信息和地址信息，并删除，得到第一历史收件数据集和第一历史发件数据集；

根据处理时间分别对历史收件数据集和历史发件数据集，按日为周期进行合并划分，得到至少两个历史周期的目标数据集，其中目标数据集中包括至少一个运单数据；

根据处理时间，按照时间先后顺序分别将第一历史收件数据集和第一历史发件数据集中的运单数据依次排序，得到历史收件数据序列和历史发件数据序列；

303，利用差分法对多个对数值进行差分计算，得到多个差分值；

其中，所述差分计算为将连续的两个目标数据集的总件量的同次对数值相减；

304，判断各目标数据集对应的多个差分值是否满足预设阈值；

305，若不满足，则将差分值不满足阈值对应的目标数据集剔除，得到样本数据集；

306，对样本数据集中的运单数据进行自身回归计算，得到对应的回归变量；

307，根据各回归变量，对运单数据进行随机的线性组合，并对线性组合进行回归分析，得到各运单数据之间的自相关系数；

308，将样本数据集输出至预设的AR模型算法对应的函数式中，并基于所述自相关系数和差分值中的二阶差分值进行样本的拟合训练，得到模型参数；

在实际应用中，所述差分值为多阶差分值，例如以计算二阶差分值为例，首先将采集到的目标数据集中的总件量X进行对数计算，得到对数值，基于对数值计算出一阶差分值，基于一阶差分值计算出二阶差分值。

而在计算一阶差分值时，是将当前目标数据集的对数值减去前一个目标数据集的对数值，得到当前目标数据集的一阶差分值；进一步的二阶差分值为当前目标数据集的一阶差分值减去前一个目标数据集的一阶差分值，地道当前目标数据的二阶差分值，依次类推计算出所有目标数据集的差分值，如下表所示：

日期	件量对数	一阶差分值	二阶差分值
				2017/1/1	X1_1
2017/1/2	X1_2	X1_2’＝X1_2-X1_1
				2017/1/3	X1_3	X1_3’＝X1_3-X1_2	X1_3”＝X1_3’-X1_2’
2017/1/4	X1_4	X1_4’＝X1_4-X1_3	X1_4”＝X1_4’-X1_3’
				2017/1/5	X1_5	X1_5’＝X1_5-X1_4	X1_5”＝X1_5’-X1_4’
2017/1/6	X1_6	X1_6’＝X1_6-X1_5	X1_6”＝X1_6’-X1_5’
				2017/1/7	X1_7	X1_7’＝X1_7-X1_6	X1_7”＝X1_7’-X1_6’
……	……	……	……
				2017/12/31	X12_31	X12_31’＝X12_31-X12_30	X12_31”＝X12_31’-X12_30’

基于上述的方式计算出二阶差分值后，利用二阶差分值和样本数据，通过AR模型算法进行拟合训练，得到AR模型参数。

309，基于模型参数对函数式进行调整，得到件量预测模型；

该步骤中，所述件量预测模型的计算公式如下：

其中，X_t为t时间内的快递件量，c为常数项，ε_t为随机误差值，

为自相关系数，

的取值是距离待预测周期时间越近其取值越大。

进一步的，为了提高模型的精准度，还包括通过验证预测来计算出各种类型的误差，基于误差调整预测模型，具体的：

从样本数据集中选择至少两个运单数据，形成测试数据集；

将测试数据集输入至件量预测模型中进行件量的预测，得到预测值；

计算预测值与测试数据集中的运单数据之间的误差；

判断误差是否位于预设误差范围内；

若否，筛选误差不位于误差方位内的运单数据，形成新的样本数据集；

基于新的样本数据对件量预测模型进行二次训练，输出最优件量预测模型。

310，确定待预测的周期时间，基于周期时间计算出对应的周期参数和历史目标数据集；

该步骤中，具体是从至少两个目标数据集中筛选出处理时间接近于周期时间的运单数据，形成历史目标数据集；

计算历史目标数据集中各运单数据与处理时间的相关系数；

根据相关系数确定历史目标数据集中各运单数据的自相关系数，得到周期参数，其中周期参数为自相关系数排序后的系数序列。

311，根据周期参数和历史目标数据集，采用件量预测模型对周期时间内的快递件量进行预测，得到预测件量。

在本发明实施例中，步骤310-311与上述的基于AR模型的快递件量预测方法的第一个实施例中的步骤104-105一致，在此不做赘述。

在实际应用中，基于件量预测模型进行件量的预测时，具体是将历史数据中的差分值进行预测计算，件量预测模型最终输出的是P阶差分值，然后通过P阶差分值进行反推得到P-1阶差分值，直到反推值0阶差分值后，该0阶差分值为件量的最终预测值，在本实施例中，件量预测值的反推过程与计算多阶差分值的计算过程相反，这里不再重复赘述，具体如下表所示：

综上，上述实施例提供的方法实现快递件量的预测，通过对历史数据进行多次对数的计算，并差分处理，得到平稳性较高的样本数据，然后利用AR模型算法来训练件量预测模型，使得得到的模型与实际更加贴合，在确定待预测的周期时间后，计算出对应的周期参数和历史目标数据集，利用件量预测模型进行预测，得到周期时间的预测件量，进一步提高快递件量的预测精准度。

请参阅图4，本发明实施例中基于AR模型的快递件量预测方法的第四个实施例包括：

401，从数据库中提取件量，得到历史数据；

在实际应用中，该件量的数据来源包括，全国2017–2020的揽件量，共若干条数据。

在该步骤中，在提取出件量后还包括：对历史数据进行预处理，选取出至少一历史周期的周目标数据集。

在实际应用中，件量历史数据是指物流行业中存储的件量数据，也可以是某统计机构公布的某段时间内物流行业中件量的数据。件量包含收件量，也可以包含发件量。在数据库中，无论是线上还是线下，均会存储派件量、收件量的信息。该些信息可以但不限于包含：件量的类型、时间。时间可以是按天存储，也可以按照录入系统的具体时间存储。

对获取的历史数据进行预处理，包括：清洗历史数据，替换空数据及异常数据。

在本实施例中，主要是针对件量进行预测，因此可以去除历史数据中包含的单号信息及地址信息。在这些历史数据中，可能会出现空数据或数值异常(如非数值表示)的数据，将这些空数据或数值异常的数据用其相邻的数据替换。

具体地，历史数据包含收件量和/或发件量，可以根据不同的业务场景从数据库中调取各网点收件量(有订单、无订单)和派件量的信息，下面将以某网点的收件量为测试数据，历史数据所在日期为全国2017–2020双十一期间的揽件量，获得的历史数据经过数据清洗后可以如下表所示。

收集日期	收件量
		2017/1/1	XXXXXX
2017/1/2	XXXXXX
		…	XXXXXX
2020/12/31	XXXXXX

402，对历史数据进行预处理，将历史数据中心化处理；

该步骤中，其预处理具体为对数据进行异常处理，该异常处理办法包括删除法、替代法(连续变量均值替代、离散变量用众数以及中位数替代)、插补法(回归插补、多重插补)，同时还可以先把异常值变成缺失值、然后进行后续缺失值补齐。实践中，异常值处理，一般划分为NA缺失值或者返回公司进行数据修整(数据返修为主要方法)。

403，取两次对数，并进行差分处理；

在该步骤中，具体是将前后两天两次对数后的值相减后得到差分，例如两天的件量分别为1000和5000，取对数时，分别以10为底计算1000和5000的对数得到数值，然后在对得到数值再以10为底计算该数值的对数，得到两次结果，然后将两天中的对数结果进行比较，计算差分。

404，基于提取的历史数据结合AR模型进行训练，得到预测模型；

该步骤中，AR模型具体是自回归模型(英语：Autoregressive model，简称AR模型)，是统计上一种处理时间序列的方法，用同一变数例如x的之前各期，亦即X₁至x_t-1来预测本期X_t的表现，并假设它们为一线性关系。因为这是从回归分析中的线性回归发展而来，只是不用X预测y，而是用X预测X(自己)，所以叫做自回归。

p阶自回归模型的自相关系数拖尾，偏自相关系数p阶截尾。

自回归模型被广泛运用在经济学、信息学、自然现象的预测上。

其中，c为常数项，ε_t被假设为平均数等于0，

是固定系数，距离未来时间越近其值越大，标准差等于σ的随机误差值ε_t；σ被假设为对于任何的t都不变，X的期望值等于一个或数个落后期的线性组合，加常数项，加随机误差。

405，将实际件量与预测模型预测结果可视化，并计算误差；

该逐步骤中，预测误差值公式：(A-E)/E*100％，超出为正，过少为负。

其中A表示测量值，E表示正常值。

预测误差率计算方法：

a为第一次测量数据，b为第二次测量数据，c为第三次测量数，d为第四次测量数据，e为第五次测量数据；

(a+b+c+d+e)/5＝平均值；

平均值/100＝平均值的百分比；

其中，误差类型包括：

模型误差

在建立数学模型过程中，要将复杂的现象抽象归结为数学模型，往往要忽略一些次要因素的影响，对问题作一些简化。因此数学模型和实际问题有一定的误差，这种误差称为模型误差。

测量误差

在建模和具体运算过程中所用的数据往往是通过观察和测量得到的，由于精度的限制，这些数据一般是近似的，即有误差，这种误差称为测量误差。

截断误差

由于实际运算只能完成有限项或有限步运算，因此要将有些需用极限或无穷过程进行的运算有限化，对无穷过程进行截断，这样产生的误差成为截断误差。

舍入误差

在数值计算过程中，由于计算工具的限制，往往对一些数进行四舍五入，只保留前几位数作为该数的近似值，这种由舍入产生的误差成为舍入误差。

406，利用预测模型对确定的时间段进行件量预测，得到预测件量。

在该步骤中，具体是通过步骤405中的误差计算，筛选出误差较低的预测指标、预测模型、指数平滑次数，用于预测，以提高预测准确性。

上面对本发明实施例中的基于AR模型的快递件量预测方法进行了描述，下面对本发明实施例中的基于AR模型的快递件量预测装置进行描述，请参照图5，本发明实施例中的基于AR模型的快递件量预测装置的一个实施例包括：

采集模块501，用于从所述快递收发管理平台中的后台数据库中读取快递件量的历史数据，并从所述历史数据提取出至少两个历史周期的目标数据集；

差分模块502，用于利用差分法对至少两个所述目标数据集进行差分处理，得到多个差分值，并基于所述差分值对至少两个所述目标数据集进行优化，得到样本数据集；

模型生成模块503，用于利用预设的AR模型算法对多个得到差分值和所述样本数据集进行拟合训练学习，得到件量预测模型；

计算模块504，用于确定待预测的周期时间，基于所述周期时间计算出对应的周期参数和历史目标数据集；

预测模块505，用于根据所述周期参数和所述历史目标数据集，采用所述件量预测模型对所述周期时间内的快递件量进行预测，得到预测件量。

本发明实施例，快递件量预测装置通过对获取到的历史数据进行差分计算，得到波动系数，基于波动系数将历史数据形成样本数据，根据AR模型算法和样本数据进行模型的训练，生成件量预测模型，在确定待预测的周期时间后，计算出对应的周期参数和历史目标数据集，利用件量预测模型进行预测，得到周期时间的预测件量。使用差分生成样本，提高了样本的平稳性，使得得到的模型的精准度更高，提高了预测件量的精准度，同时通过AR模型预测，减少了人工操作，提供的工作效率。

请参阅图6，本发明实施例中的基于AR模型的快递件量预测装置的另一个实施例包括：

在本实施例中，所述采集模块501具体用于：

提取所述历史数据中的运单，并对各所述运单中的条形码进行扫码识别，确定各所述运单的类型和运单的处理时间，其中所述类型包括收件运单和发件运单；

将所述历史数据按照所述类型进行分类，得到历史收件数据集和历史发件数据集；

根据预设数据滤除规则分别对所述历史收件数据集和历史发件数据集进行异常数据以及冗余信息的识别，并标记上对应的标识信息，得到对应的标识数据集；

根据所述标识信息将对应的数据或者信息从对应的标识数据集中修正，并通过相邻数据替换的方式对修正后的数据集中的空白数据进行填充，得到新的数据集；

识别所述新的数据集中的单号信息和地址信息，并删除，得到第一历史收件数据集和第一历史发件数据集；

根据所述处理时间分别对所述第一历史收件数据集和所述第一历史发件数据集，按日为周期进行合并划分，得到至少两个历史周期的目标数据集，其中所述目标数据集中包括至少一个运单数据。

在本实施例中，所述采集模块501具体用于：

根据所述处理时间，按照时间先后顺序分别将所述第一历史收件数据集和第一历史发件数据集中的运单数据依次排序，得到历史收件数据序列和历史发件数据序列；

按照日为周期对所述历史收件数据序列和历史发件数据序列中处理时间为同一天的运单数据进行合并，形成至少两个小数据集，其中所述小数据集包含收件运单和发件运单中的至少一种；

在本实施例中，所述差分模块502包括：

对数单元5021，用于将各所述目标数据集的总件量进行多次对数计算，得到各所述目标数据集的多个对数值；

差分单元5022，用于利用差分法对多个对数值进行差分计算，得到多个差分值，其中所述差分计算为将连续的两个目标数据集的总件量的同次对数值相减；

判断单元5023，用于判断各目标数据集对应的多个差分值是否满足预设阈值；

样本生成单元5024，用于在判断所述差分值不满足阈值时，将所述波动系数不满足所述阈值对应的目标数据集剔除，得到样本数据集。

在本实施例中，，所述差分值包括一阶差分值和二阶差分值，所述模型生成模块503包括：

第一计算单元5031，用于对所述样本数据集中的运单数据进行自身回归计算，得到对应的回归变量；

回归单元5032，用于根据各所述回归变量，对所述运单数据进行随机的线性组合，并对所述线性组合进行回归分析，得到各运单数据之间的自相关系数；

训练单元5033，用于将所述样本数据集输出至预设的AR模型算法对应的函数式中，并基于所述自相关系数和所述差分值中的二阶差分值进行样本的拟合训练，得到模型参数；

生成单元5034，用于基于所述模型参数对所述函数式进行调整，得到件量预测模型。

在本实施例中，所述基于AR模型的快递件量预测装置还包括误差计算模块506，其具体用于：

从所述样本数据集中选择至少两个运单数据，形成测试数据集；将所述测试数据集输入至所述件量预测模型中进行件量的预测，得到预测值；

计算所述预测值与测试数据集中的运单数据之间的误差；

判断所述误差是否位于预设误差范围内；

若否，筛选所述误差不位于所述误差方位内的运单数据，形成新的样本数据集；

基于所述新的样本数据对所述件量预测模型进行二次训练，输出最优件量预测模型。

在本实施例中，所述计算模块504包括：

筛选单元5041，用于从至少两个所述目标数据集中筛选出处理时间接近于所述周期时间的运单数据，形成历史目标数据集；

计算单元5042，用于计算所述历史目标数据集中各运单数据与处理时间的相关系数；

确定单元5043，用于根据所述相关系数确定所述历史目标数据集中各运单数据的自相关系数，得到周期参数，其中所述周期参数为所述自相关系数排序后的系数序列。

通过上述方法的实施，通过对获取到的历史数据进行差分计算，得到差分值，基于差分值将历史数据形成样本数据，根据AR模型算法、差分值和样本数据进行模型的训练，生成件量预测模型，在确定待预测的周期时间后，计算出对应的周期参数和历史目标数据集，利用件量预测模型进行预测，得到周期时间的预测件量，这样的预测方式不仅提高了预测的准确率，还可提前预测件量，体检做好人、车准备，降低成本，减少损失。

请参阅图7，下面从硬件处理的角度对本发明实施例中的基于AR模型的快递件量预测设备的一个实施例进行详细描述。

图7是本发明实施例提供的一种基于AR模型的快递件量预测设备的结构示意图，该基于AR模型的快递件量预测设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)710(例如，一个或一个以上处理器)和存储器720，一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于路由的用户需求预测设备700中的一系列指令操作。更进一步地，处理器710可以设置为与存储介质730通信，在基于AR模型的快递件量预测设备700上执行存储介质730中的一系列指令操作。

基于AR模型的快递件量预测设备700还可以包括一个或一个以上电源740，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口760，和/或，一个或一个以上操作系统731，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图7示出的基于AR模型的快递件量预测设备结构并不构成对基于AR模型的快递件量预测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于AR模型的快递件量预测方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于AR模型的快递件量预测方法，应用于快递收发管理平台，其特征在于，所述快递件量预测方法包括：

从所述快递收发管理平台中的后台数据库中读取快递件量的历史数据，并从所述历史数据提取出至少两个历史周期的目标数据集；

利用差分法对至少两个所述目标数据集进行差分处理，得到多个差分值，并基于所述差分值对至少两个所述目标数据集进行优化，得到样本数据集；

利用预设的AR模型算法对多个所述差分值和所述样本数据集进行拟合训练学习，得到件量预测模型；

确定待预测的周期时间，基于所述周期时间计算出对应的周期参数和历史目标数据集；

根据所述周期参数和所述历史目标数据集，采用所述件量预测模型对所述周期时间内的快递件量进行预测，得到预测件量。

2.根据权利要求1所述的基于AR模型的快递件量预测方法，其特征在于，所述从所述历史数据提取出至少两个历史周期的目标数据集包括：

3.根据权利要求2所述的基于AR模型的快递件量预测方法，其特征在于，所述根据所述处理时间分别对所述历史收件数据集和历史发件数据集，按日为周期进行合并划分，得到至少两个历史周期的目标数据集包括：

4.根据权利要求3所述的基于AR模型的快递件量预测方法，其特征在于，所述利用差分法对至少两个所述目标数据集进行差分处理，得到多个差分值，并基于所述差分值对至少两个所述目标数据集进行优化，得到样本数据集包括：

将各所述目标数据集的总件量进行多次对数计算，得到各所述目标数据集的多个对数值；

利用差分法对多个对数值进行差分计算，得到多个差分值，其中所述差分计算为将连续的两个目标数据集的总件量的同次对数值相减；

判断各目标数据集对应的多个差分值是否满足预设阈值；

若不满足，则将所述差分值不满足所述阈值对应的目标数据集剔除，得到样本数据集。

5.根据权利要求1-4中任一项所述的基于AR模型的快递件量预测方法，其特征在于，所述差分值包括一阶差分值和二阶差分值，所述利用预设的AR模型算法对多个所述差分值和所述样本数据集进行拟合训练学习，得到件量预测模型包括：

对所述样本数据集中的运单数据进行自身回归计算，得到对应的回归变量；

根据各所述回归变量，对所述运单数据进行随机的线性组合，并对所述线性组合进行回归分析，得到各运单数据之间的自相关系数；

将所述样本数据集输出至预设的AR模型算法对应的函数式中，并基于所述自相关系数和所述差分值中的二阶差分值进行样本的拟合训练，得到模型参数；

基于所述模型参数对所述函数式进行调整，得到件量预测模型。

6.根据权利要求1-4中任一项所述的基于AR模型的快递件量预测方法，其特征在于，在所述利用预设的AR模型算法对多个所述差分值和所述样本数据集进行拟合训练学习，得到件量预测模型之后，还包括：

从所述样本数据集中选择至少两个运单数据，形成测试数据集；

将所述测试数据集输入至所述件量预测模型中进行件量的预测，得到预测值；

计算所述预测值与测试数据集中的运单数据之间的误差；

判断所述误差是否位于预设误差范围内；

7.根据权利要求6所述的基于AR模型的快递件量预测方法，其特征在于，所述基于所述周期时间计算出对应的周期参数和历史目标数据集包括：

从至少两个所述目标数据集中筛选出处理时间接近于所述周期时间的运单数据，形成历史目标数据集；

计算所述历史目标数据集中各运单数据与处理时间的相关系数；

根据所述相关系数确定所述历史目标数据集中各运单数据的自相关系数，得到周期参数，其中所述周期参数为所述自相关系数排序后的系数序列。

8.一种基于AR模型的快递件量预测装置，其特征在于，所述快递件量预测装置包括：

采集模块，用于从所述快递收发管理平台中的后台数据库中读取快递件量的历史数据，并从所述历史数据提取出至少两个历史周期的目标数据集；

差分模块，用于利用差分法对至少两个所述目标数据集进行差分处理，得到多个差分值，并基于所述差分值对至少两个所述目标数据集进行优化，得到样本数据集；

模型生成模块，用于利用预设的AR模型算法对多个得到差分值和所述样本数据集进行拟合训练学习，得到件量预测模型；

计算模块，用于确定待预测的周期时间，基于所述周期时间计算出对应的周期参数和历史目标数据集；

预测模块，用于根据所述周期参数和所述历史目标数据集，采用所述件量预测模型对所述周期时间内的快递件量进行预测，得到预测件量。

9.一种基于AR模型的快递件量预测设备，其特征在于，所述基于AR模型的快递件量预测设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于AR模型的快递件量预测设备执行如权利要求1-7中任一项所述的基于AR模型的快递件量预测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于AR模型的快递件量预测方法的步骤。