CN114493732A

CN114493732A - 生鲜电商可复用容器租赁数量预测模型建立方法及其应用

Info

Publication number: CN114493732A
Application number: CN202011163956.5A
Authority: CN
Inventors: 徐贤浩; 岳睿婷
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-05-13
Anticipated expiration: 2040-10-27
Also published as: CN114493732B

Abstract

本发明公开了一种生鲜电商可复用容器租赁数量预测模型建立方法及其应用，属于大数据预测领域，包括：从生鲜电商的历史数据中提取影响可复用容器租赁数量的基础特征，并构建时序特征和组合特征，从所有特征中筛选出目标特征；将历史数据划分为多个周期的数据，以构建各周期的目标特征并构建训练数据集；训练数据集中，一条样本由一个周期的目标特征及其下一个周期的可复用容器租赁数量构成；建立多个机器学习模型，利用训练数据集分别对各机器学习模型进行训练；训练结束后，将每一个机器学习模型作为一个可复用容器租赁数量预测模型，并按照

计算各模型在预测时的融合权重。本发明能够准确预测生鲜电商可复用容器的租赁数量。

Description

生鲜电商可复用容器租赁数量预测模型建立方法及其应用

技术领域

本发明属于大数据预测领域，更具体地，涉及一种生鲜电商可复用容器租赁数量预测模型建立方法及其应用。

背景技术

可复用容器作为产品流通过程中的一个载体，对产品在运输过程中起到保护、方便运输和空间资源整合的作用。一些大型的生鲜电商，如盒马鲜生、易果生鲜等生鲜电商直接从产品的供应地进行采购，采购的产品需要放置在可复用容器中进行运输，以免产品的磕碰损坏。大量的可复用容器的购买需要公司投入大量的资金，并且不同的时期，可复用容器的需求有所浮动，也会造成闲置浪费，因此许多生鲜电商公司采用租赁可复用容器这一操作。

在生鲜电商产业链中，可复用容器需提前在各个生鲜产品仓库准备充足，以便产品可以及时装配。生鲜产品不同于其他工业产品，具有易腐性，一旦产品成熟，就应加快整个配送流程。若准备的可复用容器过多，则会产生库存成本，若准备的可复用容器过少，则会影响产品的运输，从而影响产品的新鲜程度。而租赁可复用容器需要一定的时间，准确预测生鲜电商在下一周期所需租赁的可复用容器的数量，可以让生鲜电商提前确定所需再额外租赁或返还给容器租赁商的可复用容器数目，从而避免租赁的可复用容器数量与实际需求量不匹配，而影响生鲜电商的收益。

因此，亟待提出一种能够准确预测生鲜电商可复用容器租赁数量的方法。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种生鲜电商可复用容器租赁数量预测模型建立方法及其应用，其目的在于，准确预测生鲜电商可复用容器的租赁数量。

为实现上述目的，按照本发明的一个方面，提供了一种生鲜电商可复用容器租赁数量预测模型建立方法，包括：

从生鲜电商的历史数据中提取影响可复用容器租赁数量的基础特征，并通过特征工程构建时序特征和组合特征，从所有特征中筛选出对可复用容器租赁数量影响最大的部分特征作为目标特征；

按照预设的周期大小将历史数据划分为多个周期的数据，以构建各周期的目标特征并构建训练数据集；训练数据集中，一条样本由一个周期的目标特征及其下一个周期的可复用容器租赁数量构成；

建立多个机器学习模型，分别用于根据当前周期的目标特征预测下一个周期可复用容器的租赁数量；

利用训练数据集分别对各机器学习模型进行训练；训练结束后，将每一个机器学习模型作为一个可复用容器租赁数量预测模型，并按照

计算各模型的融合权重；融合权重用于在可复用容器租赁数量预测时对各模型的输出结果进行加权求和，得到最终的预测结果；

其中，基础特征包括可复用容器的属性和可复用容器相关的产品属性；n表示可复用容器租赁数量预测模型的总数，weight_i和L_i分别表示第i个可复用容器租赁数量预测模型的融合权重和预测损失。

本发明同时考虑可复用容器本身的属性和与之相关的产品属性，并通过特征工程构建时序特征和组合特征，由此能够丰富特征的多样性，充分挖掘出影响可复用容器租赁数量的特征，在此基础上，进一步筛选出其中对可复用容器租赁数量影响最大的有用特征，能够有效保证预测精度；本发明还建立多个机器学习模型对可复用容器数量进行预测，并将各模型的预测结果融合，作为最终的预测结果，由此能够增强模型的差异性，进一步提高预测精度。

进一步地，通过特征工程构建时序特征，包括：

分别计算基础特征中的可复用容器租赁数量、返还率和商品销量在多个不同时间尺度下的统计信息，每一个统计信息构成一个时序特征；

统计信息包括：基础特征的最值、均值、中位数、极值以及标准差。

当前周期可复用容器的租赁或返还数量依赖于以往的租赁数量、返还率、商品销量；本发明统计可复用容器租赁数量、返还率和商品销量在不同时间尺度下的统计信息作为时序特征，能够充分挖掘出可复用容器租赁数量对于特征在时序上的依赖性，提高预测准确性。

进一步地，通过特征工程构建组合特征，包括：

计算不同基础特征与响应变量之间的相关性系数，以筛选出对可复用容器租赁数量的预测结果影响最大的M个基础特征；

对筛选出的基础特征，两两组合进行指定运算，得到多个候选特征；

计算不同候选特征与响应变量之间的相关性系数，以筛选出对可复用容器租赁数量的预测结果影响最大的N个候选特征，作为最终所构建的组合特征；

其中，M和N均为正整数；响应变量为可复用容器的租赁数量。

本发明首先筛选出对可复用容器租赁数量影响最大的部分基础特征，然后两两组合进行运算，构建新的特征，由此能够在预测可复用容器租赁数量时充分考虑特征之间的非线性关系，进一步提高预测准确性；对于运算得到的新特征，还会进一步筛选出其中对可复用容器租赁数量影响最大的部分特征，由此能够避免特征量过大，导致计算量过大或者出现过拟合的现象。

进一步地，从所有特征中筛选出对可复用容器租赁数量影响最大的部分特征作为目标特征，包括：

将所有的基础特征、时序特征和组合特征输入XGBoost模型进行训练，以得到特征的重要性排序；从所有特征中提取出重要性高于预设的第一阈值的特征，作为目标特征。

本发明采用XGBoost模型进行特征重要性排序，仅保留其中重要性较高的部分特征用于预测的目标特征，能够充分挖掘有用特征，提高后续预测精度。

进一步地，在提取基础特征之前，还包括：

对历史数据进行数据清洗；

在数据清洗的过程中，对于同一类基础特征，若出现的离群值数量大于预设的第二阈值，则保留这些离群值；若历史数据中，某一天的可复用容器需求量高于其前指定时间段内可复用容器平均需求量指定的倍数，则将该天的连续数据作为异常值予以过滤。

本发明在提取基础特征之前，对了历史数据进行数据清洗，能够保证特征的有效性；由于同一类属性的离群值较多时，这些离群值也许并不是异常值，而是数据正常变化而产生的值，而机器学习模型对数据的变化很敏感，如果将这些变化较大的正常值剔除，会影响机器学习模型的预测精度，因此，本发明对于历史数据中出现的大量离群值进行保留，能够充分捕捉特征的变化，保证模型的预测精度；当可复用容器需求量远高于其前指定时间段内的需求量时，该天的数据属于在连续数据中突然出现的离群值，是异常值，因此，本发明将这些数据予以过滤，能够有效剔除训练数据中的异常值，有效保证训练后模型的预测精度。

进一步地，构建各周期的目标特征之前，还包括：

对于历史数据中出现缺失值的情况，利用上一周期数据中的平均值代替该缺失值。

本发明利用上一周期数据的平均值替代缺失值，能够避免因数据确实而影响模型的预测精度。

进一步地，所建立的多个机器学习模型分别为：XGBoost模型、BP神经网络和LSTM模型。

BP神经网络模型，可以拟合任何的非线性函数，有较好的预测效果；LSTM网络模型，能够考虑到时序数据对时间的依赖性；XGBoost模型本身具有较好的预测精度；本发明同时构建XGBoost模型、BP神经网络和LSTM模型作为预测模型，能够基于生鲜电商的数据特性，有效增强模型的差异性和预测精度。

进一步地，利用训练数据集对各机器学习模型进行训练，包括：

将训练数据集划分为第一数据集和第二数据集；

采用K₁折交叉验证法，利用第一数据集对各机器学习模型进行训练与测试；

采用K₂折交叉验证法，利用第二数据集对各机器学习模型进行训练与验证；

其中，K₁和K₂均为预设的正整数。

本发明K₁折交叉验证法对各机器学习模型进行训练与测试，采用K₂折交叉验证法对各机器学习模型进行训练与验证，能够充分利用训练数据，尤其是在训练数据较少时，有效保证模型的训练效果。

按照本发明的另一个方面，提供了一种生鲜电商可复用容器租赁数量预测方法，包括：

根据本发明提供的生鲜电商可复用容器租赁数量预测模型建立方法所确定的目标特征，利用生鲜电商当前周期的数据构建当前周期的目标特征；

将当前周期的目标特征分别输入由本发明提供的生鲜电商可复用容器租赁数量预测模型建立方法得到的各可复用容器租赁数量预测模型，基于各模型的融合权重，将各模型输出的预测结果进行加权求和，得到下一周期的可复用容器租赁数量。

本发明将当前周期的目标特征输入各机器学习模型，将各模型的预测结果融合为最终的预测结果，能够有效保证预测精度。

按照本发明的又一个方面，提供了一种计算机可读存储介质，包括存储的计算机程序；

计算机程序被处理器执行时，执行本发明提供的生鲜电商可复用容器租赁数量预测模型建立方法，和/或本发明提供的生鲜电商可复用容器预测方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明同时考虑可复用容器本身的属性和与之相关的产品属性，并通过特征工程构建时序特征和组合特征，由此能够丰富特征的多样性，充分挖掘出影响可复用容器租赁数量的特征，在此基础上，进一步筛选出其中对可复用容器租赁数量影响最大的有用特征，能够有效保证预测精度；本发明还建立多个机器学习模型对可复用容器数量进行预测，并将各模型的预测结果融合，作为最终的预测结果，由此能够增强模型的差异性，进一步提高预测精度。

(2)本发明采用XGBoost模型进行特征重要性排序，仅保留其中重要性较高的部分特征用于预测的目标特征，能够充分挖掘有用特征，提高后续预测精度。

(3)本发明同时构建XGBoost模型、BP神经网络和LSTM模型作为预测模型，可以拟合任何的线性函数，也可以拟合任何的非线性函数，同时结合XGBoost模型本身具有较好的预测精度，从能够基于生鲜电商的数据特性，有效增强模型的差异性和预测精度。

附图说明

图1为本发明实施例提供的生鲜电商可复用容器租赁数量预测模型建立方法流程图；

图2为本发明实施例提供的生鲜电商可复用容器租赁数量预测方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1：

一种生鲜电商可复用容器租赁数量预测模型建立方法，如图1所示，包括：

按照预设的周期大小将历史数据划分为多个周期的数据，以构建各周期的目标特征并构建训练数据集；训练数据集中，一条样本由一个周期的目标特征及其下一个周期的可复用容器租赁数量构成；考虑到生鲜电商一般每周进行一次可复用容器的租赁，可选地，本实施例中，以周为单位进行周期划分，在本发明其他的一些实施例中，也可以根据实际情况设定其他的周期大小；

其中，基础特征包括可复用容器的属性和可复用容器相关的产品属性；n表示可复用容器租赁数量预测模型的总数；可选地，本实施例中，所提取的基础特征具体包括：可复用容器种类、同一种类型的可复用容器所需的数量、每周容器的新租或退回数量、按时返还到仓库的返还率、容器的损坏率、丢失率、检查率、修复率、仓库中可复用容器库存数量、所用同一型号容器的商品信息、一容器所容纳不同商品的数量、不同商品销售数据、商品sku映射表、商品促销价格表和平台的活动时间表，其中，连续性的属性直接作为特征，不连续的属性，例如可复用容器种类，可采用对应的独热码作为特征；应当说明的是，在此所列举的基础特征，仅为示例性的说明，不应理解为对本发明的唯一限定；在实际应用中，具体选择哪些可复用容器属性及相关的商品属性作为基础特征，可以根据生鲜电商自身的经营类别、市场情况等相应确定，例如，在一些其他的实施例中，商品sku映射表、商品促销价格表和平台的活动时间表这些特征数据可以根据实际情况省略，在其他一些实施例中，还可以在上述基础特征的基础上引入其他相关的特征数据；

weight_i和L_i分别表示第i个可复用容器租赁数量预测模型的融合权重和预测损失。

本实施例同时考虑可复用容器本身的属性和与之相关的产品属性，并通过特征工程构建时序特征和组合特征，由此能够丰富特征的多样性，充分挖掘出影响可复用容器租赁数量的特征，在此基础上，进一步筛选出其中对可复用容器租赁数量影响最大的有用特征，能够有效保证预测精度；本实施例还建立多个机器学习模型对可复用容器数量进行预测，并将各模型的预测结果融合，作为最终的预测结果，由此能够增强模型的差异性，进一步提高预测精度。

作为一种可选的实施方式，本实施例中，通过特征工程构建时序特征，包括：

分别计算基础特征中的可复用容器租赁数量、返还率和商品销量在多个不同时间尺度下的统计信息，每一个统计信息构成一个时序特征；可选的，本实施例中，构建时序特征时，具体会分别以60、45、35、30、27、21、15、7、6、5、4、3、2和1天；应当说明的是，此处所选取的时间尺度需要根据生鲜电商的数据特点相应设定，周期划分不同，在此所选择的时间尺度也可能相应发生变化；

当前周期可复用容器的租赁或返还数量依赖于以往的租赁数量、返还率、商品销量；本实施例统计可复用容器租赁数量、返还率和商品销量在不同时间尺度下的统计信息作为时序特征，能够充分挖掘出可复用容器租赁数量对于特征在时序上的依赖性，提高预测准确性。

作为一种可选的实施方式，本实施例中，通过特征工程构建组合特征，包括：

其中，M和N均为正整数，M和N的取值，具体可根据实际情况设定，可选地，本实施例中，M＝40，N＝200；响应变量为可复用容器的租赁数量；

可选地，本实施例中，具体使用皮尔森相关系数作为不同基础特征之间，以及不同候选特征之间的相关性系数；筛选出基础特征之后，具体通过每两个特征之间的乘法、除法和加法运算，构建候选特征；在本发明其他的一些实施例中，具体使用的相关性系数，以及基础特征之间的运算，可根据实际需要设定。

本实施例首先筛选出对可复用容器租赁数量影响最大的部分基础特征，然后两两组合进行运算，构建新的特征，由此能够在预测可复用容器租赁数量时充分考虑特征之间的非线性关系，进一步提高预测准确性；对于运算得到的新特征，还会进一步筛选出其中对可复用容器租赁数量影响最大的部分特征，由此能够避免特征量过大，导致计算量过大或者出现过拟合的现象。

作为一种优选的实施方式，本实施例中，从所有特征中筛选出对可复用容器租赁数量影响最大的部分特征作为目标特征，包括：

本实施例采用XGBoost模型进行特征重要性排序，仅保留其中重要性较高的部分特征用于预测的目标特征，能够充分挖掘有用特征，提高后续预测精度。

为了进一步保证预测精度，作为一种优选的实施方式，本实施例中，在提取基础特征之前，还包括：

对历史数据进行数据清洗；

在数据清洗的过程中，对于同一类基础特征，若出现的离群值数量大于预设的第二阈值，则保留这些离群值；第二阈值的设定，可根据历史数据的实际规模相应设定；

若历史数据中，某一天的可复用容器需求量高于其前指定时间段内可复用容器平均需求量指定的倍数，则将该天的连续数据作为异常值予以过滤；可选地，本实施例中，对于历史数据中可复用容器所需数量高于前3天可复用容器平均需求量3倍的数据，予以过滤；

本实施例在提取基础特征之前，对了历史数据进行数据清洗，能够保证特征的有效性；由于同一类属性的离群值较多时，这些离群值也许并不是异常值，而是数据正常变化而产生的值，而机器学习模型对数据的变化很敏感，如果将这些变化较大的正常值剔除，会影响机器学习模型的预测精度，因此，本实施例对于历史数据中出现的大量离群值进行保留，能够充分捕捉特征的变化，保证模型的预测精度；当可复用容器需求量远高于其前指定时间段内的需求量时，该天的数据属于在连续数据中突然出现的离群值，是异常值，因此，本实施例将这些数据予以过滤，能够有效剔除训练数据中的异常值，有效保证训练后模型的预测精度。

作为一种优选的实施方式，本实施例中，构建各周期的目标特征之前，还包括：

本实施例利用上一周期数据的平均值替代缺失值，能够避免因数据确实而影响模型的预测精度。

作为一种优选的实施方式，本实施例中，所建立的多个机器学习模型分别为：XGBoost模型、BP神经网络和LSTM模型；

BP神经网络模型，可以拟合任何的非线性函数，有较好的预测效果；LSTM网络模型，能够考虑到时序数据对时间的依赖性；XGBoost模型本身具有较好的预测精度；本实施例同时构建XGBoost模型、BP神经网络和LSTM模型作为预测模型，能够基于生鲜电商的数据特性，有效增强模型的差异性和预测精度；

应当说明的是，在实际应用中，所建立的模型种类和数量并不限于本实施例所提供的模型组合。

作为一种可选的实施方式，本实施例中，利用训练数据集对各机器学习模型进行训练，包括：

将训练数据集划分为第一数据集和第二数据集；第一数据集的规模大于第二数据集的规模；

其中，K₁和K₂均为预设的正整数；具体可根据实际的数据规模设定K₁和K₂的数值，可选地，本实施例中，对模型进行训练与测试时，采用10折较差验证法，每次将数据划分为10份，其中9份作为训练集，一份作为测试集；对模型进行训练与验证时，采用5折交叉验证，每次将数据集划分为5份，其中4份作为训练集，一份作为验证集。

本实施例K₁折交叉验证法对各机器学习模型进行训练与测试，采用K₂折交叉验证法对各机器学习模型进行训练与验证，能够充分利用训练数据，尤其是在训练数据较少时，有效保证模型的训练效果。

实施例2：

一种生鲜电商可复用容器租赁数量预测方法，如图2所示，包括：

根据上述实施例1提供的生鲜电商可复用容器租赁数量预测模型建立方法所确定的目标特征，利用生鲜电商当前周期的数据构建当前周期的目标特征；

将当前周期的目标特征分别输入由上述实施例1提供的生鲜电商可复用容器租赁数量预测模型建立方法得到的各可复用容器租赁数量预测模型，基于各模型的融合权重，将各模型输出的预测结果进行加权求和，得到下一周期的可复用容器租赁数量。

本实施例将当前周期的目标特征输入各机器学习模型，将各模型的预测结果融合为最终的预测结果，能够有效保证预测精度。

实施例3：

一种计算机可读存储介质，包括存储的计算机程序；

计算机程序被处理器执行时，执行上述实施例1提供的生鲜电商可复用容器租赁数量预测模型建立方法，和/或上述实施例2提供的生鲜电商可复用容器预测方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生鲜电商可复用容器租赁数量预测模型建立方法，其特征在于，包括：

从所述生鲜电商的历史数据中提取影响可复用容器租赁数量的基础特征，并通过特征工程构建时序特征和组合特征，从所有特征中筛选出对可复用容器租赁数量影响最大的部分特征作为目标特征；

按照预设的周期大小将所述历史数据划分为多个周期的数据，以构建各周期的目标特征并构建训练数据集；所述训练数据集中，一条样本由一个周期的目标特征及其下一个周期的可复用容器租赁数量构成；

利用所述训练数据集分别对各机器学习模型进行训练；训练结束后，将每一个机器学习模型作为一个可复用容器租赁数量预测模型，并按照

计算各模型的融合权重；所述融合权重用于在可复用容器租赁数量预测时对各模型的输出结果进行加权求和，得到最终的预测结果；

其中，所述基础特征包括可复用容器的属性和可复用容器相关的产品属性；n表示可复用容器租赁数量预测模型的总数，weight_i和L_i分别表示第i个可复用容器租赁数量预测模型的融合权重和预测损失。

2.如权利要求1所述的生鲜电商可复用容器租赁数量预测模型建立方法，其特征在于，通过特征工程构建时序特征，包括：

分别计算所述基础特征中的可复用容器租赁数量、返还率和商品销量在多个不同时间尺度下的统计信息，每一个统计信息构成一个时序特征；

所述统计信息包括：基础特征的最值、均值、中位数、极值以及标准差。

3.如权利要求1所述的生鲜电商可复用容器租赁数量预测模型建立方法，其特征在于，通过特征工程构建组合特征，包括：

其中，M和N均为正整数；所述响应变量为可复用容器的租赁数量。

4.如权利要求1-3任一项所述的生鲜电商可复用容器租赁数量预测模型建立方法，其特征在于，从所有特征中筛选出对可复用容器租赁数量影响最大的部分特征作为目标特征，包括：

将所有的基础特征、时序特征和组合特征输入XGBoost模型进行训练，以得到特征的重要性排序；从所有特征中提取出重要性高于预设的第一阈值的特征，作为所述目标特征。

5.如权利要求4所述的生鲜电商可复用容器租赁数量预测模型建立方法，其特征在于，在提取基础特征之前，还包括：

对所述历史数据进行数据清洗；

在数据清洗的过程中，对于同一类基础特征，若出现的离群值数量大于预设的第二阈值，则保留这些离群值；若所述历史数据中，某一天的可复用容器需求量高于其前指定时间段内可复用容器平均需求量指定的倍数，则将该天的连续数据作为异常值予以过滤。

6.如权利要求5所述的生鲜电商可复用容器租赁数量预测模型建立方法，其特征在于，构建各周期的目标特征之前，还包括：

7.如权利要求4所述的生鲜电商可复用容器租赁数量预测模型建立方法，其特征在于，所建立的多个机器学习模型分别为：XGBoost模型、BP神经网络和LSTM模型。

8.如权利要求1所述的生鲜电商可复用容器租赁数量预测模型建立方法，其特征在于，利用所述训练数据集对各机器学习模型进行训练，包括：

将所述训练数据集划分为第一数据集和第二数据集；

采用K₁折交叉验证法，利用所述第一数据集对各机器学习模型进行训练与测试；

采用K₂折交叉验证法，利用所述第二数据集对各机器学习模型进行训练与验证；

其中，K₁和K₂均为预设的正整数。

9.一种生鲜电商可复用容器租赁数量预测方法，其特征在于，包括：

根据权利要求1-8任一项所述的生鲜电商可复用容器租赁数量预测模型建立方法所确定的目标特征，利用所述生鲜电商当前周期的数据构建当前周期的目标特征；

将当前周期的目标特征分别输入由权利要求1-8任一项所述的生鲜电商可复用容器租赁数量预测模型建立方法得到的各可复用容器租赁数量预测模型，基于各模型的融合权重，将各模型输出的预测结果进行加权求和，得到下一周期的可复用容器租赁数量。

10.一种计算机可读存储介质，其特征在于，包括存储的计算机程序；

所述计算机程序被处理器执行时，执行权利要求1-8任一项所述的生鲜电商可复用容器租赁数量预测模型建立方法，和/或权利要求9所述的生鲜电商可复用容器预测方法。