CN114493732A - 生鲜电商可复用容器租赁数量预测模型建立方法及其应用 - Google Patents
生鲜电商可复用容器租赁数量预测模型建立方法及其应用 Download PDFInfo
- Publication number
- CN114493732A CN114493732A CN202011163956.5A CN202011163956A CN114493732A CN 114493732 A CN114493732 A CN 114493732A CN 202011163956 A CN202011163956 A CN 202011163956A CN 114493732 A CN114493732 A CN 114493732A
- Authority
- CN
- China
- Prior art keywords
- model
- features
- reusable
- fresh
- reusable container
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000010801 machine learning Methods 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000012795 verification Methods 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000005611 electricity Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0645—Rental transactions; Leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Finance (AREA)
- Educational Administration (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
技术领域
本发明属于大数据预测领域,更具体地,涉及一种生鲜电商可复用容器租赁数量预测模型建立方法及其应用。
背景技术
可复用容器作为产品流通过程中的一个载体,对产品在运输过程中起到保护、方便运输和空间资源整合的作用。一些大型的生鲜电商,如盒马鲜生、易果生鲜等生鲜电商直接从产品的供应地进行采购,采购的产品需要放置在可复用容器中进行运输,以免产品的磕碰损坏。大量的可复用容器的购买需要公司投入大量的资金,并且不同的时期,可复用容器的需求有所浮动,也会造成闲置浪费,因此许多生鲜电商公司采用租赁可复用容器这一操作。
在生鲜电商产业链中,可复用容器需提前在各个生鲜产品仓库准备充足,以便产品可以及时装配。生鲜产品不同于其他工业产品,具有易腐性,一旦产品成熟,就应加快整个配送流程。若准备的可复用容器过多,则会产生库存成本,若准备的可复用容器过少,则会影响产品的运输,从而影响产品的新鲜程度。而租赁可复用容器需要一定的时间,准确预测生鲜电商在下一周期所需租赁的可复用容器的数量,可以让生鲜电商提前确定所需再额外租赁或返还给容器租赁商的可复用容器数目,从而避免租赁的可复用容器数量与实际需求量不匹配,而影响生鲜电商的收益。
因此,亟待提出一种能够准确预测生鲜电商可复用容器租赁数量的方法。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种生鲜电商可复用容器租赁数量预测模型建立方法及其应用,其目的在于,准确预测生鲜电商可复用容器的租赁数量。
为实现上述目的,按照本发明的一个方面,提供了一种生鲜电商可复用容器租赁数量预测模型建立方法,包括:
从生鲜电商的历史数据中提取影响可复用容器租赁数量的基础特征,并通过特征工程构建时序特征和组合特征,从所有特征中筛选出对可复用容器租赁数量影响最大的部分特征作为目标特征;
按照预设的周期大小将历史数据划分为多个周期的数据,以构建各周期的目标特征并构建训练数据集;训练数据集中,一条样本由一个周期的目标特征及其下一个周期的可复用容器租赁数量构成;
建立多个机器学习模型,分别用于根据当前周期的目标特征预测下一个周期可复用容器的租赁数量;
利用训练数据集分别对各机器学习模型进行训练;训练结束后,将每一个机器学习模型作为一个可复用容器租赁数量预测模型,并按照计算各模型的融合权重;融合权重用于在可复用容器租赁数量预测时对各模型的输出结果进行加权求和,得到最终的预测结果;
其中,基础特征包括可复用容器的属性和可复用容器相关的产品属性;n表示可复用容器租赁数量预测模型的总数,weighti和Li分别表示第i个可复用容器租赁数量预测模型的融合权重和预测损失。
本发明同时考虑可复用容器本身的属性和与之相关的产品属性,并通过特征工程构建时序特征和组合特征,由此能够丰富特征的多样性,充分挖掘出影响可复用容器租赁数量的特征,在此基础上,进一步筛选出其中对可复用容器租赁数量影响最大的有用特征,能够有效保证预测精度;本发明还建立多个机器学习模型对可复用容器数量进行预测,并将各模型的预测结果融合,作为最终的预测结果,由此能够增强模型的差异性,进一步提高预测精度。
进一步地,通过特征工程构建时序特征,包括:
分别计算基础特征中的可复用容器租赁数量、返还率和商品销量在多个不同时间尺度下的统计信息,每一个统计信息构成一个时序特征;
统计信息包括:基础特征的最值、均值、中位数、极值以及标准差。
当前周期可复用容器的租赁或返还数量依赖于以往的租赁数量、返还率、商品销量;本发明统计可复用容器租赁数量、返还率和商品销量在不同时间尺度下的统计信息作为时序特征,能够充分挖掘出可复用容器租赁数量对于特征在时序上的依赖性,提高预测准确性。
进一步地,通过特征工程构建组合特征,包括:
计算不同基础特征与响应变量之间的相关性系数,以筛选出对可复用容器租赁数量的预测结果影响最大的M个基础特征;
对筛选出的基础特征,两两组合进行指定运算,得到多个候选特征;
计算不同候选特征与响应变量之间的相关性系数,以筛选出对可复用容器租赁数量的预测结果影响最大的N个候选特征,作为最终所构建的组合特征;
其中,M和N均为正整数;响应变量为可复用容器的租赁数量。
本发明首先筛选出对可复用容器租赁数量影响最大的部分基础特征,然后两两组合进行运算,构建新的特征,由此能够在预测可复用容器租赁数量时充分考虑特征之间的非线性关系,进一步提高预测准确性;对于运算得到的新特征,还会进一步筛选出其中对可复用容器租赁数量影响最大的部分特征,由此能够避免特征量过大,导致计算量过大或者出现过拟合的现象。
进一步地,从所有特征中筛选出对可复用容器租赁数量影响最大的部分特征作为目标特征,包括:
将所有的基础特征、时序特征和组合特征输入XGBoost模型进行训练,以得到特征的重要性排序;从所有特征中提取出重要性高于预设的第一阈值的特征,作为目标特征。
本发明采用XGBoost模型进行特征重要性排序,仅保留其中重要性较高的部分特征用于预测的目标特征,能够充分挖掘有用特征,提高后续预测精度。
进一步地,在提取基础特征之前,还包括:
对历史数据进行数据清洗;
在数据清洗的过程中,对于同一类基础特征,若出现的离群值数量大于预设的第二阈值,则保留这些离群值;若历史数据中,某一天的可复用容器需求量高于其前指定时间段内可复用容器平均需求量指定的倍数,则将该天的连续数据作为异常值予以过滤。
本发明在提取基础特征之前,对了历史数据进行数据清洗,能够保证特征的有效性;由于同一类属性的离群值较多时,这些离群值也许并不是异常值,而是数据正常变化而产生的值,而机器学习模型对数据的变化很敏感,如果将这些变化较大的正常值剔除,会影响机器学习模型的预测精度,因此,本发明对于历史数据中出现的大量离群值进行保留,能够充分捕捉特征的变化,保证模型的预测精度;当可复用容器需求量远高于其前指定时间段内的需求量时,该天的数据属于在连续数据中突然出现的离群值,是异常值,因此,本发明将这些数据予以过滤,能够有效剔除训练数据中的异常值,有效保证训练后模型的预测精度。
进一步地,构建各周期的目标特征之前,还包括:
对于历史数据中出现缺失值的情况,利用上一周期数据中的平均值代替该缺失值。
本发明利用上一周期数据的平均值替代缺失值,能够避免因数据确实而影响模型的预测精度。
进一步地,所建立的多个机器学习模型分别为:XGBoost模型、BP神经网络和LSTM模型。
BP神经网络模型,可以拟合任何的非线性函数,有较好的预测效果;LSTM网络模型,能够考虑到时序数据对时间的依赖性;XGBoost模型本身具有较好的预测精度;本发明同时构建XGBoost模型、BP神经网络和LSTM模型作为预测模型,能够基于生鲜电商的数据特性,有效增强模型的差异性和预测精度。
进一步地,利用训练数据集对各机器学习模型进行训练,包括:
将训练数据集划分为第一数据集和第二数据集;
采用K1折交叉验证法,利用第一数据集对各机器学习模型进行训练与测试;
采用K2折交叉验证法,利用第二数据集对各机器学习模型进行训练与验证;
其中,K1和K2均为预设的正整数。
本发明K1折交叉验证法对各机器学习模型进行训练与测试,采用K2折交叉验证法对各机器学习模型进行训练与验证,能够充分利用训练数据,尤其是在训练数据较少时,有效保证模型的训练效果。
按照本发明的另一个方面,提供了一种生鲜电商可复用容器租赁数量预测方法,包括:
根据本发明提供的生鲜电商可复用容器租赁数量预测模型建立方法所确定的目标特征,利用生鲜电商当前周期的数据构建当前周期的目标特征;
将当前周期的目标特征分别输入由本发明提供的生鲜电商可复用容器租赁数量预测模型建立方法得到的各可复用容器租赁数量预测模型,基于各模型的融合权重,将各模型输出的预测结果进行加权求和,得到下一周期的可复用容器租赁数量。
本发明将当前周期的目标特征输入各机器学习模型,将各模型的预测结果融合为最终的预测结果,能够有效保证预测精度。
按照本发明的又一个方面,提供了一种计算机可读存储介质,包括存储的计算机程序;
计算机程序被处理器执行时,执行本发明提供的生鲜电商可复用容器租赁数量预测模型建立方法,和/或本发明提供的生鲜电商可复用容器预测方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明同时考虑可复用容器本身的属性和与之相关的产品属性,并通过特征工程构建时序特征和组合特征,由此能够丰富特征的多样性,充分挖掘出影响可复用容器租赁数量的特征,在此基础上,进一步筛选出其中对可复用容器租赁数量影响最大的有用特征,能够有效保证预测精度;本发明还建立多个机器学习模型对可复用容器数量进行预测,并将各模型的预测结果融合,作为最终的预测结果,由此能够增强模型的差异性,进一步提高预测精度。
(2)本发明采用XGBoost模型进行特征重要性排序,仅保留其中重要性较高的部分特征用于预测的目标特征,能够充分挖掘有用特征,提高后续预测精度。
(3)本发明同时构建XGBoost模型、BP神经网络和LSTM模型作为预测模型,可以拟合任何的线性函数,也可以拟合任何的非线性函数,同时结合XGBoost模型本身具有较好的预测精度,从能够基于生鲜电商的数据特性,有效增强模型的差异性和预测精度。
附图说明
图1为本发明实施例提供的生鲜电商可复用容器租赁数量预测模型建立方法流程图;
图2为本发明实施例提供的生鲜电商可复用容器租赁数量预测方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1:
一种生鲜电商可复用容器租赁数量预测模型建立方法,如图1所示,包括:
从生鲜电商的历史数据中提取影响可复用容器租赁数量的基础特征,并通过特征工程构建时序特征和组合特征,从所有特征中筛选出对可复用容器租赁数量影响最大的部分特征作为目标特征;
按照预设的周期大小将历史数据划分为多个周期的数据,以构建各周期的目标特征并构建训练数据集;训练数据集中,一条样本由一个周期的目标特征及其下一个周期的可复用容器租赁数量构成;考虑到生鲜电商一般每周进行一次可复用容器的租赁,可选地,本实施例中,以周为单位进行周期划分,在本发明其他的一些实施例中,也可以根据实际情况设定其他的周期大小;
建立多个机器学习模型,分别用于根据当前周期的目标特征预测下一个周期可复用容器的租赁数量;
利用训练数据集分别对各机器学习模型进行训练;训练结束后,将每一个机器学习模型作为一个可复用容器租赁数量预测模型,并按照计算各模型的融合权重;融合权重用于在可复用容器租赁数量预测时对各模型的输出结果进行加权求和,得到最终的预测结果;
其中,基础特征包括可复用容器的属性和可复用容器相关的产品属性;n表示可复用容器租赁数量预测模型的总数;可选地,本实施例中,所提取的基础特征具体包括:可复用容器种类、同一种类型的可复用容器所需的数量、每周容器的新租或退回数量、按时返还到仓库的返还率、容器的损坏率、丢失率、检查率、修复率、仓库中可复用容器库存数量、所用同一型号容器的商品信息、一容器所容纳不同商品的数量、不同商品销售数据、商品sku映射表、商品促销价格表和平台的活动时间表,其中,连续性的属性直接作为特征,不连续的属性,例如可复用容器种类,可采用对应的独热码作为特征;应当说明的是,在此所列举的基础特征,仅为示例性的说明,不应理解为对本发明的唯一限定;在实际应用中,具体选择哪些可复用容器属性及相关的商品属性作为基础特征,可以根据生鲜电商自身的经营类别、市场情况等相应确定,例如,在一些其他的实施例中,商品sku映射表、商品促销价格表和平台的活动时间表这些特征数据可以根据实际情况省略,在其他一些实施例中,还可以在上述基础特征的基础上引入其他相关的特征数据;
weighti和Li分别表示第i个可复用容器租赁数量预测模型的融合权重和预测损失。
本实施例同时考虑可复用容器本身的属性和与之相关的产品属性,并通过特征工程构建时序特征和组合特征,由此能够丰富特征的多样性,充分挖掘出影响可复用容器租赁数量的特征,在此基础上,进一步筛选出其中对可复用容器租赁数量影响最大的有用特征,能够有效保证预测精度;本实施例还建立多个机器学习模型对可复用容器数量进行预测,并将各模型的预测结果融合,作为最终的预测结果,由此能够增强模型的差异性,进一步提高预测精度。
作为一种可选的实施方式,本实施例中,通过特征工程构建时序特征,包括:
分别计算基础特征中的可复用容器租赁数量、返还率和商品销量在多个不同时间尺度下的统计信息,每一个统计信息构成一个时序特征;可选的,本实施例中,构建时序特征时,具体会分别以60、45、35、30、27、21、15、7、6、5、4、3、2和1天;应当说明的是,此处所选取的时间尺度需要根据生鲜电商的数据特点相应设定,周期划分不同,在此所选择的时间尺度也可能相应发生变化;
统计信息包括:基础特征的最值、均值、中位数、极值以及标准差。
当前周期可复用容器的租赁或返还数量依赖于以往的租赁数量、返还率、商品销量;本实施例统计可复用容器租赁数量、返还率和商品销量在不同时间尺度下的统计信息作为时序特征,能够充分挖掘出可复用容器租赁数量对于特征在时序上的依赖性,提高预测准确性。
作为一种可选的实施方式,本实施例中,通过特征工程构建组合特征,包括:
计算不同基础特征与响应变量之间的相关性系数,以筛选出对可复用容器租赁数量的预测结果影响最大的M个基础特征;
对筛选出的基础特征,两两组合进行指定运算,得到多个候选特征;
计算不同候选特征与响应变量之间的相关性系数,以筛选出对可复用容器租赁数量的预测结果影响最大的N个候选特征,作为最终所构建的组合特征;
其中,M和N均为正整数,M和N的取值,具体可根据实际情况设定,可选地,本实施例中,M=40,N=200;响应变量为可复用容器的租赁数量;
可选地,本实施例中,具体使用皮尔森相关系数作为不同基础特征之间,以及不同候选特征之间的相关性系数;筛选出基础特征之后,具体通过每两个特征之间的乘法、除法和加法运算,构建候选特征;在本发明其他的一些实施例中,具体使用的相关性系数,以及基础特征之间的运算,可根据实际需要设定。
本实施例首先筛选出对可复用容器租赁数量影响最大的部分基础特征,然后两两组合进行运算,构建新的特征,由此能够在预测可复用容器租赁数量时充分考虑特征之间的非线性关系,进一步提高预测准确性;对于运算得到的新特征,还会进一步筛选出其中对可复用容器租赁数量影响最大的部分特征,由此能够避免特征量过大,导致计算量过大或者出现过拟合的现象。
作为一种优选的实施方式,本实施例中,从所有特征中筛选出对可复用容器租赁数量影响最大的部分特征作为目标特征,包括:
将所有的基础特征、时序特征和组合特征输入XGBoost模型进行训练,以得到特征的重要性排序;从所有特征中提取出重要性高于预设的第一阈值的特征,作为目标特征。
本实施例采用XGBoost模型进行特征重要性排序,仅保留其中重要性较高的部分特征用于预测的目标特征,能够充分挖掘有用特征,提高后续预测精度。
为了进一步保证预测精度,作为一种优选的实施方式,本实施例中,在提取基础特征之前,还包括:
对历史数据进行数据清洗;
在数据清洗的过程中,对于同一类基础特征,若出现的离群值数量大于预设的第二阈值,则保留这些离群值;第二阈值的设定,可根据历史数据的实际规模相应设定;
若历史数据中,某一天的可复用容器需求量高于其前指定时间段内可复用容器平均需求量指定的倍数,则将该天的连续数据作为异常值予以过滤;可选地,本实施例中,对于历史数据中可复用容器所需数量高于前3天可复用容器平均需求量3倍的数据,予以过滤;
本实施例在提取基础特征之前,对了历史数据进行数据清洗,能够保证特征的有效性;由于同一类属性的离群值较多时,这些离群值也许并不是异常值,而是数据正常变化而产生的值,而机器学习模型对数据的变化很敏感,如果将这些变化较大的正常值剔除,会影响机器学习模型的预测精度,因此,本实施例对于历史数据中出现的大量离群值进行保留,能够充分捕捉特征的变化,保证模型的预测精度;当可复用容器需求量远高于其前指定时间段内的需求量时,该天的数据属于在连续数据中突然出现的离群值,是异常值,因此,本实施例将这些数据予以过滤,能够有效剔除训练数据中的异常值,有效保证训练后模型的预测精度。
作为一种优选的实施方式,本实施例中,构建各周期的目标特征之前,还包括:
对于历史数据中出现缺失值的情况,利用上一周期数据中的平均值代替该缺失值。
本实施例利用上一周期数据的平均值替代缺失值,能够避免因数据确实而影响模型的预测精度。
作为一种优选的实施方式,本实施例中,所建立的多个机器学习模型分别为:XGBoost模型、BP神经网络和LSTM模型;
BP神经网络模型,可以拟合任何的非线性函数,有较好的预测效果;LSTM网络模型,能够考虑到时序数据对时间的依赖性;XGBoost模型本身具有较好的预测精度;本实施例同时构建XGBoost模型、BP神经网络和LSTM模型作为预测模型,能够基于生鲜电商的数据特性,有效增强模型的差异性和预测精度;
应当说明的是,在实际应用中,所建立的模型种类和数量并不限于本实施例所提供的模型组合。
作为一种可选的实施方式,本实施例中,利用训练数据集对各机器学习模型进行训练,包括:
将训练数据集划分为第一数据集和第二数据集;第一数据集的规模大于第二数据集的规模;
采用K1折交叉验证法,利用第一数据集对各机器学习模型进行训练与测试;
采用K2折交叉验证法,利用第二数据集对各机器学习模型进行训练与验证;
其中,K1和K2均为预设的正整数;具体可根据实际的数据规模设定K1和K2的数值,可选地,本实施例中,对模型进行训练与测试时,采用10折较差验证法,每次将数据划分为10份,其中9份作为训练集,一份作为测试集;对模型进行训练与验证时,采用5折交叉验证,每次将数据集划分为5份,其中4份作为训练集,一份作为验证集。
本实施例K1折交叉验证法对各机器学习模型进行训练与测试,采用K2折交叉验证法对各机器学习模型进行训练与验证,能够充分利用训练数据,尤其是在训练数据较少时,有效保证模型的训练效果。
实施例2:
一种生鲜电商可复用容器租赁数量预测方法,如图2所示,包括:
根据上述实施例1提供的生鲜电商可复用容器租赁数量预测模型建立方法所确定的目标特征,利用生鲜电商当前周期的数据构建当前周期的目标特征;
将当前周期的目标特征分别输入由上述实施例1提供的生鲜电商可复用容器租赁数量预测模型建立方法得到的各可复用容器租赁数量预测模型,基于各模型的融合权重,将各模型输出的预测结果进行加权求和,得到下一周期的可复用容器租赁数量。
本实施例将当前周期的目标特征输入各机器学习模型,将各模型的预测结果融合为最终的预测结果,能够有效保证预测精度。
实施例3:
一种计算机可读存储介质,包括存储的计算机程序;
计算机程序被处理器执行时,执行上述实施例1提供的生鲜电商可复用容器租赁数量预测模型建立方法,和/或上述实施例2提供的生鲜电商可复用容器预测方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种生鲜电商可复用容器租赁数量预测模型建立方法,其特征在于,包括:
从所述生鲜电商的历史数据中提取影响可复用容器租赁数量的基础特征,并通过特征工程构建时序特征和组合特征,从所有特征中筛选出对可复用容器租赁数量影响最大的部分特征作为目标特征;
按照预设的周期大小将所述历史数据划分为多个周期的数据,以构建各周期的目标特征并构建训练数据集;所述训练数据集中,一条样本由一个周期的目标特征及其下一个周期的可复用容器租赁数量构成;
建立多个机器学习模型,分别用于根据当前周期的目标特征预测下一个周期可复用容器的租赁数量;
利用所述训练数据集分别对各机器学习模型进行训练;训练结束后,将每一个机器学习模型作为一个可复用容器租赁数量预测模型,并按照计算各模型的融合权重;所述融合权重用于在可复用容器租赁数量预测时对各模型的输出结果进行加权求和,得到最终的预测结果;
其中,所述基础特征包括可复用容器的属性和可复用容器相关的产品属性;n表示可复用容器租赁数量预测模型的总数,weighti和Li分别表示第i个可复用容器租赁数量预测模型的融合权重和预测损失。
2.如权利要求1所述的生鲜电商可复用容器租赁数量预测模型建立方法,其特征在于,通过特征工程构建时序特征,包括:
分别计算所述基础特征中的可复用容器租赁数量、返还率和商品销量在多个不同时间尺度下的统计信息,每一个统计信息构成一个时序特征;
所述统计信息包括:基础特征的最值、均值、中位数、极值以及标准差。
3.如权利要求1所述的生鲜电商可复用容器租赁数量预测模型建立方法,其特征在于,通过特征工程构建组合特征,包括:
计算不同基础特征与响应变量之间的相关性系数,以筛选出对可复用容器租赁数量的预测结果影响最大的M个基础特征;
对筛选出的基础特征,两两组合进行指定运算,得到多个候选特征;
计算不同候选特征与响应变量之间的相关性系数,以筛选出对可复用容器租赁数量的预测结果影响最大的N个候选特征,作为最终所构建的组合特征;
其中,M和N均为正整数;所述响应变量为可复用容器的租赁数量。
4.如权利要求1-3任一项所述的生鲜电商可复用容器租赁数量预测模型建立方法,其特征在于,从所有特征中筛选出对可复用容器租赁数量影响最大的部分特征作为目标特征,包括:
将所有的基础特征、时序特征和组合特征输入XGBoost模型进行训练,以得到特征的重要性排序;从所有特征中提取出重要性高于预设的第一阈值的特征,作为所述目标特征。
5.如权利要求4所述的生鲜电商可复用容器租赁数量预测模型建立方法,其特征在于,在提取基础特征之前,还包括:
对所述历史数据进行数据清洗;
在数据清洗的过程中,对于同一类基础特征,若出现的离群值数量大于预设的第二阈值,则保留这些离群值;若所述历史数据中,某一天的可复用容器需求量高于其前指定时间段内可复用容器平均需求量指定的倍数,则将该天的连续数据作为异常值予以过滤。
6.如权利要求5所述的生鲜电商可复用容器租赁数量预测模型建立方法,其特征在于,构建各周期的目标特征之前,还包括:
对于历史数据中出现缺失值的情况,利用上一周期数据中的平均值代替该缺失值。
7.如权利要求4所述的生鲜电商可复用容器租赁数量预测模型建立方法,其特征在于,所建立的多个机器学习模型分别为:XGBoost模型、BP神经网络和LSTM模型。
8.如权利要求1所述的生鲜电商可复用容器租赁数量预测模型建立方法,其特征在于,利用所述训练数据集对各机器学习模型进行训练,包括:
将所述训练数据集划分为第一数据集和第二数据集;
采用K1折交叉验证法,利用所述第一数据集对各机器学习模型进行训练与测试;
采用K2折交叉验证法,利用所述第二数据集对各机器学习模型进行训练与验证;
其中,K1和K2均为预设的正整数。
9.一种生鲜电商可复用容器租赁数量预测方法,其特征在于,包括:
根据权利要求1-8任一项所述的生鲜电商可复用容器租赁数量预测模型建立方法所确定的目标特征,利用所述生鲜电商当前周期的数据构建当前周期的目标特征;
将当前周期的目标特征分别输入由权利要求1-8任一项所述的生鲜电商可复用容器租赁数量预测模型建立方法得到的各可复用容器租赁数量预测模型,基于各模型的融合权重,将各模型输出的预测结果进行加权求和,得到下一周期的可复用容器租赁数量。
10.一种计算机可读存储介质,其特征在于,包括存储的计算机程序;
所述计算机程序被处理器执行时,执行权利要求1-8任一项所述的生鲜电商可复用容器租赁数量预测模型建立方法,和/或权利要求9所述的生鲜电商可复用容器预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011163956.5A CN114493732B (zh) | 2020-10-27 | 2020-10-27 | 生鲜电商可复用容器租赁数量预测模型建立方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011163956.5A CN114493732B (zh) | 2020-10-27 | 2020-10-27 | 生鲜电商可复用容器租赁数量预测模型建立方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114493732A true CN114493732A (zh) | 2022-05-13 |
CN114493732B CN114493732B (zh) | 2024-05-28 |
Family
ID=81471463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011163956.5A Active CN114493732B (zh) | 2020-10-27 | 2020-10-27 | 生鲜电商可复用容器租赁数量预测模型建立方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114493732B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152539A (zh) * | 2023-10-27 | 2023-12-01 | 浙江由由科技有限公司 | 基于降维特征机器校验的生鲜商品分类修正方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130304655A1 (en) * | 2012-05-14 | 2013-11-14 | CREwizard, LLC | System and method for access to, management of, tracking of, and display of lease data |
US20140257924A1 (en) * | 2013-03-08 | 2014-09-11 | Corelogic Solutions, Llc | Automated rental amount modeling and prediction |
CN107404409A (zh) * | 2017-09-01 | 2017-11-28 | 广西大学 | 面向突变负载的容器云弹性供给容器数量预测方法与系统 |
CN108710905A (zh) * | 2018-05-10 | 2018-10-26 | 华中科技大学 | 一种基于多模型联合的备件数量预测方法和系统 |
CN109784979A (zh) * | 2018-12-19 | 2019-05-21 | 重庆邮电大学 | 一种大数据驱动的供应链需求预测方法 |
CN110532057A (zh) * | 2019-07-25 | 2019-12-03 | 北京理工大学 | 一种容器的资源使用量预测方法 |
-
2020
- 2020-10-27 CN CN202011163956.5A patent/CN114493732B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130304655A1 (en) * | 2012-05-14 | 2013-11-14 | CREwizard, LLC | System and method for access to, management of, tracking of, and display of lease data |
US20140257924A1 (en) * | 2013-03-08 | 2014-09-11 | Corelogic Solutions, Llc | Automated rental amount modeling and prediction |
CN107404409A (zh) * | 2017-09-01 | 2017-11-28 | 广西大学 | 面向突变负载的容器云弹性供给容器数量预测方法与系统 |
CN108710905A (zh) * | 2018-05-10 | 2018-10-26 | 华中科技大学 | 一种基于多模型联合的备件数量预测方法和系统 |
CN109784979A (zh) * | 2018-12-19 | 2019-05-21 | 重庆邮电大学 | 一种大数据驱动的供应链需求预测方法 |
CN110532057A (zh) * | 2019-07-25 | 2019-12-03 | 北京理工大学 | 一种容器的资源使用量预测方法 |
Non-Patent Citations (1)
Title |
---|
胡晓丽;张会兵;董俊超;吴冬强;: "基于集成学习的电子商务平台新用户重复购买行为预测", 现代电子技术, no. 11, 1 June 2020 (2020-06-01) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152539A (zh) * | 2023-10-27 | 2023-12-01 | 浙江由由科技有限公司 | 基于降维特征机器校验的生鲜商品分类修正方法 |
CN117152539B (zh) * | 2023-10-27 | 2024-01-26 | 浙江由由科技有限公司 | 基于降维特征机器校验的生鲜商品分类修正方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114493732B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ferrer et al. | Value of information in remanufacturing complex products | |
Fattahi et al. | Integrated forward/reverse logistics network design under uncertainty with pricing for collection of used products | |
Golroudbary et al. | System dynamics model for optimizing the recycling and collection of waste material in a closed-loop supply chain | |
Rogers et al. | Modeling and analysis of reverse logistics | |
Khan et al. | An economic order quantity (EOQ) for items with imperfect quality and inspection errors | |
Wang et al. | Improving inventory effectiveness in RFID-enabled global supply chain with Grey forecasting model | |
Schweiger et al. | A hybrid Tabu Search approach for the design of a paper recycling network | |
Merdin et al. | Evaluation of the applicability of Industry 4.0 processes in businesses and supply chain applications | |
Wang et al. | Two-Stage Fuzzy MCDM for Green Supplier Selection in Steel Industry. | |
Chaudhary et al. | Evaluation and measurement of performance, practice and pressure of green supply chain in Indian manufacturing industries | |
Kuik et al. | Stochastic decision model of the remanufactured product with warranty | |
CN114493732B (zh) | 生鲜电商可复用容器租赁数量预测模型建立方法及其应用 | |
Galankashi et al. | Selection of supply chain performance measurement frameworks in electrical supply chains | |
Arabzad et al. | DEA and TOPSIS techniques for purchasing management: the case of aircraft manufacturing industry | |
Behrouzi et al. | A fuzzy-based model to measure supplier performance with lean attributes | |
Ly et al. | Selection of functional logistics service providers: AHP and DEMATEL application | |
Yueli et al. | Optimal buyer’s replenishment policy in the integrated inventory model for imperfect items | |
Ganji et al. | Identifying and Assessing the Risks in the Supply Chain | |
Dobrzyński et al. | Simulation analysis of a production process with selected Six Sigma ratios | |
Kim et al. | Economic evaluation model for international standardization of technology | |
Tang et al. | Simulation analysis for ERP conducted in Japanese SMEs using the concept of MFCA | |
Topgul et al. | Assessment of supply chain greenness: a literature review | |
Padiyar et al. | A fuzzy inventory problem based on management for deteriorating item with Remanufacture process | |
Evans et al. | A simulation testbed for the evaluation of product and information flows in a manufacturing system | |
Alkahtani et al. | Collection System of Air Conditioners Remanufacturing: Development and Optimization under Probabilistic Uncertainty |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |