CN113379455B - 订单量预测方法和设备 - Google Patents
订单量预测方法和设备 Download PDFInfo
- Publication number
- CN113379455B CN113379455B CN202110646023.XA CN202110646023A CN113379455B CN 113379455 B CN113379455 B CN 113379455B CN 202110646023 A CN202110646023 A CN 202110646023A CN 113379455 B CN113379455 B CN 113379455B
- Authority
- CN
- China
- Prior art keywords
- order quantity
- model
- prediction
- determining
- predictor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012360 testing method Methods 0.000 claims description 68
- 238000012549 training Methods 0.000 claims description 68
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010606 normalization Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000010485 coping Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及大数据技术领域,尤其涉及一种订单量预测方法和设备。该方法包括:确定订单量预测模型;订单量预测模型包括第一预测子模型和第二预测子模型。可选的,第一预测子模型可以为LSTM预测模型,第二预测子模型可以为l i ghtGBM预测模型。将待预测日期输入订单量预测模型;其中,订单量预测模型中的第一预测子模型输出待预测日期的第一预测值;第二预测子模型输出待预测日期的第二预测值;根据第一预测值和第二预测值的加权,确定待预测日期的预测订单量。本发明实施例方案可以实现对订单量的预测。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种订单量预测方法和设备。
背景技术
票务系统、电商平台等系统会随时产生大量订单。为了保证票务系统和电商平台等系统的稳定运行,需要实时对相应系统进行监测,避免出现异常情况。为了在出现异常情况时不影响票务系统或者电商平台的正常运行,需要一种能够对订单量进行预测的方案。由此可以通过预测订单量及时制定风险应对策略。
发明内容
有鉴于此,本发明实施例提供一种订单量预测方法和设备,以实现对订单量的预测。
第一方面,本申请实施例提供了一种订单量预测方法,包括:
确定订单量预测模型;所述订单量预测模型包括第一预测子模型和第二预测子模型;
将待预测日期输入所述订单量预测模型;其中,所述订单量预测模型中的所述第一预测子模型输出所述待预测日期的第一预测值;所述第二预测子模型输出所述待预测日期的第二预测值;
其中,根据所述第一预测值和所述第二预测值的加权,确定所述待预测日期的预测订单量。
可选的,第一预测子模型和第二预测子模型均为时间序列模型。输入变量依赖于对历史订单量数据的特征分析和业务规则限制。可选的,第一预测子模型和第二预测子模型的参数均可以通过贝叶斯优化算法确定,从而可以提高订单量预测模型的预测精度。
可选的,第一预测子模型可以为LSTM预测模型,第二预测子模型可以为lightGBM预测模型。在一些实施例中,第一预测子模型的神经网络结构包含LSTM层、dropout层和全连接层。
可选的,构建所述订单量预测模型的步骤,包括:根据第一预设时长范围内的历史订单量数据,确定训练数据集和测试数据集;
构建订单量预测模型的初始模型,并确定订单量预测模型的参数组合;
基于所述训练数据集和所述参数组合,对订单量预测模型进行训练;
基于所述测试数据集对所述订单量预测模型的预测精度进行验证,并且确定第一预测子模型和第二预测子模型的加权权重。
与目前大多数理论研究中采用的数据归一化方法不同,本申请实施例对训练数据集和测试数据集分别进行归一化处理。其中,在对测试训练数据集进行归一化时,需要将训练数据集中的最大值、最小值和测试数据集进行合并,之后再对测试数据集进行归一化。
其中,对训练数据集进行归一化包括:确定训练数据集中的最大值和最小值;根据所述训练数据集中的最大值和最小值,对所述训练数据集中的各个数据进行归一化;
对测试数据集进行归一化包括:确定测试数据集中的最大值和最小值;根据所述训练数据集中的最大值和最小值,以及所述测试数据集中的最大值和最小值,对所述测试数据集中的各个数据进行归一化。
可选的,所述方法还包括:根据第一预设时长范围内的历史订单量数据的分布特征,确定Q时间的订单量与Q时间之前的X时间范围内的订单量的第一相关性;
根据所述第一相关性,确定所述时间窗口参数的取值范围;
其中,所述所时间窗口参数用于确定与所述Q时间相关的历史订单量数据;Q时间的预测订单量根据所述时间窗口参数对应的历史订单量数据确定。
可选的,确定订单量预测模型的参数组合,包括:
利用自动调参算法确定所述订单量预测模型的参数组合;其中,所述参数组合包含时间窗口参数和所述订单量预测模型的超参数。
可选的,确定订单量预测模型的参数组合,包括:确定所述第一预测子模型的第一参数组合以及确定所述第二预测子模型的第二参数组合;其中,所述第一参数组合和所述第二参数组合包含的时间窗口参数相同;
基于所述训练数据集和所述参数组合,对订单量预测模型进行训练,包括:根据所述训练数据集和所述第一参数组合对所述第一预测子模型进行训练;基于所述训练数据集和所述第二参数组合对所述第二预测子模型进行训练。
可选的,确定第一预测子模型和第二预测子模型的加权权重,包括:
基于所述订单量预测模型,对所述测试数据集中测试数据所对应日期的订单量进行预测,得到第一预测子模型的预测结果和所述第二预测子模型的预测结果;
对所述第一预测子模型的预测结果和所述第二预测子模型的预测结果进行加权;
根据所述加权结果和对应测试数据之间的误差,确定所述第一预测子模型和第二预测子模型的加权权重。
可选的,根据所述加权结果和对应测试数据之间的误差,确定所述第一预测子模型和第二预测子模型的加权权重,包括:
根据公式确定所述订单量预测模型的预测值集合H;
其中,wi≥0,w1+w2=1,h1为第一预测子模型的预测结果;h2为第二预测子模型的预测结果;w1为h1的权重系数;w2为h2的权重系数;
根据下述公式计算测试数据集T和预测值集合H的均方误差R;
其中,Ht为基于所述订单量预测模型预测的与t时间对应的预测值;Tt为测试数据集中与t时间对应的测试数据;
将所述R取最小值时对应的w1、w2分别确定为所述第一预测子模型和第二预测子模型的加权权重。
第二方面,本发明实施例提供了一种订单量预测设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。
第三方面,本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的方法。
本发明实施例的订单量预测方法和设备,基于订单量预测模型可以对待预测日期的订单量进行预测。其中,订单量预测模型包括第一预测子模型和第二预测子模型。第一预测子模型输出待预测日期的第一预测值;第二预测子模型输出待预测日期的第二预测值。根据第一预测值和第二预测值的加权可以得到待预测日期的预测订单量。该方案基于预测模型可以离线对待预测日期订单量进行预测,不影响业务系统的正常下单运行。当预测订单量出现异常时,可以及时制定应对策略。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种订单量预测模型的示意图;
图2是本申请实施例提供的一种构建订单量预测模型的方法流程图;
图3是近5年内周一至周日铁路客运订单量的走势图;
图4是一种铁路客运订单量相关性示意图;
图5是另一种铁路客运订单量相关性示意图;
图6是本申请实施例提供的一种LSTM预测模型的结构示意图;
图7是三种预测模型的预测均方误差示意图;
图8是一种融合模型测试值和测试数据集的走势对比图;
图9是本申请实施例提供的一种订单量预测设备的结构示意图;
图10是一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种订单量预测方法。该方法可以基于订单量预测模型实现对待预测日期订单量的预测。如图1所示,该订单量预测模型包括第一预测子模型和第二预测子模型。将待预测日期输入订单量预测模型。订单量预测模型中的第一预测子模型输出待预测日期的第一预测值。第二预测子模型输出待预测日期的第二预测值。根据第一预测值和第二预测值的加权,可以得到待预测日期的预测订单量。
在一些实施例中,上述第一预测子模型和第二预测子模型可以为不同的预测子模型。本发明实施例的订单量预测模型融合了两种不同的预测子模型,可以使订单量预测模型的预测结果更加准确。
在一些实施例中,上述第一预测子模型可以为LSTM预测模型,第二预测子模型可以为lightGBM预测模型。可选的,订单量预测模型融合LSTM预测模型和lightGBM预测模型的预测结果,可以充分利用LSTM预测模型计算速度快、准确度高,以及lightGBM预测模型稳定性高的优点,提高预测结果的精度和鲁棒性。以下将结合附图对构建上述订单量预测模型的过程进行详细说明。
图2是本发明实施例提供的一种构建订单量预测模型的方法流程图。如图1所示,该方法包括:
101,获取历史订单量数据。本发明实施例中,获取第一预设时长范围内的历史订单量数据。根据第一预设时长范围内的历史订单量数据确定训练数据集和测试数据集。
可选的,第一预设时长可以根据实际需要设定。在一个具体示例中,可以选择业务系统1年、2年、3年、4年或者5年等时长范围内产生的历史订单量数据。对于获取的历史订单量数据可以随机划分成训练数据集和测试数据集。可选的,训练数据集和测试数据集可以按照一定比例划分。在一个示例中,训练数据集的数据量和测试数据集的数据量的比值为7:3或者其它可能的比例。
102,对历史订单量数据进行特征分析,确定时间窗口参数的取值范围。其中,时间窗口参数用于确定待预测日期的订单量和哪段时间的订单量具有较强相关性。进而可以根据时间窗口参数对应的历史订单量数据对待预测日期的订单量进行预测。
本申请实施例中,可以根据历史订单量数据的分布规律,确定时间窗口参数的取值范围。可选的,可以根据第一预设时长范围内的历史订单量数据的分布特征,确定Q时间的订单量与Q时间之前的X时间范围内的订单量的第一相关性。之后,可以根据所述第一相关性,确定时间窗口参数的取值范围。
以下将结合铁路客运订单量数据对确定时间窗口参数取值范围的过程进行说明。其中,图3是近5年内周一至周日铁路客运订单量的走势图。从图3中可以看出,周一至周日的车票订单量在近5年内走势几乎一致,说明铁路客运订单量呈现7天一个小周期的变化规律。假设订单序列:[x1,x2,…,xn,y]。其中,xn为第n天的订单量,y为第n+1天的订单量。则,y可能和[x11,x21,…,xn1]存在某种关系。
进一步,基于铁路客运订单量7天为一个小周期的特征,考虑到近5年来铁路客票预售期为30天的业务规则,分析y和y之前的30天时间范围内订单量的相关性。以2020/7/25/为例,假设其订单量为q,则可以计算2020/06/25日至2020/07/24每日订单量和q的相关性。如图4所示,“last30”代表2020/6/25的订单量,可以看出距离q时间越远的日期,其订单量和q的相关性就越小;并且每隔7天,相关性就稍微增大于前一天,之后再有所下降。
2020/7/25为周六,之后可以确定2020/7/25之前连续5个周六订单量的最大值、最小值、平均值和q的相关性。可选的,2020/7/25之前连续5个周六的日期分别为2020/07/18、2020/07/11、2020/07/04、2020/06/27和2020/06/20。计算2020/7/25之前连续两个周六(即2020/07/18和2020/07/11)订单量的最大值、最小值和平均值与q的相关性。然后计算连续三个周六(2020/07/18、2020/07/11和2020/07/04)订单量的最大值、最小值和平均值与q的相关性。以此类推,直至计算连续五个周六订单量的最大值、最小值和平均值与q的相关性。如图5所示,“last4_mean1”表示2020/07/18、2020/07/11、2020/07/04和2020/06/27日订单量的平均值,其对应的纵坐标为与q的相关性。结合图4和图5可以看出q虽然和last28的相关性小于0.9,但q和last4_mean1的相关性大于0.9,表明q和过去28天的订单量存在较强的相关性。
据此,设定预测第n+1天的订单量y需要参考的历史日期最大长度为7*4=28天。因此,预测第n+1天的订单量y,需要以[x1,x2,…,xlook_back]作为输入数据,且lookback≤28。由于从图3-图5的数据分布图中不能区分y值和其它统计指标之间的相关性强弱,因此可以在训练模型时,配合其它参数求解look_back的最佳取值。此处可以定义y和[x1,x2,…,xlook_back]的关系为:y~[x1,x2,…,xlook_back]且look_back≤28。
103,构建订单量预测模型的初始模型。可选的,构建订单量预测模型的初始模型包括构建第一预测子模型和第二预测子模型。在一些实施例中,第一预测子模型为为LSTM预测模型,第二预测子模型为lightGBM预测模型。
为了提高LSTM预测模型和lightGBM预测模型的训练速度和预测精度,本申请实施例对训练数据集和测试数据集进行归一化。现有技术中,通常将训练数据集和测试数据集当成一个整体进行归一化。但在实际工程应用中,部分测试数据集属于还未发生的数据,因此不支持像理论研究中一样对全体数据集进行归一化处理。因此,本申请实施例对训练数据集和测试数据集分别进行归一化处理。
可选的,对训练数据集进行归一化包括:确定训练数据集中的最大值和最小值;根据训练数据集中的最大值和最小值,对训练数据集中的各个数据进行归一化。
可选的,对测试数据集进行归一化包括:确定训练数据集中的最大值和最小值,以及确定测试数据集中的最大值和最小值。根据训练训练数据集中的最大值和最小值,以及测试数据集中的最大值和最小值,对测试数据集中的各个数据进行归一化。
假设训练数据集为[x1,x2,…xi,…,xt],测试数据集为[z1,z2,…,zj,…,zl]。t和l分别表示训练集和测试集序列最大长度,xmin和xmax分别为[x1,x2,…,xt]序列中的最大值和最小值,zmin和zmax分别为[z1,Z2,…,zj,…,zl]序列中的最大值和最小值。xi和zj归一化后分别得到x’i和z’j,则
对训练数据集和测试数据集完成归一化之后,构建LSTM预测模型和lightGBM预测模型。其中,LSTM预测模型和lightGBM预测模型的时间窗口参数取值相同。LSTM预测模型和lightGBM预测模型以时间窗口参数对应的历史订单量数据的特征预测待预测日期的订单量。可选的,时间窗口参数为look_back。在一个示例中,假设look_back为21时,则待预测日期的订单量可以根据前21天时间范围的订单量的特征进行预测。
图6是本申请实施例提供的一种LSTM预测模型的结构示意图。如图6所示,LSTM预测模型包括3层,分别为LSTM层、dropout层和dense(全连接)层。假设look_back=5。由于训练集数据较少,为了提高模型的鲁棒性,同时防止过拟合,采用dropout方法在学习的过程中随机删除神经元。深色标出的神经元表示在训练过程中会被删除,被删除的神经元将不再参与数据的传递,因此最终的输出结果y依赖于t-3、t-1和t+1时刻的输入。最后,再将经过随机删除后剩下的各时刻输出传递给一个全连接层,对输出的数据维度进行整理,得到LSTM预测模型的预测结果。
104,确定订单量预测模型的参数组合。本申请实施例中,可以利用自动调参算法确定所述订单量预测模型的参数组合。其中,所述参数组合包含时间窗口参数和所述订单量预测模型的超参数。可选的,在确定订单量预测模型的参数组合时,可以根据从上述时间窗口参数的取值范围内确定最优时间窗口参数。在本申请实施例中,确定订单量预测模型的参数组合可以包括:确定第一预测子模型的第一参数组合和确定第二预测子模型的第二参数参数。可选的,第一参数组合和第二参数组合包含的时间窗口参数相同。
在一个具体示例中,LSTM预测模型的参数组合包含时间窗口参数look_back和LSTM预测模型的超参数。可选的,LSTM预测模型的超参数可以包含LSTM单元内隐藏层尺寸input_units、Dropout层中删除神经元的比例dp_pnt和训练次数epochs中的一个或多个。当然,LSTM预测模型的超参数也可以根据实际需要包含其它可能的参数。进一步,lightGBM预测模型的参数组合可以包含实际窗口参数look_back和lightGBM预测模型的超参数。可选的,lightGBM预测模型的超参数可以包含树的最大深度max_depth、学习率learning_rate、每次迭代中随机选择特征的比例feature_fraction、叶子节点数num_leaves、一个叶子上数据的最小数量min_data_in_leaf、不进行重采样的情况下随机选择部分数据的比例bagging_fraction中的一个或多个。当然,lightGBM预测模型的超参数也可以根据实际需要包含其它可能的参数。可选的,LSTM预测模型和lightGBM预测模型的时间窗口参数look_back取值相同。
在一些实施例中,可以采用贝叶斯优化算法确定所述订单量预测模型的参数组合。即,采用贝叶斯优化算法分别确定第一预测子模型的参数组合,以及确定第二预测子模型的参数组合。
本申请实施例中,采用贝叶斯优化算法确定LSTM预测模型和lightGBM预测模型最优参数组合的步骤包括:
(1)确定目标函数。目标函数即为需要最小化的内容。本申请实施例中,目标函数为LSTM预测模型和lightGBM预测模型在训练数据集上的均方根误差RMSE。
(2)确定LSTM预测模型和lightGBM预测模型参数的搜索空间。搜索空间表示每个参数取值范围。其中,时间窗口参数的取值范围可以为步骤102中look_back的取值范围。
(3)构造替代函数并选择下一个超参数值进行评估的方法。
(4)根据优化过程中记录的历史RMSE,选择RMSE数值最小的超参数组合作为订单量预测模型的参数组合。
105,基于训练数据集对订单量预测模型进行训练。可选的,上述步骤104确定第一预测子模型和第二预测子模型的参数组合之后,利用训练数据集对订单量预测模型进行训练。可选的,可以根据训练数据集和第一参数组合对第一预测子模型进行训练;以及基于训练数据集和第二参数组合对第二预测子模型进行训练。可选的,第一预测子模型和第二预测子模型的训练过程可以同步进行。即,将训练数据输入订单量预测模型,第一预测子模型和第二预测子模型同时进行训练运算,以学习历史订单量数据的特征,达到输出待预测日期订单量的效果。
本申请实施例中,在对订单量预测模型进行训练过程中或者对订单量预测模型训练完成之后,验证订单量预测模型的预测精度是否达到期望值。可选的,可以将第一预测子模型输出的预测结果和实际订单量做差值,根据差值确定第一预测子模型的预测精度是否达到期望值。同理,可以将第二预测子模型的输出结果和实际订单量做差值,根据差值确定第二预测子模型的预测精度是否达到期望值。如果第一预测子模型和第二预测子模型的预测精度均达到期望值,则确定订单量预测模型的预测精度达到期望值。如果第一预测子模型和第二预测子模型中的任意一个未达到预测精度的期望值,则可以重新进行特征分析,确定时间窗口参数的取值范围。进一步,可以重新确定订单量预测模型的参数组合。
106,基于测试数据集对订单量预测模型进行验证,并进行预测结果融合。
本申请实施例中,在对订单量预测模型训练完成后,订单量预测模型具有对待预测日期的订单量进行预测的功能。之后,可以基于测试数据集对订单量预测模型进行验证。可选的,确定测试数据集中各测试数据对应的日期。将各测试数据对应的日期作为待预测日期,并通过订单量预测模型预测相应日期的订单量。其中,得到第一预测子模型的预测结果和第二预测子模型的预测结果。
可选的,基于测试数据集对订单量预测模型进行验证可以是:将第一预测子模型和第二预测子模型的预测结果分别和测试数据做差值;根据所述差值验证第一预测子模型和第二预测子模型的预测精度。
可选的,基于测试数据集对订单量预测模型进行验证可以是:对第一预测子模型的预测结果和第二预测子模型的预测结果进行加权。根据加权结果和测试数据之间的误差,验证订单量预测模型的预测精度。
在一些实施例中,可以根据加权结果和测试数据之间的误差确定第一预测子模型和第二预测子模型之间的加权权重。
在一个具体示例中,测试数据集为T=[T1,T2,…,Tn]。Tn为n时间对应的订单量。基于订单量预测模型,第一预测子模型和第二预测子模型输出的预测结果分别为h1和h2,h1和h2的加权为。其中,wi≥0,w1+w2=1,w1为h1的权重系数;w2为h2的权重系数。
根据下述公式计算测试数据集T和预测值集合H的均方误差R;
其中,Ht为基于所述订单量预测模型预测的与t时间对应的预测值;Tt为测试数据集中与t时间对应的测试数据。
将R取最小值时对应的w1、w2分别确定为所述第一预测子模型和第二预测子模型的加权权重。本申请实施例中,可以采用网格搜索方法确定w1、w2的最优组合。
本申请实施例的上述订单量预测模型,融合第一预测子模型和第二子模型。可选的,第一预测子模型可以为LSTM预测模型,第二预测子模型可以为lightGBM预测模型。通过融合多个不同的模型,可以提升机器学习的性能。从统计的观点看,相比于假设空间,训练数据比较有限。对同一份训练数据可能有几个不同的假设,针对相同的精确率,如果只选择其中一个假设,可能会带来误差。本申请实施例中的预测模型融合多个子模型,从而可以融合多个假设空间,降低预测误差风险。从计算角度看,当个学习器从不同的初始值开始计算,可能会导致局部最优,本申请实施例融合多个子模型可以降低这种风险。从可替代性方面来看,每一个假设都不可以代替真正的假设,把各个假设集成起来,会形成更精确的估计。
在一个示例中,基于上述步骤104,可以得到LSTM模型和lightGBM模型的最优参数组合,如表1所示。
表1LSTM和lightGBM模型最优参数组合
基于表1的参数组合,对测试数据集进行N轮计算,对比LSTM预测模型、lightGBM预测模型、LSTM和lightGBM融合模型的预测均方误差,其结果如图7所示。从图7中可以看出,时间窗口参数相同的前提下,LSTM预测模型的整体预测精度比lightGBM预测模型的预测精度更高。LSTM和lightGBM融合模型的RMSE为三者中最低,且更加平稳,模型鲁棒性和LSTM模型相比更强,预测效果最好。
图8是一种融合模型预测值和测试数据集的走势对比图。其中,图8中的融合模型为LSTM和lightGBM的融合模型。从图8中可以看出,虽然测试数据集的走势存在明显波动,但预测值(predict_value)和实际值(real_value)走势几乎保持一致,证明了本申请实施例的订单量预测方法具有较强的实用性。
本申请实施例还提供了一种订单量预测设备。如图9所示,该设备包括:确定模块11和预测模块12。其中,确定模块用于确定订单量预测模型;所述订单量预测模型包括第一预测子模型和第二预测子模型;所述预测模块,用于将待预测日期输入所述订单量预测模型;其中,所述订单量预测模型中的所述第一预测子模型输出所述待预测日期的第一预测值;所述第二预测子模型输出所述待预测日期的第二预测值;其中,根据所述第一预测值和所述第二预测值的加权,确定所述待预测日期的预测订单量。
在一些实施例中,所述设备还包括:模型构建模块13,用于构建所述订单量预测模型。可选的,模型构建模块13,具体用于根据第一预设时长范围内的历史订单量数据,确定训练数据集和测试数据集;构建订单量预测模型的初始模型,并确定订单量预测模型的参数组合;基于所述训练数据集和所述参数组合,对订单量预测模型进行训练;基于所述测试数据集对所述订单量预测模型的预测精度进行验证,并且确定第一预测子模型和第二预测子模型的加权权重。
可选的,模型构建模块13,还用于根据第一预设时长范围内的历史订单量数据的分布特征,确定Q时间的订单量与Q时间之前的X时间范围内的订单量的第一相关性;根据所述第一相关性,确定所述时间窗口参数的取值范围;其中,所述所时间窗口参数用于确定与所述Q时间相关的历史订单量数据;Q时间的预测订单量根据所述时间窗口参数对应的历史订单量数据确定。
可选的,模型构建模块13,确定第一预测子模型和第二预测子模型的加权权重,包括:基于所述订单量预测模型,对所述测试数据集中测试数据所对应日期的订单量进行预测,得到第一预测子模型的预测结果和所述第二预测子模型的预测结果;对所述第一预测子模型的预测结果和所述第二预测子模型的预测结果进行加权;根据所述加权结果和对应测试数据之间的误差,确定所述第一预测子模型和第二预测子模型的加权权重。
本申请实施例的上述订单量预测设备可以执行图1-图8所示实施例的方法。本实施例未详细描述的部分,可以参考对图1-图8所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图8所示实施例中的描述,在此不再赘述。
以上没描述了订单量预测设备的内部功能和结构。在一个可能的设计中,订单量预测设备所要实现的功能也可以在计算机设备中实现。如图10所示,该设备可以包括:处理器21和存储器22。其中,所述存储器22用于存储支持该设备执行上述图1-图8所示实施例中提供的订单量预测方法的程序,所述处理器21被配置为用于执行所述存储器22中存储的程序。其中,所述设备的结构中还可以包括通信接口23,用于该设备与其他设备比如处理设备等通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存上述订单量预测方法中所用的计算机软件指令,其包含用于执行上述图1-图8所示方法实施例中订单量预测方法所涉及的程序。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种订单量预测方法,其特征在于,包括:
确定订单量预测模型;所述订单量预测模型包括第一预测子模型和第二预测子模型;
将待预测日期输入所述订单量预测模型;其中,所述订单量预测模型中的所述第一预测子模型输出所述待预测日期的第一预测值;所述第二预测子模型输出所述待预测日期的第二预测值,具体的,所述第一预测子模型和所述第二预测子模型根据所述待预测日期之前的时间窗口参数内的订单量分布规律分别输出所述第一预测值和所述第二预测值,其中,所述分布规律包括:所述时间窗口参数内的订单量与所述待预测日期的订单量的相关性大于设定值,所述时间窗口参数内的订单量与所述待预测日期的订单量的相关性按照一定的子周期分布,并且待预测日期的订单量与子周期节点的相关性大于相应子周期内订单量的相关性;
其中,根据所述第一预测值和所述第二预测值的加权,确定所述待预测日期的预测订单量;
所述确定订单量预测模型,包括:
根据第一预设时长范围内的历史订单量数据,确定训练数据集和测试数据集;
构建订单量预测模型的初始模型,并确定订单量预测模型的参数组合;
基于所述训练数据集和所述参数组合,对订单量预测模型进行训练;
基于所述测试数据集对所述订单量预测模型的预测精度进行验证,并且确定第一预测子模型和第二预测子模型的加权权重;
所述确定订单量预测模型的参数组合,包括:确定所述第一预测子模型的第一参数组合以及确定所述第二预测子模型的第二参数组合;其中,所述第一参数组合和所述第二参数组合包含的时间窗口参数相同;
基于所述训练数据集和所述参数组合,对订单量预测模型进行训练,包括:根据所述训练数据集和所述第一参数组合对所述第一预测子模型进行训练;基于所述训练数据集和所述第二参数组合对所述第二预测子模型进行训练;
所述确定训练数据集和测试数据集之后,所述方法还包括:
根据所述训练数据集中的最大值和最小值,对所述训练数据集中的各个数据进行归一化;
根据所述训练数据集中的最大值和最小值,以及所述测试数据集中的最大值和最小值,对所述测试数据集中的各个数据进行归一化
所述确定订单量预测模型之前,所述方法还包括:
根据第一预设时长范围内的历史订单量数据的分布特征,确定Q时间的订单量与Q时间之前的X时间范围内的订单量的第一相关性;
根据所述第一相关性,确定所述时间窗口参数的取值范围;
其中,所述时间窗口参数用于确定与所述Q时间相关的历史订单量数据;Q时间的预测订单量根据所述时间窗口参数对应的历史订单量数据确定;
所述第一预测子模型为长短时记忆网络LSTM预测模型、第二预测子模型为光梯度提升机lightGBM预测模型。
2.根据权利要求1所述的方法,其特征在于,确定订单量预测模型的参数组合,包括:
利用自动调参算法确定所述订单量预测模型的参数组合;其中,所述参数组合包含时间窗口参数和所述订单量预测模型的超参数。
3.根据权利要求1所述的方法,其特征在于,确定第一预测子模型和第二预测子模型的加权权重,包括:
基于所述订单量预测模型,对所述测试数据集中测试数据所对应日期的订单量进行预测,得到第一预测子模型的预测结果和所述第二预测子模型的预测结果;
对所述第一预测子模型的预测结果和所述第二预测子模型的预测结果进行加权;
根据所述加权结果和对应测试数据之间的误差,确定所述第一预测子模型和第二预测子模型的加权权重。
4.根据权利要求3所述的方法,其特征在于,根据所述加权结果和对应测试数据之间的误差,确定所述第一预测子模型和第二预测子模型的加权权重,包括:
根据公式确定所述订单量预测模型的预测值集合H;
其中,wi≥0,w1+w2=1,h1为第一预测子模型的预测结果;h2为第二预测子模型的预测结果;w1为h1的权重系数;w2为h2的权重系数;
根据下述公式计算测试数据集T和预测值集合H的均方误差R;
其中,Ht为基于所述订单量预测模型预测的与t时间对应的预测值;Tt为测试数据集中与t时间对应的测试数据;
将所述R取最小值时对应的w1、w2分别确定为所述第一预测子模型和第二预测子模型的加权权重。
5.一种订单量预测设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。
6.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至4任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110646023.XA CN113379455B (zh) | 2021-06-10 | 2021-06-10 | 订单量预测方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110646023.XA CN113379455B (zh) | 2021-06-10 | 2021-06-10 | 订单量预测方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113379455A CN113379455A (zh) | 2021-09-10 |
CN113379455B true CN113379455B (zh) | 2024-02-09 |
Family
ID=77573691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110646023.XA Active CN113379455B (zh) | 2021-06-10 | 2021-06-10 | 订单量预测方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379455B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106741988A (zh) * | 2016-12-14 | 2017-05-31 | 中国航空工业集团公司上海航空测控技术研究所 | 一种基于物联网的飞机自主式保障系统与方法 |
CN107689008A (zh) * | 2017-06-09 | 2018-02-13 | 平安科技(深圳)有限公司 | 一种用户投保行为预测的方法及装置 |
CN108830645A (zh) * | 2018-05-31 | 2018-11-16 | 厦门快商通信息技术有限公司 | 一种访客流失预测方法及系统 |
CN109377301A (zh) * | 2018-08-27 | 2019-02-22 | 中国民航信息网络股份有限公司 | 一种基于航空订票行为数据的特征抽取方法 |
CN109598383A (zh) * | 2018-12-05 | 2019-04-09 | 携程旅游网络技术(上海)有限公司 | 出行目的的预测方法、系统、电子设备和存储介质 |
CN110276583A (zh) * | 2019-06-26 | 2019-09-24 | 武汉理工大学 | 一种智慧铁路物流港、信息处理系统及信息处理方法 |
CN110490365A (zh) * | 2019-07-12 | 2019-11-22 | 四川大学 | 一种基于多源数据融合预测网约车订单量的方法 |
CN110490635A (zh) * | 2019-07-12 | 2019-11-22 | 阿里巴巴集团控股有限公司 | 商户菜品交易预测及备餐方法及装置 |
EP3573068A1 (en) * | 2018-05-24 | 2019-11-27 | Siemens Healthcare GmbH | System and method for an automated clinical decision support system |
CN111178585A (zh) * | 2019-12-05 | 2020-05-19 | 国网浙江省电力有限公司杭州供电公司 | 基于多算法模型融合的故障接报量预测方法 |
CN111369070A (zh) * | 2020-03-13 | 2020-07-03 | 西安理工大学 | 一种基于包络线聚类的多模融合光伏功率预测方法 |
CN111612489A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 订单量的预测方法、装置及电子设备 |
-
2021
- 2021-06-10 CN CN202110646023.XA patent/CN113379455B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106741988A (zh) * | 2016-12-14 | 2017-05-31 | 中国航空工业集团公司上海航空测控技术研究所 | 一种基于物联网的飞机自主式保障系统与方法 |
CN107689008A (zh) * | 2017-06-09 | 2018-02-13 | 平安科技(深圳)有限公司 | 一种用户投保行为预测的方法及装置 |
EP3573068A1 (en) * | 2018-05-24 | 2019-11-27 | Siemens Healthcare GmbH | System and method for an automated clinical decision support system |
CN108830645A (zh) * | 2018-05-31 | 2018-11-16 | 厦门快商通信息技术有限公司 | 一种访客流失预测方法及系统 |
CN109377301A (zh) * | 2018-08-27 | 2019-02-22 | 中国民航信息网络股份有限公司 | 一种基于航空订票行为数据的特征抽取方法 |
CN109598383A (zh) * | 2018-12-05 | 2019-04-09 | 携程旅游网络技术(上海)有限公司 | 出行目的的预测方法、系统、电子设备和存储介质 |
CN111612489A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 订单量的预测方法、装置及电子设备 |
CN110276583A (zh) * | 2019-06-26 | 2019-09-24 | 武汉理工大学 | 一种智慧铁路物流港、信息处理系统及信息处理方法 |
CN110490365A (zh) * | 2019-07-12 | 2019-11-22 | 四川大学 | 一种基于多源数据融合预测网约车订单量的方法 |
CN110490635A (zh) * | 2019-07-12 | 2019-11-22 | 阿里巴巴集团控股有限公司 | 商户菜品交易预测及备餐方法及装置 |
CN111178585A (zh) * | 2019-12-05 | 2020-05-19 | 国网浙江省电力有限公司杭州供电公司 | 基于多算法模型融合的故障接报量预测方法 |
CN111369070A (zh) * | 2020-03-13 | 2020-07-03 | 西安理工大学 | 一种基于包络线聚类的多模融合光伏功率预测方法 |
Non-Patent Citations (4)
Title |
---|
Tian,LW et al.Stock price prediction basd on LSTM and LightGBM hybrid model.《Journal of supercomputing》.2022,第11768-11793. * |
Weng,TY et al.Supply chain sales forecasting based on lightGBM and LSTM combination model.《INDUSTRIAL MAAGEMENT&DATA SYSTEMS》.2021,第265-279页. * |
一种基于LSTM与LGBM的电力负荷预测算法;张旭东;钱仲文;沈思琪;石佳;逄金辉;;系统工程(第01期);第156-162页 * |
海军要地空袭规模预测模型;马新星;滕克难;侯学隆;;指挥与控制学报(第01期);第61-65页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113379455A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563706A (zh) | 一种基于lstm网络的多变量物流货运量预测方法 | |
CN111191841A (zh) | 一种电力负荷预测方法、装置、计算机设备及存储介质 | |
Aytac et al. | Characterization of demand for short life-cycle technology products | |
CN111027772A (zh) | 基于pca-dbilstm的多因素短期负荷预测方法 | |
CN106533750A (zh) | 一种云环境下非平稳型应用用户并发量的预测系统及方法 | |
CN110910004A (zh) | 一种多重不确定性的水库调度规则提取方法及系统 | |
CN110633859B (zh) | 一种两阶段分解集成的水文序列预测方法 | |
CN115114128A (zh) | 一种卫星健康状态评估系统及评估方法 | |
CN113469570A (zh) | 信息质量评价模型构建方法、装置、设备及存储介质 | |
CN108197762A (zh) | 碳期货价格预测方法、装置、计算机设备和存储介质 | |
Xu et al. | Copula-based high dimensional cross-market dependence modeling | |
CN117543537A (zh) | 一种代理购电用户电量预测方法、装置、存储介质 | |
CN113379455B (zh) | 订单量预测方法和设备 | |
CN112766503B (zh) | 基于关键层回滚机制的卷积神经网络模型容错方法 | |
WO2022222230A1 (zh) | 基于机器学习的指标预测方法、装置、设备及存储介质 | |
CN112184320B (zh) | 一种基于ai的商业网站运维数据的智能运营检测和运维的方法 | |
Kotenko et al. | Formation of Indicators for Assessing Technical Reliability of Information Security Systems | |
CN115204501A (zh) | 企业评估方法、装置、计算机设备和存储介质 | |
CN115049458A (zh) | 基于用户人群建模的商品推送方法及装置、介质、设备 | |
CN112787882A (zh) | 一种物联网边缘流量预测方法、装置及设备 | |
CN116957166B (zh) | 一种基于鸿蒙系统的隧道交通情况预测方法及系统 | |
CN110288364A (zh) | 一种基于XGBoost模型的二手车定价方法,装置及系统 | |
Yu et al. | Developing and assessing an intelligent forex rolling forecasting and trading decision support system for online e‐service | |
CN112104467B (zh) | 割接操作风险评级方法、装置及计算设备 | |
CN117828545A (zh) | 一种续费率预测方法、系统、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |