CN110457867A

CN110457867A - 一种基于机器学习的时间序列数据填补与还原方法

Info

Publication number: CN110457867A
Application number: CN201910947754.0A
Authority: CN
Inventors: 郑泽宇; 温苗苗; 尚文祥; 李鸽; 李娜; 何治; 胡海滨; 何辉辉; 石磊
Original assignee: Hangzhou Zhiyi Technology Co Ltd
Current assignee: Hangzhou Zhiyi Technology Co Ltd
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2019-11-15
Anticipated expiration: 2039-10-08
Also published as: CN110457867B

Abstract

本发明涉及计算机时间序列数据分析与预测技术领域，具体涉及一种基于机器学习的时间序列数据填补与还原方法。使用基于领域的中位数+均值填充法，填充缺失值；通过线性规则，估算期望采样时刻的真实值；检测时间序列的波峰与波谷，平滑异常值；以采集的数十万条真实数据为样本，设计和生成时序特征，以真实结果为标签，基于极速梯度提升决策树(XGBoost)的机器学习模型进行训练，用于对海量未知数据进行预测。本发明解决了特定时间序列数据的缺失值多、波动性大、误差累积等问题，有效提高了数据填补与还原的准确率；并且较好地控制了机器学习模型的复杂度，能在小时级内完成上亿条数据记录的填补与还原，具有较强的实用价值。

Description

一种基于机器学习的时间序列数据填补与还原方法

技术领域

本发明涉及计算机时间序列数据分析与预测技术领域，具体涉及一种基于机器学习的时间序列数据填补与还原方法。

背景技术

当前，信息技术被广泛应用于各行各业并不断产生出各类相关数据，数据的采集和挖掘技术也随之兴起，为相关行业的管理决策提供强有力的支持，提高经济和社会效益。

数据采集是一种从数据源收集、识别和选取数据的过程。数据采集可以分为实时采集和间隔采集。实时采集指的是在数据存在期间对其进行采集。间隔采集是指在等间隔的时间点上对数据进行采集。理想的实时采集可以最大程度保留原始数据，从而为进一步的数据挖掘提供有效力保证。然而，实时采集要求采集不间断在线，对采集设备和系统的实时性和稳定性要求高（目前的视频监控系统为典型的实时采集）。对于无法实现实时采集的数据，间隔采集是一种有效的替代方法，通过适当的方法对间隔采集所得数据进行还原，可以最大程度模拟实时采集的效果，同时降低对采集系统的要求。

在数据的间隔采集中，一类常见的数据类型为滑动时间窗口累计值。例如，给定时间周期内的商品销售量（某些电商网站展示的是商品的近N天累计销量，为了推算商品的日销量，理论上需每天凌晨0点整采集一次商品的近N天累计销量）、给定时间周期内的用电量等。从采集的粗粒度时间周期内的数据累计值还原出细粒度时间片的数据当期值，是此类数据采集的重要技术。例如，从七天累计销量还原出日销量；从月用电量还原出日用电量等等。在理想条件下，间隔采集可以准确无误采集到每个指定采集时间点上相关数据，此时由累计值还原当期值是简便易行的（例如，每日定时采集用户的30日累计用电量，则前后两日的差值即为一日的用电量当期值）。但在现实环境中，间隔采集却常常遇到采集不准确甚至采集缺失的困难，例如，无法在计划的时间点采集数据，采集设备故障等等；并且由于某些特定场景下的时间序列数据波动性大，一旦出现采集不准确、采集缺失的问题，将带来非常大的累计误差。

目前，数据分析领域中针对此类问题的解决方案较少，并且存在以下不足：

1、简单的采取均值填补方法、基于数据关联和基于密度的填补方法，会因数据的波动性而造成数据还原的严重失偏，影响所采集的数据可用性；

2、业界基于深度学习的数据还原方法，又容易存在模型过拟合、训练和预测耗时长，难以实用于大规模数据的填补和还原。

发明内容

本发明的目的是为了解决上述问题，提供一种基于机器学习的时间序列数据填补与还原方法。本发明的方法是针对上述数据间隔采集中的问题，在进行深入研究后，提供一种基于机器学习的时间序列数据填补及还原方法，该方法为后期的数据分析与决策支持提供高质量的可靠数据。

为了达到上述发明目的，本发明采用以下技术方案：

一种基于机器学习的时间序列数据填补与还原方法，该方法步骤如下：

S1、采集时间序列数据，包括不同物品、不同采样时刻的滑动窗口累计值；

S2、收集真实的各采样间隔内的累计值；

S3、使用基于领域的中位数+均值法，填充缺失值；

S4、通过线性规则，估算期望采样时刻的真实采样值；

S5、检测时间序列的波峰与波谷，平滑异常值；

S6、以采集的真实数据为样本，设计和生成时序特征，以真实数据为标签，基于极速梯度提升决策树的机器学习模型进行训练，用于对未知数据进行预测。

作为进一步的优选方案，步骤S1中总样本数在10万~100万之间。

作为进一步的优选方案，步骤S3，在填充缺失值过程中，

如果时间序列中数据缺失率较大或最长连续缺失间隔>=滑动窗口时，不做填充，直接丢弃此物品的所有样本；

否则，认定缺失率较小，则取缺失时刻t的前后相邻区域数据的中位数median和均值mean，相邻区域为[t-N/4，t+N/4]，填充值为fill_value =α*median+(1-α)*mean；

N为滑动时间窗口；

t为缺失时刻；

fill_value为填充值；

median为中位数；

mean为均值；

α为系数。

作为进一步的优选方案，判断缺失率是否较大的标准为缺失率>10%。

作为进一步的优选方案，所述α取值为0.75。

作为进一步的优选方案，步骤S4中，假设商品的月销量在每个采样间隔内均匀变化，根据采样时刻t前一个时刻的采样值S[t-β]和后一个时刻的采样值S[t+λ]，来估算期望采样时刻t的真实值S'(t)，具体为：

S'(t)=(λ*S[t-β]+β*S[t+λ])/(β+λ)；

采样时刻t前一个时刻的采样值S[t-β]；

采样时刻t后一个时刻的采样值S[t+λ]；

λ为与前一时刻的采用时间间隔；

β为与后一时刻的采样时间间隔。

作为进一步的优选方案，步骤S5中，检测波峰与波谷，采用偏离领域中位数的比例来计算；即：

λ=d(n)-MEDIAN(n-N/3，n+N/3)/STD(n-N/3，n+N/3)；

意为，当前日销量d(n)与前后N/3天的日销量中位数之差，除以前后N/3天的日销量标准差；

d(n)当前日销量；

N为滑动时间窗口；

λ为波峰与波谷。

作为进一步的优选方案，如果|λ|>3，且每隔一个周期的偏离度均大于3，说明是周期性异常波动，则从第二个周期开始需对日销量进行平滑。

作为进一步的优选方案，平滑方式为：

如果λ>3，则d(n)=MEDIAN(n-N/3,n+N/3)+3*STD(n-N/3,n+N/3)；

如果λ<-3，则d(n)=MEDIAN(n-N/3,n+N/3)-3*STD(n-N/3,n+N/3)。

本发明与现有技术相比，有益效果是：

1、与目前简单的采取均值填补方法、基于数据关联和基于密度的填补方法相比，本发明精心设计的填充缺失值、估算真实采样值、平滑异常值等数据预处理流程，有效降低了数据噪音和累计误差，有力地提高了XGBoost机器学习模型的预测效果上限；

2、业界基于深度学习的数据还原方法，容易存在模型过拟合、训练和预测耗时长，难以实用于大规模数据的填补和还原。本发明设计的时序特征有效且实用，降低了模型的预测误差；控制了模型的复杂度，使得模型不易过拟合、泛化能力强、训练和预测速度快；在具体的实施应用中，采用基于Spark部署XGBoost分布式预测模型，可在小时级时间内完成亿级商品的日销量数据预测，在海量数据集上相比于目前业界的深度学习更加实用。

附图说明

图1是本发明的时间序列数据样例；

图2是本发明未经数据预处理时，计算出的商品日销量与真实的商品日销量对比；

图3是本发明基于机器学习的时间序列数据填补与还原流程。

具体实施方式

下面通过具体实施例对本发明的技术方案作进一步描述说明。

如果无特殊说明，本发明的实施例中所采用的方法，均为本领域的常规方法。

本发明提供了一种基于机器学习的时间序列数据填补与还原方法，具体的，该方法步骤如下：

假设：

滑动时间窗口为N（量纲：天/小时/分钟，以L表示）；采样时间间隔为L，每个采样时刻采集到的数据累计值为T(i)。

以某电商网站为例，已知商品月销量为最近30天的销量累计值，为了计算商品的日销量，正常情况下需每天采集一次商品的月销量值，则N=30天，L=1天，从第1~m天每天所采集的商品月销量值分别为T(1)、T(2)、……、T(m)。

为了推算日销量，以d(1)、d(2)、……、d(m)分别表示每天的商品日销量，则有如下关系：

① T(n) = d(1) + d(2) + …… + d(n)，if 1 <= n <= N；

② T(n) = d(n-N+1) + d(n-N+2) + …… + d(n)，if n > N。

因此可得：

③ d(n) = T(n) - T(n-1)，if 1 <= n <= N；

④ d(n) = T(n) - T(n-1) + d(n-N)，if n > N。

实现的具体步骤如下：

S2、收集真实的各采样间隔内的累计值；

S3、使用基于领域的中位数+均值法，填充缺失值；

S4、通过线性规则，估算期望采样时刻的真实采样值；

S5、检测时间序列的波峰与波谷，平滑异常值；

S6、以采集的真实商品月销量数据为样本，设计和生成时序特征，以真实日销量为标签，基于极速梯度提升决策树的机器学习模型进行建模训练，用于对未知商品的日销量进行预测。

S1、采集时间序列数据，包括不同物品、不同采样时刻的滑动窗口累计值；总样本数在10万~100万之间。例如，对于某电商网站，采集某些店铺内商品在过去一年内，每天凌晨0点左右时的月销量。

S2、收集真实的各采样间隔内的累计值；例如，从电商网站后台某些店铺的管理系统中，获取这些商品过去一年内，每天的真实日销量。（因为只能取到少数几家店铺的真实日销量，需基于这些真实数据建模，根据月销量来预测其他所有店铺的商品日销量。）

S3、使用基于领域的中位数+均值法，填充缺失值；由于数据采集装置的故障、网络传输障碍、物品反复上下架等原因，导致时间序列中常存在数据缺失的情况。

如果时间序列中数据缺失率较大（缺失率>10%）或最长连续缺失间隔>=滑动窗口时，不做填充，直接丢弃此物品的所有样本；

N为滑动时间窗口；

t为缺失时刻；

fill_value为填充值；

median为中位数；

mean为均值；

α为系数。

若仅以均值填充，则因时间序列的某些波动较大导致误差较大；若仅以中位数填充，则当波动不太大时又不够精确。因此，在本发明中，α取值为0.75。

S4、通过线性规则，估算期望采样时刻的真实采样值；

理想情况下，应在期望的采样时刻进行采样，比如每天凌晨0点采样商品的月销量值。但由于商品很多、资源有限、网络速度不稳定，只能在0点整对小部分商品的月销量进行采样，大部分商品的采样时刻都无法在固定时刻进行采样。

为了简化过程，假设商品的月销量在每个采样间隔内均匀变化，根据采样时刻t前一个时刻的采样值S[t-β]和后一个时刻的采样值S[t+λ]，来估算期望采样时刻t的真实值S'(t)，具体为：

S'(t)=(λ*S[t-β]+β*S[t+λ])/(β+λ)；

采样时刻t前一个时刻的采样值S[t-β]；

采样时刻t后一个时刻的采样值S[t+λ]；

λ为与前一时刻的采用时间间隔；

β为与后一时刻的采样时间间隔。

S5、检测时间序列的波峰与波谷，平滑异常值；

由于滑动时间窗口的特殊性，如果时间序列出现较大波动（例如商品大促销、用电高峰），且采样时刻存在偏差，则计算出的预测值将出现周期性的波动，使得误差累计值会不断成倍累积。因此，需检测出时间序列的波峰与波谷，并根据周期性判断是正常值或异常值。

检测波峰与波谷，采用偏离领域中位数的比例来计算；即：

λ=d(n)-MEDIAN(n-N/3，n+N/3)/STD(n-N/3，n+N/3)；

d(n)当前日销量；

N为滑动时间窗口；

λ为波峰与波谷。

S6、以采集的数十万条真实商品月销量数据为样本，设计和生成时序特征，以真实日销量为标签，基于极速梯度提升决策树(XGBoost)的机器学习模型进行训练，用于对未知商品的日销量进行预测。图3是本发明基于机器学习的时间序列数据填补与还原流程。

我们从电商网站后台的店铺管理系统中，导出了几家店铺的商品真实日销量数据，作为机器学习模型的标签(Label)；从采集的商品月销量数据库中，取出这几家店铺的商品每日的月销量数据。根据前文提到的方法，经过填充缺失值、估算期望采样时刻的真实采样值、平滑异常值等数据预处理步骤，可以极大地降低数据噪音。

对于第一个滑动时间窗口内的样本，因为不存在累积误差，可直接根据公式③来计算商品日销量；对于第一个滑动时间窗口之后的样本，因为存在累积误差，需要在数据预处理之后建模预测。根据电商网站的商品特性，设计和生成了以下特征：

a) 采集的销量特征群：第n天采集的月销量、第(n-1)天采集的月销量、计算出的第(n- N)天的日销量、第n天与第(n-1)天采集的月销量之差；

b) 估算的销量特征群：估算的第n天0时的月销量、估算的第(n-1)天0时的月销量、估算的第(n - N)天的日销量、第n天与第(n-1)天估算的月销量之差；

c) 平滑后的销量特征群：平滑后的第n天0时的月销量、平滑后的第(n-1)天0时的月销量、平滑后的第(n - N)天的日销量、第n天与第(n-1)天平滑的月销量之差；

d) 商品价格特征群：第n天的商品价格、第n天与第(n-1)天的商品价格之差、第n天与第(n-1)天的商品降价比例；

e) 时间特征群：第n天是第几个采集周期、当天是否为周末、当天是否为双11、双12、618等大促日。

完成特征的生产后，即可使用XGBoost进行建模训练。XGBoost是一种基于梯度提升决策树的机器学习模型，具有预测精准度高、训练与预测速度快、不易过拟合、对分布式支持友好等优势，不仅在国内外众多机器学习和数据挖掘竞赛中最多次夺得冠军，并广泛应用于企业级生产环境中。

值得注意的是，在某些业务场景下，我们可能希望预测值是有偏的。比如对于商品日销量，我们宁可预测的多、不可预测的少。这时需修改XGBoost模型的损失函数，将默认的MSE（Mean Squared Error，平均误差平和）损失函数，修改为加权的MSE损失函数，生成XGBoost模型的gradient和hessian数值矩阵：

a, b = 2, 1

def loss(y_truth, y_pred):

grad = [2*a*(pred - truth) if pred < truth else 2*b*(pred - truth) forpred, truth in zip(y_pred, y_truth)]

hess = [2*a if pred < truth else 2*b for pred, truth in zip(y_pred, y_truth)]

return grad, hess

完成损失函数的定义后，即可开始训练模型、评估模型准确度。训练过程中，使用了GridSearch来搜索最优模型参数组合，使用了K折交叉验证来评估模型准确度，避免模型陷入过拟合。为了兼顾训练和预测速度，使用了较浅的树深度(max_depth)和不多的树棵数(n_estimators)。最终极大地降低了训练和预测误差，并通过分布式Spark平台部署到生产环境中，每日可对亿级别的商品日销量数据进行填补和还原。

本发明根据业务场景的特殊要求，研究了XGBoost机器学习模型的损失函数改造方法，调整为加权MSE损失函数，使得同等误差条件下预测值偏大，降低了日销量预测值偏低的数据比例。

本发明设计的时序特征有效且实用，降低了模型的预测误差；控制了模型的复杂度，使得模型不易过拟合、泛化能力强、训练和预测速度快；基于Spark部署XGBoost分布式预测模型，可在小时级时间内完成亿级商品的日销量数据预测，在海量数据集上相比于深度学习更加实用。

如图1所示，是本发明的时间序列数据样例图，可见第一个滑动时间窗口（30天）内，计算出的商品日销量与真实日销量，误差不太大、可接受；第一个滑动时间窗口（30天）之后，计算出的商品日销量与真实日销量，误差越来越大，需要进行填补与还原。

图2是本发明（未经数据预处理）计算出的商品日销量与真实的商品日销量对比。

可见此商品第一天的销量很高，但采样时刻不固定导致每隔一个时间窗口（30天），商品日销量会呈现周期性的波峰与波谷，此为异常值。

本发明解决了特定时间序列数据的缺失值多、波动性大、误差累积等问题，有效提高了数据填补与还原的准确率；并且较好地控制了机器学习模型的复杂度，能在小时级内完成上亿条数据记录的填补与还原，具有较强的实用价值。

上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于机器学习的时间序列数据填补与还原方法，其特征在于，该方法步骤如下：

S2、收集真实的各采样间隔内的累计值；

S3、使用基于领域的中位数+均值法，填充缺失值；

S4、通过线性规则，估算期望采样时刻的真实采样值；

S5、检测时间序列的波峰与波谷，平滑异常值；

S6、以采集的真实数据为样本，设计和生成时序特征，以真实结果为标签，基于极速梯度提升决策树的机器学习模型进行建模训练，根据训练模型对未知数据进行预测。

2.根据权利要求1所述的基于机器学习的时间序列数据填补与还原方法，其特征在于，步骤S1中总样本数在10万~100万之间。

3.根据权利要求1所述的基于机器学习的时间序列数据填补与还原方法，其特征在于，步骤S3，在填充缺失值过程中，

N为滑动时间窗口；

t为缺失时刻；

fill_value为填充值；

median为中位数；

mean为均值；

α为系数。

4.根据权利要求3所述的基于机器学习的时间序列数据填补与还原方法，其特征在于，判断缺失率是否较大的标准为缺失率>10%。

5.根据权利要求3所述的基于机器学习的时间序列数据填补与还原方法，其特征在于，所述α取值为0.75。

6.根据权利要求1所述的基于机器学习的时间序列数据填补与还原方法，其特征在于，步骤S4中，假设商品的月销量在每个采样间隔内均匀变化，根据采样时刻t前一个时刻的采样值S[t-β]和后一个时刻的采样值S[t+λ]，来估算期望采样时刻t的真实值S'(t)，具体为：

S'(t)=(λ*S[t-β]+β*S[t+λ])/(β+λ)；

采样时刻t前一个时刻的采样值S[t-β]；

采样时刻t后一个时刻的采样值S[t+λ]；

λ为与前一时刻的采用时间间隔；

β为与后一时刻的采样时间间隔。

7.根据权利要求1所述的基于机器学习的时间序列数据填补与还原方法，其特征在于，步骤S5中，检测波峰与波谷，采用偏离领域中位数的比例来计算；即：

λ=d(n)-MEDIAN(n-N/3，n+N/3)/STD(n-N/3，n+N/3)；

d(n)当前日销量；

N为滑动时间窗口；

λ为波峰与波谷。

8.根据权利要求7所述的基于机器学习的时间序列数据填补与还原方法，其特征在于，

如果|λ|>3，且每隔一个周期的偏离度均大于3，说明是周期性异常波动，则从第二个周期开始需对日销量进行平滑。

9.根据权利要求7所述的基于机器学习的时间序列数据填补与还原方法，其特征在于，平滑方式为：

如果λ>3，则d(n)=MEDIAN(n-N/3,n+N/3)+3*STD(n-N/3,n+N/3)；

如果λ<-3，则d(n)=MEDIAN(n-N/3,n+N/3)-3*STD(n-N/3,n+N/3)。