CN110457867B - 一种基于机器学习的时间序列数据填补与还原方法 - Google Patents

一种基于机器学习的时间序列数据填补与还原方法 Download PDF

Info

Publication number
CN110457867B
CN110457867B CN201910947754.0A CN201910947754A CN110457867B CN 110457867 B CN110457867 B CN 110457867B CN 201910947754 A CN201910947754 A CN 201910947754A CN 110457867 B CN110457867 B CN 110457867B
Authority
CN
China
Prior art keywords
time
value
data
sampling
filling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910947754.0A
Other languages
English (en)
Other versions
CN110457867A (zh
Inventor
郑泽宇
温苗苗
尚文祥
李鸽
李娜
何治
胡海滨
何辉辉
石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhiyi Technology Co ltd
Original Assignee
Hangzhou Zhiyi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhiyi Technology Co ltd filed Critical Hangzhou Zhiyi Technology Co ltd
Priority to CN201910947754.0A priority Critical patent/CN110457867B/zh
Publication of CN110457867A publication Critical patent/CN110457867A/zh
Application granted granted Critical
Publication of CN110457867B publication Critical patent/CN110457867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及计算机时间序列数据分析与预测技术领域,具体涉及一种基于机器学习的时间序列数据填补与还原方法。使用基于领域的中位数+均值填充法,填充缺失值;通过线性规则,估算期望采样时刻的真实值;检测时间序列的波峰与波谷,平滑异常值;以采集的数十万条真实数据为样本,设计和生成时序特征,以真实结果为标签,基于极速梯度提升决策树(XGBoost)的机器学习模型进行训练,用于对海量未知数据进行预测。本发明解决了特定时间序列数据的缺失值多、波动性大、误差累积等问题,有效提高了数据填补与还原的准确率;并且较好地控制了机器学习模型的复杂度,能在小时级内完成上亿条数据记录的填补与还原,具有较强的实用价值。

Description

一种基于机器学习的时间序列数据填补与还原方法
技术领域
本发明涉及计算机时间序列数据分析与预测技术领域,具体涉及一种基于机器学习的时间序列数据填补与还原方法。
背景技术
当前,信息技术被广泛应用于各行各业并不断产生出各类相关数据,数据的采集和挖掘技术也随之兴起,为相关行业的管理决策提供强有力的支持,提高经济和社会效益。
数据采集是一种从数据源收集、识别和选取数据的过程。数据采集可以分为实时采集和间隔采集。实时采集指的是在数据存在期间对其进行采集。间隔采集是指在等间隔的时间点上对数据进行采集。理想的实时采集可以最大程度保留原始数据,从而为进一步的数据挖掘提供有效力保证。然而,实时采集要求采集不间断在线,对采集设备和系统的实时性和稳定性要求高(目前的视频监控系统为典型的实时采集)。对于无法实现实时采集的数据,间隔采集是一种有效的替代方法,通过适当的方法对间隔采集所得数据进行还原,可以最大程度模拟实时采集的效果,同时降低对采集系统的要求。
在数据的间隔采集中,一类常见的数据类型为滑动时间窗口累计值。例如,给定时间周期内的商品销售量(某些电商网站展示的是商品的近N天累计销量,为了推算商品的日销量,理论上需每天凌晨0点整采集一次商品的近N天累计销量)、给定时间周期内的用电量等。从采集的粗粒度时间周期内的数据累计值还原出细粒度时间片的数据当期值,是此类数据采集的重要技术。例如,从七天累计销量还原出日销量;从月用电量还原出日用电量等等。在理想条件下,间隔采集可以准确无误采集到每个指定采集时间点上相关数据,此时由累计值还原当期值是简便易行的(例如,每日定时采集用户的30日累计用电量,则前后两日的差值即为一日的用电量当期值)。但在现实环境中,间隔采集却常常遇到采集不准确甚至采集缺失的困难,例如,无法在计划的时间点采集数据,采集设备故障等等;并且由于某些特定场景下的时间序列数据波动性大,一旦出现采集不准确、采集缺失的问题,将带来非常大的累计误差。
目前,数据分析领域中针对此类问题的解决方案较少,并且存在以下不足:
1、简单的采取均值填补方法、基于数据关联和基于密度的填补方法,会因数据的波动性而造成数据还原的严重失偏,影响所采集的数据可用性;
2、业界基于深度学习的数据还原方法,又容易存在模型过拟合、训练和预测耗时长,难以实用于大规模数据的填补和还原。
发明内容
本发明的目的是为了解决上述问题,提供一种基于机器学习的时间序列数据填补与还原方法。本发明的方法是针对上述数据间隔采集中的问题,在进行深入研究后,提供一种基于机器学习的时间序列数据填补及还原方法,该方法为后期的数据分析与决策支持提供高质量的可靠数据。
为了达到上述发明目的,本发明采用以下技术方案:
一种基于机器学习的时间序列数据填补与还原方法,该方法步骤如下:
S1、采集时间序列数据,包括不同物品、不同采样时刻的滑动窗口累计值;
S2、收集真实的各采样间隔内的累计值;
S3、使用基于领域的中位数+均值法,填充缺失值;
S4、通过线性规则,估算期望采样时刻的真实采样值;
S5、检测时间序列的波峰与波谷,平滑异常值;
S6、以采集的真实数据为样本,设计和生成时序特征,以真实数据为标签,基于极速梯度提升决策树的机器学习模型进行训练,用于对未知数据进行预测。
作为进一步的优选方案,步骤S1中总样本数在10万~100万之间。
作为进一步的优选方案,步骤S3,在填充缺失值过程中,
如果时间序列中数据缺失率较大或最长连续缺失间隔>=滑动窗口时,不做填充,直接丢弃此物品的所有样本;
否则,认定缺失率较小,则取缺失时刻t的前后相邻区域数据的中位数median和均值mean,相邻区域为[t-N/4,t+N/4],填充值为fill_value =α*median+(1-α)*mean;
N为滑动时间窗口;
t为缺失时刻;
fill_value为填充值;
median为中位数;
mean为均值;
α为系数。
作为进一步的优选方案,判断缺失率是否较大的标准为缺失率>10%。
作为进一步的优选方案,所述α取值为0.75。
作为进一步的优选方案,步骤S4中,假设商品的月销量在每个采样间隔内均匀变化,根据采样时刻t前一个时刻的采样值S[t-β]和后一个时刻的采样值S[t+λ],来估算期望采样时刻t的真实值S'(t),具体为:
S'(t)=(λ*S[t-β]+β*S[t+λ])/(β+λ);
采样时刻t前一个时刻的采样值S[t-β];
采样时刻t后一个时刻的采样值S[t+λ];
λ为与前一时刻的采用时间间隔;
β为与后一时刻的采样时间间隔。
作为进一步的优选方案,步骤S5中,检测波峰与波谷,采用偏离领域中位数的比例来计算;即:
λ=d(n)-MEDIAN(n-N/3,n+N/3)/STD(n-N/3,n+N/3);
意为,当前日销量d(n)与前后N/3天的日销量中位数之差,除以前后N/3天的日销量标准差;
d(n)当前日销量;
N为滑动时间窗口;
λ为波峰与波谷。
作为进一步的优选方案,如果|λ|>3,且每隔一个周期的偏离度均大于3,说明是周期性异常波动,则从第二个周期开始需对日销量进行平滑。
作为进一步的优选方案,平滑方式为:
如果λ>3,则d(n)=MEDIAN(n-N/3,n+N/3)+3*STD(n-N/3,n+N/3);
如果λ<-3,则d(n)=MEDIAN(n-N/3,n+N/3)-3*STD(n-N/3,n+N/3)。
本发明与现有技术相比,有益效果是:
1、与目前简单的采取均值填补方法、基于数据关联和基于密度的填补方法相比,本发明精心设计的填充缺失值、估算真实采样值、平滑异常值等数据预处理流程,有效降低了数据噪音和累计误差,有力地提高了XGBoost机器学习模型的预测效果上限;
2、业界基于深度学习的数据还原方法,容易存在模型过拟合、训练和预测耗时长,难以实用于大规模数据的填补和还原。本发明设计的时序特征有效且实用,降低了模型的预测误差;控制了模型的复杂度,使得模型不易过拟合、泛化能力强、训练和预测速度快;在具体的实施应用中,采用基于Spark部署XGBoost分布式预测模型,可在小时级时间内完成亿级商品的日销量数据预测,在海量数据集上相比于目前业界的深度学习更加实用。
附图说明
图1是本发明的时间序列数据样例;
图2是本发明未经数据预处理时,计算出的商品日销量与真实的商品日销量对比;
图3是本发明基于机器学习的时间序列数据填补与还原流程。
具体实施方式
下面通过具体实施例对本发明的技术方案作进一步描述说明。
如果无特殊说明,本发明的实施例中所采用的方法,均为本领域的常规方法。
本发明提供了一种基于机器学习的时间序列数据填补与还原方法,具体的,该方法步骤如下:
假设:
滑动时间窗口为N(量纲:天/小时/分钟,以L表示);采样时间间隔为L,每个采样时刻采集到的数据累计值为T(i)。
以某电商网站为例,已知商品月销量为最近30天的销量累计值,为了计算商品的日销量,正常情况下需每天采集一次商品的月销量值,则N=30天,L=1天,从第1~m天每天所采集的商品月销量值分别为T(1)、T(2)、……、T(m)。
为了推算日销量,以d(1)、d(2)、……、d(m)分别表示每天的商品日销量,则有如下关系:
① T(n) = d(1) + d(2) + …… + d(n),if 1 <= n <= N;
② T(n) = d(n-N+1) + d(n-N+2) + …… + d(n),if n > N。
因此可得:
③ d(n) = T(n) - T(n-1),if 1 <= n <= N;
④ d(n) = T(n) - T(n-1) + d(n-N),if n > N。
实现的具体步骤如下:
S1、采集时间序列数据,包括不同物品、不同采样时刻的滑动窗口累计值;
S2、收集真实的各采样间隔内的累计值;
S3、使用基于领域的中位数+均值法,填充缺失值;
S4、通过线性规则,估算期望采样时刻的真实采样值;
S5、检测时间序列的波峰与波谷,平滑异常值;
S6、以采集的真实商品月销量数据为样本,设计和生成时序特征,以真实日销量为标签,基于极速梯度提升决策树的机器学习模型进行建模训练,用于对未知商品的日销量进行预测。
S1、采集时间序列数据,包括不同物品、不同采样时刻的滑动窗口累计值;总样本数在10万~100万之间。例如,对于某电商网站,采集某些店铺内商品在过去一年内,每天凌晨0点左右时的月销量。
S2、收集真实的各采样间隔内的累计值;例如,从电商网站后台某些店铺的管理系统中,获取这些商品过去一年内,每天的真实日销量。(因为只能取到少数几家店铺的真实日销量,需基于这些真实数据建模,根据月销量来预测其他所有店铺的商品日销量。)
S3、使用基于领域的中位数+均值法,填充缺失值;由于数据采集装置的故障、网络传输障碍、物品反复上下架等原因,导致时间序列中常存在数据缺失的情况。
如果时间序列中数据缺失率较大(缺失率>10%)或最长连续缺失间隔>=滑动窗口时,不做填充,直接丢弃此物品的所有样本;
否则,认定缺失率较小,则取缺失时刻t的前后相邻区域数据的中位数median和均值mean,相邻区域为[t-N/4,t+N/4],填充值为fill_value =α*median+(1-α)*mean;
N为滑动时间窗口;
t为缺失时刻;
fill_value为填充值;
median为中位数;
mean为均值;
α为系数。
若仅以均值填充,则因时间序列的某些波动较大导致误差较大;若仅以中位数填充,则当波动不太大时又不够精确。因此,在本发明中,α取值为0.75。
S4、通过线性规则,估算期望采样时刻的真实采样值;
理想情况下,应在期望的采样时刻进行采样,比如每天凌晨0点采样商品的月销量值。但由于商品很多、资源有限、网络速度不稳定,只能在0点整对小部分商品的月销量进行采样,大部分商品的采样时刻都无法在固定时刻进行采样。
为了简化过程,假设商品的月销量在每个采样间隔内均匀变化,根据采样时刻t前一个时刻的采样值S[t-β]和后一个时刻的采样值S[t+λ],来估算期望采样时刻t的真实值S'(t),具体为:
S'(t)=(λ*S[t-β]+β*S[t+λ])/(β+λ);
采样时刻t前一个时刻的采样值S[t-β];
采样时刻t后一个时刻的采样值S[t+λ];
λ为与前一时刻的采用时间间隔;
β为与后一时刻的采样时间间隔。
S5、检测时间序列的波峰与波谷,平滑异常值;
由于滑动时间窗口的特殊性,如果时间序列出现较大波动(例如商品大促销、用电高峰),且采样时刻存在偏差,则计算出的预测值将出现周期性的波动,使得误差累计值会不断成倍累积。因此,需检测出时间序列的波峰与波谷,并根据周期性判断是正常值或异常值。
检测波峰与波谷,采用偏离领域中位数的比例来计算;即:
λ=d(n)-MEDIAN(n-N/3,n+N/3)/STD(n-N/3,n+N/3);
意为,当前日销量d(n)与前后N/3天的日销量中位数之差,除以前后N/3天的日销量标准差;
d(n)当前日销量;
N为滑动时间窗口;
λ为波峰与波谷。
S6、以采集的数十万条真实商品月销量数据为样本,设计和生成时序特征,以真实日销量为标签,基于极速梯度提升决策树(XGBoost)的机器学习模型进行训练,用于对未知商品的日销量进行预测。图3是本发明基于机器学习的时间序列数据填补与还原流程。
我们从电商网站后台的店铺管理系统中,导出了几家店铺的商品真实日销量数据,作为机器学习模型的标签(Label);从采集的商品月销量数据库中,取出这几家店铺的商品每日的月销量数据。根据前文提到的方法,经过填充缺失值、估算期望采样时刻的真实采样值、平滑异常值等数据预处理步骤,可以极大地降低数据噪音。
对于第一个滑动时间窗口内的样本,因为不存在累积误差,可直接根据公式③来计算商品日销量;对于第一个滑动时间窗口之后的样本,因为存在累积误差,需要在数据预处理之后建模预测。根据电商网站的商品特性,设计和生成了以下特征:
a) 采集的销量特征群:第n天采集的月销量、第(n-1)天采集的月销量、计算出的第(n - N)天的日销量、第n天与第(n-1)天采集的月销量之差;
b) 估算的销量特征群:估算的第n天0时的月销量、估算的第(n-1)天0时的月销量、估算的第(n - N)天的日销量、第n天与第(n-1)天估算的月销量之差;
c) 平滑后的销量特征群:平滑后的第n天0时的月销量、平滑后的第(n-1)天0时的月销量、平滑后的第(n - N)天的日销量、第n天与第(n-1)天平滑的月销量之差;
d) 商品价格特征群:第n天的商品价格、第n天与第(n-1)天的商品价格之差、第n天与第(n-1)天的商品降价比例;
e) 时间特征群:第n天是第几个采集周期、当天是否为周末、当天是否为双11、双12、618等大促日。
完成特征的生产后,即可使用XGBoost进行建模训练。XGBoost是一种基于梯度提升决策树的机器学习模型,具有预测精准度高、训练与预测速度快、不易过拟合、对分布式支持友好等优势,不仅在国内外众多机器学习和数据挖掘竞赛中最多次夺得冠军,并广泛应用于企业级生产环境中。
值得注意的是,在某些业务场景下,我们可能希望预测值是有偏的。比如对于商品日销量,我们宁可预测的多、不可预测的少。这时需修改XGBoost模型的损失函数,将默认的MSE(Mean Squared Error,平均误差平和)损失函数,修改为加权的MSE损失函数,生成XGBoost模型的gradient和hessian数值矩阵:
a, b = 2, 1
def loss(y_truth, y_pred):
grad = [2*a*(pred - truth) if pred < truth else 2*b*(pred - truth)for pred, truth in zip(y_pred, y_truth)]
hess = [2*a if pred < truth else 2*b for pred, truth in zip(y_pred,y_truth)]
return grad, hess
完成损失函数的定义后,即可开始训练模型、评估模型准确度。训练过程中,使用了GridSearch来搜索最优模型参数组合,使用了K折交叉验证来评估模型准确度,避免模型陷入过拟合。为了兼顾训练和预测速度,使用了较浅的树深度(max_depth)和不多的树棵数(n_estimators)。最终极大地降低了训练和预测误差,并通过分布式Spark平台部署到生产环境中,每日可对亿级别的商品日销量数据进行填补和还原。
本发明根据业务场景的特殊要求,研究了XGBoost机器学习模型的损失函数改造方法,调整为加权MSE损失函数,使得同等误差条件下预测值偏大,降低了日销量预测值偏低的数据比例。
本发明设计的时序特征有效且实用,降低了模型的预测误差;控制了模型的复杂度,使得模型不易过拟合、泛化能力强、训练和预测速度快;基于Spark部署XGBoost分布式预测模型,可在小时级时间内完成亿级商品的日销量数据预测,在海量数据集上相比于深度学习更加实用。
如图1所示,是本发明的时间序列数据样例图,可见第一个滑动时间窗口(30天)内,计算出的商品日销量与真实日销量,误差不太大、可接受;第一个滑动时间窗口(30天)之后,计算出的商品日销量与真实日销量,误差越来越大,需要进行填补与还原。
图2是本发明(未经数据预处理)计算出的商品日销量与真实的商品日销量对比 。
可见此商品第一天的销量很高,但采样时刻不固定导致每隔一个时间窗口(30天),商品日销量会呈现周期性的波峰与波谷,此为异常值。
本发明解决了特定时间序列数据的缺失值多、波动性大、误差累积等问题,有效提高了数据填补与还原的准确率;并且较好地控制了机器学习模型的复杂度,能在小时级内完成上亿条数据记录的填补与还原,具有较强的实用价值。
上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例, 而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种基于机器学习的时间序列数据填补与还原方法,其特征在于,该方法步骤如下:
S1、采集时间序列数据,包括不同物品、不同采样时刻的滑动窗口累计值;
S2、收集真实的各采样间隔内的累计值;
S3、使用基于领域的中位数+均值法,填充缺失值;
在填充缺失值过程中,
如果时间序列中数据缺失率大或最长连续缺失间隔>=滑动窗口时,不做填充,直接丢弃此物品的所有样本;判断缺失率是否大的标准为缺失率>10%;
否则,认定缺失率小,则取缺失时刻t的前后相邻区域数据的中位数median和均值mean,相邻区域为[t-N/4,t+N/4],填充值为fill_value =α*median+(1-α)*mean;
N为滑动时间窗口;
t为缺失时刻;
fill_value为填充值;
median为中位数;
mean为均值;
α为系数;
S4、通过线性规则,估算期望采样时刻的真实采样值;
S5、检测时间序列的波峰与波谷,平滑异常值;
S6、以采集的真实数据为样本,设计和生成时序特征,以真实结果为标签,基于极速梯度提升决策树的机器学习模型进行建模训练,根据训练模型对未知数据进行预测;
使用XGBoost进行建模训练,修改XGBoost模型的损失函数;将默认的XGBoost回归模型的损失函数,由MSE损失函数修改为加权的MSE损失函数,并实现了一种XGBoost版本的加权MSE,使得模型预测值更倾向于偏大:
a, b = 2, 1;
def loss(y_truth, y_pred):
grad = [2*a*(pred - truth) if pred < truth else 2*b*(pred - truth) forpred, truth in zip(y_pred, y_truth)];
hess = [2*a if pred < truth else 2*b for pred, truth in zip(y_pred, y_truth)];
return grad, hess。
2.根据权利要求1所述的基于机器学习的时间序列数据填补与还原方法,其特征在于,步骤S1中总样本数在10万~100万之间。
3.根据权利要求1所述的基于机器学习的时间序列数据填补与还原方法,其特征在于,所述α取值为0.75。
4.根据权利要求1所述的基于机器学习的时间序列数据填补与还原方法,其特征在于,步骤S4中,假设商品的月销量在每个采样间隔内均匀变化,根据采样时刻t前一个时刻的采样值S[t-β]和后一个时刻的采样值S[t+λ],来估算期望采样时刻t的真实值S'(t),具体为:
S'(t)=(λ*S[t-β]+β*S[t+λ])/(β+λ);
采样时刻t前一个时刻的采样值S[t-β];
采样时刻t后一个时刻的采样值S[t+λ];
λ为与前一时刻的采用时间间隔;
β为与后一时刻的采样时间间隔。
5.根据权利要求1所述的基于机器学习的时间序列数据填补与还原方法,其特征在于,步骤S5中,检测波峰与波谷,采用偏离领域中位数的比例来计算;即:
λ=d(n)-MEDIAN(n-N/3,n+N/3)/STD(n-N/3,n+N/3);
意为,当前日销量d(n)与前后N/3天的日销量中位数之差,除以前后N/3天的日销量标准差;
d(n)当前日销量;
N为滑动时间窗口;
λ为波峰与波谷。
6.根据权利要求5所述的基于机器学习的时间序列数据填补与还原方法,其特征在于,如果|λ|>3,且每隔一个周期的偏离度均大于3,说明是周期性异常波动,则从第二个周期开始需对日销量进行平滑。
7.根据权利要求5所述的基于机器学习的时间序列数据填补与还原方法,其特征在于,平滑方式为:
如果λ>3,则d(n)=MEDIAN(n-N/3,n+N/3)+3*STD(n-N/3,n+N/3);
如果λ<-3,则d(n)=MEDIAN(n-N/3,n+N/3)-3*STD(n-N/3,n+N/3)。
CN201910947754.0A 2019-10-08 2019-10-08 一种基于机器学习的时间序列数据填补与还原方法 Active CN110457867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910947754.0A CN110457867B (zh) 2019-10-08 2019-10-08 一种基于机器学习的时间序列数据填补与还原方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910947754.0A CN110457867B (zh) 2019-10-08 2019-10-08 一种基于机器学习的时间序列数据填补与还原方法

Publications (2)

Publication Number Publication Date
CN110457867A CN110457867A (zh) 2019-11-15
CN110457867B true CN110457867B (zh) 2020-12-25

Family

ID=68492712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910947754.0A Active CN110457867B (zh) 2019-10-08 2019-10-08 一种基于机器学习的时间序列数据填补与还原方法

Country Status (1)

Country Link
CN (1) CN110457867B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110911011B (zh) * 2019-11-27 2021-10-19 医惠科技有限公司 一种脓毒血症的预警装置、设备及存储介质
CN111178156B (zh) * 2019-12-10 2023-06-20 网络通信与安全紫金山实验室 一种应用于机器学习的时序特征有效窗口提取方法
CN111143344A (zh) * 2019-12-31 2020-05-12 新奥数能科技有限公司 一种用于时间序列数据缺失的补全方法及装置
CN111859306A (zh) * 2020-08-10 2020-10-30 中国华能集团清洁能源技术研究院有限公司 一种测风数据缺测检验方法及系统
CN112165412B (zh) * 2020-09-24 2022-02-15 中盈优创资讯科技有限公司 一种基于时间序列模型的流量预测方法
CN112699547A (zh) * 2020-12-25 2021-04-23 朗坤智慧科技股份有限公司 基于5g网络的滑动窗口式多元时间序列缺失值填充方法
CN113589686B (zh) * 2021-06-26 2023-09-29 中国人民解放军海军工程大学 基于gsa-ifcm的单位周期时间序列自适应提取方法
CN113515896B (zh) * 2021-08-06 2022-08-09 红云红河烟草(集团)有限责任公司 用于卷烟实时数采的数据缺失值填充方法
CN115556099B (zh) * 2022-09-29 2024-04-09 华南理工大学 一种可持续学习的工业机器人故障诊断系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101534003B (zh) * 2009-04-14 2011-03-16 国电南瑞科技股份有限公司 数字化光纤差动保护装置的数据同步方法
CN107016571A (zh) * 2017-03-31 2017-08-04 北京百分点信息科技有限公司 数据预测方法及其系统
CN107895283B (zh) * 2017-11-07 2021-02-09 重庆邮电大学 一种基于时间序列分解的商家客流量大数据预测方法
CN109784979B (zh) * 2018-12-19 2023-06-16 中交(厦门)电子商务有限公司 一种大数据驱动的供应链需求预测方法
CN110020744A (zh) * 2019-01-07 2019-07-16 阿里巴巴集团控股有限公司 动态预测方法及其系统

Also Published As

Publication number Publication date
CN110457867A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110457867B (zh) 一种基于机器学习的时间序列数据填补与还原方法
US11250449B1 (en) Methods for self-adaptive time series forecasting, and related systems and apparatus
CN108537544B (zh) 一种交易系统实时监控方法及其监控系统
EP3623964A1 (en) Framework for the automated determination of classes and anomaly detection methods for time series
CN109615226B (zh) 一种运营指标异常监测方法
US9600773B2 (en) Detecting electricity theft via meter tampering using statistical methods
US8554699B2 (en) Method and system for detecting anomalies in time series data
US8583584B2 (en) Method and system for using web analytics data for detecting anomalies
Golmakani et al. Optimal replacement policy and inspection interval for condition-based maintenance
Antoniadis et al. A prediction interval for a function-valued forecast model: Application to load forecasting
CN112116149B (zh) 一种考虑预报不确定性关联演化特征的多站中长期径流滚动概率预测方法
CN107895014B (zh) 一种基于MapReduce框架的时间序列桥梁监测数据分析方法
Syntetos et al. Periodic control of intermittent demand items: theory and empirical analysis
CN113537850A (zh) 仓储优化方法、装置、计算机设备和存储介质
CN108876458A (zh) 一种基于网络爬虫的商品动态预测方法及系统
Hu et al. Weighted score test based EWMA control charts for zero-inflated Poisson models
Xue et al. Improving near real-time anomaly event detection and classification with trend change detection for smart water grid operation management
US7783509B1 (en) Determining that a change has occured in response to detecting a burst of activity
CN112418534B (zh) 揽件量预测方法及装置、电子设备、计算机可读存储介质
Yaldız et al. Time Series Analysis of Radiological Data of Outpatients and Inpatients in Emergency Department of Mus State Hospital
US20140203949A1 (en) Method and system for automatic residual consumption
WO2022153444A1 (ja) 消費電力推定装置及びプログラム
CN117235651B (zh) 基于物联网的企业信息数据优化管理系统
CN113723775B (zh) 一种基于电力大数据的企业及行业运营风险的评估方法
US20220108196A1 (en) Improved computer-implemented event forecasting and information provision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant