CN107463531A - 基于分箱灰色预测的波动数据缺失值处理方法及装置 - Google Patents

基于分箱灰色预测的波动数据缺失值处理方法及装置 Download PDF

Info

Publication number
CN107463531A
CN107463531A CN201710645506.1A CN201710645506A CN107463531A CN 107463531 A CN107463531 A CN 107463531A CN 201710645506 A CN201710645506 A CN 201710645506A CN 107463531 A CN107463531 A CN 107463531A
Authority
CN
China
Prior art keywords
data
missing values
fluctuation data
time series
fluctuation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710645506.1A
Other languages
English (en)
Inventor
李青海
简宋全
邹立斌
侯大勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Fine Point Data Polytron Technologies Inc
Original Assignee
Guangdong Fine Point Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Fine Point Data Polytron Technologies Inc filed Critical Guangdong Fine Point Data Polytron Technologies Inc
Priority to CN201710645506.1A priority Critical patent/CN107463531A/zh
Publication of CN107463531A publication Critical patent/CN107463531A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种可准确预测填补缺失值的基于分箱灰色预测的波动数据缺失值处理方法,该方法针对时间序列的波动数据预测中存在的数据缺失问题,首先通过ACF检测算法计算周期进行分箱处理,再用灰色预测方法,利用缺失值前后进行线性填补,估算缺失值。本发明还提供了一种基于上述方法的基于分箱灰色预测的波动数据缺失值处理装置。

Description

基于分箱灰色预测的波动数据缺失值处理方法及装置
技术领域
本发明涉及数据处理技术,特别涉及一种基于分箱灰色预测的波动数据缺失值处理方法。
背景技术
时间序列是将某种统计数据(如近几年的全球气候统计数据、某一地区按时间的人口统计数据或网络管理中的各种统计数据等),按时间先后顺序排列所形成的数列,时间序列预测法就是通过对时间序列的性质进行分析,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间或以后若干年内可能达到的水平。通常情况下,统计数据不一定是完整的,往往会出现数据缺失的问题,针对数据缺失值的填补问题,特别是针对波动数据缺失值的填补问题,在现有的方法中还未有较好的处理方法。通常情况下处理缺失数据的方法主要采取忽略元祖,人工填写,使用属性中心度(入均值或中位数)等方法,然而,往往这些方法预测出的缺失值与统计数据本身差异较大,通过这种方法填补缺失值容易导致后期预测出现偏差。
发明内容
本发明的一个目的是提供一种可较准确的填补缺失值的基于分箱灰色预测的波动数据缺失值处理方法。
发明方案如下:基于分箱灰色预测的波动数据缺失值处理方法,包括以下步骤:
a、读取一组按时间序列排列的波动数据;
b、遍历波动数据,并标记缺失值,确定哪个箱中存在缺失数据;
c、采用ACF检测算法得出该波动数据时间序列的自相关函数,计算自相关函数的周期,即计算出该组波动数据时间序列的周期n;
d、分箱:将该组波动数据分成n个箱,以使每个箱中的数据均是平稳数据,每箱中共有m/n个数据,m为时间序列数值的总个数,n为时间序列的周期;每个数据位于对公式(p+n)/n取余数所得值的箱中,p为该数据在时间序列中的排序值;
e、缺失值填补,在标记有缺失值的箱中,采用灰色预测法,用最小二乘法对每个箱中的数据进行线性拟合,再带入坐标计算出缺失值;
f、导出所填补的所有缺失值。
进一步,采用ACF检测算法得出波动数据时间序列的自相关函数的公式为:
进一步,灰色预测法采用的公式为:
本发明的另一目的是提供一种可较准确的填补缺失值的基于分箱灰色预测的波动数据缺失值处理装置,包括读取模块,用于读取一组波动数据;
数据处理模块,接收读取模块传输的波动数据,所述数据处理模块用于遍历该组波动数据并标记缺失值,并采用ACF检测算法得出该波动数据时间序列的自相关函数,计算自相关函数的周期,即计算出该组波动数据时间序列的周期n;所述数据处理模块还用于将该组波动数据进行分箱处理,具体是:将该组波动数据分成n个箱,以使每个箱中的数据均是平稳数据,每箱中共有m/n个数据,m为时间序列数值的总个数,n为时间序列的周期;每个数据位于对公式(p+n)/n取余数所得值的箱中,p为该数据在时间序列中的排序值;所述数据处理模块还用于进行缺失值的填补,具体是:在标记有缺失值的箱中,采用灰色预测法,采用缺失值的前、后值进行线性填补,对于连续缺失的数据,采用前、后值的顺延数据进行填补;
导出模块,用于接收所述数据处理模块传输的所有的缺失值,并导出所有的缺失值。
进一步,在数据处理模块中,采用ACF检测算法得出波动数据时间序列的自相关函数的公式为:
进一步,在数据处理模块中,灰色预测法采用的公式为:
进一步,还包括用户交互模块,所述用户交互模块用于与数据处理模块的双向信息交互。方便用户的操作。
进一步,还包括与数据处理模块双向数据传输的数据存储模块,所述数据存储模块用于存储数据处理模块中的所有缺失值数据,以及填补完所有缺失值的波动数据。以便于使用这些数据时,可随时调用。
上述基于分箱灰色预测的波动数据缺失值处理方法及装置的有益效果在于:针对数据的缺失值处理,现有方法大多是简单的用一个估算值,例如手动添加一个值,或是取数据的平均值或中位数等,这些方法虽然简单,但仅仅对平稳数据有较好的预测效果,但是对于波动数据而言,很容易使数据与原始数据产生偏差,预测值不准确。将按时间序列排序的波动数据进行分箱处理,可以使波动数据转化为n组平稳数据,再用灰色预测方法进行预测,通过使用已有数据的大部分信息来预测缺失值,可保证预测的缺失值的准确性。
附图说明
图1为本发明基于分箱灰色预测的波动数据缺失值处理方法实施例的流程图;
图2为本发明基于分箱灰色预测的波动数据缺失值处理装置实施例的原理性框图。
具体实施方式
下面通过具体实施方式对本发明作进一步详细的说明:
如附图1所示的基于分箱灰色预测的波动数据缺失值处理方法,包括以下步骤:
a、读取一组按时间序列排列的波动数据。
b、遍历波动数据,并标记缺失值,确定哪个箱中存在缺失数据。
c、采用ACF检测算法得出该波动数据时间序列的自相关函数,计算自相关函数的周期,即计算出该组波动数据时间序列的周期n,采用ACF检测算法得出波动数据时间序列的自相关函数的公式为:
d、分箱:将该组波动数据分成n个箱,以使每个箱中的数据均是平稳数据,每箱中共有m/n个数据,m为时间序列数值的总个数,n为时间序列的周期;每个数据位于对公式(p+n)/n取余数所得值的箱中,p为该数据在时间序列中的排序值。
对于波动数据如果直接进行灰色预测,则预测的缺失值会很不准确。故本实施例提出分箱法对波动数据处理。分箱可以将波动数据分成几组平稳数据,从而达到局部平滑的目的。分箱法顾名思义是将数据进行分箱处理形成多组数据的过程,通过考察相邻数据来确定分箱的结果。分箱法是将按时间序列排列的各个数据按照一定的规则放入各个箱子中,使每个箱子中的数据都是平稳数据,通过这种预处理方法再进行灰色预测可以减小误差。
在运用分箱法的过程中,如何求出分箱的个数,即时间序列的周期,是问题的重点,本实施例采用ACF检测算法计算非平稳时间序列周期数。
由于波动数据时间序列的自相关函数与平稳数据时间序列具有相同的周期,从而求出时间序列的周期n,这些箱中的数据都是平稳数据。
e、缺失值填补,在标记有缺失值的箱中,进行灰色预测,采用最小二乘法对每个箱中的数据进行线性拟合,再带入坐标计算出缺失值;其中灰色预测法采用的公式为:
灰色预测方法就是对既含有已知信息又含有未知或非确定信息的系统进行预测,就是在对一定方位内变化的、与实践有关的灰色过程的预测。
f、导出所填补的所有缺失值。
本实施例中所述的按时间序列排列的波动数据,由于是按照时间序列排列的,因此存在周期,即X(n)=x(n+Np)。
如图2所示,基于分箱灰色预测的波动数据缺失值处理装置,包括读取模块,用于读取一组波动数据;
数据处理模块,接收读取模块传输的波动数据,所述数据处理模块用于遍历该组波动数据并标记缺失值,并采用ACF检测算法得出该波动数据时间序列的自相关函数,在数据处理模块中,采用ACF检测算法得出波动数据时间序列的自相关函数的公式为:计算自相关函数的周期,即计算出该组波动数据时间序列的周期n。
数据处理模块还用于将该组波动数据进行分箱处理,具体是:将该组波动数据分成n个箱,以使每个箱中的数据均是平稳数据,每箱中共有m/n个数据,m为时间序列数值的总个数,n为时间序列的周期;每个数据位于对公式(p+n)/n取余数所得值的箱中,p为该数据在时间序列中的排序值。
数据处理模块还用于进行缺失值的填补,具体是:在标记有缺失值的箱中,采用灰色预测法,采用缺失值的前、后值进行线性填补,对于连续缺失的数据,采用前、后值的顺延数据进行填补;在数据处理模块中,灰色预测法采用的公式为:
导出模块,用于接收所述数据处理模块传输的所有的缺失值,并导出所有的缺失值。
用户交互模块,所述用户交互模块用于与数据处理模块的双向信息交互,如用于用户输入波动数据处理的请求,以及向用户显示处理后的波动数据等。
与数据处理模块双向数据传输的数据存储模块,数据存储模块用于存储数据处理模块中的所有缺失值数据,以及填补完所有缺失值的波动数据。

Claims (8)

1.基于分箱灰色预测的波动数据缺失值处理方法,其特征在于,包括以下步骤:
a、读取一组按时间序列排列的波动数据;
b、遍历波动数据,并标记缺失值,确定哪个箱中存在缺失数据;
c、采用ACF检测算法得出该波动数据时间序列的自相关函数,计算自相关函数的周期,即计算出该组波动数据时间序列的周期n;
d、分箱:将该组波动数据分成n个箱,以使每个箱中的数据均是平稳数据,每箱中共有m/n个数据,m为时间序列数值的总个数,n为时间序列的周期;每个数据位于对公式(p+n)/n取余数所得值的箱中,p为该数据在时间序列中的排序值;
e、缺失值填补,在标记有缺失值的箱中,采用灰色预测法,用最小二乘法对每个箱中的数据进行线性拟合,再带入坐标计算出缺失值;
f、导出所填补的所有缺失值。
2.根据权利要求1所述的基于分箱灰色预测的波动数据缺失值处理方法,其特征在于:采用ACF检测算法得出波动数据时间序列的自相关函数的公式为:
3.根据权利要求1所述的基于分箱灰色预测的波动数据缺失值处理方法,其特征在于:灰色预测法采用的公式为:
a=(N∑xy-∑x∑y)/(N∑x2-(∑x)2)
b=∑y/N-a*(∑T/N)。
4.一种基于分箱灰色预测的波动数据缺失值处理装置,其特征在于:包括读取模块,用于读取一组波动数据;
数据处理模块,接收读取模块传输的波动数据,所述数据处理模块用于遍历该组波动数据并标记缺失值,并采用ACF检测算法得出该波动数据时间序列的自相关函数,计算自相关函数的周期,即计算出该组波动数据时间序列的周期n;所述数据处理模块还用于将该组波动数据进行分箱处理,具体是:将该组波动数据分成n个箱,以使每个箱中的数据均是平稳数据,每箱中共有m/n个数据,m为时间序列数值的总个数,n为时间序列的周期;每个数据位于对公式(p+n)/n取余数所得值的箱中,p为该数据在时间序列中的排序值;所述数据处理模块还用于进行缺失值的填补,具体是:在标记有缺失值的箱中,采用灰色预测法,采用缺失值的前、后值进行线性填补,对于连续缺失的数据,采用前、后值的顺延数据进行填补;
导出模块,用于接收所述数据处理模块传输的所有的缺失值,并导出所有的缺失值。
5.根据权利要求4所述的基于分箱灰色预测的波动数据缺失值处理装置,其特征在于:在数据处理模块中,采用ACF检测算法得出波动数据时间序列的自相关函数的公式为:
6.根据权利要求4所述的基于分箱灰色预测的波动数据缺失值处理装置,其特征在于:在数据处理模块中,灰色预测法采用的公式为:
a=(N∑xy-∑x∑y)/(N∑x2-(x)2)
b=∑y/N-a*(∑x/N)。
7.根据权利要求4所述的基于分箱灰色预测的波动数据缺失值处理装置,其特征在于:还包括用户交互模块,所述用户交互模块用于与数据处理模块的双向信息交互。
8.根据权利要求4所述的基于分箱灰色预测的波动数据缺失值处理装置,其特征在于:还包括与数据处理模块双向数据传输的数据存储模块,所述数据存储模块用于存储数据处理模块中的所有缺失值数据,以及填补完所有缺失值的波动数据。
CN201710645506.1A 2017-07-31 2017-07-31 基于分箱灰色预测的波动数据缺失值处理方法及装置 Pending CN107463531A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710645506.1A CN107463531A (zh) 2017-07-31 2017-07-31 基于分箱灰色预测的波动数据缺失值处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710645506.1A CN107463531A (zh) 2017-07-31 2017-07-31 基于分箱灰色预测的波动数据缺失值处理方法及装置

Publications (1)

Publication Number Publication Date
CN107463531A true CN107463531A (zh) 2017-12-12

Family

ID=60547258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710645506.1A Pending CN107463531A (zh) 2017-07-31 2017-07-31 基于分箱灰色预测的波动数据缺失值处理方法及装置

Country Status (1)

Country Link
CN (1) CN107463531A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446185A (zh) * 2018-08-29 2019-03-08 广西大学 基于用户聚类的协同过滤缺失数据处理方法
CN110781223A (zh) * 2019-10-16 2020-02-11 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备及存储介质
CN111656342A (zh) * 2018-03-08 2020-09-11 Vega格里沙贝两合公司 用于图表描绘的数据预处理

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111656342A (zh) * 2018-03-08 2020-09-11 Vega格里沙贝两合公司 用于图表描绘的数据预处理
CN109446185A (zh) * 2018-08-29 2019-03-08 广西大学 基于用户聚类的协同过滤缺失数据处理方法
CN109446185B (zh) * 2018-08-29 2021-07-13 广西大学 基于用户聚类的协同过滤缺失数据处理方法
CN110781223A (zh) * 2019-10-16 2020-02-11 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Battle et al. Dynamic prefetching of data tiles for interactive visualization
CN103186541B (zh) 一种映射关系生成方法及装置
CN101510205B (zh) 实现相片自动聚类的方法、装置及系统
CN107193967A (zh) 一种多源异构行业领域大数据处理全链路解决方案
CN108632097A (zh) 异常行为对象的识别方法、终端设备及介质
CN107463531A (zh) 基于分箱灰色预测的波动数据缺失值处理方法及装置
CN104036139B (zh) 一种移动对象轨迹监测方法
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN111831704A (zh) 异常数据的确定方法、装置、存储介质和电子设备
CN104657417B (zh) 热力图的处理方法及系统
CN112860989B (zh) 课程推荐方法、装置、计算机设备及存储介质
CN113327136A (zh) 归因分析方法、装置、电子设备及存储介质
CN107239564A (zh) 一种基于监督主题模型的文本标签推荐方法
CN110751641A (zh) 锚栓信息检测的方法及存储介质
CN113219341A (zh) 一种模型生成及电池劣化推测装置、方法、介质及设备
CN112990374A (zh) 图像分类方法、装置、电子设备及介质
CN114676204A (zh) 一种基于多属性海洋监测数据立体化管理方法及系统
CN109816157A (zh) 项目计划优化方法、装置、计算机设备和存储介质
CN112306835A (zh) 用户数据监控分析方法、装置、设备及介质
CN113326314A (zh) 数据可视化方法、装置、电子设备及可读存储介质
Pobiedina et al. Predicting citation counts for academic literature using graph pattern mining
CN106598997A (zh) 一种计算文本主题归属度的方法及装置
Traun et al. Autocorrelation-Based Regioclassification–a self-calibrating classification approach for choropleth maps explicitly considering spatial autocorrelation
CN113901092B (zh) 一种用于赛场运行监测的文件管理方法及系统
CN115757987A (zh) 基于轨迹分析的伴随对象确定方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212