CN103678721A - 一种处理缺失数据的方法及装置 - Google Patents

一种处理缺失数据的方法及装置 Download PDF

Info

Publication number
CN103678721A
CN103678721A CN201410001575.5A CN201410001575A CN103678721A CN 103678721 A CN103678721 A CN 103678721A CN 201410001575 A CN201410001575 A CN 201410001575A CN 103678721 A CN103678721 A CN 103678721A
Authority
CN
China
Prior art keywords
current
time point
value
statistical time
accumulated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410001575.5A
Other languages
English (en)
Inventor
王芹
谢攀
黄敏燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
China Unicom System Integration Ltd Corp
Original Assignee
China United Network Communications Group Co Ltd
China Unicom System Integration Ltd Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, China Unicom System Integration Ltd Corp filed Critical China United Network Communications Group Co Ltd
Priority to CN201410001575.5A priority Critical patent/CN103678721A/zh
Publication of CN103678721A publication Critical patent/CN103678721A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种处理缺失数据的方法及装置,包括在经营周期内出现缺失数据时,利用上一运营周期中相同统计时点的累计值估算本运营周期的当期累计值;根据估算出的当期累计值及上期统计时点实际的累计值,获取当期统计时点缺失数据的估计值。本发明方案针对经营周期对缺失数据进行估算,大大减少了估算所需的数据量即计算复杂度,从而降低了计算占用的系统资源,缩短了运行时间;而且,本发明结合缺失数据时点当期累计值估算数据及前一统计时点的当期累计实际值,更加准确地对缺失数据进行了估算。进一步地,本发明在处理缺失数据的过程中,通过对相关计算元素的存储,为缺失数据的计算提供了参考,提高了缺失数据的处理速度。

Description

一种处理缺失数据的方法及装置
技术领域
本发明涉及数据处理技术,尤指一种处理缺失数据的方法及装置。
背景技术
随着信息技术的发展,企业的信息系统覆盖率越来越高,大部分企业都建立了基于各类数据的分析系统,以支持企业的快速、精准决策。
当企业内部信息系统增多后,分析系统在抽取数据时难免会遇到业务源系统由于系统故障或性能问题而无法提供全部或部分数据的情况。在这种情况下,系统界面展示的数据必然存在缺失或失真,给使用带来极大的不便。尤其是总量数据的展示,如果不加处理,会显示大幅度的数据异动,给使用人员带来困扰。
对于缺失数据的处理,通常采用如下处理方式:删除数据、不处理或采用统计方法填充数据等。如果用于分析、挖掘等寻求数据内在规律,缺失的数据可以根据具体影响采用上述三种方式中任一方式进行处理。但是,在企业数据分析系统中,由于数据需要实时展现,如果采用删除数据,或不处理的方式,都会带来总量数据异常波动,从而给数据使用人员带来不便,因此,对于企业数据分析系统,是不能采用简单删除数据或者不处理的方式的,其更适用于填充数据的处理方式。
企业数据分析系统采集数据的频次分为日、月、季或按小时采集的准实时数据,当数据采集频次为按小时或日采集时,需要采用一种快速的填充数据处理方式,不能使用复杂耗时的一般性统计方法来填充数据。
经过对企业数据进行分析,发明人发现企业的数据具有非常显著的周期性特点。独立的数据变化规律往往不明显,但每个运营周期的当期累计值往往具有显著特点,比如:新增用户数,虽然在一个月中观察每天的数据变动,规律性不强,但如果看每个月各天的累计新增用户数,却有比较强的规律性。如果采用一般性统计方法来估算某天的缺失数据,往往忽略了这种针对性,完全基于大量的历史数据进行计算,实现起来比较复杂,且计算量大时占用系统资源多,运行时间长,无法满足快速提供数据的要求。
发明内容
为了解决上述技术问题,本发明提供了一种处理缺失数据的方法及装置,能够在一般性统计方法的基础上,简单、快速、准确地对企业数据中的缺失数据进行处理。
为了达到本发明目的,本发明提供了一种处理缺失数据的方法,当前运营周期出现缺失数据时,包括:利用上一运营周期中相同统计时点的累计值估算本运营周期的当期累计值;
根据估算出的当期累计值及上期统计时点实际的累计值,获取当期统计时点缺失数据的估计值。
所述利用上一运营周期中相同统计时点的当期累计值估算本运营周期当期累计值包括:
根据所述上一运营周期中在统计时点的当期累计值,计算上一运营周期各统计时点的当期累计平均值;
根据上一运营周期中各统计时点的当期累计值,及计算得到的当期累计平均值,计算得到当期累计估计系数;
根据计算得到的当期累计平均值及当期累计估计系数获取当期统计时点累计值的估计值。
所述获取当期统计时点缺失数据的估计值包括:
计算所述统计时点当期累计值的估计值与所述上期统计时点实际的累计值之差,得到的差值为统计时点当期累计值的估计值。
所述经营周期结束时,该方法还包括:存储运营周期各统计时点的当期累计估算系数。
所述运营周期结束后,该方法还包括:存储最近一个经营周期各统计时点的当期累计平均值。
本发明还提供一种处理缺失数据的装置,至少包括第一处理模块、第二处理模块,其中,
第一处理模块,用于根据上一完整的经营周期中各运营周期中各统计时点当期累计值,计算各统计时点的当期累计平均值;根据上一完整的经营周期中各统计时点当期累计值,以及各统计时点的当期累计实际值,计算得到各统计时点当期累计估计系数;根据最近一个经营周期所有运营周期各统计时点的当期累计实际值,计算得到各统计时点的当期累计平均值。
第二处理模块,根据缺失数据所在统计时点的当期累计值估算系数及最近一个经营周期中各统计时点的当期累计平均值,计算得到当前缺失数据统计时点的当期累计估算值,根据估算出的当期累计值及前一天实际的当期累计值,获取当期当天缺失数据的估计值。
还包括存储模块,用于存储第一处理模块计算出的当期累计平均值、当期累计估算系数。
与现有技术相比,本发明包括在当前运营周期内出现缺失数据时,利用上一运营周期中相同统计时点的累计值估算本运营周期的当期累计值;根据估算出的当期累计值及上期统计时点实际的累计值,获取当期统计时点缺失数据的估计值。本发明方案针对经营周期数据特点对缺失数据进行估算,大大减少了估算所需数据量及计算复杂度,从而降低了计算占用的系统资源,缩短了运行时间;而且,本发明结合缺失数据时点当期累计值估算数据及前一统计时点累计值实际数据,更加准确地对缺失数据进行了估算。
进一步地,本发明在处理缺失数据的过程中,通过对相关计算元素的存储,为缺失数据的计算提供了参考,提高了缺失数据的处理速度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明处理缺失数据的方法的流程图;
图2为本发明处理缺失数据的装置的组成结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明处理缺失数据的方法的流程图,如图1所示,包括:
步骤100:当前运营周期出现缺失数据时,利用上一运营周期相同统计时点的累计值估算本运营周期的当期累计值。其中,上一运营周期相同统计时点,指的是自当前时点前推一个运营周期的时间长度所在的时间点。
本步骤中,如何确定缺失数据是否出现属于现有技术,这里不再赘述。这里强调的是,对缺失数据的处理是针对每个经营周期进行的,而每个经营周期由若干个运营周期组成,如12个月为一个经营周期,而每个月为一个运营周期;或者,31天为一个经营周期,而每天为一个运营周期等。具体如何设置经营周期由运营商根据数据特点设置,属于本领域技术人员的惯用技术手段。
本步骤中,可以自当前经营周期前推,选取一整个经营周期的历史数据进行计算,利用历史数据中各运营周期相同统计时点的当期累计值估算统计时点当期累计值,具体包括:首先,根据历史数据中各运营周期缺失数据统计时点的当期累计值,计算缺失上一运营周期各统计时点的当期累计平均值;然后,根据上一运营周期中各统计时点的当期累计值,及计算得到的当期累计平均值,计算当期累计值估计系数;最后,根据计算得到的当期累计平均值及当期累计估计系数获取当期统计时点累计值的估计值。
步骤101:根据估算出的当期累计值及上期统计时点实际的累计值,获取当期统计时点缺失数据的估计值。
本发明方法针对经营周期数据特点对缺失数据进行估算,大大减少了计算所需数据量,降低了计算占用的系统资源,缩短了运行时间;而且,本发明方法结合当期累计值估算数据及前一统计时点实际的当期累计值,更加准确地对缺失数据进行了估算。
以经营周期为1年即12个月,每个运营周期1个月为例,本发明方法中,假设需要估算的值为第m月的第n天即当期当天累计值的估算值,用
Figure BDA0000452565680000051
表示。第m月第n天的当期累计值用Cnm表示;各月第n天的当期累计平均值用
Figure BDA0000452565680000052
表示;第m月第n天的当期累计估算系数用anm表示;第m月第n天缺失数据的估算数用
Figure BDA0000452565680000053
表示。其中,
首先,各月第n天的当期累计平均值
Figure BDA0000452565680000054
按照公式(1)计算:
C ‾ n = Σ i = t 1 t 12 C ni / 12 - - - ( 1 )
在公式(1)中,i=t1~t12(此处,(m-t1)、(m-t12)均代表上一年1月、12月)。
接着,第m月第n天的当期累计估算系数anm按照公式(2)计算:
a nm = C nm / C ‾ n - - - ( 2 )
在公式(2)中,Cnm表示上年即上一个经营周期的第m个月第n天的当期累计值。
接着,自m月前推12个月计算近期每月第n天的当期累计平均值,如公式(3):
C ‾ ′ n = Σ i = m - 1 m - 12 C ni / 12 - - - ( 3 )
公式(1)中,i=m-1~m-12(此处,(m-1)、(m-12)代表自m月前推1月、12月)。
然后,本运营周期第m月第n天累计值的估计值
Figure BDA0000452565680000058
按照公式(4)计算:
C ~ nm = C ‾ ′ n × α nm - - - ( 4 )
最后,根据公式(4)得到的当期当天累计值的估计值
Figure BDA00004525656800000510
以及前一天的实际的当期累计值Cn(m-1)可以计算出当期当天缺失数据的估计值
Figure BDA00004525656800000511
如公式(5)所示:
V ~ nm = C ~ nm - C n ( m - 1 ) - - - ( 5 )
通过本发明方法,对经营周期中缺失数据进行估算,符合了企业数据的周期性特点,大大减少了估算所用数据量及复杂度,从而降低了计算占用的系统资源,缩短了运行时间;而且,本发明结合当期当天累计值估算结果及前一天实际的当期累计值,更加准确地对缺失数据进行了估算。
进一步地,本发明方法还包括:当经营周期结束时,存储运营周期各统计时点的当期累计估算系数。重新计算并存储最近一个经营周期各统计时点的累计平均值,如每月第n天的当期累计平均值
Figure BDA0000452565680000062
各运营周期统计时点的当期累计估算系数,如第m月第n天的当期累计估算系数anm,从而在每天结束后即计算出下一天的估算值。通过对这些计算元素及估算值的存储,为缺失数据的计算提供了参考,提高了缺失数据的处理速度。
图2为本发明处理缺失数据的装置的组成结构示意图,如图2所示,至少包括第一处理模块、第二处理模块,其中,
第一处理模块,用于在出现缺失数据时,利用上一运营周期相同统计时点的累计值估算当期统计时点累计值。具体用于,根据上一完整的经营周期中各运营周期中各统计时点当期累计值,计算各统计时点的当期累计平均值;根据上一完整的经营周期中各统计时点当期累计值,以及各统计时点的当期累计实际值,计算得到各统计时点当期累计估计系数;根据最近一个经营周期所有运营周期各统计时点的当期累计实际值,计算得到各统计时点的当期累计平均值。
第二处理模块,用于根据缺失数据所在统计时点的当期累计值估算系数及最近一个经营周期中各统计时点的当期累计平均值,计算得到当前缺失数据统计时点的当期累计估算值,根据估算出的当期统计时点累计值及上期统计时点实际的累计值,获取当期统计时点缺失数据的估计值。
本发明装置还包括存储模块,用于存储第一处理模块计算出的当期累计平均值、当期累计估算系数。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (7)

1.一种处理缺失数据的方法,当前运营周期出现缺失数据时,其特征在于,包括:利用上一运营周期中相同统计时点的累计值估算本运营周期的当期累计值;
根据估算出的当期累计值及上期统计时点实际的累计值,获取当期统计时点缺失数据的估计值。
2.根据权利要求1所述的方法,其特征在于,所述利用上一运营周期中相同统计时点的当期累计值估算本运营周期当期累计值包括:
根据所述上一运营周期中在统计时点的当期累计值,计算上一运营周期各统计时点的当期累计平均值;
根据上一运营周期中各统计时点的当期累计值,及计算得到的当期累计平均值,计算得到当期累计估计系数;
根据计算得到的当期累计平均值及当期累计估计系数获取当期统计时点累计值的估计值。
3.根据权利要求1或2所述的方法,其特征在于,所述获取当期统计时点缺失数据的估计值包括:
计算所述统计时点当期累计值的估计值与所述上期统计时点实际的累计值之差,得到的差值为统计时点当期累计值的估计值。
4.根据权利要求2所述的方法,其特征在于,所述经营周期结束时,该方法还包括:存储运营周期各统计时点的当期累计估算系数。
5.根据权利要求2所述的方法,其特征在于,所述运营周期结束后,该方法还包括:存储最近一个经营周期各统计时点的当期累计平均值。
6.一种处理缺失数据的装置,其特征在于,至少包括第一处理模块、第二处理模块,其中,
第一处理模块,用于根据上一完整的经营周期中各运营周期中各统计时点当期累计值,计算各统计时点的当期累计平均值;根据上一完整的经营周期中各统计时点当期累计值,以及各统计时点的当期累计实际值,计算得到各统计时点当期累计估计系数;根据最近一个经营周期所有运营周期各统计时点的当期累计实际值,计算得到各统计时点的当期累计平均值;
第二处理模块,根据缺失数据所在统计时点的当期累计值估算系数及最近一个经营周期中各统计时点的当期累计平均值,计算得到当前缺失数据统计时点的当期累计估算值,根据估算出的当期累计值及前一天实际的当期累计值,获取当期当天缺失数据的估计值。
7.根据权利要求6所述的装置,其特征在于,还包括存储模块,用于存储第一处理模块计算出的当期累计平均值、当期累计估算系数。
CN201410001575.5A 2014-01-02 2014-01-02 一种处理缺失数据的方法及装置 Pending CN103678721A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410001575.5A CN103678721A (zh) 2014-01-02 2014-01-02 一种处理缺失数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410001575.5A CN103678721A (zh) 2014-01-02 2014-01-02 一种处理缺失数据的方法及装置

Publications (1)

Publication Number Publication Date
CN103678721A true CN103678721A (zh) 2014-03-26

Family

ID=50316265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410001575.5A Pending CN103678721A (zh) 2014-01-02 2014-01-02 一种处理缺失数据的方法及装置

Country Status (1)

Country Link
CN (1) CN103678721A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228896A (zh) * 2018-02-05 2018-06-29 清华大学 一种基于密度的缺失数据填补方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
CN102103714A (zh) * 2009-12-22 2011-06-22 阿里巴巴集团控股有限公司 实现业务数据预测的实时处理平台及预测方法
US20120239665A1 (en) * 2009-11-27 2012-09-20 Nec Corporation Reputation analysis system and reputation analysis method
CN103440283A (zh) * 2013-08-13 2013-12-11 江苏华大天益电力科技有限公司 一种测点数据的补缺系统及补缺方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120239665A1 (en) * 2009-11-27 2012-09-20 Nec Corporation Reputation analysis system and reputation analysis method
CN102103714A (zh) * 2009-12-22 2011-06-22 阿里巴巴集团控股有限公司 实现业务数据预测的实时处理平台及预测方法
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
CN103440283A (zh) * 2013-08-13 2013-12-11 江苏华大天益电力科技有限公司 一种测点数据的补缺系统及补缺方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228896A (zh) * 2018-02-05 2018-06-29 清华大学 一种基于密度的缺失数据填补方法及装置

Similar Documents

Publication Publication Date Title
CN109885469B (zh) 一种扩容方法、预测模型创建方法、装置、设备及介质
CN112730938B (zh) 一种基于用电采集大数据的窃电用户判断方法
US11748595B2 (en) Convolution acceleration operation method and apparatus, storage medium and terminal device
CN110781167B (zh) 一种基于聚类压缩感知的用户缺失电量数据修复方法
WO2015050567A1 (en) System and method for performing set operations with defined sketch accuracy distribution
EP3349126B1 (en) Method, device, storage medium, and apparatus for automatically discovering fuel station poi
CN113502870B (zh) 挖掘机工况判定方法及装置
CN103714004A (zh) Jvm在线内存泄露分析方法及系统
CN104680250A (zh) 一种位置预测系统
US20140325251A1 (en) Synthetic time series data generation
CN104820663A (zh) 发现低性能的sql语句以及预测sql语句性能的方法和装置
CN109684320B (zh) 监测数据在线清洗的方法和设备
US10713578B2 (en) Estimating utilization of network resources using time series data
CN105243098A (zh) 人脸图像的聚类方法及装置
WO2019194872A1 (en) Intelligent incentive distribution
CN116703132B (zh) 共享车辆动态调度的管理方法、装置及计算机设备
CN103678721A (zh) 一种处理缺失数据的方法及装置
CN104504615A (zh) 用于电力作业成本监控的数据处理方法和系统
CN106776614A (zh) 分享平台的显示方法及装置
WO2016101564A1 (zh) 一种话单处理方法及装置
CN106599005B (zh) 一种数据归档方法及装置
CN115576973A (zh) 一种业务部署方法、装置、计算机设备和可读存储介质
CA2886083C (en) A computer implemented method for estimating age-period-cohort models on account-level data
CN110753366A (zh) 行业短信网关容量的预测处理方法及装置
EP3317791A1 (en) Normalizing data sets for predicting an attribute of the data sets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140326