CN103678721A - 一种处理缺失数据的方法及装置 - Google Patents
一种处理缺失数据的方法及装置 Download PDFInfo
- Publication number
- CN103678721A CN103678721A CN201410001575.5A CN201410001575A CN103678721A CN 103678721 A CN103678721 A CN 103678721A CN 201410001575 A CN201410001575 A CN 201410001575A CN 103678721 A CN103678721 A CN 103678721A
- Authority
- CN
- China
- Prior art keywords
- current
- time point
- value
- statistical time
- accumulated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000001186 cumulative effect Effects 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 abstract description 17
- 238000004458 analytical method Methods 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种处理缺失数据的方法及装置,包括在经营周期内出现缺失数据时,利用上一运营周期中相同统计时点的累计值估算本运营周期的当期累计值;根据估算出的当期累计值及上期统计时点实际的累计值,获取当期统计时点缺失数据的估计值。本发明方案针对经营周期对缺失数据进行估算,大大减少了估算所需的数据量即计算复杂度,从而降低了计算占用的系统资源,缩短了运行时间;而且,本发明结合缺失数据时点当期累计值估算数据及前一统计时点的当期累计实际值,更加准确地对缺失数据进行了估算。进一步地,本发明在处理缺失数据的过程中,通过对相关计算元素的存储,为缺失数据的计算提供了参考,提高了缺失数据的处理速度。
Description
技术领域
本发明涉及数据处理技术,尤指一种处理缺失数据的方法及装置。
背景技术
随着信息技术的发展,企业的信息系统覆盖率越来越高,大部分企业都建立了基于各类数据的分析系统,以支持企业的快速、精准决策。
当企业内部信息系统增多后,分析系统在抽取数据时难免会遇到业务源系统由于系统故障或性能问题而无法提供全部或部分数据的情况。在这种情况下,系统界面展示的数据必然存在缺失或失真,给使用带来极大的不便。尤其是总量数据的展示,如果不加处理,会显示大幅度的数据异动,给使用人员带来困扰。
对于缺失数据的处理,通常采用如下处理方式:删除数据、不处理或采用统计方法填充数据等。如果用于分析、挖掘等寻求数据内在规律,缺失的数据可以根据具体影响采用上述三种方式中任一方式进行处理。但是,在企业数据分析系统中,由于数据需要实时展现,如果采用删除数据,或不处理的方式,都会带来总量数据异常波动,从而给数据使用人员带来不便,因此,对于企业数据分析系统,是不能采用简单删除数据或者不处理的方式的,其更适用于填充数据的处理方式。
企业数据分析系统采集数据的频次分为日、月、季或按小时采集的准实时数据,当数据采集频次为按小时或日采集时,需要采用一种快速的填充数据处理方式,不能使用复杂耗时的一般性统计方法来填充数据。
经过对企业数据进行分析,发明人发现企业的数据具有非常显著的周期性特点。独立的数据变化规律往往不明显,但每个运营周期的当期累计值往往具有显著特点,比如:新增用户数,虽然在一个月中观察每天的数据变动,规律性不强,但如果看每个月各天的累计新增用户数,却有比较强的规律性。如果采用一般性统计方法来估算某天的缺失数据,往往忽略了这种针对性,完全基于大量的历史数据进行计算,实现起来比较复杂,且计算量大时占用系统资源多,运行时间长,无法满足快速提供数据的要求。
发明内容
为了解决上述技术问题,本发明提供了一种处理缺失数据的方法及装置,能够在一般性统计方法的基础上,简单、快速、准确地对企业数据中的缺失数据进行处理。
为了达到本发明目的,本发明提供了一种处理缺失数据的方法,当前运营周期出现缺失数据时,包括:利用上一运营周期中相同统计时点的累计值估算本运营周期的当期累计值;
根据估算出的当期累计值及上期统计时点实际的累计值,获取当期统计时点缺失数据的估计值。
所述利用上一运营周期中相同统计时点的当期累计值估算本运营周期当期累计值包括:
根据所述上一运营周期中在统计时点的当期累计值,计算上一运营周期各统计时点的当期累计平均值;
根据上一运营周期中各统计时点的当期累计值,及计算得到的当期累计平均值,计算得到当期累计估计系数;
根据计算得到的当期累计平均值及当期累计估计系数获取当期统计时点累计值的估计值。
所述获取当期统计时点缺失数据的估计值包括:
计算所述统计时点当期累计值的估计值与所述上期统计时点实际的累计值之差,得到的差值为统计时点当期累计值的估计值。
所述经营周期结束时,该方法还包括:存储运营周期各统计时点的当期累计估算系数。
所述运营周期结束后,该方法还包括:存储最近一个经营周期各统计时点的当期累计平均值。
本发明还提供一种处理缺失数据的装置,至少包括第一处理模块、第二处理模块,其中,
第一处理模块,用于根据上一完整的经营周期中各运营周期中各统计时点当期累计值,计算各统计时点的当期累计平均值;根据上一完整的经营周期中各统计时点当期累计值,以及各统计时点的当期累计实际值,计算得到各统计时点当期累计估计系数;根据最近一个经营周期所有运营周期各统计时点的当期累计实际值,计算得到各统计时点的当期累计平均值。
第二处理模块,根据缺失数据所在统计时点的当期累计值估算系数及最近一个经营周期中各统计时点的当期累计平均值,计算得到当前缺失数据统计时点的当期累计估算值,根据估算出的当期累计值及前一天实际的当期累计值,获取当期当天缺失数据的估计值。
还包括存储模块,用于存储第一处理模块计算出的当期累计平均值、当期累计估算系数。
与现有技术相比,本发明包括在当前运营周期内出现缺失数据时,利用上一运营周期中相同统计时点的累计值估算本运营周期的当期累计值;根据估算出的当期累计值及上期统计时点实际的累计值,获取当期统计时点缺失数据的估计值。本发明方案针对经营周期数据特点对缺失数据进行估算,大大减少了估算所需数据量及计算复杂度,从而降低了计算占用的系统资源,缩短了运行时间;而且,本发明结合缺失数据时点当期累计值估算数据及前一统计时点累计值实际数据,更加准确地对缺失数据进行了估算。
进一步地,本发明在处理缺失数据的过程中,通过对相关计算元素的存储,为缺失数据的计算提供了参考,提高了缺失数据的处理速度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明处理缺失数据的方法的流程图;
图2为本发明处理缺失数据的装置的组成结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明处理缺失数据的方法的流程图,如图1所示,包括:
步骤100:当前运营周期出现缺失数据时,利用上一运营周期相同统计时点的累计值估算本运营周期的当期累计值。其中,上一运营周期相同统计时点,指的是自当前时点前推一个运营周期的时间长度所在的时间点。
本步骤中,如何确定缺失数据是否出现属于现有技术,这里不再赘述。这里强调的是,对缺失数据的处理是针对每个经营周期进行的,而每个经营周期由若干个运营周期组成,如12个月为一个经营周期,而每个月为一个运营周期;或者,31天为一个经营周期,而每天为一个运营周期等。具体如何设置经营周期由运营商根据数据特点设置,属于本领域技术人员的惯用技术手段。
本步骤中,可以自当前经营周期前推,选取一整个经营周期的历史数据进行计算,利用历史数据中各运营周期相同统计时点的当期累计值估算统计时点当期累计值,具体包括:首先,根据历史数据中各运营周期缺失数据统计时点的当期累计值,计算缺失上一运营周期各统计时点的当期累计平均值;然后,根据上一运营周期中各统计时点的当期累计值,及计算得到的当期累计平均值,计算当期累计值估计系数;最后,根据计算得到的当期累计平均值及当期累计估计系数获取当期统计时点累计值的估计值。
步骤101:根据估算出的当期累计值及上期统计时点实际的累计值,获取当期统计时点缺失数据的估计值。
本发明方法针对经营周期数据特点对缺失数据进行估算,大大减少了计算所需数据量,降低了计算占用的系统资源,缩短了运行时间;而且,本发明方法结合当期累计值估算数据及前一统计时点实际的当期累计值,更加准确地对缺失数据进行了估算。
以经营周期为1年即12个月,每个运营周期1个月为例,本发明方法中,假设需要估算的值为第m月的第n天即当期当天累计值的估算值,用表示。第m月第n天的当期累计值用Cnm表示;各月第n天的当期累计平均值用表示;第m月第n天的当期累计估算系数用anm表示;第m月第n天缺失数据的估算数用表示。其中,
在公式(1)中,i=t1~t12(此处,(m-t1)、(m-t12)均代表上一年1月、12月)。
接着,第m月第n天的当期累计估算系数anm按照公式(2)计算:
在公式(2)中,Cnm表示上年即上一个经营周期的第m个月第n天的当期累计值。
接着,自m月前推12个月计算近期每月第n天的当期累计平均值,如公式(3):
公式(1)中,i=m-1~m-12(此处,(m-1)、(m-12)代表自m月前推1月、12月)。
通过本发明方法,对经营周期中缺失数据进行估算,符合了企业数据的周期性特点,大大减少了估算所用数据量及复杂度,从而降低了计算占用的系统资源,缩短了运行时间;而且,本发明结合当期当天累计值估算结果及前一天实际的当期累计值,更加准确地对缺失数据进行了估算。
进一步地,本发明方法还包括:当经营周期结束时,存储运营周期各统计时点的当期累计估算系数。重新计算并存储最近一个经营周期各统计时点的累计平均值,如每月第n天的当期累计平均值各运营周期统计时点的当期累计估算系数,如第m月第n天的当期累计估算系数anm,从而在每天结束后即计算出下一天的估算值。通过对这些计算元素及估算值的存储,为缺失数据的计算提供了参考,提高了缺失数据的处理速度。
图2为本发明处理缺失数据的装置的组成结构示意图,如图2所示,至少包括第一处理模块、第二处理模块,其中,
第一处理模块,用于在出现缺失数据时,利用上一运营周期相同统计时点的累计值估算当期统计时点累计值。具体用于,根据上一完整的经营周期中各运营周期中各统计时点当期累计值,计算各统计时点的当期累计平均值;根据上一完整的经营周期中各统计时点当期累计值,以及各统计时点的当期累计实际值,计算得到各统计时点当期累计估计系数;根据最近一个经营周期所有运营周期各统计时点的当期累计实际值,计算得到各统计时点的当期累计平均值。
第二处理模块,用于根据缺失数据所在统计时点的当期累计值估算系数及最近一个经营周期中各统计时点的当期累计平均值,计算得到当前缺失数据统计时点的当期累计估算值,根据估算出的当期统计时点累计值及上期统计时点实际的累计值,获取当期统计时点缺失数据的估计值。
本发明装置还包括存储模块,用于存储第一处理模块计算出的当期累计平均值、当期累计估算系数。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (7)
1.一种处理缺失数据的方法,当前运营周期出现缺失数据时,其特征在于,包括:利用上一运营周期中相同统计时点的累计值估算本运营周期的当期累计值;
根据估算出的当期累计值及上期统计时点实际的累计值,获取当期统计时点缺失数据的估计值。
2.根据权利要求1所述的方法,其特征在于,所述利用上一运营周期中相同统计时点的当期累计值估算本运营周期当期累计值包括:
根据所述上一运营周期中在统计时点的当期累计值,计算上一运营周期各统计时点的当期累计平均值;
根据上一运营周期中各统计时点的当期累计值,及计算得到的当期累计平均值,计算得到当期累计估计系数;
根据计算得到的当期累计平均值及当期累计估计系数获取当期统计时点累计值的估计值。
3.根据权利要求1或2所述的方法,其特征在于,所述获取当期统计时点缺失数据的估计值包括:
计算所述统计时点当期累计值的估计值与所述上期统计时点实际的累计值之差,得到的差值为统计时点当期累计值的估计值。
4.根据权利要求2所述的方法,其特征在于,所述经营周期结束时,该方法还包括:存储运营周期各统计时点的当期累计估算系数。
5.根据权利要求2所述的方法,其特征在于,所述运营周期结束后,该方法还包括:存储最近一个经营周期各统计时点的当期累计平均值。
6.一种处理缺失数据的装置,其特征在于,至少包括第一处理模块、第二处理模块,其中,
第一处理模块,用于根据上一完整的经营周期中各运营周期中各统计时点当期累计值,计算各统计时点的当期累计平均值;根据上一完整的经营周期中各统计时点当期累计值,以及各统计时点的当期累计实际值,计算得到各统计时点当期累计估计系数;根据最近一个经营周期所有运营周期各统计时点的当期累计实际值,计算得到各统计时点的当期累计平均值;
第二处理模块,根据缺失数据所在统计时点的当期累计值估算系数及最近一个经营周期中各统计时点的当期累计平均值,计算得到当前缺失数据统计时点的当期累计估算值,根据估算出的当期累计值及前一天实际的当期累计值,获取当期当天缺失数据的估计值。
7.根据权利要求6所述的装置,其特征在于,还包括存储模块,用于存储第一处理模块计算出的当期累计平均值、当期累计估算系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410001575.5A CN103678721A (zh) | 2014-01-02 | 2014-01-02 | 一种处理缺失数据的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410001575.5A CN103678721A (zh) | 2014-01-02 | 2014-01-02 | 一种处理缺失数据的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103678721A true CN103678721A (zh) | 2014-03-26 |
Family
ID=50316265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410001575.5A Pending CN103678721A (zh) | 2014-01-02 | 2014-01-02 | 一种处理缺失数据的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678721A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228896A (zh) * | 2018-02-05 | 2018-06-29 | 清华大学 | 一种基于密度的缺失数据填补方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102025531A (zh) * | 2010-08-16 | 2011-04-20 | 北京亿阳信通软件研究院有限公司 | 一种性能数据的填补方法及其装置 |
CN102103714A (zh) * | 2009-12-22 | 2011-06-22 | 阿里巴巴集团控股有限公司 | 实现业务数据预测的实时处理平台及预测方法 |
US20120239665A1 (en) * | 2009-11-27 | 2012-09-20 | Nec Corporation | Reputation analysis system and reputation analysis method |
CN103440283A (zh) * | 2013-08-13 | 2013-12-11 | 江苏华大天益电力科技有限公司 | 一种测点数据的补缺系统及补缺方法 |
-
2014
- 2014-01-02 CN CN201410001575.5A patent/CN103678721A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120239665A1 (en) * | 2009-11-27 | 2012-09-20 | Nec Corporation | Reputation analysis system and reputation analysis method |
CN102103714A (zh) * | 2009-12-22 | 2011-06-22 | 阿里巴巴集团控股有限公司 | 实现业务数据预测的实时处理平台及预测方法 |
CN102025531A (zh) * | 2010-08-16 | 2011-04-20 | 北京亿阳信通软件研究院有限公司 | 一种性能数据的填补方法及其装置 |
CN103440283A (zh) * | 2013-08-13 | 2013-12-11 | 江苏华大天益电力科技有限公司 | 一种测点数据的补缺系统及补缺方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228896A (zh) * | 2018-02-05 | 2018-06-29 | 清华大学 | 一种基于密度的缺失数据填补方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885469B (zh) | 一种扩容方法、预测模型创建方法、装置、设备及介质 | |
CN112730938B (zh) | 一种基于用电采集大数据的窃电用户判断方法 | |
US11748595B2 (en) | Convolution acceleration operation method and apparatus, storage medium and terminal device | |
CN110781167B (zh) | 一种基于聚类压缩感知的用户缺失电量数据修复方法 | |
WO2015050567A1 (en) | System and method for performing set operations with defined sketch accuracy distribution | |
EP3349126B1 (en) | Method, device, storage medium, and apparatus for automatically discovering fuel station poi | |
CN113502870B (zh) | 挖掘机工况判定方法及装置 | |
CN103714004A (zh) | Jvm在线内存泄露分析方法及系统 | |
CN104680250A (zh) | 一种位置预测系统 | |
US20140325251A1 (en) | Synthetic time series data generation | |
CN104820663A (zh) | 发现低性能的sql语句以及预测sql语句性能的方法和装置 | |
CN109684320B (zh) | 监测数据在线清洗的方法和设备 | |
US10713578B2 (en) | Estimating utilization of network resources using time series data | |
CN105243098A (zh) | 人脸图像的聚类方法及装置 | |
WO2019194872A1 (en) | Intelligent incentive distribution | |
CN116703132B (zh) | 共享车辆动态调度的管理方法、装置及计算机设备 | |
CN103678721A (zh) | 一种处理缺失数据的方法及装置 | |
CN104504615A (zh) | 用于电力作业成本监控的数据处理方法和系统 | |
CN106776614A (zh) | 分享平台的显示方法及装置 | |
WO2016101564A1 (zh) | 一种话单处理方法及装置 | |
CN106599005B (zh) | 一种数据归档方法及装置 | |
CN115576973A (zh) | 一种业务部署方法、装置、计算机设备和可读存储介质 | |
CA2886083C (en) | A computer implemented method for estimating age-period-cohort models on account-level data | |
CN110753366A (zh) | 行业短信网关容量的预测处理方法及装置 | |
EP3317791A1 (en) | Normalizing data sets for predicting an attribute of the data sets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140326 |