CN111143344A - 一种用于时间序列数据缺失的补全方法及装置 - Google Patents
一种用于时间序列数据缺失的补全方法及装置 Download PDFInfo
- Publication number
- CN111143344A CN111143344A CN201911406156.9A CN201911406156A CN111143344A CN 111143344 A CN111143344 A CN 111143344A CN 201911406156 A CN201911406156 A CN 201911406156A CN 111143344 A CN111143344 A CN 111143344A
- Authority
- CN
- China
- Prior art keywords
- sample
- missing
- point
- points
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 29
- 230000003203 everyday effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 10
- 230000007812 deficiency Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000005070 sampling Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000001172 regenerating effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明适用于能源数据处理技术领域,提供了一种用于时间序列数据缺失的补全方法及装置,该方法包括:根据目标对象的原始时间序列数据,确定原始时间序列数据中缺失数据的样本缺失点;根据样本缺失点,从原始时间序列数据中确定相似时刻的样本点及样本点对应的样本值;采用克里金插值模型对样本点进行处理,以获取样本点的权重系数;根据样本点对应的权重系数和样本值,获取样本缺失点的预测样本值,以实现对原始时间序列数据中缺失数据的补全。本发明中克里金插值模型的使用使预测结果更科学、更接近于实际情况,并且插值的可靠程度简单且易于理解,提升了补全计算的速度,提高了补全精度,节约了计算资源,可重复性好。
Description
技术领域
本发明属于能源数据处理技术领域,尤其涉及一种用于时间序列数据缺失的补全方法及装置。
背景技术
综合能源系统对于能源站日常工作的调度、调配以及运行起到中枢控制作用,所以综合能源系统的正常运作是能源站良好运行的基础。目前,综合能源系统中时间序列存在数据缺失的问题,通常需要对时间序列缺失的部分进行补全,否则不能很好的进行回归预测分析。因此需要对时间序列进行补全处理,一般的方法有多项式插值、牛顿插值、样条插值等,但这些插值方法不能很好的反应出时间序列中存在的特性问题。针对时间序列存在数据缺失这一问题,亟需一种解决该问题的新技术。
发明内容
有鉴于此,本发明实施例提供了一种用于时间序列数据缺失的补全方法、装置、终端设备及计算机可读存储介质,以解决时间序列存在数据缺失的问题或现有方法不能很好的反应出时间序列中存在的特性的问题。
本发明实施例的第一方面,提供了一种用于时间序列数据缺失的补全方法,包括:
根据目标对象的原始时间序列数据,确定所述原始时间序列数据中缺失数据的样本缺失点;
根据所述样本缺失点,从所述原始时间序列数据中确定相似时刻的样本点及样本点对应的样本值;
采用克里金插值模型对所述样本点进行处理,以获取所述样本点的权重系数;
根据所述样本点对应的权重系数和样本值,获取所述样本缺失点的预测样本值,以实现对所述原始时间序列数据中缺失数据的补全。
本发明实施例的第二方面,提供了一种用于时间序列数据缺失的补全装置,包括:
样本缺失点获取模块,用于根据目标对象的原始时间序列数据,确定所述原始时间序列数据中缺失数据的样本缺失点;
样本点获取模块,用于根据所述样本缺失点,从所述原始时间序列数据中确定相似时刻的样本点及样本点对应的样本值;
权重系数获取模块,用于采用克里金插值模型对所述样本点进行处理,以获取所述样本点的权重系数;
预测样本值获取模块,用于根据所述样本点对应的权重系数和样本值,获取所述样本缺失点的预测样本值,以实现对所述原始时间序列数据中缺失数据的补全。
本发明实施例的第三方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述用于时间序列数据缺失的补全方法的步骤。
本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述用于时间序列数据缺失的补全方法的步骤。
本发明实施例提供的用于时间序列数据缺失的补全方法有益效果至少在于:本发明中克里金插值模型的使用使预测结果更科学、更接近于实际情况,并且插值的可靠程度简单且易于理解,提升了补全计算的速度,提高了补全精度,节约了计算资源,可重复性好。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的用于时间序列数据缺失的补全方法的实现流程示意图一;
图2是本发明实施例提供的用于时间序列数据缺失的补全方法中确定相似时刻的样本点及样本点对应的样本值的实现流程示意图;
图3是本发明实施例提供的用于时间序列数据缺失的补全方法的实现流程示意图二;
图4是本发明实施例提供的用于时间序列数据缺失的补全方法中对所述克里金插值模型进行训练的实现流程示意图一;
图5是本发明实施例提供的用于时间序列数据缺失的补全方法中对所述克里金插值模型进行训练的实现流程示意图二;
图6是本发明实施例提供的用于时间序列数据缺失的补全装置的示意图一;
图7是本发明实施例提供的用于时间序列数据缺失的补全装置中样本点获取模块的示意图;
图8是本发明实施例提供的用于时间序列数据缺失的补全装置的示意图二;
图9是本发明实施例提供的用于时间序列数据缺失的补全装置中训练模块的示意图一;
图10是本发明实施例提供的用于时间序列数据缺失的补全装置中训练模块的示意图二。
图11是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
参阅图1,是本发明实施例提供的用于时间序列数据缺失的补全方法的实现流程示意图一,该方法可以包括:
步骤S10:根据目标对象的原始时间序列数据,确定所述原始时间序列数据中缺失数据的样本缺失点。
请参阅图1,进一步地,在确定所述原始时间序列数据中缺失数据的样本缺失点后,可以进行下述步骤:
步骤S30:根据所述样本缺失点,从所述原始时间序列数据中确定相似时刻的样本点及样本点对应的样本值。
为了获取样本点对应的样本值,需要首先确定相似时刻的样本点。请参阅图2,是本发明实施例提供的用于时间序列数据缺失的补全方法中确定相似时刻的样本点及样本点对应的样本值的实现流程示意图,在本实施例中,确定相似时刻的样本点及样本点对应的样本值的一种方式可以包括如下步骤:
步骤S301:根据预设规则,确定所述原始时间序列数据中与所述样本缺失点对应的相似时刻的样本点,所述相似时刻的样本点包括以下类型中的一种:所述样本缺失点前后预设时长内的样本点,所述样本缺失点前后预设天数每天同一时刻的样本点,所述样本缺失点前后预设周数每周同一时刻的样本点,所述样本缺失点前后预设月数每月同一时刻的样本点,所述样本缺失点前后预设年数每年同一时刻的样本点。
例如:某t时刻的数据,相似时刻的样本点数据提取的策略是:前3天每天对应的同一时刻的数据,前3周对应时刻的数据,前3个月对应时刻的数据,去年对应此时刻的数据。
应当理解的是,具体时间数据的选择是根据需要进行的,也可以是任意时间,如前5天,前7个月等,此处不做限制。
在确定所述原始时间序列数据中与所述样本缺失点对应的相似时刻的样本点后,可进行以下步骤:
步骤S303:获取所述相似时刻的样本点对应的样本值。
获取所述相似时刻的样本点对应的样本值步骤后,还包括:对所述样本值进行预处理,以对所述样本值进行修正,获取经过修正的样本值。
请参阅图1,进一步地,在确定相似时刻的样本点及样本点对应的样本值后,可以进行下述步骤:
步骤S50:采用克里金插值模型对所述样本点进行处理,以获取所述样本点的权重系数。
通过求解克里金方程组,获取样本点的权重系数,所述克里金方程组为:
其中,x表征相似时刻的样本点,xi表征位于i处的相似时刻的样本点,xj表征位于j处的相似时刻的样本点,λ表征权重系数,λi表征位于i处的权重系数,λj表征位于j处的权重系数,C表征协方差函数,μ表征拉格朗日因子。
克里金法的基本思想是通过计算该点邻域中函数的已知值的加权平均值来预测给定点处的函数的值。该方法在数学上与回归分析密切相关。两种理论都得出最佳线性无偏估计,基于协方差假设,利用高斯-马尔可夫定理证明估计和误差的独立性,并利用非常相似的公式。即便如此,它们在不同的框架中也是有用的:克里金法用于估计随机场的单个实现,而回归模型基于多变量数据集的多个观察。
克里金估计也可以看作是再生核希尔伯特空间中的样条,其中再现核由协方差函数给出。解释提供了与经典克里金方法的差异:虽然样条是基于希尔伯特空间结构的最小范数插值的推动,但克里金法是基于随机模型的预期平方预测误差。
克里金法也可以理解为贝叶斯推理的一种形式。克里金法从事先分配函数开始。该先验采用高斯过程的形式:来自函数的N个样本将是正态分布的,其中任何两个样本之间的协方差是在空间位置处评估的高斯过程的协方差函数(或核),然后观察一组值,每个值与空间位置相关联。通过将高斯先验与高斯似然函数组合用于每个观察值,可以在任何新的空间位置预测新值。得到的后验分布也是高斯分布,其均值和协方差可以简单地衡量观测值,它们的方差是从先验得到的核矩阵计算得出。
目前针对时间序列插值的主流方法大多是基于多项式插值的原理,结合临近点的构成多项式插值基本多项式。在根据已知点求得基本多项式的参数时,最终可以得到时间中缺失的值。但是基于多项式插值的方法,计算时存在一些问题,例如:当插值点增加或减少一个时,所对应的基本多项式就需要全部重新计算,于是整个公式都会变化,非常繁琐。这时可以用重心拉格朗日插值法或牛顿插值法来代替。此外,当插值点比较多的时候,拉格朗日插值多项式的次数可能会很高,因此具有数值不稳定的特点,也就是说尽管在已知的几个点取到给定的数值,但在附近却会和“实际上”的值之间有很大的偏差。因此,为了优化计算的速度,同时能够更精确的反应出时间序列的规律以及潜在趋势,以及在插值之后能够通过一些指标精确的反应出插值的结果,提出了克里金插值方法来针对时间序列进行插值。
克里金插值方法起源于地理统计学,估计未采样物体的坐标方位演变而来。
克里金插值法可以表示为:
其中,Z(xi)为所述样本点的样本值,为所述预测样本值,λ为权重系数,表示样本空间中样本点xi处的样本值Z(xi)对其预测样本值的贡献程度。因此克里金插值法的关键在于求权重系数,而权重系数满足两个假设条件:是Z(xi)的无偏估计量,即与相同;必须使估计方差最小,也就是估计值和实际值之差的平方和最小,即:
而要使估计值的方差最小,根据拉格朗日乘数原理,可以得到:
求F对λ以及μ的偏导数,并且令偏导数为0,就可以得到克里金方程组:
转化后可以得到:
请参阅图1,进一步地,在获取所述样本点的权重系数,可以进行下述步骤:
步骤S70:根据所述样本点对应的权重系数和样本值,获取所述样本缺失点的预测样本值,以实现对所述原始时间序列数据中缺失数据的补全。
根据所述样本点对应的权重系数和样本值,获取所述样本缺失点的预测样本值步骤中,所述预测样本值的计算方式为:
进一步地,请参阅图3,是本发明实施例提供的用于时间序列数据缺失的补全方法的实现流程示意图二。采用克里金插值模型对所述样本点进行处理,以获取所述样本点的权重系数步骤前,还包括对所述克里金插值模型进行训练,以获取经过训练的克里金插值模型,可以包括下述步骤:
步骤S40:对所述克里金插值模型进行训练,以获取经过训练的克里金插值模型。
进一步地,为了经过训练的克里金插值模型,需要对所述克里金插值模型进行训练。请参阅图4,是本发明实施例提供的用于时间序列数据缺失的补全方法中对所述克里金插值模型进行训练的实现流程示意图一,在本实施例中,对所述克里金插值模型进行训练的一种方式可以包括如下步骤:
步骤S401:根据目标对象的原始时间序列数据,确定标记样本集和未标记样本集。
步骤S403:初始化克里金插值模型的参数,并采用所述标记样本集对所述初始化克里金插值模型进行训练,以获取经过初步训练的克里金插值模型和所述标记样本的样本值。
步骤S405:采用所述经过初步训练的克里金插值模型对所述未标记样本集中的未标记样本进行处理,以获取预测插值。
步骤S407:获取所述预测插值的置信度,并判断所述置信度是否满足预设要求。
所述置信度的获取方式为:
若所述预测插值的置信度满足预设要求,则进行步骤S409:将所述未标记样本及其预测插值加入所述标记样本集,并返回所述采用所述标记样本集对所述初始化克里金插值模型进行训练步骤。
若所述预测插值的置信度不满足预设要求,则返回所述采用所述标记样本集对所述初始化克里金插值模型进行训练步骤。
进一步地,请参阅图5,是本发明实施例提供的用于时间序列数据缺失的补全方法中对所述克里金插值模型进行训练的实现流程示意图二。所述返回所述采用所述标记样本集对所述初始化克里金插值模型进行训练步骤前,判断置信度满足预设要求的未标记样本集数量是否达到预设目标,可以包括下述步骤:
步骤S4011:判断置信度满足预设要求的未标记样本集数量是否达到预设目标。
应当理解的是,在判断置信度满足预设要求的未标记样本集数量是否达到预设目标前,对所述不满足预设置信度的未标记样本集中的数据可以进行迭代处理。
进一步地,判断置信度满足预设要求的未标记样本集数量是否达到预设目标,请参阅图5,在本实施例中,判断置信度满足预设要求的未标记样本集数量是否达到预设目标的一种方式可以包括如下步骤:
若置信度满足预设要求的未标记样本集数量满足所述预设目标,则进行步骤S40111:停止对所述克里金插值模型进行训练。
若置信度满足预设要求的未标记样本集数量不满足预设目标,则返回所述采用所述标记样本集对所述初始化克里金插值模型进行训练步骤。
本实施例中应该注意的是,在置信度满足预设要求的未标记样本集数量不满足预设目标的情况下,可以继续进行:若所述预测插值的置信度满足预设要求,则进行步骤S409:将所述未标记样本及其预测插值加入所述标记样本集,并返回所述采用所述标记样本集对所述初始化克里金插值模型进行训练步骤,进而进一步获取经过训练的克里金插值模型。
应当理解的是,以上各英文字母和/或符号仅是为清楚说明设备或者方法的具体参数意义,也可用其他字母或者符号表示,此处不做限制。
应当理解的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明实施例提供的用于时间序列数据缺失的补全方法有益效果至少在于:本发明实施例使用克里金插值能够很好的反映出时间序列之间的关系,同时还能够根据插值的结果方差了解到插值的可靠程度,优化了计算的速度,更精确的反应出时间序列的规律以及潜在趋势,以及在插值之后能够通过一些指标精确的反应出插值的结果;同时克里金插值的模型,可以针对统一模式的时间序列重复进行插值且结果不会有较大偏差,增加了模型的复用性;本方法提升了补全计算的速度,提高了补全精度,节约了计算资源,可重复性好。
本发明实施例的目的还在于提供一种用于时间序列数据缺失的补全装置,图6是本发明实施例提供的用于时间序列数据缺失的补全装置的示意图一,为了便于说明,仅示出与本申请实施例相关的部分。
请参阅图6,用于时间序列数据缺失的补全装置包括样本缺失点获取模块81、样本点获取模块83、权重系数获取模块85以及预测样本值获取模块87。其中,样本缺失点获取模块81用于根据目标对象的原始时间序列数据,确定所述原始时间序列数据中缺失数据的样本缺失点;样本点获取模块83用于根据所述样本缺失点,从所述原始时间序列数据中确定相似时刻的样本点及样本点对应的样本值;权重系数获取模块85用于采用克里金插值模型对所述样本点进行处理,以获取所述样本点的权重系数;预测样本值获取模块87用于根据所述样本点对应的权重系数和样本值,获取所述样本缺失点的预测样本值,以实现对所述原始时间序列数据中缺失数据的补全。
请参阅图7,样本点获取模块83包括样本点获取单元831和样本值获取单元833。其中,样本点获取单元831用于根据预设规则,确定所述原始时间序列数据中与所述样本缺失点对应的相似时刻的样本点,所述相似时刻的样本点包括以下类型中的一种:所述样本缺失点前后预设时长内的样本点,所述样本缺失点前后预设天数每天同一时刻的样本点,所述样本缺失点前后预设周数每周同一时刻的样本点,所述样本缺失点前后预设月数每月同一时刻的样本点,所述样本缺失点前后预设年数每年同一时刻的样本点;样本值获取单元833用于获取所述相似时刻的样本点对应的样本值。
进一步地,请参阅图8,是本发明实施例提供的用于时间序列数据缺失的补全装置的示意图二,用于时间序列数据缺失的补全装置还包括训练模块84,用于对所述克里金插值模型进行训练,以获取经过训练的克里金插值模型。
请参阅图9,训练模块84包括确定单元841、第一获取单元843、第二获取单元845、第一判断单元847以及满足预设要求单元849。其中,确定单元841用于根据目标对象的原始时间序列数据,确定标记样本集和未标记样本集;第一获取单元843用于初始化克里金插值模型的参数,并采用所述标记样本集对所述初始化克里金插值模型进行训练,以获取经过初步训练的克里金插值模型和所述标记样本的样本值;第二获取单元845用于采用所述经过初步训练的克里金插值模型对所述未标记样本集中的未标记样本进行处理,以获取预测插值;第一判断单元847用于获取所述预测插值的置信度,并判断所述置信度是否满足预设要求;满足预设要求单元849用于若所述预测插值的置信度满足预设要求,则将所述未标记样本及其预测插值加入所述标记样本集,并返回所述采用所述标记样本集对所述初始化克里金插值模型进行训练步骤。
进一步地,请参阅图10,是本发明实施例提供的用于时间序列数据缺失的补全装置中训练模块的示意图二,训练模块84还包括第二判断单元8411,用于判断置信度满足预设要求的未标记样本集数量是否达到预设目标。
图11是本发明一实施例提供的终端设备的示意图。如图11所示,所述终端设备9,包括存储器91、处理器90以及存储在所述存储器91中并可在所述处理器90上运行的计算机程序92,所述处理器90执行所述计算机程序92时实现如所述用于时间序列数据缺失的补全方法的步骤,例如图1-图5所示的步骤S10至S70。
所述终端设备9可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器90、所述存储器91。本领域技术人员可以理解,图11仅仅是终端设备9的示例,并不构成对终端设备9的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器90可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器91可以是所述终端设备9的内部存储单元,例如终端设备9的硬盘或内存。所述存储器91也可以是终端设备9的外部存储设备,例如所述终端设备9上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器91还可以既包括所述终端设备9的内部存储单元也包括外部存储设备。所述存储器91用于存储所述计算机程序以及所述终端设备所需的其它程序和数据。所述存储器91还可以用于暂时地存储已经输出或者将要输出的数据。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
具体可以如下,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端设备中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上计算机程序:
计算机可读存储介质,包括所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述用于时间序列数据缺失的补全方法的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用于时间序列数据缺失的补全方法,其特征在于,包括:
根据目标对象的原始时间序列数据,确定所述原始时间序列数据中缺失数据的样本缺失点;
根据所述样本缺失点,从所述原始时间序列数据中确定相似时刻的样本点及样本点对应的样本值;
采用克里金插值模型对所述样本点进行处理,以获取所述样本点的权重系数;
根据所述样本点对应的权重系数和样本值,获取所述样本缺失点的预测样本值,以实现对所述原始时间序列数据中缺失数据的补全。
2.如权利要求1所述的用于时间序列数据缺失的补全方法,其特征在于,所述根据所述样本缺失点,从所述原始时间序列数据中确定相似时刻的样本点及样本点对应的样本值步骤,包括:
根据预设规则,确定所述原始时间序列数据中与所述样本缺失点对应的相似时刻的样本点,所述相似时刻的样本点包括以下类型中的一种:所述样本缺失点前后预设时长内的样本点,所述样本缺失点前后预设天数每天同一时刻的样本点,所述样本缺失点前后预设周数每周同一时刻的样本点,所述样本缺失点前后预设月数每月同一时刻的样本点,所述样本缺失点前后预设年数每年同一时刻的样本点;
获取所述相似时刻的样本点对应的样本值。
3.如权利要求2所述的用于时间序列数据缺失的补全方法,其特征在于,所述获取所述相似时刻的样本点对应的样本值步骤后,还包括:
对所述样本值进行预处理,以对所述样本值进行修正,获取经过修正的样本值。
6.如权利要求1所述的用于时间序列数据缺失的补全方法,其特征在于,所述采用克里金插值模型对所述样本点进行处理,以获取所述样本点的权重系数步骤前,还包括对所述克里金插值模型进行训练,以获取经过训练的克里金插值模型,包括:
根据目标对象的原始时间序列数据,确定标记样本集和未标记样本集;
初始化克里金插值模型的参数,并采用所述标记样本集对所述初始化克里金插值模型进行训练,以获取经过初步训练的克里金插值模型和所述标记样本的样本值;
采用所述经过初步训练的克里金插值模型对所述未标记样本集中的未标记样本进行处理,以获取预测插值;
获取所述预测插值的置信度,并判断所述置信度是否满足预设要求;
若所述预测插值的置信度满足预设要求,则将所述未标记样本及其预测插值加入所述标记样本集,并返回所述采用所述标记样本集对所述初始化克里金插值模型进行训练步骤。
7.如权利要求6所述的用于时间序列数据缺失的补全方法,其特征在于,所述返回所述采用所述标记样本集对所述初始化克里金插值模型进行训练步骤前,判断置信度满足预设要求的未标记样本集数量是否达到预设目标;
若置信度满足预设要求的未标记样本集数量满足所述预设目标,则停止对所述克里金插值模型进行训练;
若置信度满足预设要求的未标记样本集数量不满足预设目标,则返回所述采用所述标记样本集对所述初始化克里金插值模型进行训练步骤。
9.一种用于时间序列数据缺失的补全装置,其特征在于,包括:
样本缺失点获取模块,用于根据目标对象的原始时间序列数据,确定所述原始时间序列数据中缺失数据的样本缺失点;
样本点获取模块,用于根据所述样本缺失点,从所述原始时间序列数据中确定相似时刻的样本点及样本点对应的样本值;
权重系数获取模块,用于采用克里金插值模型对所述样本点进行处理,以获取所述样本点的权重系数;
预测样本值获取模块,用于根据所述样本点对应的权重系数和样本值,获取所述样本缺失点的预测样本值,以实现对所述原始时间序列数据中缺失数据的补全。
10.如权利要求9所述的用于时间序列数据缺失的补全装置,其特征在于,所述用于时间序列数据缺失的补全装置还包括:
训练模块,用于对所述克里金插值模型进行训练,以获取经过训练的克里金插值模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911406156.9A CN111143344A (zh) | 2019-12-31 | 2019-12-31 | 一种用于时间序列数据缺失的补全方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911406156.9A CN111143344A (zh) | 2019-12-31 | 2019-12-31 | 一种用于时间序列数据缺失的补全方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111143344A true CN111143344A (zh) | 2020-05-12 |
Family
ID=70522816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911406156.9A Pending CN111143344A (zh) | 2019-12-31 | 2019-12-31 | 一种用于时间序列数据缺失的补全方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111143344A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112965969A (zh) * | 2021-03-08 | 2021-06-15 | 咪咕文化科技有限公司 | 统计数据的补录方法、装置、电子设备及存储介质 |
CN113406496A (zh) * | 2021-05-26 | 2021-09-17 | 广州市香港科大霍英东研究院 | 基于模型迁移的电池容量预测方法、系统、装置及介质 |
CN113535947A (zh) * | 2021-05-21 | 2021-10-22 | 河南师范大学 | 一种带有缺失标记的不完备数据的多标记分类方法及装置 |
CN114611396A (zh) * | 2022-03-15 | 2022-06-10 | 国网安徽省电力有限公司蚌埠供电公司 | 一种基于大数据分析线损的方法 |
CN116776238A (zh) * | 2023-08-25 | 2023-09-19 | 汇杰设计集团股份有限公司 | 一种基于多源信息水旱灾害动态风险评估方法和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577649A (zh) * | 2017-09-26 | 2018-01-12 | 广州供电局有限公司 | 缺失数据的插补处理方法及装置 |
CN108228832A (zh) * | 2018-01-04 | 2018-06-29 | 南京大学 | 一种基于距离矩阵的时间序列数据补全方法 |
CN109299170A (zh) * | 2018-10-25 | 2019-02-01 | 南京大学 | 一种针对带标签时间序列数据的补全方法 |
CN109359104A (zh) * | 2018-09-14 | 2019-02-19 | 广州帷策智能科技有限公司 | 时间数据序列的缺失数据插值方法和装置 |
CN109726503A (zh) * | 2019-01-12 | 2019-05-07 | 国电联合动力技术有限公司 | 缺失数据填补方法及装置 |
CN110175168A (zh) * | 2019-05-28 | 2019-08-27 | 山东大学 | 一种基于生成对抗网络的时间序列数据填补方法及系统 |
CN110457867A (zh) * | 2019-10-08 | 2019-11-15 | 杭州知衣科技有限公司 | 一种基于机器学习的时间序列数据填补与还原方法 |
CN110580328A (zh) * | 2019-09-11 | 2019-12-17 | 江苏省地质工程勘察院 | 一种地下水位监测值缺失的修复方法 |
-
2019
- 2019-12-31 CN CN201911406156.9A patent/CN111143344A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577649A (zh) * | 2017-09-26 | 2018-01-12 | 广州供电局有限公司 | 缺失数据的插补处理方法及装置 |
CN108228832A (zh) * | 2018-01-04 | 2018-06-29 | 南京大学 | 一种基于距离矩阵的时间序列数据补全方法 |
CN109359104A (zh) * | 2018-09-14 | 2019-02-19 | 广州帷策智能科技有限公司 | 时间数据序列的缺失数据插值方法和装置 |
CN109299170A (zh) * | 2018-10-25 | 2019-02-01 | 南京大学 | 一种针对带标签时间序列数据的补全方法 |
CN109726503A (zh) * | 2019-01-12 | 2019-05-07 | 国电联合动力技术有限公司 | 缺失数据填补方法及装置 |
CN110175168A (zh) * | 2019-05-28 | 2019-08-27 | 山东大学 | 一种基于生成对抗网络的时间序列数据填补方法及系统 |
CN110580328A (zh) * | 2019-09-11 | 2019-12-17 | 江苏省地质工程勘察院 | 一种地下水位监测值缺失的修复方法 |
CN110457867A (zh) * | 2019-10-08 | 2019-11-15 | 杭州知衣科技有限公司 | 一种基于机器学习的时间序列数据填补与还原方法 |
Non-Patent Citations (4)
Title |
---|
卢月明等: "基于半监督学习的克里金插值方法" * |
孙晓飞: "基于核相似性和低秩近似的缺失值填充算法研究" * |
王丽娜: "气象要素空间插值算法的研究及其应用" * |
贾梓健等: "基于傅里叶变换和kNNI的周期性时序数据缺失值补全算法" * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112965969A (zh) * | 2021-03-08 | 2021-06-15 | 咪咕文化科技有限公司 | 统计数据的补录方法、装置、电子设备及存储介质 |
CN112965969B (zh) * | 2021-03-08 | 2024-05-07 | 咪咕文化科技有限公司 | 统计数据的补录方法、装置、电子设备及存储介质 |
CN113535947A (zh) * | 2021-05-21 | 2021-10-22 | 河南师范大学 | 一种带有缺失标记的不完备数据的多标记分类方法及装置 |
CN113535947B (zh) * | 2021-05-21 | 2024-10-15 | 河南师范大学 | 一种带有缺失标记的不完备数据的多标记分类方法及装置 |
CN113406496A (zh) * | 2021-05-26 | 2021-09-17 | 广州市香港科大霍英东研究院 | 基于模型迁移的电池容量预测方法、系统、装置及介质 |
CN113406496B (zh) * | 2021-05-26 | 2023-02-28 | 广州市香港科大霍英东研究院 | 基于模型迁移的电池容量预测方法、系统、装置及介质 |
CN114611396A (zh) * | 2022-03-15 | 2022-06-10 | 国网安徽省电力有限公司蚌埠供电公司 | 一种基于大数据分析线损的方法 |
CN116776238A (zh) * | 2023-08-25 | 2023-09-19 | 汇杰设计集团股份有限公司 | 一种基于多源信息水旱灾害动态风险评估方法和系统 |
CN116776238B (zh) * | 2023-08-25 | 2023-11-03 | 汇杰设计集团股份有限公司 | 一种基于多源信息水旱灾害动态风险评估方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111143344A (zh) | 一种用于时间序列数据缺失的补全方法及装置 | |
Bauer et al. | Correcting estimation bias in dynamic term structure models | |
Zhang et al. | Efficient factor garch models and factor-dcc models | |
CN102955902A (zh) | 雷达模拟设备可信度的评估方法及评估系统 | |
Jain et al. | Pricing high-dimensional Bermudan options using the stochastic grid method | |
Elorrieta et al. | Discrete-time autoregressive model for unequally spaced time-series observations | |
CN111091420A (zh) | 一种电力价格的预测方法及装置 | |
CN113516275A (zh) | 一种配电网超短期负荷预测方法、装置及终端设备 | |
CN112988840A (zh) | 一种时间序列预测方法、装置、设备和存储介质 | |
WO2023050649A1 (zh) | 基于数据补全的esg指数确定方法及相关产品 | |
CN113190429B (zh) | 服务器性能预测方法、装置及终端设备 | |
Marjoram | Approximation bayesian computation | |
CN110991761A (zh) | 一种供热负荷预测方法及装置 | |
CN108694472B (zh) | 预测误差极值分析方法、装置、计算机设备和存储介质 | |
CN113688297A (zh) | 期权信息的显示和分析方法、装置、设备及存储介质 | |
CN116486259B (zh) | 遥感图像中的点目标的提取方法和装置 | |
CN113962874A (zh) | 母线负荷模型的训练方法、装置、设备及存储介质 | |
WO2020199483A1 (zh) | 金融数据的图像处理方法、装置、设备及计算机可读存储介质 | |
CN108830663B (zh) | 电力客户价值评价方法、系统及终端设备 | |
Mínguez et al. | Revisited mixed extreme wave climate model for reanalysis data bases | |
WO2022227219A1 (zh) | 房产指数数据分析方法、装置、设备及存储介质 | |
Adelfio | Change-point detection for variance piecewise constant models | |
Dutta | Local smoothing for kernel distribution function estimation | |
Puchala et al. | Numerical accuracy of integral images computation algorithms | |
Fišerová et al. | Statistical inference in orthogonal regression for three-part compositional data using a linear model with type-II constraints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200512 |
|
RJ01 | Rejection of invention patent application after publication |