CN107577649A - 缺失数据的插补处理方法及装置 - Google Patents

缺失数据的插补处理方法及装置 Download PDF

Info

Publication number
CN107577649A
CN107577649A CN201710884190.1A CN201710884190A CN107577649A CN 107577649 A CN107577649 A CN 107577649A CN 201710884190 A CN201710884190 A CN 201710884190A CN 107577649 A CN107577649 A CN 107577649A
Authority
CN
China
Prior art keywords
mrow
msub
data
missing
interpolation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710884190.1A
Other languages
English (en)
Inventor
邓广昌
谷海彤
陈劭华
杨悦辉
李慧
蔡妙妆
彭正阳
张捷
崔卓
吴晓强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau Co Ltd filed Critical Guangzhou Power Supply Bureau Co Ltd
Priority to CN201710884190.1A priority Critical patent/CN107577649A/zh
Publication of CN107577649A publication Critical patent/CN107577649A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明提出一种缺失数据的插补处理方法,包括以下步骤:获取预设时间区域内的数据集,搜索预设时间区域内缺失的数据,以及缺失的数据对应的时间;根据缺失的数据对应的时间,构建DA多重插补模型;根据所述多重插补模型,计算所述缺失的数据对应的时间处的多个中间插补值;从所述多个中间插补值中获取预测误差最小的插补值,作为所述缺失的数据对应的最终插补值;在所述缺失的数据对应的时间处,利用所述最终插补值替换所述缺失的数据;利用多重插模型对缺失数据进行插补,在多重插补过程中产生多个中间插补值,利用插补值之间的变异性来反映缺失数据的不确定性,并且替换缺失的数据的插补值是预测误差最小的插补值,与原始数据相比,误差较小。

Description

缺失数据的插补处理方法及装置
技术领域
本发明涉及对缺失数据处理的技术领域,尤其涉及一种数据缺失处理方法。
背景技术
目前针对缺失数据的插补方法大多是回归插补、冷卡插补、演绎插补、热卡插补、均值插补等单一插补。单一插补简单易行,是传统的缺失值插补方法,但是单一插补将缺失数据看作是确定值,再加上受到单一插补模型的限制,得到的单一插补值替代缺失数据后,与原始数据相比会产生较大误差。
发明内容
基于此,有必要针对将单一插补值替代缺失数据后,与原始数据相比会产生较大误差的问题,提供一种数据缺失处理方法及装置。
一种缺失数据的插补处理方法,包括以下步骤:
获取预设时间区域内的数据集,搜索预设时间区域内缺失的数据,以及缺失的数据对应的时间;
根据缺失的数据对应的时间,构建DA多重插补模型;
根据所述多重插补模型,计算所述缺失的数据对应的时间处的多个中间插补值;
从所述多个中间插补值中获取预测误差最小的插补值,作为所述缺失的数据对应的最终插补值;
在所述缺失的数据对应的时间处,利用所述最终插补值替换所述缺失的数据。
一种缺失数据的插补处理装置,包括:
缺失数据搜索模块,用于获取预设时间区域内的数据集,搜索预设时间区域内缺失的数据序列,以及缺失的数据序列对应的时间序列;
多重插补模型构建模块,用于根据缺失的数据序列对应的时间序列,构建基于时间序列的多重插补模型;
中间插补值计算模块,用于根据所述多重插补模型,计算所述缺失的数据序列对应的时间序列处的多个中间插补值;
最终插补值获取模块,用于从所述多个中间插补值中获取预测误差最小的插补值序列,作为所述缺失的数据对应的最终插补值序列;
缺失数据替换模块,用于在所述缺失的数据对应的时间处,利用所述最终插补值序列替换所述缺失的数据序列。
上述缺失数据的插补方法,利用多重插模型对缺失数据进行插补,在多重插补过程中产生多个中间插补值,利用插补值之间的变异性来反映缺失数据的不确定性,并且替换缺失的数据的插补值是预测误差最小的插补值,与原始数据相比,误差较小。并且,有的数据例如电能量数据是随时间波动的,例如工作日的用电高峰(早晚)和用电低谷(上午和下午)时电能量数据显然不是同一分布,随时间呈波动特性,而周末的电能量数据分布会比较均匀,所述DA 多重插补模型充分考虑电能量数据在用电高峰和低谷等不同状态下的时间波动性,构建的多重插补模型更加符合客观实际情况,能够对电能量缺失数据进行合理补值,准确的描述缺失数据。
附图说明
图1为本发明的一种缺失数据的插补处理方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1为本发明的一种缺失数据的插补处理方法的流程示意图。
本实施方式的缺失数据的插补处理方法,可包括以下步骤:
S11:获取预设时间区域内的数据集,搜索预设时间区域内缺失的数据序列,以及缺失的数据序列对应的时间序列;
S12:根据缺失的数据序列对应的时间序列,构建基于时间序列的多重插补模型;所述多重插补模型可为DA多重插补模型。
S13:根据所述多重插补模型,计算所述缺失的数据序列对应的时间序列处的多个中间插补值;
S14:从所述多个中间插补值中获取预测误差最小的插补值序列,作为所述缺失的数据对应的最终插补值序列;
S15:在所述缺失的数据对应的时间处,利用所述最终插补值序列替换所述缺失的数据序列。
本实施方式中的数据可为电能量数据,也可以风场数据,风场数据也是不固定的,一般不满足同一分布。本实施方式中的数据也可以为温度、压力数据等等。
本实施方式的基于时间序列的多重插补模型是常均值模型,是一种简单的正态动态线性模型,能够把时间对缺失数据大小的影响表现出来。如果当期观测数据分布的均值是正态分布,那么在前一期观测数据的均值已知条件下也是正态分布,且前一期观测数据可为当期观测数据的常均值模型的状态方程部分。不仅充分考虑数据在连续时间内的演进过程,还考虑电能量数据在连续时期内的演进过程,每一期观测数据分布实际上都有一定的变化,较短时期内,数据大体上是固定不变的,但在一段较长的时期内可能是有显著的变化,通过状态方程均值分布的模型参数可以描述这种变化。例如2017年1月1日6:00至2017年1月2日6:00为第一期观测数据,2017年1月2日6:00至2017年1月3 日6:00为第二期观测数据,第一期观测数据与第二期观测数据均为正态分布,但第一期观测数据与第二期观测数据可能不相同,可能为不同一正态分布。
在一个实施例中,所述数据集在插补处理前后均满足如下贝叶斯常均值模型;
观测方程:yt=μt+vt,vt~Np(0,Vt),t=1,2,...,T
状态方程:μt=μt-1+wt,wt~Np(0,Wt)
初始信息:μ0|D0~Np(m0,C0)
yt为截止到t时刻的数据集,μt为t时刻数据的期望向量,且随时间是变化的,μt-1为t-1时刻数据的期望向量,vt为t时刻数据的观测误差,Wt为μt相对于μt-1的状态误差,Wt和Vt均为零均值正态分布的协方差矩阵,μ0为初始时刻的期望向量,D0为初始时刻的数据集,m0为初始时刻的先验估计,C0为m0的误差。其中,观测和状态误差序列{vt}和{wt}相互独立,且在不同的时期的每一序列内部之间相互独立,当Wt=0时,状态方程退化为恒等式,动态正态模型退化为静态正态模型。
常均值模型法的基本特点有:①模型参数是随机变量,有初始的先验分布;②模型参数随时间变化,在每一指定时刻,模型参数的先验分布是过去所有信息的综合;③模型参数的后验分布是当前信息与先验分布的综合,随时间推移不断进行修正;④对未来的预测分布基于当前时刻的后验分布。
例如,所述数据集Y=(y1,Y2,...,yT)′,所述数据集包括T个时期的p维数据,令所述数据集Y=(Yobs,Ymis),其中,Yobs为观测数据集,Ymis为缺失数据集;
所述计算缺失的数据的初始插补值的步骤包括以下步骤:
给定观测数据Yobs和当前模型参数估计值,按照如下公式计算完全数据对数似然函数lnp(Yobs,Ymis|θ)关于缺失数据Ymis的期望:
其中,θ(i)为当前模型参数的估计值,Yobs与θ(i)为常数,θ为待优化的参数, f(ymis(i),Yobs)是缺失数据Ymis的边缘密度函数,D为Ymis的取值空间;
若缺失数据Ymis服从分布f(ymis(i),Yobs)=f(ymis,Yobs(i)/f(Yobs(i)),则所述完全数据对数似然函数为:
极大化所述完全数据对数似然函数的期望值;
获取参数θ(i+1),并令参数其中,Θ代表参数θ(i+1)的取值空间;
将参数θ(i+1)作为模型参数θ(i)的收敛阈值;
对应所述模型参数θ(i)的收敛阈值,获取缺失数据Ymis的估计值,作为所述缺失数据Ymis的初始插补值。
可根据贝叶斯方法预测每个缺失值的多次插补值,得到多个完整数据集合,分析综合后得到最终插补值。
对于步骤S13,根据所述多重插补模型,计算所述缺失的数据对应的时间处的多个中间插补值的步骤包括:
根据贝叶斯方法预测所述数据集中每个缺失的数据的多重插补值,并对每个缺失的数据均预测N个多重插补值,对应得到N组多重插补数据;
将所述N组多重插补数据依次替换所述数据集的缺失的数据,得到N个完整的数据集;其中N个所述完整的数据集均满足所述贝叶斯常均值模型;
对于步骤S14,所述从所述多个中间插补值中获取预测误差最小的插补值,作为所述缺失的数据对应的最终插补值的步骤是:计算所述N个完整的数据集中每个完整的数据集的平均绝对预测误差,并获取最小平均绝对预测误差对应的完整的数据集,提取所述完整的数据集的多重插补数据,作为所述数据集的最终插补值。
记t时刻的信息集Dt={yt′,Dt-1},若t时刻的数据缺失,则利用插补值yt′代替yt中的缺失值,不缺失时为观测值,参数为θt={μt,Vt},参数空间为Θt
具体地,所述根据所述多重插补模型,计算所述缺失的数据对应的时间处的多个中间插补值的步骤包括:
获取t-1时刻数据的后验分布p(θt-1|Dt-1),t-1时刻数据的后验分布 p(θt-1|Dt-1)为:
μt-1|Vt-1,Dt-1~Np(mt-1,Ct-1)
其中,Dt-1为t-1时刻的信息集,Dt-1符合正态分布的期望向量μt-1;μt-1为 t-1时刻数据的期望向量,Vt-1为t-1时刻数据的观测误差;Ct-1为mt-1的误差,mt-1为先验估计;
根据t-1时刻数据的后验分布p(θt-1|Dt-1),获取t时刻数据的先验分布 p(θt|Dt-1);计算出的t时刻的先验分布p(θt|Dt-1)为:
μt|Vt,Dt-1~Np(mt-1,Ct-1+Wt);
其中Dt-1为t-1时刻的信息集,Dt-1符合正态分布;μt为t时刻数据的期望向量,Vt为t时刻数据的观测误差;Wt为μt相对于μt-1的状态误差;Ct-1为mt-1的误差,mt-1为先验估计;
若t时刻的数据缺失,则求取t时刻数据的预测分布p(ymis,t|,Dt-1),将预测值作为t时刻的插补值,然后求t时刻的后验分布p(θt|Dt);
所述t时刻的预测分布p(ymis,t|,Dt-1)为:
ymis,t|Dt-1~Np(mt-1,p,Ct-1+Wt+Vt)
其中,ymis,t为t时刻的缺失数据,Dt-1为t-1时刻的信息集,Ct-1为mt-1的误差,mt-1为先验估计,Wt为μt相对于μt-1的状态误差,Vt为t时刻数据的观测误差;
因为,p(yt′|Dt-1)p(θt|Dt)=p(yt′|θt,Dt-1)p(θt|Dt-1),因此,t时刻的后验分布为p(θt|Dt):p(θt|Dt)∝p(yt′|θt,Dt-1)p(θt|Dt-1)=p(yt′|θt)p(θt|Dt-1)
μt|Dt~Np(mt,Ct)
其中,mt为后验估计,μt为t时刻数据的期望向量,Dt为t时刻的信息集, Ct为mt的误差。并且后验估计mt为先验估计mt-1与插补值值y′t的加权平均,并满足如下公式:
mt=mt-1+At(y′t-mt-1)
其中,At为加权平均参数,并满足如下公式:
Ct=Ct-1+Wt-AtAt′(Ct-1+Wt+Vt)
当先验分布比似然分布更集中时,At更接近0,当似然分布比先验分布更集中时,At更接近1。
计算出t时刻的预测分布以及后验分布后,可从抽取中间插补值。
所述依次从所述预测分布和后验分布重复抽取样本,作为中间插补值的步骤是:
依次从预测分布和后验分布抽取样本,重复如下两个抽取步骤:
中抽取作为中间插补值;
中抽取作为中间插补值;
根据抽取值建立马氏链其中,k=0、1、2…..N,可结合EM插补算法计算出的初始插补值以及抽取的中间插补值,建立马氏链;
当所述马氏链收敛于一个稳定分布时,从收敛的分布中随机抽取N个多重插补值,替代t时刻缺失数据。
上述缺失数据的插补处理方法,利用多重插模型对缺失数据进行插补,在多重插补过程中产生多个中间插补值,利用插补值之间的变异性来反映缺失数据的不确定性,并且替换缺失的数据的插补值是预测误差最小的插补值,与原始数据相比,误差较小。并且,有的数据例如电能量数据是随时间波动的,不同的时期的电能数据每天的电能量数据可能不一样,例如工作日的用电高峰(早晚)和用电低谷(上午和下午)时电能量数据显然不是同一分布,随时间呈波动特性,而周末的电能量数据分布会比较均匀,所述多重插补模型充分考虑电能量数据在用电高峰和低谷等不同状态下的时间波动性,对电能量缺失数据进行合理补值,能够准确描述缺失数据。
一种缺失数据的插补处理装置,包括:
缺失数据搜索模块,用于获取预设时间区域内的数据集,搜索预设时间区域内缺失的数据序列,以及缺失的数据序列对应的时间序列;
多重插补模型构建模块,用于根据缺失的数据序列对应的时间序列,构建基于时间序列的多重插补模型;
中间插补值计算模块,用于根据所述多重插补模型,计算所述缺失的数据序列对应的时间序列处的多个中间插补值;
最终插补值获取模块,用于从所述多个中间插补值中获取预测误差最小的插补值序列,作为所述缺失的数据对应的最终插补值序列;
缺失数据替换模块,用于在所述缺失的数据对应的时间处,利用所述最终插补值序列替换所述缺失的数据序列。
本发明的缺失数据的插补处理装置与缺失数据的插补处理方法一一对应,在上述缺失数据的插补处理方法的实施例阐述的技术特征及其有益效果均适用于所述缺失数据的插补处理装置的实施例中,特此声明。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能组合都进行描述,然而只要这些技术特征的组合不存在矛盾,都应当是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施例,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种缺失数据的插补处理方法,其特征在于,包括以下步骤:
获取预设时间区域内的数据集,搜索预设时间区域内缺失的数据序列,以及缺失的数据序列对应的时间序列;
根据缺失的数据序列对应的时间序列,构建基于所述时间序列的多重插补模型;
根据所述多重插补模型,计算所述缺失的数据序列对应的时间序列处的多个中间插补值;
从所述多个中间插补值中获取预测误差最小的插补值序列,作为所述缺失的数据对应的最终插补值序列;
在所述缺失的数据对应的时间处,利用所述最终插补值序列替换所述缺失的数据序列。
2.根据权利要求1所述的缺失数据的插补处理方法,其特征在于,所述数据集在插补处理前后均满足如下贝叶斯常均值模型;
观测方程:yt=μt+vt,vt~Np(0,Vt),t=1,2,...,T;
状态方程:μt=μt-1+wt,wt~Np(0,Wt);
初始信息:μ0|D0~Np(m0,C0);
yt为截止到t时刻的数据集,μt为t时刻数据的期望向量,且随时间是变化的,μt-1为t-1时刻数据的期望向量,vt为t时刻数据的观测误差,Wt为μt相对于μt-1的状态误差,Wt和vt均为零均值正态分布的协方差矩阵,μ0为初始时刻的期望向量,D0为初始时刻的数据集,m0为初始时刻的先验估计,C0为m0的误差。
3.根据权利要求2所述的缺失数据的插补处理方法,其特征在于,所述根据所述多重插补模型,计算所述缺失的数据序列对应的时间序列处的多个中间插补值的步骤包括:
根据贝叶斯方法预测所述数据集中每个缺失的数据序列的多重插补值,并对每个缺失的数据均预测N个多重插补值,对应得到N组多重插补数据;
将所述N组多重插补数据依次替换所述数据集的缺失的数据,得到N个完整的数据集;其中N个所述完整的数据集均满足所述贝叶斯常均值模型;
所述从所述多个中间插补值中获取预测误差最小的插补值,作为所述缺失的数据对应的最终插补值的步骤是:计算所述N个完整的数据集中每个完整的数据集的平均绝对预测误差,并获取最小平均绝对预测误差对应的完整的数据集,提取所述完整的数据集的多重插补数据,作为所述数据集的最终插补值。
4.根据权利要求3所述的缺失数据的插补处理方法,其特征在于,所述根据所述多重插补模型,计算所述缺失的数据序列对应的时间序列处的多个中间插补值的步骤包括:
获取t-1时刻数据的后验分布p(θt-1|Dt-1);
根据t-1时刻数据的后验分布p(θt-1|Dt-1),获取t时刻数据的先验分布p(θt|Dt-1);
若t时刻的数据缺失,则求取t时刻数据的预测分布p(ymis,t|,Dt-1),将预测值作为t时刻的插补值,然后求t时刻的后验分布p(θt|Dt);
若t时刻的数据缺失,则依次从所述预测分布和后验分布重复抽取样本,作为中间插补值。
5.根据权利要求4所述的缺失数据的插补处理方法,其特征在于,
所述t-1时刻数据的后验分布p(θt-1|Dt-1)为:
μt-1|Vt-1,Dt-1~Np(mt-1,Ct-1)
其中,Dt-1为t-1时刻的信息集,Dt-1符合正态分布;μt-1为t-1时刻数据的期望向量,Vt-1为t-1时刻数据的观测误差;Ct-1为后验估计,mt-1为先验估计;
所述根据所述t-1时刻的后验分布p(θt-1|Dt-1),计算出的t时刻的先验分布p(θt|Dt-1)为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;theta;</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>D</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Integral;</mo> <msub> <mi>&amp;Theta;</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </munder> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;theta;</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>&amp;theta;</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>D</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mi>d</mi> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;theta;</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <msub> <mi>D</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munder> <mo>&amp;Integral;</mo> <msub> <mi>&amp;Theta;</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </munder> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;theta;</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>&amp;theta;</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;theta;</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <msub> <mi>D</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>d&amp;theta;</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
μt|Vt,Dt-1~Np(mt-1,Ct-1+Wt);
其中Dt-1为t-1时刻的信息集,Dt-1符合正态分布;μt为t时刻数据的期望向量,Vt为t时刻数据的观测误差;Wt为μt相对于μt-1的状态误差;Ct-1为mt-1的误差,mt-1为先验估计;
所述t时刻的预测分布p(ymis,t|,Dt-1)为:
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>|</mo> <mo>,</mo> <msub> <mi>D</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Integral;</mo> <msub> <mi>&amp;Theta;</mi> <mi>t</mi> </msub> </munder> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>&amp;theta;</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mi>d</mi> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;theta;</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>D</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow>
ymis,t|Dt-1~Np(mt-1,p,Ct-1+Wt+Vt)
其中,ymis,t为t时刻的缺失数据,Dt-1为t-1时刻的信息集,Ct-1为mt-1的误差,mt-1为先验估计,Wt为μt相对于μt-1的状态误差,Vt为t时刻数据的观测误差;
所述t时刻的后验分布为p(θt|Dt):
p(θt|Dt)∝p(yt′|θt,Dt-1)p(θt|Dt-1)=p(yt′|θt)p(θt|Dt-1)
μt|Dt~Np(mt,Ct
其中,mt为后验估计,μt为t时刻数据的期望向量,Dt为t时刻的信息集,Ct为mt的误差。
6.根据权利要求5所述的缺失数据的插补处理方法,其特征在于,
后验估计mt为先验估计mt-1与插补值y′t的加权平均,并满足如下公式:
mt=mt-1+At(y′t-mt-1)
其中,At为加权平均参数,并满足如下公式:
Ct=Ct-1+Wt-AtAt′(Ct-1+Wt+Vt)
当先验分布比似然分布更集中时,At更接近0,当似然分布比先验分布更集中时,At更接近1。
7.根据权利要求5所述的缺失数据的插补处理方法,其特征在于,所述依次从所述预测分布和后验分布重复抽取样本,作为中间插补值的步骤是:
依次从预测分布和后验分布抽取样本,重复如下两个抽取步骤:
中抽取作为中间插补值;
中抽取作为中间插补值;
根据抽取值建立马氏链… …;其中k=0、1、2…..N;
当所述马氏链收敛于一个稳定分布时,从收敛的分布中随机抽取N个多重插补值,替代t时刻缺失数据。
8.根据权利要求6所述的缺失数据的插补处理方法,其特征在于,所述建立马氏链……的步骤包括:
根据EM插补算法计算缺失的数据的初始插补值;
结合所述初始插补值建立所述建立马氏链… …。
9.权利要求6所述的缺失数据的插补处理方法,其特征在于,所述数据集Y=(y1,y2,...,yT)′,包括T个时期的p维数据,令所述数据集Y=(Yobs,Ymis),其中,Yobs为观测数据集,Ymis为缺失数据集;
所述计算缺失的数据的初始插补值的步骤包括以下步骤:
给定观测数据Yobs和当前模型参数估计值,按照如下公式计算完全数据对数似然函数lnp(Yobs,Ymis|θ)关于缺失数据Ymis的期望:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>g</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>|</mo> <msup> <mi>&amp;theta;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msub> <mi>Y</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>E</mi> <mo>&amp;lsqb;</mo> <mi>ln</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>Y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> </mrow> </msub> <mo>|</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>|</mo> <msub> <mi>Y</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> </mrow> </msub> <mo>,</mo> <msup> <mi>&amp;theta;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>&amp;rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <msub> <mo>&amp;Integral;</mo> <mrow> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> </mrow> </msub> <mo>&amp;Element;</mo> <mi>D</mi> </mrow> </msub> <mi>ln</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>Y</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> </mrow> </msub> <mo>|</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> </mrow> </msub> <mo>|</mo> <msup> <mi>&amp;theta;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msub> <mi>Y</mi> <mrow> <mi>o</mi> <mi>h</mi> <mi>s</mi> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>dy</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,θ(i)为当前模型参数的估计值,Yobs与θ(i)为常数,θ为待优化的参数,f(ymis(i),Yobs)是缺失数据Ymis的边缘密度函数,D为Ymis的取值空间;
若缺失数据Ymis服从分布f(ymis(i),Yobs)=f(ymis,Yobs(i))/f(Yobs(i)),则所述完全数据对数似然函数为:
<mrow> <mi>g</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>|</mo> <msup> <mi>&amp;theta;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msub> <mi>Y</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&amp;Integral;</mo> <mrow> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> </mrow> </msub> <mo>&amp;Element;</mo> <mi>D</mi> </mrow> </msub> <mi>ln</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>Y</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> </mrow> </msub> <mo>|</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>Y</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> </mrow> </msub> <mo>|</mo> <msup> <mi>&amp;theta;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <msub> <mi>dy</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> </mrow> </msub> </mrow>
极大化所述完全数据对数似然函数的期望值;
获取参数θ(i+1),并令参数其中,Θ代表参数θ(i+1)的取值空间;
将参数θ(i+1)作为模型参数θ(i)的收敛阈值;
对应所述模型参数θ(i)的收敛阈值,获取缺失数据Ymis的估计值,作为所述缺失数据Ymis的初始插补值。
10.一种缺失数据的插补处理装置,其特征在于,包括:
缺失数据搜索模块,用于获取预设时间区域内的数据集,搜索预设时间区域内缺失的数据序列,以及缺失的数据序列对应的时间序列;
多重插补模型构建模块,用于根据缺失的数据序列对应的时间序列,构建基于时间序列的多重插补模型;
中间插补值计算模块,用于根据所述多重插补模型,计算所述缺失的数据序列对应的时间序列处的多个中间插补值;
最终插补值获取模块,用于从所述多个中间插补值中获取预测误差最小的插补值序列,作为所述缺失的数据对应的最终插补值序列;
缺失数据替换模块,用于在所述缺失的数据对应的时间处,利用所述最终插补值序列替换所述缺失的数据序列。
CN201710884190.1A 2017-09-26 2017-09-26 缺失数据的插补处理方法及装置 Pending CN107577649A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710884190.1A CN107577649A (zh) 2017-09-26 2017-09-26 缺失数据的插补处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710884190.1A CN107577649A (zh) 2017-09-26 2017-09-26 缺失数据的插补处理方法及装置

Publications (1)

Publication Number Publication Date
CN107577649A true CN107577649A (zh) 2018-01-12

Family

ID=61038547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710884190.1A Pending CN107577649A (zh) 2017-09-26 2017-09-26 缺失数据的插补处理方法及装置

Country Status (1)

Country Link
CN (1) CN107577649A (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108519989A (zh) * 2018-02-27 2018-09-11 国网冀北电力有限公司电力科学研究院 一种日电量缺失数据的还原追溯方法及装置
CN108734596A (zh) * 2018-04-09 2018-11-02 天津农学院 一种水产养殖水质监测缺失数据的时间序列插补方法
CN108846555A (zh) * 2018-05-24 2018-11-20 四川大学 一种电力负荷大数据缺失值的高效精确填补法
CN109726503A (zh) * 2019-01-12 2019-05-07 国电联合动力技术有限公司 缺失数据填补方法及装置
CN109947812A (zh) * 2018-07-09 2019-06-28 平安科技(深圳)有限公司 连续缺失值填充方法、数据分析装置、终端及存储介质
CN110058971A (zh) * 2019-04-24 2019-07-26 华中科技大学无锡研究院 风电场scada数据缺失的智能修复方法
CN110136415A (zh) * 2019-04-19 2019-08-16 中国农业科学院农业资源与农业区划研究所 一种冷链温度监测系统及控制方法
CN110162744A (zh) * 2019-05-21 2019-08-23 天津理工大学 一种基于张量的车联网数据缺失多重估计新方法
CN111062002A (zh) * 2019-12-14 2020-04-24 广西电网有限责任公司电力科学研究院 一种基于误差反馈的电力负荷数据插补方法
CN111143344A (zh) * 2019-12-31 2020-05-12 新奥数能科技有限公司 一种用于时间序列数据缺失的补全方法及装置
CN111443163A (zh) * 2020-03-10 2020-07-24 中国科学院深圳先进技术研究院 一种臭氧缺失数据的插补方法、装置及插补设备
JP2020522774A (ja) * 2018-05-10 2020-07-30 平安科技(深▲せん▼)有限公司Ping An Technology (Shenzhen) Co.,Ltd. サーバ、金融時系列データの処理方法及び記憶媒体
CN111667117A (zh) * 2020-06-10 2020-09-15 上海积成能源科技有限公司 一种电力负荷预测中应用贝叶斯估计补充缺失值的方法
CN111768045A (zh) * 2020-07-03 2020-10-13 上海积成能源科技有限公司 一种居民用电管理中应用多重插补补充居民用电缺失数据的方法
CN111831631A (zh) * 2019-04-22 2020-10-27 发那科株式会社 缺失值补全装置、缺失值补全方法以及计算机可读介质
CN111966676A (zh) * 2020-09-04 2020-11-20 上海积成能源科技有限公司 一种居民用电数据挖掘中应用贝叶斯估计补充缺失值的方法
CN112084577A (zh) * 2020-08-24 2020-12-15 智慧航海(青岛)科技有限公司 一种基于仿真试验数据的数据处理方法
CN112364910A (zh) * 2020-11-05 2021-02-12 长安大学 基于峰值聚类高速公路收费数据异常事件检测方法及装置
CN112784744A (zh) * 2021-01-22 2021-05-11 北京航空航天大学 一种具有缺失值的机械构件振动信号预处理方法
WO2021098214A1 (zh) * 2019-11-19 2021-05-27 平安科技(深圳)有限公司 数据样本获取方法、装置、电子设备及存储介质
CN113569972A (zh) * 2021-08-03 2021-10-29 中国科学院地理科学与资源研究所 气象数据插补方法、装置、电子设备及存储介质
CN114385619A (zh) * 2022-03-23 2022-04-22 山东省计算中心(国家超级计算济南中心) 一种多通道海洋观测时序标量数据缺失值预测方法及系统
CN114757589A (zh) * 2022-06-14 2022-07-15 深圳市拓安信计控仪表有限公司 数据处理方法、服务器及存储介质
CN116502050A (zh) * 2023-06-25 2023-07-28 中国农业科学院农业资源与农业区划研究所 全球通量站点蒸散发观测缺失的动态插补方法与系统
CN116627953A (zh) * 2023-05-24 2023-08-22 首都师范大学 一种地下水位监测数据缺失的修复方法
CN116701371A (zh) * 2023-06-09 2023-09-05 中国科学院地理科学与资源研究所 协方差分析下大气温度数据缺失值插补方法及其插补装置
CN111831631B (zh) * 2019-04-22 2024-10-25 发那科株式会社 缺失值补全装置、缺失值补全方法以及计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117988A (zh) * 2015-10-14 2015-12-02 国家电网公司 一种电力系统中缺失数据插补的方法
CN105447620A (zh) * 2015-11-10 2016-03-30 广西电网有限责任公司电力科学研究院 一种电能量缺失值自动处理的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117988A (zh) * 2015-10-14 2015-12-02 国家电网公司 一种电力系统中缺失数据插补的方法
CN105447620A (zh) * 2015-11-10 2016-03-30 广西电网有限责任公司电力科学研究院 一种电能量缺失值自动处理的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谷海彤 等: "DA多重插补法在电网电能量数据缺失处理中的应用", 《广西科技大学学报》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108519989A (zh) * 2018-02-27 2018-09-11 国网冀北电力有限公司电力科学研究院 一种日电量缺失数据的还原追溯方法及装置
CN108734596A (zh) * 2018-04-09 2018-11-02 天津农学院 一种水产养殖水质监测缺失数据的时间序列插补方法
JP2020522774A (ja) * 2018-05-10 2020-07-30 平安科技(深▲せん▼)有限公司Ping An Technology (Shenzhen) Co.,Ltd. サーバ、金融時系列データの処理方法及び記憶媒体
CN108846555A (zh) * 2018-05-24 2018-11-20 四川大学 一种电力负荷大数据缺失值的高效精确填补法
CN108846555B (zh) * 2018-05-24 2021-09-24 四川大学 一种电力负荷大数据缺失值的高效精确填补法
CN109947812A (zh) * 2018-07-09 2019-06-28 平安科技(深圳)有限公司 连续缺失值填充方法、数据分析装置、终端及存储介质
WO2020010677A1 (zh) * 2018-07-09 2020-01-16 平安科技(深圳)有限公司 连续缺失值填充方法、数据分析装置、终端及存储介质
CN109947812B (zh) * 2018-07-09 2023-11-10 平安科技(深圳)有限公司 连续缺失值填充方法、数据分析装置、终端及存储介质
CN109726503A (zh) * 2019-01-12 2019-05-07 国电联合动力技术有限公司 缺失数据填补方法及装置
CN110136415A (zh) * 2019-04-19 2019-08-16 中国农业科学院农业资源与农业区划研究所 一种冷链温度监测系统及控制方法
CN111831631B (zh) * 2019-04-22 2024-10-25 发那科株式会社 缺失值补全装置、缺失值补全方法以及计算机可读介质
CN111831631A (zh) * 2019-04-22 2020-10-27 发那科株式会社 缺失值补全装置、缺失值补全方法以及计算机可读介质
CN110058971A (zh) * 2019-04-24 2019-07-26 华中科技大学无锡研究院 风电场scada数据缺失的智能修复方法
CN110058971B (zh) * 2019-04-24 2023-04-18 华中科技大学无锡研究院 风电场scada数据缺失的智能修复方法
CN110162744A (zh) * 2019-05-21 2019-08-23 天津理工大学 一种基于张量的车联网数据缺失多重估计新方法
CN110162744B (zh) * 2019-05-21 2023-01-17 天津理工大学 一种基于张量的车联网数据缺失多重估计新方法
WO2021098214A1 (zh) * 2019-11-19 2021-05-27 平安科技(深圳)有限公司 数据样本获取方法、装置、电子设备及存储介质
CN111062002A (zh) * 2019-12-14 2020-04-24 广西电网有限责任公司电力科学研究院 一种基于误差反馈的电力负荷数据插补方法
CN111143344A (zh) * 2019-12-31 2020-05-12 新奥数能科技有限公司 一种用于时间序列数据缺失的补全方法及装置
CN111443163A (zh) * 2020-03-10 2020-07-24 中国科学院深圳先进技术研究院 一种臭氧缺失数据的插补方法、装置及插补设备
CN111667117A (zh) * 2020-06-10 2020-09-15 上海积成能源科技有限公司 一种电力负荷预测中应用贝叶斯估计补充缺失值的方法
CN111768045A (zh) * 2020-07-03 2020-10-13 上海积成能源科技有限公司 一种居民用电管理中应用多重插补补充居民用电缺失数据的方法
CN112084577A (zh) * 2020-08-24 2020-12-15 智慧航海(青岛)科技有限公司 一种基于仿真试验数据的数据处理方法
CN112084577B (zh) * 2020-08-24 2023-11-17 智慧航海(青岛)科技有限公司 一种基于仿真试验数据的数据处理方法
CN111966676A (zh) * 2020-09-04 2020-11-20 上海积成能源科技有限公司 一种居民用电数据挖掘中应用贝叶斯估计补充缺失值的方法
CN112364910A (zh) * 2020-11-05 2021-02-12 长安大学 基于峰值聚类高速公路收费数据异常事件检测方法及装置
CN112364910B (zh) * 2020-11-05 2022-10-28 长安大学 基于峰值聚类高速公路收费数据异常事件检测方法及装置
CN112784744A (zh) * 2021-01-22 2021-05-11 北京航空航天大学 一种具有缺失值的机械构件振动信号预处理方法
CN113569972A (zh) * 2021-08-03 2021-10-29 中国科学院地理科学与资源研究所 气象数据插补方法、装置、电子设备及存储介质
CN114385619A (zh) * 2022-03-23 2022-04-22 山东省计算中心(国家超级计算济南中心) 一种多通道海洋观测时序标量数据缺失值预测方法及系统
CN114757589A (zh) * 2022-06-14 2022-07-15 深圳市拓安信计控仪表有限公司 数据处理方法、服务器及存储介质
CN116627953A (zh) * 2023-05-24 2023-08-22 首都师范大学 一种地下水位监测数据缺失的修复方法
CN116627953B (zh) * 2023-05-24 2023-10-27 首都师范大学 一种地下水位监测数据缺失的修复方法
CN116701371A (zh) * 2023-06-09 2023-09-05 中国科学院地理科学与资源研究所 协方差分析下大气温度数据缺失值插补方法及其插补装置
CN116701371B (zh) * 2023-06-09 2024-03-22 中国科学院地理科学与资源研究所 协方差分析下大气温度数据缺失值插补方法及其插补装置
CN116502050B (zh) * 2023-06-25 2023-09-15 中国农业科学院农业资源与农业区划研究所 全球通量站点蒸散发观测缺失的动态插补方法与系统
CN116502050A (zh) * 2023-06-25 2023-07-28 中国农业科学院农业资源与农业区划研究所 全球通量站点蒸散发观测缺失的动态插补方法与系统

Similar Documents

Publication Publication Date Title
CN107577649A (zh) 缺失数据的插补处理方法及装置
Baker et al. Accelerating neural architecture search using performance prediction
Fukuoka et al. Wind speed prediction model using LSTM and 1D-CNN
EP3161527B1 (en) Solar power forecasting using mixture of probabilistic principal component analyzers
Gupta et al. Thompson sampling for dynamic multi-armed bandits
Douak et al. Kernel ridge regression with active learning for wind speed prediction
Chehade et al. A collaborative Gaussian process regression model for transfer learning of capacity trends between li-ion battery cells
CN110146822A (zh) 一种基于恒流充电过程的车用动力电池容量在线估计方法
Zhao et al. Tuning the hyper-parameters of CMA-ES with tree-structured Parzen estimators
CN107274028A (zh) 一种基于混合Copula函数的多风场出力预测方法
Gadsden et al. Model-based fault detection of a battery system in a hybrid electric vehicle
CN113595666A (zh) 大规模mimo系统基于时频联合相关性的信道预测方法和系统
Liu et al. A key-term separation based least square method for Hammerstein SOC estimation model
Bui et al. Clustered bandits
Chen et al. Maximum likelihood estimator of the location parameter under moving extremes ranked set sampling design
Wang et al. Forecasting electricity demand using Grey-Markov model
CN113610665B (zh) 一种基于多延迟输出回声状态网的风力发电功率预测方法
Pesah et al. Recurrent machines for likelihood-free inference
US11181873B2 (en) Bayesian estimation based parameter estimation for composite load model
Baingana et al. Switched dynamic structural equation models for tracking social network topologies
Pillonetto et al. Predictor estimation via Gaussian regression
Pinto et al. Improving Markov chain Monte Carlo estimators by coupling to an approximating chain
JP2017215669A (ja) 確率密度関数推定装置、連続値予測装置、方法、及びプログラム
Franken et al. Faster performance estimation for nas with embedding proximity score
Zheng et al. Time series predictions using multi-scale support vector regressions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200922

Address after: 510620 Tianhe District, Guangzhou, Tianhe South Road, No. two, No. 2, No.

Applicant after: Guangzhou Power Supply Bureau of Guangdong Power Grid Co.,Ltd.

Address before: 510620 Tianhe District, Guangzhou, Tianhe South Road, No. two, No. 2, No.

Applicant before: GUANGZHOU POWER SUPPLY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180112

RJ01 Rejection of invention patent application after publication